當你聽到「事故」(系統故障或中斷)這個詞時,你會想到什麼?也許是「麻煩」、「深夜應對」或「痛苦」——許多人可能會將其與負面經驗聯繫起來。
隨著 DevOps 和 SRE 實踐的普及,開發系統的工程師也處理隨叫隨到的事故響應變得越來越普遍。 然而,即使在這樣的會議上,關於「事故發生時如何行動」或「事故發生後如何推動改進」的真實經驗分享機會卻出奇地少。
請允許我問您這個問題——在您的組織中,您會如何回答以下問題?
事故是「頻繁」發生還是「不頻繁」發生? 哪些事故對業務產生了最重大的影響? 2024 年,在發生一系列重大事故後,SmartNews 成立了一個為期六個月的特殊任務部隊——超棒變革團隊(Awesome Change Team),又名「ACT」,其使命是「減少事故」。 來自各領域的頂尖工程師在巨大的壓力下聚集在一起,「要在六個月內交付成果」。 我們的團隊衝到第一線——介入事故響應、深入挖掘數據,並每天推動持續改進。
在本次會議中,我將分享我們過去六個月的旅程——ACT 團隊如何在現場不斷嘗試和犯錯,以應對「減少事故」這個廣泛而複雜的挑戰。 我還將討論我們在實際操作中獲得的改進運營的實用見解。
「哪些行動才能真正減少第一線發生的事故?」 我們希望我們的經驗和教訓能為您自身的改進工作提供寶貴的啟示!
通識
英文
即時中英文翻譯