Trend Micro
Senior Site Reliability Engineer
大家好,我是3ric,目前在Trend Micro擔任Trend Cloud One SRE Team Lead / Senior Site Reliability Engineer。
我非常喜歡Linux作業系統與混合雲環境建置。近期我投入時間重新複習作業系統原理,讓我對於系統優化有了更深的體悟。
這是一個在 AWS 上面運行超過10年的 Legacy Infra 效能瓶頸故事。故事中的架構很單純:
所以我們一直保持的尊敬的態度以及「不動」的原則對待這個 Legacy Infra。
直到某天服務開始不穩定觀察到CLB有很多SurgeQueueLength、SpilloverCount、5XX 錯誤,才開始研究這個 Legacy Infra 的瓶頸。
此分享會透過恐龍書(作業系統原理)的基礎知識來假設問題、驗證假設(其中包含與AWS Support對答案),到最後解決問題的完整過程分享。
聽眾收穫: