

國泰世華商業銀行
襄理
系統難的從來不是開發,而是設計得夠彈性,能承受未來。
作為系統分析師,每一次開規格,都像是在跟自己的腦袋打架。
「彈性」不只是思考怎麼做,而是反覆推演——
三個月後需求會不會調整?
一年後資料量會成長多少?
好不好維運?
錯誤處理夠不夠完整?
日後擴充現行的架構是否可以因應?
寫出功能不難,
難的是讓系統撐得住變化。
設計彈性,比寫程式更難。
但可靠性,從來不是事後補救,
而是事前設計。
在金融業環境中,維運系統不僅要可靠,還必須可查核、可追溯。
過去監控與告警設定多由 SRE 人工處理,缺乏標準化與稽核軌跡。
在內外部查核時,若需回答「誰在何時修改了什麼設定」,往往必須耗費大量時間蒐集與比對資料。
本次分享將介紹我們如何打造一套金融業級 SRE Portal,在自助治理與監管需求之間取得平衡。
透過建立告警模組化設計,讓應用團隊(AP)能自助設定監控規則,並由平台 API 驅動 Grafana 建立告警機制。
同時整合 Grafana API 與 Kubernetes API,產出服務資源使用報表,並設計完整的操作軌跡與稽核查詢機制。
核心設計重點包括:
這不只是一個自助平台,而是在高監管環境下,將 SRE 能力治理化與產品化的實戰經驗。
聽眾收穫: