
在金融業環境中,維運系統不僅要可靠,還必須可查核、可追溯。
過去監控與告警設定多由 SRE 人工處理,缺乏標準化與稽核軌跡。
在內外部查核時,若需回答「誰在何時修改了什麼設定」,往往必須耗費大量時間蒐集與比對資料。
本次分享將介紹我們如何打造一套金融業級 SRE Portal,在自助治理與監管需求之間取得平衡。
透過建立告警模組化設計,讓應用團隊(AP)能自助設定監控規則,並由平台 API 驅動 Grafana 建立告警機制。
同時整合 Grafana API 與 Kubernetes API,產出服務資源使用報表,並設計完整的操作軌跡與稽核查詢機制。
核心設計重點包括:
這不只是一個自助平台,而是在高監管環境下,將 SRE 能力治理化與產品化的實戰經驗。
聽眾收穫:
中階
中文