DevOpsDays Taipei 2026 DevOpsDays Taipei 2026

講者資訊

秦芝儀

秦芝儀

國泰世華商業銀行
襄理

系統難的從來不是開發,而是設計得夠彈性,能承受未來。

作為系統分析師,每一次開規格,都像是在跟自己的腦袋打架。

「彈性」不只是思考怎麼做,而是反覆推演——

三個月後需求會不會調整?

一年後資料量會成長多少?

好不好維運?

錯誤處理夠不夠完整?

日後擴充現行的架構是否可以因應?

寫出功能不難,

難的是讓系統撐得住變化。

設計彈性,比寫程式更難。

但可靠性,從來不是事後補救,

而是事前設計。

演講議程

打造金融業 SRE Portal:在高監管環境下實現自助治理與可靠性工程

在金融業環境中,維運系統不僅要可靠,還必須可查核、可追溯。

過去監控與告警設定多由 SRE 人工處理,缺乏標準化與稽核軌跡。

在內外部查核時,若需回答「誰在何時修改了什麼設定」,往往必須耗費大量時間蒐集與比對資料。

本次分享將介紹我們如何打造一套金融業級 SRE Portal,在自助治理與監管需求之間取得平衡。

透過建立告警模組化設計,讓應用團隊(AP)能自助設定監控規則,並由平台 API 驅動 Grafana 建立告警機制。

同時整合 Grafana API 與 Kubernetes API,產出服務資源使用報表,並設計完整的操作軌跡與稽核查詢機制。

核心設計重點包括:

  • 告警模組化與標準化架構設計
  • Kubernetes API 與監控 API 的整合策略
  • 可稽核的告警設定軌跡機制
  • 查核導向的報表與操作軌跡設計

這不只是一個自助平台,而是在高監管環境下,將 SRE 能力治理化與產品化的實戰經驗。


聽眾收穫:

  • 理解如何設計「可稽核」的監控自動化流程
  • 理解透過 API 驅動 Grafana 告警設定的設計機制
  • 掌握 Kubernetes API 在服務資源盤點上的應用方式
  • 了解如何將操作軌跡與查核需求納入系統設計
  • 思考如何在自助與治理之間取得平衡
詳細介紹