
半夜收到告警,你還在手動 SSH、翻 Grafana、查 Log 拼湊原因嗎?
這場演講分享我們如何打造一個 AI Ops Agent,讓它像資深 SRE 一樣自主操作基礎設施:從 Prometheus 查指標、Loki 撈日誌、透過跳板 SSH 進邊緣站點,到最終產出結構化診斷報告。
我會展示完整的生產架構設計,包含:Discovery-First 模式避免 AI 幻覺、PreToolUse Hook 確保安全護欄、知識庫累積組織記憶,從收到告警到找出根因的全過程。這不是概念驗證,而是正在生產環境運行的實戰經驗。
聽眾收穫:
中階
中文