SRE 真的需要大量的閱讀跟實做,累積經驗才可以得到 SRE 的精髓,只好認真 K 書了
這篇為 網站可靠性工程工作手冊|導入SRE的實用方法
這本書的讀書筆記,線上閱讀版跟翻譯書的連結如下
讀書筆記跟實務上遇到的經驗都會整理一起
實施 SLO
- 沒有 SLO 就沒有 SRE
- SLI 是一種指標,鑑別服務水準
- 度量的比例當作 CLI, 例如: 良好事件的數量除以事件總數
- SLI 因為是比例-所以數值範圍會是 0 ~ 100%
- SLO 是目標百分比, 犯錯預算是 100% - SLO
- 制訂 SLI 時,可以用規格和實做兩個層面制訂
- 規格: 覺得對使用者重要的服務產出之評估,是各自獨立不受量測方式影響。例如: 訪問首頁 100 ms 內能載入的比例
- 實做: SLI 規格測量方法
- SLO 需選擇適當的時窗
- SLO 是服務 external user,是與利害關係人間的協議,SLO 需要被文件化且公開
- 建立 error budget 政策 & dashboard
- 建立 SLO 遵從度報告 (Dashboard)
- SLO 目標持續改進, 可用 SLO 決策 metrics 來判斷接下來要調整的方向
參考文件: