見出し画像

[書評]入門監視を読みました。

入門監視とは?

https://www.oreilly.co.jp/books/9784873118642/

システムを運用する際に、必要となる 監視 について書かれた本です。

本は11章からなり、監視のパターンからフロント・サーバ監視戦略といった章があります。本としては200Pしかないにも関わらず、幅広い内容を扱っています。

目次: 
1章 監視のアンチパターン
2章 監視のデザインパターン
3章 アラート、オンコール、インシデント管理
4章 統計入門
5章 ビジネスを監視する
6章 フロントエンド監視
7章 アプリケーション監視
8章 サーバ監視
9章 ネットワーク監視
10章 セキュリティ監視

読んだきっかけ

  自分がGLとして新たにはいってきた人も増えてきて、 Gr人員も増強されてきました。

今後さらに、システムを深化していくには、新機能追加などサービスの深化に耐えうる監視体制を構築・継続運用していきたいと考えています。構築するにあたり参考にしようと、本書を手にとりました。

以降、チームで特に使うべき箇所を中心に読んだ、感想を書いていきます。

※ 当たり前ですが弊社でもSREを中心にサーバ・セキュリティなど監視体制を築いています。

監視のアンチパターン

・サービス作るのと監視は1セット
・チェックボックス監視
・監視を支えにする

チェックボックス監視
 色々な現場でよくあることかもしれないと読んでいて共感しました。本では、解決策として、1.動いてるかどうかを監視、2.メトリクスの高頻度取得を上げていました。
自分のGrに置き換えて考えてみると、動いているかどうかは金融的な側面から判断する必要もあり、定義するのは大変ではありますが、意味のある監視を行うには必要なプロセスだと感じました。

監視を支えにする
 問題の解決のためにも必要ですね。時間をとったり、アラートが飛んだら対応策をセットで入れる必要があると思いました。

監視のデザインパターン

・ユーザ視点での監視
・作るのではなく買う
・継続的改善

ユーザ視点での監視
 まず第一に監視すべき項目はユーザ視点での監視だそうです。確かに、ユーザーに影響する項目をみれば、サーバ、DB...など複数の項目の中から影響が出ているはずで、問題に気づきやすくなると思いました。

継続的改善
 一丁一石では出来ないとのこと。開発Grを運営していると、色々な課題が舞い込んでくるのですが、監視については時間・Epicを切り出してしっかりとフォローできる仕組みが重要そうですね。

アラート、オンコール、インシデント管理

・手順書をかく
・アラート削除・チューニング
・常にアラートを見直す
・自動復旧を目指す

手順書をかく
 手順書が知識を広める良い方法となるとのことです。当たり前だと思っている知識って意外と他部署は知らなかったり、それが原因でコミュニケーションがうまく伝わらなくなったりしますよね。。

アラート削除・チューニング
 
アラートが多くなると集中力がそがれたり、重要な事象に気づかなくなりますよね。本書では書かれていないですが、最近自分が実感しているのは新しく入ってくる人は文脈がわからないため、適切なアクションが行えないことです。これはオンボーディングに明らかにマイナスになるので、チューニングは随時していけるように時間をとっていきたいです。

自動復旧を目指す
 手順書で確立された手法をコードとして実装するのは意識して対応していきたいです。

まとめ

自Grにおいて、今必要な箇所を書きましたが、フロント・サーバ管理など他にも有益な箇所は多かったです。

監視において、色々な項目が抑えられているので、担当が変わる際、読んでみたりすると役割に応じた新たな気付きが得られる良書だと思いました。

また、無意識に監視している際に考えていることが言語化されているので、タスクの指針を作成する際に重宝しました。

今回得た気づきを元に、自Grでも監視体制を構築・運用していきたいと思います。

この記事が気に入ったらサポートをしてみませんか?