「Webエンジニアのための監視システム実装ガイド」を読んだ

・きっかけ

職場にてAPM(Application Performance Monitoring)の導入が検討され始めたことから、体系的な知識の習得を目指して購入し読んだ。

・自分なりのまとめ

システム監視の目的は「定期的・継続的に観測し、異常を検知して復旧させること(狭義の監視)」から「定期的・継続的に観測し、システムの価値を維持・向上させる営みのすべて(広義の監視)」に拡大している。故障を減らす守りのITから、可用性を高めてユーザに提供する価値を高めるための攻めのITの領域に移行し続けている。

広義の監視を行うためには、異常検知を志向する「チェック志向」だけでなく、状況把握を志向する「メトリクス(指標値)志向」の監視システムが必要となっている。

昨今のクラウド化をはじめとするインフラ調達の容易化は、監視の高解像度化・異常検知時の自動修復機構そして可観測性(Observability)の重視をもたらした。

システムの監視は大きく「観測部分」「データ収集部分」「データ利用部分」の3つで構成される。ロックインに注意しつつシステムの特性や制約を適切なツールを組み合わせる。スモールスタート望ましいが、難しい場合はプロ(MSP事業者)に任せるのもあり。

監視項目は必ず正常な状態と対応方法がセットとなる。SLI(Service Level Indicator)を軸に正常な状態か判定し、対応方法は明確化(さらに言えば自動化)する。

監視システムが対応不要の事象を検知する(偽陽性)は監視システムの信頼性を損なうため極力減らす。一方大丈夫だと思ってたらダメだったパターン(偽陰性)は致命傷になるため、SLIに直接関わる項目は偽陰性を出さないことを優先する。

・良かった点

反セクショナリズムの記載など、著者の実務的な苦労が忍ばれる記述が多く、特にnoteは実践的な考え方が多くためになった。

・改善してほしい点

誤字脱字が多い。文意が通らない文章も散見されたので、査読すればより良くなると思った。

・まとめ

期待した監視システムに対する体系的な学習ができた。

次はSRE(サイトリライアビリティエンジニアリング)の本を読み進めたい。

この記事が気に入ったらサポートをしてみませんか?