ポストモーテムとは
ポストモーテム(Postmortem)とは想定外のインシデントが発生した後に書かれる内部向けの報告書である。ポストモーテムの目的は組織的な学習であり、インシデントの細部を明らかにするために非難のない文化を重視する。ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれる。
ポストモーテムの作成
ポストモーテムを書くことの主な目的は、インシデントがドキュメント化されること、影響を及ぼしたすべての根本原因(群)が十分に理解されること、そして特に再発を防止するための予防策の導入である。
一般的に、以下のようなケースでポストモーテムが作成される。
・ユーザーに影響が及んだダウンタイムやデグレーションが一定の閾値を超えた場合
・種類の如何を問わず、データの損失が生じた場合
・オンコールエンジニアの介入が必要だった場合
・解決までの時間が一定の閾値を超えた場合
・モニタリングの障害
ポストモーテムにおけるコラボレーション
ポストモーテム作成において、コラボレーションと知識の共有は重要である。そのため、ポストモーテムを作成する時に使うツールは以下の特徴を備えていることが望ましいとされる。
・リアルタイムコラボレーション
リアルタイムコラボレーション機能があれば、データや着想を素早く集められるようになる。
・オープンなコメント/アノテーションシステム
ソリューションに関する衆知を集めることを容易にし、カバー可能な範囲が広がる。
・メールによる通知
ドキュメント内に記載されている協力者たちに通知を送ったり、情報やフィードバックを提供してもらいたい人たちを招待することができる。
レビューされていないポストモーテムは存在しないのと同義のため、積極的にレビューされ広範囲に共有されるようにするべきである。
非難のない文化とポストモーテム
ポストモーテムで批判を行わないことはSRE文化における信条である。もし批判が横行してしまえば、過失を犯した人間は処罰を恐れて何も語らなくなり、その背後にある本当の原因に気づくことができないからである。
非難のないポストモーテムについてはジョン・アレスポウ(John Allspaw)氏の以下の論文が詳しい。
https://codeascraft.com/2012/05/22/blameless-postmortems/
論文内で氏は非難のないポストモーテムの重要さと、システムとプロセスを改善する文化の大切さを説いている。
一例を挙げると、エンジニア自身によるより深い状況分析を「セカンドストーリー」とし、ファーストストーリーではなく、セカンドストーリーを追求するべきであるとしている。
ファーストストーリー
・ヒューマンエラーは失敗の原因である
・失敗を説明するには、その人物が何をしたかを示すだけで十分である
・人々により一層の注意を促すことで問題は解決される
セカンドストーリー
・ヒューマンエラーは組織全体の脆弱性である
・その人物が何をしたかは、なぜそうすることに意味があったのかを説明できていない
・一貫して脆弱性を追求する試みによってのみ、組織の安全性は高められる
レトロスペクティブとポストモーテム
レトロスペクティブ(振り返り)とポストモーテム(事後分析)はどちらも継続的な改良を支える重要なプラクティスである。
レトロスペクティブは定期的に、あるいはプロジェクト終了後に行われるセッションである。そこでは、うまく機能したことや将来のプロジェクトで改善すべきことが議論される。レトロスペクティブのスタイルは様々だが、通常は以下のようなテーマを取り上げる。
・何が起きたか
プロジェクトの範囲と内容。
・うまくいったことは何か
プロジェクトでうまくいったやり方は何か。将来のプロジェクトで使うべきものは何か。
・失敗したことは何か
うまくいかなかったことは何か。将来のプロジェクトで避けるべきことは何か。
このように、レトロスペクティブが計画的かつ定期的に行われる一方で、ポストモーテムは想定外のインシデントが発生した時に行われる。ポストモーテムは全社規模の学習であり、主に以下のようなテーマを扱う。
・何が起きたのか
インシデントの最初から最後までのタイムライン。コミュニケーションの内容やシステムのエラーログも含む。
・報告
インシデントに関わったすべてのメンバーが、事象発生中に考えたことを含め、インシデントについての自分の考えを提出する。
・改善事項
システムの安全性を高め、同様のインシデントの再発を防ぐために変えなければいけないこと。
ポストモーテム読書会
GoogleのSRE bookによれば、Googleでは定期的にポストモーテム読書会が開かれており、美味しい軽食とともに影響の大きいポストモーテムを取り上げるそうである。
以下はCAMPFIREにおけるポストモーテム読書会の試みである。
https://note.mu/campfire_dev/n/nfe332057001e
この記事が気に入ったらサポートをしてみませんか?