見出し画像

深夜に重大障害発生したとき、技術者はこんな気持ちで対応しているという話

私はシステム運用の仕事を何年も行ってきたのですが、その中で障害に何度も遭遇しました。システムは24時間動いていますから、日曜だろうが祝日だろうが、深夜だろうが何のためらいもなく発生します。

世の中の重要システムは、データセンターの大規模なオペレーションルームで24時間監視されているんだ、と思っている一般の人は多いと思いますが、たいていそんなことはなく、監視サーバーが自動で監視しています。あらかじめ設定された監視条件を定期的にチェックしていて、問題があればアラートを発報するようになっています。

アラートはメールで届くようになっていれば、24時間、技術者がスマホを持っていれば受け取ることができます。でも寝ているときにメールが来ても気が付きませんし、メールが来るたびに起きていたら夜も眠れません。

このアラート対応のために夜間休日は人力で監視し、重大なものであれば担当者に電話をかけて対応してもらう、なんて体制を取っている企業も少なくないと思います。お疲れ様です。

しかし、夜間シフトを組むとなるとかなり費用がかかるので、私の守備範囲は電話をかけることも自動化しています。重大なアラートを監視システムが検知したら、自動音声で電話を担当者にかけるのです。メールは無視してもいいけど、電話は無視しないようにしよう、なんて対応で日々をしのいでいます。

日々の運用はそんなふうにしてできるだけ人手をかけず進めるのですが、今回はその電話を受けた後の話です。この電話を受けた担当者、今回は私は、どんな気持ちになるのか。そしてどうやってクローズまでこぎつけているか。そんな現場の話を生々しくまとめてみたいと思います。

障害対応についての記事はインターネットにたくさん存在していて、それは清く正しく美しく書かれているので、知識として学びたい方はそちらをみていただくとして、今回は「人の気持ち」にスポットライトを当ててみたいと思います。というのは、どんなに障害対応ルールを決めていたところで、この修羅場を乗り切れるかどうかは、人の気持ちによるところが大きいからです。

よく異世界転生モノの小説やRPGなどで、「オレがどれぐらい修羅場をくぐってきたと思ってるんだァァァァ!」という場面があると思うのですが、まさに障害対応、くぐってきた修羅場の数で、品質が大きく違います。

この、数値化できない経験値について、語ってみたいと思います。


ここから先は

4,188字

¥ 100

サポートをお待ちしています。サポート頂いたお金は、orangeitems photosの取材に利用して行きます。