久々にやらかした話
気がついたら梅雨が明けてました。
東京は4回目の緊急事態宣言が出て、またしても
飲みにいけない
カラオケに行けない
そんな日々が続くのか、と思うと鬱々としてしまいますよね。
そんな日こそ運動をして、本を読んで自身の体調をしっかり整えながら節制をして、お金をためておくのが吉かなと。
そんで、ころなが明けたら思いっきり使ってやるんだ。
さてさて、今日は久々にやらかした話を書きます。
ミスの概要
仕事がIT系でシステム運用的なことやっていたりするので、詳細は省くんですが、結論から言うと
設定変更の適用が自動になっていて、サーバー再起動かかっちゃいました
まぁこれだけでヤバさがわかる人とそうでない人がいると思うのですが
冗長化されてたり、ユーザー影響ないようなただの管理サーバー的なものだったりで、結果的にユーザー影響はあリませんでした。
ですが、冗長化しているサーバーの再起動のタイミングが運悪く同じだった場合は、そのシステム止まってた可能性もある、というクリティカルになりかねないミスだったわけです。
報告までのアプローチ
これに気づいたのは、作業の直前2時間前くらい。
さて、事前に状態の確認でもしておくかな
と思ってサーバー見てみたら、
「あれ、昨日入れた設定がもう反映されてる。。。?」
サーっとなった自分は急いで自動更新の設定を確認すると
「おっふ、自動更新になっとるやんけ」
「あれ、これもしかして全台そうじゃね?」
もろもろ確認すると、
全台更新されていて、さらにサーバー再起動までしっかりかかっておりました。
急いで、もう一人のメンバーと確認を進めて
本日不在のリーダーに連絡をして、緊急報告MTGの準備を進めて
自分の方で情報整理して、報告をしたわけです。
で、これ系の報告って過去も何度も経験あるので
なぜだかこういう時ほど頭がフル回転して、情報整理から報告の仕方、話し方、諸々含めてスムーズに対応することできました。
もちろんテンパってはいるんですけど、こういうときほど冷静に淡々と事実をまとめることと、逆に自信を持って報告をすることで火の粉をこちらにむけられすぎないようにすることがコツですね。
原因は?
まぁ、事前確認の不足ですね。
本来であれば、この自動更新の設定がちゃんとなされているか、っていうのをみておく必要があったのですが、
自分があまり時間をかけられず、そこまでしっかり確認してなかったのが原因です。
作業的にはめちゃ簡単な作業なので、逆に優先度とかも低めでやっていた。
つまりは甘くみていたところがあったんですね。
もっと具体的にいうと、正直ナメてました。。。
この気の緩みが原因ではなかろうかと。
あとは、他責にするならば
「いや、そういう設定になってるっていうてたやん」
「そもそも運用とかについて何も聞いとらんのだけど、資料も残ってねーし」
ってのはあります。
ありますけど、それをいっても結局は自分の確認不足。
やらなかっただけ。
あともう一個、作業前日にメンバーと認識合わせした時に
事前に設定を配布する作業をやっていたんですよね。
でも各サーバーでは自動更新がオフになっているから、その設定はいれても大丈夫とのこと。
この話を聞いていたので、自分が設定を確認しなかったってのもある。
だってそれを疑うのも変じゃない?
けど、その設定入れていた時に「あれ?」って思ったんですよね。
自分が「あれ?」って思うときの感覚って大抵間違ってないんすよ。
なので自分の感覚に正直になって、そこは必ず自分自身でクリアにするべきだったなぁと。
でも大規模なプロジェクトのPMとかだったらいちいち自分では確認できないし。
でも今回あれって思っただけあって、やっとけばよかったなと後悔です。
この失敗からの学び
・しっかり事前準備と手順の認識合わせをする(どんな作業であっても)
・前提となる設定がある場合は、再度実機で確認をしておく。
ということは作業の際に前提条件は洗い出しておきましょう。
ってのはSIer時代は死ぬほどやってたのになぁ。
その辺りの手順書のノウハウも取り入れていきましょうかね。
なんだか本番作業手順書のレベルが低くなってきている気がするので、ドキュメントのレベルとか、作業のレベル感を統一させていきたい。
この記事が気に入ったらサポートをしてみませんか?