見出し画像

40代情シス女子、障害対応で週末が吹っ飛ぶ

外出先で呼び出された週末

 まあこんなん情シスの常といえば常なんですけれどね。
 最近はインシデント対応もテンプレを決めていて、週末にがっつり稼働なんて言うことはなかったので、つかれました(´;ω;`)

いろいろなことが起こりすぎて
語りつくせない状況ですが、これもまた情シス

トップからの緊急連絡で呼び出されたぞ

 以前はよくあったことですが、今は通報ルートも整ってますので、通常こんなことはなくてですねえ。

 「緊急通報用メールアドレス」ってあるんですよ。
 で、通報した人は、そこにメール出してたの。
 でも、残念ながら届いてなかったの(´;ω;`)
 で、大騒ぎになって、トップに連絡が来て、トップから直接通報が来たというそんな経緯であります。。。。

ということで、私に連絡が来たときには
もうがけっぷち。
「間に合わねえ!」みたいな状況でありました

週末に緊急体制が立ち上がったぞ

 まあそんなこんなで、外出先からトップの連絡を受け取って、こんな感じで動くことになりました。

・土曜日出社している社員に至急で連絡を取って現地での切り分けを指示
・外出先だったので、切り分けてもらっている間にすっ飛んで帰る。
(途中でお昼ご飯を確保)
・明らかにインフラ的な障害っぽかったので、サーバ側の状況をインフラ側のメンバーに確認してもらうように連携
・家に到着したところで、依頼していた切り分けやサーバ側の状況をチェックして全容を把握して体制確保に入る
・体制が確保できたところでユーザと本格的なやり取りを開始
・3時間ごとに緊急連絡MTGを行いながら順番に対応を取る

 で、まあ、大体の様子がわかりまして、対応に入ったわけであります。

各種サポートは、週末でも動いてくれるのか?

 まあこれは、ぶっちゃけ契約プランと緊急度に依ります。で、今回の場合、AWSさんの区分でいうところの「本番環境のビジネスクリティカルな
システム停止中」
という状況だったもので、このステータスで連携したら15分で回答が届きました。

 で、まあ今回の場合はサーバ側のヘルスチェックも真っ赤だったので、先方も状況はすぐに理解してくれました。

 しかし問題は、環境をあれこれカスタマイズしてたことでして。
 で、あれこれやり取りしているうちに「これは、すぐに解決するのは難しいので環境をクローンして作り直した方がいいでっせ。でもカスタマイズしているのであれば難しいかもしれないね」みたいな話に進展いたします。

 この時点で深夜0時を回っておりました。

 日曜日も対応は続くということで、いったんメンバーを休ませることにします。

執念で解決にたどり着くも。。。

 で、私もお風呂入って、明日も早いし寝るかーみたいにやっていたら、携帯が鳴り響きまして。

「原因判明しました!今環境復旧してますが、これで行けます!」

 という連絡が入ります。

もう、本当にギリギリだったもので、執念で復旧されたエンジニアの方には
救われたような気持になりましたよ

 しかしまあ、次の戦いに入るのです。

緊急ミッション:止まってしまったサービスのリカバリを週明けまでに実施せよ!

 そんなこんなでサービスは復旧したわけですが。今度は週明けの月曜日に向けて、業務の立て直しに入ります。

 通常だとこんな感じ。

・サービス復旧のアナウンス
・止まっていたバッチ類などの復旧
・エラーデータなどの調査および対応

 で、利用再開したら負荷集中してシステムが止まりまして(´;ω;`)
 緊急でスペック上げて対応しないと納期間に合わないぞとかそんなこんなのことをやって、本当に何とかギリギリ間に合ったのでありました。

障害復旧には、冷静さと、ユーザとの連携が欠かせない

 まあしかし、改めて今回はひやひやとさせられましたね。
 で、大事なのは冷静さで、リスクのある判断をしなければならないことが今回は何度もありましたが、何とか耐え抜きました。

 偉いぞ私。

 あとは、報告とか連絡体制をきちんと定めておくことは大事だと思いましたね。。。

 備えあれば憂いなしってヤツ。

 まあ、そんなこんなでいろいろとあった週末でした。
 おしまい。



この記事が気に入ったらサポートをしてみませんか?