40代情シス女子、障害対応で週末が吹っ飛ぶ
外出先で呼び出された週末
まあこんなん情シスの常といえば常なんですけれどね。
最近はインシデント対応もテンプレを決めていて、週末にがっつり稼働なんて言うことはなかったので、つかれました(´;ω;`)
トップからの緊急連絡で呼び出されたぞ
以前はよくあったことですが、今は通報ルートも整ってますので、通常こんなことはなくてですねえ。
「緊急通報用メールアドレス」ってあるんですよ。
で、通報した人は、そこにメール出してたの。
でも、残念ながら届いてなかったの(´;ω;`)
で、大騒ぎになって、トップに連絡が来て、トップから直接通報が来たというそんな経緯であります。。。。
週末に緊急体制が立ち上がったぞ
まあそんなこんなで、外出先からトップの連絡を受け取って、こんな感じで動くことになりました。
で、まあ、大体の様子がわかりまして、対応に入ったわけであります。
各種サポートは、週末でも動いてくれるのか?
まあこれは、ぶっちゃけ契約プランと緊急度に依ります。で、今回の場合、AWSさんの区分でいうところの「本番環境のビジネスクリティカルな
システム停止中」という状況だったもので、このステータスで連携したら15分で回答が届きました。
で、まあ今回の場合はサーバ側のヘルスチェックも真っ赤だったので、先方も状況はすぐに理解してくれました。
しかし問題は、環境をあれこれカスタマイズしてたことでして。
で、あれこれやり取りしているうちに「これは、すぐに解決するのは難しいので環境をクローンして作り直した方がいいでっせ。でもカスタマイズしているのであれば難しいかもしれないね」みたいな話に進展いたします。
この時点で深夜0時を回っておりました。
日曜日も対応は続くということで、いったんメンバーを休ませることにします。
執念で解決にたどり着くも。。。
で、私もお風呂入って、明日も早いし寝るかーみたいにやっていたら、携帯が鳴り響きまして。
「原因判明しました!今環境復旧してますが、これで行けます!」
という連絡が入ります。
しかしまあ、次の戦いに入るのです。
緊急ミッション:止まってしまったサービスのリカバリを週明けまでに実施せよ!
そんなこんなでサービスは復旧したわけですが。今度は週明けの月曜日に向けて、業務の立て直しに入ります。
通常だとこんな感じ。
で、利用再開したら負荷集中してシステムが止まりまして(´;ω;`)
緊急でスペック上げて対応しないと納期間に合わないぞとかそんなこんなのことをやって、本当に何とかギリギリ間に合ったのでありました。
障害復旧には、冷静さと、ユーザとの連携が欠かせない
まあしかし、改めて今回はひやひやとさせられましたね。
で、大事なのは冷静さで、リスクのある判断をしなければならないことが今回は何度もありましたが、何とか耐え抜きました。
偉いぞ私。
あとは、報告とか連絡体制をきちんと定めておくことは大事だと思いましたね。。。
備えあれば憂いなしってヤツ。
まあ、そんなこんなでいろいろとあった週末でした。
おしまい。
この記事が気に入ったらサポートをしてみませんか?