見出し画像

通信障害の舞台裏。SIerのリアル。システムは動いていて当たり前?レッドブルで超える夜、迎える朝。

\オフィスでダンス第6弾/
アプリが使えない時に「なんだよ、通信障害かよ!」と思いますよね。
動いていることが当たり前なシステム。その裏で奔走していた話です。

↓エピソード1、前作から読みたい方

筆者の自己紹介↓

1.プロローグ

私はシステムとは作って終わりではない。作った後から始まるのだ。
システムはプログラミングと呼ばれる、機械が理解できる文字コードで書かれた文章を機械が読み取ることで動作する。
プログラミングはある程度のルールがあるものの、プログラミング言語と呼ばれるように、一つの言語であるから、文法はあるが、書き方に少し自由度があるそうだ。

故に、出来上がったプログラムは、作った人・組織の独自性が少しばかりでる形となるため、作ったものを一番直せるのは作った組織ということになる。
裏を返せば、作ったということは、稼働に責任を持ち続けるということになる。

2.システムからのSOS、アラートを検知した!

システムがなんらか正常な動きができなかった時には、システムから文字列が払い出されるような仕組みにしておいて、その文字列が意味すること、その文字列が払い出された時の対応を事前に決めておくことで、重大事故から避けるような仕組みになっている。

例えば、Aというアラートが出たら、メモリーが8割を超えて高い負荷がかかっている状態になっていることを示す。などだ。
メモリが機能しなくなると、処理速度が遅くなっていくので、例えば何かの購入ボタンを押したときなどに、ぐるぐると決済までに時間がかかってしまう、または、時間がかかりすぎたことでエラーになってしまうなどを引き起こす。見たくイメージしていただければ、分かりやすいだろう。

我々の会社では、システムをオーダーメイドで作成することが仕事だった。大量の今まで構築してきたシステムのアラートを監視していて、重大な影響がでるアラートが検知された時には、障害通知メールが飛んでくる。私も、障害通知メール専用のメールボックスのフォルダを作っていて、そこに1が付いたらすぐ開いて、自分の管轄のシステムかどうかを確認するようにしていた。

3.システムは動いていることが当たり前、の憂鬱

お客様からしたら、「動いていることが当たり前」は、至極当然のことだろう。ここでいうお客様とは、サービスを利用するエンドユーザーではなく、サービスを提供している側の方々を指す。

お客様はサービスを提供することで利益を生んでいる。
そのため、そのサービスの提供が止まることが、お客様の機会損失になるのだ。


例えば、ECサイトのサービスが停止してしまったら、その停止していた期間に取引されただろう取引は全て機会損失になってしまう。また、エンドユーザー様からの利便性への不安なども出てきて、お客様にとっては大変ビジネスインパクトがある。

ただ、システムも所詮はPCと同じようなもので、ずっと使っているとキャッシュが溜まりすぎてしまったり、例えばキャンペーンなどでアクセスが集中して処理が追いつかなくなってしまったりと、どれだけテストを重ねたシステムであっても、様々な条件下に晒される中で、アクシデントは起きてしまう。


そして、物言わぬシステムがなぜ止まってしまったのかを、様々な観点から分析して原因を突き止めて、今できる最善で最短の復旧策を検討して、サービスをまず復旧させること、そして、恒久的な対策を検討することなどを実施することになるのである。

4.集まる憂鬱な背中、復旧対応の夜

障害が起きた時は、そのサービスに関わる、アラートを受けた運用チーム、インフラを開発したチーム、アプリを開発したチーム、基本設計を書いたチーム、営業で、集まっているからよくわかる。

その時の雰囲気はなんとも言えないものがある。声をかけれない、思春期のような。
ただ、みんな、愚痴は言わない。

どうやったら、サービスを復旧させられるか、恒久的な対策をいつまでにしないといけないのか、今回の障害原因はどこまで想定できた(自社が責任を負う必要のあるもの)なのか、それを冷静に分析して、お客様に解答する方針を決めていく。

もちろん、時計の針は夜の12時を差してしまうことは容易にある。
それでも、サービスを再開させるために最善を対応していくのである。

そうやって、何本ものレッドブルを飲んで、夜を明かしていく。
障害対応にあたっていたメンバが、次の日、朝イチの8時〜事業部長の障害報告書資料レビューが入っていて、誰よりも遅く帰ったメンバが、誰よりも早くきて、資料を事業部長にレビューしているところを見ると、私は、ねぎらいのチャットを入れずにはいられなかった。

みな、「23時30分には方向性見出せたから、終電には間に合ったんだよね」など、疲れた表情を浮かべながら、ただ、方向性が見えてた僅かなあかりに、安堵も見えるような様子で、その足でお客様報告に向かうのである。

お客様先で「迅速に復旧いただき、次の日に対策まで出していただいてありがとうございます」などと、褒められることなどないだろう。
「なぜ、こんなことがおきたのか」「何が原因なのか」「いつ戻るのか」そう言った質問に、一夜かけて準備してきた情報を元に説明していくのである。

5.オフィスでダンス

オフィスでダンスのエピソード1でも書いたが、IT企業に障害対応はつきものである。そして、その障害対応を乗り越えていく時に、SEと営業、そのプロジェクトに関わるメンバには絆が生まれていているように思う。

なんとなくだが、マーケターとして仕事をしている今よりも、プロジェクトメンバとの結びつきの強さで言ったら、SIerで仕事をしていた時の方が、強い気がする。
本当に、例をあげたらキリがないほど苦難を乗り越えてきた。
でも、その苦難を乗り越えられる組織、マネージャーがやはり大企業には存在していると思う。対応にあたっているメンバは本当にみな優秀だった。

私はその組織の中で、ともに仕事をできたことは、誇りに思っているし、財産になっている。

終わり。


この記事が気に入ったらサポートをしてみませんか?