みずほの障害

の件、ニュースになっていたので
https://news.yahoo.co.jp/articles/29fe6c92b4b109d99747991138afcfdc70191bf0
あんまり詳細にのっているサイトはなさそうですね。

原因はいくつもあると思いますが、報告書を見たわけでもシステム構成を知っているわけでもないので超個人的な憶測と推測と見解です。

おそらくですが、金融系システムの厳格さ、厳重さ、承認の遅さが原因かと。
予兆検知していたと思います、HDDの読み取り不良があったのなら、
ただHDD一つ予防交換するのもめちゃくちゃめんどくさい承認リレーをしなきゃいけないと思います、金融システムなので。
「HDDが故障した場合の影響」
「交換した場合の、サービス停止影響と通知」
「交換する際の、関係システムの影響、停止計画の検討」
「計画書の作成と、リスクアセスメント、レビュー」
「承認までの長い道のり」
「承認後の社内の各種調整」
H27に導入したのであれば、リプレース時期(大体5-6年)なので
「今予防交換することのリスク」
↑これを全部クリアしないと HDD1個変えられないのが、「システム」です。

で、これらのことにゴーサイン出すのは幹部社員で、当たり前ですがリスクは負いたくないわけですから、いろんな仕様の確認とかだけでも1週間かかったりします。

で、「そんなリスクあるならやらなくていい」って判断されれば、次回以降の予兆検知はすべてスルーされるわけです、「承認されないから」って。
本当に現場のインフラエンジニアには同情します。

で、何が起きるかって言うと、現場からエスカレがなくなります。
だって言っても無駄だし、言ったら面倒なことしなきゃいけなくなるし、夜間作業になるし、失敗したらマジでめっちゃたたかれるけど、成功しても何も言われないし。
じゃあ言いませんよね、自分がいる間に起こるな!って思うくらいです。

もちろん事実はわかりませんが、多かれ少なかれ上記のような事が起きてます、どの会社でも。
けど攻められるのはエンジニアなわけですね、そんな役回り。

で、もっといけなかったのは「システムを止めなかったこと」。
異常がある状態でシステムを稼働させ続けても誰も得しないです。
それだったらさっさと止めて、全店に早急に通達して対応してもらう。
会社内がどういう状況かわかっていない状態で営業を開始するのは
はっきりいって判断できない責任者・経営者の怠慢です。

システムに「大丈夫だろう」はありえないです。

とまぁ世のエンジニア様たちは似たようなことをいろんなことで書き綴っているかと思いますので、技術的な深いところは詳しい方々が解説しているかと思います。

あとね、この手の話が出ると思い出すのが、
以前自身が関連しているシステムのHDDが壊れて、メモリが吹っ飛んだんです。
その時はバックアップから復元したので事なきを得たんですが、報告書が必要で。
その時、「HDDのどの部品のどの箇所が壊れたのか、なぜ壊れたのかまで報告しろ」って言われたんですよ。
それを知ってどうするんですか?
そのパーツ作ってるメーカーが悪いって言いたいんですか?
それを調べるために本来使わなくていい工数を、少なくとも自分とベンダーは使わされるわけで、何を言ってるのかと
じゃあHDDの中のコンデンサが壊れてのが分かったから何が起きるの?って
「HDDの中のコンデンサが壊れてのが分かったので、そのメーカーのコンデンサを使っているHDDを今後使用しないようにします」って報告するの?って
結局その領域って「自己満足」でしかない+害悪です。

エンジニアに限らず、インフラ系の仕事って中々割に合わない瞬間がありますね

この記事が気に入ったらサポートをしてみませんか?