システム障害

ずほ銀行のシステム障害が大きく取り上げられている。

MINORIという新しいシステムの障害でそもそもこのシステムの信頼性に疑問符が突き付けられている。

まぁ詳しいことはよくわらない。みずほ銀行に預金があるわけでもなく、またか、くらいしかないのだけれど。一応2株持っているな。

N-1日のPM8:53頃に障害が発生して、全面普及がN日のAM11:58、対処実行がN日の7:10とかなり長い時間、あれこれと対処をしていたというのが記事になってました。

さすが銀行というだけあって2つのデータセンターで各々冗長化構成を施している。でも稼働系のディスクが壊れて待機系に自動切換えができなかった。これねディスクってなんでこんなに壊れるん??システムベンダーわざと壊れるように作ってないか?と思う何がmade in japanだよと

手動で稼働系→待機系への切替を試すも失敗、次は待機系単独で手動切替という手順だっが、ベンダーから電源を強制的にOFFにすれば治るかもということで次の手を打つ前に電源をパチパチやるけどうまくいかず。

ここらへんで災対センターへ切り替えようかということも取り上げられるものの、まずは正のセンターでしょということで待機系単独の手動切替するも失敗。もう災対側に切り替えるしかないねとなるけど、データの不整合を気にして議論が発生、でも間に合わない~というこで、バックアップ見送りで災対側に切替(AM7:10)そこからAM9:45復旧、AM11:58全面復旧と

まぁ時間かかったね。電源OFFとか家庭のパソコンと同じじゃん。というのが外野の感覚です。でもね、災対への切替は、データ不整合、切替後の戻しの難しさとか、対処後の影響を考えて中々「それ切り替えろ」とはならんのですよきっと。目の前のお客さん影響もだけど、将来のお客さん影響も考えると難しい判断だと思う。

なぜこれほど時間が掛かったのか?これは自分の勝手の想像です。

①災対センターへの切替判断の難しさ:これは上記のとおり色々な要素が出てくるので直ぐに決断できなかったのかと。災対への切替は天災を想定しているが今回の様なケースは想定していなかったのかも。

②コミュニケーションの集約ができてなかったか:電源OFFにしようかというタイミングで災対側に切替用という動きがある、手順書も作るようにと、電源OFFの話があるなかで、記事からはよくわからないけど、この考えもちゃんと本部に集約されていたのかな。

③MINORIの複雑さ:多分、みずほの経営層でこの仕組みを理解できているヒトはいないと思う。みずほだけでなく、大抵の企業はそんな感じだと思う。日本企業にてIT経験のある人間が経営層に入ることはあまり知らない。現場も同じだと思う。IT部の人間でさえよくわからないけどMINORI動いているな。的な感じなのかも。富士通の一部の人間くらいしか把握していないかも。

正のセンターでの復旧に固執している(固執というのが正しいのかな)少し先の事を考えると正側で対処が完了するのが望ましいはず。ここは明日の利用者お客さん迷惑をかけないという視点との天秤なんだろうな。今回みずほは残り時間と少し先を見据えて、判断したんだろうけど。

学びとしては悪い情報は速やかに共有(お客さんにも)、情報は集約して、意思決定も決める。現場の人間も本部に入れる。会社として何を大切にするかの意思統一ですかね。

当たり前なのかもだけど、実際に発生して冷静に判断、対処できる人間はそれほど多くない。

現場の人間も入れるのは、対処には影響がでるので現場として耐えられるかを判断する際に必要と思う。

みずほを批判するのは誰でもできるけど、この事象をケーススタディにして自分たちに起こったら短時間で(営業時間前に)リカバリーできるか?と議論するのは有益だと思いました。虫けら株主としては、何とか頑張って盛り返して欲しいところです。






この記事が気に入ったらサポートをしてみませんか?