No229 みずほ銀行:初動のボタンの掛け違いは致命的

前々回からみずほ銀行の2月28日のトラブルについて、みずほ銀行
から提出された報告書にもとづいて、解説をしています。

今回もこのトラブルについての解説を続けます。


1. 2月28日に起きたこと(概要)

2021年2月28日にみずほ銀行で以下のようなトラブルが発生しました。
 ・みずほ銀行の中央システム(MINORIシステム)上のプログラムで
  動作ミスが発生。
 ・その余波で、MINORIシステムの動作に問題がおきる。
 ・MINORIシステムは(自己保全のため)ATMからの接続を制限。
 ・ATMはMINORIシステムに接続するが、接続エラーとなる。
 ・エラー発生で、ATMはカードや通帳を機械に取り込む。
 ・数千人のお客さんがATMから動けずに立往生した。

このトラブルは前回も書いたように多くの原因が複合したもの
です。

 1. プログラムがメモリ領域の不足を引き起こした
 2. 2重エラーを起こしてしまった
 3. 2重エラーによって外部システムの接続を拒否した
 4. ATM側で接続拒否の際に、カードを引き込んでしまった
 5. ATMでのトラブル把握はできたものの、周知対応が遅れた
 6. コールセンターが大半の電話を受けられなかった
 7. お客さんへの告知が遅れた
 8. 被害が拡大しないような方策が遅れた

また、銀行内の各部署での動きについても多くの問題がありました。

9. トラブルを過少評価してしまった
 10. 部署間の連絡が不十分だった
 11. システム運営担当の不用意な対応により被害を拡大させた。

こういった原因の多くはみずほ銀行に限る話ではなく、どんな組織
でも起きえますので、分析することは有意義なことだと思います。

前回は4項について書きましたので、今回は5項と6項について筆者
なりの見解を示します。

なお、みずほ銀行の報告書は以下のページで閲覧することができ
ます。興味のある方は是非ご一読ください。

「システム障害特別調査委員会の調査報告書の受領について」
https://www.mizuho-fg.co.jp/release/20210615release_jp.html


2. 視点がズレたためにトラブルが拡大

今回は上述の項番5について考えていきます。

 5. ATMでのトラブル把握が遅れ、対応も遅れた

同じトラブルでも、小規模なら騒ぎにはなりません。
今回の事故だって、早々に手を打っていれば、ここまで被害が
広がらなかったはずです。

今回の事故が長時間化、大規模化した原因の一つに最初の視点
の置き場を間違ったという点があります。

少々細かい話になりますが、当日の動きを報告書から抜粋します。

  9:50 最初のエラーが発生
 10:00 中央システムが接続制限を開始
     システム監視部門からシステム開発部門にエラー報告 
 10:15 ATMコールセンター部門から銀行内の各部門に緊急メール
 10:22 発端となった9:50のエラーを起こしたプログラム停止指示

エラー発生の把握からそのプログラムの停止指示まで32分です。
このスピード感は決して悪くありません。むしろ優秀と言って良い
でしょう。

ですが、実はここで既に置くべき視点がズレてしまっています。

続く2時間の動きを拾ってみましょう。

 10:50 管理部門が常務(IT担当)にエラー発生を報告
 10:55 広報部がtwitterなどでATMトラブルの発生を把握
 11:00 システム開発部門がATMでの千件超のエラー発生を把握
 11:30 システム開発部門がプログラムの再実行準備について
     常務(IT担当)に説明。
 11:35 システム開発部門がみずほ銀行の危機管理室にエラー
     発生を報告
 12:37 システム開発部門から全社向けの「障害報告メール」を
     送付。10:59時点の状況認識について報告

最初の30分と比べると、多少緩慢な動きではありますが、システム
内部の動作について、いろんな側面から報告が行われています。

ですが、ここで決定的な視点のズレが生じています。

注目していただきたいのは、発生から3時間弱経っていながら、
システム内部情報の報告が中心であり、ATMの前にいるお客さん
対応がほとんど取られていない点です。

今回のトラブルが大きな問題となった理由は何といっても多数の
お客さんに迷惑をかけてしまった点にあります。

ですが、ここまでお客さん視点での動線がほとんど見えません。


3. 与えられた情報が誤判断を誘う

情報がなかったわけではありません。

ATMセンター(ATMの状態監視やお客さんの操作トラブルなどに電話
で対応する部門)からは10:15に「お客さんからの電話が殺到し、
ほとんどが取れない状況」という報告を社内の各部門にメール送付
しています。
ですが、それに対する反応(対策)は10:55の広報部の報告だけです。
具体的なアクションが全くありません。

なんでこんなことになってしまったのでしょうか?

これは筆者の想像ですが、この時点で各部門は「中央システム
(MINORI)でエラーが起きていて、それによってATMでもエラーが
起きているんだろう。俺たちには関係ない部署の話だから、具体的
な指示があるまで勝手に動かない方が良いだろう」と考えていたの
ではないでしょうか。

これを「なんて無責任な!」と比判することは簡単です。
でも、人は与えられた情報の範囲でできるだけ筋の通った推論を
しようとします。

この時点で各部署に与えられた情報は以下の2点。
 ・中央システムで動作しているプログラムでエラーが発生した。
 ・ATMでエラーが発生している。

この2つの情報だけを与えられば、「ああ、この2つのエラーには
関係があるんだろうな」と考える方が自然です。「この2つのエラー
は別の理由で発生しているに違いない」と考える方がむしろ不自然
でしょう。


4. 想像することの大切さ

それを踏まえてもなお、筆者はみずほ銀行に一言申し上げておき
たい点があります。

「もうちょっと考えろよ、想像してみろよ」と。

これは報告書でも何度も言及されていますが、社内やシステム内の
ことばかり気にして、お客さんのことを放ったらかしにしすぎです。

どうして、ATMセンターは「ATMの前でたくさんのお客さんが立往生
している可能性が高い」と言わなかったのでしょうか?

どうして、管理部門は報告を受けながら、各支店長に状況を確認
させるなり、行員や警備員を向かわせるなりといったアクション
を取ろうとしなかったのでしょうか?

どうして、広報部はSNSでのお客さんの怒りをわかりながら社内に
もっと強くアピールしなかったのでしょうか?

少し想像を働かせ、「これはマズい。お客様が怒っている!」と
考えれば、もっと早くにいろんな対応が取れたはずなのです。

結局、この後もみずほ銀の対応は後手後手に回り、全店舗への出勤
指示が14:25、ホームページ上でのカード取り込みに関する告知が
出せたのは、なんと発生から6時間後の15:58でした。

どんなルールも実践するのは人間です。
特に緊急時のルール作りは難しく、「間違った人を責めない」
「後で訂正しても責任追求しない」などの正直に報告する人を尊重
し、守るルールにしなければなりません。

でないと、最初の報告が間違っていたとわかった場合に、誰も訂正
ができなくなってしまいます。

これでは緊急時には役に立たないのです。


5. システムのトラブル対応は優秀

皮肉なことに、この日のトラブルの原因となったプログラムのバグ
ですが、この修正とプログラム再実行は、当日のうちに完了して
います。

実はプログラムのバグを取って再実行するには、以下の作業を全て
こなす必要があります。

・バグによる影響範囲の調査
・バグによってダメージを受けたデータの復元(ロールバック)
・バグの原因調査
・バグの修正
・修正の正しさ検証(人による目視チェック)
・修正の正しさ検証(テスト専用環境でのテスト実行)
・プログラム再実行準備
・プログラム再実行
・実行結果の確認

この通り、バグの修正作業は全体から見るとほんの一部なのです。
これだけの作業を休日にこなせる体制を維持し、それを実際に
回して見せるのは大したものです。

みずほ銀行の対応については、ダメな点ばかりが強調されますが、
決して全てがダメだったわけではありません。
その意味でも最初の視点の置き違いというのは残念としか言いよう
がありません。

今回はみずほ銀行のトラブル原因として次の点について解説をし
ました。

 5. ATMでのトラブル把握はできたものの、周知対応が遅れた

まだしばらく続きますが、次回もみずほ銀行のトラブル対応に
ついて解説をします。

次回もお楽しみに。

(本稿は 2021年10月に作成しました)

このNoteは私が主宰するメルマガ「がんばりすぎないセキュリティ」からの転載です。
誰もが気になるセキュリティに関連するトピックを毎週月曜日の早朝に配信しています。
無料ですので、是非ご登録ください。
https://www.mag2.com/m/0001678731.html


この記事が気に入ったらサポートをしてみませんか?