No227 みずほ銀行は何を間違っていたのか?

2021年はみずほ銀行にとって受難の年でしょう。

最初は2021年2月28日に起きた、大規模なシステムトラブルでした。
全国のATMでカードや通帳が取り込まれて返ってこない事象が起き、
数千人がATMから離れることができなくなりました。

その後も3月に3件、8月に2件、9月に1件と2021年に入ってから計
7件ものトラブルを起こしてしまい、9月にはとうとう金融庁から
「システム運営に金融庁を参加させなさい」と言う業務改善命令を
受けてしまいます。

どうしてこんなことになってしまったのでしょうか?

今回からみずほ銀行が提出した2021年6月の報告書をひもときながら
トラブル発生への備えについて解説をします。

今回は2月28日に起きた最初で最大のトラブル、ATMのカード引き
込み事故の経緯を述べます。


1. トラブルの詳細な調査報告書を公開

2月3月にたて続けに発生した4件のトラブルについて、みずほ銀自身
が第三者委員会(システム障害特別委員会)を設置し、6月に報告書
を提出しています。

「システム障害特別調査委員会の調査報告書の受領について」
https://www.mizuho-fg.co.jp/release/20210615release_jp.html

この報告書は150ページを越えるもので、事故発生の詳細はもちろん
事故に至った背景なども細かく分析されており、完成度の高い資料
と言えます。

有識者である第三者が執筆していることもあり、評価はかなり厳しい
ですし、教科書的、形式的に感じるところもありますが、おおむね
公平な記述であると筆者は感じました。


2. 改めて2021年2月28に起きたことの整理

一連のみずほ銀行のトラブルの中でも特に大きな問題となったのは
2021/2/28に起きた、大量のキャッシュカードや通帳がATMに吸い
込まれてしまい、返却されなくなったトラブルでした。

5000枚を越えるカードが吸い込まれ、数千人のお客さんがATMの前
から動けずに何時間も立ち往生するという大変な事態となりました。

発端はサービス変更に伴う口座情報の変更プログラムでした。

みずほ銀行に限りませんが、銀行のシステムでは全ての支店の口座
データを中央システムで集中管理しています。ATMであれ、ネット
バンキングであれ、必ず中央システムから情報を取りにいくのです。

このプログラムは一般的にバッチ処理(一括処理)と呼ばれるもの
です。
バッチ処理というのは、実行を始めると人手を介さずに、全て自動
で処理を行うのが普通です。このプログラムの場合も更新対象となる
口座を探し、サービス変更の内容をデータベースに反映するもので、
やはり人手を介する必要のないものでした。

このようなバッチ処理は日常業務に悪影響(動作が遅くなるなど)
を出さないため、平日の夜間や休日に行うのが通常です。

実際、このトラブルが起きた2月28日は日曜日でした。

さて、このプログラムの実行中に、中央システム内のとある領域が
不足しました。その結果、内部でエラーが連鎖して起き、ATMなど
の外部システムからの接続を拒否するようになりました。

一方、ATMでは接続できない場合は現在の取引を中断し、カードや
通帳をATM内に吸い込みます。
当然、お客さんはそのままでは困りますので、各支店のATMでは係員、
支店外のATMでは警備員がスグに来ることになっていて、事情を説明
した上でお客さんに返却をするルールとなっていました。

これが平日なら係員がATMにかけつけることができます。
ですが、ここでも日曜日であったことが足を引っ張ります。
休日には係員はおらず、警備員も人数が限られています。

また、休日ですのでお客さんはカードが吸い込まれると、ATMについ
ている電話を使うことになります。
このための回線も休日体制で全国で8回線しか開いていませんでした。
次々とATMで事故が発生すると電話回線は完全にパンクし、ほとんど
の電話が取れない状態となりました。

さらに、ATM自体は取引中止にならず他のお客さんが利用できるまま
になっていたため、同じエラーでカードが吸い込まれてしまうお客
さんが続出します。
この結果、数千人のお客さんが何時間もATMの前から離れられない状態
となったのです。

みずほ銀行側も遅れながらもWebサイトに告知を出したり、ATMコーナー
にトラブル発生中のポスターを掲示したりしましたが、どちらも事故
発生から何時間も過ぎており、決して素早い対応とは言えないもの
でした。

結局、この日は5000枚を越えるカードがATMに吸い込まれ、その返却
には1ヶ月以上かかるというひどい結果となりました。


3. システム内部で起きていたこと

さて、ここまでは報道でお聞きになった方も多いと思いますが、もう
少しシステム内で起きていたことを堀り下げておきます。

発端は、上述の通り一過性の口座情報のプログラムの実行でした。

このプログラムは1月〜3月の日曜日に分割実施する予定となって
いて、2/28も朝の8時頃にプログラムが開始され、2〜3時間で終わる
予定だったようです。

しかし、9:50にとあるメモリ領域(インデックス領域)で不足が起き
ます。

この領域はトラブル時に原状回復させるデータの保存領域です。
ここで保存されたデータはごく一時的なもので、目的の処理が正常に
終われば削除されます。

とはいえ、事前に予見できないのがトラブルですから、データ変更
を伴う全ての処理はここにデータを保管しようとします。
これはバッチ処理に限りません。ATMやオンランバンキングもこの
領域を利用します。

上記のバッチ処理では一時的にこの領域を大量に使う必要があり
ました。それで空き容量が減ってしまい、例えばATMでの引き出し
処理のようにこの領域を必要とするプログラムが領域を確保でき
なくなりました。

さらに、このエラーを伝える過程で伝言ゲームのような不正確な
情報のやりとりが起きて別のエラーを誘発し、本来は起きないはず
の多重エラーとなりました。

そのような多重エラーが何度も発生すると、今度はシステム内で
深刻な事態が発生したと判断し、他のシステム(ATMやオンライン
バンキング)からのリクエストを意図的に無視する(エラーにする)
機構が動き始め、結果的にATMからは接続ができなくなりました。

この結果、ATMでカードを吸い込まれてしまうお客さんが続出する
こととなったのです。


4. 何が悪かったのか?

この事故は銀行として許容できるものではなく、金融庁からも
報告書を出すように求められました。

筆者はその報告書を見てこの記事を書いているのですが、実態と
してはかなりお粗末だったと言わざるを得ません。

様々な事故の防止策は確かに規定されていますし、その内容は十分
に考慮されたものに見えるのですが、その狙いや価値感が組織内で
共有されておらず、表面的な対応に留まっていた印象を受けます。

一連の事故についても何度も回避するチャンスがありながら、それを
活かすことができていなっった点が非常に残念です。

今回、みずほ銀行のトラブルがたまたま表面化したためにみずほが
ダメであるかのように叩かれています。
確かに、他のメガバンクではこのような事態に陥っていないわけ
ですから、メガバンクの中ではみずほの危機管理が甘いというのは
事実かもしれません。

でも、同様のトラブルはどこでも起こり得るのです。
これを貴重な事例としてケーススタディの素材とすることは有意義
なことだと思います。

次回からは、このみずほの2021年2月28日の事例をもとに、良かった
点と改善すべき点について筆者の私見を述べたいと思います。

次回もお楽しみに。

このNoteは私が主宰するメルマガ「がんばりすぎないセキュリティ」からの転載です。
誰もが気になるセキュリティに関連するトピックを毎週月曜日の早朝に配信しています。
無料ですので、是非ご登録ください。
https://www.mag2.com/m/0001678731.html

この記事が気に入ったらサポートをしてみませんか?