東証システム障害のまとめ

・両現用のディスク装置のフェールオーバー失敗
・ディスク装置のメモリ障害時の切離し失敗。再起動で復旧できるも、システム全体への影響が出るために取引停止の判断
・富士通製ディスク装置のファーム障害
・ディスク装置は売買システムであるarrowheadと共用

東証システム障害


根本原因は、F製のディスク装置の障害によるのフェールオーバー失敗でした。開発のテスト時はうまく動いていてたことなので、レアケースでしか発生しない障害だと思われます。一般的にはハードの故障はレアかと思いがちだけど、内部ではバンバン起きています。
起きているけど、システム停止を伴わない機器交換(ホットスワップ)・現用/待機にて切替え(ホットスタンバイ)で、無停止で業務を継続しているので一般的には知られていません。

ディスク装置は聞きなれない言葉かもしれませんが、ミッションクリティカルなシステムはコンピューター内にハードディスクがあるのではなく、外部の大量のHDDに分散し、かつHDDそのもの書込み/読込みを制御出来るようにCPU/メモリを搭載したディスク専用の装置が採用されています。
また構成的には、ディスク装置はディスク装置内の2重化に加え、装置そのものを複数台接続しさらに両現用化して、2つのディスクに同じデータを書き込みデータの整合性と冗長化を保障していることが多いです。
今回は片系の共用ディスクで障害が出た際にフェールオーバーの片寄せ失敗し、リカバリに伴う再起動を避けるための取引停止とのことでした。

オンラインシステムは、朝から綺麗に立ち上がることのみを想定しており途中で電源を切ったりするとデータの整合性を保てなくなります。
セカンダリセンタへのBCPの切替え時間は24時間を想定しているようで、明日までの復旧が見込みる判断が出来るためBCP計画の切替えはしない判断のようです。例えば、BCPが発動すると停止5分までのデータが破棄されたりします。

会見で、東証側で「ベンターはあくまでシステムの納入先だから責任は我々で負う」と言葉が出て震えました。
レアケースの障害は、製品開発時は出なくても、製品が出ることがあります。そういう障害は何度発生条件が複雑でも何度も某工場でテストしても再現できないパターンがあります。

社会への余波は免れないですが、担当者の方には頑張って欲しいです。とりあえず、明日に正常取引出来るまでが勝負です。
話を聞く限りでは、明日は全く問題なく普通に動くと思います。

最後に問題を整理しておきます。
➀障害箇所→ディスク装置のメモリ部分
②障害発生時のシステムの動き→フェールオーバーに失敗。
➂障害発生後の対応→取引停止し、故障個所を交換
→ここまで対応済。故障は復旧しており、明日の取引には影響なし
 (再度①の障害が発生した際は人為的にケーブル断線にて対処できることは確認済み。明日、同様の障害は起こったら人為的に対処する)

➃取引停止の原因→フェールオーバーの失敗。
→片系運用への切替え失敗は原因究明中。
 (ここがファーム障害によるエラーと思われる。)

2020.10.02
様々な発表資料を元に微修正をかけました。