見出し画像

ファイルサーバの障害と復旧

私の会社のファイルサーバ(NAS)が午前からけたたましいアラートを発した。バッファロー製のRAID5で冗長化したもを使っているため、4基あるHDDの1つが故障してもアラート音がなるだけで使用に問題はないが至急対策を打たなければならない。バックアップとして外部ディスクに毎日深夜に差分を取っているが業務を止めないために、本番機と同じものをもう一台ホットスタンバイ(動作させた予備機)として持っており、こちらも深夜に本番機のデータを同期させている。18時の業務終了後にファイルサーバの利用を全社に終了する旨通達し、データ同期ソフトを作動させて19時に同期完了。アラートの鳴っている本番機をネットワークから切り離し、予備機のIPアドレスとコンピュータ名を本番機のものに変更して再起動して切替完了となる。この後に元本番機の障害の出たHDDを交換して、こちらをホットスタンバイ機として作動させれば、次の障害に対応できる。ところが、これだけ用意してもすんなりはいかないもので、予備機が30分経っても再起動せず、モニタの画面には「起動中。電源を切らないでください。」と出たままだ。このまま放置しても朝まで状態が変わらないと判断して、障害を起こした本番機がまだ動作することを確認してから、予備機を強制リセットする。運よく正常に起動して、今回は問題がなかったが心臓にはすこぶる悪かった。

業務にPCが必須の昨今、文書はすべてファイルサーバに保存されている。誤ってファイルを消しても復旧できるように深夜に差分バックアップを外部のHDDと予備機に取っており、いざ故障となってもファイルサーバの停止時間を限りなくゼロにするようになっている。こういったことは企業システムでは普通のことだと思っているが、業務の裏でこうしたことが行われていることを各部門にも理解してもらうため、障害が起こったときは復旧までの流れの説明は怠らないようにしている。

ちょうど時を同じくして某メガバンクのシステム障害の報道を見た。本来、このように停止時間を無くすように設計するシステムが止まることは実に異常なことなのだ。原因は恐らくコストカットのためにバックアップの仕組みを何か怠ったに違いないが、それもシステムの維持に無理解な上位者の人的にミスだと言えるかもしれない。


この記事が気に入ったらサポートをしてみませんか?