見出し画像

PC復旧顛末

今日は特別編です

いや、私がメインで使っているPC(仮想PCですけど)がバックアップに失敗して、その時に何か起きたらしく起動すらしなくなりまして、機能はその復旧作業でひたすら時間を消費していました。だから、note の記事も書けず…
で、何とか復活したので、今日はその顛末を中心に記事を書こうかなと思っています。

壊れた理由は不明

壊れるときはこんなもんです。まぁ、わかればラッキーなんですが、わかりゃしませんよね。それに、壊れる理由なんて山ほどある。ソフトの問題からハードの問題まで多岐にわたる。その全てが起きないように対策することなんか全くもって現実的ではありません。
というわけで、原因追及は早々にあきらめ、トラブルが起きても何とかなるような仕組みを作る方が正解です。

私の環境はこんな感じでした

壊れたPCは、Proxmox VE 上の仮想PCとして運用。毎月月初の週末にフルバックアップ取得。バックアップ先は TrueNAS の PC。

まぁ、別に悪いところなんてなさそうですよね。でも、私は一つ見逃していたのですよ。バックアップ中に何故か TrueNAS が音信不通になるという問題の原因を。
しっかりとシステムログを見ていると SATA Error というかなり危ないメッセージが出ていることに気がつくはずです。でも、すっかりそれを忘れていました。
あと、システム管理画面で CheckSum のエラーが出ていました。これも、ちゃんと確認しておかないといけなかったのですが、そこをサボっていました。

はい、以上の予兆を思いっきり見逃していたのですよ。もう、情けないったらありゃしない。

というわけでどうしたのか?

もう、仕方が無いので過去のバックアップを探りました。んで、ここで NAS の Check Sum エラーの問題が…バックアップファイルの展開中にエラーが起きるのです。
はい、もう Check Sum がエラー出すということはデータが壊れているという認識でさして問題は無い。というか、気付よ、自分
というわけで、最近取得したバックアップは全滅でした。うそぉ…と思いつつ、去年の9月までのバックアップは別のNASで取得してそのままになっていたはず!と思い探したら残っていました。

本当にラッキーでした。ものぐさな自分に感謝です。

だから、ざっと半年巻き戻ってしまいましたが、データをロールバックして何とか起動にこぎ着けました。

なんでバックアップからのリストアにこだわるの?

もちろん、理由はあります。単純に Windows のライセンスを改めて買うのがしんどいからです。一応、PC移動したときに PC のライセンスを移せるケースもあるみたいなのですが、それに頼るよりは素直にリカバリする方が正解ですもんね。
というわけで、バックアップがあったおかげで何とか戻りました。
なお、作業用のデータは基本的にPCには置かずに、NASもしくは Google Drive に置くようにしているので、致命的な被害は回避出来ました。

今回の反省を活かして

運用をちょっと変えました。まぁ、基本、そんなに信頼性が高いシステムの組み合わせじゃないので、そこに対する問題回避は自分で検討しないといけません。

やったこと+やること

  • 定期Backupは相変わらず1回/月の頻度で継続
    ・思いついたタイミングで別のNASにバックアップを取得

本当はレプリケーションとかもやりたいのですが、私のところの規模だとかなりしんどいのでやっていません。でもまぁ、バックアップの頻度を定常だけに頼らないというルールを付与することで、ちょっと信頼性を増やそうというという作戦です。
定期バックアップは運用として大事なのですが、その頻度を上げるよりは、オンデマンドでのバックアップを運用として追加(しかも別のNASに)の方が良いと判断したということですね。

バックアップをとっているNASの構成ですが

3ドライブでRAID5相当の構成にした ZFS を3つくっつけ、そこに余っているSSDをキャッシュとして追加。更に HDD×1 を Hot Spare にしています。
まぁ、Hot Spare にしたのも油断を招きましたね。問題があれば、勝手に動き出すと思っていたのですよ。ですが、そうでもないのですね…前回のトラブルでは Hot Spare がうまく動いたのでいけるって思ったんですが…世の中そんなに甘くありません。

というわけで、Hot Spare にしていた HDD を一旦 Free にした後、問題のエラーを起こしている HDD と Replace してエラーが出なくなることを確認。多分当面の運用は大丈夫!という状態まで持ってきました。
まぁ、NAS に使っている PC も E-350 というこれまた古ーい CPU を使った奴なので、そもそもそれも何とかせにゃならないのですが、予算の都合で…あぁ、世知辛い。

諸々の対応で

結局1日かかりましたよ。リストアに時間がかかるし、リストアに失敗するケースがいくつもあって、その度にリストア(1.0h程度待たないといかん)なんてことをやると、もう、時間がかかるかかる。
でもまぁ、今回で運用の悪い点も見えたので、次からはもうちょっとリカバリが早くできるようになると思います。

転ばぬ先の杖はとっても大事

皆さん、バックアップをとりましょう。

この記事が気に入ったらサポートをしてみませんか?