見出し画像

サーバークラッシュで緊急出勤

今日の午後は、溜まっていた仕事を片付けようと思っていたんですが、某職場のメインサーバーが止まっている事に気付きました。
嫌な予感を抱えながら職場に緊急出勤すると、なんとシステム領域のSSDがお亡くなりになっていました… Ω\ζ°)チーン

久々に「これはヤヴァい、どうしたもんか…」と、本当に腕が震えたのですが、幸いにもデータ領域のSSDは壊れていなかったため、システム領域だけを再インストールして各種設定を行えば復帰できる…ということで

まずは、サーバーを分解してSSDを取り外します。

そして、FreeBSD12.3-RELEASEのインストールメディアを作成し、代わりのSSDにインストール。

そしてシステム領域のSSDとデータ領域のSSDをサーバにマウントし

システム側の設定として、

  • インターフェースの設定

  • Jailの設定

  • zfsの設定

  • 共有メモリの設定(PostgreSQL用)

等を行い、データ領域のSSDに入っている各jailが正常稼働することを確認して何とか復旧させることができましたよ。
注意すべきポイントは、PostgreSQLの共有メモリをJail内で使うための設定を追加しないと動かないって辺りでしょうか。

今回は割と短時間で(2時間かからなかった)復旧できましたが、今後のことを考えると、やはりシステム領域はUSBメモリから起動しROにするのが正しいでしょうね。それなら万が一故障した場合も、代替のメモリを用意していくのが容易ですし。jail領域については、定期的にどこかにミラーを取っておくしかないなぁ。その辺も、rsyncかなんかで自動化するのが良いでしょうな。

以上、本日の緊急対応のお話でした。

※おまけ:壊れたSSDを分解↓

SSDも寿命が来ればいきなり壊れますので注意しましょう。

以上。

この記事が気に入ったらサポートをしてみませんか?