ファイルサーバの健康診断 - ハードディスクはいつまで使えるのか
少し前に突然死したファイルサーバの話を書いたのですが、本体を入れ替えたのでディスクの方も一通りチェックしておこうと思ったのですが、ついつい先延ばしにしていました。
生まれ変わったファイルサーバ
基本的に24時間稼働なので、温度としては安定しているのですが、夏場はエアコンをかけていない時間帯もあるので、どうしても高温になりがちで少し心配な季節です。経験的にはどういう訳か真夏にトラブルを起こすことは少なく、温度が下がってきた秋場に問題が出ることが多めな気はします。
ハードディスクはすべてUSB接続で10台ぶちこめる裸族を2台使っています。本体のSSDを除けば16Tが1台、8Tが15台、4Tが3台、3Tが1台です。合計で151Tにもなるんですね。自分でもビックリ。まずはCrystalDiskInfoを起動してSMART情報を収集してみます。
$$
\begin{array}{|l|l|l|l|l|l|l|} \hline
番号 & Model & Size(GB) & Hours & PowerOn & Status \\ \hline
01 & WDC WD80EAZZ-00BKLB0 & 8001.5 & 12,887 & 16 & G \\ \hline
02 & ST16000NM000J-2TW103 & 16000.9 & 6,121 & 5 & G \\ \hline
03 & TOSHIBA MD05ACA800 & 8001.5 & 57,942 & 24 & G \\ \hline
04 & TOSHIBA MD05ACA800 & 8001.5 & 39,411 & 11 & G \\ \hline
05 & HGST HMS5C4040ALE640 & 4000.7 & 76,586 & 130 & G \\ \hline
06 & HGST HDS5C4040ALE630 & 4000.7 & 93,514 & 46 & G \\ \hline
07 & ST8000DM004-2CX188 & 8001.5 & 53,026 & 18 & G \\ \hline
08 & ST8000DM004-2CX188 & 8001.5 & 55,056& 29 & G \\ \hline
09 & WDC WD80EAZZ-00BKLB0 & 8001.5 & 18,821 & 11 & G \\ \hline
10 & TOSHIBA MN06ACA800 & 8001.5 & 31,018 & 19 & G \\ \hline
11 & WDC WD80EAZZ-00BKLB0 & 8001.5 & 11,119 & 4 & G \\ \hline
12 & WDC WD80EAZZ-00BKLB0 & 8001.5 & 12,114 & 13 & G \\ \hline
13 & ST8000AS0002-1NA17Z & 8001.5 & 78,139 & 64 & G \\ \hline
14 & ST8000AS0002-1NA17Z & 8001.5 & 4,811 & 143 & G \\ \hline
15 & WDC WD80EAZZ-00BKLB0 & 8001.5 & 15,649 & 11 & G \\ \hline
16 & ST8000DM004-2CX188 & 8001.5 & 46,271 & 25 & G \\ \hline
17 & ST8000DM004-2CX188 & 8001.5 & 43,122 & 414 & W \\ \hline
18 & ST8000DM004-2CX188 & 8001.5 & 44,471 & 22 & W \\ \hline
19 & WDC WD30EFRX-68EUZN0 & 3000.5 & 78,800 & 53 & G \\ \hline
20 & WDC WD40EZRZ-00WN9B0 & 4000.7 & 47,728 & 38 & G \\ \hline
\end{array}
$$
相変わらずST8000DM004が2台ほど警告が出ています。このモデル固有の問題なのかもしれませんが、やはりSMRは避けたほうが良さそうです。SMRは独特の動作をするようで、ハッキリと確かめたわけではありませんが、書き込みが続くと一旦作業領域に書き込んでからトラック全体を書くという動作をしている気配があり、アクセスが止まってからもゴリゴリとヘッドが動いている音が聞こえてきます。まあアクセス自身は問題なく chkdsk でもエラーは報告されていないので使い続けていますが、早めに引退させたいですね。
HDDはCMRとSMRのどっちがいい?耐久性や違いを解説
稼働時間も5万時間を超えたドライブがチラホラあり、そろそろ寿命が近づいてきている感じがします。ちなみに1年は8,760時間ですから、5万時間は6年弱に相当します。今までに10万時間を超えたドライブもあったのですが、さすがに時代とともに容量も増えますし、あまり引っ張るものはありませんね。故障が一度に起こらないように定期的にセール品を見つけては1台か2台ずつ入れ替えるようにはしています。
NASとして使っていますし、連続稼働ですから本来であれば高信頼性モデルを使うべきなんでしょうが、その手のドライブを選んでも結果的に故障が少なくなったり、寿命が長いということはなく、安価なドライブであっても遜色はありません。高々数十台での話ですから統計的な差が出ないだけかもしれませんが、いわゆる本物のサーバと違って交換のコストは低いので、安価なものであってもどんどん交換していったほうが良いようです。それにバックアップを2組持っているので、1台にコストを掛けるより台数を稼いだほうがリーズナブルです。
長く使っているとドライブだけではなく、装置が壊れるリスクが無視できなくなります。今回もサーバ本体のPCが壊れましたし裸族も片方は2代目です。これはRAIDを組んでいても同じ話で、RAIDコントローラが1台であればいくらドライブを多重化しても駄目になる時はあります。今のところバックアップも含めて3組の体制なので、本当であれば裸族も3機にすれば管理も楽なのですが、安いものではないのでまだ増やしていません。そろそろ買うかなぁ。うむ30台体制か、ちょっと恐ろしい。
そういえばファイルサーバも最初はちゃんとRAIDコントローラでRAID1を組んでいたのがソフトRAIDとなり(この時代はLinux+Samba)、WindowsサーバのソフトRAIDを使うようになった後に、結局RAIDはやめて普通のWinodwsでバックアップツールになりました。どんどんシンプルな構成になっていきます。結局、あれこれ頑張るよりも標準機能で間に合う運用が一番、安価で安全なようです。
さて次は16Tを買ってくるか裸族を増やすかだな。今年の秋はダメになるドライブが出なければよいのだけど。
ヘッダ画像は、以下のものを使わせていただきました。https://www.irasutoya.com/2015/05/blog-post_285.html
#ファイルサーバ #ハードディスク #SMART #RAID #寿命 #NAS