見出し画像

RAIDシステム

ファイルサーバーを作って多数のPCの間でシェアして運用するようになって、およそ20数年になります。RAIDシステムを導入したのは2000~2001年です。ちょうど今年で19年目です。X線イメージングの研究を行っており、プログラムなどの資源はもとより、実験データの数・量とも膨大ですので、必須の環境です。当研究室が導入した当初は、いまと比べれば容量も小さく、それでいて高価でもあり、それほど多くの人たちは利用していなかったように思います。でも、あれから約20年経ったいまとなってはほぼ常識で、誰もが使うツールといってよいでしょうね。

RAIDシステムの歴史は1980年代にまでさかのぼります。University of California, Berkeleyの David Patterson, Garth A. Gibson, Randy Katz らが提唱しました。Special Interest Group on Management of Data (SIGMOD)の会議で発表した論文は 1988年に出版されています。

”A Case for Redundant Arrays of Inexpensive Disks (RAID)”
Davtd A Patterson, Garth Gibson, and Randy H Katz

https://www.cs.cmu.edu/~garth/RAIDpaper/Patterson88.pdf


画像1

当研究室が、RAIDシステムを導入検討した2000年当時は、たくさんのディスクを筐体に内蔵したユニットと、ホストのサーバーに挿入する専用のRAIDコントローラカードを用いるタイプに加え、OSの機能を利用するソフトウエア型というものを専門の業者の間でも推奨されることがありました。当時はまだまだ RAID システムは高価でしたので、少しでも安価なソフトウエア型は魅力もあったわけです。当研究室は、第一段階では3セット購入し、2台は通常のRAIDコントローラカードを使用して通信制御するタイプ、1台はソフトウエア型でした。結論から言えば、ソフトウエア型は論外です。いくら高価で、面倒に見えても、RAIDコントローラカードを使うタイプの一択です。20年近くも運用していれば、相当な数のディスククラッシュや、いろいろなトラブルにも見舞われますが、貴重な資源を守ることはほぼできています。ここで、ほぼと言いましたが、残念ながら、喪失した資源もわずかながらあります。それは、うかつにもソフトウエア型を選択したことに原因がありました。ディスククラッシュは、続けて起きる傾向があります。1つ壊れてから、1~数か月で2台目、もう少しして3台目というようなパターンは何度も経験しました。電源設備の点検などの計画停電の際、あるいはその直後におきやすい傾向があります。それを警戒し、大規模なバックアップを行うと、その過程でどれかのディスクがクラッシュすることも割とあります。ソフトウエア型は、こうした事故が起きて、電源を落としてしまうと、あるいは落とさないとどうにもならなくなった時、そこで、ほぼ命運が尽きます。

当研究室は、8台のサーバー使い、規模もかなり大きいファイルシステムを扱ってきました。従って、当然、RAID5システムがほぼ唯一の選択になります。ただ、最近5年くらいは容量もディスク枚数も多いシステムを新規に購入してきましたので、RAID6も十分ありうる選択肢です。いまなら、RAID6にするかなと思います。長くやっていれば、必ずディスクのクラッシュは発生します。枚数が相当あるので、それなりに頻度もあります。その時に、資源を守れるかどうかが肝心です。今月だけでもRAIDシステムのディスク3枚を新品交換しました。

20年近くも RAID5 やっているからわかることとして、ディスク2枚が fail した状態からの復旧方法などがあります。この状態は、RAIDとしての冗長性がないため、ホスト側から書き込みなど行うと、復旧困難になる状況です。そこで、OS側からは umount してあることが必須です。他方、RAIDシステムは決して電源OFFしないことも必須です。RAID システムのタイプにもよるのですが、通信ポートがついているものであれば、手持ちのPCとRS232CもしくはLANケーブルでつないで、メニューを出して、状況を監視したり、作業を行ったりできます。そういうポートがない機種の場合も、ホストサーバー内臓のRAIDコントローラカードを介して行うこともできます。ホストサーバーは電源ONして、OSを立ち上げる前の状況で、そういうメニューにはいれるようになっています。先述の通り、ディスクが1枚クラッシュした時、あまり間を置かずに(例えば数か月以内までのスパンで考えると)2枚目が死ぬ確率はそれなりにあります。1枚目のクラッシュを見落とすと、たちまち2枚Failの状態になります。1枚目の損傷では、通常、ホットスペアが働きますので、まったく何事もなく正常な運用ができています。しかし、そのままで、もう1枚故障すると、RAID5で1台故障というきわめて危ない状態です。ここからの復旧は、手順を間違えると失敗します。ですので、注意してやりましょう。新品のディスクを2枚用意してあるとして、1枚交換ーリビルド。リビルド完了後、もう1枚交換ースペアの設定、という手順になります。こういったことをわかっていないで(おそらく経験もなく)、無責任に見える記事を書いておられるのも時々散見します。

ここから先は

0字
現代は科学が進歩した時代だとよく言われますが、実のところ知識を獲得するほど新たな謎が深まり、広大な未知の世界が広がります。私たちの知識はほんの一部であり、ほとんどわかっていなません。未知を探索することが科学者の任務ではないでしょうか。その活動は、必ずしも簡単なものではなく、後世からみれば群盲評象と映ることでしょう。このマガジンには2019年12月29日から2021年7月31日までの合計582本のエッセイを収録します。科学技術の基礎研究と大学院教育に携わった経験をもとに語っています。

本マガジンは、2019年12月29日から2021年7月31日までのおよそ580日分、元国立機関の研究者、元国立大学大学院教授の桜井健次が毎…

いつもお読みくださり、ありがとうございます。もし私の記事にご興味をお持ちいただけるようでしたら、ぜひマガジンをご検討いただけないでしょうか。毎日書いております。見本は「群盲評象ショーケース(無料)」をご覧になってください。