データストレージを止めるな!──着実な連携と監視で運用を支える
nodesの光明 情報基盤センターサービスの裏側
いろいろな方の協力を仰ぎながら、日々運用しています
Q 小瀬田さんのお仕事は?
A 共用ストレージ東拠点の運用を担当しています。情報基盤センター内の先生方にご相談したり、情報システム部スーパーコンピューティングチームの皆さんからアドバイスをいただいたりしながら、業務を進めています。西拠点の担当者や、Gfarmの開発グループとも密接に連携しています。
Q 高速・大容量のストレージを安定的に運用するために、どのような技術的な工夫がされていますか?
A さまざまな箇所を二重化しています(図1)。イーサネット機器は物理的に2系統存在し、一方の機材に障害が発生してもサービスの継続が可能です。インフィニバンドスイッチとストレージ機器の間は複数本のケーブルで接続されていて、ネットワーク帯域の拡張と耐障害性を同時に実現しています。
また、大量のハードディスク(HDD)を束ねることで45PBというディスク容量を実現しているため、HDDの故障は月に数回必ず発生します。そのときにサービスが止まらないようにするため、ストレージ機器には、HDD故障時に自動で予備のHDDに切り替わる「ホットスペア機能」が備わっています。これにより、故障したHDDはサービスを止めることなく交換できるのです。
さらに、Gfarmには、ストレージシステムの数を増やすスケールアウトによりデータの読み書き性能をあげられるという特徴があるため、同じ構成のストレージシステムを7セット設置することで大量のデータの高速処理を可能にしています。
障害の原因を突き止めるのはたいへんです
Q 運用状況をいつも見張っているのですか?
A 監視画面(図2)は気になりますが、いつも見ているわけではありません。ストレージには監視のためのシステムが組み込まれていて、なにか起こるとアラートが私のスマホに届くようになっていますので、アラートがきたらすぐに反応するようにしています。保守をお願いしている業者さんや、機材のベンダーさんに連絡を取り、復旧対応をしてもらいます。
Q HDDの故障以外にどんな障害がありましたか?
A 私が2019年に着任してすぐに、データの書き込みや読み出しが遅いという問題が発生しました。いろいろ調べた結果、インフィニバンドスイッチの性能が足りないらしいとわかり、交換しました。それで少し改善されたのですが、まだ根本的な解決には至っていません。いまは、通信ケーブルの本数を増やして通信帯域を広くすることで改善しないか、調べているところです。
Q そのような障害対応で難しいのはどういう点ですか?
A 定量的にデータを取る必要があることです。データに基づいて障害箇所を絞り込まないと、ベンダーさんも対応しにくいですからね。でも、「ここがおかしい」というためには、他のところは正常だというデータも集めなければなりません。これがなかなかたいへんです。
監視をさぼれるようにしたいです。いい意味で
Q 今後、容量やネットワークを増強する計画はあるのでしょうか?
A ストレージの容量は、2014年に10 PBでスタートし、2018年に現在の45 PBになりましたが、次のシステム更新で100 PBにする予定で、準備を進めているところです。現在保存されている大量のデータを新システムに移行する必要があるので、ネットワークをきちんと設計して、既存のサービスに影響が出ないようにしなければと思っています。また、大量のデータを短時間で処理するためには、SINET6との回線帯域を十分確保することも重要になります。そこで、SINET6と東拠点間の回線速度を現在の200Gbpsから400Gbpsに上げることを計画しており、準備を進めています。
Q 新システムでは、障害の監視も強化されますか?
A 監視強化の取り組みは、すでに始めています。東西の拠点がお互いの状況を見ることができ、なにかあれば自動的に連絡がくるというシステムが、2023年秋頃には完成予定です。また、障害はいきなり起こるわけではなく、予兆があってから本当に壊れるまでには少し時間がかかります。ですから、新システムでは予兆を知るのに有効なデータを取るための仕組みを整備したいと考えています。そうすることで、障害を未然に防ぐとともに、私自身が監視や障害対応のために使っている時間をサービス向上のために使えるようにしたいのです。
Facts
HPCI共用ストレージ
HPCIに採択された研究課題に参加する研究者が、計算に必要なデータや計算結果を保存・共有するためのストレージ。東拠点(東京大学情報基盤センター、総容量45 PB[ペタバイト])と西拠点(理化学研究所計算科学研究センター、総容量45 PB)からなり、利用者はおもに、東西両拠点にて提供しているログインノードやHPCI資源提供機関が用意しているログインノードからログインして利用する。広域分散ファイルシステムであるGfarmが採用されており、データは自動的にログイン機関の近くの拠点に保存され、すぐにもう一方の拠点にコピーされる(拠点間二重化)。利用登録者は常時1,000人程度。
URL https://www.hpci-office.jp/using_hpci/hardware_software_resource/2022/hpci_2022_st-1
この記事が気に入ったらサポートをしてみませんか?