見出し画像

幅広い分野の研究者ニーズを満たす データ活用社会創成プラットフォーム mdx

特集 
幅広い分野の研究者ニーズを満たす
データ活用社会創成プラットフォーム mdx

 2021年9月、「データ活用社会創成プラットフォームmdx」の試験運用が始まりました。mdxは東京大学柏Ⅱキャンパスに設置されており、東大を含む9大学と2研究所※1が共同運営しています。
 世界初の「産学官連携のためのプラットフォーム」としてmdxが目指すのは、「誰もがデータを利活用できる計算環境を提供する」こと。
 そのハードウェアの構築を担当した東大情報基盤センターの塙 敏博教授と、サービス設計・運用に関わる大学院情報理工学系研究科の鈴村豊太郎教授に、mdxの特徴や現在の利活用のされ方、期待されるアカデミアへのインパクトについてうかがいました。

鈴村豊太郎 東京大学 大学院情報理工学系研究科 教授
専門は人工知能、大規模グラフ深層学習。東京工業大学大学院情報理工学研究科博士課程修了、
博士(理学)。IBM Researchに17年間勤務し、MIT-IBM Watson AI Lab プロジェクト代表も務めた。2021年より現職。情報基盤センター教授を兼任。
塙 敏博 東京大学情報基盤センター 教授
専門は高性能計算システム。慶應義塾大学 大学院理工学研究科博士課程修了、博士(工学)。
筑波大学大学院システム情報工学研究科准教授、東京大学情報基盤センター准教授などを経て、2020年より現職。

Society 5.0 時代に求められるデータ活用プラットフォームを目指して

「Society 5.0」は、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムによって、経済発展と社会的課題の解決を両立する、人間中心の社会のことです。2016年に国が策定した「第5期科学技術基本計画」※2の中で日本の未来社会のコンセプトとして提唱され、以来、アカデミアと産業界はSociety 5.0の実現に向けた研究開発を加速しています。東京大学も、今後アカデミアがどのような計算資源を必要とするかを議論し、その答えの1つとして、データ利活用の推進を支援する「データ活用社会創成プラットフォームmdx」を、国立情報学研究所(NII)との密接な連携のもとで構築しました。そして、2021年9月、試験運用が始まったのです。
 mdxは、計算資源、ストレージ、ネットワークからなっており、構成要素はスパコンと同じです。しかし、「スパコンが大規模計算を行うために大きな計算資源を提供することを主目的に構成されているのに対して、mdxは十分な計算資源と同時に、一人ひとりのユーザが研究しやすい環境を提供する点がまったく違います」と、塙教授は言います。これまでスパコンを使っていなかった人を含め、データを利用する幅広い分野の研究者に使ってもらうことを目指しているのです。
 mdxを利用できるのは、おもにアカデミアの研究者です。プロジェクトを申請し、承認されると、計算資源やストレージ、ネットワーク構成が割り当てられます。そこに、OSやソフトウェアをインストールすれば、プロジェクトに合った仮想環境を短時間で構築できるのです。そして、この仮想環境を用いることで、データを収集・保存したり、解析を行ったり、その結果を公開したりといった研究活動をmdx内で完結できます。
 このように、ユーザにとって使い勝手のよいプラットフォームであることが、mdxの最大の特徴です。さらに、「スパコンでの計算やデータの利用に慣れていない研究者がプロジェクトを申請する際には、私たちが相談に応じています」と塙教授。使用中のサポート体制も充実しており、ユーザのハードルはぐっと低くなっているようです。

研究者ならではのニーズに応える3つの特徴

 mdxは、研究者用のプラットフォームという性格から、使いやすさに加えて以下の3つの特徴を備えています(図1)。
 1つめは、研究者ごとの仮想環境がセキュアに保たれていることです。研究者が扱うデータには、個人情報や、企業の技術情報など秘匿性の高いものが多くありますが、mdxではデータが漏れる心配をせずに研究することができます。さらに、外部からセンサーなどを使ってデータを収集する際にも、その通信までセキュリティが担保されています(後述)。
 2つめは、スパコン並みの計算資源を備えており、データ科学と計算科学の手法を融合した研究が行えることです。
 3つめは、研究者間の連携を促す場となりうることです。各研究者の仮想環境はセキュアに保たれていますが、必要に応じてデータを共有し、利活用するための機能も提供されます。これにより、研究者はmdx上で異分野の研究者と学際的な共同研究を展開することができます。

図1  mdxの特徴 mdxは、アカデミアにおけるデータ科学・データ活用に特化したデータプラットフォームである。ユーザが研究内容に合った構成のセキュアな仮想環境を構築でき、リアルタイムでデータを収集し、解析することもできる。この特徴を生かし、医療、防災、エネルギー、農水産業などへのデータ利活用研究が行われることが期待される。

柔軟に構築できるハードウェアと仮想環境による高いセキュリティ

 このようなmdxの特徴は、どのようにして実現されたのでしょうか(図2)。「mdxの使い方はユーザに全面的に委ねられますから、ユーザが柔軟に仮想環境を構築できるようなハードウェア構成と、セキュリティの確保に特に気をつかいました」と塙教授は説明します。
 まず、計算資源としては、最新のCPUを多数備えている他、ディープラーニングのアクセラレータなどとして使われるGPUも搭載しています。ストレージは、「大容量HDDストレージ」と「高速NVMeストレージ」の他、研究で得られた成果やデータベースを外部に公開することを想定して「外部共有オブジェクトストレージ」も設けられています。
 内部高速ネットワークによって、プロジェクト内でセキュアかつ高性能なデータ処理が行える一方、外部接続ネットワークは、SINET6とのさまざまな連携が実現できるように工夫がされています。SINET6は、NIIが日本全国の大学や研究機関向けに提供している超高速(400Gbps)の学術ネットワークサービスです。SINET6自体が一般のインターネットとは切り離されており、セキュリティが高いのですが、さらに、内部と外部接続のネットワークを分けたことにより、万一外部から侵入を受けても内部のストレージなどを守ることができるようになっています。
 また、SINET6は、モバイルSINET(携帯キャリアの基盤を利用した閉じたネットワーク)と接続しているため、外部のセンサーや遠隔地の装置等からデータをセキュアに収集することが可能です。プロジェクトごとの仮想環境は、モバイルSINETまで含めて完全に分離されており、秘匿性の高いデータを扱う研究も安心して実施できます。
 一方、ユーザはNIIが運用する「Gaku Nin」※3というシステムを経由することで、mdxを容易に利用することができます。こうした点について塙教授は、「システムの構成を考えるのも大変でしたが、全国のユーザがアクセスしやすい一連の仕組みをつくり込んだり、運用のやり方を考えるのはさらに大変でした」と振り返ります。

図2 mdxの特徴 mdxのハードウェアの構成と利用イメージ ユーザが使いたいときすぐにアクセスできる一方で、プロジェクトごとの仮想環境は高度にセキュリティが守られている。

試験運用に参加する70余の課題と今後期待される学際的研究分野の誕生

 鈴村教授は、2022年6月30日時点のmdxの利活用状況について「プロジェクトは試験運用開始以来、徐々に増え、現在70以上の課題が動いています。計算資源の使用状況は時々刻々変動しますが、GPUは使用率が90%に迫った時期があるほど大いに活用いただいています」と話します。
 順調に試験運用が進むmdxですが、利便性向上のためにさらなる機能の拡張が計画されています。1つは、NIIが運用する研究データ管理基盤サービス「Gaku Nin RDM※4」との連携です。近年、研究者は研究データの適切な管理を強く求められます。研究データを常時、収集し構造的に管理し、必要なときに取り出すことのできるGakuNin RDMと連携することで、より研究しやすい環境が整えられます。また、ハードウェアの面では、mdxを共同運営する11機関が所有するスパコンと接続し、計算資源の強化を図ることが考えられています。さらに、運用を円滑に続けるための適切な課金制度も検討されています。
 新サービスとして模索を続けるmdxについて、鈴村教授は「欧米でも、商用ではない“みんなが使えるデータプラットフォーム”の必要性が言われていますが、国レベルでmdxのようなシステムをつくったのは日本が世界で初めてです。日本独自のシステムとして十分に活用していただきたいです」と言います。
 柔軟な使い方ができるmdxには、期待通りさまざまな分野のプロジェクトが集まってきており(表1)、日本でどのようなデータ利活用研究が行われているかの全体像も見えてきそうです。そして、その先には、これまで思いもよらなかった分野間の学際的な研究が生まれることが期待されています。「材料科学と情報科学の学際研究が始まり、新素材を発見するための手法を構築しようという研究もすでに始まっています」と鈴村教授。塙教授とともに「日本ならではの新しい研究分野の誕生に積極的に関わっていきたい」と決意を新たにしています。

表1  mdxで実行中の研究課題の例 実行中の70余の課題のうち、学際大規模情報基盤共同利用・共同研究拠点(JHPCN)※5で2022年4月に採択された15課題を例としてあげた(うち3課題を次ページ以降で紹介する)。

(取材・構成 池田亜希子)

※1 北海道大学、東北大学、筑波大学、東京大学、東京工業大学、名古屋大学、京都大学、大阪大学、九州大学、国立情報学研究所、産業技術総合研究所
※2 詳細は内閣府ウェブサイト参照
   https://www8.cao.go.jp/cstp/kihonkeikaku/index5.html
※3 NIIが全国の大学と連携して運営している学術認証フェデレーション。詳細はNIIウェブサイト参照 https://www.gakunin.jp/
※4 詳細はNIIウェブサイト参照  https://rcos.nii.ac.jp/service/rdm/
※5 詳細はJHPCNウェブサイト参照 
  https://jhpcn-kyoten.itc.u-tokyo.ac.jp/ja/

深く学ぶには
「データ活用社会創成プラットフォームmdx」ウェブサイト https://mdx.jp/

Contents
巻頭言
特集 データ活用社会創成プラットフォームmdx 始動
  ゼロカーボンを目指す地域と技術をつなぐ情報基盤の構築
  オープンデータから日本全国の人流をつくりだす
  医学分野の論文から日本語言語モデルを構築する
連載 nodesの光明
  情報システム利用者の「困った!」を解決
   ──教育のオンライン化に貢献する学生サポーターたち
連載 飛翔するnodes
  大型データから解き明かす土星衛星の大気環境
nodesのひろがり
  
プロジェクト md“X”
  スパコン導入の舞台裏
  0と1で超巨大システムを操る
  モノとその繋がりの科学

この記事が気に入ったらサポートをしてみませんか?