見出し画像

シミュレーション・データ・学習の融合を可能にする新たな通信システムソフトウェア


東京大学情報基盤センター 特任教授 住元真司
専門は高性能計算機(HPC)向けシステムソフトウェアおよびアーキテクチャ。 慶応義塾大学大学院理工学研究科修了、博士(工学)。新情報処理開発機構(出向)、株式会社富士通研究所、 富士通株式会社において、国内ハイエンドHPC システム(理研RSCC、筑波大PACS-CS、「京」、「富岳」等)の 研究開発に携わったのち、2022年4月より現職。

近年、シミュレーションをはじめとする計算科学とデータ科学・機械学習を融合してより複雑な問題を解くことが不可欠となってきています。しかし、シミュレーションを担うシステムと、データ・学習を担うシステムを連携するには、両者の間で、システムの違いを意識することなくデータのやり取りができることが重要です。この要請に応えて、住元真司特任教授らは、異種システムの間をシームレスに接続するための通信システムソフトウェアWaitIO(正式名称はh3-Open-SYS/WaitIO)を開発しました。その特徴と応用例をうかがいました。

異種システム間の通信は難しい

─WaitIOとはどのようなものですか。
住元|現在、私が所属する東京大学情報基盤センターでは、Wisteria/BDEC-01(図上)というスーパーコンピュータ(スパコン)を2021年より運用しています。BDECとは、Big Data & Extreme Computingの頭文字をとったものです。本システムは、すでに頭打ちとなりつつあるスパコンの性能向上を、ハードウェアだけでなくアルゴリズムやアプリケーションから変革するためのプラットフォームとして研究開発に利用されています。本研究開発の目的は、次世代以降のスパコンによる科学的発展の持続的促進のために、従来からの計算科学に加え、データ科学、機械学習を導入した「計算・データ・学習の融合」を実現するh3-Open-BDECという革新的ソフトウェア基盤を開発・整備・実用化し、政府が進めているSociety 5.0が目指す安心・安全な社会の実現に貢献することにあります。
 Wisteria/BDEC-01は、シミュレーションを担うOdysseyと、データ・学習を担うAquariusの2つのシステムからなっています。このような場合、従来は、それぞれのシステムで個別にデータ処理し、その結果を、別作業として他方のシステムで利用していましたが、Wisteria/BDEC-01では、一度にかつ同時並行的にシステム間で直接データのやり取りができるようにすることを目指しました。そのための通信システムソフトウェアがWaitIOというわけです。

─WaitIOはどのような役割を果たしているのでしょうか。
住元|スパコンでは、多数のプロセッサ※1に分散して処理を行うため、プロセッサ間でデータが頻繁にやり取りされます。このような通信の制御にはMPIと呼ばれる高速の通信システムソフトウェアが広く使われ、システム内ではアプリケーションに応じて複数のMPIが動いています。これらを融合し、異種システム間で通信する役割を果たすのがWaitIOです。
 特にWisteria/BDEC-01の場合、OdysseyのプロセッサはArmのCPUで、AquariusはIntelのCPUとNVIDIAのGPUであり、それぞれのネットワーク構造も異なるため、従来のMPIではこれらの間を直接通信することはできませんでした。それを可能にしたのがWaitIOなのです。

新たな計算法の実装が可能に

─OdysseyとAquariusをシームレスにつなぐことで、どのような計算が可能になるのでしょうか。
住元|現在、2つの課題を進めています。1つは、「リアルタイムデータ同化」と「3次元強震動シミュレーション」を融合するものです(図下)。
 従来の地震動シミュレーションは、震源に振動の変位、速度、加速度等の初期条件を与えて実施していましたが、正しい初期条件の設定は困難です。今回の手法は、東京大学地震研究所の古村孝志先生らが開発したフレームワークを用いており、全国を網羅したリアルタイム地震センサーネットワークJDXnet※2の中の約350ヵ所の対象領域のデータを利用します。
 まず、地震発生直後の領域内の各地震センサーの観測データをリアルタイムに取り込み、その観測データによって対象領域における波動伝播の初期条件分布を生成します。その初期条件を使用して実施するシミュレーション結果と、次のタイミングでリアルタイムに得られた観測データ群を、統計数理学に基づく「データ同化」によって補正します。これにより、現実に近い初期条件が得られます。この手順を何度か繰り返すことでシミュレーション結果の精度が向上し、以後はシミュレーションだけで精度よく地震動の伝わり方を予測できるようになります。シミュレーションはOdys-seyが、データ同化はAquariusが行うので、両者をWaitIOで融合することにより高速化できます。投入する計算機資源の多さといつまでデータ同化を行うかによって処理時間は調節でき、地震波が伝わる前にシミュレーション結果を得ることが可能です。
 これにより、いち早く避難誘導、ライフラインの防御などの減災行動を始めることができるようになります。
 もう1つの課題は、「気象・気候シミュレーション」と「機械学習」を合体するものです。今回、私たちは気候シミュレーションにおける雲の計算を対象としてAIとの連携を行いました。
 気候シミュレーションでは、大気や海洋だけでなく、温室効果ガスの吸収放出や植生、雪や氷など多様な現象を計算に取り入れる必要があります。なかでも雲の形成は複雑で膨大な計算を必要とするプロセスの1つであり、雲を詳しく表現するために必要な高い解像度で、気候のように長期間の積分が必要な計算を実行することは、現在の最先端のスパコンでも困難です。そのため、地球全体の気候シミュレーションでは解像度を落とした上でパラメータを含む簡略化した計算を行わざるを得ません。
 そこで私たちは、高解像度の入力値から雲の計算を行い、入力値とシミュレーション結果を教師データとしてAIに学習させています。シミュレーションはOdysseyで行い、入力値と結果をWaitIOでAquar-iusに送るのです。すると、AIは低解像度の入力値から「高解像度のシミュレーション結果はこうなる」と予測してくれるようになり、実際に高解像度のシミュレーションを実行する必要がなくなります。それにより、シミュレーションの実行時間の大幅な短縮と計算精度の向上の両立を図ることができます。

目標は安心・安全な社会の実現

─2022年11月に、国際会議※3で最優秀論文賞を受賞されたそうですね。
住元|
異種システム間で、シミュレーションと機械学習を直接つないで高速処理を実現するというのは世界初の試みであり、しかもそれにより、シミュレーションの処理速度と精度の向上を両立できたことが、評価していただいたポイントだと感じています。
 今後、Wisteria/BDEC-01では、地震については予測精度向上のため小規模地震を活用した地下構造モデルの改善を進めていく他、地球温暖化に伴う異常気象が深刻さを増す中、線状降水帯や台風による河川の氾濫予測に関するシミュレーション、ゲリラ豪雨、線状降水帯、台風など気象現象のシミュレーションの予測精度向上についての研究にもWaitIOの活用を進めていきます。これらの研究を進めることで気象現象と都市における洪水や浸水などさまざまなシミュレーションを組み合せることが可能になります。これらの実践を通してWaitIOをより使いやすく改良してWisteria/BDEC-01の性能を高め、Society 5.0が目指す安心・安全な社会の実現に貢献していきたいですね。

Wisteria/BDEC-01を用いた「リアルタイムデータ 同化」と「3次元強震動シミュレーション」の融合
上:Wisteria/BDEC-01 は、シミュレーションを担うOdyssey と、データ・学習を担うAquarius を、通信システムソ フトウェアWaitIOを使って接続し、シミュレーションとデー タ・学習を連携させている。観測データは外部リソースか ら取り込む。
下:この課題では、地震動伝搬の初期条件を仮定してOdyssey でシミュレーションを行った結果と、JDXnetを通じて 約350ヵ所の対象領域からリアルタイムに届く地震センサー の観測データとのデータ同化をAquarius上で行い、初期条 件を導出する。この初期条件を使ってOdysseyでシミュレー ションを行い、新たに得られたリアルタイムデータを加え てデータ同化をAquariusで行うということを何度か繰り返 すと、以後はシミュレーションだけで精度よく地震動の伝 わり方を予測できるようになる。

(取材・構成 山田久美)

【深く学ぶには】
▶プレスリリース「住元特任教授らの論文がPDCAT2022 Best Paper Award を受賞」
https://www.itc.u-tokyo.ac.jp/blog/2022/11/28/post-3872/
▶Wisteria/BDEC-01について
(スーパーコンピューティング研究部門概要)
https://www.itc.u-tokyo.ac.jp/supercomputing/overview/

※1 コンピュータの部品のうち、装置の制御や、演算などのデータ処理を行うもの。制御装置と演算装置を一体化したCPU(中央処理装置)や、画像処理に特化したGPU(グラフィックスプロセッサ)などの種類がある。GPUは機械学習に適している。
※2 東京大学地震研究所が全国の国立大学や気象庁、防災科学技術研究所、海洋研究開発機構などと共同で構築し運用している。各地におかれた地震センサーの観測データがSINET(国立情報学研究所が提供している超高速の学術用ネットワークサービス)経由で流通する。
※3 第23回並列・分散コンピューティングとその応用・技術(PDCAT ‘22)

Contents
 
nodes vol.3 巻頭言
特集
 ICTと高等教育
 オンライン教育プラットフォームの運営と教員の教育力向上サポート
 VRを活用する教育の効果と可能性
連載 nodesの光明
 データストレージを止めるな!──着実な連携と監視で運用を支える
連載 飛翔するnodes
 シミュレーション・データ・学習の融合を可能にする
 新たな通信システムソフトウェア
nodesのひろがり
 政府調達ってそもそも何なん?
 東京大学のDXとは?
 地球を覆う巨大な情報通信網
 番外編 SC22参加報告

この記事が気に入ったらサポートをしてみませんか?