富岳による分散並列学習

富岳を用いた並列学習に関する報告資料が出ていた。

HPCIC, 2022.3.28 第二回計算科学フォーラム、横田理央さん

計算科学フォーラム
富岳を用いた大規模言語モデルの分散並列学習 Distributed Training of Large Lunguage Models on Fugaku

https://hpcic-kkf.com/forum/2022/kkf_02/data/yokota_kkf2022-02.pdf

結論から先に書くと、現状はFugakuの4K cpu を使っても7%の演算能力しか使えておらず、アーキテクチャ的にGPUベースのものとは比較にならない。


ピーク性能とCPU数

ソフトのアーキテクチャが富岳に合っていない。MLアーキテクチャに最適化したシステム設計をするところから始めないと、どんなに物量を投入しても期待した効率を得られない。

この記事が気に入ったらサポートをしてみませんか?