ABCI上でDeepSpeedを使ったLLMの学習を実行するまで

7~8Bのフルパラメタチューニングは残念ながらA100 x 1枚(40GB VRAM)でも乗らない。
そこでDeepSpeedに頼ることに。

基本的にはこちらのnoteに従うと良い。

1. mpi4pyのinstallについて

pip でinstallしようとするとwheel関係のエラーが生じた。元記事ではcondaでinstallしているが、ABCI上ではそうも行かない。

module load intel-mpi/2021.11
pip install mpi4py

で解決した。

2. torch_adam = Trueに設定。
これは別になくても良い。

3. AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'

・Deepspeedやninjaをinstallし直してみたが解決せず。

・module load gcc/13.2.0
で解決した。よくみたら以下のエラーが出ていた。

error: #error "You're trying to build PyTorch with a too old version of GCC. We need GCC 9 or later."



この記事が気に入ったらサポートをしてみませんか?