見出し画像

サイバーエージェントにおけるWeights & Biasesを用いた日本語LLMの開発

Weights & Biases のNoteをフォローしてください

2023年10月に開催されたW&B Japan 主催のFully Connected 2023 Tokyoカンファレンスでは、サイバーエージェントの石上氏より、大規模言語モデル(LLM)開発の基礎から、WandBを用いた同社のLLM開発について紹介がありました。この記事は、その登壇内容をまとめた記事になっています。
ご発表の動画は、こちらにアップロードされています。

自己紹介・会社紹介
石上氏はサイバーエージェントの基盤モデルプロジェクトのリードとして、大規模言語モデルを中心に数多くのモデル開発に関与しています。サイバーエージェントからはすでに最大68億パラメーターのLLMも一般公開されています。

5分でわかるLLM開発のポイント
書き出しから次の文章の予測をするシンプルなタスクを大量のデータと巨大なモデルで学習させることから始まるLLM開発は、その後ファインチューニングを通じて多様なタスクに対する適応性を高めることができます。例えばインストラクションチューニング(指示チューニング)を行うことで、チャット型のコミュニケーションができるようになり、私たちが「賢い」と思うモデルが出来上がります。さらに、RLHF(人間のフィードバックによる強化学習)などに代表される「アライメントチューニング」を行うことで、より人間の価値観に合った、Helpful, Honest, Ernest などの基準からより望ましい結果を得ることができるようになります。

CyberAgentLMの開発にみる実際のLLM開発
LLM開発ではまず学習に使用されるコーパスを用意する必要があります。日本語のデータセットの例としては、WikipediaやMC4、CC100などがあります。最近のコーパスは数テラバイトに及ぶ非常に大きいものも出てきましたが、多くは「汚いデータ」であり、データのクリーニングはLLMの開発において非常に重要なプロセスになります。例えばRefined Webというデータセットでは、何段階ものフィルタリング処理を経て高品質なデータを作っています。
コーパスが揃ったら事前学習が始まります。LLMの開発で特に有名なものには、NVIDIAのMegatronLMやそれに基づいて開発されたMegatron-DeepSpeed,、MosaicMLのllm-foundry、そして日本語LLMでよく使われるGPT-NeoXなどが挙げられます。サイバーエージェントではこれまでに130億パラメーターまでのサイズのLLMを構築しており、前述の学習データをNVIDIA A100で処理しています。この中で70億パラメーターまでのモデルは5月にHuggingFaceで公開されました。

LLM開発におけるWandBの活用
LLMの学習過程や試行錯誤においては、突然勾配が爆発してしまうようなトラブルがしばしば発生しています。このような問題を解決するには実験過程のモニタリングが欠かせませんが、サイバーエージェントではWandBのモニタリングツールを使うことで、実験ごとの違いを比較したり、その結果をチームに共有しながらチームでの開発を進めています。また、WandBは学習の失敗時にメールを送信する機能を備えていますが、石上氏はその通知機能をフルに活用し、勾配爆発に日々対応をしています。

新しい取り組み
サイバーエージェントでは次世代のLLMモデルであるCyberAgentLMのバージョン2の開発を進めており、Llamaアーキテクチャでスクラッチの学習を行っています(すでに2023年11月にプレスリリースが発表されました)。学習データ量を10倍の1兆トークン以上に増やし、GPUもH100を使うことで、この巨大なモデルの学習を可能にしています。
日本語では、JGLUE、OpenQA、RCQA、英語でも複数のタスクで評価したところ、CyberAgentLMのバージョン2はバージョン1よりも20ポイント近く平均スコアが上がることが確認されています。また、英語と日本語データの割合を変えたアブレーションスタディーでは、期待値通り、データの割合が多い言語での性能が高くなることも確認されています。また、フルファインチューニングとLoRAチューニングの違いを比較した際には結果に大きなばらつきが見られ、LoRAチューニングはデータの質により敏感に反応する傾向が見られたため、計算量が十分にある場合には、フルファインチューニングを優先する方が良いと考えられます。

まとめ
Fully Connected 2023 Tokyoカンファレンスでは、石上氏より、サイバーエージェントにおけるLLM開発について紹介がありました。今後もサイバーエージェントは、より質の高いLLM開発を行っていき、そこから学んだ知見を共有していきたいと考えており、これからもその先駆者的なLLM開発への取り組みに、高い期待を感じる内容の発表でした。W&Bは、日本のLLM開発を進めるサイバーエージェントをLLM開発を支えるプラットフォーマーとして、引き続き支援を続けていきます。

この記事が気に入ったらサポートをしてみませんか?