見出し画像

生成AI開発の戦場の平等化

xAIが発足9ヶ月で大規模言語モデルを発表しています。生成AI開発の戦場が平坦化して、誰でも大規模言語モデルを開発できるようになった理由をお話しします。


xAIのGrokリリース

Elon MuskはもともとOpenAIの創業時のパートナーでしたが、のちに決裂しました。xAIはElon Muskが新たに起こした生成AI企業です。創業9ヶ月で大規模言語モデル Grokをリリースしました。Elon Muskは創業のころ、GPUは麻薬よりも手に入れにくいと言っていましたので、GPUを買い漁ったことは想像に難くありません。

NVIDIAがキングメーカー

GPU首位のNVIDIAは生成AIに注力しています。今年発表されたGPUのBlackwellアーキテクチャもチップの内部もシステムアーキテクチャも生成AIを最適化するものです。

生成AI開発には次のものが必要です:

  • 人材(アルゴリズムを生み出す)

  • データ

  • 計算資源

計算資源であるGPUが死活の鍵を握るということは他の2つの要素、人材(アルゴリズム)とデータに目途がついたということです。

戦場を平坦化するアルゴリズムの進展

大規模言語モデルの開発は次の3段階からなります:

  • 事前学習

  • 人間フィードバックによるファインチューニング

  • ポリシー最適化による好ましい出力へのチューニング

大規模言語モデルの事前学習にはGoogleが発表したTransformerが有効なことがわかっています。Transformerは学習の並列性を上げることによって大規模言語モデルの学習を容易にしました。これによってトークンの遷移確率が計算できます。トークンはだいたい単語だと思っていただければ結構です。
この単語間の遷移確率だけでは特定の領域で有効な出力を出すことはできません。
特定の領域で有効な出力をするためにはファインチューニングを施します。
ファインチューニングしても、偏見のある出力や犯罪を助長する出力を抑えたりすることはできません。人間にとって有用な出力をするために2017年にOpenAIが発表したのがPPO (Proxymal Policy Optimization)です。ポリシーと呼ばれる有用な出力を出すメカニズムを学習します。
残念ながら単純に有用な出力を出そうとすると過学習という答えに合わせすぎる現象が起き、もとの学習を壊して言語的に意味のない文章を学習結果として出してきます。これを抑えるためにPPOではわざわざ大幅な変更をしないようにしながら学習しています。ブレーキを踏みながら学習するようなものなので学習の手間は増大していました。
2023年にStandord大学が改良したDPO (Direct Preference Optimization)という方法を提案しました。これはPPOでは仮定していなかった評価関数に仮定をおき、その仮定のもとで厳密解が存在することを利用して、厳密解を相殺して最適化に大規模言語モデルの評価関数を直接使うものです。数学的な証明は私の能力を越えるので省略します(参考文献[jovyan])。
DPOはPPOよりはるかに高速です。DPOoptimizerはOSSで公開されています(参考文献[trl])。

平等化

必要なライブラリが公開されているので、あとはデータを集めて、計算資源をかけて計算するだけです。
TransfromerやDPOが最終解ではないでしょうが、とにかく、何も考えないで後を追いかけるのには十分です。大規模言語モデル開発の平等化と言えます。

近未来のシナリオ

平等化における次のシナリオは次の通りです:

  • みんなが同じように人間に近い能力をもった大規模言語モデルを所有する時代

  • 有用な大規模言語モデルがオープンソース化されて開発が終わる時代

  • 次のアルゴリズムが来て差異化される時代

  • 大規模言語モデルの開発は終わり、実行するためのGPUの開発競争が始まる時代

どんな未来が待っているのか、今のところはわかりません。

むすび

大規模言語モデルのパラメータ数が1兆個レベルである限り、あまり自分で開発するメリットはないと思います。実行するのに膨大な計算資源が必要で、それを調達するコストが、他の企業の提供する大規模言語モデルの利用料と相殺してしまうからです。
近未来はいかに有用な小さな言語モデルを開発するかにかかっていると思います。

参考文献

  • [itmedia] xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表 https://www.itmedia.co.jp/news/articles/2311/05/news053.html 2023年

  • [jovyan] 日本語LLMをDPOと派生手法でファインチューニングする https://qiita.com/jovyan/items/6767c9fd944a636fdf88 2024年

  • [sbbit] イーロン・マスクのAI企業「xAI」とはいかなる企業か? 宇宙との関係とは? https://www.sbbit.jp/article/cont1/120645 2023年

  • [trl] TRL - Transformer Reinforcement Learning https://github.com/huggingface/trl 

この記事が気に入ったらサポートをしてみませんか?