LLM（大規模言語モデル）の未来は Federated Learning にあり

Masaya.Mori 森正弥 / CAIO (Chief AI Officer)

2024年6月14日 12:34

本記事は、連邦型LLMの可能性を扱った論文「The Future of Large Language Model Pre-training is Federated」を解説する記事です。

LLM（大規模言語モデル）の事前学習の未来

日々発表される新しい生成AI・LLM関連の技術には目を見張るものがあります。Gemini 1.5 のロングコンテキストのポテンシャルにうならされることもあれば、GPT-4o のデモに衝撃を受けたりと、毎日驚くことつきないのですが、その中で、先日、興味深い論文を読みました。タイトルは「The Future of Large Language Model Pre-training is Federated」といいます。

Federated Learning （連邦学習）の適用

この論文の内容は、LLMのプレトレーニングを Federated Learning （連邦学習あるいは連合学習）で行ってしまおうというものです。そのため、Federated Learning の理解が背景知識として必要になります。Federated Learning に関しては以下の記事でその概要をまとめています。

Federated Learning は、個々のノード（デバイスやサーバ）のデータを共有することなく、それらノード（デバイスやサーバ）にまたがってモデルを学習していく機械学習の手法です。通常の機械学習はデータを一箇所に集め、整理し、そこからトレーニングデータを作って学習していくことを行います。それに対して、Federated Learning は、データを共有しないという性質から、データプライバシー、データセキュリティ、データアクセス権、多様なデータの活用等、企業や社会が考慮すべき重要な問題に対処しつつ、機械学習・深層学習の恩恵をもたらすことができます。データを明示的に交換することなく、ローカルノード（ローカルデバイスやローカルサーバ）におけるデータを用いた機械学習モデルの差分トレーニングを可能にします。

計算資源を協力し合う「元気玉的なLLM開発」

LLMの開発における規模と性能の関係については、OpenAIが2020年1月に公開した論文「Scaling Laws for Neural Language Models」で示された、スケーリング則が有名です。

スケーリング則とは、自然言語処理モデルのパラメーター数や、データセットのサイズ、学習に使用される計算量が増えるにつれて、損失（誤差）が「べき乗則」に従って減少する、という法則です。つまり、モデルが大きい、データが大きい、計算回数が大きい言語モデルほどより高い性能を発揮する、ということを表しています。これを踏まえると、必然的にLLMの開発は、データを大量に集め、大量の計算資源によって学習を行っていく中央集権型のアプローチをとることになります。
ですが、この論文の提案手法では、Federated Learning のフレームワークを適用し、様々な組織や人が保有している計算資源とデータがお互いに協力しあうことで、大量の計算資源とビッグデータに匹敵するLLMの開発を可能にしています。譬えるなら、「元気玉的LLM開発」というところでしょうか。
実際に、この論文では、Federated Learning により、異なる種類のハードウェアクラスターそれぞれで（分散した状態で）非同期的に学習を行いつつ、7500万から13億パラメーターの範囲で、LLMの事前学習を成功させています。

Heterogeneity （ヘテロジェナイティ）な計算資源とデータの統合

Federated Learning には、大きな技術的課題であり、特長となるものが２つあります。それはHeterogeneity （ヘテロジェナイティ）な計算資源の統合と、Heterogeneity （ヘテロジェナイティ）なデータの統合という問題です。Heterogeneity （ヘテロジェナイティ）とは、「不均一性」「異質性」「異種性」と訳されることがある言葉で、同じ環境内に様々な起源のものが混在していることを意味します。医療や生物学で使われることの多い言葉ですが、ここでは暫定的に「多様性」という言葉で代替します。Federated Learning には、多様な計算資源の統合と多様なデータの統合という二つの課題であり、同時に特長を有します。
ここでの計算資源の多様性とは、各ノードにおけるハードウェアの持つ計算能力や通信効率、利用可能性がそれぞれ異なってくるというものです。Federated Learning に参加しているノードがすべて高性能のサーバとは限りません。場合によっては、個人のゲームPCが空き時間に参加しているというケースもあるでしょう。逆に言えば、そのようなリソースの多様性を受け入れられれば、より多くの計算資源に参加してもらうことが可能になります。これは、1990年代に登場した、グリッドコンピューティングの概念を彷彿とさせます。

また、多様なデータとは、様々なデータソースからの異なる文書や、画像、動画、という話もあれば、あるノードにおけるデータが他のノードのデータと依存関係にある（逆に言うと、独立同分布仮定に適合していない）ケースも含まれます。ただ一般的には Federated Learning での最適化は、モデルの規模が大きい方が容易になります。よってより多くのノードとより多くのデータに参加してもらうことが大切になります。

新たな集合知

計算資源とデータという二つの多様性を受け入れることで、Federated Learningは、包括的で効率的なLLMのトレーニングパラダイム実現への可能性を示します。
この研究の最も魅力的な側面の一つは、AIモデルトレーニングのクラウドソーシングです。LLMは大規模な計算クラスターを持つ大手のテクノロジー企業だけが開発できるというものではなくなり、ハードウェアリソースが少ない個人でも、集まり、グループとなることでより大きなLLMの開発にチャレンジすることができます。
これは、多様なデータホルダーに LLM開発への参画の機会を提供します。これまでは大手のテクノロジー企業にデータを提供することでしかLLM開発へ参加できなかったのが、手元にある小さなサーバリソースでもLLM開発に自主的に参加することが可能になります。これは、新たな集合知とも呼べうる、グローバルコラボレーションの出現につながるでしょう。

オープンソース LLMの発展へ

Federated Learning は、オープンソースによるLLM開発と相乗効果を発揮し、LLMの研究開発を大きく進化させていく可能性があります。
現在、OpenAIのGPT-3.5、GPT-4、Anthropic の Claude 3、Google のGemini等のクローズドなモデルが、企業や個人におけるLLM活用の中心となっています。ですが一方で、Meta の Llama2、Mistral の Mixtral、アラブ首長国連邦（UAE）で開発された Falcon、MosaicMLのMPT 等のオープンソース型のLLMもその利用を広めています。Federated Learning により、多様な企業、組織、個人が参加した形でのLLM開発を進めるにあたっては、オープンソースLLMをベースとして用いるのが有力な選択肢になります。
これは、オープンソースLLMを支えるコミュニティの活性化にもつながることになり、その発展にもつながります。膨大な計算資源とデータに裏打ちされたクローズドなモデルを超えるオープンソースLLMの登場も夢ではないかもしれません。

企業間における「競争 vs 協創」というパラダイムの再考

さて、Federated Learning の特長として、個々のノードが持つトレーニングデータは個々のノード内に留まり、共有する必要がないというものがあります。ゆえに、例えば個人でいくとプライバシーを担保することが可能になりますし、企業でもデータを他社に共有せずに、LLM開発に参加することが可能になります。
例えば、業界内で各企業のノウハウを結集させたLLMを構築し、業界共通の基盤として用いていくというようなユースケースにおいても、各企業が自社のデータの機密性を保持したまま、共通LLMの開発に協力することができます。このことは、いわゆる、競争領域と協調領域の区分けの再考につながります。つまりは、競合でもある企業間におけるコラボレーション増やし、業界のガバナンス力の向上にも貢献します。
より高度な、高性能なLLMの開発には、より高い品質のデータが重要になります。ですが、そのような高い品質のデータは企業内に眠っていることが多く、それらのほとんどは営業上の秘密や顧客のプライバシー保護等の制約により共有することがかないません。Federated Learning を適用したLLM開発は、この状況を打開する鍵となり、産業における新たな価値創出へとつながっていくかもしれません。

より開かれた未来へ

Federated Learning によるLLMの開発は、膨大な計算資源やデータをもたない組織や個人であっても、目的を共有できる組織・個人を集めて、仮想なクラスターを構成することで、大規模なパラメーター数をもったLLMの構築を可能にします。これは、近年のLLMのブームがリードしているAIの可能性を更に広げるものであり、より民主化されたAIエコシステムへの道を開きます。今後、その展開を注目すべきアプローチと言えます。

なお、Federated Learning のフレームワークとして、Flower というオープンソースのフレームワークがあります。

今回紹介した論文においても Flower を用いた実装がされており、近く公開予定とのことです。オープンソースLLMと組み合わせて、まずは身近な組織や人と、連邦型のLLMの構築にトライしてみるというのもありかもしれません。