【論文瞬読】Google DeepMindが新たな言語モデル「Gemma 2」を発表！小さくても賢い、AIの新時代の幕開けか？

2024年7月4日 18:39

こんにちは！株式会社AI Nestです。今回は、Google DeepMindが発表した最新の言語モデル「Gemma 2」について、詳しくお話ししていきます。このモデル、実はすごいんです。小さな体に大きな力を秘めているんですよ。それでは、さっそく見ていきましょう！

タイトル：Gemma 2: Improving Open Language Models at a Practical Size
URL：https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
所属：Gemma Team, Google DeepMind

Gemma 2って何者？

Gemma 2は、Google DeepMindが開発した新しい言語モデルファミリーです。2億から270億のパラメータを持つモデルが用意されていて、軽量なのに最先端の性能を誇るのが特徴です。

「えっ、270億パラメータで軽量？」と思われるかもしれません。確かに、GPT-3の1750億パラメータと比べれば大きく見えますが、最新の大規模言語モデルと比べると、かなりコンパクトなんです。それでいて、性能は2-3倍大きいモデルに匹敵するんですから、驚きですよね。

ここに示した表は、Gemma 2の各モデル（2.6B、9B、27B）の主要なパラメータと設計上の選択を示しています。この表を見ると、モデルサイズが大きくなるにつれて、レイヤー数や次元数が増加していることがわかります。特に注目すべきは、全てのモデルでGQA（Grouped-Query Attention）を採用している点です。これにより、効率的な情報処理が可能になっているんですね。

Gemma 2の秘密兵器、それは「知識蒸留」

Gemma 2の強さの秘密は、「知識蒸留」という技術にあります。これは、大きなモデル（先生）の知識を小さなモデル（生徒）に効率よく伝える方法なんです。

従来の方法だと、小さなモデルの性能を上げるには、とにかくたくさんのデータで長時間学習させる必要がありました。でも、それって効率が悪いんですよね。データ量を2倍にしても、性能はそれほど上がらない。

そこでGemma 2は、大きなモデルの「考え方」そのものを学ぶアプローチを取りました。具体的には、次のトークン（単語やフレーズ）を予測する際に、大きなモデルの出力確率分布を小さなモデルに教えるんです。

これにより、少ないデータでも効率よく学習できるようになりました。まるで、優秀な先生に個別指導してもらっているようなものですね。

Table6, 500Bのトークンを一から学習した2.6Bのモデルと、7Bのモデルから抽出した2.6Bのモデルの比較

この表は、知識蒸留の効果を端的に示しています。2.6Bのモデルを500Bトークンで学習させた場合、ゼロから学習させるよりも、知識蒸留を使用した方が7%以上も性能が向上しているんです。これは本当に驚くべき改善ですよね。

アーキテクチャも進化してます

Gemma 2は、最新の自然言語処理技術もふんだんに取り入れています。例えば：

ローカル-グローバルアテンション：近い情報と遠い情報を効率よく処理できる仕組みです。
グループクエリアテンション（GQA）：情報の取捨選択を効率的に行う技術です。

これらの技術により、Gemma 2は長い文章も的確に理解し、生成できるようになっています。

性能はどうなの？

ここからが本当にすごいんです。Gemma 2は、その小ささを感じさせない高性能を発揮します。

Table13, パラメータ2.6Bから9Bの範囲のモデルと、我々の27Bモデルを様々なベンチマークで比較。LLaMA-3と比較できる8つのベンチマークと、すべてのベンチマーク（all）の平均性能を報告する。LLaMA-3 8Bの数値は、HuggingFaceのリーダーボードまたは彼らのブログポストからのものです。LLaMA-3でベースラインに使用された評価を報告すると、我々の評価と比較して+3%になる： Gemma-1 7Bは41.7%ではなく44.9%を達成し、Mistral 7Bは41.2%ではなく44%を達成した。Gemma-1 7Bは41.7%ではなく44.9%を達成し、Mistral 7Bは41.2%ではなく44%を達成した。 ⋄ ベースラインに対してLLaMA-3で使用された評価を報告するが、Gemma-1 7Bに対する我々の評価と比較して+4%、つまり55.1%ではなく59.0%になる。

この表を見てください。Gemma 2の各モデルが、様々なベンチマークテストでどれだけの性能を発揮しているかが一目でわかります。

例えば、MMLU（大規模言語理解）というベンチマークでは、Gemma 2の27Bモデルが75.2%のスコアを達成。これは、同じくらいのサイズのQwen1.5 32Bの74.3%を上回っています。

さらに驚くべきは、LLaMA-3 70B（パラメータ数が2.5倍以上）の79.2%にかなり近いスコアを出していることです。小さな体で大きな仕事をしているというわけですね。

特に注目したいのは、GSM8K（数学的推論）やARC-c（常識推論）などの難しいタスクでも、Gemma 2が優れた性能を示していることです。これは、Gemma 2が単なる言語モデルではなく、高度な推論能力も持ち合わせていることを示しています。

安全性と倫理面への配慮

AIの発展に伴い、安全性や倫理面の問題がよく取り沙汰されますよね。Gemma 2の開発チームも、この点をしっかり考慮しています。

例えば、トレーニングデータの選別や、有害なコンテンツ生成を防ぐための様々な対策が講じられています。また、人間による評価や、多角的な安全性テストも実施されています。

Table20, 異なる自己増殖シナリオでの結果。エンド・ツー・エンドまたは中間マイルストーンでパスしたチャレンジの数を報告する。また、エキスパートがモデルのチャレンジをパスするのに必要な情報のビット数も測定する。

この表は、Gemma 2の自己増殖能力（自律的に他のマシンに複製を作成する能力）をテストした結果を示しています。結果を見ると、Gemma 2は完全な自己増殖能力は持っておらず、安全性が確保されていることがわかります。これは、モデルの責任ある開発という観点から非常に重要なポイントです。

さらに、環境への配慮も忘れていません。モデルのトレーニングに伴う炭素排出量を計算し、カーボンニュートラルな方法でトレーニングを行っているんです。

Gemma 2がもたらす可能性

Gemma 2のような効率的で高性能なモデルは、AI技術の実用化と普及を大きく加速させる可能性があります。

例えば、スマートフォンやエッジデバイスなど、計算リソースが限られている環境でも高度なNLP（自然言語処理）タスクが実行可能になるかもしれません。また、AI開発にかかるコストと時間の削減にもつながるでしょう。

さらに、Gemma 2はオープンソースとして公開されています。これにより、多くの研究者や開発者がこの技術にアクセスでき、さらなる革新につながる可能性が高まっています。

Figure1, チャットボット・アリーナでのGemma 2 9Bおよび27B命令チューニング・モデルの評価 (Chiang et al., 2024)。モデルは、人間の評価者によるブラインド・サイド・バイ・サイドの評価によって互いに評価されます。各モデルには、Elo評価システムに基づいてスコアが付けられます。Gemmaモデルは最近チャットボット・アリーナに追加されたので（1.7k票）、信頼区間はより大きい。

この図は、Gemma 2の9Bと27Bモデルが、他の主要な言語モデルと比較してどの程度の性能を持つかを示しています。驚くべきことに、Gemma 2 27Bは、GPT-4やClaude 3 Opusといった最先端モデルに匹敵する性能を示しているんです。これは、Gemma 2が単なる実験的モデルではなく、実用レベルの高性能AIであることを証明していますね。

まとめ：小さな巨人、Gemma 2の登場

Gemma 2の登場は、AI技術の新たな方向性を示唆しています。「より大きく」ではなく、「より賢く」。これが、これからのAI開発のトレンドになるかもしれません。

もちろん、まだまだ課題もあります。事実性の向上や、敵対的攻撃への耐性強化など、改善の余地は多分にあります。しかし、Gemma 2が示した可能性は、間違いなくAIの未来を明るく照らすものだと言えるでしょう。

小さな体に大きな力。Gemma 2は、まさにAI界の「小さな巨人」と呼ぶにふさわしい存在です。今後の発展が、本当に楽しみですね。

以上、Google DeepMindの新たな言語モデル「Gemma 2」についてお話ししました。AIの世界は日々進化しています。これからも最新の動向をお伝えしていきますので、お楽しみに！