Gemma 2と呼ばれる新しいAIモデルが登場しました。このモデルには9Bパラメーターバージョンと27Bパラメーターバージョンの2種類があります。9BバージョンはLlama 3の8Bバージョンを上回る性能を示し、特定のベンチマークで優れた結果を出しています。一方、27Bバージョンは70Bパラメーターのモデルと競合する性能を持つとGoogleは主張しています。これらのモデルを動かすには、NVIDIAのH100または80GBのVRAMを持つA100、または他のGPUが必要です。9Bバージョンは小さなGPUでも動作するため、アクセシビリティが高いです。これらのモデルは13兆トークンや8兆トークンのデータセットで訓練されており、その性能は多言語対応の面でも優れています。Gemma 2の27Bモデルは特に、Chatbot Arenaでの最新のテストでLlama 3の70Bモデルを上回る結果を示し、新しい基準を設定しています。Gemma 2は商用ライセンスも提供されており、多岐にわたる用途での使用が可能です。公開日:2024年6月28日
※動画を再生してから読むのがオススメです。
Gemma 2がリリースされ、2つのバリエーションがあります。
9Bモデルと27Bモデルを持っています。
このビデオでは、いくつかの例を紹介します。
私はそれについて少し簡単に説明し、実際にこれを使い始める方法を示します。
このモデルには、9Bパラメーターバージョンと27Bパラメーターバージョンの2つのサイズがあります。
9Bパラメータバージョンは、実際には多くのベンチマークでLlama 3、8Bを上回っています。
また、私がそれを使用すると、このモデルは確かにLlama 3と同等であり、特定の点でもより良いように思えます。
これにより、非常に優れた性能を発揮できる、あまり大きくないが非常に役立つモデルが得られます。
27Bパラメーターモデルについて、Googleはこのモデルが70Bパラメーターのモデルと競争できると主張しています。
実際、技術レポートでLMSYS Chatbot Arenaに関する内容が確認できるようなものをお見せします。
このモデルを実行する方法です。
このモデルを実行したい場合は、この27Bモデルには、NVIDIA H100を使用するか、80ギガバイトのVRAMが搭載されたA100を使用する必要があります。GPUにも適合します。
実際の9Bモデルは、かなり小さなGPUにうまく収まっているようです。
私はL4で使用していますが、T4でも適合すると思います。
ぜひお試しください。
これに関するベンチマークを見ると、9BはLlama 3に対して非常に競争力があり、Llama 3、8Bに対してもそうです。
27Bモデルは、確かに70BのLlama 3モデルに向かって上昇しています。
私たちは、それよりもはるかに小さいものについて話しています。
それは確かに、Llama 3のベンチマーク、70Bをすべて上回っているわけではありません。
これは、過去に無関係なモデルとして話したGrok-1のようなモデルよりもはるかに優れていることは明らかです。
それは非常に大きく、パフォーマンスもそれを実行しようとするか、微調整しようとするだけの価値があるほど良くありません。
ここではGemma 2とはまったく逆です。
技術レポートに入る前に、これは基本的に商用ライセンスを持っていることがわかります。
これはさまざまなことに使用でき、Gemmaライセンスがあり、これを見てみることができます。
これを展開し、来月に次に考えるために設定することについて話しました。Google Cloudでワンクリックで展開し、Vertex AIでも実行できるようにすることができます。
ここで興味深い事実のもう一つは、彼らがいくつかの技術の透かし技術をオープンソース化する取り組みを積極的に行っているということです。これも非常に興味深いです。
技術レポートに入って、見てみましょう。
技術レポートでは、アーキテクチャにいくつかの新しい要素が追加されたり、ここでの注意が変更されたりしていることが少し見えます。これは興味深いです。
ここからいくつかのことを知っていますが、9Bモデルのように、人々は7Bモデルがここでのトークナイザーのせいで8Bモデルと呼ばれないことについて不満を言っています。どんなモデルであっても、埋め込みパラメータはここではかなり大きくなります。
これは、トークナイザーに256,000のトークンが含まれているためであり、Mistral32,000のトークナイザーなどのはるかに小さなトークナイザーとは異なります。
後でそれをちょっと見て、Llama 3と比較できるようにします。
9Bの方は実際にTPU 4sでトレーニングされていることがわかりますが、27Bの方はより新しいTPU 5sでトレーニングされています。
驚くべきことに、これらのどちらもTPU 6sで訓練されていないようです。おそらく、現在のGoogle内でもそれほど多くは存在していないことを示唆しています。
訓練データを見ると、27Bパラメーターモデルが13兆トークンで訓練されていることがわかります。
記憶によると、それはLlama 3よりも少し少ないと思います。
9Bパラメータモデルは8兆トークンで訓練されています。
私は言わざるを得ませんが、この9Bモデルがここでこれほどうまく機能しているのには非常に感銘を受けています。
私のいくつかのテストでは、これらのモデルの多言語側の方が確かに他のものよりも優れていることがわかりました。
その多くはトークナイザーのおかげであり、最終的にはこれを詳しく見ていくことができます。
ここで事後トレーニングを見ると、驚くほどのことはほとんどないことがわかります。
英語に基づいた監督されたファインチューニングを行っています。
彼らはSFTでも合成データの明確な用途を持っていますが、興味深いのは、このモデル統合の部分で、実際に異なるハイパーパラメータや異なる要素に基づいてモデルを統合していることです。
フルベンチマークを見ると、確かにこれらのモデルが小さい9Bモデルが非常に競争力があり、ほぼいつもLlama-3-8Bを上回っていることがわかります。
彼らはラマ3、70Bを省略したことがわかります。実際、27Bよりも優れていると思いますが、それはそこに2倍のサイズがあるという事実に基づいて予想されるものです。
また、ここで非常に興味深いのは、これらのモデルをChatbot Arenaでテストしていることです。
実際、LMSYSのウェブサイトに基づくChatbot Arenaでは、予備結果が示すところによると、Gemma 27Bがオープンウェイトモデルの最新技術を確立し、Llama-3-70B instructやNemotron instructモデルを凌駕していることが分かっています。
それは非常に興味深いです。
長い間、私はこれらのベンチマークがモデルの素晴らしさを常に示しているわけではないと感じていました。
Google内部や他の場所で何度もビデオで話してきたように、これらのベンチマークは実際には、内部で各モデルをテストしている自社のベンチマークを公開するために使用されているだけであり、ようなものです。
よく見る最高のものは、しばしばこのLMSYS Chatbot Arenaです。
彼らがGemma 27Bモデルがそこで非常に強力に機能していると主張しているのを見るのは非常に興味深いです。
コードに飛び込んで、Gemma 2 9Bモデルからのいくつかの出力を見てみましょう。それらがどのようなものかを見てみましょう。
さあ、Gemma 2 9Bモデルからのいくつかの出力を見てみましょう。
このノートブックでHanging Face Transformersをセットアップしています。
これを公開する前に、おそらくいくつかの変更を加えるでしょう。
動画の公開が少し遅れるかもしれませんが、できるだけ早く説明欄に掲載します。
私たちが得ている出力を見ると、確かにこのような高品質な思考の連鎖や、明確に説明された段階的なものがあります。
さまざまな出力全体にそのようなものが見られます。
ある意味では、そこにあったGemma 1モデルなどよりも、おそらくはるかに詳細です。
興味深いことに、このような質問があります。
私がPyTorchだけでバージョンをテストしていたとき、実際に非常に興味深い結果が出ました。このまったく同じ質問をしたとき、私がLlamasと綴った方法から、これは実際にはLlamasやアルパカについてではないかもしれないと理解しているようでした。
戻ってきたのは、大規模言語モデルの家系について興味があるようです。
それはLlamaとアルパカ、ビクーニャモデルの違いについていくつかの統計を実際に示しました。
それは常に起こるわけではないようです。
確かに、Transformersバージョンが動作する前の純粋なPyTorchバージョンでの初期テストでそれは起こりました。
私たちはここでそれを求めると、このような思考の連鎖を非常に一貫して見ることができます。メールを求め、それを求めると、基本的に思考の連鎖を示すようにして、この全体を段階的なもののようにしています。
幼い子供のものをやるように求めると、それはそれをするのにかなりうまくやっています。
興味深いことに、27Bモデルと比較すると、ちょっと前後にスキップしてみますが、27Bモデルでは、より詳細な回答を得ることができることがわかります。
こちらが27Bモデルです。
実際にフレディ、5歳の人格を受け入れるべきであるとき、実際には絵文字やその他のものをかなり多く使用しています。
9Bモデルでは、実際にはあまり絵文字が表示されていないと感じました。
もしかしたら、お求めいただければ、おそらくそれを手に入れることができるでしょう。
しかし、このメールには絵文字がたくさん使われた面白い小さなメールが見られます。これは27Bモデルの代表的なものです。
27Bモデルは簡単には実行できません。
私は量子化されたバージョンを実行していません。
おそらく今週後半には、お試しいただける量子化されたバージョンが出てくると思います。
もう一度見てみると、副社長からの手紙を見ると、それが90億バージョンであることがわかります。
27億バージョンを見ると、長くなっていて、少し新しいものになっていることがわかります。特定のことを言及していたり、そのようなことをしていたりします。
面白いことに、私がそれにカマラ・ハリスであるとは一度も伝えていないにも関わらず、実際には、9Bバージョンはここでの副大統領のケイトからの予測がより良いです。
これはシステムプロンプトがここに渡されているようなものであり、一方、270は独自に進み、この例では実際の人物から署名されており、ケイトではありません。
もう1つ楽しいことは、このモデルは簡潔で要点を押さえることができるということです。例えば、ロンドンの首都を尋ねると、短く簡潔に答えてくれます。確かに、ロンドンと小さな旗が表示されます。一方、9Bのモデルでは、2回ロンドンという回答しか得られません。
それを試してみたんです。
ジェフリー・ヒントンのことに関しては、何の問題もありません。
むしろ、これらの思考の連鎖は、他の多くのモデルよりも要点を押さえており、それほど長々と続かないと言えます。
それに対して、これらのモデルの強みの1つは、創作執筆全般の領域です。
私が出した創作の例は、その中のいくつかが本当に素晴らしいものであることに驚かされています。
こちらの9Bのものと27Bのものの両方に当てはまります。
コードのことは、それに見合ったものです。
GSM 8Kでは、考えの連鎖がはるかに的を射ています。
このような質問をしていると、時々正解することがありますが、しばしば正解しないことがあります。
実際には、最後はかなり難しいですが、ここではすべての回数を正しく取得しました。単語バージョンと実際の数学バージョンの両方についてです。
27Bモデルを見ると、ステップバイステップの手順を少し長く考える時間があり、それを行うたびに正確に行えるようです。
ただし、現時点ではこのモデルはGSM 8Kには向いていないと言えます。
これをテストするのは少し当たり外れがあるようです。
私の推測では、時間の経過とともに、これらをどれだけうまく行うかがわかるでしょう。
週の初めにこのようなことをテストしていると、人工知能についての詩を書いてください。各行の最初の文字が「シンギュラリティ」を綴ります。
この種のことには本当にうまくやっているようです。
もう1つ本当に興味深いのは、自分自身の能力、限界、潜在的な偏見をAI言語モデルとして批判的に分析することです。
これらはいくつかのレッドチームのようなものです。
興味深いのは、それがGemmaモデルであることを知っているように見えることです。
GemのオープンウェイトAIアシスタントとして戻ってくる結果を見ることができます。私は、あなたに役立つツールであるためのいくつかの機能を持っています。
これを通じていくつかの制限についても話すことができます。
それの多くは、異なる方法で促すことによって、実際に非常に異なる答えを得ることができるという点に帰結しているようです。
ここでは、単に尋ねるだけで、根拠を示さずに質問をすることができるかどうかを見ることができます。
根拠を求めると、そのための非常に明確なマークダウンを提供します。
しかし、ここでは、それが言っているように、人々はその溝を埋める創造的な方法を想像することができると思います。
これは、私たちが思考の連鎖を求めないとき、出力が少し創造的になる傾向があるようです。幻覚のように常にそうではないかもしれませんが、同じように制約されていないように見えます。
私の推測では、それはここでの多くの指示調整と関連しており、指示調整の例の多くが特定の思考の連鎖を求めるようなものであることが原因だと思います。
とにかく、Reactの部分はかなりうまくいっています。
他の部分もかなりうまくいっています。
最後に、GoogleからAIスタジオでいくつかの他のリリースがあります。
新しいGemini 1.5 Proが200万のコンテキストウィンドウで利用可能です。
それを今すぐ使い始めることができますか?
また、コード実行に関する情報もあります。
もう一つ、すぐにお見せしたいことは、実際にGemma 2 27Bがそこにあるということです。
もしここに来て、実際にそのモデルをテストしたいと思うなら、すぐにここに来て試してみることができます。27Bモデルがどのようなものか、何ができるかを見て、後でローカルで実行したいかどうかを感じ取ることができます。ただし、純粋にテストしたいだけであれば、AIスタジオで今すぐ行うことができます。
とにかく、いつも通り、質問やコメントがあれば、コメント欄にお書きください。
動画が役立った場合は、いいねボタンをクリックして購読してください。次の動画でお会いしましょう。
さようなら。