見出し画像

ラマ3.2が来たで!視覚能力も備えてるで👀

4,052 文字

おおきに、メタコネクトがあって、メタがラマ3.2をリリースしたんや。新しいモデルに新しいサイズ、視覚能力、そしてもっとたくさんの機能が追加されてんねん。今日はそれらについて詳しく見ていくで。このビデオのパートナーになってくれたメタには感謝しとるわ。
まずは重要なポイントを手短に説明して、すぐに情報を伝えるわ。そのあと、これらのトピックについてもっと深く掘り下げていくで。
まず大ニュースや、ラマ3.2がきたんや。ラマ3.1は3.0から大幅に改善されたけど、今度は3.2や。ラマ3.2の何が違うんかって?ラマが視覚を得たんや。ラマが実際にものを見れるようになったんや。これはラマファミリーのモデルにとって驚くべき更新やね。
新しい視覚対応モデルには110億パラメータ版と900億パラメータ版があるんや。これらはラマ3.1のドロップイン置き換えやから、すでに使ってる人はコードを変える必要がないんや。サイズは違うけど、テキスベースの知能の能力はそのままで、新たに視覚ベースの知能も追加されたんやで。
それに加えて、エッジデバイス用に特別に作られた10億と30億パラメータのテキストオンリーモデルも発表されたんや。
ワイの動画を見てる人なら知ってると思うけど、ワイはAIの計算能力がエッジデバイスに押し出されていくと信じてるんや。エッジデバイスって何かって?スマホやパソコン、IoTデバイスのことやね。つまり、クラウドじゃないものすべてや。ワイは本当に、どんどんAIの計算能力がエッジデバイスに押し出されていくと思うんや。今回のリリースはその方向への大きな一歩やね。
モデルはどんどん小さくなりながら、能力は大きく向上してるんや。それがこのラマ3.2の10億と30億パラメータ版テキストモデルに表れてるんやで。これらは事前学習済みで、指示チューニングもされてて、すぐに使えるんや。
ワイはこれらが簡単にメタAIのレイバンメガネに組み込めると想像できるわ。10億と30億パラメータ版は、最初から128kのコンテキストウィンドウを持ってて、要約や指示に従う、書き直しタスクなどの用途で、同じクラスのモデルと比べて最高レベルの性能を発揮するんや。しかもローカルで動くんやで。
これはまさに、ワイが考えるAIの未来像を裏付けるもんや。つまり、多くの小さくて優秐な専門モデルがデバイス上で動くっちゅうことやね。
これらのモデルは特定のタスクに特化してて、もしかしたら覚えてるかもしれんけど、ワイがクアルコムとビデオを作ったとき、クアルコムはAIの計算能力をエッジデバイスに押し出すことに非常に熱心やったんや。もちろん、メタはクアルコムとパートナーシップを組んでて、これらのモデルはクアルコムやMediaTekのプロセッサ向けに最適化されてすぐに使えるんや。
ラマ3.2の110億と900億の視覚モデルは、対応するテキストモデルのドロップイン置き換えやけど、画像理解タスクではクロード3ハイクーのような非公開モデルを上回る性能を発揮するんや。
ワイはこれらのモデルを今後のビデオでテストしていくから、それを見たい人はチャンネル登録しておいてな。
他のオープンなマルチモーダルモデルとは違って、事前学習済みモデルと調整済みモデルの両方が利用可能で、PyTorchTuneを使ってカスタムアプリケーション用にファインチューニングしたり、PyTorchChatを使ってローカルにデプロイしたりできるんや。メタAIっちゅうスマートアシスタントを使って試すこともできるで。
メタがエコシステムに大きく投資してるのは明らかやね。ファインチューニングのためのツール作りやホスティングサービス、そして個人生活やビジネスでオープンソースモデルを使うのに必要なものすべてを構築してるんや。
初めてのラマスタック配布も発表されたんや。これは開発者がラマモデルを使って作業したり、コアLLMの周りに必要なものすべてを構築したりするのに使えるツールセットやね。本番レベルのアプリケーションを構築するのに必要なものや。
ラマスタックは、開発者がさまざまな環境でラマモデルを使って作業する方法を大幅に簡素化するもんやと説明されてるわ。シングルノード、オンプレミス、クラウド、デバイス上など、さまざまな環境に対応してて、検索拡張生成やツール対応アプリケーションのターンキーデプロイメントを可能にし、安全性も統合されてるんや。
もちろんオープンソースのラマスタックGitHubリポジトリを見ると、推論、安全性、メモリ、エージェントシステム、評価、学習後の合成データ生成、報酬スコアリングなどをサポートしてるのがわかるわ。これらはそれぞれ簡単に使えるRESTエンドポイントを持ってるんや。
ラマ3.2はllama.comかHugging Faceからダウンロードできるし、AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Azure、NVIDIA、Oracle Cloud、Snowflakeなど、メタのクラウドパートナーの一部でも利用可能になる予定やで。
ベンチマークの結果も見てみよか。この列がベンチマーク項目で、この行が比較対象のモデルやね。ここにラマ3.2の10億版と30億版があって、Gemma 2BやT5.3 Miniと比較してるんや。これらは小さなオンデバイスモデル同士の比較やね。
見てみると、このラマ3.2の30億版モデルが同じクラスのモデルと比べて信じられないほど良い性能を発揮してるのがわかるわ。MMLUで63、GSM8Kで77、ARC Challengeで78、ツール使用でもすごく良い結果が出てるんや。こんな小さなモデルでこの性能はすごいわ。
次に、視覚機能を持つ大きなバリアントを見てみよか。ここにラマ3.2の900億版と110億版があって、クロード3ハイクーやGPT-4.0miniと比較してるんや。ラマ3.2の900億版がほぼ全ての項目でベストインクラスの性能を示してるように見えるわ。
まずは小さなモデルをテストしてみるで。ここにあるgro.comのラマ3.2 10億版プレビューを使うわ。どれだけ速いか見てみよか。「物語を書いて」って入力したら...うわ、秒間2000トークン以上やで!すごい速さや!
もう少し具体的なことを試してみよか。「Pythonでスネークゲームを書いて」っと...ほら、秒間2000トークンの速さで出力されたわ。実際に動くかどうか見てみよか...おお、一発で動いたわ!信じられへんな。
秒間2000トークン、全体の出力時間が1秒以下で、10億パラメータのモデルが最初の試みでスネークゲームを作れたんや。めっちゃ印象的やわ。
視覚テストは別の動画に取っておくけど、今はもう少し詳しく説明するわ。ラマ3.2コレクションの最大の2つのモデル、110億版と900億版は、グラフや図表を含む文書レベルの理解、画像のキャプション付け、自然言語の説明に基づいて画像内のオブジェクトを方向性を持って特定するような視覚的接地タスクなど、画像推論のユースケースをサポートしてるんや。
例えば、誰かが去年のどの月に自分の小さなビジネスの売上が最高やったかを尋ねたら、ラマ3.2は利用可能なグラフに基づいて推論し、素早く答えを提供できるんやで。
ワイはこの視覚モデルで「ウォーリーをさがせ」をやってみたいわ。
視覚タスクをサポートする最初のラマモデルとして、110億版と900億版は画像推論をサポートする全く新しいモデルアーキテクチャを必要としたんや。画像入力のサポートを追加するために、事前学習済みの画像エンコーダーを事前学習済みの言語モデルに統合するアダプターの重みセットを学習させたんや。
でも、それをするのに新しい技術を使ったんや。アダプターは、画像エンコーダーの表現を言語モデルに供給する一連のクロスアテンション層で構成されてるんや。テキストと画像のペアでアダプターを学習させて、画像表現と言語表現を整列させたんや。
アダプターの学習中に画像エンコーダーのパラメータも更新したけど、意図的に言語モデルのパラメータは更新しなかったんや。そうすることで、テキストの能力をすべて維持しつつ、開発者にラマ3.1モデルのドロップイン置き換えを提供できるんやで。
つまり、ラマ3.1のテキストモデルと同じくらい優秀で、さらに視覚機能も持ってるってことやね。もし実際にどうやってこれを実現したかの詳細を読みたいなら、説明の下にリンクを載せとくで。
学習後には、教師あり微調整、棄却サンプリング、直接選好最適化(DPO)など、いくつかのラウンドのアライメントを行ったんや。ドメイン内の画像に関する質問と回答をフィルタリングし、拡張するためにラマ3.1モデルを使って合成データ生成を活用したんやで。
合成データはここにあるし、ここにもあるし、もう準備ができてるんや。ラマ3.1はそれができるし、ましてやラマ3.2ならなおさらやね。
それに、ラマ3.1の大きいバージョンを教師モデルとして使って、もっと小さいバージョンを教えたんや。それが10億と30億パラメータのラマ3.2バージョンになったんやで。10億と30億モデルにはプルーニングと蒸留の2つの手法を使って、デバイスに効率的に搭載できる初めての高性能な軽量ラマモデルを作ったんや。
ワイは100%オンデバイスAI計算を支持してるで。
以上や。メタの素晴らしいオープンソースリリースおめでとうやね。ワイはこれらの異なるモデルをすべてテストする予定や。テキスト知能のテストと視覚知能のテストの2つの異なるテスト動画を作る予定やで。
このビデオのパートナーになってくれたメタにもう一度感謝するわ。この動画を楽しんでもらえたなら、ぜひ「いいね!」を押して、チャンネル登録してな。次の動画でまた会おな!

この記事が気に入ったらサポートをしてみませんか?