見出し画像

【無料でClaude 3に匹敵】MetaのオープンソースLLM「Llama 3」を徹底解説《スマホ、ローカル、ウェブでの利用方法付き》

みなさん、こんにちは。
チャエンです!(自己紹介はこちら

LLMの進化が止まりません!
Gemini Pro 1.5やClaude 3 Sonnetより高精度のLLMである、Llama 3をMetaがリリースしました。

正直オープンソースのLLMで、この性能は凄いと思います。

現状は8Bと70Bの2つのモデルが公開で、Claude Opusにも匹敵する400B+モデルもトレーニング中とのことです。

今回は、Llama 3の概要や使い方、運用コストや速度などを解説します📝
今後、新機能の追加やコンテキストウィンドが増加する予定なので、今のうちに勉強しましょう!


1.Llama 3とは?

1-1 Llama 3の概要

Meta Llama 3は、Metaが開発したオープンソースの大規模言語モデル(LLM)です。AWSやGoogleなどの様々なクラウドプラットフォーム上での提供だけでなく、AMDやDell、Intel、NVIDIA、Qualcommなどのハードウェアプラットフォームからもサポートされています。

現在、400B以上のパラメータを持つ大規模モデルの開発も進めており、長い文脈の理解や全体的な能力の向上など、新機能を搭載したモデルをリリースする予定です。

Meta Llama 3の技術は「Meta AI」にも搭載され、学習や創作、コミュニケーションなどを支援するAIアシスタントとして利用できるようになっています。

主な特徴は以下の通りです。

  • 業界標準のベンチマークで最高レベルの性能を実現

  • 推論、コード生成、指示に従う能力などが大幅に改善

  • 15兆トークンの高品質な事前学習データを使用

  • GPUの効率的活用により学習効率を約3倍に向上

  • 指示微調整により推論力とコーディング能力が向上

  • Llama Guard 2、CyberSec Eval 2、Code Shieldなどの信頼性と安全性のためのツールを提供

  • 今後、多言語・マルチモーダル対応、さらなる性能向上、研究論文の公開を予定

1-2 Llama 3の能力比較

現在幅広いシーンで利用できるよう、80億パラメータと700億パラメータの2つのモデルが公開されています。

事前学習と事後学習の改善により、事前学習済みモデルと指示微調整済みモデルは、現在8Bと70Bのパラメータスケールで存在する最高のモデルで、Metaが行ったテストによると、複数のベンチマークで最先端の性能を示し、このレベルのオープンソースモデルとしては、現時点で最高の性能です。

Claude SonnetやGPT-3.5など、幅広く利用されているLLMと比較した結果、競合モデルを上回る結果を収めたと発表しています。

また、Metaは400B以上のパラメータを持つ大規模モデル(Llama-3-400B)の開発も進めており、長い文脈の理解や全体的な能力の向上など、新機能を搭載したモデルをリリース予定です。

このモデルは、Claude 3 Opus, GPT-4-2024-04-09, and Gemini 1.5 Proを凌駕しているとのことです。無料でオープンソースで公開されており、商用利用可能になるとのことで、ゲームチェンジャーになることは間違いないと推測しています。

1-3 Llama 3の技術解説

Metaでは、『優れた言語モデルは、シンプルさを追求しながら、革新とスケーリングを行うことが重要』という考えで開発を行っているそうです。

この哲学を元に、モデルアーキテクチャ、事前学習データ、事前学習のスケールアップ、指示微調整という4つの重要な要素に焦点を当ててLlama 3を開発したと公表しています。

①モデルアーキテクチャ
Llama 3では、比較的標準的なデコーダーのみのトランスフォーマーアーキテクチャが採用されています。

128Kトークンの語彙を持つトークナイザを使用しているため、言語をはるかに効率的にエンコードすることができ、モデルのパフォーマンスが大幅に向上しています。

②学習データ

最高の言語モデルを学習させるためには、大規模で高品質な学習データセットの収集が最も重要です。

Llama 3は、公開されているソースから収集された15T以上のトークンで事前学習されています。学習データセットはLlama 2で使用されたものの7倍の大きさで、4倍のコードが含まれています。

今後の多言語ユースケースに備えるためLlama 3の事前学習データセットの5%以上は、30以上の言語をカバーする高品質な非英語データで構成されています。ただし、これらの言語での性能は英語ほどではないと予想しています。

③事前学習のスケールアップ
下流のベンチマーク評価のために必要な一連の詳細なスケーリング則を開発しました。最適なデータミックスを選択し、学習計算をどのように最適に使用するかについて情報に基づいた決定を下すことができます。

実際にモデルを学習させる前に、主要なタスクでの最大モデルのパフォーマンスを予測できるとのことです。

さまざまなユースケースと機能にわたり、最終モデルの強力なパフォーマンスを確保するのに役立ちます。

④指示微調整
チャットのユースケースで事前学習済みモデルの可能性を完全に引き出すために、指示調整へのアプローチにも革新を加えたといいます。

事後学習へのアプローチは、教師あり微調整(SFT)、リジェクションサンプリング、プロキシマルポリシー最適化(PPO)、直接ポリシー最適化(DPO)を組み合わせたものです。

LLMモデルは正しい答えを生成する方法を知っていますが、それを選択する方法は知りません。選好ランキングで学習することで、モデルはそれを選択する方法を学習できます。

1-4 Llama 3のライセンス

Llama 3はMETA LLAMA 3 COMMUNITY LICENSEのもとで提供されています。
またオープンソースのため、私的利用だけでなく再配布や改変等は許可されています。しかし商用利用には条件がある場合があるので、使用する際は一度確認することをお勧めします。

2. Llama 3の使い方①《Web》

以下のWebサイトにアクセスし、ログインします。

ここから先は

1,755字 / 6画像

¥ 500

この記事が気に入ったらサポートをしてみませんか?