Mixtral 8x7B の概要
以下の記事が面白かったので、かるくまとめました。
1. Mixtral 8x7B
本日 (2023年12月11日)、「Mistral AI」はオープンウェイトを備えた高品質な「 SMoE」(sparse mixture-of-experts)である「Mixtral 8x7B」をリリースしました。ライセンスはApache 2.0になります。
推論は6倍速く、ほとんどのベンチマークで「Llama2 70B」を上回っています。これは、最強のオープンウェイトモデルであり、コスト/パフォーマンスのトレードオフに関する全体的に最高のモデルです。特に、ほとんどの標準ベンチマークで「GPT-3.5」に匹敵、または上回っています。
2. Mixtral 8x7B の機能
「Mixtral」の機能は、次のとおりです。
指示モデルは、「MT-Bench」でスコア 8.3 を達成します。
3. スパースアーキテクチャの推進
「Mixtral」は、「SMoE」(sparse mixture-of-experts)ネットワークです。これは、フィードフォワードブロックが8つの異なるパラメータグループのセットから選択するデコーダのみのモデルです。すべての層で、すべてのトークンに対して、ルーターネットワークはグループのうち2つ (エキスパート) を選択してトークンを処理し、その出力を加算的に組み合わせます。「Mixtral」は、オープンWebから抽出されたデータについて事前学習されています。エキスパートとルーターを同時に学習します。
4. 性能
「Mixtral」を「Llama2」と「GPT-3.5」と比較しました。「Mixtral」は、ほとんどのベンチマークで「Llama2 70B」と「GPT-3.5」に匹敵、または上回っています。
次図では、品質と推論予算のトレードオフを測定します。「Mistral 7B」と「Mixtral 8x7B」は、「Llama2」と比較して非常に効率的なモデルに属しています。
次表は、上図の詳細な結果を示しています。
4-1. ハルシネーションと偏見
ファインチューニング/プリファレンスモデリングによって修正される可能性のある欠陥を特定するために、TruthfulQA/BBQ/BOLDのベースモデルのパフォーマンスを測定しました。
「Llama2」と比較して、「Mixtral」はより真実であり (TruthfulQA ベンチマークでは 73.9% 対 50.2%)、BBQベンチマークではバイアスが少なくなります。全体として、「Mixtral」は、「Llama2」よりもポジティブで、各次元内で同様の差異があります。
4-2. 言語
「Mixtral 8x7B」は、フランス語、ドイツ語、スペイン語、イタリア語、英語をマスターしています。
5. 指示モデル
「Mixtral 8x7B Instruct」を「Mixtral 8x7B」と一緒にリリースします。この指示モデルは、SFTとDPOで最適化されています。「MT-Bench」では、スコア 8.30 に達し、「GPT-3.5」に匹敵するパフォーマンスで最高のオープンソースモデルとなっています。
6. Mixtralのデプロイ
コミュニティが完全なオープンソーススタックで「Mixtral」を実行できるようにするために、「vLLM」プロジェクトに変更しました。「Skypilot」は、クラウド内の任意のインスタンスに「vLLM」エンドポイントをデプロイできます。
7. 生成エンドポイント
「Mistral AI」は、最初のプラットフォーム サービス「La Plateforme」のベータ版アクセスを開始しました。テキスト生成するための3つのチャット エンドポイントと、埋め込みエンドポイントを提供します。各エンドポイントには、パフォーマンスと価格のトレードオフが異なります。