Mixtral 8x7B の概要

2023年12月11日 17:57

以下の記事が面白かったので、かるくまとめました。

・Mixtral of experts

1. Mixtral 8x7B

本日 (2023年12月11日)、「Mistral AI」はオープンウェイトを備えた高品質な「 SMoE」(sparse mixture-of-experts)である「Mixtral 8x7B」をリリースしました。ライセンスはApache 2.0になります。

推論は6倍速く、ほとんどのベンチマークで「Llama2 70B」を上回っています。これは、最強のオープンウェイトモデルであり、コスト/パフォーマンスのトレードオフに関する全体的に最高のモデルです。特に、ほとんどの標準ベンチマークで「GPT-3.5」に匹敵、または上回っています。

2. Mixtral 8x7B の機能

「Mixtral」の機能は、次のとおりです。

・32kトークンのコンテキストを処理
・英語、フランス語、イタリア語、ドイツ語、スペイン語を扱う
・コード生成に強力なパフォーマンスを発揮

指示モデルは、「MT-Bench」でスコア 8.3 を達成します。

3. スパースアーキテクチャの推進

「Mixtral」は、「SMoE」(sparse mixture-of-experts)ネットワークです。これは、フィードフォワードブロックが8つの異なるパラメータグループのセットから選択するデコーダのみのモデルです。すべての層で、すべてのトークンに対して、ルーターネットワークはグループのうち2つ (エキスパート) を選択してトークンを処理し、その出力を加算的に組み合わせます。「Mixtral」は、オープンWebから抽出されたデータについて事前学習されています。エキスパートとルーターを同時に学習します。

4. 性能

「Mixtral」を「Llama2」と「GPT-3.5」と比較しました。「Mixtral」は、ほとんどのベンチマークで「Llama2 70B」と「GPT-3.5」に匹敵、または上回っています。

次図では、品質と推論予算のトレードオフを測定します。「Mistral 7B」と「Mixtral 8x7B」は、「Llama2」と比較して非常に効率的なモデルに属しています。

次表は、上図の詳細な結果を示しています。

4-1. ハルシネーションと偏見

ファインチューニング/プリファレンスモデリングによって修正される可能性のある欠陥を特定するために、TruthfulQA/BBQ/BOLDのベースモデルのパフォーマンスを測定しました。

「Llama2」と比較して、「Mixtral」はより真実であり (TruthfulQA ベンチマークでは 73.9% 対 50.2%)、BBQベンチマークではバイアスが少なくなります。全体として、「Mixtral」は、「Llama2」よりもポジティブで、各次元内で同様の差異があります。

4-2. 言語

「Mixtral 8x7B」は、フランス語、ドイツ語、スペイン語、イタリア語、英語をマスターしています。

5. 指示モデル

「Mixtral 8x7B Instruct」を「Mixtral 8x7B」と一緒にリリースします。この指示モデルは、SFTとDPOで最適化されています。「MT-Bench」では、スコア 8.30 に達し、「GPT-3.5」に匹敵するパフォーマンスで最高のオープンソースモデルとなっています。

【注意】この例を示しているように、「Mixtral」は強力なレベルのモデレーションを必要とするアプリケーションの構築から一部の出力を禁止するよう適切に指示することができます。適切な設定調整もこの目的に役立ちます。このようなプロンプトがなければ、モデルは与えられた指示に従うだけであることに注意してください。

6. Mixtralのデプロイ

コミュニティが完全なオープンソーススタックで「Mixtral」を実行できるようにするために、「vLLM」プロジェクトに変更しました。「Skypilot」は、クラウド内の任意のインスタンスに「vLLM」エンドポイントをデプロイできます。

7. 生成エンドポイント

「Mistral AI」は、最初のプラットフォームサービス「La Plateforme」のベータ版アクセスを開始しました。テキスト生成するための3つのチャットエンドポイントと、埋め込みエンドポイントを提供します。各エンドポイントには、パフォーマンスと価格のトレードオフが異なります。

・Mistral-tiny : Mistral 7B Instruct v0.2。英語でのみ機能。MT-Benchでは7.6を獲得。
・Mistral-small : Mixtral 8x7B。英語/フランス語/イタリア語/ドイツ語/スペイン語とコードをマスター。MT-Benchで8.3を獲得。
・Mistral-medium : Mistral AIの最高品質のプロトタイプモデル。英語/フランス語/イタリア語/ドイツ語/スペイン語とコードをマスター。MT-Benchで8.6を獲得。