RouteLLMがGPT4品質の95%を達成し、85%安価に

2024年7月9日 07:44

よし、今日はかなりクールな進展がありました。これはLMsisによって発表されたものです。彼らはチャットボットアリーナの背後にいる人々です。そこでは、私たちはこれらの大規模言語モデルを全て集めて、互いに戦わせて、どれが生き残るかを見ます。なぜなら、生き残れるのは1つだけだからです。しかし、ここにはひねりがあります。新しいアプローチがあり、それがRoute LLMです。これは、コスト効率の良いLLMルーティングのためのオープンソースフレームワークです。このものが何であり、なぜ良いのかを深く掘り下げた論文全体があります。さらにクールなのは、ここにコードがあることです。オープンソースで、インストールしてローカルマシンで遊ぶことができます。
これが大きな話題になる理由は、これらのAIシステム、AIエージェントのためのより複雑なフレームワークを構築していく中で、パフォーマンスを向上させる非常に単純な方法の1つが、使用する異なるLMシステムやエージェントの数を増やすことだからです。例えば、1つを出力にし、1つを判断者にし、そして他のものの出力を反映して改善するような何らかのエージェントを追加するなどです。これらのことは全て、テキストであれコードであれ、出力の全体的な品質を向上させるのに非常に効果的です。
このチャンネルでは、autogenやChad Devのようなものを取り上げてきました。基本的にGPT-3.5 turboを使って複数のエージェントを作成し、それらが一緒に作業するようなものです。監督者、コーダー、デザイナー、バグテスターなどがいて、それぞれが個別の役割で作業するようなものが12個くらいあります。そして、それが吐き出すコードは本当に良くて、GPT-4が生成するものに近いものになります。
つまり、これらのモデルをどのように連結するかというアーキテクチャが、それらの効果と品質、そして達成できることに大きな役割を果たすということです。Chat Devで、GPT-3.5モデルを使ってゲームを1つ約5セントで作ることができました。同じことをGPT-4を使ってやると、はるかに高くついたでしょう。GPT-4を使って町全体の人々をシミュレートし、彼らの生活を再現するのを見ましたが、そのプロジェクトはGPT-4のクレジットで数千ドルかかったと思います。
しかし、すべてのタスクに最高のトップモデルが必要なわけではありません。ここで、Route LLMのようなものが登場するわけです。つまり、大規模言語モデルは様々なタスクで驚くべき能力を示していますが、そのコストと能力には大きな差があります。Claude 3 OpusやGPT-4などは性能面では高いですが、コスト面でも高いです。そのため、現在私たちは取引をしています。最高で、最も明るく、最も高価なものを使うか、それともより安く、より速く、それほど能力のないものを選ぶか、という取引です。
しかし、もっと良い方法があったらどうでしょうか？これは、現実世界でLLMを展開する際のジレンマにつながります。再び、ビジネスを運営したり、ウェブ調査を手伝ったりするためのものを構築している場合、これらのモデルで何をしているにしても、すべてのクエリを最大で最も能力のあるモデルにルーティングすると、最高品質の応答が得られますが、非常に高価になる可能性があります。繰り返しますが、これらのプロジェクトの中には、すべてがGPT-4などに依存しているため、数千ドルを吹き飛ばしてしまうものもあります。
もちろん、クエリをより小さなモデルにルーティングすることでコストを節約できますが、応答の品質が低下する可能性があります。GPT-3.5は安いですが、品質はそれほど良くなく、より難しいタスクでは失敗します。一方、ローカルで実行するものはほぼ無料です。電気代は払いますが、ほとんど無視できるくらい非常に安価です。
これがジレンマであり、LMルーティングがその解決策を提供します。クエリを書き込むと、それがモデルに行く前に、ゲートキーパーのようなシステムがあり、まずどのLLMにルーティングするかを決定します。
NvidiaのVoyagerプロジェクトを覚えているかもしれません。そこではGPT-4がMinecraftをプレイし、非常に上手くやります。新しいスキルを学び、APIを通じて世界と対話するコードを作成し、探索したりモンスターと戦ったりします。これは私にとって、GPT-4と例えばGPT-3.5のような、より安価だが場合によってはあまり能力のないモデルをどこで使うかについて、非常に明確で賢明な区別をした最初の例の1つでした。
ここで注目すべきは、これがAIエージェントが世界と対話するために使用するコードだということです。それが機能することが重要で、正しく機能することも重要です。つまり、コードが実行されるだけでなく、正しいことを行う正しいコードでなければなりません。さもないと、何か悪いことが起こります。
例えば、ここでGPT-4が「combat_zombie」という関数を作成します。ゾンビと戦っているわけですが、もしそれを失敗すると、キャラクターが死んでしまいます。だから、最高のモデルにGPT-4を使って挑戦させます。
しかし、これらのスキルの説明付きライブラリも必要です。正しいスキルを探しているときに、説明を素早く読んで、正しいスキルを見つけ、ライブラリから取り出して使用できるようにするためです。その説明は単なる平易な英語で書かれています。自然言語です。100%正確である必要はありません。十分に良ければいいのです。シェイクスピアレベルの文章を探しているわけではなく、ただ一目見てこれが何をするものかがわかるものを探しているだけです。
これが、この「プログラムの説明」です。この関数「combat_zombie」を説明していて、ただ「この関数はゾンビと戦うために石の剣を装備することに関するものです」と簡単に言っています。非常にシンプルですが、これはGPT-3.5によって書かれています。そしてそれで十分です。タスクを台無しにすることはありませんし、そのタスクには十分良く、はるかに安くて速いです。
繰り返しますが、重要なコードはGPT-4に任せたいですが、このものが何をするかについてのメモを書き留めるのはGPT-3.5でできます。お金を節約し、より速くできます。
これを行う他の例もありますが、通常は人間がそれを行います。その例では、彼らが知る限り、それを選別する高度なアルゴリズムを使用せず、ただ「これにはGPT-4を使い、これにはGPT-3.5を使おう」と言っただけです。
LMルーティングは、まさにそれを行うための非常に効果的なシステムを作成しようとするアプローチです。その特定のタスクに必要な最高の結果を、可能な限り安いコストで得るにはどうすればよいでしょうか。世界クラスの脳外科医に電球を交換させたくはありません。
そのため、より弱いモデルで処理できるすべてのクエリはそれらのモデルにルーティングし、他のすべてのクエリは強力なモデルにルーティングして、コストを最小限に抑えながら応答品質を維持します。ここで注意すべきは、コストだけでなく速度も重要な要素になる可能性があるということです。
また、音声の入出力ができるオムニモデルのようなものが必要ない場合もあります。例えば、あなたの声を理解し、適切な感情的なニュアンスを持った音声を出力できるようなものです。画像を生成するように頼んでいる場合、そのすべてをスキップして、テキストモデルさえ必要ない可能性があります。画像モデルに直接行くこともできますが、ここではそれについては触れていません。
しかし、このアーキテクチャが発展するにつれて、そのようなことがもっと見られるようになると感じています。例えば、Orca 2のようなものを使用して、特定の1つのことに特化した小さなモデルを使うこともあるかもしれません。例えば、感情分析が必要な場合、収益発表の通話があり、その書き起こしがあって、「AIモデルよ、彼らはどんな感じに聞こえる？興奮しているように聞こえる？それとも落ち込んでいるように聞こえる？雰囲気を読んでくれ。どんな感じに見える？」というような場合、それだけを非常に上手くこなす比較的小さなモデルがある可能性があります。そのため、その特定のシナリオでそれを呼び出すことができるかもしれません。
しかし、もちろん明らかな問題があります。これは挑戦的な問題であることが判明しました。正しいモデルにルーティングするこの能力は、ルーティングシステムが入ってくるクエリの特徴と異なるモデルの能力の両方を推論しなければならないからです。ルーティングする際、各クエリをどこに送るべきかを知る必要があります。
彼らは、LMルーティングがこれに対する解決策を提供すると言っています。さて、それがどのようにルーティングし、強力なモデルが必要な場所と弱いモデルで済む場所をうまく予測する方法を本当に理解したい場合、多くの数学が関係しています。多くの数学と統計があり、この場合、彼らは単に二項分類を使用しています。つまり、弱いか強いかのどちらかです。弱いモデルに送るか、強いモデルに送るかを決めるだけです。
これは、大砲が必要か、それともここのインターンに任せられるかを判断するようなものです。ちなみに、これはChatbot Arenaの全体像にも関係しています。Chad Arenaを見たことがあると思います。このチャンネルで使っているのを見たことがあるはずです。まだ試していない人は、かなり面白くてクールです。ランダムに選ばれた2つの異なるモデルが与えられ、どちらがどちらかわかりません。このようなものです。ビジョン言語モデルを使ったり、他の言語モデルを使ったりできます。プロンプトを与え、ビジョンモデルを使用している場合は、ランダムな画像やデスクトップからの何かを追加できます。何でもいいです。そして、複数のラウンドを行って、どちらが良いかを見ることができます。
そして投票します。どちらのモデルがどれかは、投票した後でしか教えてもらえません。つまり、どちらを好むかのブラインドテストです。時間が経つにつれて、彼らは数万、数十万、この時点では数百万の投票を集めています。現在、このアリーナの総投票数は140万票のようです。50万人のユーザーが150万票を投じて、どのモデルが良いか、どれが悪いかを見ています。
興味深いことに、彼らは各モデルの他のモデルに対する勝率も追跡しています。モデルAとモデルBがあり、これはおそらくより良い画像の例だと思います。これはモデルA対モデルBです。モデルAが勝者で、モデルBが敗者です。例えば、この特定の組み合わせでは、こことここを見ると、これら2つのモデルが出会うと、一方が100%勝っています。これはちょっと異常で、おそらく十分な投票がないか何かだと思います。
しかし、重要なのは、最高のモデルを弱いモデルと比較しても、勝率は通常100%ではないということです。このデータを使用して、弱いモデルがより大きく高価なモデルと一貫して勝っている、あるいは引き分けている場所を詳しく見ることができます。
このプロジェクトの背後にいる人々は、バークレー、Any Scale、多くのUCバークレー、そしてCanvaからです。彼らは、Chatbot Arenaの公開データを使用して4つの異なるルーターを訓練し、品質を損なうことなくコストを大幅に削減できることを実証することに成功しました。ここにはかなりのコスト削減が見られます。MT-bench で85%以上、MMLU で45%、GSM-8K で35%のコスト削減が、すべてにGPT-4を使用する場合と比較して達成されています。適切な場合に、より安価で速いモデルにアウトソーシングしながら、GPT-4のみの性能の95%を達成しています。
これは考えるととても興味深いです。最高のコスト削減85%を考えてみましょう。誰かを雇ってプロジェクトをやってもらうとして、数字を簡単にするために10万ドルかかるとします。そして別の会社が「95%同じくらい良い結果を保証しますが、1万5千ドルでやります」と言ったらどうでしょうか。つまり、85%以上のコスト削減です。
もちろん、プロジェクトの内容によって大きく異なります。時には100%正確である必要があったり、可能な限り良い結果が必要な場合もあります。しかし、例えばこのようなコードスニペットの説明のような場合、5倍のコストをかけて作成したものの95%の品質で十分でしょう。そのコスト削減のために95%の品質を選びます。
そして、これを見るのは嬉しいことです。彼らは全てのコードとデータセットを公開しています。これには、LLMルーターを提供し評価するための新しいオープンソースフレームワークも含まれています。つまり、あなた自身の特定のユースケースに合わせて独自のものを作成できる可能性があります。どれだけお金を節約できるか、品質の低下やトレードオフはどの程度かをベンチマークで確認できます。
彼らはこれを「バイナリ決定」と呼んでいます。つまり、どちらか一方です。より強力で高価なモデルか、より弱くて安いモデルかのどちらかです。
興味深いことに、これはAppleが発表しているアプローチだと思います。デバイス上にApple製のモデルがあり、より複雑なタスクにはOpenAIに呼び出しを行うというものです。例えば「今何時？」と聞けば、それはデバイス上のモデルで、賢く答えられます。あるいは、あなたが書いたコードを電話でスキャンして「このコードを見て、何が問題か教えて」や「何をするコードか説明して」と言えば、サーバーにつながってクラウドに接続し、GPT-4か何かのモデルがあなたのクエリに答えます。
OpenAIの呼び出しは少しお金がかかるかもしれませんが、「今何時？」という質問は無料です。基本的に無視できるコストです。何かの端数のペニーです。だからゼロに近いです。ただし、これを大規模に行う場合は別です。
正確には覚えていませんが、かなり性能の良いPCにNVIDIAカードを搭載してゲームをプレイするために実行している場合、電気代は1時間あたり10セントくらいだったと思います。それが正しい数字だと思います。
だから、より大きなオープンソースモデルをローカルのPCで実行し、24時間稼働させている場合、1日数ドルの話です。クエリの半分をローカルモデルにアウトソースし、OpenAIやAnthropicのクラウド上の独自モデルを使用する代わりに、その半分がほぼゼロになるのは非常にエキサイティングです。
この論文で目を引くのは、要旨の最後の1〜2文です。彼らは、このゲートキーパー、つまり強力なモデルか安価で弱いモデルのどちらかにクエリをルーティングできるこのルーターモデルを訓練したと話しています。そして最後にこう結論づけています。「興味深いことに、我々のルーターモデルは、テスト時に強力なモデルと弱いモデルが変更されても、その性能を維持する大きな転移学習能力を示しました。これは、これらのルーターがLLMを展開する際のコスト効率が良く、かつ高性能なソリューションを提供する可能性を強調しています。」
これが興味深い理由は、我々が行うこと、我々が行う科学、我々が行うテストの多くが、AIモデルを使用するようになっていることを考えると、単に一般的なAIモデルだけでなく、特定のAIモデルを迅速に立ち上げ、訓練し、その特定のタスクに使用するようになっているからです。
ここでは、他のAIモデル、または2つのAIモデルのどちらにクエリを送るかを判断するためのAIモデルを作成しています。答えの良し悪しをどのように判断するのでしょうか？ここでもLLMを判断者として使用します。この用語は以前に聞いたことがあるでしょう。
AIの研究論文でこの用語を見かけることが増えています。また、AI研究以外の様々な論文でも見かけます。心理学の論文でLLMを判断者として使用し、特定の回答や反応の質を判断するのを見たことがあります。
彼らは言っています。「オープンエンドな目的のチャットドメインで好みのラベルを取得するために、LLM判断者を使用することを探求しています。それは人間の判断と高い相関を示しているからです。」
これはどういう意味でしょうか？つまり、Chatbot Arenaに行って投票する人々、2つの異なるプロンプト、これらのモデルによる2つの異なる回答があり、「これが好き、あれが好き」と選択する人々がいます。ここでは、判断者としてLLMを使用しています。実際には何を使用したかわかりませんが、ここではGPT-4を使用していると言っています。
彼らが発見したのは、それが人間の判断と高い相関を示すということです。つまり、多くの人間にどの答えが好きかをテストすると、判断者としてのGPT-4も同じ答えを好む傾向があるということです。
つまり、外に出て千人の人間と話をし、彼らの時間に対して支払いをしたり、これらの回答を判断するボランティアを募ったりする代わりに、AIやLLMを使ってそれらの回答を判断することができます。これにより、データセットのために、異なるタイプの回答に対してより多くの回答や投票を作成することができます。そして、そのデータセットでAIモデルを訓練することができます。
要約すると、2つのAIモデルのどちらにクエリを送るかをどのように決定するのでしょうか？まず、判断者であるAIモデルがあり、どちらのモデルが良い結果を生成するか悪い結果を生成するかを判断します。そして、それらのシナリオでどのAIモデルがより良い結果を生成するかを決定する方法を学習する別のAIモデルを訓練します。
これは興奮する一方で、少し懸念もあります。一方では、AIレイヤーを追加すればするほど、物事がうまく機能する傾向があるようです。止まる兆しはなく、ただうまく機能します。しかし、少し懸念されるのは、ある時点で我々はこれらのことを理解できなくなるのではないかということです。AIの脳のレイヤーが話し、行動し、決定し、出力を判断し、出力について反省し、それをより良くするためのアイデアを考え出すだけになった場合、我々はこれらのことを理解できるでしょうか。
試してみたい人のために、以下にリンクを残しておきます。これはGitHubにあります。インストールは比較的簡単そうです。彼らが使用しているのは、強力なモデルとしてGPT-4、そして弱いモデルとしては、Any Scaleのmixed modelというオープンソースモデルのようです。そして、コストと品質のトレードオフを制御するコスト閾値を設定します。
必要な品質のタイプに基づいて、より良いモデルにもう少し優先順位を付けることができます。基本的に、それが価値あるものになるためにどれだけ節約する必要があるかを設定できます。
まだいじっていませんが、インストール方法や使用方法のチュートリアルを見たい人がいれば、コメントで教えてください。このような内容だけを扱う第2のチャンネルを作ることを少し考えています。なぜなら、これはすべての人向けではないからです。様々なオープンソースソフトウェアやGitHubのステップバイステップのトラブルシューティングを見たくない人もいます。それは完全に理解できます。しかし、興味がある人はコメントで教えてください。このチャンネルの動画の最後にこのようなことをもっと行うか、あるいは単にこのための別のチャンネルを持つことを考えています。どう思いますか？何が好みですか？コメントで教えてください。
これを楽しんでいただけたなら、購読を検討してください。通知をオンにしていることを確認してください。科学とAIの交差点で、今年の後半にかなり大きなブレークスルーがあると感じています。この全体がどこに向かっているかについて、ささやきがあります。見逃したくないでしょう。私の名前はWes RTHです。視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？