GPT-4を使った賢い結果の取得方法だけでなく、最先端のMMLUベンチマークを上回る可能性があるSmartGPTシステムも紹介しています。
公開日:2023年5月8日
※動画を再生してから読むのがオススメです。
このビデオには3つの目標があります。
まず、GPT-4を使って、よりスマートな結果を得る方法を紹介したい。
2つ目は、GPT-4のベンチマーク結果が、GPT-4の能力を十分に反映していないことを主張することです。
そして3つ目は、私が開発中のSmart GPTというちょっと生意気な名前のシステムで、すでに公式ベンチマークで大きな結果を出しているものを紹介したいと思います。
まだ完全に最適化されていませんが、それ自体がエキサイティングなことだと思います。
このシステムをOpenAIの人たちに見せたところ、非常に感心されたので、最後にGPT-5の方向性について少し考えてみたいと思います。
しかし、その仕組みに触れる前に、食欲を刺激するために、実際に使われている例を1つだけお見せしたいと思います。
この例は、今週発表されたTEDの講演から得たものです。
5枚の服を天日干しにして、完全に乾くまで5時間かかったとします。
30着の服を乾かすとしたら、どれくらいの時間がかかるでしょうか?
GPT-4、最新の最も偉大なAIシステムは30時間と言っています。
まずいな。
左側はGPT-4のオリジナルの答えで、質問を投げかけると常にこの答えが返ってきます。
右側は、スマートGPTモデルの最終的な答えで、これは正しく、一貫してこの答えを出しています。
このように、文脈を示しながら、正しい答えを出すための前提条件を示しているところが、とても気に入っています。
心配しないでください。このビデオでは、TEDの講演からもう1つ例を挙げて、さらにたくさんの例を紹介します。
しかし、その前に、このスマートGPTモデルとは何なのか?
私はどこからインスピレーションを得て、どのように機能するのでしょうか?
ビデオの冒頭なので、多くの人は細かいことは気にしないと思うので、かなりシンプルに説明するつもりです。
それはビデオの後半で説明します。
しかし、ハイレベルな概要はこうです。
GPT-4の出力を向上させることが証明されているものが、少なくとも3つあります。
思考連鎖プロンプティングと呼ばれるもの、ステップバイステッププロンプティングと呼ばれるもの、リフレクション、つまり自分自身の誤りを見つけることです。
GPT-4は自己改善できる』というビデオもありますが、自分自身と対話することです。
もちろん、もっと詳しい結果が書かれた論文のタイトルは、上のリンクから見ることができます。
最初の論文は数日前に発表されたばかりで、私がテストしている途中なので、私の結果はモデルの全能力を反映したものではありません。
この動画から得られるものが他になかったとしても、この論文の結果は、GPT-4から得られる出力を即座に向上させることができます。
GPT-4に「Let's think step-by-step」と促すと、その結果が改善されることを覚えている方も多いのではないでしょうか。
ごく簡単な例を挙げると、GPT-4に質問するだけで、81%の精度が得られます。
それが、「ステップバイステップで考えよう」と促すと86%になる。しかし、この論文では、アルゴリズム的に改良されたプロンプトを発見し、89%というさらに高い精度の結果を得ることができました。
これは、Smart GPTの最初の部分ですが、答えを追加するだけです。
正しい答えが出るように、ステップバイステップで解決していきましょう。
なぜこの方法が有効なのか、言いたいことは山ほどあるのですが、私の理論にそれほど興味を持たない方も多いでしょうから、興味のある方のために最後まで取っておくことにします。
結果を知りたいという方もいらっしゃるでしょうから、まずはそれをお伝えします。
ここまでは、「なるほど、フィリップのプロンプトはかっこいいな、使ってみようかな」と思われたかもしれませんが、このSmart GPTというのはどういうものなのでしょうか?
1つのプロンプトだけなのでしょうか?
いいえ、私は、優れた思考連鎖のプロンプトを使うだけでなく、さらに優れた結果を活用する方法があることを、根拠をもって信じています。
では、システムの次の部分、つまり真ん中にあるさまざまな出力について説明しましょう。
私のテストでは、通常3つの出力を行いましたが、もちろん、コンテキストウィンドウによっては、それよりもはるかに多くなることもあります。
このモデルをさらに改良する方法については、ビデオの後半でお話しするつもりですが、私たちにもできるかもしれません。
もう一度言いますが、これらの出力は、ユーザーの入力を受けて、最初にquestionという単語を追加し、最後にanswerを追加したときのものです。
正しい答えが出るように、ステップ・バイ・ステップで作業してみましょう。
今この瞬間、多くの方が「マルチ出力の意味は何だろう」と思っていることでしょう。
GPT-4は、自分が一番良いと思う答えを出してくれる、ただそれだけなのです。
しかし、実はそうではないのです。
これらのモデルには、0から1までの温度があります。
GPT-4のデフォルトは0.5くらいだと思いますが、非常に単純化すると、この温度によってモデルの出力がどれだけ創造的か保守的かが決まります。
ですから、GPT-4はかなりクリエイティブにしようとするため、毎回同じ出力が得られるわけではありません。
出力は、内部の確率分布に従って、ランダムにサンプリングされます。
ですから、ある出力が正しくて、ある出力が正しくないという状況に、私は何百回も直面します。
GPT-4は、自分の出力の誤りを検出できることがあります。
このとき、GPT-4が自らの誤りに気づくように促すために使ったプロンプトが、先ほど使ったステップバイステップのプロンプトと同じで、良い結果を生むことが示されていることに、多くの人が気づくでしょう。
つまり、この段階でGPT-4が自分の出力の誤りを発見することもあるということです。
しかし、GPT-4がエラーを発見できない問題もあります。
しかし、時には発見できることもあります。その時は、先月発表されたこの論文のようなフォーマットで対話させます。
短い対話ですが、これが最も最適化できるステップだと考えています。
将来的には、GPT-4が数学者や裁判官などを模倣して構成される顧問会議全体を想定しています。
今のところ、リゾルバーとして、最終的に改善された出力をプリントするだけです。
とにかく、ビデオの後半で理論に戻ろうと思います。なぜなら、この段階で退屈している人もいるでしょうし、もっと実用的な例やベンチマークテストの結果を見たいと思っているからです。
GPT-4のAPIキーをまだ持っていないので、これらのステップを何百回も手動で入力する必要がありました。3時間ごとに25メッセージしか実行できないので、1回の入力に3時間待つこともありました。
左側は、ステップバイステップで考えるように指示したときの3つの出力で、真ん中と右上に研究者のステップ、最後にリゾルバのステップを示します。
ここでは、このプロンプトの改良に関する論文がまだ発表されていなかったので、オリジナルの「Let's think step by step」を使っていることに注意してください。
TEDの講演から2つ目の例を紹介し、ベンチマークの話に移ります。
12リットルのジョギングと6リットルのジョギングがありますが、6リットルを測るにはどうしたらいいでしょうか。
6リットルのジョグを使えばいいんですよね?
GPT-4は、非常に精巧なナンセンスを吐き出しています。
もちろん、この問題でsmart GPTをテストしてみました。この信じられないほど複雑な答えを出すオリジナルのGPT-4と、最終的な答えを出力するsmart GPTとの違いを見てください。
さて、この時点で多くの方が感動されると思いますが、5回も入力している暇はないと思われるでしょう。
そこで私は、この作業をすべて自動で行うモデルを開発しました。
もちろん、GPT-4のAPIキーは持っていないので、GPT-3.5ターボを使用する必要があります。
壮大なのは、たった1つの質問をするだけでいいということです。
私はスマートGPTに質問を書いていますが、もちろん、APIを介して5つか6つの呼び出しを行っているので、少し時間がかかりますが、リゾルバステップからの最終回答を出力します。
正直なところ、GPT-3.5 はリゾルバがあまり得意ではありませんが、これはオリジナルの ChatGPT が一貫して間違っていた問題を、このプログラムを使ってスマートな GPT-3.5 が正しく解決している例と言えます。
ユーザーとしては、普通に質問を入力するだけで、裏でこの5~6段階のプロセスを経ていることを忘れないでください。
ちなみに、これは有名なベンチマークであるMMLUからの出題です(後で説明します)。
そのベンチマークの話をする前に、最後の実践例を紹介します。
多くの先生がChatGPTやGPT-4を使って授業の小テストを作成していると思いますが、同じ問題をGPT-4とsmart GPTにかけたものです。
問題は、5つの質問と答え、最後に解説がある高校代数のクイズを作成することです。
もし、先生がオリジナルの小テストを配布したとしたら、第5問の解答を見てください。
回答は1と1.5だと言っていますが、説明では最終的な正しい答え(ちなみに3と0.5)が示されているので、これはいくつかの生徒を混乱させるでしょう。
しかし、smart GPTでは、この誤りを発見し、解決しました。そして、問題5の解答は、ご覧のように、すぐに正しい答えになっています。
OpenAI ChatGPTプロンプトエンジニアリングコースを受講したかというと、答えは「はい」ですが、私の考え方に大きな影響を与えるものではありませんでした。
このコースは初心者向けで、モデルに考える時間を与えたり、明確な指示を書いたりすることは、すでに織り込み済みでした。
smart GPTをテストするために選んだベンチマークは、有名なMMLUという大規模マルチタスク言語理解ベンチマークでした。
ここで分かるように、最先端の技術は確かに86.4%の精度を持つGPT-4であり、技術報告書の表紙に言及されているベンチマークだとOpenAIは考えているので、それは大きな取り組みです。
あまり退屈させないように、MMLUのデータファイルのテストセットから問題を抽出しましたし、トピックも適当に選んだわけではありません。
GPT-4が最も難しいと思われるトピックを選びました。
MMLUのオリジナル論文を読んでみると、GPT-3は形式論理が最も難しく、25%強のスコアを出していることがわかりますが、これは偶然です。
4問の選択式テストですから、25~30%程度というのはかなり悪いですね。
GPT-3には、新しい問題を出す前に、5つの成功例を提示する「数撃ちゃ当たる」方式を採用しました。
GPT-4も同じように5問出題していますが、結果をお見せする前に3つのことをお伝えします。
まず、GPTがゼロショットでどの程度スマートなのか興味がありました。
GPT-4を使っている人は、GPT-4に質問する前に5つの成功例を提示することは通常ありませんから、ゼロショットでやってみたかったのです。
彼らは、コードやクイズや詩や例が欲しいだけなのです。
質問する前に5つの素晴らしいコードの例を提示することはあまりありません。
そして3つ目は、ゼロショットでうまくいくことが証明できれば、もちろん将来的に改良を加えて、さらに成果を上げることができる。
そして、これがMMLUの形式論理テストセットの最初の25問の結果です。
この後もいろいろなテストを行いましたが、このセットでは、ただ問題を出すだけでは全体の精度が低くなってしまうことがおわかりいただけるでしょう。
しかし、GPT-4の68%は、GPT-3の約25%に比べ、大きな進歩であることは間違いありません。
さらに、「ステップバイステップで考えよう」を追加するとどうなるでしょうか。
平均すると、74~75%程度になります。
これは手動で入力した75の例ですが、私はまだすべてのタブを開いています。
タブを開いたままにしているのは、実際の出力結果をスプレッドシートにまとめるためです。
しかし、GPT-4の「自分自身と対話する能力」に基づいて、リゾルバーが出した結果はどうだったでしょうか。
それは84%でした。
この数字に注目してください。
GPT-4のゼロショットでは、32パーセントの問題が間違っていた。
それが、スマートGPTのシステムを通すと16%に半減する。
リゾルバーモデルで正解と不正解の両方が出た問題が1問ありましたが、このテストでは不正解としてカウントしています。
とにかく32パーセントから16パーセントの不正解になりました。
このパターンは、私が行ったすべてのテストを通じて一貫していました。
つまり、GPT-4の誤答の約半分は、最適化されたステップバイステップのプロンプトを与えれば修正できるのです。
GPT-4に結果を振り返らせ、対話をさせ、最終的な答えを決めさせるのです。
ここで、詳細がわからなくなった人のために、MMLUのエラーの半分を解決することが、全体像の中でどのような意味を持つかを説明したいと思います。
AIガバナンスの研究者であるレナート・ハイムは、MMLUのスコアが95%であれば、AGIのような能力があると指摘しています。
私は、今後20年ほどの間に、AGIやトランスフォーマティブAIと呼ばれるようなものが登場する可能性が50%ほどあると思います。
これはどういう意味ですか?
ベンチマークで測れるかもしれませんね。
有名なMMLUベンチマークがありますが、このベンチマークで95パーセントのスコアを出すものがあります。
結果に戻ってみると、賢いGPTのようなシステムがMMLUでGPT-4が犯すエラーの半分を自動的に解決できるとすれば、そのスコアはおおよそ86.4%から93%に上がり、95%に非常に近づくでしょう。
彼の予測は、20年後に50%の確率であったことを忘れないでください。
私は今、GPT-4の話をしているのです。
まだ懐疑的な方のために、これからたくさんの結果をお見せし、なぜこれが効くのか、その理論について書かれた論文を紹介します。
先ほど言い忘れたのですが、MMLUのエキスパートレベルは89.8%で、これは受験者の95パーセンタイルをとったものです。
このテストは、各サブトピックの専門家によるものです。
私たちが行っているのは、GPT-4やスマートGPTを、すべてのトピックについて同時にテストすることです。
ですから、スマートGPTのようなシステムが95%に達しないとしても、これから提案する改良を加えれば、正直なところ、かなり近づくと思われます。
その結果、89.8%という人間の熟練受験者レベルに達することは間違いないでしょう。
この結果に興味を持った私は、MMLUの大学数学のテストにこのプログラムを適用しました。
もちろん、ここですべての問題に目を通すつもりはありませんが、最終的な結果まで見てみましょう。
15問中6問がゼロショットで、これは40%にあたります。
ステップバイステップを加えた平均値は53.5%で、リゾルバーモデルの最終出力は60%の精度でした。
つまり、エラーの半分を解決することはできませんでしたが、全体的なパターンは維持されたのです。
方法論について疑問に思う人がいるかもしれませんが、私はすべての問題で同じ書式を使い続けました。
各問題で常に新しいタブを開き、すでに出した文脈を見ることはありませんでした。
研究者の出力の文脈を見るリゾルバーモデルを除けば、それぞれの試みは新鮮でした。
また、例14からわかるように、リサーチャーが常にエラーを発見できるわけでも、リゾルバーが常に正しい選択肢を選べるわけでもありません。
ステップバイステップで考えよう」プロンプトが正しいアウトプットを出しても、リゾルバーがそれを見分けられないことがありました。
最適化されたプロンプトでは、少し良い出力が得られ、よく考えてみると、研究者はその出力の間違いに気づくことができることもあるが、いつもそうとは限らない。
そして、リゾルバーはその欠点に基づいて、どの答えがベストかを見分けることができる場合もありますが、常にそうとは限りません。
このように、gbt4ではうまくいかないこともありますが、少しずつ改善されています。
私は、これらの質問にいくつかのテーマがあることに気づきました。
除算、乗算、文字、または一般的な数え方に関して、gbt4は研究者にも解決者にも見つけられないようなミスをする傾向があります。
もちろん、APIを介していくつかのツールを統合することで、これらの問題を解決できる可能性があります。
あまり結論を先取りしたくはないのですが、ツールを統合したスマートなGBTのようなシステムは、特に数発のプロンプトで助けられた場合、おそらくMMLUで今すぐ95%程度のスコアを出せるのではないかと思います。
この予備的な結論に重みを持たせるために、あるトピックでテストしてみたのですが、単純に毎回問題を正解してしまうので、やめざるを得ませんでした。
例えば、「mmlu」の「高校心理学」です。
その後、先史時代に挑戦してみましたが、こちらも正解でした。
今回の焦点を当てると、生のスコアは65%であり、思考の連鎖の平均は71.6%であり、リゾルバモデルは80%を獲得しました。これらのすべてのステップが最終結果を改善する理由をもう少し詳しく見てみましょう。
1年ほど前に発表されたlet's think step-by-stepのオリジナル論文への返信で、Andrei Karpathyはこのように語っています。
プロンプトにlet's think step-by-stepのようなものを追加することは、通常、モデルの隠れた状態に欲しい計算のための入力空間を使う方法である。
ニューラルネットワークの活性化ではなく、入力空間の離散的なトークンで計算を行うのです」と彼は付け加え、「このようなことが起こるとは思ってもみなかった」と語った。
そして、これが3日前に発表された論文で、このオリジナルのプロンプトを改良したものです。
彼らも私と同様にゼロショットでテストを行い、まずは直接的なプロンプトから始めて、GPT-4を使う99%のユーザーが行うように質問をするだけで、多くのプロンプトをテストしました。
そして、私同様、定評のある「ステップバイステップで考えよう」というプロンプトも試しました。
さらに、7つのオリジナルプロンプトと、私が今スマートGPTに組み込んだプロンプト、ステップバイステップで解決しましょうなどを繰り返しテストしてくれました。
彼らは、ゼロショットプロンプトのセットアップには、タスクに依存した模範解答の選択を必要としないという利点がある、という私の意見に共感しています。
正しい例を探す必要がなく、すべてやってくれるのです。
先ほどのGPT-4の結果ですが、直接質問する場合と、このように洗練されたプロンプトを使う場合の違いがよくわかりますね。
このテクニックはモデルに依存するところがあり、小さいモデルや弱いモデルでは同じ効果が得られないことに注意してください。
次の論文に移る前に、1つだけ失敗したプロンプトを取り上げたいと思います。
それは自己批評プロンプトで、質問に答え、その答えを批評し、批評に基づいて他の答えの選択肢を再考し、最終的に1つの答えを出すというものです。
内省と対話が有効であることが分かっているのに、なぜこのプロンプトは最高のパフォーマンスを発揮しなかったのだろうかと思うかもしれません。
私の考えでは、このプロンプトは1つのプロンプトですべてを行おうとしているからです。
何百回もの実験を通じて、GPT-4は一度に処理できる量が限られていることに気づきました。
1回のプロンプトで多くのことを要求すると、圧倒されたり混乱したりするのです。
そこで、GPT-4の能力を1つ1つ発揮できるように、モデルを段階的に分割しています。
他の論文の前に、なぜGPT-4が犯すエラーの半分まで排除できるのか、私の持論を述べます。
私の推測では、こうです。
GPT-4は、インターネット上の膨大なテキストデータを利用していることを思い出してください。
そして、どんなテキストかというと、question, answer, let's work out this outのようなものがある。
正しい答えがあることを確認する。
そのようなテキストを持つデータとは、チュートリアルや専門家の解説のようなものでしょう。
そのため、GPT-4では、専門家のチュートリアルのようなものに関連するウェイトをより多くトリガーしているのだと思います。
そうすると、必然的に少し良い答えが得られることになります。
次に、まったく同じ答えを出したのに、なぜ違う答えが返ってくるのか、その理由を説明しました。
それは、サンプリングとモデルの温度によるものです。
しかし、非常に単純化すると、GPT-4は、最も確率が高くないとわかっている出力を出すことがあります。
これはサンプリングにランダム性を導入しているのです。
複数の出力を生成することで、GPT-4が出力に与える確率の全範囲を反映した、より大きなサンプルサイズを得ることができるのです。
GPT-4の出力に内在するランダム性を少し軽減することができるのです。
次に、GPT-4は、このようなプロンプトを出すことで、別の重みを持つようになるため、内省によって自らの誤りに気づくことがあると思います。
これは、別の考え方と言えるかもしれません。
間違いを見つけることに集中するのです。
先ほど申し上げたように、問題が難しすぎたり、数え方、文字、割り算、掛け算が含まれる場合は、この方法は役に立ちません。
しかし、問題の何割かは、自分自身の間違いを発見し、それを指摘することができます。
これは、元のプロンプトに含まれるのではなく、別の推論であることに注意してください。
そして、うまく間違いを指摘できたときには、しばしば自分自身と対話することができるのです。
メタ的な言い方をすれば、ステップバイステップのプロンプトを使うことで、内省と対話を向上させることができるのです。
以上が、このモデルがうまく機能する理由についての私の理論ですが、ビデオの最後には、このモデルをさらに改良する方法を少なくとも5つ紹介するつもりです。
しかし、その前に、前の論文で最も良い結果を出したプロンプトを生み出したZhouの論文を調べておきました。
彼らは自動プロンプトエンジニアリングによってあの特別なプロンプトを作り出したのですが、面白いことがあるので指摘したいと思います。
7ページ目に「自動プロンプトエンジニアリングで、推論ステップが正しくなる可能性を最大化するlet'sで始まるプロンプトを見つける」とあります。
そして、その中から最適なものを見つけて、smart GPTに組み込んでいます。
正しい答えが出るように、ステップバイステップで解決していこう。
それが使ってほしいものです。
そして、彼らは自分たちでベンチマークを実施し、もちろんスコアは向上しました。
しかし、興味深いのは、彼らは毎回Let'sから始めていることです。
つまり、モデルの最初の段階でさえ、まだ完全に最適化されていない可能性があるのです。
もしかしたら、let'sで始まらないプロンプトがあれば、この最初の結果をさらに向上させることができるかもしれません。
とにかく、論文に話を戻します。
この記事を見ている多くの人は、「プロンプトによって大規模言語モデルの心の理論のパフォーマンスを向上させる」という論文を読んだのだろうかと思うだろう。
そうです、「心の理論」のテストに似たようなものを使ったからです。
同様の手法を使用することで、彼らはGPT-4の理論精度を80%から100%に向上させることができました。彼らは、適切なプロンプトが大規模な言語モデルの心の理論推論を向上させることを示す結果であり、これらのモデルの認知能力が状況依存であることを強調しています。
彼らは、「Let's think step by step」というオリジナルのプロンプトを、いくつかの例とともに使っています。
GPT-4の表を見ていただければ、「考えよう」のステップバイステップがいかに結果を劇的に向上させたかがわかると思います。
そして、先ほど私が理論的に説明したように、数発の例を加えることで、さらに効果を高めることができます。
MMLUの95%の壁は、GPT-4で今年中に破られるだろうと思うのは、このためでもあるのです。
この論文の他のポイントをいくつか紹介します。
なぜこのようなプロンプトが有効なのか、今のところ理論的な理解が得られていないことを認めています。
私の説とカルパシーの説を紹介したが、誰も確かなことは分かっていないのである。
最後にこの論文から、私はこれがとても興味深いと思いました。
直接的に心の理論の例を与えるよりも、直接的に心の理論ではない一般的なプロンプトを数回与える方が、実際に出力がわずかに向上したのです。
これは、私が予想する賢いGPTがさらに賢くなる5つの方法のうち、最初の方法への扉を開くものです。
それは、必ずしもトピックに関係ない、一般的な数発のプロンプトをモデルに自動的に組み込むことができるかもしれないということです。
このグラフは、GPT-3に数撃ちゃ当たるの例を追加した場合の影響を示していますが、これをGPT-4でも汎用的に行うことができれば、さらに結果を向上させることができるでしょう。
次に、「ブースティング理論」の論文では、これらのアプローチを統合することで、弱いモデルの性能をGPT-4のゼロショット精度を超えるレベルまで高めることができると推測しています。
次に、スマートGPTの最後に研究者と解決者の対話を行うきっかけとなったDERAの原著論文を紹介します。
DERAのアプローチは、GPT-4のベースとなる性能よりも有意な改善を示しています。ちなみに、これは多肢選択式ではなく、自由形式の質問でしたので、皆さんが思っているよりも一般的に適用可能です。
この表から、このような対話を行った後に結果がどのように改善されたかがわかります。そして、これが私が将来、賢いGPTがさらに賢くなると予想する2つ目の方法です:より長く、より豊かな対話を行うことです。
今のところ、研究者と解決者というシンプルな2ステップの対話が行われています。
私はアドバイザーの評議会を想像することができます。数学者、哲学者、教授が参加し、GPT-4のわずかに異なる重みにアクセスして、さらに隠された専門知識を引き出しているのです。
そうすれば、結果が変わるとは言いませんが、さらに数パーセント高くなる可能性があります。
次に、より長い対話とさまざまな専門家を使うことで、「ステップバイステップで考えよう」と同じように、プロンプトを最適化する方法を見つけることができます。
これが、私が考える3つ目の改善の道です。私が考えたプロンプトですから、きっと改善できるはずです。
次に、温度を変えて実験してみましょう。
温度が低いとモデルはより保守的になり、高いとよりクリエイティブになることを忘れないでください。
この段階では、より多様なアウトプットを生み出すために高い温度で実験し、最終的なジャッジやリゾルバーでは、より保守的な決定論的温度で実験することができます。
うまくいかないかもしれませんが、試してみる価値はあると思います。
そして、5つ目の改善は、文字カウント計算機やコードインタプリタなどのAPIを統合することです。
この数週間、これらのベンチマークでGPT-4の出力を手作業で整理していると、どこで間違っているのかがよくわかります。
文字の順番を間違えたり、割り算を間違えたり、高レベルのロジックは正しくても、ごく単純なミスをしていることが多いのです。
基本的なツールの統合を行えば、さらに高い結果が得られると確信しています。
これは私のいつものビデオではありませんが、私はAIのニュースを追っています。
もちろん、プラグインとGPT-4のAPIキーを入手することで、さらにスマートGPTを進化させることができます。
これまでのところ、私はこのすべてを手作業で行う必要があり、それは大変な作業でした。
先ほど見ていただいたように、GPT-4を利用して、このプロセスを自動化するためのプログラムをreplitで開発したのですが、今のところGPT-3.5で、正直なところコンテキストウィンドウが機能を制限しています。
しかし、GPT-4を統合し、自動化されたモデルとして公開し、人々がテストしたり遊んだりできるようになる日が来ることを楽しみにしています。
Bingがクリエイティブ・プレシジョン・バランスなどを備えているように、最終的にはOpenAI自身が、思慮深いモードやスマートモードとして、同様のものを取り入れることになると思います。
それぞれの反応には時間がかかりますが、ご覧のように出力は明らかに良くなっています。
このようなモデルの結果が、GPT-4のテクニカルレポートでOpenAIが話していた86.4%を公式に上回るとしたら、それはかなり多くのことを明らかにすると思う。
まず、OpenAIは自分たちのモデルの全能力を認識していない。
AutoGPTのようなものを想定していたかどうかもわかりません。
しかし、モデルをリリースする前に、もっと適切なテストを行う必要があることは明らかでしょう。
自分たちのモデルには何ができないかについて、反証可能な予測を立てるべきです。
そうすれば、彼らが自分たちのモデルについてどれだけのことを知っているのかがわかるでしょう。
私たちが避けたいのは、OpenAIが自分たちのモデルはxしか達成できないと言いながら、そのモデルを野に放つと、誰かがやってきてyを達成し、yはxよりもはるかにインパクトがある、というような状況なのです。
このビデオの目的は、GPT-4からより多くの成果を得る方法を紹介し、ここ数日、数週間に発表された魅力的な論文のいくつかを見ていただくことでした。
3つ目の目標は、公式ベンチマークでこのモデルができることを紹介し、近い将来もっと良くなる可能性がある方法を提案することでした。
もちろん、GPT-4のAPIキーをお持ちの方、GPT-4のようなシステムのベンチマークに詳しい方、ぜひご連絡ください。
最終的なゴールは、OpenAIが自分たちのモデルについて、皆さんが思っているほど知らないということを示唆することだったのではないでしょうか。
最後までご覧いただき、ありがとうございました!素敵な一日をお過ごしください。