首位を奪還したと報告されたGPT-4 TurboがChatGPT有料会員に開放
先ほど、GPT-4 Turboが、ChatGPTの有料会員に開放された事をサム・アルトマンが公式のポストを引用して伝えています。また、Claude3 Opusにスペックで抜かれたとされていたGPT-4はGPT-4 Turboで首位を奪還した模様。
言語モデルを評価するための軽量ライブラリ発表
OpenAI公式は、Github上に言語モデルを評価するための軽量ライブラリを公開しました。このリポジトリは精度の数値について透明性を保つため、オープンソース化されています。
リポジトリで新しいリクエストは受け付けていない
このリポジトリは、OpenAIが新しいバージョンのGPT(この場合はGPT-4 Turbo)をリリースする際に、その性能を評価するための様々なタスクやメトリクスを設計して、どれだけ改善されたかを数値的に示すために使用します。これには、文章生成、数学的問題解決、論理的推論、コーディング能力など、様々な側面が含まれることがあります。
OpenAIが「新しいevalsを受け付けない」と言っているのは、彼らがすでに設定した評価基準やタスクに対する変更や追加を現時点では考慮していないという意味です。つまり、彼らはそのリポジトリを積極的に更新したり、外部からの新しい評価方法の提案を受け入れたりすることはないということですね。
コーディングベンチマークの数学/推論
こちらのページで数学/推論のコーディングベンチマークを確認することができます。
GPT-4がバカ丁寧な回答をしなくなる
公式がこのようにポストしています。
ちょっと筆者のChatGPT Plusアカウントで聞いてみたらこんな返答が。
公式が「私たちはモデルをより良くするために投資を続けており、皆様のご活躍を楽しみにしています。まだ試したことがない場合は、GPT-4 Turbo は ChatGPT Plus、Team、Enterprise、および API で利用できます。」とアナウンスしています。
ユーザーのスペックテストでGPT-4 Turboが首位奪還
このツイートで言及されている「Arena」は、OpenAIが提供しているリポジトリで直接行われた評価とは異なるかもしれませんが、OpenAIのモデルの様々な能力を測定し、比較するための別のプラットフォームかプロジェクトに関連している可能性が高いです。
こちらのページに詳しいベンチマークが書かれています。
ユーザーからの首位奪還のお祝いポスト
確かに人間みたいになってる事を確認
かなり雑談をしてしまった後で、チャットの最初の方で議題に上げた言葉を聞いてみたら問題なく答えました。
翻訳も優れているらしい
筆者はAIrbnbホストをやっていてAirbnbメッセンジャー上の全部のゲストへの返信をAIに翻訳させて返しているけど、今後この能力を実感する事になるんでしょうね。ちなみにGPT-3.5は「XXXXを英語で訳してください」といっても、そのセンテンスをAirbnbゲスト向けにリライトするだけで英訳しなかったりします。
Claude3Opusの翻訳に関してはフレンドリーさが若干足りなくてちょっと官僚的な翻訳になっているなとは思っていました。
学習データも2023年12月に更新されました!
下記の興味深いポストがあったので、
試してみたところ、流行り4月から12月に更新されていました。