首位を奪還したと報告されたGPT-4 TurboがChatGPT有料会員に開放

2024年4月12日 10:50

先ほど、GPT-4 Turboが、ChatGPTの有料会員に開放された事をサム・アルトマンが公式のポストを引用して伝えています。また、Claude３ Opusにスペックで抜かれたとされていたGPT-4はGPT-4 Turboで首位を奪還した模様。

gpt-4 now significantly smarter and more pleasant to use https://t.co/Hozi5rpIkW
— Sam Altman (@sama) April 12, 2024

言語モデルを評価するための軽量ライブラリ発表

OpenAI公式は、Github上に言語モデルを評価するための軽量ライブラリを公開しました。このリポジトリは精度の数値について透明性を保つため、オープンソース化されています。

リポジトリで新しいリクエストは受け付けていない

このリポジトリは、OpenAIが新しいバージョンのGPT（この場合はGPT-4 Turbo）をリリースする際に、その性能を評価するための様々なタスクやメトリクスを設計して、どれだけ改善されたかを数値的に示すために使用します。これには、文章生成、数学的問題解決、論理的推論、コーディング能力など、様々な側面が含まれることがあります。

OpenAIが「新しいevalsを受け付けない」と言っているのは、彼らがすでに設定した評価基準やタスクに対する変更や追加を現時点では考慮していないという意味です。つまり、彼らはそのリポジトリを積極的に更新したり、外部からの新しい評価方法の提案を受け入れたりすることはないということですね。

コーディングベンチマークの数学/推論

こちらのページで数学/推論のコーディングベンチマークを確認することができます。

GPT-4がバカ丁寧な回答をしなくなる

公式がこのようにポストしています。

For example, when writing with ChatGPT, responses will be more direct, less verbose, and use more conversational language. pic.twitter.com/PHxrmCtpyl
— OpenAI (@OpenAI) April 12, 2024

ちょっと筆者のChatGPT Plusアカウントで聞いてみたらこんな返答が。

公式が「私たちはモデルをより良くするために投資を続けており、皆様のご活躍を楽しみにしています。まだ試したことがない場合は、GPT-4 Turbo は ChatGPT Plus、Team、Enterprise、および API で利用できます。」とアナウンスしています。

We continue to invest in making our models better and look forward to seeing what you do. If you haven’t tried it yet, GPT-4 Turbo is available in ChatGPT Plus, Team, Enterprise, and the API.
— OpenAI (@OpenAI) April 12, 2024

ユーザーのスペックテストでGPT-4 Turboが首位奪還

このツイートで言及されている「Arena」は、OpenAIが提供しているリポジトリで直接行われた評価とは異なるかもしれませんが、OpenAIのモデルの様々な能力を測定し、比較するための別のプラットフォームかプロジェクトに関連している可能性が高いです。

🔥Exciting news -- GPT-4-Turbo has just reclaimed the No. 1 spot on the Arena leaderboard again! Woah!

We collect over 8K user votes from diverse domains and observe its strong coding & reasoning capability over others. Hats off to @OpenAI for this incredible launch!

To offer… pic.twitter.com/IxbN2Q9ecJ
— lmsys.org (@lmsysorg) April 11, 2024

こちらのページに詳しいベンチマークが書かれています。

ユーザーからの首位奪還のお祝いポスト

Congrats on being No 1 again,
Covered in our @thursdai_pod show today 🫡 https://t.co/bN7ZY9LL0M
— Alex Volkov (Thursd/AI) (@altryne) April 12, 2024

Thanks uncle Sam. pic.twitter.com/ROWMkecuIG
— Jake Baumann (@Jake_Joseph) April 12, 2024

I've noticed this improvement in my own use cases.😁 https://t.co/8XCpkJohXx
— Joe Hu (@hubeiqiao) April 12, 2024

Very nice sam.
— Jimmy Apples 🍎/acc (@apples_jimmy) April 12, 2024

確かに人間みたいになってる事を確認

かなり雑談をしてしまった後で、チャットの最初の方で議題に上げた言葉を聞いてみたら問題なく答えました。

翻訳も優れているらしい

筆者はAIrbnbホストをやっていてAirbnbメッセンジャー上の全部のゲストへの返信をAIに翻訳させて返しているけど、今後この能力を実感する事になるんでしょうね。ちなみにGPT-3.5は「XXXXを英語で訳してください」といっても、そのセンテンスをAirbnbゲスト向けにリライトするだけで英訳しなかったりします。

Claude３Opusの翻訳に関してはフレンドリーさが若干足りなくてちょっと官僚的な翻訳になっているなとは思っていました。

英語のSRT字幕の日本語への翻訳をGPT-4-turbo-2024-0409でテスト。

GPT-4-0125-preveiw→英語で20あったセンテンスが、翻訳後は18に減る。✕
Claude3→センテンスの英日対応に一部ずれ。△
GPT-4-turbo-2024-0409　→　センテンスのズレはなく翻訳もうまい。◎… pic.twitter.com/mgaTQThSI8
— Mojofull (@furoku) April 10, 2024

学習データも2023年12月に更新されました！

下記の興味深いポストがあったので、

【遂に】ChatGPTのナレッジカットオフが2023年12月へ更新🙌

ChatGPTのナレッジカットオフ（知識が更新された最後の時点）が、2023年4月から2023年12月へと変更されました。これで現状、最強モデルのGPT-4 Turboが実装されたことになります。

※ナレッジカットオフ (Knowledge Cutoff)… pic.twitter.com/h3or7EuRId
— ChatGPT研究所 (@ctgptlb) April 12, 2024

試してみたところ、流行り4月から12月に更新されていました。