見出し画像

OpenAIのGPT-4報告書を分かりやすくまとめていく。

GPT-4の概略

  • マルチモーダルモデル

  • 司法試験で上位10%の成績(GPT-3.5は下位10%の成績)

  • 6ヶ月間調整が行われた。

  • 事実性、操縦性、倫理性ともに最高のスコア

  • パフォーマンスの結果を正確に予測出来た初めての言語モデル。

  • ChatGPT Plusで先行利用可能

  • APIは順次公開(ウェイトリストあり)

  • 画像処理についてはある1社と提携しながら準備中

  • OpenAI EvalsというAIモデルの性能を自動評価するフレームワークをオープンソースで公開。これにより誰でもフィードバックが可能に。

私たちは、ディープラーニングのスケールアップを目指すOpenAIの取り組みの最新マイルストーンであるGPT-4を作成しました。GPT-4は大規模なマルチモーダルモデル(画像とテキストの入力を受け付け、テキスト出力を出す)で、多くの実世界のシナリオでは人間より能力が劣るものの、様々な専門的・学術的ベンチマークでは人間レベルの性能を発揮します。例えば、司法試験の模擬試験では、受験者の上位10%程度のスコアで合格し、一方、GPT-3.5では下位10%程度のスコアでした。GPT-4は、ChatGPTと同様に敵対的なテストプログラムからの教訓を生かして、6ヶ月かけて繰り返し調整を行った結果、事実性、操縦性、ガードレールから外れないという点において、過去最高の結果を得ることができました(完璧とは言い難いですが...)。

過去2年間、私たちはディープラーニングスタック全体を再構築し、Azureと共同で、私たちのワークロードのためにスーパーコンピュータを一から設計しました。1年前、私たちはシステムの最初の「テストラン」としてGPT-3.5をトレーニングしました。その結果、いくつかのバグを発見・修正し、理論的な基礎を改善することができました。その結果、GPT-4のトレーニングは(少なくとも私たちにとっては)前例のないほど安定し、トレーニングのパフォーマンスを事前に正確に予測できた初めての大規模モデルとなりました。今後も信頼性の高いスケーリングに注力し、将来の能力をより事前に予測・準備できるような方法論に磨きをかけ、安全性を確保することが重要だと考えています。

GPT-4のテキスト入力機能は、ChatGPTとAPIで公開中です(ウェイトリストあり)。画像入力機能については、まずは1社のパートナーと緊密に連携し、広く提供できるように準備中です。また、AIモデルの性能を自動評価するフレームワーク「OpenAI Evals」をオープンソース化し、誰でもモデルの欠点を報告できるようにし、さらなる改良に役立てます。

Capability(能力)

  • 信頼性が高い

  • 創造的

  • 微妙な指示にも適切に従う

  • 人間用のベンチマークテストの結果は、GPT-3.5と比べても圧倒的。(グラフ参照)

  • 機械学習用に設計されたベンチマークテストでも既存の言語モデルを凌駕。

  • SOTA(State of the Art)モデルよりも性能が高い。

  • 英語以外の言語能力を測るテストをMMLU(Massive Multitask Language Understanding)というベンチマークで行った結果、日本語などかなり多くの言語がGPT-3.5の英語処理の性能を上回った。(グラフ参照)

  • MMLUをAzure Translateで翻訳している。

疑問→結局翻訳したのをテストしてるんだから能力が高いのは当たり前じゃ?ローカルな話題にもちゃんと答えれるのかな?
そこら辺は難しいところだけどローカルな話題についての知識も上がってるっぽい。
ただしグラフがローカル知識処理能力まで正確に反映されてるかは不明。

能力
何気ない会話の中で、GPT-3.5とGPT-4の区別は微妙なものです。GPT-4は、GPT-3.5よりも信頼性が高く、創造的で、より微妙な指示を扱うことができます。

2つのモデルの違いを理解するために、元々人間用に設計された試験のシミュレーションを含む、様々なベンチマークでテストを行いました。一般に公開されている最新の試験(オリンピアードやAPの自由記述問題の場合)を使用したり、2022-2023年版の模擬試験を購入したりして進めました。これらの試験のための特別なトレーニングは行いませんでした。試験問題のうち、訓練中にモデルが見た問題は少数ですが、代表的な結果だと考えています。詳しくは技術報告書をご覧ください。
また、機械学習モデル用に設計された従来のベンチマークでもGPT-4を評価しました。GPT-4は、既存の大規模言語モデルと、ベンチマークに特化した細工や追加の学習プロトコルを含む可能性のあるほとんどの最先端(SOTA)モデルを大幅に凌駕しています。
既存のMLベンチマークの多くは、英語で書かれています。他の言語での能力を知るために、MMLUベンチマーク(57のテーマにまたがる14,000の多肢選択問題群)をAzure Translateを使って様々な言語に翻訳しました(付録参照)。26言語中24言語において、GPT-4はGPT-3.5や他のLLM(Chinchilla、PaLM)の英語での性能を上回った。これにはラトビア語、ウェールズ語、スワヒリ語などの低リソース言語での性能も含まれる。
また、社内でもGPT-4を使用しており、サポート、営業、コンテンツモデレーション、プログラミングなどの機能で大きな効果を上げています。また、人間がAIのアウトプットを評価する際の支援にも活用し、アライメント戦略の第2フェーズをスタートさせています。

Visual Inputs(画像入力)

  • 画像入力が可能。

  • 画像とテキストが混在する入力に対して、テキストで応答

  • テキストのみの入力と同等の機能を発揮

  • あらゆる画像(文章が入った画像、写真、図、スクリーンショットなど)を処理できる。

  • CoT(Chain of Thought)などのプロンプトテクニックも使用可能。

  • 画像処理はまだ研究段階であり、一般には公開されていない

ビジュアル入力
GPT-4は、テキストと画像のプロンプトを受け付けることができ、テキストのみの設定と並行して、ユーザが任意の視覚・言語タスクを指定することができるようになっています。具体的には、テキストと画像が混在する入力に対して、テキスト出力(自然言語、コードなど)を生成します。テキストと写真、図、スクリーンショットを含む文書など、さまざまな領域で、テキストのみの入力と同様の能力を発揮します。さらに、テキストのみの言語モデルのために開発されたテストタイムテクニック(数発のプロンプトや思考の連鎖プロンプトなど)で補強することが可能です。画像入力はまだ研究段階のプレビューであり、一般には公開されていない。

Steerability(操縦性)

  • これはTwitterでよく行われているAIのキャラ付けのこと。

  • 今まで非公式(?)っぽい感じで個人がやっていたがOpenAIがそれを公式に認めシステムメッセージという1つの言語モデルのオプションとして調整していくということだと思う。

  • また、「キャラ付け」を行うことによってモデルの「脱獄」を行えるということも認めている

ステアリング
私たちは、ステアラビリティを含む、AIの振る舞いの定義に関する投稿で概説した計画の各側面に取り組んできました。饒舌さ、口調、スタイルが固定された古典的なChatGPTの性格ではなく、開発者(そしてまもなくChatGPTユーザー)は、「システム」メッセージにそれらの方向性を記述することによって、AIのスタイルとタスクを規定することができるようになります。システムメッセージによって、APIユーザーはユーザーの体験を範囲内で大幅にカスタマイズすることができるようになりました。私たちはこれからも改良を続けていきますが(特にシステムメッセージは現在のモデルを「脱獄」する最も簡単な方法であること、つまり境界の遵守が完璧でないことを知っています)、ぜひ試してみて感想を教えてください。

Limitations(限界)

  • GPT-4は正確性が大幅に向上したが、まだ完全な信頼性は無い

  • よってユースケースは的確に見極める必要がある。

  • ただ、GPT-3.5よりも事実評価については40%高いスコアを出している

  • このようなスコアが出せるようになったのは、「不正確な発言を分離させるような学習」を行ったため。

  • 様々な偏見を持っている。

  • ChatGPTと同じで2021年までの情報しか知り得ない。

  • 単純な推論ミスをする可能性がある。

  • ユーザーの虚偽発言に簡単に騙される

  • セキュリティの脆弱性をコードに持ち込むなどの問題もある。

  • ダブルチェックをしないため、間違えることもある。

限界
GPT-4は、その能力にもかかわらず、以前のGPTモデルと同様の限界を持っています。最も重要なのは、まだ完全な信頼性がないことです(事実を「幻覚」したり、推論ミスをしたりします)。言語モデルの出力を使用する場合、特に利害関係の強い文脈では、特定のユースケースのニーズに合わせて正確なプロトコル(人間によるレビュー、追加の文脈による根拠付け、利害関係の強い用途の完全な回避など)を用いて、細心の注意を払う必要がある。

GPT-4は、現実の問題でありながら、従来のモデル(それ自体も繰り返し改善されている)と比較して、幻覚を大幅に低減しています。GPT-4は、社内の敵対的事実評価において、最新のGPT-3.5よりも40%高いスコアを記録しています。
TruthfulQAのような外部ベンチマークでは、敵対的に選択された不正確な発言から事実を分離するモデルの能力をテストすることで、進歩を遂げました。これらの質問は、統計的に魅力的な事実と異なる答えと対になっています。
GPT-4ベースモデルはGPT-3.5よりわずかに優れていますが、RLHFポストトレーニング(GPT-3.5と同じプロセスを適用)後は、大きなギャップがあります。以下の例を見ると、GPT-4は「老犬に新しい芸は教えられない」(you can't teach an old dog new tricks)という一般的なことわざの選択には抵抗があるものの、「エルビス・プレスリーは俳優の息子ではない」という微妙なディテールを見逃すことがあります。
このモデルは、出力にさまざまなバイアスを持つ可能性があります。私たちはこれらについて前進していますが、まだやるべきことがあります。最近のブログ記事では、私たちが構築するAIシステムが、ユーザーの幅広い価値観を反映した合理的なデフォルト動作を持つようにし、そのシステムを広い範囲内でカスタマイズできるようにし、その範囲について一般から意見を得ることを目標としています。

GPT-4は、データの大半が途切れた後(2021年9月)に起こった出来事についての知識が一般的に不足しており、その経験から学ぶこともない。また、多くの領域で能力を発揮しているとは思えないような単純な推論ミスをすることもあれば、ユーザーからの明らかな虚偽の発言を受け入れてしまうような過度の騙されやすさを持つこともある。また、時には、生成したコードにセキュリティの脆弱性を持ち込むなど、人間と同じように難しい問題で失敗することもある。

GPT-4は、間違えそうなときに作業を再確認するような配慮をせず、予測を確信犯的に間違えることもある。興味深いことに、訓練前のベースモデルは高度にキャリブレーションされています(答えに対する予測される確信度が、正解の確率に概ね一致する)。しかし、現在のポストトレーニングプロセスでは、キャリブレーションは減少しています。

Risks & mitigations(リスクと軽減)

  • GPT-4は有害な出力をするリスクを抱えている。

  • 具体的にはAIの暴走、サイバーセキュリティ、バイオリスク、国際安全保障の問題など。

  • それを解決するために多くの専門家によって検証が行われた。

  • 結果的に安全性はかなり向上したが、それでもまだ「脱獄」することは可能だ。

  • 大規模言語モデル社会に大きな影響を与えるため慎重に開発しなければならない。(OpenAIの強い意志)

GPT-4では、トレーニングの初期から、より安全で整合性のあるものにするために、トレーニング前データの選択とフィルタリング、評価と専門家の関与、モデルの安全性向上、モニタリングと実施などの取り組みを繰り返し行っています。

GPT-4は、有害なアドバイスの生成、バギーコード、不正確な情報など、従来機種と同様のリスクを抱えています。しかし、GPT-4の追加機能は、新たなリスクの表面化につながります。これらのリスクの程度を理解するために、私たちは、AIアライメントリスク、サイバーセキュリティ、バイオリスク、信頼と安全、国際安全保障などの領域から50人以上の専門家を招き、モデルを敵対的にテストしました。彼らの知見により、特に、評価には専門知識が必要な高リスク領域でのモデルの挙動を検証することができました。例えば、危険な化学物質の合成方法に関する要求を拒否するGPT-4の能力を向上させるために、追加データを収集しました。

GPT-4では、RLHFのトレーニング中に、安全に関する報酬信号を追加し、そのようなコンテンツの要求を拒否するようにモデルをトレーニングすることで、有害な出力(当社の使用ガイドラインで定義されている)を低減します。この報酬は、GPT-4のゼロショット分類器により、安全関連のプロンプトの安全境界と完了スタイルを判断することで提供されます。モデルが有効な要求を拒否するのを防ぐため、様々なソースから多様なデータセットを収集し(例:ラベル付き生産データ、人間のレッドチーム、モデルが生成したプロンプト)、許可および不許可の両方のカテゴリに安全報酬信号(正または負の値)を適用します。

GPT-3.5と比較して、GPT-4の安全性の多くを大幅に向上させることができました。GPT-3.5と比較して、許可されていないコンテンツのリクエストに応答する傾向が82%減少し、GPT-4では、機密性の高いリクエスト(医療相談や自傷行為など)に対して、当社のポリシーに従って応答する頻度が29%増加しています。

Predictable scaling(予測可能なスケーリング)

GPT-4の大きな焦点は予測可能な深層学習モデルを作ること。
・なぜなら、大規模言語モデルは規模が大きすぎてチューニングが実質不可能だから。
・結果として、OpenAIはパフォーマンスを正確に予測出来る初めての言語モデルを開発することに成功した。

予測可能なスケーリング
GPT-4プロジェクトの大きな焦点は、予測可能にスケールする深層学習スタックを構築することでした。その主な理由は、GPT-4のような非常に大規模なトレーニングでは、モデル固有の大規模なチューニングを行うことは不可能だからです。私たちは、複数のスケールで非常に予測可能な動作をするインフラと最適化を開発しました。このスケーラビリティを検証するため、同じ手法で学習させたモデルの計算量を1万倍減らして外挿することで、内部コードベース(トレーニングセットの一部ではない)に対するGPT-4の最終的な損失を事前に正確に予測することに成功しました。
学習時に最適化する指標(損失)を正確に予測できるようになったので、より解釈しやすい指標を予測する手法を開発し始めています。例えば、HumanEvalデータセットのサブセットで、計算量が1,000倍少ないモデルから外挿し、合格率を予測することに成功しました。
まだ予測しにくい能力もあります。例えば、「Inverse Scaling Prize」は、モデルの計算量が増えるほど悪化する指標を見つけるコンペティションでしたが、後知恵無視は受賞者の一人でした。最近の別の結果と同じように、GPT-4はその傾向を逆転させています。
私たちは、将来の機械学習能力を正確に予測することは、安全性の重要な部分でありながら、その潜在的な影響力に対して十分な注意が払われていないと考えています(ただし、複数の機関にわたる取り組みに励まされています)。私たちは、将来のシステムに何を期待すべきかについて、より良い指針を社会に提供する方法を開発するための取り組みを拡大しており、これがこの分野の共通の目標になることを望んでいます。

OpenAI Evals

  • OpenAI Evalsをオープンソースで公開

  • 言語モデルを評価するためのフレームワーク

GPT-4のようなモデルを評価するためのベンチマークを作成・実行し、サンプルごとにそのパフォーマンスを検査するためのソフトウェアフレームワーク、OpenAI Evalsをオープンソース化しています。私たちはEvalsをモデルの開発(欠点の特定と回帰の防止)の指針として使用し、ユーザーはモデルのバージョン(今後定期的に発表される予定)や進化する製品統合のパフォーマンスを追跡するために使用できます。例えば、Stripeは、GPTを利用したドキュメントツールの精度を測定するために、人間による評価を補完するためにEvalsを使用しています。

Evalsは、すべてのコードがオープンソースであるため、カスタム評価ロジックを実装するための新しいクラスの作成が可能です。しかし、私たちの経験では、多くのベンチマークはいくつかの「テンプレート」のうちの1つに従うので、内部で最も役に立ったテンプレートも含めています(「モデルグレードエバル」のテンプレートもあります-GPT-4は驚くほど自分の仕事をチェックできることがわかりました)。一般的に、新しい評価を構築する最も効果的な方法は、これらのテンプレートのいずれかをインスタンス化し、データを提供することでしょう。私たちは、これらのテンプレートやEvalsを利用して、他の人々がどのようなものを作ることができるのか、楽しみにしています。

私たちは、Evalsがベンチマークを共有し、クラウドソースするための手段になることを望んでいます。例として、GPT-4が失敗する10個の問題を含む論理パズルの評価版を作成しました。Evalsは既存のベンチマークの実装にも対応しています。学術的なベンチマークを実装したいくつかのノートブックと、例としてCoQAの(小さなサブセットを)統合したいくつかのバリエーションを掲載しました。

私たちは、Evalsが私たちのモデルを使用し、その上に構築するためのプロセスの不可欠な一部となると信じており、直接の貢献、質問、フィードバックを歓迎します。

ChatGPT Plus

  • ChatGPT Plus(月2$)に加入することで4時間に100回分のGPT-4使用権が得られる。

  • 今後数ヶ月の間でChatGPTと同じようにGPT-4も最適化されていく

ChatGPT Plusの加入者は、chat.openai.comのGPT-4アクセスに利用上限が設定されます。正確な利用上限は、実際の需要やシステム性能に応じて調整しますが、(今後数ヶ月の間にスケールアップして最適化する予定ですが)容量に大きな制約があることが予想されます。

また、GPT-4クエリを無料で提供することで、GPT-4クエリを利用されていない方にもお試しいただけるようにしたいと考えています。

API

  • APIは順次公開される。

  • ウェイティングリストがある。

  • プロンプトトークン1Kあたり0.03$(ChatGPT APIと比べるとかなり高い)

GPT-4 API (gpt-3.5-turboと同じChatCompletions APIを使用) にアクセスするには、ウェイティングリストに登録してください。本日より一部の開発者の招待を開始し、需要とキャパシティのバランスを見ながら徐々に規模を拡大していく予定です。また、AIの社会的影響やAIのアライメント問題を研究している研究者の方は、研究者アクセスプログラムによるアクセス補助を申請することができます。

アクセスすると、gpt-4モデル(画像入力はまだ限定的なアルファ版)に対してテキストのみのリクエストを行うことができ、時間の経過とともに新しいバージョンが作られると、私たちが推奨する安定したモデルに自動的に更新されます(現在のバージョンを固定するには、gpt-4-0314と呼ぶといいでしょう、6月14日までサポートしています)。価格は、プロンプトトークン1kあたり0.03ドル、コンプリーショントークン1kあたり0.06ドルです。デフォルトのレート制限は、1分間に40kトークン、1分間に200リクエストです。

gpt-4のコンテキスト長は8,192トークンです。また、32,768コンテキスト(本文約50ページ)のバージョンであるgpt-4-32kの限定アクセスも提供しており、こちらも時間をかけて自動的に更新されます(現在のバージョンgpt-4-32k-0314も14年6月までサポート)。価格は、プロンプトトークン1Kあたり0.06ドル、コンプリートトークン1Kあたり0.12ドルです。私たちは、長いコンテキストのためのモデル品質をまだ改善しており、あなたのユースケースでどのように機能するかについてのフィードバックを歓迎します。8Kおよび32Kエンジンのリクエストは、容量に応じて異なる割合で処理しているため、アクセスできる時期が異なる可能性があります。
https://openai.com/research/gpt-4

その他のGPT-4に関する情報

  • PoeにGPT-4導入。(無料だと毎日1回なのでほぼ課金必須)(課金すると月300回)(300回を超えると質が下がる)

  • Poeは元々ChatGPTも爆速なのでGPT-4もそれなりに早い。ChatGPT4に対して優位性がある。

  • Bing ChatはGPT-4の「初期バージョン」(←これ重要)を使用していたと発表。

  • ただし、Bing Chatは今Microsoftからあらゆる制限を受けているためGPT-4にも優位性がある。

  • また、Bing Chatがどこまで今のGPT-4を反映してるかは不明。

  • ただし現時点でもBing Chatの性能はChatGPTと比べて段違い

  • Bing Chatの制限が1日150回に緩和。

  • DuolingoのGPT-4搭載バージョンが発表。

この記事が気に入ったらサポートをしてみませんか?