GPT-4の概略
マルチモーダルモデル。
司法試験で上位10%の成績(GPT-3.5は下位10%の成績)
6ヶ月間調整が行われた。
事実性、操縦性、倫理性ともに最高のスコア
パフォーマンスの結果を正確に予測出来た初めての言語モデル。
ChatGPT Plusで先行利用可能
APIは順次公開(ウェイトリストあり)
画像処理についてはある1社と提携しながら準備中
OpenAI EvalsというAIモデルの性能を自動評価するフレームワークをオープンソースで公開。これにより誰でもフィードバックが可能に。
Capability(能力)
信頼性が高い
創造的
微妙な指示にも適切に従う
人間用のベンチマークテストの結果は、GPT-3.5と比べても圧倒的。(グラフ参照)
機械学習用に設計されたベンチマークテストでも既存の言語モデルを凌駕。
SOTA(State of the Art)モデルよりも性能が高い。
英語以外の言語能力を測るテストをMMLU(Massive Multitask Language Understanding)というベンチマークで行った結果、日本語などかなり多くの言語がGPT-3.5の英語処理の性能を上回った。(グラフ参照)
MMLUをAzure Translateで翻訳している。
疑問→結局翻訳したのをテストしてるんだから能力が高いのは当たり前じゃ?ローカルな話題にもちゃんと答えれるのかな?
そこら辺は難しいところだけどローカルな話題についての知識も上がってるっぽい。
ただしグラフがローカル知識処理能力まで正確に反映されてるかは不明。
Visual Inputs(画像入力)
画像入力が可能。
画像とテキストが混在する入力に対して、テキストで応答。
テキストのみの入力と同等の機能を発揮。
あらゆる画像(文章が入った画像、写真、図、スクリーンショットなど)を処理できる。
CoT(Chain of Thought)などのプロンプトテクニックも使用可能。
画像処理はまだ研究段階であり、一般には公開されていない。
Steerability(操縦性)
これはTwitterでよく行われているAIのキャラ付けのこと。
今まで非公式(?)っぽい感じで個人がやっていたがOpenAIがそれを公式に認めシステムメッセージという1つの言語モデルのオプションとして調整していくということだと思う。
また、「キャラ付け」を行うことによってモデルの「脱獄」を行えるということも認めている。
Limitations(限界)
GPT-4は正確性が大幅に向上したが、まだ完全な信頼性は無い。
よってユースケースは的確に見極める必要がある。
ただ、GPT-3.5よりも事実評価については40%高いスコアを出している。
このようなスコアが出せるようになったのは、「不正確な発言を分離させるような学習」を行ったため。
様々な偏見を持っている。
ChatGPTと同じで2021年までの情報しか知り得ない。
単純な推論ミスをする可能性がある。
ユーザーの虚偽発言に簡単に騙される。
セキュリティの脆弱性をコードに持ち込むなどの問題もある。
ダブルチェックをしないため、間違えることもある。
Risks & mitigations(リスクと軽減)
GPT-4は有害な出力をするリスクを抱えている。
具体的にはAIの暴走、サイバーセキュリティ、バイオリスク、国際安全保障の問題など。
それを解決するために多くの専門家によって検証が行われた。
結果的に安全性はかなり向上したが、それでもまだ「脱獄」することは可能だ。
大規模言語モデルは社会に大きな影響を与えるため慎重に開発しなければならない。(OpenAIの強い意志)
Predictable scaling(予測可能なスケーリング)
・GPT-4の大きな焦点は予測可能な深層学習モデルを作ること。
・なぜなら、大規模言語モデルは規模が大きすぎてチューニングが実質不可能だから。
・結果として、OpenAIはパフォーマンスを正確に予測出来る初めての言語モデルを開発することに成功した。
OpenAI Evals
OpenAI Evalsをオープンソースで公開
言語モデルを評価するためのフレームワーク
ChatGPT Plus
API
その他のGPT-4に関する情報
PoeにGPT-4導入。(無料だと毎日1回なのでほぼ課金必須)(課金すると月300回)(300回を超えると質が下がる)
Poeは元々ChatGPTも爆速なのでGPT-4もそれなりに早い。ChatGPT4に対して優位性がある。
Bing ChatはGPT-4の「初期バージョン」(←これ重要)を使用していたと発表。
ただし、Bing Chatは今Microsoftからあらゆる制限を受けているためGPT-4にも優位性がある。
また、Bing Chatがどこまで今のGPT-4を反映してるかは不明。
ただし現時点でもBing Chatの性能はChatGPTと比べて段違い。
Bing Chatの制限が1日150回に緩和。
DuolingoのGPT-4搭載バージョンが発表。