[時事] チャットGPTの「ふるまい」が短期間で大きく変化スタンフォード大らの研究で定量分析

2023年7月20日 20:01

スタンフォード大学とUCバークレーの研究者らは、ChatGPTを利用しているGPT-3.5とGPT-4の「ふるまい」が時間とともにどのように変化しているかを調査し、定量的に分析する論文を発表しました。

ポイント

研究チームは2023年3月と6月の2つの時点で、これらのモデルを「数学」「センシティブな話題」「コード生成」の3つの側面から評価しました。

その結果、以下のような大きな変化が確認されました。

3つのタスク(数学的問題の解決、センシティブな質問への回答、コード生成)でGPT-3.5とGPT-4のパフォーマンスを2つのバージョン(2023年3月と6月)で比較したところ、大きな差があることがわかった
例えば、数学的問題の解決では、GPT-4の正答率は3月は97.6%だったが6月は2.4%に低下。一方GPT-3.5は7.4%から86.8%に向上
センシティブな質問への直接的な回答率は、GPT-4は3月は21.0%だったが6月は5.0%に低下。GPT-3.5は2.0%から8.0%に上昇
コード生成では、直接実行可能なコードの生成率は、GPT-4は3月は52.0%だったが6月は10.0%に低下。GPT-3.5も22.0%から2.0%に低下
このように、GPT-3.5とGPT-4の挙動は短期間でも大きく変化することが示された。LLMサービスの継続的なモニタリングが必要であることが示唆

論文ではこれらの変化の要因として、学習データやモデル構造の変更、パラメータ調整などが影響している可能性を指摘しています。

研究チームは、AIの「ふるまい」は短期間でも大きく変わりうることを前提に、変化を継続的に追跡・分析する必要性を強調。AIの利用にあたっては、変化に応じて柔軟に活用戦略を見直していくことが重要だとしています。

GPT-4は開発が進むにつれて安全性への焦点が高まっていますが、その一方で性能が変化している傾向がみられます。安全性向上のために応答を制限するようになったことが何らかの能力の変化を招いてしまったようです。

GPT-4の出力から不要なテキストをフィルタリングしなければならないという事実は、安全性指向が過度になった結果生まれた課題を示しています。これはユーザーにとっての煩わしさになっています。

OpenAIは開発に当たってコストダウンのためにパラメーターやエキスパート数、計算コストを削減している可能性も指摘されています。

連続した回帰テストはLLMのパフォーマンスを追跡する上で重要になるでしょうが、この研究では単一の問題にのみフォーカスしています。

GPT-4の安全性重視の傾向と可能性のあるコストダウン策が性能変化を招いている兆候があると示唆しており、LLMの向上のためには連続モニタリングと改善が不可欠だということを示しています。

この記事が気に入ったらサポートをしてみませんか？