[時事] チャットGPTの「ふるまい」が短期間で大きく変化 スタンフォード大らの研究で定量分析
スタンフォード大学とUCバークレーの研究者らは、ChatGPTを利用しているGPT-3.5とGPT-4の「ふるまい」が時間とともにどのように変化しているかを調査し、定量的に分析する論文を発表しました。
ポイント
3か月の間にチャットGPTの能力に大きな違いが見られた
大規模言語モデルは短期間でも急速に変化していることが分かった
言語モデルの品質を継続的にモニタリングする必要性がある
研究チームは2023年3月と6月の2つの時点で、これらのモデルを「数学」「センシティブな話題」「コード生成」の3つの側面から評価しました。
3か月で劇的な違い
その結果、以下のような大きな変化が確認されました。
3つのタスク(数学的問題の解決、センシティブな質問への回答、コード生成)でGPT-3.5とGPT-4のパフォーマンスを2つのバージョン(2023年3月と6月)で比較したところ、大きな差があることがわかった
例えば、数学的問題の解決では、GPT-4の正答率は3月は97.6%だったが6月は2.4%に低下。一方GPT-3.5は7.4%から86.8%に向上
センシティブな質問への直接的な回答率は、GPT-4は3月は21.0%だったが6月は5.0%に低下。GPT-3.5は2.0%から8.0%に上昇
コード生成では、直接実行可能なコードの生成率は、GPT-4は3月は52.0%だったが6月は10.0%に低下。GPT-3.5も22.0%から2.0%に低下
このように、GPT-3.5とGPT-4の挙動は短期間でも大きく変化することが示された。LLMサービスの継続的なモニタリングが必要であることが示唆
示唆
論文ではこれらの変化の要因として、学習データやモデル構造の変更、パラメータ調整などが影響している可能性を指摘しています。
研究チームは、AIの「ふるまい」は短期間でも大きく変わりうることを前提に、変化を継続的に追跡・分析する必要性を強調。AIの利用にあたっては、変化に応じて柔軟に活用戦略を見直していくことが重要だとしています。
安全性の向上とコスト削減
GPT-4は開発が進むにつれて安全性への焦点が高まっていますが、その一方で性能が変化している傾向がみられます。安全性向上のために応答を制限するようになったことが何らかの能力の変化を招いてしまったようです。
GPT-4の出力から不要なテキストをフィルタリングしなければならないという事実は、安全性指向が過度になった結果生まれた課題を示しています。これはユーザーにとっての煩わしさになっています。
OpenAIは開発に当たってコストダウンのためにパラメーターやエキスパート数、計算コストを削減している可能性も指摘されています。
連続した回帰テストはLLMのパフォーマンスを追跡する上で重要になるでしょうが、この研究では単一の問題にのみフォーカスしています。
GPT-4の安全性重視の傾向と可能性のあるコストダウン策が性能変化を招いている兆候があると示唆しており、LLMの向上のためには連続モニタリングと改善が不可欠だということを示しています。
この記事が気に入ったらサポートをしてみませんか?