ChatGPTのモデル間による出力結果の差異

ChatGPT-APIを使用したアプリケーションの作成中、試しにモデルを"gpt-3.5-turbo-0125"から"gpt-4-0125-preview"に変更してみた。
すると、プロンプトは一切変更していないにも関わらず、出力結果に大幅な違いが見られた。

モデル4はモデル3.5に比べて、より複雑なタスクをこなせるよう設計されている。この事は事前に知っていたが、いざその結果を目の当たりにするとこれほど迄に違いがあるのか、とただただ驚いた次第である。

プロンプトには思考の連鎖方式や、箇条書き方式等を併用しているが、モデル4はそれらをより多角的な観点から解析・推論を行い、出力内容に反映しているのだろう。
また、訓練データの範囲が2023/12迄拡大している事も、品質向上に影響を与えているのかもしれない。
とはいえ、自分が"こういった形で出力して欲しいな"と、頭の中で考えている理想形にかなり近かった。

モデル3.5を使用して、4に近い高品質を確保するには、プロンプトがより明示的・具体的・詳細である必要がある。
また、それらを検証する為のコードを組み立てる必要もある。
どちらにせよ、大いなる工夫が必要だと痛感した今日この頃だった。

この記事が気に入ったらサポートをしてみませんか?