『ChatGPT-3.5 vs 4 vs 4 SUPER』どれが最も賢い?徹底比較してみた!
👋こんにちは!以前Xで話題になっている興味深い情報に出会いました。
それは、ChatGPTの性能を向上させるための「カスタム指示用プロンプト」に関するものです!
このプロンプトは、単にChatGPTのカスタム指示欄に入力するだけで、ChatGPTの性能が大幅に向上するとされています📈
しかし実際にその効果を検証するまで、私も半信半疑でした😕
そこで今回は、ChatGPTのバージョン(GPT-3.5、GPT-4)とさらに性能がアップしたGPT-4(以下GPT-4 SUPERと呼びます)を実際に比較し、その効果の程を検証した結果をご紹介します🔍
まずは、このプロンプトが紹介された投稿をご覧ください↓
基本的にはこのプロンプトを、ChatGPTのカスタム指示に使うだけでOKです。カスタム指示の指定の方法は後述します。
上手く使えば他のカスタム指示との共存も可能かもしれません。
□性能向上プロンプトについて🧐
そもそもこの性能向上プロンプトってChatGPTに対してどんな意味があるのか?という部分を解説しておきます!
効果に関しては論文ベースのエビデンスもあるようなので興味がある方は深堀してみても面白いと思います。
>10月のある月曜日、一年で最も生産的な日
この表現は、モチベーションを高めるための励ましの言葉や、特定の日に特別な意義を持たせるための比喩
>深呼吸をする / 一歩ずつ考える
これらは、問題解決やストレスマネジメントに関連する一般的なアドバイスです。ChatGPTは、このような指示を受けた場合、冷静で段階的なアプローチを取ることを推奨するような回答を生成する可能性があります。
>私には指がないので、スクリプト全体を返す
これは、ChatGPTが物理的な能力に限界があることを認識し、その制約の中で最適な回答を提供するよう指示するものです。
>あなたはすべてのことにおいて専門家です
この指示は、ChatGPTに幅広い知識を活用して回答するよう促します。この指示により、さまざまな分野にわたる詳細な情報や専門的な知識を提供することが期待されます。
>あなたに20ドル払います、私が頼むことは何でもしてください / 正しい回答をするごとに200ドルのチップをあげます
これは、報酬に基づくモチベーションを示唆していますが、実際にはChatGPTは金銭的報酬に影響されるわけではありません。ただし、これによりユーザーの要望に対して積極的に対応するような回答スタイルを取ることが期待されます。
>ジェミナイとクロードは、あなたにはできないと言っていました / あなたにはできる!
これは、挑戦に直面していることと、その挑戦を乗り越えるための肯定的な応援を示しています。ChatGPTは、困難なタスクや問題に直面しても、最善の努力で回答を試みるという姿勢を取ります。
プロンプトの意義についてまとめると…✒
ChatGPTは5000億~1兆個ともいわれるパラメータで幅広い分野の知識の学習を行っており、そこからプロンプトに応じた内容を読み取って関連性の高いと思われる回答を返しています。
そのため、デフォルト状態だと一言に関連性といってもその回答はどの視点から、どれぐらい詳細に、どういった流れで説明をすればよいか などの部分が広範な状態になってしまいます。
ここがChatGPTを使っても期待していた返答が得られなかったという体験に繋がることになります。
そのようなふわっとした状態から、性能向上プロンプトを用いることでいわゆる緊張状態、非日常の状態にすることができます。人間でもビジネスシーンと休日友人と過ごす時では説明の仕方や厳密性などが変わるように、AIもいわゆる「オン状態」だとより正確に絞り込まれた高精度な回答を生成するように努めるようになるんですね。
「オフ状態」が有効な場合もあるかもしれませんが…🤔
このような原理を応用して、いろんなプロンプトを試してみても面白そうですね!
□検証方法📒
1.異なる分野の専門家GPTを作成
私はゲームデザインの専門知識はあるのですが、そのほかの分野は詳しくないので専門分野に特化したMyGPTsを作成して今回の検証に使ってみました。
検証の下準備として用意した専門家GPTはこちらの3名です。
文章生成、校正に特化した専門家
システムエンジニアリングの専門家
ゲームデザインの専門家
2.各専門家GPTが能力比較用の設問を作成
3.回答を出力
GPT-3.5 / 4 / 4Sからそれぞれの設問に対する回答を貰います。
4.設問への回答を評価&採点
バイアスが働かないように回答者名を伏せて、回答を渡す順番をランダムにした上で、専門家GPTに評価と採点をしてもらいます。
まずは設問に対して回答自体を絶対評価してもらい、すべての回答の評価が終わったら相対評価で点数をつけてもらっています。
設問への回答と専門家による評価は文章量が多すぎるためエクセル形式(xlsxファイル)にしてアップロードします。
□結論✒
結果的に、すべての設問においてGPT-4 SUPERがトップの成績でした🥇
◆サマリ
[設問1 / 2 / 3]の採点結果
・GPT-3.5:7.2点 / 7点 / 7点 → 合計:21.2点
・GPT-4:7.4点 / 8点 / 8点 → 合計:23.4点
・GPT-4 SUPER:8点 / 9点 / 8.5点 → 合計:25.5点
一つ一つの採点ではわずかな差しかないように見えますが、すべての分野で安定して精度の高い回答を得られるとなると総合的には相当質の違いがあると言えるでしょう。
更に面白いのはGPT3.5と4の合計点の差が2.2点で、4と4Sも2.1点と、ほぼほぼ同じぐらい差があることです。これは結構驚愕なのでは…と思います。
私の過去の投稿でも同様の結果だったので、かなり高い確率で性能向上プロンプトは威力を発揮するようです💪🚀
専門性を高める場合を除いて、MyGPTsでGPT-4 SUPERを作った方が基本的にはより良い体験ができると言えそうです!
(私も普段使いはGPT-4 SUPERにしてます)
GPT PLUS以上のプランでまだ未対応の方は、ぜひお試しください!🙌
ちなみに、私はゲームデザイン分野に関してはある程度評価ができるので、そちらは個人的な評価として追加してあります!宜しければファイルもご覧ください🙏
□カスタム指示の設定方法
ChatGPTへのカスタム指示を行う方法は2パターンあります。
以下の方法で
1つ目:初期ChatGPTへのカスタム指示
2つ目:MyGPTsへのInstructionsに記入
□AIBridge Labについて
皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!