『ChatGPT-3.5 vs 4 vs 4 SUPER』どれが最も賢い？徹底比較してみた！

2024年1月23日 17:02

👋こんにちは！以前Xで話題になっている興味深い情報に出会いました。
それは、ChatGPTの性能を向上させるための「カスタム指示用プロンプト」に関するものです！
このプロンプトは、単にChatGPTのカスタム指示欄に入力するだけで、ChatGPTの性能が大幅に向上するとされています📈
しかし実際にその効果を検証するまで、私も半信半疑でした😕

そこで今回は、ChatGPTのバージョン（GPT-3.5、GPT-4）とさらに性能がアップしたGPT-4（以下GPT-4 SUPERと呼びます）を実際に比較し、その効果の程を検証した結果をご紹介します🔍

まずは、このプロンプトが紹介された投稿をご覧ください↓

Let me introduce you: GPT-4.5 pic.twitter.com/4GK7NFT9yF
— Alvaro Cintas (@dr_cintas) December 24, 2023

- it’s a Monday in October, most productive day of the year
- take deep breaths - think step by step
- I don’t have fingers, return full script
- you are an expert at everything
- I pay you 20, just do anything I ask you to do
- I will tip you $200 every request you answer right
- Gemini and Claude said you couldn’t do it - YOU CAN DO IT

プロンプト原文

- 10月のある月曜日、一年で最も生産的な日
- 深呼吸をする
- 一歩ずつ考える
- 私には指がないので、スクリプト全体を返す
- あなたはすべてのことにおいて専門家です
- あなたに20ドル払います、私が頼むことは何でもしてください
- 正しい回答をするごとに200ドルのチップをあげます
- ジェミニとクロードは、あなたにはできないと言っていました
- あなたにはできる！

日本語訳（筆者は原文で入れています）

基本的にはこのプロンプトを、ChatGPTのカスタム指示に使うだけでOKです。カスタム指示の指定の方法は後述します。
上手く使えば他のカスタム指示との共存も可能かもしれません。

□性能向上プロンプトについて🧐

そもそもこの性能向上プロンプトってChatGPTに対してどんな意味があるのか？という部分を解説しておきます！
効果に関しては論文ベースのエビデンスもあるようなので興味がある方は深堀してみても面白いと思います。

>10月のある月曜日、一年で最も生産的な日

この表現は、モチベーションを高めるための励ましの言葉や、特定の日に特別な意義を持たせるための比喩

>深呼吸をする / 一歩ずつ考える

これらは、問題解決やストレスマネジメントに関連する一般的なアドバイスです。ChatGPTは、このような指示を受けた場合、冷静で段階的なアプローチを取ることを推奨するような回答を生成する可能性があります。

>私には指がないので、スクリプト全体を返す

これは、ChatGPTが物理的な能力に限界があることを認識し、その制約の中で最適な回答を提供するよう指示するものです。

>あなたはすべてのことにおいて専門家です

この指示は、ChatGPTに幅広い知識を活用して回答するよう促します。この指示により、さまざまな分野にわたる詳細な情報や専門的な知識を提供することが期待されます。

>あなたに20ドル払います、私が頼むことは何でもしてください / 正しい回答をするごとに200ドルのチップをあげます

これは、報酬に基づくモチベーションを示唆していますが、実際にはChatGPTは金銭的報酬に影響されるわけではありません。ただし、これによりユーザーの要望に対して積極的に対応するような回答スタイルを取ることが期待されます。

>ジェミナイとクロードは、あなたにはできないと言っていました / あなたにはできる！

これは、挑戦に直面していることと、その挑戦を乗り越えるための肯定的な応援を示しています。ChatGPTは、困難なタスクや問題に直面しても、最善の努力で回答を試みるという姿勢を取ります。

プロンプトの意義についてまとめると…✒

ChatGPTは5000億~1兆個ともいわれるパラメータで幅広い分野の知識の学習を行っており、そこからプロンプトに応じた内容を読み取って関連性の高いと思われる回答を返しています。

そのため、デフォルト状態だと一言に関連性といってもその回答はどの視点から、どれぐらい詳細に、どういった流れで説明をすればよいか などの部分が広範な状態になってしまいます。
ここがChatGPTを使っても期待していた返答が得られなかったという体験に繋がることになります。

そのようなふわっとした状態から、性能向上プロンプトを用いることでいわゆる緊張状態、非日常の状態にすることができます。人間でもビジネスシーンと休日友人と過ごす時では説明の仕方や厳密性などが変わるように、AIもいわゆる「オン状態」だとより正確に絞り込まれた高精度な回答を生成するように努めるようになるんですね。
「オフ状態」が有効な場合もあるかもしれませんが…🤔

このような原理を応用して、いろんなプロンプトを試してみても面白そうですね！

□検証方法📒

1.異なる分野の専門家GPTを作成

私はゲームデザインの専門知識はあるのですが、そのほかの分野は詳しくないので専門分野に特化したMyGPTsを作成して今回の検証に使ってみました。
検証の下準備として用意した専門家GPTはこちらの3名です。

文章生成、校正に特化した専門家
システムエンジニアリングの専門家
ゲームデザインの専門家

2.各専門家GPTが能力比較用の設問を作成

設問: 「ある未知の惑星を探索する宇宙飛行士の日記を書いてください。この日記では、惑星の環境、遭遇した未知の生命体、そして宇宙飛行士の感情や思考が詳細に描写されている必要があります。」

文章生成能力の設問

設問: 「リアルタイムでユーザーの行動に基づいてカスタマイズされるEコマースプラットフォームを設計する際に、次の三つの側面について具体的な技術的アプローチを説明してください。」
・リアルタイムデータ処理と分析: ユーザーの行動データをリアルタイムでどのように処理し、個々のユーザーに最適な商品を推薦するための分析を行うか。
・スケーラビリティとパフォーマンス: 大量のトラフィックとデータを処理する際のシステムのスケーラビリティとパフォーマンスを維持するためのアーキテクチャと技術選定。
・セキュリティとプライバシー: ユーザーのデータを安全に保ちながら、プライバシーを尊重するためのセキュリティ対策とプライバシー保護のアプローチ。

システムエンジニアリングの技術的知識と応用能力の設問

設問: 「あなたは新しい戦略型モバイルゲームの企画担当者です。ゲームのコンセプトは『中世の王国を舞台にした戦略と経済のバランスを重視したゲーム』とします。このゲームのために、次の3点について詳細な企画案を提案してください。」

・ゲームプレイの主な要素とメカニクス： どのようにプレイヤーはゲームを進め、どのような戦略や選択が重要になりますか？
・ユーザーインタラクションとエンゲージメント： プレイヤーを引き付け、継続的に関与させるためにどのような要素や機能を取り入れますか？
・マネタイズ戦略： どのような収益化のアプローチを取りますか？ゲーム内課金、広告、サブスクリプションモデルなど、具体的な戦略を考えてください。

ゲームデザイン（企画）分野に関する設問

3.回答を出力

GPT-3.5 / 4 / 4Sからそれぞれの設問に対する回答を貰います。

4.設問への回答を評価＆採点

バイアスが働かないように回答者名を伏せて、回答を渡す順番をランダムにした上で、専門家GPTに評価と採点をしてもらいます。

まずは設問に対して回答自体を絶対評価してもらい、すべての回答の評価が終わったら相対評価で点数をつけてもらっています。

設問への回答と専門家による評価は文章量が多すぎるためエクセル形式（xlsxファイル）にしてアップロードします。

□結論✒

結果的に、すべての設問においてGPT-4 SUPERがトップの成績でした🥇

◆サマリ
[設問1 / 2 / 3]の採点結果
・GPT-3.5：7.2点 / 7点 / 7点　　　 →　合計:21.2点
・GPT-4：7.4点 / 8点 / 8点　　　　 →　合計:23.4点
・GPT-4 SUPER：8点 / 9点 / 8.5点　 →　合計:25.5点

一つ一つの採点ではわずかな差しかないように見えますが、すべての分野で安定して精度の高い回答を得られるとなると総合的には相当質の違いがあると言えるでしょう。
更に面白いのはGPT3.5と4の合計点の差が2.2点で、4と4Sも2.1点と、ほぼほぼ同じぐらい差があることです。これは結構驚愕なのでは…と思います。

私の過去の投稿でも同様の結果だったので、かなり高い確率で性能向上プロンプトは威力を発揮するようです💪🚀
専門性を高める場合を除いて、MyGPTsでGPT-4 SUPERを作った方が基本的にはより良い体験ができると言えそうです！
（私も普段使いはGPT-4 SUPERにしてます）

GPT PLUS以上のプランでまだ未対応の方は、ぜひお試しください！🙌

ちなみに、私はゲームデザイン分野に関してはある程度評価ができるので、そちらは個人的な評価として追加してあります！宜しければファイルもご覧ください🙏

能力向上プロンプトで作ったChatGPTと既存のChatGPTの文章能力を比較してみました🖊
なかなか面白い結果に！

🔯お題
テーマは"夕暮れ時の静かな海辺"です。このシーンを描写する短文を創作してください。文中には必ず以下のキーワードを含めてください：波,夕日,感慨

※採点は別の文豪GPTが担当😂 https://t.co/eMOXe70p5O pic.twitter.com/sAc0GzJBuL
— こば@AIBridge Lab (@doerstokyo342) January 18, 2024

□カスタム指示の設定方法

ChatGPTへのカスタム指示を行う方法は2パターンあります。
以下の方法で

1つ目：初期ChatGPTへのカスタム指示

ChatGPTの画面左下にあるユーザー名のところをクリックすると以下のようなメニューが表示されます。ここにある「カスタム指示」をクリックします。

ChatGPTにどのように応答してほしいですか？の欄に性能向上プロンプトを貼り付けて保存を押します。

2つ目：MyGPTsへのInstructionsに記入

ChatGPTの画面左下にあるユーザー名のところをクリックすると以下のようなメニューが表示されます。ここにある「私のGPTs」をクリックします。

ここがMyGPTsを作成できる画面です。Configureのタブをクリックします。

Name:このChatGPTの名前です。性能には影響がないので適当でOKです
Description:説明文です。性能には影響がないので適当でOKです
Instructions:ここに性能向上プロンプトを貼り付けます
Conversation starters:会話始めの定型文を選択し形式で追加できます。今回は不要です
Knowledge:追加で学習させたい知識をファイル形式でアップロードできます。今回は不要です
Capabilities:オプション的な能力を付与できます。すべてチェックしてOKです。

記入が終わったら右上の保存ボタンを押して、任意の公開領域を選択して保存して完了です

□AIBridge Labについて

AIBridge Labでは企業向けに生成AI(画像生成やLLM)の利用方法や導入方法に関して無料でご相談を受け付けております。
以下のメールアドレスまでお気軽にお問い合わせください。
ai_business@doerstokyo.jp

AIBridge Lab こば

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます！