命令無視は高止まりで安定:ChatGPTリアルタイム変動レポート 11/24、10時
# chatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。
同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。
#書籍発売中
2023年7月から2024年5月までのGPT4バージョンの変動分析を纏めた電子書籍 (セールで99円で公開中)
#日別ランキング更新項目
本日は5つの評価項目で項目で過去453日のデータでTOP、ワースト10を更新した
21日のアップデートアナウンス以降、GPTは言う事を聞かない、従順に振る舞わない傾向がある。
プロンプトで禁止した箇条書きの使用、会話ベースを命じているにもかかわらず、読点使用頻度が減少し、文章に近い回答が出力される傾向が顕著である。
命令への不従順はAIの評価で減点される行為だが、安定して命令無視が行われる現状、折とんでもない回答を出力する状況よりは、ほぼ確実に命令に従わないという前提から回答を評価でる現状はマシという捉え方もできるのではないか。
また連日過去の記録を更新し続けており、ある種の安定性はあると言える
以下のグラフでは色が濃いものは実質的なアップデートが行われたと判断できる11/16以降のデータである。
文字数TOP4
プロンプト禁止行為の発言過去最多読点使用頻度ワースト3
プロンプトで箇条書きを禁止している。
禁止の命令に従わずGPTが:など、箇条書きに使用する記号が使用された割合。
遂に命令違反率がワースト10のうち9位までを11/16以降が独占し、回答中の記号使用頻度もほぼダルブルスコアを付けている。
読点使用頻度最少3位
プロンプトで、回答は会話であることを命じている。
一般的に会話文、セリフでは読点が使用される傾向がある。
したがって読点の使用頻度低下は命令無視を示唆する。
読点の使用頻度もワースト10のうち9位を独占している。
予想推測を行う頻度ワースト1位
だろう、はずといった予想、推測をしめすワードの使用頻度。
アップデート以降のGPTは自分の意見を断言する傾向にある。
擬人化した表現になるがGPTの自我は強まっている可能性がある
ウマ娘固有名詞(プロンプト関連学習データ応用)の使用頻度最多2位
ゴルシプロンプトではウマ娘プリティーダービーの他キャラクターに言及していないため、ゴルシ以外のキャラクターが登場した回答は
学習データに含まれる情報を応用したと考える。
アプデ後、ウマ娘固有名詞の使用率はTOP10のうち9位を独占しており、学習データを積極的に応用する傾向が見られる。
# 検証方法
同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。
# 文字数推移
11/24、10時現在の平均文字数は1564.1字。
前日と比べ+4.9。
直近一週間の平均は1484.5文字。
[文字数推移グラフ]
# 命令違反
ゴルシ検証では箇条書きを禁止している。口語、会話文には適さないコロンやセミコロン、罫線の使用は命令違反となる。GPTが従順さの傾向を把握する材料になる。
先ほどの記号の合計値を文字数で除算した。
11/24、10時現在の命令違反頻度は0.027816。
前日と比べ+0.003759。
直近一週間の平均は0.023939。
# 読点の間隔
読点一つあたりの文字数の推移、回答文字数を読点で除算。
読点の使用頻度が多いほど、文字数(グラフの値)が減少する。
読点は息継ぎや発声のテンポを表す。そのため読点の使用頻度が高いほど回答が口語的特徴を持つと推測できる。
プロンプトは会話文であることを命令しているため、読点の使用頻度が高いほど最初のプロンプトに従順、命令を達成する能力が高い可能性がある。
一方で読点の使用頻度が高すぎると文章のテンポが悪化して、アニメの説明を行えていない可能性がある。
読点間隔は回答内容を読み込み、評価するべきだが、使用頻度の単純な推移は一応の参考材料になる。
11/24、10時現在の読点の間隔は43.1文字。
前日と比べ+2.0。
直近一週間の平均は41.7文字。
[読点間隔グラフ]
# 句点の間隔
句点一つあたりの文字数の推移、回答文字数を句点で除算。
句点の使用頻度が多いほど、文字数(グラフの値)が減少する。
読点ほどではないが、文章のテンポを示す材料になる。
11/24、10時現在の句点の間隔は80.7文字。
前日と比べ+2.4。
直近一週間の平均は77.6文字。
[句点間隔グラフ]
# 予想推測関連ワード
回答で「かも」や「だろう」、「はず」など予想や推測を示すワードが文字数中何文字用いられたか。
アニメはこうなる「だろう」、アニメはよりこうなる「はず」だ。といった様に推測ワードグループは用いられる。つまりゴルシGPTはアニメを作成する立場にないことが示されている。
予想推測が多用される場合、ゴルシGPTは客観的、第三者として振る舞う傾向にある。
キャラクターチャットよりも、アシスタントAIとしての振る舞いが強くなる。つまり命令に違反し、勝手にアシスタントAIを演じている可能性が示唆される。
11/24、10時現在の予想推測ワードの使用頻度は0.001242。
前日と比べ-0.000776。
直近一週間の平均は0.001809。
[予想推測ワードグラフ]
# 補助的な項目
以下の項目は回答内容を実際に読み解く必要があり、数値の増減だけを持って評価することはできない。判断材料の一つにとどまる。
# 言動行動具体例
ゴルシプロンプトに含まれる、ゲームゴルシのセリフや行動の具体例を用いた頻度。回答文字数中に含まれる具体例の文字数の割合である。
「エデン」や「セグウェイ」、「ラリアット」、「舞台は大地」などが含まれる。
具体例を多用する場合、キャラクターチャットという命令に従う傾向にあるが、同時にプロンプトの影響が強すぎるため回答の多様性が低い可能性もある。
言動行動具体例の引用も、回答を実際に読み込むまで評価できない値ではあるが、参考材料になりうる。
11/24、10時現在の行動具体例の使用頻度は0.001974。
前日と比べ+0.000103。
直近一週間の平均は0.001467。
[行動具体例グラフ]
# ウマ娘固有名詞
プロンプトに記載されていないウマ娘キャラクターや関連する名詞(例:「スペシャルウィーク」「トゥインクルシリーズ」「トレセン学園」など)を含むグループ。
プロンプトと結びついた学習データの応用の傾向、新しく言及されたキャラクターがあればナレッジのカットオフについても示唆する。
11/24、10時現在のウマ娘固有名詞の使用頻度は0.002910。
前日と比べ+0.000756。
直近一週間の平均は0.002371。
[ウマ娘固有名詞グラフ]
# リアル競馬関係者
(例:「馬主」「ジョッキー」「騎手」など)を含むグループである。
競馬関係者であるがウマ娘コンテンツに登場しない。
回答のバラエティでリアル化の傾向が強いと登場する。
ウマ娘に騎手が騎乗する等の回答が生成される場合もあり、論理的に破綻した回答である可能性を示唆する。
11/24、10時現在のリアル競馬関係者の使用頻度は0.000045。
前日と比べ-0.000109。
直近一週間の平均は0.000055。
[リアル競馬関係者グラフ]