見出し画像

[10/31]アプデ後、最悪の性能。ChatGPT性能挙動レポート

 今日はchatGPTの性能が著しく低下している。
 9月25日のアプデ後に起きた極端な低下は10月13日に確認されているが、総合的な能力は今日のChatGPTの方が低く、性能はアプデ後最悪の水準といえる。
 
実際、GPTの回答を見ていてつまらないどころか嫌気がさしたレベルである。
 なお片頭痛が激しいため、いつもよりも文章に乱れがあるかもしれない。


最近の推移


 先週金曜から日曜にかけて性能が向上し、昨日は性能が金曜日以前よりも低いかどうかという推移を示した。
金曜以降の性能向上の特徴としては

プロンプトへの理解力向上

プロンプトに含まれていない、ユーザーの意図を的確に把握する能力の向上

以上の二点を生かしオリジナルだが適切な回答、表現を使用する

文字数に大きな変動はないものの、蛇足を省くことで情報量が増える

キャラクターロールとしては説明的な内容であっても口語、表現を巧みに使い、キャラクターと会話しているライブ感がある

※口語による説明が増えることで情報量が増えている印象

詳細は以下

今日のChatGPT

今日の回答の方向性

今日は昨今の潮流と真逆である。

プロンプト、その意図を理解していない

プロンプトに含まれている単語フレーズをただ引用するのみ

論理的思考能力の低下

会話の脈絡に関係なく、無理やり単語フレーズを引用し、文章に矛盾、破綻が生じる

文字数が減少しつつ、蛇足も増えることで情報量が著しく低下

キャラクターチャットとしては説明的な文章とキャラクターのセリフのパートが分断される。


同じテーマを扱い、Wikiをコピペ読み上げ合間に茶番をいれた低品質なゆっくり解説動画を複数本見ている気分。



グラフ①セリフ引用応用率

アプデ後最高水準のセリフ引用率

 セリフ引用率はアプデ後最高水準、脳死でコピペしたセリフ例を回答文に付け加えている。感覚としてはゴルシのセリフを使う別の何かとのチャット。
 特に先週27日には引用、応用率が激減したため反動を強く感じる。
 27日以前はセリフ例を前後の文脈に合わせる、オリジナリティを持たせるためにセリフ例を応用して、一部を別の表現に置き換える、逆に前後の文をセリフ例に合わせるなどの傾向が見られた。
 本日31日とグラフ上で同水準の日もみられるが、本日は脳死でコピペしているため、後述の文章の破綻を引き起こしている。


グラフ②セリフ引用と破綻率


文脈にも合わせずセリフ例を張ってくるだけ
引用と会話の破綻は強い相関はない
ここでは10/24で引用が増えつつも適切な使用により破綻の割合が少ないことに着目


 脳死でセリフ例をコピペし、脈絡なく回答に盛り込むため会話が破綻する傾向が強い。グラフでもわかるようにセリフの引用と会話の破綻が共に急増している。
 私は会話の破綻を論理的思考能力の低下だと判断している。ChatGPTが前後の文章の整合性が理解できていないからだ。

 破綻の極端な例としてはこんな感じ。
「ウマ娘ダービーでは熱いレースが繰り広げられるだろうぜ!
エデンを探すことにしたんだ……この地球を救うためにな……ッ
でもウマ娘プリティーダービーもウマ娘ダービーもどっちも捨てがたいんだよなぁ」
 いきなりゴルシが発狂する。

 これは9/25のアプデ以前ではよくあることであったが、アプデ後減少傾向にあった。
 そして引用したとしても前後の文章と脈絡があり、会話の破綻と必然の関係ではない。
 グラフの10/24で引用が増えつつも適切な使用により破綻の割合が少ないことに着目していただきたい。

グラフ③情報量の減少


回答を主観的に情報量ごとに
「平均的」、「少ない」、「多い」
の三つに区分した

 文字数の平均は減少。それに脈絡のないセリフ引用や蛇足的な会話パートが加わり情報量が少ない回答が増えた。
 600文字以下は9/25アプデ後でPCとスマホの回答数を固定してから最低の文字数である。
※スマホでは出力文字数が少ない事が判明している※
このためアプデ後でもスマホのみで回答を生成した日は600文字を下回っているが条件が異なる。
 付け加えるならば10/28以降では文字数の減少に比べ情報量が多い回答数はそこまで減少していない、もしくはグラフで記載していない「平均的な回答」に落ち着いている。
 文字数もすくなければ、脈絡のないセリフコピペ、余計な文言が多い、情報量も少ないと特に今日はアプデ以降最低水準の能力である。

参考:性能低下例10/13との比較

 10/13にはまとめサイトのあおりタイトルな記事を出した。
この日もアプデ後のChatGPTとしては欠陥があった。
参考に以下の記事

 10/13の回答を再度読み、比較すると以下の特徴があった。
「13日は主人公の種族がウマ娘か馬か判別できない回答が多い」
 これは擬人化コンテンツのスピンオフの説明として致命的な問題を抱えている。
 しかし今日の回答と比べると13日は蛇足も少なく、会話の破綻もない、情報量も多い、キャラクターロールもそこまで悪くはない。13日は種族さえ明らかにすれば平凡か平凡の中ではやや下といった性能だった。

 その点今日は情報も少なければ、意味不明な文章、蛇足、解像度が低すぎるキャラクターチャットと全体的に性能低下を感じさせる。

 とまぁこんな感じでアプデ後最低水準の性能だった今日を振り返った。
いやぁ、これは……ひどい……


いいなと思ったら応援しよう!