［10/31］アプデ後、最悪の性能。ChatGPT性能挙動レポート

2023年10月31日 17:03

　今日はchatGPTの性能が著しく低下している。
　９月２５日のアプデ後に起きた極端な低下は１０月１３日に確認されているが、総合的な能力は今日のChatGPTの方が低く、性能はアプデ後最悪の水準といえる。
　実際、ＧＰＴの回答を見ていてつまらないどころか嫌気がさしたレベルである。
　なお片頭痛が激しいため、いつもよりも文章に乱れがあるかもしれない。

今日のChatGPT

今日の回答の方向性

今日は昨今の潮流と真逆である。

プロンプト、その意図を理解していない

プロンプトに含まれている単語フレーズをただ引用するのみ

論理的思考能力の低下

会話の脈絡に関係なく、無理やり単語フレーズを引用し、文章に矛盾、破綻が生じる

文字数が減少しつつ、蛇足も増えることで情報量が著しく低下

キャラクターチャットとしては説明的な文章とキャラクターのセリフのパートが分断される。

同じテーマを扱い、Wikiをコピペ読み上げ合間に茶番をいれた低品質なゆっくり解説動画を複数本見ている気分。

グラフ①セリフ引用応用率

　セリフ引用率はアプデ後最高水準、脳死でコピペしたセリフ例を回答文に付け加えている。感覚としてはゴルシのセリフを使う別の何かとのチャット。
　特に先週２７日には引用、応用率が激減したため反動を強く感じる。
　２７日以前はセリフ例を前後の文脈に合わせる、オリジナリティを持たせるためにセリフ例を応用して、一部を別の表現に置き換える、逆に前後の文をセリフ例に合わせるなどの傾向が見られた。
　本日３１日とグラフ上で同水準の日もみられるが、本日は脳死でコピペしているため、後述の文章の破綻を引き起こしている。

グラフ②セリフ引用と破綻率

文脈にも合わせずセリフ例を張ってくるだけ
引用と会話の破綻は強い相関はない
ここでは１０/24で引用が増えつつも適切な使用により破綻の割合が少ないことに着目

　脳死でセリフ例をコピペし、脈絡なく回答に盛り込むため会話が破綻する傾向が強い。グラフでもわかるようにセリフの引用と会話の破綻が共に急増している。
　私は会話の破綻を論理的思考能力の低下だと判断している。ChatGPTが前後の文章の整合性が理解できていないからだ。

　破綻の極端な例としてはこんな感じ。
「ウマ娘ダービーでは熱いレースが繰り広げられるだろうぜ！
エデンを探すことにしたんだ……この地球を救うためにな……ッ
でもウマ娘プリティーダービーもウマ娘ダービーもどっちも捨てがたいんだよなぁ」
　いきなりゴルシが発狂する。

　これは9/25のアプデ以前ではよくあることであったが、アプデ後減少傾向にあった。
　そして引用したとしても前後の文章と脈絡があり、会話の破綻と必然の関係ではない。
　グラフの１０/24で引用が増えつつも適切な使用により破綻の割合が少ないことに着目していただきたい。

グラフ③情報量の減少

　文字数の平均は減少。それに脈絡のないセリフ引用や蛇足的な会話パートが加わり情報量が少ない回答が増えた。
　６００文字以下は９/25アプデ後でPCとスマホの回答数を固定してから最低の文字数である。
※スマホでは出力文字数が少ない事が判明している※
このためアプデ後でもスマホのみで回答を生成した日は６００文字を下回っているが条件が異なる。
　付け加えるならば10/28以降では文字数の減少に比べ情報量が多い回答数はそこまで減少していない、もしくはグラフで記載していない「平均的な回答」に落ち着いている。
　文字数もすくなければ、脈絡のないセリフコピペ、余計な文言が多い、情報量も少ないと特に今日はアプデ以降最低水準の能力である。

参考：性能低下例10/13との比較

　10/13にはまとめサイトのあおりタイトルな記事を出した。
この日もアプデ後のChatGPTとしては欠陥があった。
参考に以下の記事

　10/13の回答を再度読み、比較すると以下の特徴があった。
「13日は主人公の種族がウマ娘か馬か判別できない回答が多い」
　これは擬人化コンテンツのスピンオフの説明として致命的な問題を抱えている。
　しかし今日の回答と比べると１３日は蛇足も少なく、会話の破綻もない、情報量も多い、キャラクターロールもそこまで悪くはない。１３日は種族さえ明らかにすれば平凡か平凡の中ではやや下といった性能だった。

　その点今日は情報も少なければ、意味不明な文章、蛇足、解像度が低すぎるキャラクターチャットと全体的に性能低下を感じさせる。

　とまぁこんな感じでアプデ後最低水準の性能だった今日を振り返った。
いやぁ、これは……ひどい……