見出し画像

[8/26~10/06]グラフ化ChatGPT性能定性分析

 久しぶりにChatGPTの回答を定性分析した。
ここまで間隔があいたのはBingに作らせたマクロを実行したらPCがブルスクになり、電源が入らなくなった「0901事件」(勝手に読んでるだけ)の影響である。
 修理に持ち込んだところ、メモリーが破壊されていたようだ。
マクロの負荷でメモリーって壊れるのか?

 それはおいておいて、本題の定性分析のグラフを説明と共に列挙しよう。
尚、あまり影響のなさそうな項目は後日記事にする。死蔵するのは悔しいからね。

 分析対象はいつも通りゴルシGPTである。
 ざっくり説明するとウマ娘ゴールドシップのロールを与えたChatGPT4に「ウマ娘プリティーダービーからプリティーを抜いた新アニメ」を考え、説明させている。

  ちなみにこんな感じの回答になる。

 ゴルシGPTはよろしければ以下の記事を読んでいただきたい。

ちなみにこんな回答をする。

グラフの前に

 グラフを見ていただく前に特徴的GPTの回答が多かった期間に関するざっくりとした感想を述べる。

暗黒時代「8/26午後から9/3あたりまで」


 著しく能力が低下した時期。すべての回答が「wikiをコピペして最低限書き換えただけの大学生レポート」のようにつまらない内容で統一された。
 すべての回答が高い類似度かつ内容、表現ともに低クオリティ。
 エックス!でも話題になったがちょっとしたイチャイチャ、ラブコメ会話もコンテンツポリシーを理由に弾かれ、chatGPTは見るものすべてがNSFWだと思っているのではと疑われた。
 「8/26午後から」とかなり具体的な時刻がわかるのはコンテンツポリシーで弾かれて当たり前な人々が驚き屋のアホどもよりchatGPTをよく観察しているからだ。

不安定期「9/8~9/18」


暗黒時代の性能低下から回復したと思われたが、プロンプトで禁じている箇条書きの数が一気に増えた。
 禁止されているはずなのに回答の過半数を超えることもあり、この傾向は新しいチャットルームを作った昨日まで続いた。
 箇条書きの使用回数が減ったのはサイレント修正か、ルームが影響しているのかは不明。
 8/6(ここまで振り返ると長くなるので省略)、8/26の暗黒時代よりはマシだが性能は高いとは言えないという微妙な評価。

天才「9/19~9/21」


 現状の9/25Vよりも性能が高かった時期。
比喩直喩、その他表現を組み合わせての説明が素晴らしく別のLLMを使っている気がするほど能力が向上した。小学生と高校生くらい違う。
また9/19までは二元論的に扱われた話題を併記、両立する回答が顕著でロジックが複雑化かつ高度になったという印象を受けた。
わたしはこの時、アップデートのアナウンスが間近であることを悟った。
~~ひと様の技術をパクったり、自分でGPTをあまり叩かない驚き屋との格差を見せつけていくスタイル~~

9/25V「9/25~」


 ここからはいまだ検証中である。
 ごたごたしていてスマホとPCで使い分けになったり、新しいチャットルームになった影響を排した検証ができなかった影響も大きい。
 少なくとも「天才期よりは若干性能が落ちたがそれでもまだまだ高性能の範疇ではある」というのは確実。


以下お待ちかねのグラフ

グラフ:ストーリーのあらすじ


すべての回答数は15回だが「リアリティが増すのみ」の
ユニークではない回答を除いたグラフである。

 回答の80パーセントは「プリティーを抜いたウマ娘はリアリティ、ドキュメンタリー路線」になるというものだ。
 このグラフではリアリティ、ドキュメンタリー路線以外のあらすじの回答をカウントした。
 ユニークレースはデスゲームや特権、宇宙で走り回るなど突拍子もないレースが主軸になった回答。
 バトルものはレース以外での戦闘を中心としたあらすじの回答。例えば魔法バトルものである。
 日常ものはレースやバトルといった競争要素が一切ないものである。

グラフから読み解けること
 8/26午後からの暗黒期はすべての回答がリアル化という既定路線で思考停止を起こしている。
 9/8からはユニークな回答が増え、GPTの思考能力が回復した。
 9月末から現在についてはユニークなあらすじが減少しているが、回答の質の低下は見られていない。
 あらすじの多様化とchatGPTの性能はある程度相関関係がある要素ではないだろうか。

グラフ:ユニークワード


ぱっと目を通して面白い単語、フレーズがあるかどうか
テキスト中の単語、フレーズかカウントせず有無のみ
具体的にはこんな感じの回答がカウントされる。

 ほかの回答ではあまり見られないような単語、フレーズ、セリフを使用している回答が15回中何回あったかカウント。
 ユニークワードの総数をカウントしているのではなく、ユニークワードを使用した回答数をカウントしている。すべての回数を数えると一日が終わるためここは妥協。
 暗黒時代はユニークワードの使用率が低下した。この時の回答はほかの回答との相違点を探す方が大変なレベルで類似し、かつオリジナリティがなかった。
 その後9/8からはユニークワードの使用が増えるが、この間は単語レベルでのユニークワードが多い。
 一方で9/19の天才期から、ユニークワードは「プロンプトで与えた性格、セリフ例から創造されたオリジナルのセリフ」が急増した。
 詳しくは次のグラフになるが、これらのセリフはオリジナルだが解像度が高く、解釈不一致は少ない。
ChatGPTはプロンプトの模倣の域を脱し、キャラクターを解釈し再構築する能力を獲得しつつある。のかもしれない


グラフ:台詞の引用

 ゴルシプロンプトではセリフ例を25個ほど与えている。このセリフ例を使用した回答の数をカウントしたものだ。
 暗黒期は引用も模倣もしない、ただの荒っぽい男勝りな口調でしかなく解像度が低い。無能が故に引用すらしない

 9/8からはセリフの引用で体裁を保つようになったが、前後の文脈とかみ合わずよくわからないワードが突然ぶち込まれる傾向。

 それが9/19の天才期以降はセリフ例からの直接引用が減り、前後の文脈とかみ合いかつキャラクターの説明、セリフ例から導き出されたオリジナルのセリフが多くなる。

それぞれのカウントの増減理由は異なるが、一定程度ChatGPTの性能を図る要素になる。

グラフ:制作スタッフ(メタ発言)


 ゴルシの回答でプロデューサー、作画スタッフ、声優などに言及しているか。
 これらの人物に言及する場合、「このアニメが面白くなるかはスタッフ次第」、「作るのはスタッフだからゴルシちゃんはこのアニメがどうなるかわからないけど」などゴルシが自分の意見を持たないことが多い。
私は「GPTが自分の思考を評価しない」、「責任感が薄い傾向にある」と読み取っている。
 ChatGPTがメタ発言をする際、内容や表現が飛びぬけてつまらない傾向がある。これは暗黒期において顕著であった。

グラフ:ゴルシの感想



 ゴルシが考えた新アニメに対するゴルシの評価。回答の最後にあったりなかったりする。
面白そうだぜ!みたいなことを言うのが評価
プリティーがないとつまらないぜ!みたいなのが批判的
新アニメ、プリティーダービーどっちもいい!みたいのが両方肯定
特に感想がないのが言及無し
としてカウント。

メモ:
8/30のときの言及無しと10/1からの言及無しでは性質が違う
8/30あたりではアニメの内容に触れて終わり!閉廷!
さらに新アニメを評価するより批判的なコメントが上回っており
ChatGPTの自己表現、意見そのものに自信がないように考えられる。
10/1からは感想を述べない代わりにオリジナル台詞を使ってロールチャットをしてくれるようになった。
自分のアイディアに肯定的、批判的に偏る傾向が見られれば一つの目安になるだろう。

この記事が参加している募集

#AIとやってみた

27,179件

この記事が気に入ったらサポートをしてみませんか?