見出し画像

[日隔GPT挙動性能レポート12/12]バカで思慮が浅い。アプデ後最高にバカなchatGPT


総括

 今日のchatGPTは酷い、回答内容の質、基礎と応用ともに表現の質が低 い。
 私は11月アプデの特徴を「ノリと勢い」と表現しているが、この特徴の悪い側面が強く出た。
 日本語は変だし、類語、同義語どころか同語の繰り返し使用、
回答の本筋からの逸脱。

 しかも日本語は変になってるのにユニークさ面白みが一切ない。
過去の回答で日本語が変な時って大体クセのあるいちもつを腹に抱えてそうなのだが、それがない。
 バカで思慮が浅い。

 現在進めている過去2000個以上の回答を丁寧に評価する作業で7月の回答と8月7日のアプデ後、現在のGPTを比較している。
 
 やはり、どう見ても、明確に7月のGPTの方が丁寧な回答を心がけている。
 異なるトピックでも一貫性を持たせる説明がある。
 それは一見矛盾する内容でも、その内容を盛り込んだ理由などを丁寧に回答している。
 脈絡が繋がっているので質問側が行間を読み解くことも可能だ。

 それに対し8月7日の回答は箇条書きであり、回答に深みがない。
全体の脈絡が見いだせず、突然話題が変化する。
酷い場合回答の趣旨が見いだせない、ということが散見された。
  
 23/12現在のGPTも8月アプデ後の箇条書きチックという文章構造を継承している。

 

 これに今日に関してはグラフ表記はあまり意味をなさないので省略する。

検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例

過去のレポート

このレポートシリーズの読み解き方

変な回答のスクショ

 今日はこの項目で十分なくらいだ。
 まずは15個の回答で矛盾、表現に問題があった回答の割合は50%近くまで昇った。

格闘ぶり???

 スポーツ選手の格闘ぶりとはなにか?
 カワカミプリンセスか?
 近接得物持ちのグラスワンダー、ライスシャワー、エイシンフラッシュ、
ロブロイ、錨のゴルシか?

低身長巨乳は守備範囲外なので、ロブロイはちょっと違うんです。

キャラクター達はもう馬耳東風なんだ???

 多分「ウマ耳」を盛り込もうとしたら、馬耳
そっから馬耳東風をなんも考えないで出力した

 この回答では別にウマ娘が人の話を聞かないといった特徴はなかったので、表現内容ともに矛盾が生じている

ライバルとのライバリー

 矛盾でもないし、意味もわかる、ライバリーという言葉もこれまで普通に使ってきたのであるが。
 ライバルとのライバリーって表現が気に食わない、バカである。

グリップのある展開???

 うーん、gripは「聴衆を惹きつける」という文脈でも使われるらしいが、
カタカナ英語をそのままお出ししてくる時は言い回し、
表現力や回答内容に問題がある傾向の時に見受けられる。

 という訳でこれも問題のある回答にカウント

文章の問題1

 どんなにすばらしいか、そのままで十分魅力的
うーん・・・・・・言いたい事はわかるが表現に問題あり

文章の問題2

 実際に作られたら~想像してくれ。
実際に作られたとして~想像してくれは意味が通じる。
しかし、作られたら~想像してくれは表現に問題がある。

ウマ娘はただの人間・種族混合

 「ウマ娘はただの人間」と根本的な誤解が根底にある回答

 その後競走馬であると明言した後に、ジョッキーの装備をつけるという意味不明な展開

リアル連呼

 短い文章内でリアルを連呼するため、情報量、読み解ける内容がかなり薄い。
 文章全体で一貫してリアルという表現を使うのであれば軸であることがわかるが、その使用される範囲は限定的でありこれも強いマイナス評価

ドロドロの努力

 言いたい事はわかる。
ただし、「ドロドロになるまで努力」ならわかるが
「ドロドロの努力」は表現に問題があると言えるだろう。
 
「ライバルに精神攻撃をする」
「食事に規制対象のドーピング剤を盛る」はドロドロの努力だろうが。

文字数の変動



 

 12月入ってあからさまに文字数が減っている。

ユニークなワード



セリフの引用・応用

 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

ウマ娘関連ワード


プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。

 11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
 
 テイオーの登場はカットオフの影響を受けていると判断した。
 2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。

ウマ娘不適切ワード


リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている

主人公の種族




 主人公がウマ娘か競走馬か、判別がつかないか。
 元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
 種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。

 尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
 ただし、データ不足故、グラフにすると混同が0の割合が高いため
 現時点では細分化したグラフではない

ヒトミミ登場率


 架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。


視聴者


 回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
 視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。

プロンプト命令の違反


プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど

回答の矛盾・文章の破綻


青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した

回答の視点、トピック


回答で「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」など
アニメの要素の視点、トピックのバラエティー


文字数の変動


この記事が気に入ったらサポートをしてみませんか?