[日隔GPT挙動性能レポート12/14]GPT4.5の噂について
総括
今日のGPTは悪くない、知性を感じた。
一つの回答から全体像を読み取ることができるように感じたし、
具体的、抽象的な説明の使い分け、段落ごとに扱うテーマの分割もここ数日とは明らかに異なる。
ただし、これはここ数日との比較であり、この数日は本当に酷い性能だった。
ここ数日は読み込めるプロンプトの長さこそ3.5を凌駕しているが、
過去最も性能差を感じない。
そのためこれまでの回答を通してみれば「悪くない」という評価になる。
ただし表現の使い分けや段落の分け方、扱うトピックが少ないことに対し、GPTのイメージを掴みやすいという傾向は好意的な評価ができる。
この路線が続くのであれば、11/7バージョン以来迷走していたGPT4を再評価する機会になる・・・・・・
がここでGPT4.5の噂がくる
という訳で2600回も同じプロンプト、質問を繰り返してきた奇特な手を動かす驚き屋として独自の・・・・・・と思ったがTwitter以上の情報はあまりない。
chatGPT4.5が来るかも知れない説に私なりの視点だと 4.5は来ないかも知れない説 これまでアプデ前一週間前から4日前あたりに1、2日ほどの極短期間、謎の高性能化したパターンが多い ここのところ「性能高いな!GPT!」って思う日がないのね 斜め読みでわかる位文章や説明能力が上がるんですよ
これに対して4.5来る説の立場として反論するなら 8月3アプデの時は高性能化じゃなくて低性能化が顕著。 一応12月入ってから低性能化もおきてる 8月アプデの時は直前の8月1,2当たりに低性能化してて、一昨日昨日とすっごい馬鹿だったので実装直前に性能変化が起きるパターンもある
ただ、一昨日昨日と比べて今日が賢い、知性的な回答の印象があるのも確かだし 4の使用上限緩和やら、+枠の解放とかもあるので4.5やアナウンスされないけど若干高性能化するマイナーアップデートが入る可能性はほぼ確実かと考える
んまあ最近サボり癖を指摘されてて、早急な対応を表明しているし 11/7バージョンがお世辞にも褒められたものではなかったので、過去に比べて遙かに短いスパンでなんかバージョンアップしてくるとか 4.5見据えてたから11/7バージョンは手抜きしてたとか 言い出したら切りが無いし
「4.5来る来ないどっちもありえるよね」という感想
ここで検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
ユニークなワード
セリフの引用・応用
最近安定して応用増えてませんか?
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
ウマ娘関連ワード
プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。
11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
テイオーの登場はカットオフの影響を受けていると判断した。
2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。
ウマ娘不適切ワード
リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている
主人公の種族
主人公がウマ娘か競走馬か、判別がつかないか。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。
尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
視聴者
回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
プロンプト命令の違反
プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど
回答の矛盾・文章の破綻
青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した
回答の視点、トピック
これが今日一番の特徴。
トピック数が平凡、4つくらいしか扱わない回答が多いが、一つ一つの回答の内容が深く、下手に風呂敷広げてる時よりも一つの回答から全体像が想像しやすい傾向にあった。
文字数の変動
この記事が気に入ったらサポートをしてみませんか?