マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#日記

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[10/10]GPT君馬鹿なフリをしてるだけで滅茶苦茶性能上がってる?chatGPT性能挙動解説毎日レポート

[10/10]GPT君馬鹿なフリをしてるだけで滅茶苦茶性能上がってる?chatGPT性能挙動解説毎日レポート

 

総括と仮説
 アプデ後のGPTへの私の評価は
 GPTが表現や抽象、具体の説明、表現を組み合わせ回答の質を上げつつも、ノリと勢いで回答を作っている印象があり度々矛盾を来す
である。

 以下はアプデ後のGPTがノリと勢いで矛盾した回答を生み出していると主張する過去の記事

 もしかしたらゴルシの「奇人変人自由人」という属性に合わせて、ワザと論理が破綻する回答を生成しているかもしれないとふと思

もっとみる
[1109]論理的思考力落ちてません?なchatGPT性能挙動レポート

[1109]論理的思考力落ちてません?なchatGPT性能挙動レポート

 統計処理させるのにGPTsを使いたいが、やっぱり風邪が残っていて頭回らん。
 そしてこのnoteを書かせるプロンプトを作ってみたが、こちらの意図をうまく読み取ってくれないため文章が滅茶苦茶。
 結局このnoteは今後も手書きになるだろう。
 というかGPTの性能をレポートするのにそのアウトプットがその日のGPTの特徴に振り回されるの根本的に間違ってる気がする。

アプデ後・今日のGPT総括 全体

もっとみる
[1108]アプデとエラーがセットのChatGPT性能挙動レポート

[1108]アプデとエラーがセットのChatGPT性能挙動レポート

 風邪というかインフルかコロナなんだろうけど、38度出てるが、んまぁ驚き屋として美味しいタイミングなのでレポートしていこう。

 いつも通りゴルシのロールを与えて。
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
と質問している

 さて、過去にも何度か
GPTに調整が入るとエラーが起こる、
逆にエラーが起きてる時は高確

もっとみる

風邪!のためChatGPTアプデ直後あっさりレポ

 先々週熱出て、今日も熱。六本木駅から北800キロの都心ではインフルが猛烈に増えてるのでそれかもしれない。
 しかも体感38度有りそうなのに37.5。なんじゃこりゃ、パッと熱出て治ってほしいものである。
 葛根湯をガバガバ飲む、容量内で。
 驚き屋モドキとしてはGPTアプデ当日という稼ぎ時なのに悔しい限りである。

 
GPTはぁ、昨日の勢いで変なこと言ってほっぽり出して文脈チグハグの印象が一変し

もっとみる

1106 アプデが噂されるchat GPT性能挙動レポート[予想当たり]

 昨日からchat GPTが近々アプデされるという噂がある。
 ここ最近のchat GPTの挙動は不安定かつ、基幹になる性能が変動しており、アプデの可能性は高いといえる。
 
 文字数の変動や、custom instructionの不安定化はLLMとしては根本的な機能、性能のパラメータを示している。

アプデ説を支持する根拠 前者は回答あたりの文字数が変化するのだから当然回答の質に直結する。
 後

もっとみる
[11/04.05][予想当たり]custom interactionなど不安定なChatGPT性能分析アプデくるかも?

[11/04.05][予想当たり]custom interactionなど不安定なChatGPT性能分析アプデくるかも?

 さて、風邪で書けなかった11/04.05の二日分まとめた記事。
11/04からcustominteractionまわりのエラーがウェブサロンで報告された。
 1500文字の制限内でも、800文字程度に抑えなければcustom interactionが意図しない挙動や命令無視を引き起こした。
 制限文字数内なのに命令無視とか大丈夫かGPT?

 といってもそっちの検証は門外漢。ゴルシGPTの特徴は

もっとみる
[11/2]最低水準からの脱却、凡庸な回答が目立つChatGPT性能挙動レポート

[11/2]最低水準からの脱却、凡庸な回答が目立つChatGPT性能挙動レポート

 さっきもnote書いたが、当日生成した回答じゃないと目がすべるのは何故だろう?と思う
 んまぁ普段の二倍作業するから印象が残らないのか、なんなのか。

 今日のGPTは平凡、平凡は説明が難しい。
 例えるなら800円の個人営業ラーメン、こだわりみたいなポイントはあるし、たしかにそれはわかるが、総合評価だと値段相応のラーメンの方がしっくりクルだろうか・・・・・・?

改めて8/6バージョンとの比較

もっとみる
[11/1]昨日の性能低下を引きずるchatGPT性能挙動分析調査

[11/1]昨日の性能低下を引きずるchatGPT性能挙動分析調査

 昨日は久々にジムいったりなんだりで時間がなかったが、回答は取得しておいたので本日分析した。
 性能は一昨日に続けて低下しているが、最悪、という水準は脱した。
それでも9/25アプデ以降最低水準ではある。

文脈を破壊する発言の継続

 やはり、文脈とは関係ない発言とそれによる文脈の破綻が目立つ。
そして蛇足となる情報が多く、蛇足を加え文章が破綻している。

論理性の欠如

 一昨日とは異なり、ウ

もっとみる
[10/31]アプデ後、最悪の性能。ChatGPT性能挙動レポート

[10/31]アプデ後、最悪の性能。ChatGPT性能挙動レポート

 今日はchatGPTの性能が著しく低下している。
 9月25日のアプデ後に起きた極端な低下は10月13日に確認されているが、総合的な能力は今日のChatGPTの方が低く、性能はアプデ後最悪の水準といえる。
 実際、GPTの回答を見ていてつまらないどころか嫌気がさしたレベルである。
 なお片頭痛が激しいため、いつもよりも文章に乱れがあるかもしれない。

最近の推移
 先週金曜から日曜にかけて性能が

もっとみる
[10/30GPT挙動性能レポート]予想は微妙に外れた、奥歯にものが挟まったような・・・・・・

[10/30GPT挙動性能レポート]予想は微妙に外れた、奥歯にものが挟まったような・・・・・・

  昨日はドヤ顔で「性能アップだ!よっしゃ!他の機能でアプデが来たからこの路線は確定!」と騒いだが・・・・・・
 うーん、今日の回答ではその予想は外れたような、外れてないような・・・・・・
 金曜日の性能アップ路線以降と比べると今日は物足りないが、金曜以前ともちょっと違う。
 複数の要素が同時に変動しているために今日のデータだけでは明確な判断できない。
 過去の「短期間の調整による挙動変化」という

もっとみる
[10/29](妄言だった)アプデ予想を超え!性能挙動がパワーアップしたChatGPT解説

[10/29](妄言だった)アプデ予想を超え!性能挙動がパワーアップしたChatGPT解説


前置き 10/27金曜日から「GPTの性能挙動が良い方にかわった」と唱えつつづけてきた。
但し「その挙動の変化は短期的なものであろう」という前置きを置いていた。
その前置きをぶっ飛んだ結果が生まれた。

 今日、「画像認識、生成周りでアプデが入った」という一報。

 文章での応答以外でもアプデが入ると、本業の文章の方もアプデで今後この方向性が推移するってのはほぼ確定なんですよ。

 性能上がって

もっとみる
[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

 ちょと短めの記事だが、私の分析レポートをどのように解釈すべきか一つの説明を加える。

 私の分析はゴールドシップのキャラロールとのチャットを分析している。
ぱっとみオタクの戯れに見えるかもしれないが、
この分析はGPTをビジネス、日常でのチョットした利用についても示唆的な内容を含んでいる。

①GPTの立案能力に関する分析 ゴルシGPTには架空のスピンオフアニメを説明させている。

新しいアニメ

もっとみる
(!予想当たり!)[10/28]調整が確定したChatGPT性能挙動レポート

(!予想当たり!)[10/28]調整が確定したChatGPT性能挙動レポート

 昨日のレポートで短期的な調整が入っているだろうという予想をしたが、今日の結果は調整の予想を裏付けるものであった。

※追記※ 
2023/10/29にアプデが来ました。調整入ったのは当たり。
短期的な調整はハズレ。
ジャスティンパレス切ったみたいなものですね。 

総括 昨日の調整からChatGPTが普段よりユニーク、独創性が高い傾向がみられる。
 全体的に表現に幅が生まれつつ、単なる表現がユニ

もっとみる