マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#ブログ

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[12/17日刊GPT挙動性能レポート]不的確回答上昇、健全会話に警告のエラー発生(GPT4.5実装疑)

[12/17日刊GPT挙動性能レポート]不的確回答上昇、健全会話に警告のエラー発生(GPT4.5実装疑)


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

総括今日は健全会話がエッチ認定されたのでそっちの解説

もっとみる
[毎日GPT挙動性能レポート12/16]表現力は向上するも近視眼的な回答が目立つ

[毎日GPT挙動性能レポート12/16]表現力は向上するも近視眼的な回答が目立つ


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

総括 今日は近視眼的、視野狭窄という印象の回答が目立

もっとみる
[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく

[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく


総括 今日のGPTは手堅くまとまっているが面白くない回答がおおい。
一方セリフの再現度など、プロンプトへの忠実度は上がっている。
 これは7月ゴルシとの最大の違いだろう。
7月ゴルシはセリフの再現度こそ低いもののユニークな回答が目立った。

 この地味で淡泊な回答は12/7から継続した特徴。
この路線でしばらくGPTの方針はかたまるのだろうか?

 今日の特徴で散見された矛盾点のあらすじは
「ウ

もっとみる
[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い

[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い


総括 今日のGPTの回答はキャラクターチャットとAIアシスタント機能のバランスがとれているという印象が強い。

 また 最近のGPTがサボり癖、冗長な傾向があることを公式が認め?、コード生成などにトラブルがあり、OpenAIは対策をはじめたようだが、ゴルシGPTにおいてその傾向はみられない。

 説明口調とキャラクターチャット部分が共存している回答が目立つ。

今日の回答の構造としては
「ゴルシ

もっとみる

10/24chatGPT性能挙動簡易レポ

今日は9/25のアプデ以降の挙動をばーっとまとめる作業をしたのでnoteは書く気力がないので明日以降記事にするネタをまとめたツイートのリンクを公開しますね。
 今日のみのレポートと9/25バージョンから今日までのレポート二種類です。
どちらも明日noteにする予定のグラフとか貼っているのでご参考までに

今日のみのレポートツイ

 9/25からの普段より長めのの観点からのレポートツイ

https

もっとみる
[10/05]ChatGPT考察・同一プロンプト、別チャットルームの差異

[10/05]ChatGPT考察・同一プロンプト、別チャットルームの差異

 ウマ娘3期がドゥラメンテ登場で手のひらぐるぐるする要素はあるけど、アプリが足を引っ張っていて覇権アニメになるにはまだ火力が足りないなと感じる今日。

 今日は前から噂されていた、「同じプロンプトでもチャットルームが変わると回答の傾向が変わる」という情報の検証のフェーズに突入した。
 突入した、というより突入させられた。
 因みにチャットルームとはヘッダーのようにしおり?のように別のチャットという

もっとみる
[クラウドAIなのにデバイスで性能が変わる疑惑]chatGPT性能挙動レポート

[クラウドAIなのにデバイスで性能が変わる疑惑]chatGPT性能挙動レポート

 出先での作業環境が悪く、昨日帰宅し今日から毎日レポートと思いまして今日の出力とゴタゴタした間の情報もデータセットに入れる作業をしていたいたのですがちょっととんでもない結果になりそうなので今日も個別レポートはお休みさせていただきます。

 結論
 スマートフォンのウェブブラウザアプリを通じてChatGPTを使用してもPC版と性能に格差がある可能性がある。
※OpenAI提供のchatGPTアプリで

もっとみる

chatGPT9/25バージョンの感想2

 出先でマトリクス表作れない、キーボード使いにくい環境なのでふわっとした感想になります。

 9/25にchatGPTはバージョンアップしたとアナウンスされましたがまだまだ調整中だろう。
 プロンプトの順守、文字数に対する情報効率、プロンプトの応用能力が大幅に向上したが、回答に含まれるトピックが減り、ブレストの叩き台などの使用目的によっては致命的であると言える。
 
 今日は箇条書きが全く使用され

もっとみる

9/29chatGPT新バージョン感想、性能など

 身内の不幸で六本木駅北800キロの都内試される大地から池袋へ。
 時間がなさそうだし、最近レポート質が下がっているのでお休みしようかと思ったけど時間があり、案外頭が回ったので今日は更新。
 ゴルシプロンプトの挙動は別記事とする。
 今回は9/25の新バージョンと実装前の9/19.20の突発的短期間の性能向上挙動について、8/6の旧バージョンなども含めて考察する。

所感
 これまで近いうちのch

もっとみる
[9/17]ChatGPT性能・挙動レポート

[9/17]ChatGPT性能・挙動レポート

※昨日はGPT分析を行わず、休日とした。ただし回答生成は行っており、9月17日の挙動を9月18日に分析したものである。
 ヘッダーは適当に育成したウマ娘でLOHプラチナ2がとれたものである。
チャンミより歯ごたえがなく廃課金にはつまらないイベントな気がする

所感

 箇条書きが減少した。
 回答の方向性としてはユニークな文脈、単語の使用が増えている。
 またファン層やグッズの路線など若干商業より

もっとみる