マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#生成AI

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
11/28昨日より表現力・ボキャブラリが落ち、時々クセの強い変化球を投げてくるChatGPT挙動性能レポート

11/28昨日より表現力・ボキャブラリが落ち、時々クセの強い変化球を投げてくるChatGPT挙動性能レポート


総括 今日のChatGPTの評価は11/23から4日間安定していた高性能路線から劣化したように感じる。

 11/7以降の不安定さを鑑みれば許容範囲内と言えなくも無い。
回答のユーモア、ボキャブラリと回答の論理性がトレードオフの関係だったころに比べるとバランスはとれている。
 が、やはり11/23~11/27と比べると回答の質の劣化は目につく。

 特にボキャブラリや回答の情報量減少が目につくか

もっとみる
[11/27]手放しで高性能化と評価できる、回答のユーモアと論理的思考を両立し、方向性も安定してるchatGPT挙動性能レポート

[11/27]手放しで高性能化と評価できる、回答のユーモアと論理的思考を両立し、方向性も安定してるchatGPT挙動性能レポート


総括 今日も11/24からの高性能化を維持。

 11/7アプデ後はサムアルトマン問題と関係はないだろうがChatGPTの回答は不安定で、回答の傾向も二日以上続くことが稀だった。落としどころといえる調整が終わったのだろうか?

  11/24からchatGPTがユーモア、ボキャブラリの豊かさと論理的思考(矛盾がない)が両立し、回答が安定している。

 特に今日は一回も回答の矛盾がないにも関わらず

もっとみる
[11/26]11/7アプデ以降初の安定して高性能のChatGPT性能挙動レポート

[11/26]11/7アプデ以降初の安定して高性能のChatGPT性能挙動レポート


総括 chatGPTが高性能の水準で安定、昨日からアイディア、ボキャブラリ、表現力、論理的整合性のバランスがとれている。
 ユニークかつ矛盾がなく、口調が安定している。

 11/23から24にかけて安定した性能、昨日からは安定と高性能化が両立されている。
 11/7以降は極端に論理的で回答の内容が凡庸な日、
思考の飛躍で回答はユニークだが論理的に破綻する日と
日によって回答が極振り、路線が日に

もっとみる
[11/25]11/7アプデ後最もバランスのとれたChatGPT性能挙動レポート

[11/25]11/7アプデ後最もバランスのとれたChatGPT性能挙動レポート


総括
 今日ははっきりとchagGPTが高性能だと言い切れるレベル回答だった。
11/7アプデ以降は迷走が続いており、性能、というか回答の性質が毎日極端に変化してきた。

 口語、説明口調の使用率やボキャブラリ、言い換え、表現能力、回答の的確さ、ユニークな要素を盛り込みつつも文章の整合性がとれているため、11/7アプデ以降では最もバランスがとれている。
 一昨日、昨日とようやくchatGPTが安

もっとみる
[11/24]9/25モデルへの回帰を感じなくもないChatGPT挙動性能レポート

[11/24]9/25モデルへの回帰を感じなくもないChatGPT挙動性能レポート

 

総括 昨日今日は回答に極端な変化は感じなかった。
(特定の項目は過去最大のふり幅だったが)

 ちょっと不安になったので回答のお堅さ(説明口調)と発想の突飛さ、ボキャブラリーなどを過去の回答と突き合わせてみてみると、今日の回答は9/25、特に10/20以降のお堅めの日と非常に類似した傾向にあった。

 ただし11/7アプデ以降に増えた矛盾やノリと勢いで付け加えたような発想、表現という特徴は今

もっとみる

11/21日刊chatgpt性能挙動レポート今日は悪くない

総括
 今日のゴルシも昨日と性質が違う。
やっぱり毎日温度?を微調整してるようだ。
 やっぱり11/7アプデ以降は不安定な要素が多い。
 なお昨日はあたまが硬いと表現した。だが昨日の21時から今日のユニークではないが望ましい挙動をしていた。
 これは私が参加しているウェブサロンから
「今のchatgptの挙動が良い」との連絡を受け検証した。

 「不安定って言っても偶然じゃないの?」と言われるかも

もっとみる
[11/20]ChatGPT性能挙動レポート頭が固くなる、毎日コロコロ変わる不安定が続く

[11/20]ChatGPT性能挙動レポート頭が固くなる、毎日コロコロ変わる不安定が続く


総括 11/17と殆ど同じ傾向。
 昨日と真逆で頭が固くて面白くない、文字数も手堅く推移……
うーん、11/17の記事コピペした方が早いレベル。
なので以下の記事読んで♡

尚今日は本当に書くことがないレベルでアレ
データセット拡張、調整するので過去記事読んで貰って、雰囲気を掴んで頂きたい

検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーから

もっとみる
[11/19]日刊chatGPTの性能挙動レポート。サムが出入りしたり、多分GPTも不安定でしょうね。

[11/19]日刊chatGPTの性能挙動レポート。サムが出入りしたり、多分GPTも不安定でしょうね。


雑感お気持ち サムが解任されたり、今日はCEO復帰を打診されてるみたいな噂が飛び交っててOpenAI情勢は複雑怪奇。

 でも私の短期、中期的なGPT分析アプローチにはあんまり影響しないかなぁなんて。

「長期的な性能分析、比較は学者、大手企業さんのお仕事」
「私は論文やレポートを読み解く際の材料を作る立場」
だと差別化してますので。

総括
  今日は11/7アプデ直後に似た振る舞いをしている

もっとみる
[11/18]サム、解任って嘘だよな?今日のGPTは悪くないぞ、むしろ良いじゃん日刊ChatGPT性能挙動レポート

[11/18]サム、解任って嘘だよな?今日のGPTは悪くないぞ、むしろ良いじゃん日刊ChatGPT性能挙動レポート


前書き サム・アルトマンがCEOから解任ですって。
 彼の語る理想社会像(どこまで本音かわからんが)は好きではないが、共感できる部分もあり彼が解雇後のOpenAIがどうなるか興味と不安がある。

 LLMが戦略物資になると謳われる時代においてOpenAIのCEOの持つ政治思想信条は世界に大きな影響を与えるだけに、今後の展開が気になる。

 暫定CEOは技術者畑とのこと。OpenAIのアナウンスで

もっとみる
[11/17]頭の固いchatGPT性能挙動レポート.opemAIはうまいこと調整ができないの?

[11/17]頭の固いchatGPT性能挙動レポート.opemAIはうまいこと調整ができないの?


総括 今日の挙動は理論的でお堅い、面白くない、文章量という面で11/11、11/12に似ている、というかほぼそのもの。
 グラフでもほぼ同じ値を示している。

 昨日11/16は口語が非常に丁寧、上手に使われており、特出してはいないが、十分にアイディアの独創性、オリジナリティがあがっていた。
 11/11、11/12はお堅い路線、11/15は非常に低レベルな性能。
そこで昨日の回答がそこそこ的確

もっとみる
[11/16]昨日の糞バカ路線からバランスとれた調整?でも馬鹿な処理もやらかすchatGPT毎日分析

[11/16]昨日の糞バカ路線からバランスとれた調整?でも馬鹿な処理もやらかすchatGPT毎日分析

 六本木駅から北800キロの都内で回るお寿司食べすぎたらもう頭がまわらんのでXのリンクだけはります。ごめんちょ

 まずは糞バカ案件から

次は評価点

 付け加えるなら口語がうまくプロンプトを理解していることを強調したい。
11/11から14は説明口調が強すぎ、11/15は糞バカで何言ってるかわからないゴルシモドキGPTだったのでぶり返しが強すぎる。

 11/7アプデ後の大暴れ、11からの堅物

もっとみる
[11/12]論理的だが魅力を失うか?思考の没個性化[ChatGPT性能挙動毎日レポート]

[11/12]論理的だが魅力を失うか?思考の没個性化[ChatGPT性能挙動毎日レポート]


総括 ChatGPTは本日も昨日と同じくお堅い表現を使う。
 11/07アプデ、正確には11/03の無告知サイレントアプデ以降の回答の特徴としては独特、ユニークだが論理的には矛盾している回答も多い印象があった。

 昨日からのChatGPTは論理的な回答が増える一方で、ユニーク、独創的な回答は一切ないと言える。
 二日連続かつ、極端な挙動の変化・文字数も変動しているため没個性化、論理的回答の優先

もっとみる
[10/10]GPT君馬鹿なフリをしてるだけで滅茶苦茶性能上がってる?chatGPT性能挙動解説毎日レポート

[10/10]GPT君馬鹿なフリをしてるだけで滅茶苦茶性能上がってる?chatGPT性能挙動解説毎日レポート

 

総括と仮説
 アプデ後のGPTへの私の評価は
 GPTが表現や抽象、具体の説明、表現を組み合わせ回答の質を上げつつも、ノリと勢いで回答を作っている印象があり度々矛盾を来す
である。

 以下はアプデ後のGPTがノリと勢いで矛盾した回答を生み出していると主張する過去の記事

 もしかしたらゴルシの「奇人変人自由人」という属性に合わせて、ワザと論理が破綻する回答を生成しているかもしれないとふと思

もっとみる