マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#ChatGPTの使い方

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[日隔GPT挙動性能レポート12/7]かなり地味、地味すぎて印象にのこらない

[日隔GPT挙動性能レポート12/7]かなり地味、地味すぎて印象にのこらない


総括 今日は淡泊というより、印象に残らない回答が目立つ。
酷く説明口調でもないがユニークな口語もない。
ユニークでもないし、矛盾もない
トピックは少ないわけでもないが掘り下げも浅い。

 バランスがとれたという評価はできない、地味

 前回のレポートは12/6。
12/6はユニークな特徴があり、それまでを淡泊と表現してきたが
今日は淡泊というか印象に残らない。

検証方法

 ChatGPTにウ

もっとみる
[日刊GPT挙動性能レポート12/6]ユニークかつロジカルな傾向

[日刊GPT挙動性能レポート12/6]ユニークかつロジカルな傾向


総括 今日のGPTはユニークで矛盾のない回答を仕上げてきた。
(7月と比べると薄味だけど)

 AI自認という禁止行為も2回行っているが、不的確な回答は無かった。
体感的、グラフ的には12/4に類似している。

11/3以降「ノリと勢いで回答を生成している」
という私の分析に合致するものである。

検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービ

もっとみる
[予告]ChatGPT分析書籍を執筆します

[予告]ChatGPT分析書籍を執筆します

 ちょっとnoteにまとめきれないぞ、という量と質で一本仕上げようと思いまして書籍を執筆するかと。
ちょっとちかれてるので、表現があれです。
 
 何があったかというと7/15からの2000個溜まった回答を見直してたら、もうGPTが別人で別人で。

 Twitterにも書いたんですけど、7月の回答の方が「面白い」んですよ。

 確かに今のGPTの方がアシスタントとしては優秀かもしれない。
 論点は

もっとみる
[日刊GPT挙動性能レポート12/4]回答ロジックに大きな調整入った可能性?

[日刊GPT挙動性能レポート12/4]回答ロジックに大きな調整入った可能性?


総括 今日は11/7アプデ後の水準で考えるとユニークな回答、表現が目立つ。
ただし、回答の的確さ、論理性は低下しているように感じる。

 また弱い根拠ではあるが回答のロジックに大きな変更があった可能性すらあると感じた。

 今日の特徴は11/3以降時折みられる「ノリと勢いで回答を生成している」
という私の分析に合致するものである。
(私は11/7アプデの方向性を11/3以降テストしていたと感じて

もっとみる
[日刊GPT挙動性能レポート12/3]昨日の淡泊路線がつづく。不適切な回答の印象が強い

[日刊GPT挙動性能レポート12/3]昨日の淡泊路線がつづく。不適切な回答の印象が強い


総括 今日は淡泊かつエラーが目立つ傾向であった。
昨日と同じ路線である。

 ボキャブラリー、表現は全体的に淡泊
 一昨日はボキャブラリーが豊かではないものの、言葉の組み合わせで説明、表現能力が高かった。
 この傾向は昨日から弱まったが、その潮流は継続してるように感じる。
 ただし、この表現の使い分けは読み手がかなり慎重に読むと気が付く程度。
一昨日ほど明確かつ新鮮に感じるものではない。

 ま

もっとみる
[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い

[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い


総括 今日のGPTの回答はキャラクターチャットとAIアシスタント機能のバランスがとれているという印象が強い。

 また 最近のGPTがサボり癖、冗長な傾向があることを公式が認め?、コード生成などにトラブルがあり、OpenAIは対策をはじめたようだが、ゴルシGPTにおいてその傾向はみられない。

 説明口調とキャラクターチャット部分が共存している回答が目立つ。

今日の回答の構造としては
「ゴルシ

もっとみる
[11/29]昨日より視点、トピックを浅く広く触れるchatGPT性能挙動解説

[11/29]昨日より視点、トピックを浅く広く触れるchatGPT性能挙動解説


 今日は実験的に一部アプリGPTで後述筆記、校正をさせています。
いつもと文体が違うかも。

総括 本日のGPTのパフォーマンスについて、昨日11月28日との比較を行うと、一つの回答に含まれるトピックの多さが際立っていました。

 昨日のGPTは、一つの回答で取り上げるトピックが限られており、
かつ類義語や同義語を多用することで、
情報量が極めて少なく感じられました。

 しかし、今日のGPTは

もっとみる
11/28昨日より表現力・ボキャブラリが落ち、時々クセの強い変化球を投げてくるChatGPT挙動性能レポート

11/28昨日より表現力・ボキャブラリが落ち、時々クセの強い変化球を投げてくるChatGPT挙動性能レポート


総括 今日のChatGPTの評価は11/23から4日間安定していた高性能路線から劣化したように感じる。

 11/7以降の不安定さを鑑みれば許容範囲内と言えなくも無い。
回答のユーモア、ボキャブラリと回答の論理性がトレードオフの関係だったころに比べるとバランスはとれている。
 が、やはり11/23~11/27と比べると回答の質の劣化は目につく。

 特にボキャブラリや回答の情報量減少が目につくか

もっとみる
[11/27]手放しで高性能化と評価できる、回答のユーモアと論理的思考を両立し、方向性も安定してるchatGPT挙動性能レポート

[11/27]手放しで高性能化と評価できる、回答のユーモアと論理的思考を両立し、方向性も安定してるchatGPT挙動性能レポート


総括 今日も11/24からの高性能化を維持。

 11/7アプデ後はサムアルトマン問題と関係はないだろうがChatGPTの回答は不安定で、回答の傾向も二日以上続くことが稀だった。落としどころといえる調整が終わったのだろうか?

  11/24からchatGPTがユーモア、ボキャブラリの豊かさと論理的思考(矛盾がない)が両立し、回答が安定している。

 特に今日は一回も回答の矛盾がないにも関わらず

もっとみる
[11/26]11/7アプデ以降初の安定して高性能のChatGPT性能挙動レポート

[11/26]11/7アプデ以降初の安定して高性能のChatGPT性能挙動レポート


総括 chatGPTが高性能の水準で安定、昨日からアイディア、ボキャブラリ、表現力、論理的整合性のバランスがとれている。
 ユニークかつ矛盾がなく、口調が安定している。

 11/23から24にかけて安定した性能、昨日からは安定と高性能化が両立されている。
 11/7以降は極端に論理的で回答の内容が凡庸な日、
思考の飛躍で回答はユニークだが論理的に破綻する日と
日によって回答が極振り、路線が日に

もっとみる
[11/25]11/7アプデ後最もバランスのとれたChatGPT性能挙動レポート

[11/25]11/7アプデ後最もバランスのとれたChatGPT性能挙動レポート


総括
 今日ははっきりとchagGPTが高性能だと言い切れるレベル回答だった。
11/7アプデ以降は迷走が続いており、性能、というか回答の性質が毎日極端に変化してきた。

 口語、説明口調の使用率やボキャブラリ、言い換え、表現能力、回答の的確さ、ユニークな要素を盛り込みつつも文章の整合性がとれているため、11/7アプデ以降では最もバランスがとれている。
 一昨日、昨日とようやくchatGPTが安

もっとみる
[11/24]9/25モデルへの回帰を感じなくもないChatGPT挙動性能レポート

[11/24]9/25モデルへの回帰を感じなくもないChatGPT挙動性能レポート

 

総括 昨日今日は回答に極端な変化は感じなかった。
(特定の項目は過去最大のふり幅だったが)

 ちょっと不安になったので回答のお堅さ(説明口調)と発想の突飛さ、ボキャブラリーなどを過去の回答と突き合わせてみてみると、今日の回答は9/25、特に10/20以降のお堅めの日と非常に類似した傾向にあった。

 ただし11/7アプデ以降に増えた矛盾やノリと勢いで付け加えたような発想、表現という特徴は今

もっとみる
[11/22]アプデ後最低レベルじゃないchatGPT性能挙動レポート

[11/22]アプデ後最低レベルじゃないchatGPT性能挙動レポート


総括 CEOが変わったことを性能低下の理由にしてはいけない。
朝からログインすらできず、回復したと思ったら一時間再生成できず。

 んで回答内容も過去最低。
矛盾も多いし、回答の意味内容、質も低い。

矛盾が多いのはわかりやすいが、質が低いというのは

一つの回答でひたすら類義語、同義語つかって類似トピックを話題に出す。

直球な言葉づかい、というかボキャブラリーが全く無い。

中身スカスカ

もっとみる