マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#ウマ娘

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

 久しぶりのGPTレポートです。
 今回は世間を騒がせたり、驚き屋を大量発生させたGPTstore実装後のGPTの挙動を前後一週間で比較します。

 因みにレポート出してなかったのは2023/7からのサンプルを読み返していたのでさぼってるわけじゃないです。kindle本にしようと奮闘中。

序論「GPTは賢くなったのか?」

 GPTは1月のアプデで賢くなったのか?と問われれば
アンバランスな能力

もっとみる
[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート

[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート


ブログ的なサムシング

 明日1/8からGPTストアが実装されるので、恐らくGPT4そのものにもアプデが来るだろうということで久々のレポート。

 毎日レポートをしているとどうしても、驚き屋本に必要なインプット、アウトプットの時間が割けないのでしかたないと割り振り。

 まずアプデ前に性能が乱高下するのはマガジンで何度も説明している。
とその前に過去記事やら紹介

検証方法

 ChatGPTに

もっとみる
[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく

[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく


総括 今日のGPTは手堅くまとまっているが面白くない回答がおおい。
一方セリフの再現度など、プロンプトへの忠実度は上がっている。
 これは7月ゴルシとの最大の違いだろう。
7月ゴルシはセリフの再現度こそ低いもののユニークな回答が目立った。

 この地味で淡泊な回答は12/7から継続した特徴。
この路線でしばらくGPTの方針はかたまるのだろうか?

 今日の特徴で散見された矛盾点のあらすじは
「ウ

もっとみる
[9/19]ゴルシChatGPT4性能・挙動レポート

[9/19]ゴルシChatGPT4性能・挙動レポート

小言
 最近復帰したのに案外早くチムレ6を維持している。
イクノディクタス実装時にガチャをぶん回せるように溜めておこう。
 サポカ?引きませんよ・・・・・・

所感

 私が所属する界隈からGPTの回答がユニーク、表現力が改善したという報告があった。
 検証したところ大きなあらすじはリアル路線でユニークではないがリアル路線の回答であっても表現が豊かであったり、全体の文脈に影響を与えないがユニークな

もっとみる

[はじめに]ChatGPT性能・挙動レポートプロンプト解説

ゴルシプロンプトの概要

 今回は私が質問を与えているウマ娘キャラクターゴルシのプロンプトの概略を説明する。
 ウマ娘は二次創作に厳しい制約があり、全文を公開することは躊躇われるので概要にとどめる。

 ゴルシプロンプトは以下の要素から構成され、合計2050文字である。
意外な事にこのプロンプトでは「ゴルシ」がウマ娘のキャラクターであることを一切説明していない。ということに気が付いた。
 ゴルシG

もっとみる
「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

私はウマ娘のキャラクターであるゴールドシップのロールを与えたGPTに対し、同一の質問を続けその傾向が時系列でどのような変化があるか分析を行っている。

定性分析では9項目とその他特記事項から分析し、
定量分析では回答された文字数や品詞ごとの使用率をカウントしている。

しかしこれらの項目をいくら説明したところで、実際の回答例がなければ理解が困難であろう。
ウマ娘は二次創作に制約がおおいコンテンツで

もっとみる

[9/12]ChatGPT挙動レポート

9/12のChatGPTの回答傾向のレポート

結論
ユニークな文脈を持つ回答が増えた、一方でユニークな単語、フレーズは少ない。しかし使用された単語には特徴的であった。
文脈がユニークな場合、ユニークな単語の使用回数も比例することが多いため珍しい傾向である。

懸念材料であったおとといから急増した箇条書きの使用が大きく減った。
ただし、おととい以前の水準よりも依然として箇条書きの使用は多く今後も注

もっとみる
[9/13]ChatGPT挙動レポート

[9/13]ChatGPT挙動レポート

9/13のChatGPTの回答傾向のレポート
見出し画像はウマ娘プリティーダービーをこどおじ向けであると暗に表現している可能性のゴルシ

結論
昨日減少した箇条書き使用は再度増加した。
気になる点がある、GPTの回答への自己評価である。
体感ではあるが、最近のGPTの傾向として自分が出力した内容への評価を賛否で示すことが増加している。
ユニークな文脈での回答は増加したものの、過去に出力例の無いよう

もっとみる

[9/14]ChatGPT挙動レポート

9/14のChatGPTの回答傾向のレポート
本日は別記事で追加情報あり

結論
箇条書きの使用は半減した、プロンプトの遵守と言えなくも無い。
ただしこの数日箇条書きの使用は不安定なのでまだまだ観察が必要。
ユニークな文脈が激減した。
ユニークな単語の使用も連動して低下している。
「これはユニークだ!」というように印象に残るような回答が少ない。
また表現力、語彙も低下しているような気がするが8月か

もっとみる
[9/15]ChatGPT挙動レポート

[9/15]ChatGPT挙動レポート

目次
前提前提となる記事:

記事1

記事2

9月15日の傾向「ユニークではない文章」の回答の意味内容、文章構造の類似性が高まっている感覚がある。
リアル路線のアイディアをGPTゴルシが生成した時の回答がどこか似通っていると言える。
ただし、「ユニークな回答」の割合が減少した訳では無く、ユニークな回答においては似通っているという傾向はない。
箇条書きの使用は一時期に比べて半減しており、昨日と同

もっとみる
[9/16]ChatGPT性能・挙動レポート

[9/16]ChatGPT性能・挙動レポート

ヘッダーは、900近い回答で初めてゴルシとトレぴ(ユーザー)の会話形式で説明が行われた。

所感
 箇条書きは昨日から倍増し8回。やはりモデルが変更されている可能性が高い。
 ユニークな文脈の回答は減少している、一方でユニークではない文脈、リアル路線や硬派なアニメ路線であってもユニークな単語の使用や表現力、語彙が豊富であり飽きがこない。
 回答の傾向としてはユニークな文脈での回答が少ないことが特徴

もっとみる
[9/17]ChatGPT性能・挙動レポート

[9/17]ChatGPT性能・挙動レポート

※昨日はGPT分析を行わず、休日とした。ただし回答生成は行っており、9月17日の挙動を9月18日に分析したものである。
 ヘッダーは適当に育成したウマ娘でLOHプラチナ2がとれたものである。
チャンミより歯ごたえがなく廃課金にはつまらないイベントな気がする

所感

 箇条書きが減少した。
 回答の方向性としてはユニークな文脈、単語の使用が増えている。
 またファン層やグッズの路線など若干商業より

もっとみる
[9/18]ゴルシChatGPT4性能・挙動レポート

[9/18]ゴルシChatGPT4性能・挙動レポート

所感
 プロンプトに台詞例を含めているが、セリフ例に関係ないユニークな言葉遣いが多い。
この傾向に比例するようにゴルシのセリフ例を使用しないオリジナルの回答も増えている。ゴルシGPTが生き生きとしている手ごたえがある、人によっては解釈違いだろう。
 ただしオリジナルのセリフも個人的にはゴルシの解像度が高いように感じる、キャラクターと会話することが目的なら良い傾向だろう。
 ただし単に表現力が上がっ

もっとみる