マガジンのカバー画像

[月刊]ChatGPT性能挙動一ヶ月ごとの分析レポート

18
毎日更新のChatGP性能挙動レポートを一ヶ月間隔で分析。 ゴルシのキャラクターロールチャットの分析ですが、ビジネスや他分野でGPTを使用する際の目安にもなるでしょう。 キャラク…
運営しているクリエイター

記事一覧

チェンジポイント検出で読み解くGPTアプデ(前半:11/7アプデまで)

チェンジポイント検出で読み解くGPTアプデ(前半:11/7アプデまで)

 統計処理によってGPTのアップデートが事前にある程度予知する事が判明した。
 今回は3/19に行われたアップデートを例に解説していく。
 尚アップデートの内容や前後の回答の文章の内容の分析には触れないものの、その後に起きたcontinue generateのエラーなどアプデ前後でありがちなエラーについては触れていく。

検証方法
 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウ

もっとみる
エラー頻発・8月、9月モデルに先祖返り?[週刊chatGPT性能挙動レポート]

エラー頻発・8月、9月モデルに先祖返り?[週刊chatGPT性能挙動レポート]

 GPTのメンション機能が実装され、若干盛り上がっているGPT界隈。
だがGPTの挙動は不安定かつ、使用に耐えうるものではないと判断した。

検証方法

 これまでクソ真面目な雰囲気だったが、やりかたはオタク遊びだ。

メンション機能後のエラー というのも、長文になった際続きを書かせる「continue」ボタンを押しても続きが生成されず新しい回答がはじまる。
 ネットワークエラー率100%が続く、

もっとみる
[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

 久しぶりのGPTレポートです。
 今回は世間を騒がせたり、驚き屋を大量発生させたGPTstore実装後のGPTの挙動を前後一週間で比較します。

 因みにレポート出してなかったのは2023/7からのサンプルを読み返していたのでさぼってるわけじゃないです。kindle本にしようと奮闘中。

序論「GPTは賢くなったのか?」

 GPTは1月のアプデで賢くなったのか?と問われれば
アンバランスな能力

もっとみる
[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート

[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート


ブログ的なサムシング

 明日1/8からGPTストアが実装されるので、恐らくGPT4そのものにもアプデが来るだろうということで久々のレポート。

 毎日レポートをしているとどうしても、驚き屋本に必要なインプット、アウトプットの時間が割けないのでしかたないと割り振り。

 まずアプデ前に性能が乱高下するのはマガジンで何度も説明している。
とその前に過去記事やら紹介

検証方法

 ChatGPTに

もっとみる
トピック:GPT分析レポート用語定義

トピック:GPT分析レポート用語定義

 ここのところ7月の回答からの回答を分析している。

 内容を深めるには私の表現の定義を緻密にすることが必要となったため、ちょっとずつメモしていく

 トピック これまで、話題や視点、トピックなど表記揺れがあった。
今後は以下の表記で統一
新聞は私のニュアンスの比喩

回答一つは「新聞」
トピックのジャンルは「紙面」(社会面、経済面、国際面etc)

トピックは「個別の記事」(大小関わらない)

もっとみる
[ChatGPTレポート12/26]GPTアプデ予想は外れるのか?

[ChatGPTレポート12/26]GPTアプデ予想は外れるのか?

最近のGPTざっくりレポート

 12/17から直近にGPTのアプデが来ると予想し、騒ぎまくってたが
ほぼ10日経過したのになんもアナウンスがない。

 タダの驚き屋よりタチが悪いや。

でも出力文字数の変動、荒ぶりかたは12/17から異様なんですよね

 昨日なんて再生成一回おしただけで二回分の回答が同時に出力されました。
 この現象は10回叩いて2回起きたので
私の経験則「UIエラーがアプデ前

もっとみる
[GPT毎日レポート]アンケートのお願い

[GPT毎日レポート]アンケートのお願い

 ゴルシGPTの回答を分析する際、客観的視座を取り入れるため

簡単
でもない
アンケートにご回答いただければ幸いです。

このアンケートを基に今後GPTの分析を進めてまいります

[日隔GPT挙動性能レポート12/19]回答は昨日にくらべ大きく劣化、アプデ前不安定説

[日隔GPT挙動性能レポート12/19]回答は昨日にくらべ大きく劣化、アプデ前不安定説


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

 ギャグ満載といってるのにギャグがない.
筋肉痛がバ

もっとみる
[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

 GPT4.5の噂が飛び交っている、はたしてそれは真実なのだろうか。
私の意見としては
①GPTがアプデ前特有の無告知の挙動変化は確認されている

②アプデを否定する材料が特にない

③GPT4.5が実装されるかは別としてアップデートの可能性はかなり高い

④GPT4.5の実装、機能の追加、既存GPT4のアプデなどのアナウンス今後数日以内になされる可能性が高い

 ちなみに過去の記事でもアプデを予

もっとみる
[chatGPT定点観察]7月と12月のGPT4比較

[chatGPT定点観察]7月と12月のGPT4比較


総括 GPTの回答の変遷を同人誌かなんかにまとめたい、
ということで7月と12月の回答を比較していた。

 感想としては明らかに7月と12月には回答の質が異なる。
 100個ほど比較したが、もうすでにランダムに抽出した7月と12月の回答を判別できるようになった

簡単にまとめると

台詞再現というかキャラクターの口調の模倣 12月>7月

人間としゃべってる感 12<7

一回答内のトピック

もっとみる
[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

 ちょと短めの記事だが、私の分析レポートをどのように解釈すべきか一つの説明を加える。

 私の分析はゴールドシップのキャラロールとのチャットを分析している。
ぱっとみオタクの戯れに見えるかもしれないが、
この分析はGPTをビジネス、日常でのチョットした利用についても示唆的な内容を含んでいる。

①GPTの立案能力に関する分析 ゴルシGPTには架空のスピンオフアニメを説明させている。

新しいアニメ

もっとみる
ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

私はウマ娘のキャラクターであるゴールドシップのロールを与えたGPTに対し、同一の質問を続けその傾向が時系列でどのような変化があるか分析を行っている。

定性分析では9項目とその他特記事項から分析し、
定量分析では回答された文字数や品詞ごとの使用率をカウントしている。

しかしこれらの項目をいくら説明したところで、実際の回答例がなければ理解が困難であろう。
ウマ娘は二次創作に制約がおおいコンテンツで

もっとみる

[はじめに]ChatGPT性能・挙動レポートプロンプト解説

ゴルシプロンプトの概要

 今回は私が質問を与えているウマ娘キャラクターゴルシのプロンプトの概略を説明する。
 ウマ娘は二次創作に厳しい制約があり、全文を公開することは躊躇われるので概要にとどめる。

 ゴルシプロンプトは以下の要素から構成され、合計2050文字である。
意外な事にこのプロンプトでは「ゴルシ」がウマ娘のキャラクターであることを一切説明していない。ということに気が付いた。
 ゴルシG

もっとみる