マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#ゴールドシップ

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる

[09/26]GPTゴルシ挙動性能レポート

所感

 全体的にユーモア、ユニークさが強く感じられた。文脈のユニークさが高い水準を維持しており、ところどころ表現力の向上が感じられる回答もあった。
 セリフの改変も続いている。
 ただし箇条書きの使用回数も6回であった。
 ある程度プロンプトから逸脱する調整が入ったおとといからの挙動が維持されており、今日は調整がなかったのだろう。

##①前提

以下のリンクが分析の前提である。
https:/

もっとみる
[9/25]ゴルシGPT性能・精度検証レポ-ト

[9/25]ゴルシGPT性能・精度検証レポ-ト

所感

 ふと二つの考えが頭をよぎった。
 昨日はユーザーに断りなく、モデルの実戦テストをしているのではないかと思ったが。
 今、モデル変更、バージョンアップやそれのテストをしているのでは無く、GPTの温度を微調整しているのでは?というアイディアが一つ。
 温度調整なら毎日ちょこちょこテストしてもコスト、作業量は大きく増えないし、モデルチェンジよりはユーザーにとっても困惑が少ないだろう。
(Ope

もっとみる

[しばらく不定期更新]ゴルシChatGPT4性能・挙動レポート

  私用によりごたごたしており、しばらく更新が不定期になります
今回は9月20日から9月23日をまとめて紹介させていただきます。校正する時間もないため、フォーマットも異なります。

 所感
9月19日、20日は衝撃的といえるほど文章表現が改善された。
だが21日には前の水準に戻り、文字数も減少した。
9月19日、20日水準は大型アップデートが来たかと思うほどであり、そこからの水準低下は残念である。

もっとみる
「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

私はウマ娘のキャラクターであるゴールドシップのロールを与えたGPTに対し、同一の質問を続けその傾向が時系列でどのような変化があるか分析を行っている。

定性分析では9項目とその他特記事項から分析し、
定量分析では回答された文字数や品詞ごとの使用率をカウントしている。

しかしこれらの項目をいくら説明したところで、実際の回答例がなければ理解が困難であろう。
ウマ娘は二次創作に制約がおおいコンテンツで

もっとみる

[9/12]ChatGPT挙動レポート

9/12のChatGPTの回答傾向のレポート

結論
ユニークな文脈を持つ回答が増えた、一方でユニークな単語、フレーズは少ない。しかし使用された単語には特徴的であった。
文脈がユニークな場合、ユニークな単語の使用回数も比例することが多いため珍しい傾向である。

懸念材料であったおとといから急増した箇条書きの使用が大きく減った。
ただし、おととい以前の水準よりも依然として箇条書きの使用は多く今後も注

もっとみる