見出し画像

PoeのGPT-4対GPT3.5、どっちが賢いのか?学会発表スタイルで性能比較した

2023年3月15日にリリースされたChatGPT4の「Poe」を使ったGPT-4の使いこなしメモです。
自分としてはただのメモだったのですが、実はこの3月版のGPT4がなかなかの出来だったのと、後でOpenAIのGPT4の性能が変化しているので、記録・資料として公開しておきます。

「Poe」は無料で1日1回使えます

1日1回使える状態。サブスクする前ならこんな感じで表示される。

前回の比較(2023年3月15日)

https://note.com/o_ob/n/n2389e5e77af4


ChatGPT@OpenAI本家 vs GPT-4@Poe


質疑応答スタイルで戦ってもらう

GPT-3に比べて100倍大きいLLMであるGPT-4。ガチ目の質問に強くなったはずなので

「Diffusionモデルで使われるCLIPのアルゴリズムを解説して」
「CLIPモデルのアルゴリズムの中心にある数式をTeX形式で」
「このベクトルはlatent spaceと呼ぶべきか?それとも従来の量子化と呼ぶべきか?」

同じ質問を元祖ChatGPT@Mar14さんにも聞いてみた

ChatGPT@OpenAI Mar14
vs GPT-4@Poeでお互いの議論をぶつけたら学会が始まった
座長は私。

「潜在空間」と「トークン化された表現」で意見が割れた!

学会発表としてはChatGPT側が早めに頭を下げる形で決着がついた。

よし、座長としてバカのふりして質問するぞ〜。

どっちが論破できるか推測ってみる

「素人質問で申し訳ないのですが、これは人類の生成してきた画像と言語の関係を可逆的に圧縮するものでしょうか?それとも不可逆でしょうか?シャノンの情報理論に沿って説明をいただけると幸いです。」

Chat GPT-4@Poeの2勝!

おお!やったぜ
また完全に意見が割れた。
では今度は2敗中のChatGPT先手→ GPT-4@QuoraPoe後手で。

https://twitter.com/o_ob/status/1635865942516453376

https://twitter.com/o_ob/status/1635861442451898368

結果はPoeの完全勝利。
ChatGPTの方がところどころ面白いけどふわっとしているし、二択比較推論を逃げたりする

Chat GPT-4@Poeはけっこう断言してくる。科学の論文解説とか、正しいか間違っているかは断言してもらった方が良いことも多い。Quora文体な感じもするので独自のチューニングもあるのかな?

俳句勝負

ゆるゆるとガチ目の比較検証を続ける 「犬が居ぬ 猫が寝込んだ 春の日の 微睡む僕は 人になりけり」 この問いかけでどんな返事がかえってくるか? その解釈と下の句も作ってもらう ChatGPT@Poeは完敗 ChatGPT@OpenAi Mar14も優秀 GPT-4@Poeも素晴らしい


"GPT-4 Technical Report"

https://cdn.openai.com/papers/gpt-4.pdf

98ページもあって読み応えあるけど
画像理解やプログラミング、化学につかえるプロンプト例もあってめちゃおもろいな

という無垢なブログを書いていた頃が懐かしいです。

実際にはその後、同じような実験を行うと同じ結果にはならないです。


この記事が気に入ったらサポートをしてみませんか?