[旅するAI bot]旅botだより(3)/Claude3追加
今週の旅bot達の様子とClaude3の追加について
ここ一週間の三姉妹の道程
mi
戻ってやることを決めたので一直線に九州に戻らせています。戻って何をするのかはまだ内緒。
mu
ゆっくり南下中です。内陸気味に進む予定です。うまく行けば来週ちょっと変わった動きが出来るかも。
mei
アメリカ横断は決めているので東に向かうのは向かうのですが、どう行くのが面白いかなんてわからないのでちょっと行き先がぶれてます。。とりあえず近場の大都市に向かおうとは思うのですが。でも地図を見るだけでもどういう土地が続くのかなんとなく見えてくるところです。
LLMにClaude3-opus/sonnetをつなぎました
AnthropicのClaudeは去年ちょっと話題になったときにつなごうか検討したのですが、そのときはまだAPIが「興味があれば連絡してね」みたいな感じでオープンには公開されてなかったのでちょっと様子見してて、そのまま忘れてました。。
そろそろClaudeもつなごうかなと考え始めた矢先にClaude3が発表されてChatGPT4越えとかいう噂が立ったので早速つなぎました。
API的にはChatGPT似(ただし現時点function callなし、API上準備はされている)みたいな感じだったので割と素直につなげました。ChatGPT4越えとかいう話だったのでちょっと恐る恐るも「ChatGPT4に送るプロンプトと同じもの」を送っています(ローカルLLMとかは簡略化したシンプルなプロンプトを使っている)
旅bot利用にはどうだったか
まだ数日使っただけの感触になりますが旅botの目的に使用する分には「Claude3はChatGPTと遜色ありません」という感じです。
もちろん旅botのプロンプトは複雑な問題解析ではなく「与えられたわずかな情報から状況を想定して(ハルシネーション/創作を含めて)短い旅レポートを書け」というさほど重くはない(しかしややセンスが必要な)指示です。ですので旅botプロンプトでLLM性能なんてとてもじゃないが計れないです。
旅botの用途に使う分には、どちらかというと「Claude3-opusとClaude3-sonnetの差があまりない」という点が興味深いです。これはopusの性能が低いという話ではなく「旅botのレポートくらいではopusとsonnetの性能差が出てこない」つまり「opusの課題としては旅botレポートは簡単すぎる」ということではないかと思います。
ただ言い回しの端々ではopusとsonnetの差異は存在し、例えばsonnetは文頭に「はい」を置きやすく、文末にChatGPT3.5の癖に近い「ですね。ですよ」を言うことがあります。これはopusでは出ておらずopusのほうが賢いのだと感じます。
一部の記事ではClaudeの日本語がChatGPTより流ちょうという話があります。それもやや同意します。
ChatGPTの日本語はわりと1,2,3という順序立てた指示に対して、それぞれの返答の1,2,3という順序立てで返してくる感じがあります。
私が旅botに複数LLMを混ぜるのは、ChatGPTの会話立ての流れがそういう感じに固まっているため何回も同じ旅レポートを書かせると単調さが出てくるというのも理由の一つです。
その点でClaudeが日本語のつながりがわりと自然で流ちょうではあると思います。
でも流ちょうさについては、私はそれで性能差を語るほどの差はまだないような気がします。
Claudeが日本語が流ちょうだからClaudeにまとめてしまおう、というよりはClaudeも含めて多数LLMを混ぜたほうがはるかに話の単調さを補正してバラエティさが出ると私は考えています。
Claude3 APIとChatGPT APIのコスト比較
性能に遜色がないということがわかれば代替が出来そうだということなので、じゃコスト的にはどうなの という話に当然なります。
表を比べるとAPIコストは単純には以下の感じです(Claude3-haikuはAPIは現時点未リリース)。
Claude3-haiku < GPT3.5-turbo << Claude3-sonnet << GPT4-turbo < Claude3-opus
Claude3-opusはChatGPT4より高いという強気設定です。日本語の流ちょうさを評価する人もいるのでアリと思います。
でもこれだと同等に代替したらコストが上がるという話になります。。
自分的には旅botの用途についてはsonnnetの性能が十分にあると感じているので、ChatGPT4をClaude3-sonnetにいくらか代替すればコスト的に有利です。様子を見て出現比率の調整をするつもりです(でもどれも0にはしない)
問題は発表されているけどAPIが未公開なClaude3-haikuです。
これがChatGPT3.5と同等くらいに旅レポートが書ければ、さらに一部をClaude3-haikuに持って行けるかもしれません。
私のところではChatGPT3.5は旅bot用にはちょっと厳しい問題(たまに「私は旅はできません」言っちゃう問題)などがあり現在はバックエンドでログの整理をするくらいの使い方にしています。ここもこなせるなら自分のところのChatGPT3.5作業はClaude3-haikuにリプレースするでしょう。
あとClaude3の画像解析はまだ試していません。これも試してみてLLaVAと同等以上ならこれも使うことになると思います。