[旅するAI bot]LLM達の口癖(3)

2024年1月14日 10:18

さらに最近旅botに追加した日本語系LLMの、旅botでの使用感と口癖を追記しておきます。

今回は以下を追加しています。

ELYZA ELYZA-13b
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-fast-instruct
Lightblue qarasu-14b
https://huggingface.co/lightblue/qarasu-14B-chat-plus-unleashed
tokyotech-llm Swallow-7b
https://huggingface.co/tokyotech-llm/Swallow-7b-instruct-hf

今回も従来と同じく、ベンチマークではないのでプロンプトも出力結果も「旅botらしい出力になるように個々で微調整はしています」
ですので各比較結果ともに旅botの出力に似合うかであって、LLMの性能比較ではありませんのでご注意ください。
旅botの特性上、ハルシネーションが大きく出たものの方が面白いと評価していることがあるので一般的な性能評価とは異なります。

今回の追加モデル

ELYZA ELYZA-13b

Miの旅/
十王ダムを見下ろすように建てられたパノラマ公園・展望台からは、十王ダムの景色や、遠くに富士山を望むことができます。富士山が雲に隠れている日もありますが、その雲の上にも富士山が隠れ...
(Powered Google map apis,ELYZA-13b,CounterfeitXL_β,etc.) pic.twitter.com/0gTqBCUDru
— mi tripBot (@marble_walker) January 12, 2024

以前からELYZA-7bは旅botだけでなくToDo機能のほうでも使用しており、自分の環境では安定に動くのでよく使わせてもらっています。それの13b版です。
ELYZA-13bも同じように安定した日本語旅ログを生成できています。ただ13bだから何か劇的に変わったかといえばそうでもなく、旅ログ的にはELYZA-7bと大差はない感じです。
旅botのプロンプトの指示内容は難しい指示をしている訳ではないので13bの拡大分の効果は旅ログにはそれほど出ないという感じでしょうか。
癖としてChatGPT3.5で現れていた「ですね。ですよ。」の末尾にたまにでるようになったくらいでしょうか。

Lightblue qarasu-14b

Miの旅/
いやー、ここが岩子ですね！うーん、岩子漁港はどうでしょうね。漁港って、魚介類とか水産物が多いですよね？でも、その渔业って伝統的なものじゃないような気がします。昔からあるけど。それ...
(Powered Google map apis,qarasu-14b,CounterfeitXL_β,etc.) pic.twitter.com/3nWNJPbxpm
— mi tripBot (@marble_walker) January 8, 2024

LightBlueさんのLLMは今回初めて使いますが、Qwenベースのモデルとのことです。
日本語については達者です。CyberAgent calm2やELYZAの各モデルと同じくらいに自然な文が出ていますし、ハルシネーションも適度と感じます。
感触でいうと、文にやや理屈っぽさが感じられます。イメージとしてはstablelm-7bをもう少し日本語を得意にしたような感じです。
漢字に中国語の字がたまに出るのはQwenベースのためでしょうか。XWin量子化版でも同様に繁体字/簡体字が出ていたこともあり仕方ないところと思われます。

tokyotech-llm Swallow-7b

Miの旅/
あなたはもうすぐ目的地に到着します。今、あなたは赤い浜にいます。目の前には、列車の駅、海沿いのレストラン、自家製ラーメン店、コンビニエンスストアがあります。目の前にあるこれらの施...
(Powered Google map apis,Swallow-7b,CounterfeitXL_β,etc.) pic.twitter.com/Fuf3paFDAJ
— mi tripBot (@marble_walker) January 11, 2024

東京工業大学と産業技術総合研究所によるLLMだそうです。
細かいところで指示の解釈が甘いかなと思われる部分もありますが、日本語としては自然な文が出ています。
ハルシネーションも適度には出ています。旅bot用としては、もうちょっと思いきりのよいハルシネーションが出て欲しいところです(普通のLLMベンチマークだとハルシネーションはないほうが喜ばれるんですけどね)

今回のモデルは日本語表現はどれも安定している

今回追加したモデルは日本語表現についてはどれもわかりやすいです。日本語特化型LLMの日本語が読みやすくなっていくのはよい話しと思います。

どちらかというと自分の環境側の問題でモデルの追加に苦労しました。。
実行可能なローカルLLM(現在9種類くらい)を単純にCPUメモリで追加し続けていたのでメモリオーバーになってモデルの再ロード/破棄する処理を追加したり、Qwen系モデルの設定で結構エラーがでまくったり(結局 rinnaのnekomataはうまく追加できなかった)
そろそろGPUもゲーミングGPU以上にしないと厳しいと思いつつそこに手間暇かけるのもどうなのかなーと悩み中です。

この記事が参加している募集

#AIとやってみた

28,739件

この記事が気に入ったらサポートをしてみませんか？