話題のArrowPro-7B-KUJIRA の量子化モデル使ってみました

2024年5月11日 00:59

ArrowPro-7B-KUJIRA

15歳の高校生がMistral7BをベースにAITuberで使えるように日本語能力世界一のモデルを作ったそうです。
すっげ

そのモデルのggufの量子化モデルが上がっていたので使ってみます↓

https://huggingface.co/MCZK/ArrowPro-7B-KUJIRA-GGUF

量子化モデルなんで日本語能力世界一のモデルよりいくらか劣化するとは思いますが、会話が成立するかどうかを試してみます。
7Bの量子化モデルでまともに日本語の会話が成立するモデルは今まであまりなかったと思うので期待です。

[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q4_K_M.iMatrix.gguf -n 200 -ngl 38 -t 10 -p "あなたは誰ですか？" --ctx_size 512

[レスポンス]
<s> あなたは誰ですか？
私は彼らのために作業するボランティアです。あなたが訪問した場所で、私たちは一緒に作業したことがあるかもしれませんね。私は常に人々に役立つことを願って活動しています。
私の名前はJasonです。もしもし、もし質問があれば、どんな小さなことでもお気軽にお尋ねください。お手伝いします！
（あなたが誰であるかを尋ねる質問に対しての回答として、ボランティアであり

llama_print_timings: load time = 266.65 ms
llama_print_timings: sample time = 4.08 ms / 200 runs ( 0.02 ms per token, 49019.61 tokens per second)
llama_print_timings: prompt eval time = 93.86 ms / 13 tokens ( 7.22 ms per token, 138.51 tokens per second)
llama_print_timings: eval time = 3500.87 ms / 199 runs ( 17.59 ms per token, 56.84 tokens per second)
llama_print_timings: total time = 3616.73 ms / 212 tokens

58.6164850569 t/s

全く遅延なく出力されました

[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q4_K_M.iMatrix.gguf -n 200 -ngl 38 -t 10 -p "好きな食べ物はなんですか" --ctx_size 512

[レスポンス]
<s> 好きな食べ物はなんですか？ (堀内孝雄風に) 「俺が〜やる〜と決めた事は〜どんなことでも〜、おいしくいただくぜ〜、好きな食べ物は〜、その時の気分や〜、それぞれなんだな〜！」という歌詞がある通り、人それぞれ好みが違うので一概には言えませんが、代表的なものでいうと、和食なら寿司、天ぷら、蕎麦、洋食ならハンバーグやピザ、カレー、中華料理なら麻婆豆腐や餃子などが好きな方が多い

なんか会話が楽しいですね！
さすがAITuberのことを考えたモデル
これは量子化モデルであって、本当のモデルはもっと会話ができるはず
日本語能力すごい

[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q4_K_M.iMatrix.gguf -n 200 -ngl 38 -t 10 -p "好きな漫画教えてください" --ctx_size 512

[レスポンス]
<s> 好きな漫画教えてください！私は、最近、「ドラゴンクエスト列伝ゆうしゃとはじまりの島」という漫画が気になっています。ドラゴンクエストの世界を舞台にした作品なので、ファンの方にはたまらないと思います。もし、他にもドラゴンクエストシリーズに関連した漫画や、ファンタジージャンルがお好みでしたら、「ドラゴンクエスト列伝大海賊としなやかな少女」もおすすめです。また、ファンタジー以外でも、最近では「東京喰

おーすごい。
実際に存在する漫画かどうかはわからないけど、会話は成立してる。

[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q4_K_M.iMatrix.gguf -n 512 -ngl 38 -t 10 -p "週に何回筋トレしますか？" --ctx_size 512

[レスポンス]
<s> 週に何回筋トレしますか？適切な頻度は個人の目標や体力レベルによって異なりますが、一般的な頻度をご紹介します。
1. 初心者の場合：週2～3回
筋トレ初心者の方は、まずは週に2～3回のペースから始めると良いでしょう。全身の筋トレを行う場合は、上半身と下半身を交互に鍛えることで、筋肉を十分に休ませることができます。
2. 中級者の場合：週3～4回
筋トレに慣れてきた中級者の方は、より頻繁に筋肉を鍛えることができます。週に3～4回の頻度で、全身を分けて鍛えることが一般的です。例えば、月曜は上半身、水曜は下半身、金曜は復習として再び全身を通して鍛えるなどのサイクルです。
3. 上級者の場合：週4～5回
上級者や競技スポーツ選手の場合、さらに高い強度と頻度で筋トレを行います。週に4～5回のペースで、専門的な種目を集中的に鍛えることが多いです。回復にかかる時間を考慮しながら、適切な休養を取りつつトレーニングを行います。
ただし、個人の体調や目的によって適切な頻度は異なります。重要なのはバランスの

なんとなくChatGPTみたいな返答に見えますね。
これはすごい。
iPhone実機で試したい！

8bit量子化Verも試してみます
[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q8_0.gguf -n 200 -ngl 38 -t 10 -p "好きな漫画教えてください" --ctx_size 512

[レスポンス]
<s> 好きな漫画教えてください！とりあえず今のオススメは「Dr.ストーン」です。鉱物から直接、金属まで作り出せる技術がある近未来、人類が直面する最大の問題を解決するため、地球に残された最後の科学者が降臨する。というストーリーで、科学的な内容もかなり本格的で、ときどき予想できない方向に展開していくのが魅力的です。
代わりに、他のオススメ漫画をいくつか紹介しますね。
1.「ドラゴンボール」 - 鳥山明：幅

llama_print_timings: load time = 327.57 ms
llama_print_timings: sample time = 4.12 ms / 200 runs ( 0.02 ms per token, 48555.47 tokens per second)
llama_print_timings: prompt eval time = 82.76 ms / 16 tokens ( 5.17 ms per token, 193.33 tokens per second)
llama_print_timings: eval time = 5011.31 ms / 199 runs ( 25.18 ms per token, 39.71 tokens per second)
llama_print_timings: total time = 5117.11 ms / 215 tokens

42.015903508 t/s

おおすごい！Dr.ストーンは実在する漫画です。
スピードも速いです。

[リクエスト]
./main -m ../LLMModels/ArrowPro-7B-KUJIRA.Q8_0.gguf -n 200 -ngl 38 -t 10 -p "あなたはアイドルです。今ライブをしています。みんなに挨拶してください。" --ctx_size 512

[レスポンス]
<s> あなたはアイドルです。今ライブをしています。みんなに挨拶してください。
皆さん、こんにちは！ありがとうございます！今日はこんなにもたくさんの皆さんにお集まりいただき、本当に嬉しく思っています。心を込めて、今日も全力で楽しんでいただけるパフォーマンスをお届けするので、どうぞ最後までお付き合いくださいね！皆さんの熱い声援、待っています！
この挨拶は、アイドルらしい明るくて元気な雰囲気があり、ファンの方々に対する感?

プロンプトエンジニアリングとかRAGモデルとかでキャラ付け頑張ったら
本当にAITUberで使えそうな感じです。

KUJIRAは量子化モデルでも日本語能力高かった！体感的に過去最強

この記事が気に入ったらサポートをしてみませんか？