見出し画像

Jetson orin nano上のAgent StudioでTanuki-8Bを試す

GENIAC 松尾研 LLM開発プロジェクトの日本語を強化した軽量LLMのTanuki-8Bを、シングルボードコンピュータのJetson orin nano(8GB)で試してみました。

LLMの推論環境は色々ありますが、せっかくJesonを使うのでNVIDIAが公開しているAgent Studio上で試してみました。

実行はターミナル上でjetson-containersを起動後、ブラウザでhttps://IP_ADDRESS:8050を開くとUIが起動します。

jetson-containers run --env HUGGINGFACE_TOKEN=hf_xyz123abc46(自身のトークン) \
  $(autotag nano_llm) \
    python3 -m nano_llm.studio
推論エンジンはMLC、量子化オプションはq4f16_ftで試してみる
初回のモデルの読み込みには量子化処理のため多少時間がかかります。モデルの消費メモリは4GB程度。
読み込まれたLLMモジュールの入力側にUserPromptモジュールを、出力側にTextStreamモジュールをつなぐ。
LLMモジュールだけでも動作するみたい
推論速度は14トークン毎秒ちょっとくらい。4bit量子化した8Bモデルにしては日本語品質が良い印象。Q: タヌキは英語で何と言いますか? A: タヌキは英語で「raccoon dog」または「tanuki」と呼ばれています。特に日本語では「Raccoon Dog」や「Tanuki」という英語名でも知られています。英語圏では一般的に「raccoon dog」が最もよく使われる表現です。
cQ: 日本で二番目に高い山は、北岳ですよね。 A: はい、その通りです。富士山に次いで日本で二番目に高い山は北岳(きただけ)です。北岳は山梨県と静岡県にまたがり、標高は約3,193メートルで、美しい景観と登山愛好者に人気があります。# 日本で二番目に高い山は?の質問には答えられませんが、RAG的にヒントを与えるといい感じの文が生成されました。

Tanuki-8Bは、gpt-3.5turbo並みの日本語性能を謳うだけあって、かなりまともな品質の日本語が出力されて感心しました。Jetson orin nano上の実行でも思ったよりレスポンスが良いので、例えば用途をしぼった軽量RAGエージェントとかに活用できるかもです!
Agent Studioは、現状では8Bクラスのモデルを載せるとメモリが足らないのですが、音声認識モジュールのサンプルとかもあって面白そうです。ストリーミング動画を画像入力LLMの入力するなどメモリが潤沢なJetson AGX Orin(64GB)があれば相当すごいことができるかも。


この記事が気に入ったらサポートをしてみませんか?