画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

2023年10月8日 21:26

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境（RTX3090 24GB）で試してみました。

LLaVAの特徴

ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル
マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成
オープンソース。ヴィジョン指示チューニングデータ、モデル、およびコードベースを公開。ライセンスは研究目的でのみ使用可

とにかく試してみます

インストールはgithubの説明の通り行いました。デモ実行は説明に沿ってcontroller、gradio_web_server、model_workerを起動します。なお、私の環境ではllava-v1.5-13bを--load-8bitオプションをつけて起動しました。

$ python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-v1.5-13b --load-8bit

ブラウザでhttp://localhost:7860/を開くとgradioのwebuiで試せます。

gradioインターフェイスのほか、4ビットおよび8ビットの量子化推論もサポートするCLIも用意されていて、LLaVA-1.5-7Bは4ビット量子化で8GB未満のVRAMで利用できるようです。

ローカル環境で画像認識LLMが動くとは。ますます夢が膨らみますね！😆

この記事が気に入ったらサポートをしてみませんか？