見出し画像

LLaVA: Large Language and Vision AssistantのGUIをローカルで動かしたけど非商用だった。

マルチモーダルのもう一つ。LLaVAも動かしました。こちら、推論が早いです!
こちら、過去に書きかけていた記事です。マルチモーダルを色々と触っていたころに纏めていました。かなり良さそうで他の方も記事にしていらっしゃいます。でもライセンスは
The service is a research preview intended for non-commercial use only.
だそうえす。

インストールする

リポジトリに沿ってインストールすれば動きます。

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install ninja
pip install flash-attn --no-build-isolation

LLaVA Weights

全部ダウンロードするような記述ありますが、??です。

CLIで動かす

python -m llava.serve.cli \
    --model-path liuhaotian/LLaVA-Lightning-MPT-7B-preview \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-4bit

モデルとチェックポイントは自動でダウンロードされます。
これでプロンプト入力が出るので、適当に入力すると画像の説明が出力されます。

WenUIを動かす

Launch a controllerを起動
python -m llava.serve.controller --host 0.0.0.0 --port 10000

python -m llava.serve.controller --host 0.0.0.0 --port 10000

gradio web server.を起動

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

model workerを起動
一番軽いLaunch a model worker (4-bit, 8-bit inference, quantized)を起動します。

http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-llama-2-13b-chat-lightning-preview --load-4bit

gradio web server.起動画面で表示されている
http://0.0.0.0:7860にアクセス

起動後に表示された画面にMiniGPT4で使った画像とプロンプトを入れて試しました。

ライセンスが
The service is a research preview intended for non-commercial use only.
だそうです。残念!