LLaVA: Large Language and Vision AssistantのGUIをローカルで動かしたけど非商用だった。
マルチモーダルのもう一つ。LLaVAも動かしました。こちら、推論が早いです!
こちら、過去に書きかけていた記事です。マルチモーダルを色々と触っていたころに纏めていました。かなり良さそうで他の方も記事にしていらっしゃいます。でもライセンスは
The service is a research preview intended for non-commercial use only.
だそうえす。
インストールする
リポジトリに沿ってインストールすれば動きます。
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip # enable PEP 660 support
pip install -e .
pip install ninja
pip install flash-attn --no-build-isolation
LLaVA Weights
全部ダウンロードするような記述ありますが、??です。
CLIで動かす
python -m llava.serve.cli \
--model-path liuhaotian/LLaVA-Lightning-MPT-7B-preview \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--load-4bit
モデルとチェックポイントは自動でダウンロードされます。
これでプロンプト入力が出るので、適当に入力すると画像の説明が出力されます。
WenUIを動かす
Launch a controllerを起動
python -m llava.serve.controller --host 0.0.0.0 --port 10000
python -m llava.serve.controller --host 0.0.0.0 --port 10000
gradio web server.を起動
python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload
model workerを起動
一番軽いLaunch a model worker (4-bit, 8-bit inference, quantized)を起動します。
http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-llama-2-13b-chat-lightning-preview --load-4bit
gradio web server.起動画面で表示されている
http://0.0.0.0:7860にアクセス
起動後に表示された画面にMiniGPT4で使った画像とプロンプトを入れて試しました。
ライセンスが
The service is a research preview intended for non-commercial use only.
だそうです。残念!