見出し画像

Google Colab で LLaVA-1.5 を試す

「Google Colab」で「LLaVA-1.5」を試したので、まとめました。

【注意】Google Colab Pro/Pro+ で動作確認しています。

1. LLaVA-1.5

「LLaVA-1.5」は、画像分析も可能なマルチモーダルなオープンソースLLMです。11のベンチマークで最先端(SoTA)を達成しています。

2. Colabでの実行

Colabでの実行手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール
!git clone https://github.com/haotian-liu/LLaVA.git
%cd LLaVA
!pip install -e .

(2) CLIでの実行。
初回実行時はモデルのダウンロードに時間がかかります。

!python -m llava.serve.cli \
    --model-path liuhaotian/llava-v1.5-13b \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-8bit

今回は、公式で提供されているサンプル画像を使います。

・view.jpg

(3) 質問応答。
USER:」と表示されたら質問を入力します。

USER: 写真を日本語で説明してください。

ASSISTANT: この写真は、大きな湖に突き出した木製の桟橋を描いています。桟橋は森に囲まれており、静かで自然な雰囲気を持っています。湖の水は平静で、桟橋がこの場所で最も注目すべき場所です。このシーンは、リラクゼーションや思考のための理想的な場所です。

関連



この記事が気に入ったらサポートをしてみませんか?