見出し画像

画像の解釈が可能なLLM 『LLaVA-1.5』で遊ぶ


はじめに

おはこんにちばんは、えるです❢
画像が解釈可能といえばOpenAIさんのGPT-4Vですが、
オープンソースで解釈可能なLLMが公開されたとのことなので早速遊んでみました

公式はGitHubでいいのかな?

GitHub - haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.

設定

GoogleColabで試してみます
とりあえずまずは公式Web通りにやってみました

以下を順に実行していきます

!git clone https://github.com/haotian-liu/LLaVA.git
%cd /content/LLaVA
!pip install --upgrade pip
!pip install -e .
!pip install ninja
!pip install flash-attn --no-build-isolation

結果

設定後、以下を実行します

!python -m llava.serve.cli \
    --model-path liuhaotian/llava-v1.5-7b \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-4bit

画像ファイル指定(--image-file)はとりあえず公式Webのものをそのまま指定しています

実行するとユーザー入力が可能になるので、ひとまず画像について聞いてみたところ以下の感じです

画像わかってそう👀

画像が解釈可能だと出来ることの幅がかなり広がるので、これはまた色々遊べそうですねー✨

Gradioデモのほうも試してみたり、何か別のものに組み込んでみたりしてみたいです


この記事が気に入ったらサポートをしてみませんか?