![見出し画像](https://assets.st-note.com/production/uploads/images/118378185/rectangle_large_type_2_a7d4d1d36095c86f28e890e3314c63a3.png?width=800)
画像の解釈が可能なLLM 『LLaVA-1.5』で遊ぶ
はじめに
おはこんにちばんは、えるです❢
画像が解釈可能といえばOpenAIさんのGPT-4Vですが、
オープンソースで解釈可能なLLMが公開されたとのことなので早速遊んでみました
公式はGitHubでいいのかな?
GitHub - haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.
設定
GoogleColabで試してみます
とりあえずまずは公式Web通りにやってみました
以下を順に実行していきます
!git clone https://github.com/haotian-liu/LLaVA.git
%cd /content/LLaVA
!pip install --upgrade pip
!pip install -e .
!pip install ninja
!pip install flash-attn --no-build-isolation
結果
設定後、以下を実行します
!python -m llava.serve.cli \
--model-path liuhaotian/llava-v1.5-7b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--load-4bit
画像ファイル指定(--image-file)はとりあえず公式Webのものをそのまま指定しています
実行するとユーザー入力が可能になるので、ひとまず画像について聞いてみたところ以下の感じです
![](https://assets.st-note.com/img/1696775395985-s2cLQ0eS3G.png?width=800)
画像が解釈可能だと出来ることの幅がかなり広がるので、これはまた色々遊べそうですねー✨
Gradioデモのほうも試してみたり、何か別のものに組み込んでみたりしてみたいです
この記事が気に入ったらサポートをしてみませんか?