マルチモーダルLLM「LLaVA」をDocker+Ubuntuで動かす
はじめに claudeやChatGPT-4oのように画像とテキストなど複数の入力を受け付けるマルチモーダルLLMが最近流行ってきています。研究の一環でマルチモーダルLLMについて調査をしており、特に個人のPCでも動作するサイズの「LLaVA」というモデルを研究に利用できないか考えてます。
私の研究室では、大量のGPUを使えるマシンに遠隔でアクセスしてそこでdockerコンテナを作り、その中で機械学習などの重い処理を行うのですが、今回LLaVAを動かすまでに結構手こずった