ビジョン認識マルチモーダルLM: Qwen-VLを試す
Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。
お試し環境Windows11(WSL2)
ローカルPC RTX3090(24GB)
私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか