マガジンのカバー画像

AIもろもろ

33
運営しているクリエイター

#マルチモーダルAI

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。 お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか