見出し画像

【Japanese Stable VLM】Stability AI、最新の日本語画像言語モデルを忖度抜きで使用レビューしてみた

Japanese Stable VLMは、2023年11月13日にStability AI Japanから公開された最新の日本語画像言語モデル(Vison-Language Model:VLM)です。

このモデルは、入力画像のキャプションを生成できるだけでなく、入力画像についての質問にも回答できます。

また、画像のようにキャプションに入れてほしい単語をあらかじめ設定することもできます。

Stabilyty AIは、このモデルを画像と日本語を融合した「商用利用可能」な革新的なモデルと謳っており、簡単に画像の説明や画像に関する質疑応答ができます。

現在、このモデルのリリース告知ポストには700以上のいいねがついており、注目を集めています。

今回は、Japanese Stable VLMの概要や使ってみた感想をお伝えします。

是非最後までご覧ください!

Japanese Stable VLMの概要

Japanese Stable VLMは、2023年11月13日にStability AI Japanから公開された最新の日本語画像言語モデル(Vison-Language Model:VLM)です。

このモデルは、入力画像のキャプションを生成できるだけでなく、キャプションに入れてほしい単語をあらかじめ設定することもできます。

また、画像についてのユーザーの質問に回答する機能も搭載されており、マルチな機能を持つVLMとなっています。

Japanese Stable VLMは、Stability AIが開発したJapanese Stable LM Instruct Gamma 7Bをベースに開発されており、日本語による高精度のキャプション生成および質疑応答を可能にしています。

実はこれ以前に、研究目的で構築されたJapanese InstructBLIP Alphaという画像キャプション生成が可能なモデルが公開されているのですが、今回のJapanese Stable VLMはさらに進化したモデルになっています。

具体的な違う点を紹介します。

  • 商用利用可能なライセンスで提供

  • 最新手法 LLaVA-1.5 のモデル構造・学習手法を適用

  • ベースとする言語モデルを「Japanese StableLM Instruct Alpha 7B」から、最新の「Japanese Stable LM Instruct Gamma 7B」に変更した

  • 新規に開発された独自機能の「タグ条件付きキャプショニング」機能を搭載

このモデルはSTABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSEで提供されており、商用利用するには条件を満たす必要があります。条件は、以下のリンクからご確認ください。

STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE

性能については詳しい情報は公開されていませんが、Stability AIの社内評価では、Japanese InstructBLIP Alphaと同等レベルの性能を有しているとのことです。

同等の性能できることが増えて、商用利用もできるって感じですね!

また、前述したように、画像についてのユーザーの質問に回答する機能も搭載されているのですが、これは動画のフレームを抜き取ることで、リアルタイムの動画のキャプショニングや質疑応答もできるようです。

Japanese Stable VLMは、モデルが公開されており、誰でもダウンロードして試すことができるので、実際に使ってみようと思います!

なお、Japanese Stable LM Instruct Gamma 7Bについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Japanese Stable LM Gamma 7B】Stability AI史上最強の日本語LLMが誕生!?

Japanese Stable VLMの使い方

Japanese Stable VLMは、Google Colabでノートブックが公開されているので、そこから使用できます。

japanese_stable_vlm.ipynb

基本的には実行ボタンを押していくだけでgradioが起動して使用することができるのですが、いくつか注意点があります。

まず、Japanese Stable VLMを使用するには、以下のHugging Faceのページで、連絡先情報の共有に同意する必要があるので、それを行ってください。

stabilityai/japanese-stable-vlm

次に、Colabでload_inを設定する部分があるのですが、もし無料プランで使用している場合はint8を設定し、有料プランでA100などのGPUを使用できる場合は、fp32fp16を選択してください。

ただし、int8ではパフォーマンスが低下することがあり、fp32はfp16より優れているようなので、有料プランでA100GPUを使用し、fp32を選択するのが最も良いでしょう。

それでは実際に実行してみましょう!

Japanese Stable VLMを実際に使ってみた

これ以降は、以下の記事からご確認ください。

他の記事もご覧になりたい方は、こちらをご覧ください。

この記事が気に入ったらサポートをしてみませんか?