#66【日本向け進化系AIモデル?】Sakana AIの画像言語モデルを試してみた
おはようございます。
35営業日後に『生成AI活用法』セミナーを開催するアヒルです。ナンプラーを頻繁に使います。
今日はSakana AIという企業の発表したモデルを使ってみた結果をまとめていきます。
Sakana AIとは?
Sakana AIは、2人の元Google研究者によって2023年に東京に設立されたAIスタートアップ企業です。
例によって特徴をPerplexity AIにまとめてもらいます。
"Sakana"は、生物の模倣を表しているんですね。
既存のモデルを掛け合わせてより複雑な処理を可能にする、まさに進化系AIモデルを構築しているすごい企業のようです。
(それを進化系モデルマージ手法と呼ぶようです。)
画像言語モデル
Sakana AIはいま、実験的に以下の3つのモデルを進化系モデルマージで構築しています。
うち2と3はデモを公開しているようなので、今回は2. EvoVLM-JPを使用してみます。
試してみた
デモはHaggingFace🤗から利用できます。
写真をアップロードし、写真に関する指示や質問等を投げかけることができます。
いくつか試してみました。
①食べ物の写真
マックのメニューから、期間限定の"香ばし醤油マヨたまごてりやき"なるバーガーを借りてきて説明してもらいました。
チーズ、トマト、オニオンは写真からは確認できませんが、ハンバーガーならこんなものも入っているだろうという付加情報なんでしょうか。
②日本文化の写真
日本語に特化したモデルなら、日本の文化にも強いのか、検証してみます。
金閣寺の写真を与えると、見事金閣寺という名前を出してきました。
鹿苑寺の読み方をちょっと間違えてるけど、まぁ日本人だって読み間違えてる人きっといるでしょう。
もういっちょ文化的なものを。
こちらは空海が書いた風信帖という作品(手紙)の一部です。
さすがに草書は読めませんでしたが、これまた日本人だって読めない人のほうが多いでしょう。
それでも、紙に墨で書かれたものだということは認識できていました。
③なんとも言えない顔の人の写真
最後に、無料画像サイトから引っ張ってきた人の写真を見せてみました。
服装や動作などは読み取れている様子。
表情や心情を推察することはできなかったようですが、この人の表情は自分にもよくわかりません。
次回予告
Sakana AIの画像言語モデルを使用して、画像からテキストにしてもらう作業を試しました。
自分の関係する業務に無理やり落とし込むならば、ECサイトの商品説明とかを肉付けしなきゃいけない時に、商品の画像を与えて詳しく説明してもらうとか、考えられる使い方を紹介してもらうとかできるかもしれないです。
明日はデモが公開されているもう一つのモデル、EvoSDXL-JPで今度は画像生成を試してみます。
お読みいただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?