![見出し画像](https://assets.st-note.com/production/uploads/images/143120405/rectangle_large_type_2_777c823c99a4508ba4b8d6c65d2b5601.png?width=1200)
#66【日本向け進化系AIモデル?】Sakana AIの画像言語モデルを試してみた
おはようございます。
35営業日後に『生成AI活用法』セミナーを開催するアヒルです。ナンプラーを頻繁に使います。
今日はSakana AIという企業の発表したモデルを使ってみた結果をまとめていきます。
Sakana AIとは?
Sakana AIは、2人の元Google研究者によって2023年に東京に設立されたAIスタートアップ企業です。
例によって特徴をPerplexity AIにまとめてもらいます。
主な特徴
・生物の模倣(biomimicry)に基づいた、柔軟で適合性の高いAIモデルを開発することを目指している
・多数の小さなAIモデルを協力させ、複雑な結果を出力する新しいアプローチを採用
・進化的アルゴリズムを用いて既存モデルを融合し、新たな基盤モデルを自動構築する手法を開発
・日本語対応の数学的推論モデル「EvoLLM-JP」や画像言語モデル「EvoVLM-JP」など、日本市場向けの最適化モデルを公開
Sakana AIは、従来の大規模AIシステムとは異なり、自然界の集合知能に着想を得た革新的なAIモデル開発を目指す注目の企業です。
"Sakana"は、生物の模倣を表しているんですね。
![](https://assets.st-note.com/production/uploads/images/143098695/picture_pc_0735c6cb8df709be24860aedcceb2cc4.png?width=1200)
より。
既存のモデルを掛け合わせてより複雑な処理を可能にする、まさに進化系AIモデルを構築しているすごい企業のようです。
(それを進化系モデルマージ手法と呼ぶようです。)
画像言語モデル
Sakana AIはいま、実験的に以下の3つのモデルを進化系モデルマージで構築しています。
1.EvoLLM-JP:数学的推論が可能な日本語の大規模言語モデル(LLM)
2. EvoVLM-JP:日本語で対話可能な画像言語モデル(VLM)
3. EvoSDXL-JP:高速な日本語画像生成モデル
うち2と3はデモを公開しているようなので、今回は2. EvoVLM-JPを使用してみます。
試してみた
デモはHaggingFace🤗から利用できます。
![](https://assets.st-note.com/production/uploads/images/143099329/picture_pc_c035f559004360dcdbf23f4a2e7d3312.png?width=1200)
写真をアップロードし、写真に関する指示や質問等を投げかけることができます。
いくつか試してみました。
①食べ物の写真
![](https://assets.st-note.com/production/uploads/images/143099441/picture_pc_c65ed9ecc8b4df59366c93e25f5632ef.png?width=1200)
マックのメニューから、期間限定の"香ばし醤油マヨたまごてりやき"なるバーガーを借りてきて説明してもらいました。
チーズ、トマト、オニオンは写真からは確認できませんが、ハンバーガーならこんなものも入っているだろうという付加情報なんでしょうか。
②日本文化の写真
日本語に特化したモデルなら、日本の文化にも強いのか、検証してみます。
![](https://assets.st-note.com/production/uploads/images/143099626/picture_pc_a322632f77ffbb776f4373c78abe2b5a.png?width=1200)
金閣寺の写真を与えると、見事金閣寺という名前を出してきました。
鹿苑寺の読み方をちょっと間違えてるけど、まぁ日本人だって読み間違えてる人きっといるでしょう。
![](https://assets.st-note.com/production/uploads/images/143099770/picture_pc_16aab1e245040dfc36d996cb629b3804.png?width=1200)
もういっちょ文化的なものを。
こちらは空海が書いた風信帖という作品(手紙)の一部です。
さすがに草書は読めませんでしたが、これまた日本人だって読めない人のほうが多いでしょう。
それでも、紙に墨で書かれたものだということは認識できていました。
③なんとも言えない顔の人の写真
最後に、無料画像サイトから引っ張ってきた人の写真を見せてみました。
![](https://assets.st-note.com/production/uploads/images/143100184/picture_pc_a5240dee83e6377e261f3347c9a8deda.png?width=1200)
服装や動作などは読み取れている様子。
表情や心情を推察することはできなかったようですが、この人の表情は自分にもよくわかりません。
次回予告
Sakana AIの画像言語モデルを使用して、画像からテキストにしてもらう作業を試しました。
自分の関係する業務に無理やり落とし込むならば、ECサイトの商品説明とかを肉付けしなきゃいけない時に、商品の画像を与えて詳しく説明してもらうとか、考えられる使い方を紹介してもらうとかできるかもしれないです。
明日はデモが公開されているもう一つのモデル、EvoSDXL-JPで今度は画像生成を試してみます。
お読みいただきありがとうございました!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?