見出し画像

任意の画像に対する質問になんでも答えてくれるミニマムオープンソースAIツール「moondream」を試してみる

moondreamとは

Moondream は任意の画像に対して現実世界の質問に答えることができるコンピューター ビジョンモデル。オープンソースで配信されています。
現在のモデル市場からすると非常に小さく、パラメーターは 16 億しかないとのこと。
この小ささで、携帯電話などを含むさまざまなデバイス上でローカル実行できるようになっているのが売りみたいですね。


プロジェクトページ類

🌐プロジェクトページ類はこちら。

試してみる

moondreamは超シンプルにアップロードした画像に質問してレスポンスを返してくれるようです!

なので、まずは画像をアップロード

早速かわいい黒猫ちゃんの画像を入れてみました!

香箱座りの黒にゃんこ

「これは犬ですか?」とどうしようもない質問をしてみると…

「いいえ、これは犬ではありません。 黒猫です。 」

普通にお返事を頂きました!

他の画像でも試してみたいと思います。
この5匹の猫の絵で試してみるとこれも真っ当な答えをくれました。

いいえ、これは犬ではありません。 床に座っている猫の群れです。

質問を変えて、どんな状況かを伺ってみると、画像の内容を話してくれました。

状況は、リビングルームの敷物の上に座っている6匹の猫のグループです。 彼らは皆カメラを見つめており、おそらく写真のためにポーズをとっています。 部屋にはソファ、鉢植え、数冊の本があり、居心地の良い快適な雰囲気を作り出しています。

6匹のグループというのはちょっと惜しいな〜
でもほぼほぼ状況をそのまま解説してくれてます!

このあとは他の写真でも試してみた結果を載せておきます。

その他の検証

これはどういう状況?→この画像に描かれている状況は、雨の日で、窓枠に青い猫が座っています。 猫は窓の外を眺めており、おそらく雨を観察しているか、外の世界を観察しています。 猫と窓の存在は、それが家庭環境、おそらく自宅かペットフレンドリーな施設であり、猫が座って景色を楽しむことができる場所であることを示唆しています。 雨の天気は、猫が苦痛や不快感の兆候を示さないことから、猫が快適で環境に慣れていることを示している可能性もあります。
この画像は、テーブルの上に置かれた透明なガラス容器の中に、カラフルなガラス立方体のグループが置かれている状況を示しています。 立方体はコンテナ内で浮いているかのように配置されています。 この配置により、立方体が重力に逆らって容器の底に留まらないように見えるため、興味深い視覚効果が生まれます。 このアレンジメントは、芸術的な展示、創造的なプロジェクト、またはユニークな装飾の一部である可能性があります。
この画像は、複雑に彫刻された大きなガラスの卵が青い光で照らされ、魅惑的で視覚的に印象的なディスプレイを生み出す、ユニークで芸術的な状況を描いています。 卵はスタンドの上に置かれており、その存在感と美しさをさらに高めています。 照らされた卵と青い光の組み合わせが魅惑的なシーンを生み出し、見る人の注目と賞賛を集めそうです。 この芸術的なディスプレイは、特別なイベントの一部、装飾品、または家や会場の創造的な目玉となる可能性があります。
この画像には、ラップトップ、携帯電話、タブレットなどのさまざまな電子機器と多数の本に囲まれた男性が描かれています。 彼はマルチタスクを行っているようで、おそらく複数のプロジェクトに取り組んでいるか、複数の責任を担っています。 このシーンは、男性が忙しい環境、おそらくテクノロジー関連のワークスペース、または複数のタスクを同時に管理するマルチタスクの個人にいることを示唆しています。 多数の本や電子機器の存在は、彼が広範な知識とさまざまなツールやリソースの使用を必要とする職業に従事していることを示しています。
状況は、机に座って会話をしている男女です。 男性はコンピューターのマウスを持ち、女性は疑問符を持っており、問題について話し合っているか、情報を求めている可能性があることを示唆しています。

結構意地悪な画像でもしっかり返答してくれています!
返答もめちゃくちゃ早くて、ローカルで実行できるしセキュアでとてもいいですね🌝

chatGPT4oの場合

ちなみに2024年5月16日現在、chatGPTが4oにアップデートされ、画像の読み込みと状況の出力もできるようになりましたが、オープンソースで特化したAIというのはまたすごいアップデートを突然することもあるので今後のmoondreamの更新に期待です!!

chatGPT4oの返事はこんな感じ

色々便利になっていきますね!
今日はここまで〜〜

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?