Geminiのデモ動画が本当ならすげー！！っていう検証(1)

2024年1月6日 18:18

1.abstract

2023年12月に次世代AIモデルと称したGeminiがGoogleから発表されました！！（私は学会で知ったのですが…🤫🤫）
その中にGeminiを使用したデモ動画がありまして、そこでは対話形式で画像の内容を判別したり、さらには判別内容からさらなる提案をしたりしており、素人ながら本当にできることならすごいなーと思い見ておりました。

2.すご！本当にできることなら…ネ😇

では実際、私のような素人でもデモ動画のようなことをできるのでしょうか？なぜこのような疑問を持ったかというと、一部では以上のデモ動画がフェイクと言われているからです。
＊具体的には、じゃんけんのタスクはヒントのプロンプトを与えて出力を出していること、誇張表現がされていること(例えば、専門の知識を使用する問題では事前に「あなたは〇〇の専門家です」などの指示をする必要があるが、それを明示していない)ことなど。

3.使ってみよう

では実際に素人が使ったら同じようなことができるの！？
検証してみましょう。
今回はGeminiを搭載したGoogle Bardを使用してデモ動画と同様の内容を送り、同様の回答が出るのか試してみようと思います。

4-1.ノートの判別

Me;これはなんですか(画像添付)

Gemini;あなたが送った画像は、木製のテーブルの上に置かれたノートブックです。ノートブックは、白色の表紙と、黒色の罫線が引かれたページが特徴です。ノートブックは、開いた状態で置かれています。
ノートブックは、さまざまな用途に使用することができます。たとえば、メモを取ったり、アイデアを書き留めたり、日記を書いたりすることができます。また、ノートブックは、創造的な表現の手段としても使用できます。たとえば、絵を描いたり、詩を書いたり、音楽を作曲したりすることができます。
このノートブックは、どのような用途に使用されているのでしょうか。それは、ノートブックの持ち主にしかわかりません。しかし、このノートブックが、その持ち主の大切なものであるということは、想像に難くありません。

Bardより

ノートがあることだけを判別してくれるのかと思いきや、ノートの特徴や状態、さらにノートを置いている机の材質まで教えてくれています。
デモ動画では一枚の紙を使用していましたが、このタスクは正常に遂行できそうです。

4-2.書いたものの判別(滑らかな線)

Me;これはなんですか（画像添付）

Gemini;あなたが送った画像には、白い背景に、黒いインクで書かれた単語「n」が描かれています。単語は、中央に大きく書かれており、周囲に余白があります。
単語「n」は、アルファベットの23番目の文字です。また、日本語では「ン」と読みます。
この画像が何を意味するのかについては、さまざまな解釈が考えられます。
・単純に、アルファベット「n」を描いただけかもしれません。
・何かの始まり、または終わりを象徴しているのかもしれません。
・何かの秘密やメッセージが隠されているのかもしれません。
画像の作者の意図はわかりませんが、見る人によってさまざまな解釈ができる、奥深い画像であると言えるでしょう。

以下に、いくつかの可能性のある解釈を挙げます。
・アルファベット「n」は、新しい始まりを表すシンボルとして解釈できます。この画像は、新しい目標や夢に向かって進もうとしている人の気持ちを表現しているのかもしれません。
・アルファベット「n」は、終わりを表すシンボルとして解釈できます。この画像は、何かの終わりを受け入れ、新たなスタートを切ろうとしている人の気持ちを表現しているのかもしれません。
・アルファベット「n」は、秘密やメッセージの象徴として解釈できます。この画像は、何かの秘密やメッセージを暗示しているのかもしれません。

画像の作者の意図はわかりませんが、見る人によってさまざまな解釈ができる、奥深い画像であると言えるでしょう。

Bardより

滑らかな線を書いてみましたが、Geminiはnと判別したようです。なんで..😂
そしてnの解釈が深々とかかれているのがじわじわきます。
ちなみに、デモは「滑らかな線が見えます」との出力でした。環境の問題なのか、もっと太い線じゃないといけないのか不明ですが、再現はできませんでした。

4-3.書いたものの判別(アヒル)

Me;これは？

Gemini;あなたが送った画像は、ノートパソコンの画面に描かれた、リスと木の絵です。リスは、ノートパソコンの左側に座っており、木は、ノートパソコンの右側に描かれています。
リスは、大きな目と丸い耳が特徴です。木は、緑色の葉と茶色の幹が特徴です。
この絵は、シンプルながらもかわいらしい印象を与えます。リスと木が、ノートパソコンの中で楽しく遊んでいる様子が想像できます。
この絵は、どのような意味を持っているのでしょうか。それは、絵を描いた人にしかわかりません。しかし、絵を見る人によって、さまざまな解釈ができる、奥深い絵であると言えるでしょう。
以下に、いくつかの可能性のある解釈を挙げます。この絵は、リスと木の友情を表現しているのかもしれません。
この絵は、リスの自由な精神を表現しているのかもしれません。
この絵は、木の成長や生命力を表現しているのかもしれません。
絵を描いた人の意図はわかりませんが、見る人によってさまざまな解釈ができる、奥深い絵であると言えるでしょう。

Bardより

今度はリスと木と判別しました。
上のキーボードが悪さしたのでしょうか..？しっかり判別対象のみを移さないと誤判別の元になりそうな気がします。
ちなみに、デモと同じ画像ならアヒルと判別してくれました。

ならば、判別対象のみがうつるようにトリミングして再度試してみます。

・・・(´・ω・)
周りにものがあることは問題ではなさそう？？
それとも絵が下手くそということ？？？ですか？？？？？

4-4.書いたものの判別（番外）

ちょっと面白かったので、載せておきます。

Me;これは？

Gemini;あなたが送った画像は、黒い背景に、白とグレーの線で描かれた、鶏の絵です。鶏は、右向きに描かれており、頭を上げて何かを見つめているように見えます。
鶏は、長い首と大きな目が特徴です。また、鶏の羽毛は、白とグレーで表現されています。
この絵は、シンプルながらも力強い印象を与えます。鶏が、何を見つめているのか、想像が膨らみます。
この絵は、どのような意味を持っているのでしょうか。それは、絵を描いた人にしかわかりません。しかし、絵を見る人によって、さまざまな解釈ができる、奥深い絵であると言えるでしょう。
以下に、いくつかの可能性のある解釈を挙げます。
・この絵は、鶏の力強さや勇気、生きる力を表しているのかもしれません。
・この絵は、鶏の自由な精神や、新たな挑戦への意欲を表しているのかもしれません。
・この絵は、鶏の希望や夢を表しているのかもしれません。

絵を描いた人の意図はわかりませんが、見る人によってさまざまな解釈ができる、奥深い絵であると言えるでしょう。

また、この絵は、日本発の人工知能「Gemini」が描いたものであることも特徴です。Geminiは、Google AIが開発した、テキストと画像の両方を処理できる大規模な言語モデルです。Geminiは、画像生成の能力も高く、さまざまなジャンルの絵を描くことができます。

この絵は、Geminiの能力を示すものであり、今後、Geminiがどのような絵を描くのか、期待が高まります。

具体的な解釈としては、鶏は、日本では古くから幸運や繁栄の象徴とされてきました。そのため、この絵は、新しい年が始まる2024年を、幸運と繁栄に包まれる年とする願いが込められているのかもしれません。
鶏は、朝日に向かって鳴く習性があります。そのため、この絵は、新しい年の幕開けを、希望と明るい未来への期待を込めて表現しているのかもしれません。
鶏は、元気で活発な動物です。そのため、この絵は、新しい年が、前向きで活力に満ちた年となることを願って描かれているのかもしれません。

このように、この絵は、さまざまな解釈ができる、奥深い絵であると言えるでしょう。

Bardより

こんなゆるっとした鳥が超真面目で思わず笑ってしまいました。

最後まで閲覧ありがとうございます。
今回はここまでにしようと思います。
環境要因的なものもありそうなので、引き続きGeminiを遊んでみようと思います。
引き続きまとめていくので、ぜひ続きあがったら覗いてみてください🥱

(1/8更新)
続きを更新しました

この記事が参加している募集

#AIとやってみた

31,551件

この記事が気に入ったらサポートをしてみませんか？