1.abstract
2023年12月に次世代AIモデルと称したGeminiがGoogleから発表されました!!(私は学会で知ったのですが…🤫🤫)
その中にGeminiを使用したデモ動画がありまして、そこでは対話形式で画像の内容を判別したり、さらには判別内容からさらなる提案をしたりしており、素人ながら本当にできることならすごいなーと思い見ておりました。
2.すご!本当にできることなら…ネ😇
では実際、私のような素人でもデモ動画のようなことをできるのでしょうか?なぜこのような疑問を持ったかというと、一部では以上のデモ動画がフェイクと言われているからです。
*具体的には、じゃんけんのタスクはヒントのプロンプトを与えて出力を出していること、誇張表現がされていること(例えば、専門の知識を使用する問題では事前に「あなたは〇〇の専門家です」などの指示をする必要があるが、それを明示していない)ことなど。
3.使ってみよう
では実際に素人が使ったら同じようなことができるの!?
検証してみましょう。
今回はGeminiを搭載したGoogle Bardを使用してデモ動画と同様の内容を送り、同様の回答が出るのか試してみようと思います。
4-1.ノートの判別
ノートがあることだけを判別してくれるのかと思いきや、ノートの特徴や状態、さらにノートを置いている机の材質まで教えてくれています。
デモ動画では一枚の紙を使用していましたが、このタスクは正常に遂行できそうです。
4-2.書いたものの判別(滑らかな線)
滑らかな線を書いてみましたが、Geminiはnと判別したようです。なんで..😂
そしてnの解釈が深々とかかれているのがじわじわきます。
ちなみに、デモは「滑らかな線が見えます」との出力でした。環境の問題なのか、もっと太い線じゃないといけないのか不明ですが、再現はできませんでした。
4-3.書いたものの判別(アヒル)
今度はリスと木と判別しました。
上のキーボードが悪さしたのでしょうか..?しっかり判別対象のみを移さないと誤判別の元になりそうな気がします。
ちなみに、デモと同じ画像ならアヒルと判別してくれました。
ならば、判別対象のみがうつるようにトリミングして再度試してみます。
・・・(´・ω・)
周りにものがあることは問題ではなさそう??
それとも絵が下手くそということ???ですか?????
4-4.書いたものの判別(番外)
ちょっと面白かったので、載せておきます。
こんなゆるっとした鳥が超真面目で思わず笑ってしまいました。
最後まで閲覧ありがとうございます。
今回はここまでにしようと思います。
環境要因的なものもありそうなので、引き続きGeminiを遊んでみようと思います。
引き続きまとめていくので、ぜひ続きあがったら覗いてみてください🥱
(1/8更新)
続きを更新しました