見出し画像

GPT4o使ってみた体験記《プチファーストレビュー》

エグい!エグすぎる!
ChatGPT4oをまず最初に使って試してみた時の感想です。

一言でいうと、ChatGPTに目が付いた!

え、どういうこと?
わけわからん、と言われると思うので、早速、具体的に使ってみた実際を書きます。きっと数日後には沢山、同じような記事、多くの人がアップするだろうから、この投稿の鮮度は約1日(いやもっと短いかも)です😅

まずご自身が使っているスマホアプリ、Webの左上に

バージョンアップされると左上にGPT-4oが選べるようになります。

もし、上の表示がまだの方は、以下にアクセスしてみてください!

https://openai.com/index/hello-gpt-4o/

この画面に遷移します

続いて、Try on ChatGPTをクリック。

ここをクリックするといつも使うChatGPT入力画面に遷移して、そこにGPT-4oがあるはず

はい、これで使えるはずです。
で、何がどう変わったの?詳細は私よりもっと詳しい方たちが14日の朝には詳細記事を上げていると思うので、自分が凄いな!と思ったリアル早朝テストのことをアップするのですが、一応公式サイトの記述としてはこういうことだそうです。

GPT-40(O"は"omni "の意)は、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。GPT-40は、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50%安価です。GPT-40 は、既存のモデルと比較して、視覚と音声の理解において特に優れています。

ということらしいのですが、ようするに今まではテキストタイピングあるいはスマホなら音声で言葉を入力すると、それに対して答えるという使い方だったわけですよね。
それが、画像等でもOKだよということでスマホのカメラ機能を使って、細かい説明なしに、質疑応答ができるようになった。ということです。
つまり人工知能が目を持つに等しい感じの進化をしたということ。

なので、早速、試してみました。

openAIのYouTube Liveのアーカイブ画面が目の前にあったので、スマホで撮影して、左下の+ボタンタップして撮った写真をアップ、右のマイクアイコンをタップして「動画をシェアする方法を教えてください」と聞いた。

YouTubeのとか、細かい説明せず、撮ったYouTube画面をアップして「動画のシェアの方法」と短く聞くだけでPCの場合とスマホの場合の詳細手順を教えてくれました。

次に眼の前のMacBook Airのデスクトップ画面が目に映って、ちょうどシステム設定のサウンド設定画面を開いていたので、入力項目にあった「機器セット」について聞いてみた。

あらー、ググるよりもシンプルでわかりやすい説明してくれた気がする。
結構PCやスマホいじっていて、ふだん使わない機能とかあっても、よくわからない名称で怖くて触れない、というような機能のボタンも撮影してChatGPT4oに聞けば即答してもらえます!

同じくデスクトップにYouTube画面があったのでサッカーのオフサイドについての説明動画があったので、説明なしにオフサイドになった瞬間の映像を撮って聞いてみました。

静止画なので左上に写り込んだ文字を読んでいると思われるが、openAIのデモでは動画で一連の流れで審判がフラッグ振るまで読み込ませると、ちゃんとオフサイドが発生と判断できるらしい!

続いて、朝露に濡れる庭の花の名前を聞いてみました。

左、正解! 右、正解! 君は牧野富GPT郎や!
花シリーズでバーベナ、正解!右の写真のタグはサントリーの品種改良種の品名です。
次は山野草類の高山植物なのでマイナーだったためか不正解!残念。正解は黒花タマシャジン。
続いてオリーブの木、葉っぱの特長から識別するのか? 正解!
続いて花の咲き終わったミモザ、アノテーションでこの花と強調。アカシア正解!
ならば部屋にあるコケ玉ではどうだ?おお、正解!やはり牧野富GPT郎や!

ということで思わず植物名前当てに熱中してしまいましたが、パーソナルAIアシスタントがスマホにやってきた!という感じですね。
デモを見る限りでは動画でもいけるようになるような話しだったので、夏にあるオリンピックでマイナーなルールがよくわからない競技をスマホカメラにTVを映しておいて、気になったプレイがあったら、タップして「なんでこのプレーがファールなの?」と聞けば、教えてくれるそうです。

つまりレンズアイを通して、全ての世界認識を得られるという…。
凄い進化を遂げてきました。いわく、今後、マニュアル本の類はいらなくなるなあ、という人がいて一連の操作を動画で撮って、ここで画像をマスクするにはどうしたらいいの?と聞けば手順を教えてくれるらしい。
実験はしていませんが、たぶん、プリンタの型番撮って、このプリンタのインク品番教えて!とか、紙詰まりの解決方法は?とかで教えてくれるようになるかと。

まあ、とにもかくにも、牧野富GPT郎先生には成れることはわかったので、散歩、ハイキング、ピクニックのお供にChatGPT4oをおススメします😄

花でも、虫でも、道順でも、聞いてみましょう!

公開してからの補足アップデート
この音声ベースの応答、多くの識者が指摘するところによると、応答速度の早さが凄い!とのこと。確かに上のテストやって、即答性が違和感なかったです。まあ植物調べるのは調べている時間があるので、それなりの時間がかかるのですが、一般的な応答は早い。この早さが人と話しているような感覚を生み出すポイントですね。
zoomのオンラインミーティングですら応答にズレがあって、話しが被るときがありますから、この応答速度を実現しているのは画期的だそうです。

その辺のことを、なるほどな〜という感じで納得させてくれる以下に上げた足立さんの記事を読まれるといいかと。
AIが感情表現豊かな応答をしてくれる、という段に至っては感情を害されないように極力機械のような対応をするテレアポの中の人たちではなくて、早晩、AI にあの仕事は変わるな、と思いました。
人間がテレアポスクリプト忠実に話そうとして機械的になって、こちらからは冷たい事務的な印象しか受けない営業電話になっていて、AIの方が温かみがある、という逆転現象がしばらく起きるのでしょう。

それから、実験しずらかったので書いていないのですが、たぶんスマホ版ChatGPT4oは、ほぼリアルタイム通訳機として使えます。
YoutubeでのopenAIのライブ音声を通訳させたいな、と思いリスニングモードのスマホのChatGPT4oをかざすと、ちゃんと日本語になっていました。
しかも応答速度が早いので、翻訳ではなく通訳という感じのスピートな訳です。この使い方は、もうちょっと検証してから書きたいと思います。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?