AIは感覚を手に入れた
OpenAIが「GPT-4o」を発表しました。
このモデルでは、音声、視覚、テキストのリアルタイム処理ができるようになり、従来のAIモデルを大きく上回る性能を誇ります。
生成AIは開発競争が過熱しており、各社が新モデルを続々と発表していますが、ここへ来て本命のChatGPTが大きく一歩抜きん出た印象です。
リアルタイムに音声で対話ができる
GPT-4o最大の特徴は、テキストだけでなく音声や視覚なども単一モデルで処理することができるようになった点です。
百聞は一見に如かず。こちらのデモ動画をご覧ください。
GPT-4oのデモという説明がなければ、スマートフォンでビデオ通話をしているだけのように見えるでしょう。そのぐらい自然に、AIと音声で対話することができるようになったのです。
動画認識や音声認識の機能は段階的に提供される予定だそうですが、現時点でも日本語や英語でリアルタイムに対話できるレベルです。
コールセンターやサポートデスクなどは、早晩AIに置き換わるかもしれませんね。人間はカスハラに悩まされることがなくなります。
日本語同士の対話だけでなく、こちらが日本語で喋ったことを英語に翻訳して話すこともできました。海外で通訳の役目も果たしてくれます。
この進化はまじでやばい。
画像や動画の内容を理解できる
画像理解の精度も向上しています。下記の画像で検証してみましょう。
ChatGPT 4oに解説してもらった結果がこちらです。
左側の3Dプリンターやミシンもちゃんと認識できていますし、Trotecの「Speedy 100」というメーカー名、機種名まで理解しました。
OpenAIのデモ動画のように、いずれリアルタイムでスマートフォンのカメラに映った映像を分析できるようになるわけです。
ツアーガイドなんかもできそうですね。
GPT-4oは目と耳と口を手に入れた
以前の投稿で、現在の生成AIはクラウド上で動く無形のシステムであり、生物に例えるなら脳みそだけで身体がない存在だと書きました。
デモ動画のGPT-4oは、スマートフォンのカメラで室内の状況を認識して、ユーザーの声による呼びかけを理解し、音声で返答しています。
さながら目と耳と口を手に入れたようなものです。AIに外界を感知するための感覚が、着々と実装されていきます。
進化速すぎませんか?
音声で使ってみて感じたのは、テキストベースで対話するのに比べて圧倒的に速い。処理速度に比例して、思考のスピードも向上します。
SiriやAlexaなど、これまでも音声で操作できるAIは存在しましたが、GPT4oの処理速度の速さと汎用性の高さはレベルが違います。
今はコンピューターを操作するのにキーボードでちまちまテキストを入力していますが、音声入力がメインになる時代が来るかもしれません。
もはや魔法に近い感覚です。
音声による操作はスタンダードになるか?
早速、ChatGPT 4oに英会話の練習相手になってもらっています。
こちらのレベルに合わせて言葉を選んでくれますし、分からないところは日本語で話しかけたら丁寧に教えてくれます。
たとえ単語が出て来なくて沈黙してしまっても、AIならいつまでも待ってくれますし、なにより相手が人間ではないというだけで、心理的ハードルが圧倒的に低いです。
英会話に限らず、ティーチングやコーチングなどもChatGPT 4oで充分ではないでしょうか?
音声で対話ができるようになって、これまで以上にChatGPTとのコミュニケーションが楽しくなりました。
AIが目と耳と口を手に入れたことによって、人間とコンピューターの関わり方は大きく変わってくる予感がします。
では。
この記事が気に入ったらサポートをしてみませんか?