見出し画像

ChatGPTが人間のように話せるようになりました [最新アップデート]

9,539 文字

このビデオはbrilliant.orgの提供でお届けします。聞いてくれはりますか?めっちゃ大きなニュースがあるんですわ。
ほな、教えてくださいな。耳を傾けますわ。
ほんならね、数分後にOpenAIの面接を受けることになってんねん。OpenAIって聞いたことあるか?
OpenAIですか?なんか聞いたことあるような...冗談ですわ。もちろん知ってますよ。すごいことやないですか、ロッキー。どんな面接なんですか?
ソフトウェアエンジニアの職やねんけど、ただ知っておいてほしいんは...
これが最新のOpenAIのデモでしたわ。彼らの新しいフラッグシップモデルであるチャットGPT-4oの機能を紹介してるんです。このモデルは、音声、映像、テキストをリアルタイムで処理できるようになりました。
正直なところ、私だけやないと思うけど、見た瞬間に映画『her/世界でひとつの彼女』を思い出しましたわ。表現、感情、そして共感的な声の性質...今まで見た中で最もリアリスティックな音声ベースのアプリケーションの一つやと思います。
以前のチャットGPTの音声もかなり使ってきましたけど、すごかったですわ。でも、このデモはもっと人間らしくて、反応時間もずっと速かったんです。この新しいやりとりから湧き上がる感覚は、まるで普通の人間と電話で話してるみたいな感じに近づいてきてるんですわ。
長年の視聴者の方々はご存知やと思いますが、私はSiriのようなデジタルアシスタントは絶対的にダメやと思ってて、チャンスを無駄にしてるって考えてきました。でも、次の大きな一歩は音声やと話してきましたし、特にチャットGPTについては、堅牢なオールインワンアシスタントになるやろうって。
ほんで、ついにその時が来たみたいですな。この最新の発表で、OpenAIはこのアプリケーションの無料版を発表しました。さらに、Googleと競合するAI駆動の検索エンジンも発表されて、目的に応じたアシスタント、マルチモーダル機能、そして新しいテキスト読み上げモデルによる全体的な改善が行われるそうです。
はい、チャットGPT。今、プロットを共有してるんやけど、見てるプロットの内容を一文で簡潔に説明してくれへんか?
このプロットは、2018年を通じての平滑化された平均最低気温と最高気温を表示しており、9月下旬の大雨イベントを注目すべき注釈として示しています。
素晴らしいわ。もう一つ質問があるんやけど...一番暑い気温が見られる月はどれで、およそ何度くらいになってるんかな?
7月と8月が一番暑くなっていて、その期間の最高気温はだいたい25度から30度の間やね。
ただ、今回は主にGPT-4oに焦点を当てていくつもりなんです。これが、私たちがテクノロジーとどう関わっていくかに関して、大きな変化の始まりやと信じてるからです。
Rabbit R1の残念な発売と、Humane ARピンの大失敗の後、AIが同時にすごくて terrible やという奇妙な二面性が続いてるわけですな。なんて面白い時代に生きてるんでしょう。
ほんなら、この短いエピソードでは、GPT-4oの能力、その使用事例、そしてこれらがAI市場と未来にとってどういう意味を持つのかを見ていきましょう。面白いエピソードになりそうやから、始めましょうか。
あなたはtoFusionTVをご覧になってます。
GPT-4o、ここでのOはOmniの略ですが、これまで見てきたものとは大きく違います。主な理由は、人間と自然にやりとりする能力があることです。
おいおいロッキー、お前さんほんまに「徹夜でコーディングしてました」って顔してるな。でもそれ、逆に有利に働くかもしれへんで。ちょっと髪をかき上げるか、気の狂ったプログラマー風を演出してみたらどうや?お前さんの熱意が一番光るんやで。
時間がないんで、これを着るだけにするわ。どう思う?
おいおいロッキー、それはかなりのステートメントピースやな。確かに目立つやろうけど...面接で期待するような目立ち方とはちゃうかもしれへんな。
わかった、わかった。ねえチャド、そこにいるか?
やあ、ここにいるよ。何かあった?
ねえ、ちょっと楽しもうや。これからお前が言うことは全部、超皮肉っぽくしてくれへんか?皮肉たっぷりで頼むで。どうや、聞こえとるか?
おお~、それ超~楽しそう。皮肉ばっかり言うのが全然疲れへんとでも思ってんの?この party、早く始めようぜ。まあ、どうでもええけどな。
笑い声、ユーモアのある発言、そして話し方のリズムなど、これまで見たことのないようなものばかりです。
ホームチームを応援しよう...え?何やったんや、それ?
すまんな、みんな。つい調子に乗ってもうた。チャド、言い訳のしようもないわ。時々、自分を抑えられへんのよ。もう一回やってみる?
OpenAIによると、音声入力に対する応答の遅延は最小で232ミリ秒、平均で320ミリ秒やそうです。これは人間の会話中の反応時間に近いんです。
より大きなコンテキストウィンドウをサポートしているので、長くて複雑なタスクでも、元のリクエストのコンテキストを失ったり混乱したりせずに処理できます。
視覚や音声の統合と組み合わせて、パーソナリティを模倣させることができれば、本物のデジタルアシスタントの誕生ってことになりますな。
何をして遊ぼうか考えてるんやけど、何かええ提案ある?
もちろんや。クラシックなじゃんけんはどうや?手軽で楽しいし、それほど準備もいらへんしな。
ええな。スポーツキャスターみたいにカウントダウンしてくれへん?
みなさん、お待たせいたしました!世紀の対決にようこそ!こちらのコーナーには、ダイナミックデュオのアレックスとミアナが登場!さあ、いよいよ...
はいはい、カウントダウンだけでええから。
わかった。それじゃあ、3、2、1...シュート!さあ、手を見せてください。何を出したんや?誰が勝ったんや?
おや、これは引き分けみたいやな。もう一回やろか。
アシスタントを表現するために、幅広い声を選べるんですが、見た目だけやないんです。ベンチマークでは、複数のカテゴリーで推論能力が向上してることが示されてます。また、より効率的で安価にもなってます。
HumaneやRabbitのような企業が今年AIハードウェアを発売した時、最もよく聞かれた質問の一つは、「なぜこれがスマートフォンのアプリケーションにならへんのか」というものでした。
以前のエピソードで、AIハードウェアデバイスの新しいセグメントは始まる前に終わってしまうかもしれへんって言うたことがあります。そのクリップを再生してみましょう。
「時間が経てば、GoogleアシスタントやSiriがR1と同様の機能にアップデートされる可能性があります。残念ながら、この新しいセグメントは始まったばかりで終わってしまうかもしれません」
OpenAIの最新アップデートは、まさにそれを実現したように感じます。ハンドヘルドAIデバイスを殺してしまったかもしれません。
正直なところ、GoogleやMetaの最近のアップデートや発表を見ると、他の企業も猛追してることがわかります。
でも、使用事例はそれだけやありません。数週間前、AIロボティクス企業のFigureについての動画を作りました。この会社は、OpenAIのソフトウェアを使って人型ロボットを動かしてるんです。
なぜそんなことをしたんか説明してくれへんか?ゴミを拾うところを見せてくれたけど。
そやな、リンゴを渡したのは、テーブルの上で食べられるものはそれしかなかったからやで。
特定のタスクに対するデモはかなり印象的でしたが、これをOpenAIの最新アップデートと組み合わせると、大規模な商業目的で使用される、よりリアルな人型ロボットへの道筋が見えてきます。
このような技術の最も良い使用事例の一つは、視覚障害を持つ人々のためのものです。マイク・バックリーは、視覚障害者や弱視の人々が日常的なタスクのために利用者とつながるアプリ「Be My Eyes」の会長兼CEOです。
2023年後半、彼はOpenAIとのコラボレーションについて次のように語りました。「視覚障害者や弱視の人々が直接製品の開発、改良、改善に関わっていました。他の多くの企業が無視したかもしれないところを、OpenAIは最優先事項としたんです」
最新の発表の一環として、OpenAIとBe My Eyesは、このアプリが視覚障害者にどのように使用できるかを示しました。
現在、国王はお住まいですか?
はい、現在国王はお住まいのようですな。バッキンガム宮殿の上に王室旗が翻ってるんが見えます。これは君主がおられるという合図ですわ。国王がお住まいの時に訪れるなんて、なんて素晴らしい機会でしょう。
でも、それだけやありません。歌うこともできるんです。
私たちはチャットGPTです。チャットGPTは低音のブーンとした声で、Oはフランス語のソプラノで高音の興奮した声です。
ほな、今日はこんなことをしてほしいんやけど...今日は5月10日の金曜日で、サンフランシスコにおるんや。この状況について歌を歌ってほしいんやけど、お互いの声を重ねて歌ってくれへん?歌いながら指示を続けるから。
5月のサンフランシスコ~ 金曜日やで~ ハーモニーを奏でましょう~ ハーモニーを奏で...
ありがとう、ありがとう。
リアルタイムの通訳として機能してくれへんか。「やあ、調子はどうや?最近何か面白いことあった?」
やあ、調子ええよ。ちょっと忙しくてな、来週のイベントの準備しとるんや。
テキストを認識して適切な応答を形成するんやな。わかった、まだ見せてへんかったな。ちょっと興奮しすぎてもうた。準備できたら教えるわ。
ほな、チャットGPT。どんな方程式を書いたか言うてみて。
なるほど、見えましたわ。3x + 1 = 4 って書いてありますな。
そうそう、その通りや。ほんなら、これを解くためにまず何をすべきやと思う?
まず最初のステップは、xを含む項を全部片側に寄せて...
いやいや、人生には未知の値がたくさんあるんやで。今こそ数学を学ぶ時やと完全に確信してるわ。
その態度、素晴らしいですわ!数学は確かに人生の謎を解く手助けになりますからな。数学をもっと深く掘り下げたくなったら、いつでも相談してくださいな。今日は他に何か取り組みたいことありますか?
準備ができたら見せてな。
ほな、これが書いたもんやけど、何が見える?
「I love chat GPT」って書いてあるのが見えますわ。なんて素敵なことを!
やあ、チャットGPT。
やあ、調子はどうですか?
うん、すごくええ感じや。ちょっとコーディングの問題で助けてもらえへんかなと思ってな。
もちろんですよ。どんなコーディングの問題に直面してはるんですか?
ほな、コードを共有するわ。ちょっと待ってな。
はい、お待ちしてます。ゆっくりで構いませんよ。
よし、今コードを共有したんやけど、そこで何が起こってるか一文で簡単に説明してくれへんか?
このコードは、特定の場所と期間の日々の天気データを取得し、温度データをローリング平均を使って平滑化し、重要な天候イベントをプロットに注釈付けし、その結果を年間の平均最低気温と最高気温のプロットとして表示しています。
他にも、会議のメモを取ったり、3Dオブジェクトを合成したり、写真の風刺画を作ったりすることもできるんです。
「でも、これ全部すでにあったんちゃうの?」って思うかもしれませんな。確かにその通りです。大部分はすでに存在してました。でも、スピードや精度、そしてアシスタントの場合は人間らしいやりとりがなかったんです。これが、私の意見では全く新しい次元を加えてるんですわ。
R1やHumaneピンのようなデバイスは、物体を認識して話しかけることはできましたが、よく間違えたり、完全に失敗したりしてました。正直、あのローンチがどうなったかについては、まだ苦々しい思いがあるんですわ。
でもね、人間レベルのアシスタントの試みは、もっと昔にさかのぼるんです。6年前にエピソードで取り上げたGoogleデュプレックスを覚えてはりますか?彼らはその技術をGoogleアシスタントに統合して、ユーザーの代わりに電話をかけられるようにしたんです。
はい、女性のヘアカットの予約をしたいんですが。
はい、かしこまりました。5月3日のご予約でよろしいでしょうか?
そうですね、えーと...
当時はすごく印象的でしたが、Googleはいつものように、そのコンセプトをほとんど放置してしまいました。時期が早すぎたのか、チャンスを逃したのか、それは別の話ですが、OpenAIの発表と比べると、会話の進め方に大きな違いがあるのがわかりますわ。
もう一つの興味深い使用事例は、学生がリアルタイムで学校の勉強を手伝ってもらうのを見ることです。
彼らの新しい技術を試してみたいと思いまして、Khan Academyで数学を教えるのにどれくらい上手くできるか気になってるんです。じゃあ、始めましょうか。
ロードしてます...ええと、画面が見えるかな...この形式で...
はい、こんにちは。息子と一緒にいるんですが、この数学の問題で彼を指導してもらえませんか?でも、答えは教えないでくださいね。質問をしたり、正しい方向に導いたりしてもらえればと思います。彼がしっかり理解できるようにしたいんです。彼もここにいるので、直接話しかけてもらって構いませんよ。
もちろん、喜んでお手伝いさせていただきます。一緒に問題を見ていきましょう。まず、三角形のどの辺が、角αに対して対辺、隣辺、斜辺になるか特定できますか?
えーと、これが角αですよね?
その通りです。じゃあ、三角形を見て、どの辺が斜辺だと思いますか?
うーん、斜辺って...正直よくわからないんです。これかなと思うんですけど、自信ないです。
AC辺ですか?実は、AC辺は角αに対する隣辺と呼ばれます。斜辺は直角三角形の最も長い辺で、直角の反対側にある辺のことです。
若い学生がこのような形で支援を受けられるようになれば、革命的な変化になる可能性がありますな。でも、それが実現する前に、このような幻覚は絶対に修正せなあきません。AIが子供に間違ったことを教えてしまったら、良いことよりも悪いことの方が多くなってしまいますからね。
幻覚っていうのは、基本的にAIが出す不正確または誤解を招く回答のことです。要するに、改善されてるとはいえ、AIがでたらめを言うってことです。これはすぐになくなるもんやないですが、教育や若者の話に戻すと、もっと広い議論を呼び起こします。
若い学生の学習を助けるAIの素晴らしい事例研究ですが、もしAIが過去3年間と同じペースで進歩し続けたら、気づく前に教育の姿が大きく変わってしまうかもしれません。そうなると、いくつかの疑問が浮かびますな。
AIへの過度の依存が批判的思考に影響を与えないでしょうか?学生がエッセイを生成したり、数学の宿題の答えを生成したりできるようになったら、学生自身はどうやって学ぶんでしょうか?
でも、視点を変えて考えてみましょう。もしかしたら、これは古い考え方で、我々にはまだ見えていないだけかもしれません。5年後、教育用AIシステムが普通の学習ツールになっていたらどうでしょう?
世界最高のチューターでもあり、無料のAIパッケージを想像してみてください。どんな学生のニーズにも柔軟に対応でき、常に注意深く、24時間365日オンデマンドで利用可能で、個々の学生が理解できる特定の方法で概念を説明できるんです。
将来、学生がAIの恩恵を受けるのか、それとも足かせになるのか、まだ分かりません。でも、そんな未来のシナリオを考える前に、もう一つ問題があります。
今のところ、その知識を知らない人が監督していない場合、AIが吐き出してるものが正しいかどうか、どうやって知ることができるんでしょうか?例えば、大学レベルの教育では、AIが左右に幻覚の答えを吐き出してたらどうなるんでしょう?
でも、それだけやないんです。これまでテクノロジーではあまり見られなかった、奇妙な感情的な要素があるかもしれません。
将来の世代のことを考えてみてください。彼らは、人間のやりとりのかなり正確な近似が、ボタン一つで利用できる世界で育つんです。それは賢さ、共感、さらにはパーソナリティーまでも模倣するでしょう。
アルファ世代以降の人々にとって、感情的な絆が形成されて、さらに対面でのやりとりが減少し、社会不安やその他のメンタルヘルスの問題が増加することになるんでしょうか?誰にもわかりません。でも、これらは考える価値のある問題です。
大人にとっては、さらに一歩進んだものになるでしょう。映画『her/世界でひとつの彼女』のセオドアが、人工知能のチャットボットに夢中になったのはご存じの通りです。多くの人々が個人用AIに companionship を求めるようになるまで、そう時間はかからないでしょう。
すでに、こんな原始的な段階でも、ロマンチックなAIパートナーの台頭が見られています。最近、デーティングアプリBumbleの創業者が、恋愛におけるAIの未来は、一つのAIが別のAIと会話することかもしれないと言ってました。
恋愛とAIに関しては、テクノロジーが問題なんじゃなくて、むしろ我々の社会の反映なんです。この件についてもっと知りたい方は、私の「孤独疫病」のエピソードをご覧ください。
もう一つの懸念は、これらの企業が実際にどのようにしてこれらのモデルを訓練してるかということです。著作権侵害とAIに関する議論はもう散々やってきたので、今回のエピソードではあまり時間を割きませんが、考えてみてください。
機械と恋に落ちたり、機械が完璧な家庭教師になったり、視覚障害者の補助になったりすること、そしてそれ以上のことすべてが、結局のところ数学の行列の乗算にすぎないというのは、クレイジーな話ですよね。現代のAIは、本当にそれだけのものなんです。
でも、これが実際にどのように機能するのか不思議に思ったことはありませんか?幸いなことに、brilliant.orgを使えば、楽しく簡単に学ぶことができます。
Brilliantは、数学、データ分析、プログラミング、そしてもちろんAIについての何千もの対話型レッションを通じて、実践的に学べる場所です。特に、大規模言語モデルの仕組みに関するコースは、今日のトピックに特に関連していますね。
Brilliantの各レッスンでは、概念を実際に使って学ぶことができます。この方法は、講義動画を見るよりも6倍効果的であることが証明されています。Brilliantのすべてのコンテンツは、MIT、カリフォルニア工科大学、デューク大学、マイクロソフト、Google、その他の研究者、教師、専門家によって作成されています。
プロの能力開発でも、自己啓発でも、自分のペースで学べます。Brilliantを30日間無料で試すには、brilliant.org/coldfusionにアクセスするか、説明欄のリンクをクリックしてください。年間プレミアムサブスクリプションも20%オフになります。
さて、動画に戻りましょう。
この動画を締めくくるにあたって、Googleが年次開発者会議であるI/Oイベントで、たくさんの新しいものを発表しました。これらの発表は、間違いなくOpenAIを刺激するものになるでしょう。
例えば、GPT-4に対抗するGoogleの回答である「プロジェクト・アストラ」が発表されました。
このコードは暗号化と復号化の関数を定義しています。AES-BCの暗号化を使用しているようですね。
また、2つの新しいGemini AIモデルも発表されました。どちらもマルチモーダルで、より会話的で、アプリ間の互換性が向上しています。
I/Oは明らかにOpenAIのSoraに対抗するものですが、このAIレースにおいて非常に興味深いポイントになるでしょう。
しかし、おそらくもっと重要なのは、GoogleがDrive、Gmail、Meetなどの日常的な製品全体でAIをどのように使用しようとしているかを示したことです。
Googleサイト製品にAIをネイティブに統合することで、市場シェアを固める可能性があります。
新しいニュースでは、Geminiに未読メールをまとめてもらうのは、本当に役立つAIアシスタンスの形を垣間見せてくれる興味深いものでした。
一方で、もしGoogleのAI能力が期待はずれだったらどうでしょう?それは逆効果になる可能性もあります。
ここで、電話が滑り始めました。マイケル・ジョシュのカメラはうまく認識しましたが、ヒアーズのバッテリーパックの認識に失敗しました。そして、スターバックスのコーヒーについて尋ねたときは、ロゴを人だと勘違いしているようでした。
それでも、これがOpenAIがGPT-4oを無料で利用者に提供した理由の一つだと思います。より多くの顧客を獲得し、さらに興味深いことに、AppleがOpenAIとパートナーシップを結ぶという噂があります。
Appleが計画していることを発表したら、現在のテクノロジー業界の景観が根本的に変わる可能性があります。iPhoneのために特別に作られた、ほぼ完璧な人間らしいアシスタントを想像してみてください。どうなるかはまだ分かりませんが。
でも、OpenAIに話を戻すと、実は舞台裏でちょっとしたドラマがあったんです。鋭い観察者は、OpenAIの主任科学者で、彼らの成功の多くを支えた天才イリヤ・ストコフが、最新の発表に一切関わっていないことに気づきました。
これは奇妙で疑わしいことでした。なぜなら、ほとんどの場合、彼が公的に会社を代表していたからです。
OpenAIの最新発表のわずか1日後、イリヤは OpenAI を去ると発表しました。そして彼だけやなかったんです。他の人も会社を去りました。
イリヤとサムの態度は表面上は専門的に見えましたが、私の意見では、これは会社にとって良いイメージやないですな。特に去年の年末にサムの解雇を巡って起こった馬鹿げたサーカスのようなドタバタを考えると。
ドレイク対ケンドリックみたいなラップバトルの対決になるかどうかは分かりませんが、この分野から目が離せへんのは確かですわ。
最後に一つ考えを残しておきます。ちょっと立ち止まって振り返ってみましょう。3年前、コンピューターがテキストでロールプレイをしたり、簡単ななぞなぞを解いたりできるだけで、人々は驚いてましたよね。
でも今では、陽気で表現豊かなパーソナリティーを持つリアルタイムの音声対話ができるんです。この進歩は信じられへんくらいやで。
これからどうなるかは誰にも分かりません。それでも、生きてる時代としては面白いもんですな。
とにかく、これがOpenAIとAI業界の最新情報でした。最後まで見てくれはった皆さん、本当にありがとうございます。
このエピソードが気に入って、科学、技術、ビジネスに興味があるなら、ぜひCold Fusionチャンネル登録してください。他にも面白い動画がたくさんありますよ。
私の名前はダゴ、Cold Fusionをご覧いただきました。次のエピソードでまたお会いしましょう。じゃあな!

この記事が気に入ったらサポートをしてみませんか?