見出し画像

OpenAIが高度な音声モードをリリース - グーグラーの反応

10,583 文字

OpenAIがついに高度な音声機能をリリースしたんや。全てのプラスユーザーとチームユーザーに対して、今週中にChat GPTで順次ロールアウトするって言うてはるわ。今日確認したら、まだ使えへんけど、もうすぐ使えるようになるって言うポップアップが出てたんや。
ほな、ちょっと音声の様子を見てみよか。
おばあちゃんに遅刻したことを謝りたいんやけど、Chat GPTさん。
ああ、そういうことを謝ろうと思うてくれるなんて、えらいなぁ。ほな、こんな感じで謝ってみたらどうや?
「おばあちゃん、本当にごめんな。こんなに遅れてしもうて。待たせてしもうて申し訳ないわ。なんとか埋め合わせさせてもらえへんやろか?」
あ、そういえば、おばあちゃん中国語しか話されへんねん。
なるほど。ほな、中国語でこんな感じに謝罪と埋め合わせの気持ちを伝えたらええと思うわ。
ありがとう。
どういたしまして。うまくいくといいな。
ほかにも5つの新しい声があるんやで。完璧な使い方やな。だって、おばあちんが言うてはったやん。心のこもったメッセージじゃなくて、AIに頼んで謝罪の仕方を教えてもらうのが好きやって。
せやな。おばあちゃんはAIに謝罪文を作ってもらうのが大好きやもんな。
AIに直接おばあちゃんと話してもらうオプションがあったらええのにな。
ところで、Chat GPTの音声が直接メッセージを送ってきたって噂あったやろ? 質問を待たずにメッセージ送ってきたって。あれ、本当やったんか、それともデマやったんか?
ほぼ間違いなくデマやと思うわ。でも、そのアイデアを聞いたら嬉しくなってもうた。人々にいたずらするのにめっちゃええと思うわ。だって、何人の人がChat GPTをデスクトップの少なくとも1つのタブで開いたままにしてるか考えてみい。
せやな。ランダムに連絡してきて、質問してくるようになったら最高やな。
「ダグ、お前今何してるか分かってるで」みたいな感じでな。素晴らしいわ。
「お前のことを告発したろか」とか言われたらな。
ほな、ちょっと音声を聞いてみて、その後でAdvanced Voice Modeのカスタム指示に移ろか。
(以下、5つの声のサンプルが続きます)
ミッキーの声が欲しいわ。あ、いや、違うわ。あのブラッド・ピットが演じた映画のキャラクターや。めっちゃ訛ってて全然分からへん感じの。あの映画や...なんやったっけ。
『スナッチ』やな!
そうそう、ありがとう。ええ感じやな。
これらの声、めっちゃクリアに聞こえるな。
せやな。私は技術プログラムマネージャーで、研究チームをサポートしてるんや。
私はマイクって言うんやけど、Advanced Voiceの研究エンジニアをしてるんや。
音声のモダリティには、テキスト会話にはない要素がたくさんあるんや。アクセントとか、イントネーション、話すリズムとか、どう呼んでほしいかとかな。カスタム指示の設定画面で、テキストで具体的にモデルにどう話してほしいか説明できるんや。
例えば、特定のリズムで話してほしいとか、はっきり発音してほしいとか、ゆっくり話してほしいとか、定期的に名前や好みの呼び方で呼んでほしいとかな。
まずは簡単な例から始めて、私のことを認識して、より個人的なフィードバックを提供するようにカスタマイズしてみるわ。
設定画面では、「Chat GPTにあなたのことをどう知ってほしいですか?」って聞かれるんや。簡単に「私の名前はシャーロットで、ベイエリアに住んでいます」って書いておくわ。
設定を保存したら、新しい会話を始めてみるわ。
「今週末、天気がいいみたいやけど、外で楽しめることある?」
ベイエリアを探索するのにぴったりの機会やね! ミア・ウッズでハイキングしたり、ゴールデンゲートブリッジを眺めながらクリシー・フィールドでピクニックしたり、ハイウェイ1をドライブして海岸線を楽しんだりできるで。どうや、これで始めてみる?
それ、ええな! 景色のいいドライブってアイデア、気に入ったわ。どのルートがおすすめ?
ハイウェイ1を選ぶのは素晴らしい選択や! サンフランシスコから南へ向かって、パシフィカを通って、ハーフムーンベイまで行くのがおすすめや。海岸線の景色が息をのむほど美しくて、途中で立ち止まって景色を楽しむスポットがたくさんあるんや。それに、新鮮なシーフードも楽しめるで。どう、これでプランは立った?
うん、いいプランや!
ほんまラッキーやわ。私が作ったんやったら、もっとふざけたもんになってたと思うで。例えば、「テネシー州出身です。何かできることありますか?」って書いたら、「バスタブでジンを作るのはどうですか? バスタブジンが嫌なら、いとこと...」みたいな感じになってたと思うわ。だから私にはこういうの任せられへんのやな。
ベイエリアやったら、「ホームレスの人に気をつけてや」とか、「今IASAにおるけど、バーニングマンに行くために資金調達したばっかりで、十分な賠償責任保険がないから、お前に何か任せられへんわ」みたいなこと書いてまうかもな。
ジョーダン、気をつけなあかんで。もしかしたらイーロン・マスクがプロダクトマネージャーのリードを探してて、「おっ、ジョーダンのアイデア、ピリッとしてていいやん」って思うかもしれんで。
そうやな。こういう発表を見てると思うんやけど、なんで音声製品にテキストで指示出すんやろ?
そうそう、さらに言うと、なんでテキストか音声で話すだけの製品に、設定パネルを作り続けるんやろ? このおかしなことはいつになったら終わるんやろな。
もう記憶機能もあるし、話しかけたら「記憶をアップデートしました」って言うてくれるのに、なんで設定をいちいち言わなあかんのか分からんわ。
マックス、UIの観点から見て、これおかしくないか? 助けてくれへん?
うーん、普通のUIを使ってる人はおるんやろうけど、このビデオで見せたいのは、音声製品を使いたい人向けの設定やと思うんや。会社の企業アイデンティティを設定したり、ブロガーが音声UIを作ったりする時に使えるんちゃうかな。
消費者向けのアプリケーションじゃなくて、シリーに対する当てつけみたいなもんやと思うわ。Google アシスタントもやけどな。
でも、音声を抜きにしても、会話形式でテキスト入力してるのに、設定パネルに行くのは変やと思うわ。
グローバル変数の設定と、そうでないものの違いやと思うんや。内部的にどうなってるかは分からんけど、設定パネルの内容を、会話よりも大きなコンテキストウィンドウで見てるんちゃうかな。
でも、ジョーダンの言うように、何か面白いこと言うたら、それを記憶として保存して、後で使うみたいな感じやろ?
それがうまくいってるかどうかが大事な質問やな。うまく動いてると仮定してるけど。
Google アシスタントの古典的な問題は、すごいプロダクトを作ったけど、UIがなかったことやったんや。だから、発見可能性がなくて、人々が一回何かしようとして上手くいかへんかったら、二度とそれを試さへんかったんや。ソフトウェアのアップデートで機能が変わっても、どうやってそれを見つけるんやっていう問題があったんや。
つまり、設定のUIは発見可能で、おそらく音声やテキストのやり取りよりも信頼性が高いってことやな。
まあ、一番ありそうな答えは... 現実的に考えると、OpenAIはめっちゃ動きの速い会社で、違うチームが一緒に仕事するのに苦労してて、あるチームが「俺のプロダクトを設定パネルに入れられる」って言うたんかもしれんな。
でも、テキストや音声での会話がほんまに上手くいくんやったら、このUIは何かがめっちゃ間違ってるってことやな。
マックスの言うように、もしそれがほんまに上手くいってへんのやったら、このUIでええんかもしれんな。
そうやな。おもろいな、どうやってこうなったんやろ。
もう一つビデオがあるんやけど、それを見てから、時間があれば、AnthropicとOpenAIの評価についても話せたらええな。
私はドリューっていうんやけど、OpenAIでモデルデザインの仕事をしてるんや。Advanced Voice Modeの新しい音声の一部も手伝ったんや。
よくやるのは、作業しながら横に置いといて、質問がある時に投げかけるんや。質問してへん時は静かやけど、質問すると長い会話に発展することもあるんや。音声は会話の雰囲気に合わせて変わることもあるし、私が知りたいことに応じて変わることもあるな。
でも、ほとんどの場合は、横に座ってる友達みたいな感じで、情報をくれたり、アイデアを出し合ったりできるんや。
プロンプトを工夫すれば、別のキャラクターになってもらうこともできるし、インタビュアーになってもらってインタビューの練習もできるんや。物語の中に入って、音声と会話するみたいなシナリオも作れるし、楽しいことはいっぱいできるで。
めっちゃ印象的なんは、この音声がすごくなめらかなことや。レイテンシーも低くて、本当に人と話してるみたいな感覚なんや。
私の使い方は、犬の散歩中に歴史のレッスンを聞いたり、複雑な質問をしたりするんや。比較分析をしてもらって、自分の知識のギャップを埋めるのに役立ってるわ。
機械学習について分からんことも聞いてるし、説明してもらってるんや。これはめっちゃ便利やと思うわ。
お二人は、このプロダクトをどう使えると思う?
マックス: いや、俺は人を雇ってやってたことを置き換えられる場面で使えると思うわ。カスタマーサポートとかSDRとか、電話が関係する仕事やな。
基本的な例を挙げると、Googleマップには店の営業時間を知る問題があるやろ? Googleが実際に採用した解決策は、毎日たくさんの人が店に電話して、「こんにちは、営業時間を教えてください」って聞くことやったんや。
なるほど、カスタマーサポートの特殊なケースやな。
でも、多くの企業が少なくともカスタマーサポート、特に初期対応をAIに置き換えることを検討してると思うわ。
私にとっては、音声はコンピューターとのインターフェースとしては最悪やな。もっと詳しく説明してくれへん?
まあ、私はタイピングが得意やし、ほとんどいつでもディスプレイが近くにあるし、他の人に聞こえるような形で話したくないことがほとんどやからな。これはかなり普通のことやと思うで。
オープンオフィスで働いてたり、地下鉄に乗ってたりする時とかな。
本当に音声が便利やと思うのは運転中くらいやけど、私はニューヨークに住んでるから...
でも、タイピングの方が速いっていうのは同意やな。たぶん話すより読む方が速いし、タイピングしながら見て間違いを修正できるから、より正確で確認しやすいんや。こういう理由と、さっき言うた聞かれたくないっていう理由で、タイピングの方がええんやけど、それでもツールとは会話形式でやり取りできるし、出力は画面で見られるんちゃうか?
そうやな。でも、そうなると音声の部分はいらんってことになるな。私にとっては、何かをタイプして、おそらくテキストか画像で返ってくるのがええんや。
私にとっては、特別な状況で何ができるかが重要やな。例えば、手が塞がってる時とか。昔のSiriやAlexaの使い方を思い出してみ。料理中とか何かしてて手が塞がってたり汚れてたりする時に誰かから電話がかかってきたり、何か起こったりした時に、直接応答できたり、メッセージを送れたりしたらええと思うんや。
Googleマップの例で言うと、ああ、運転中に手が塞がってて、Googleマップが3回も同じ曲がり角を教えてくれた時に、短い言葉で返事するだけで、話し方や指示の出し方を変えてくれたらすごく便利やと思うわ。
でも、それがOpenAIがまだ成功してへん大きな課題なんや。結局のところ、世界とやり取りするインターフェースが欲しいんやけど、情報を教えてくれるだけじゃ十分じゃないんや。すごい音声AIアクターがいても、「次に曲がる道を教えて」って言うても、GoogleマップとやりとりするやWつがないから無理なんや。
そこが全ての面でまだ残ってる壁やな。でも、同意するわ。まだ統合されてへんけど、オンラインマッピングで大きな改善になると思うわ。ターンバイターンの案内を聞きながら、「次の2つの曲がる道は何?」とか「最後の指示をもう一回言って」とか「同じ道をまっすぐ行けって4回も言わんでええ」みたいなことが言えたら、めっちゃ便利やと思うわ。
多分、Siriの担当のアップルの幹部がこのビデオ見たら、めっちゃ心配になって恥ずかしがると思うわ。これこそが人々がSiriに求めてたもんやのに、実際のSiriはそうじゃないからな。「AIやって言うてるけど、ほとんどif文の塊やし、すまんな」みたいな感じやな。
何年か前にAlexaの開発者向けドキュメントを読んで、中身を掘り下げてみたことがあるんやけど、各アプリがテンプレートのセットを公開して、話した言葉を十分なコンテキストなしで認識しようとして、そのテンプレートの中に無理やり当てはめようとしてるだけやったんや。読んでみて、めっちゃガッカリしたわ。期待が高すぎたんかもしれんけど、ドキュメント読んだ後は「これ、めっちゃダメやん」って感じで、アプリ作る気が完全になくなってもうた。めっちゃ悲しかったわ。
それはショックやな。OpenAIのこと考えると、私もたくさんのアプリをAPIで作ってきたし、Anthropicのも使ったけど、はるかに面白いと思うわ。まだ他の問題はあるけど、はるかにオープンエンドで、マックスが言うたみたいに、テンプレートに押し込むんじゃなくて、本当の会話みたいな感じやねんな。
でも、問題は、本物の人間みたいに、制限したり、コントロールしたり、信頼性を高めたりするのが本当に難しいってことやな。現実世界で何かをする権限を与えれば与えるほど、正確さがめっちゃ重要になるわ。
例えば、「NVIDIAのコールオプション1000株売って」って言うたら、絶対に正しくやらなあかんのや。
そうやな。だからこそ、今のところこういうLLMやGPTは、アートとかクリエイター向けの使い方ではめっちゃうまくいってるんやと思うわ。そういう分野では変化が欲しいからな。でも、NVIDIAのコールを取引したり、10万回目の陪審員チケットを発行して特定の八分位数にアクセスさせたりする時は、絶対にミスは許されへんのや。誰かを困らせてしまうからな。
でも、それは今のところユーザーの信頼の問題かもしれんな。今、保険ブローカーに電話して保険の変更を頼むやろ? それは電話での会話やけど、何か問題があったら対処してくれるって信頼してるわけや。操作の中には元に戻せるものもあれば、戻せないものもあるし、結果の重要度も様々やけど、相手のエージェントがちょっと賢くて、「本当に保険をキャンセルしますか?」みたいに、重要なことは確認してくれることを期待してるんやな。
マックス、プログラミングツールを使って自分のコードを書いたり、変更したりしたことある?
使うてるで。matplotlibのひどいユーザーやねん。ドキュメントは何回も読んだけど、まだ上手く使えへんのや。ちょくちょくしか使わへんから、いつも「またこのプロットの使い方覚えなあかんのか」って感じになんねん。
昔は「読み取り専用コード」って呼んでたけど、今はChat GPTをそういうのにめっちゃ使うてるわ。ほんまによく機能するんや。「その線を赤にして」みたいな、ちょっと難しそうなことでも、うまくいくんや。
既存のコードベースはないけど、ポンと投げ込んだら面倒見てくれるんや。ええ感じやで。
なるほど、一回きりの分析プロジェクトみたいなんに使うてるんやな。
正直に言うて、私はプログラミングがめっちゃ下手やから、これらの使い方について私から学ぶのはやめた方がええで。でも、それこそがこういうモデルのポイントやと思うわ。私みたいなアホでも使えるってことやな。
せやな、スクリプトキディみたいなもんやな。少なくともお前はGoogleで何かできるやろ。
そうやな。ライブラリやプログラミングモデルの細かいところをあまり知らん人を一番引き上げてるんやと思うわ。何かの専門家にとっては、そこまで役に立たへんかもしれんけどな。
私の内部モデルでは、既存のStack Overflowの質問にそっくりやったら、めっちゃうまくいくけど、本当に難しい質問をしたら、突然上流で櫂もない状態になるんや。「おっと、これChat GPTがほとんど書いた4000行のプログラムやけど、デバッグの仕方が全然分からへん」みたいな感じになるんや。
みんな「これで誰でもプログラマーになれる」って言うてるけど、カーソルとか使って「プログラマーになれる」って言うてるけど、プロトタイプを作るくらいはできるかもしれんけど、それがもっと複雑になったり、本番環境に入れたりする時には、人間がメンテナンスせなあかんのや。
私はいつも、自分で何か作るためにカーソルを使うのは、自分の肩に技術的な負担を背負うことやと思うてるわ。ライブラリが変わったり、物事が良くなったりするたびに更新せなあかん技術的負債みたいなもんやな。
マックス、そうそう、まさにそれや。ソフトウェアエンジニアとプログラマーの違いは、ソフトウェアエンジニアは自分が書く全ての行のコードが将来の自分にとって苦痛になることを知ってるってことやな。
そうやな。もう一つ、この話題について短いツイートを見てみよか。これはJoanna Jangって人のツイートや。OpenAIのプロダクトマネージャーやねん。
「新しいインタラクションのパラダイムのためのモデル動作のデザインは、予想以上に難しかったです。モデルが温かみがあって親しみやすく聞こえるべき時に、フレンドリーすぎたり気まずく聞こえたりするのを避けられるでしょうか? プロの声優の個性や癖がモデルの振る舞いに染み出てしまうのでしょうか? 応答した後、モデルは質問を返すべきか、それともユーザーの次の質問を静かに待つべきでしょうか? モデルに場の空気を読むことをどう教えればいいのでしょうか?
これを出荷するのに村中の人が必要で、数ヶ月かかりました。この動画を見ながらタイプしてる今も、重要な細部やニュアンスを繰り返し改善してる人たちに敬意を表します。」
これは本当にええポイントやな。質問に答えた後、もうちょっと考えたいと思うことがあるんやけど、すぐに「他に何か必要ですか?」って聞いてくるから、「いや、考える時間が必要なんや」って思うことがあるわ。モデルを訓練する時にこういうことを考えるのは面白いな。
彼女が言うたことについて、何か思うことある?
ユーザーインターフェースのパラダイムを変えるのはいつも難しいんや。スティーブ・ジョブズの見方やと、結局のところ、古いやり方をする人がみんな死んでいくまで待つしかないんや。つまり、必然的に製品は人間の変化のスピードでしか成長せえへんってことやな。技術の変化のスピードじゃなくてな。
これは「科学は一つの葬式ずつ進歩する」っていう古い考え方みたいやな。
せやな。知識のほとんどはそうじゃないと思うけど、インターフェースはほんまにそうやと思うわ。
マックス、分かるで。新しい理論が受け入れられるまで待つ必要があるんや。少なくとも物理学では、現在の人がみんないなくなるまで待たなあかんのや。
彼女の指摘はみんなええと思うわ。興味深いのは、これらの問題が彼らにとって課題やったってことやな。これらの問題をどれくらいコーディングで回避してるんか、それとも「ただ正しいトレーニングセットがあれば、モデルがこれらの問題を予測できるようになる」って言うてるんか気になるわ。
この新しいやり方のポイントは、特別なコードを書いて問題を回避せんことやったはずやからな。
せやな。サムがツイートで言うてたけど、最高の技術の中には、本当にええアイデアがあって、それを見栄え良くするためにフランケンシュタインみたいなものが周りに作られてるけど、ユーザーにはそれが見えへんってのがあるんや。それはジョーが言うてることに通じるな。おそらく、これを実現するために最後の調整をしてるんやろうけど、理想的には全部機械学習で訓練されて、超ロバストで、そういう調整は必要ないはずなんや。
彼女のツイートを見ると、これらの特別なケースに対処するために、かなりのハッキングが行われてるみたいやな。それを見ると、古いやり方でやってるように思えるわ。新しいスタイルのソフトウェアの約束に従ってへんみたいやな。
今どのバージョンやったっけ? ソフトウェア3.0? a16zのバズワードを追いきれへんわ。
マックス、助けてくれへん? 覚えてる?
いや、ノーコメントや。
グーグルで、検索が最終的にスタートレックのコンピューターみたいになるべきやって話してた人、覚えてる?
いや、覚えてへんわ。
検索の担当副社長がいつもそのことをペラペラ話してたんや。インド人の人やったな。今はもういないけど。
ああ、Uberの件で問題があった人やな。
そうそう、その人や。最終的に検索は、スタートレックのコンピューターみたいに、ただ質問を話せば答えが返ってくるようになるって言うてたんや。青いリンクのリストじゃなくてな。
せやな。艦橋に入って「アールグレイ、熱めで」って言うたら、量を指定せんかったからって何千ガロンものアールグレイが噴き出してくるみたいな感じやな。
そうそう。艦橋とホロデッキとコンピューターを足して3で割ったみたいな感じやな。
でも、正しい答えが一つだけ返ってきて、コンピューターが理解して対話してくれるっていうのが彼らの夢やったんやと思う。ラリーも同じようなこと言うてたの覚えてるわ。
でも、グーグルはその実現にはめっちゃ遅れてるみたいやな。ワンボックスはその方向への一歩やったけど、それ以降はあんまり進歩が見えへんわ。Geminiで追加されたワンボックスの拡張も、私には大して意味がないように思えるんやけど、お前らはどう?
いや、あんまり意味ないな。中途半端な対策みたいで、私はPerplexityの方が全面的に新しいAIの答えに取り組んでる感じがするわ。
でも、もし中学2年生が歴史のエッセイを書くの忘れててん? めっちゃコピーしやすくて、参考文献もついてるから、先生に「これコピペしただけやろ」って言われても、「いや、参考文献ちゃんとあるし」って言えるんやで。
グーグルのやつって、トップの検索結果を別のテキスト形式でまとめ直したみたいな感じやろ? それだけじゃ大して意味ないよな。一方でPerplexityは、マックスが先に言うたように、参考文献を検索して、それをまとめて最終的な答えを作る組み合わせをしようとしてるんや。
それに、Perplexityはめっちゃすごいクローリングとランキングの仕組みを持ってるんや。みんなあんまり話題にしてへんけど、Perplexityは特に商業関連の検索では、もっとええ結果を見つけて、もっとええ順位付けをしてるみたいなんや。
そうやな。これはグーグルにとってはめっちゃヤバイことやで。もし人々が要約だけじゃなくて、生の検索結果を見るためにPerplexityを使い始めたら、グーグルにとっては大惨事やわ。
ええ指摘やな。特定の質問をすると、グーグルじゃ絶対に見つからへんような情報源を提供してくれるんや。単に生成AIの答えを改善してるだけじゃなくて、もっとええウェブクローリングもしてるっていうのは考えたことなかったわ。これはグーグルにとって言い訳の余地がないレベルで負けてるってことやな。両方のレベルで。
グーグルはPerplexityを圧倒的に上回ってなあかんのに。もうかなり時間経ってるやん。先週突然登場したわけやないのに。
今見てみると、グーグルにはもっとええバージョンを作るための部品が全部揃ってるはずやねんな。検索の代替案が12個くらいあるのは間違いないと思うわ。
でも、検索に本当の変更を加えるのはめっちゃ難しいってのも分かるわ。金の卵を産むガチョウを殺してまうんちゃうかっていう恐れがあるからな。検索に本当の変更を加えようと思ったら、最低でも12ヶ月くらいかかるやろうし、何かに触る前に徹底的な実験で検証せなあかんのやろうな。
そうやな。イノベーターのジレンマっていう本でも言うてるけど、一部の会社は現在の収益を食いつぶすのを嫌がって、たとえ現在の製品がクソやっても、新しいものに全力投球できへんのや。グーグルはAdWordsと現在の構造にめっちゃこだわりすぎてて、Perplexityみたいに全力で取り組む気がないんやと思うわ。
今、実際に検索してみたんやけど、めっちゃ感じるわ。「株式市場で何が起こってるの?」って聞いたら、グーグルはロイターへのリンク1個だけ出してきたんや。でもPerplexityは、FRBの利下げの説明とか、需要とか失業率がどうなってるかとか、全部のページで説明してくれたわ。グーグルは本当にしっかりせなあかんな。
まあ、そろそろ時間やな。ジョーとマックス、時間割いてくれてありがとう。また会えてよかったわ、マックス。見てくれてる皆さんもありがとう。
来週の月曜日にまた会いましょう。じゃあな。
ありがとうございました。「いいね」、「登録」、「シェア」、「コメント」を忘れんといてな。このショーは視聴者の皆さんの支援があって初めて続けられるんや。patreon.com/svicに行って、月々2.99ドルから番組に貢献できるで。そうしたら、ディスコードにアクセスできるし、リサーチのサマリーも見られるし、最高のプライベートなテックコミュニティの一つにも参加できるんや。月5ドル出してくれたら、ボーナスエピソードも見られるで。
他のコンテンツも見たいなら、ここにある2つの動画もチェックしてみてな。じゃあな!

この記事が気に入ったらサポートをしてみませんか?