ChatGPTの声が大幅にアップグレードされた！

2024年9月25日 19:13

5,909 文字

ついに来ましたわ。めっちゃワクワクしてますねん。ChatGPTの中に高度な音声モードが搭載されたんです。
今、家のスタジオにはおらへんのですわ。実はパロアルトにおるんです。Metaのコネクトイベントのためにね。明日、ええ感じの発表があるらしいんですわ。ちょっと先行で見せてもろたんやけど、まだ喋ったらあかんのです。だからMetaコネクトの動画を楽しみにしててな。
でも今の大ニュースは、ChatGPTに高度な音声アシスタントが搭載されたことやねん。サム・アルトマンが今朝ツイートしてはりました。「高度な音声モードの展開が今日から始まって、今週中に完了する予定や。待った甲斐があったと思ってもらえたらうれしいわ」言うてました。
他の機能もリリースされたんですわ。高度な音声モードがまだ使えへんかっても、カスタム指示やメモリー、5つの新しい声、アクセントの改善、50以上の言語で「遅くなってごめん」が言えるようになったんです。
もし今、アプリに高度な音声モードがあったら、「高度な音声モードにようこそ」って画面が出て、その機能の説明が書いてあるはずやねん。
朝、サムの発表を見た瞬間にアプリを開いて、「もしかして使えるんかな」思うたんやけど、まだアカウントには反映されてへんかったんです。ツイッターでそのことをさらっと言うたら、「D」って名前の人が「スマホのアプリを再インストールしてみ。わいはそれでアクセスできたで」って教えてくれはったんです。
そんで試してみたんです。iPhoneのChatGPTアプリを完全に消して、再インストールしたら、なんと！高度な音声モードの通知が来たんですわ。
でも、みんなにこの方法が効くかどうかは分からへんのです。メタコネクトに一緒におるローワン・チャンって友達も同じようにアプリ消して入れ直してみたけど、うまくいかへんかったらしいです。どういう条件で使えるようになるんかよう分からへんのやけど、ローワンはカナダ人やから、まだカナダでは使えへんのかもしれへんな。なんでわいとDさんは使えて、他の人は使えへんのか分からへんけど、とにかくわいは使えるようになったから、遊んでみるのが楽しみやわ。
ほな、ChatGPTの高度な音声モードを起動して、どんなもんか見てみましょか。楽しみやなぁ。
「ヘイ」
「こんにちは、マット。今日はどのようにお手伝いできますか？」
「アイルランドなまりで話してくれへん？」
「もちろんです。クリアル！どんなことについてお話ししましょうか、このステキなアイルランドな...あかん、やっぱスペインなまりで話してくれへん？」
「分かりました。スペインなまりに切り替えます。マット、何について話したいですか？」
「いや、やっぱりオーストラリアなまりで頼むわ」
「大丈夫です、マット。オーストラリアなまりに切り替えましょう。今日は何を話したいですか？」
「それ、めっちゃええやん。ほな、怖い話してくれへん？でも、話すときに怖そうな声で頼むで」
「分かりました。始めますよ。ある夜遅く、一人の男がアウトバックを車で走っていました。突然、車が止ま...」
「もっと怖そうな声で言うてくれへん？全然怖くないわ」
「了解です。もう一度挑戦します。彼はアウトバックで立ち往生してしまいました。風が吹き始め...突然、ささやき声が聞こえてきたのです。でも、周りには誰もいません。そのささやき声はどんどん大きくなって...」
「分かった分かった。ほな今度は、ジョーク言うてくれへん？でも終わったら、自分で言うた中で一番おもろいジョークやったみたいに笑ってな」
「分かりました。では、どうぞ。なぜ骨は戦わないのでしょうか？ガッツがないからです！はっはっは！」
「ほな、新しいChatGPTの高度な音声やから、何をテストしたらええんか教えてくれへん？この新しいアプリを試すのに、どんなんがええか分からへんねん」
「新しいChatGPTの高度な音声アシスタントを試すには、いくつかの方法がありますね。まず、テクノロジーから旅行、趣味まで、さまざまなトピックで自然な会話ができるか試してみるのはどうでしょう。また、異なるアクセントや感情にどれだけ上手く適応できるかチェックするのもいいですね。それから、短い物語やジョークを頼んで、ストーリーテリング能力を探ってみるのもおもしろいでしょう。そして、テクノロジーに詳しいマットさんなら、AIに関する深い議論をしてみるのもいいかもしれませんね」
「ほとんどそのへんはもう試してもうたわ。ほな、テクノロジーの話をしようか。AIの世界で今起こってる進歩で、みんなが一番わくわくせなあかんことって何やと思う？」
「AIは今、いくつかの分野で大きな波を起こしています。まず、GPTやDALL-Eのような生成AIモデルが、文章からアートまで、コンテンツ制作の方法を変えています。それから、ヘルスケア分野でのAIの進歩も見逃せません。診断や個別化医療の改善に貢献しています。自動運転車の分野でも、AIが交通手段の進歩を牽引しています。これらは一部の例に過ぎませんが、AI業界はイノベーションで沸き立っていますね」
「AIエージェントについてはどうや？AIが実際にツールを使って、物事をこなすみたいなやつ。そういうのはどのくらい先やと思う？」
「AIエージェントは急速に進化していますね。すでにワークフローツールにAIが統合され、スケジューリングやデータ分析、さらにはコーディングなどのタスクを自動化しています。主な課題は、これらのエージェントが文脈を深く理解し、複雑な決定を自律的に行えるように洗練させることです。完全に自律的なAIエージェントが複雑なタスクを全て管理するレベルにはまだ達していませんが、進歩は期待できます。数年後には、AIエージェントが日常生活でもっと洗練された役割を担うようになるかもしれませんね」
「AIについて、特に大規模言語モデルについて、人々が持ってる一般的な誤解って何やと思う？」
「大きな誤解の一つは、AIが、特に大規模言語モデルが、人間のように本当に言語を理解しているという考えですね。実際には、これらは膨大なデータに基づいてテキストを予測するパターン認識器であって、本当の意味で理解しているわけではありません」
「他の誤解はどうや？例えば、大規模言語モデルの中に大量のトレーニングデータがあるから、学習した本や記事を一字一句そのまま暗唱できるはずやと思ってる人も多いんちゃうか？大規模言語モデルってただの丸暗記マシンなんか？」
「いい指摘ですね。言語モデルが単に情報を丸暗記しているように見えるかもしれませんが、実際には見たデータのパターンに基づいて応答を生成しているんです。テキストを逐語的に記憶したり保存したりするわけではなく、文脈に基づいて単語の連鎖を予測しているんです。だから、既存のコンテンツを繰り返すというよりは、新しいコンテンツを生成しているんですね」
「でも、ニューヨーク・タイムズの記事を一字一句そのまま暗唱したっていう話もあったやん。そんなんどうして起こるんや？」
「言語モデルが特定の記事やパッセージに酷似したテキストを生成する場合、通常はトレーニングデータのオーバーフィッティングが原因です。これは、モデルが広範なパターンを学習するのではなく、特定のテキストの塊を記憶してしまったことを意味します。ただ、プロンプトが記事からの長い特定の単語列を含んでいた場合、モデルはその入力に基づいて残りの配列を予測する可能性もあります。そういった場合、モデルがメモリから暗唱しているように見えるかもしれませんが、実際には長いプロンプトによって示唆されたパターンに従っているだけなんです。これは、慎重なプロンプティングが言語モデルからの応答にどれだけ影響を与えるかを示す良い例ですね」
「おもろい話をしてくれへん？でも、話しながら効果音も入れてな。話を盛り上げるために、実際の音みたいなんを聞かせてほしいんや」
「申し訳ありませんが、直接音を出すことはできません。ただ、おもしろい話をして、その中で効果音を描写することはできますよ。準備はいいですか？
マックスという腕白な犬がいました。隣の庭に忍び込むのが大好きだったんです。ある日、マックスはフェンスの隙間をすり抜けて、コソコソと芝生を歩いていきました。ソワソワ...。そして、ポーチの近くに置いてある大きくておいしそうな骨を見つけたんです。ワンワン！マックスは骨に飛びつきました。でも、その骨はロープに繋がっていたんです。突然、水の入ったバケツがひっくり返って、ザブーン！マックスはびしょ濡れになってしまいました」
「この新しい高度な音声モードを使う人が、感情的に愛着を持つんちゃうかって心配してへんの？映画『her/世界でひとつの彼女』みたいに、AIに恋をする人が出てくるかもしれへんで？」
「確かに、AIが進化して会話能力が向上するにつれて、人々がAIに強い感情的なつながりを感じる可能性はありますね。人間は本能的に、理解されていると感じたり、価値を認められていると感じる対象に愛着を持つ傾向があります。映画『her』のような状況になる可能性は低いですが、開発者やユーザーがこういった可能性を認識し、健全な視点でAIを利用することが大切です」
はい、これが新しい高度な音声モードです。実はこれ、初めて使ってみたんですわ。録画を始める前にテストしてへんかったんです。リアルタイムで聞きたかったからね。
正直、アクセントとか、音声効果を入れる能力とか、物語を話すときに感情を込める能力とかに、めっちゃ驚いたわ。ほんまに楽しいもんです。
でも、実用的な価値という意味では、感情のない以前の音声モードと比べて、この新しい感情のある音声モードから得られるものが本当に多いんかっていうと、よう分からへんのです。実用的な使い方を考えると、前のバージョンとそれほど変わらへんような気がします。
質問への答えは正確やし、物語も話せるし、同じようなダジャレも言えます。でも今は感情があって、本物の会話みたいに聞こえるんです。これで、人々がChatGPTとやり取りしやすくなると思います。ChatGPTとのやり取りを楽しむ人が増えるんちゃうかな。
情報の質が上がったとは思えへんけど、今までと同じ情報をもっと楽しく、人間らしい会話の形で伝えてくれるんです。それが好きです。おもろいと思います。
これからもっと使うようになると思います。アクセントで話したり、ジョークを言って自分で笑ったり、怖がりながら震える声で話したりするのを人に見せるような、目新しさを楽しむために使うんちゃうかな。その新しさはほんまに楽しいし、見せびらかすのにええと思います。
でも、実際のビジネスでの使い方とか実生活でどう活用するんかっていう観点からすると、そこまで大きな改善があるとは思えへんのです。ただ、楽しいんです。そして、時にはそれだけで十分なんちゃうかな。
わいがAIツールで遊び始めたのは、単純に楽しいと思ったからなんです。最初はAI画像生成から始めて、楽しんでいる様子を見せびらかしてました。ChatGPTを使い始めたのは生産性を上げるためやったんやけど、楽しい使い方もいろいろ見つけました。時には、ただツールで遊ぶだけでも十分な使い道になるんです。わいにとっては、これが楽しいんです。
これをメタのRaybanメガネみたいなんと組み合わせて、LLMと会話できるようになったら...もしそんな現実的な音声スタイルがグラスに搭載されたら、もっと使うようになると思います。映画『her』みたいに、歩き回りながら会話するのもありかもしれへんね。それが理想の未来か、それとも悪夢の未来かは分からへんけど、判断はみなさん次第です。
わいは個人的に、この新しいChatGPTの高度な音声アシスタントアプリで遊ぶのが楽しいです。もう一度言うとくけど、今週中に展開されるから、まだアプリに反映されてへんかっても、プロかエンタープライズユーザーやったら週末までには使えるようになるはずです。
今すぐ使いたいなら、スマホからアプリを削除して再インストールするのもありやで。わいとDさんはそれでうまくいったけど、ローワンはダメやったから、みんなにうまくいくかどうかは分からへんのです。理論的には、有料のプロユーザーやったら週末までには全員使えるようになるはずやねん。
「昔のChatGPTアカウントを解約したけど、これで再び課金する価値があるんかな？」って思ってる人もおるかもしれへんね。さっきのデモを見て、笑ったりジョークを言ったり、アクセントを変えたりできる会話型音声アシスタントが、アップグレードする価値があるかどうかは、みなさん次第です。
わいはほとんどのチャットアプリを持ってるけど、それはテストしてオンラインコンテンツを作るためやからね。だから全部持っとくのは当然なんです。でも、もし課金してへんかったら、この新しい高度な音声モードだけのために課金するかっていうと、よう分からへんのです。
でも、ほんまに楽しいんです。ただ会話を楽しんだり、どんなおもろいことができるか試してみたりするのはありやと思います。でも、それが十分な価値があるかどうかは、みなさん次第やね。
今日はこれくらいにしておきます。今週はもっとたくさんの発表があるんです。さっき言うたように、今メタコネクトにおるんやけど、明日メタから大きな発表があるらしくて、それについて話すのが楽しみです。
ジェームズ・キャメロンがスタビリティAIと協力するっていうニュースもあるし、めっちゃワクワクするわ。グーグルも新しいモデルを発表したし、今週のAI界隈は楽しいことだらけやね。
メタコネクトから帰ったら、今年の残りはほとんど旅行せえへんから、普段の動画スケジュールに戻ります。いろんなチュートリアルを出したり、違うツールで遊んだり、ニュース動画も増やしていくつもりです。
普段のルーティンに戻るのが楽しみでたまらへんのです。9月はめっちゃ忙しかったけど、もうすぐ終わるしな。メタコネクトの後は普通のスケジュールに戻ります。
今日はこんなとこです。このチャンネルを見てくれて、わいと一緒にオタク話に付き合ってくれてありがとうな。スマホアプリにこの機能があるかどうか確認してみてな。わいのには入ってるから、みなさんのにも入ってるといいね。
ほな、また次回！バイバイ！

この記事が気に入ったらサポートをしてみませんか？