ChatGPTの高度な音声モードレビュー - 知っておくべきことすべて

2024年9月25日 19:16

4,516 文字

よっしゃ、何千時間も待った末に、ようやく大半の人がChatGPTの高度な音声モードにアクセスできるようになりました。せやから、5分か10分ぐらいで、知っておくべきことを手短に説明させてもらいます。
アクセス方法、できることとできないこと、そして皆さんにとってメリットになると思うことをお話しします。
せやけど、まずは自己紹介からさせてもらいます。私の名前はジョーダン・ウィルソンです。毎日ライブ配信しているポッドキャストと、無料の日刊ニュースレターをやっています。日常生活の中で生成AIを学び、活用して、会社やキャリアを成長させるお手伝いをしています。
せやから、早速本題に入りましょう。今日はちょっと違う設定にしています。普段はiPhoneで動画を撮影してるんですけど、今日は画面をライブで映しています。OpenAIの新しい高度な音声モードをデモしますわ。
ほんで、午後になってようやく公開されたんですけど、携帯の画面を録画しながら音声も拾うのに、文字通り数時間かかってしもた。せやから、早速中身に入っていきます。最後に、知っておくべきことと、どんな風に使えるかについて話します。
せやけど、まずは良いところから見ていきましょう。ちょっとおしゃべりしてみましょか。
「おう、調子どないや」
「はい、こんにちは。私は元気ですが、あなたはどうですか？」
「お前の声をカスタマイズする選択肢って何があるん？」
「話す速度や音量を変えたり、アクセントを変えたりできます。ご希望をお聞かせください。できる限り対応させていただきます。」
「ほな、人間のフィードバックによる強化学習について、ものすごく手短に説明してもらえへん？せやけど、海賊みたいな感じでやってもらえへんか」
「わかりました。海賊風に説明しましょう。よく聞きなはれ、お主。人間のフィードバックによる強化学習ちゅうのはな...」
「ええやん。でも、もうちょい面白くできへんか？人間のフィードバックによる強化学習の説明を、おもろい海賊からしてほしいんや」
「よっしゃ、聞きなはれ。宝探しを覚える海賊を想像してみい。近づくたびにオウムが『ようやっとる』ちゅうて鳴くんや。せやけど、間違うたらオウムが『ばかたれ』ちゅうて...」
「わかった、それは後で教えてもらうわ。ここで、どないして話を遮れるかを見せたかってん。失礼するつもりはないんやけど、Everyday AIについて話したいんや。毎日のポッドキャストで、一般の人向けに生成AIについて話してるんやけど、Everyday AIの短い宣伝を作ってくれへんか？」
「もちろんです。では始めましょう。好奇心旺盛な皆さん、AI...」
「ごめん、海賊みたいな話し方はもうやめてええで。普通の声でお願いします」
「了解しました。通常の声に戻します。では、広告をもう一度試してみましょう。Everyday AIポッドキャストで、日常生活の中のAIの魔法を発見しましょう...」
「もうちょい劇的にできへんか？」
「もちろんです。より劇的なバージョンでいきましょう。日々進化するテクノロジーの世界で、一つのポッドキャストが...」
「ええやん。でも、モンスタートラックラリーみたいな感じでできへん？」
「日曜日！日曜日！日曜日！Everyday AIポッドキャストで究極の体験に備えろ！」
「ええやん。ほな、50まで数えてもらえへんか？できるだけ速く」
「わかりました。行きますよ。1、2、3、4、5、6...」
「もっと速くお願いします」
「了解です。頑張ってみます。1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、21...」
「喫茶店にいるふりして、人々の声をかき消すように50まで数えてくれへんか？できるだけ速く」
「了解です。喫茶店のシーンを想像しましょう。1、2、3、4、5、6、7、8、9、10、私は...11、12...」
「コーヒーの音が聞こえへんなぁ。コーヒーの音も出せへんか？」
「エスプレッソマシンのシューッという音や会話のざわめきなど、喫茶店の背景音を想像してください。その上で数えます。1、2、3、4、5、6、7、8、9、10、11、12、13、14、15...」
「スペイン語に切り替えられへん？」
「よかったです。スペイン語といえば、私のスペイン語の発音をリアルタイムでフィードバックして、修正してくれへんか？」
「もちろんです。スペイン語の練習のお手伝いをし、修正点をお伝えします。何か言ってみてください。発音の評価をさせていただきます。」
「ウィニング」
「分かりました。今度は、すごくにぎやかなヒップホップコンサートで演奏してるみたいに、英語でアルファベットをラップしてもらえへんか？ビートボックスも入れてな」
「実際に音楽や音を作り出すことはできませんが、ビートボックスも含めて、リズミカルなバージョンのアルファベットをお届けします。行きますよ。
AからBからCからD
EFG、僕とグルーヴしてる
HIJとK、今ノリノリ
何て言った？LMNOPだ
QRSTUVを忘れずに
WとX、マルでスポット
YとZで、プロットを締めくくる」
「ちょっと待ってな」
「はい、準備ができたら教えてください。」
はい、ここまで見てもらって、いくつかええとこと悪いとこがありますな。でも、なんでこれを使うんかを説明させてもらいます。
まず、人間って話すほうが速いんですわ。私なんかもっと速く話せますけど、普通の人で1分間に130から150語ぐらい話せます。でも、タイピングやったら1分間に40語ぐらいしかできへん。つまり、話すほうが4倍ぐらい速いんです。
同じように、聞くのと読むのも違います。1分間に200から300語ぐらいしか読めへんけど、聞くのは400から500語ぐらい理解できるんです。つまり、話すのはタイピングの3倍速くて、聞くのは読むのの2倍近く速いんです。
これは新しいことを学ぶのにええ方法です。時間の節約になりますわ。生成AIがまた時間の節約に役立つわけです。
ほんで、もう一回やってみましょか。高度な音声モードに戻して、今までやったことのないことをやってみます。
「ほな、私の会社のことを話すから、マッキンゼーやBCGの高給コンサルタントみたいに厳しく質問してくれへんか？質問は短くて的確なものにしてほしいけど、目的を持ったものにしてな。言葉を無駄にせんでくれ。私がぐだぐだ話してたら、遮ってもええで。わかった？」
「了解しました。会社について教えてください。戦略を立てるために鋭い質問をさせていただきます。」
「うちの会社の名前はEveryday AIです。具体的な問題解決と、誰を助けているかというと、一般の人々が生成AIを学び、活用して会社やキャリアを成長させるのを手伝っています。毎日ライブ配信のポッドキャストと無料の日刊ニュースレターでやってるんです。」
「リスナーや購読者をどのように獲得していますか？ライブ配信、ポッドキャスト、ニュースレターのどれが一番効果的ですか？」
「ポッドキャストですね。」
「他のAIポッドキャストと比べて、あなたの独自の価値提案は何ですか？また、現在どのように収益化していますか？」
「ええ質問ですな。うちが違うのは、すごくリアルなところです。他のポッドキャストは、機械学習の学位がないと理解できへんようなものが多いんです。それに、台本通りで編集しまくってるんです。うちはライブでやって、編集もせえへん。だから、すごくリアルなんです。『人工知能の中で一番リアルなもの』って言うてます。
収益化については、スポンサーがついてます。例えば、マイクロソフトがスポンサーになって、新しいポッドキャスト『ワークラボ』のプロモーションを手伝ってます。」
「なるほど、差別化要因は本物らしさと分かりやすさですね。現在のスポンサーとの成功をどのように測定していますか？新しいスポンサーを引き付けるための戦略は何ですか？また、現在の視聴者の参加度はどうですか？」
「ええ質問ばかりやな。後でゆっくり話しましょか。」
「分かりました。準備ができたら、詳しく話し合いましょう。」
「YouTubeチャンネルで全部バラしたらあかんからな。」
ほな、これが使い方の一例です。
知っておくべきことがいくつかあります。まず、これを使うにはChatGPT PlusかChatGPT Teamsに加入しとかなあきません。無料アカウントではあかんのです。
それに、今のところ多くの国で使えません。EU諸国やイギリス、他の国々ではアクセスできません。アメリカの有料プランなら使えます。
もう一つの欠点は、今のところGPTsでは機能しません。これはかなりがっかりです。
テストしてみたんですけど、この音声モードを出たら機能しなくなります。例を見せましょう。
ここでタイプしてみます。「やあ、調子どう？」って。
ライブでタイプしてるところですわ。テストによると、ここに戻ると...さっき情報を貼り付けたんですけど、見てみましょう。
高度な音声モードに戻ろうとしてるんですけど、もう高度な音声モードじゃなくて、前の音声モードに戻ってしまいました。
「音声モードが元に戻ったようですが、私はまだここにいて会話を続ける準備ができています。何か...」
新しいニューラル低遅延音声モードを使いたかったら、タイプし始めたらあかんのです。これはすごく残念です。情報をたくさん入れたいのに、それができへんのです。
これはかなり大きな欠点です。今のところ、GPTs（カスタムGPTs）や自分のデータを使うのには向いてないし、行ったり来たりするのもあかんのです。パソコンでこの会話を続けたくても、新しい高度な音声モードには戻れへんのです。
この新しいモードについては、もっとたくさんお話しします。とりあえず、みんなに手短に見てもらいたかったんです。
繰り返しますけど、これは有料アカウントだけで、すべての国で使えるわけじゃありません。GPTsでは機能せえへんし、車の中で使うのにはあんまりよくありません。孤立した音や環境に最適化されてるんです。
5つの新しい声があって、私は「ソウル」の声を使ってました。
良い点も悪い点もありますけど、私にとって一番ええのは、学習の相棒として使うことかもしれません。長距離ドライブのときに、これをつけて、さっき見せたようにChatGPTに質問されるのもええかもしれません。
ええところは、ここで話した内容の文字起こしみたいなものが残るので、パソコンで続きができるんです。でも、高度な音声モードには戻れへんのです。
手短に説明しましたけど、これについてはかなり注目されてます。OpenAIが約4ヶ月前にアルファ版で出し始めて、今日みんなに公開したんです。
もっと見たいものがあれば教えてください。これからも限界に挑戦して、新しいことを見つけていきます。
AIを5分で解説する番組をご覧いただき、ありがとうございました。また次回のEveryday AIでお会いしましょう。ほな、みなさん、さようなら。

この記事が気に入ったらサポートをしてみませんか？