新Voiceモードが来ない・・!のでひとまず情報収集とブレスト(ChatGPT部、大城)

おはようございます、ChatGPT部、部長の大城です。
より自然な会話を実現する、ChatGPT-4oの新Voiceモードが発表されて1週間くらい経ちますが、いまだに手元にはやってきておりません・・。

全ユーザー公開は秋ごろと噂されてますので、ひとまず現在のα版ユーザーの皆さんの声をキュレーションしつつ、手元に届いたらこういうことやりたいな、という内容をまとめてみます。


従来のVoiceモードとの違い

新Voiceモードは旧来のVoiceモードに対して、かなり応答性能が上がっているため自然な対話が可能です。(旧がおそらくやり取りに約3〜5秒くらいかかっていたのが、新では0.3秒そこら、らしいです)

また新Voiceモードは「音声を音声として学習・認識」していると言われています(OpenAIのサイトに書いてたはず)。従来は「一度音声をテキストに変換して、テキストで解釈し、さらに音声に戻す」ということをやっていましたので、できることは基本は「テキスト」を介した内容でした。
( また、そのせいで速度も落ちていた )

例えば、男声、女声、などのテキスト->音声部分での特徴づけは従来でもできましたが、複数の話者の認識は困難でした。

また、「混ざり合った音」を作る、ということも今回可能になっています。
具体的にはSE(サウンドエフェクト)音付きの朗読、とかですね。

論より証拠、といううことでひとまず新Voiceモード利用者の声を見てみましょう。

Twitter(X)上での利用者の声


サウンドエフェクト生成


30秒、45秒あたりに雷っぽいSE(サウンドエフェクト音)が入ります

カウントアップ&ブレス

30くらいまでカウントアップしたタイミングで息継ぎしているのが印象的です。


(エセ?)関西弁

関西圏以外の人が頑張って関西弁を話そうとしている、みたいな感じ?


日本語で英語の勉強

発音とかも勉強できますね

英語でフランス語の発音の勉強

クロワッサン、の発音が全然違うんですね


おっさんが猫の鳴き声を真似る

徐々にクオリティが上がっております。

音楽生成より、ということでは(notヒューマン)ビートボックス

15秒くらいでしょうか。どちらかというとボイパに近いデモです。


使えるようになったらやりたいことメモ

個人的には「音楽のフレーズの耳コピ」がどこまでできるかな、というのを実験してみたいと思ってます。多分これができたらその先の音楽のアレンジとかも行けるようになると思うんですよね。
( あと、楽譜に起こしてもらえればピアノとかホルンとか使って演奏もできますし )

それ以外だと正直あまり思いつかないのですが、例えばこの方などはモノマネをどこまでできるか、という面白いアイディアお持ちだったりします。
( 学習データが多くないと厳しいのでは、という気もしてますが、気になりますね )


ということで、新Voiceモード到着を座して待ちつつも、色々と検証アイディアを練ってみたいと思います。何か良いネタありましたらぜひコメントください。それではみなさんもどうぞ良いChatGPTライフを・・!(大城)

後日追記:アイディアメモ

・基本は受け身で、必要に応じて双方向のやり取りが可能な生成ラジオ番組(音楽とかお便り紹介とか)

この記事が気に入ったらサポートをしてみませんか?