新Voiceモードが来ない・・！のでひとまず情報収集とブレスト(ChatGPT部、大城)

2024年8月3日 09:58

おはようございます、ChatGPT部、部長の大城です。
より自然な会話を実現する、ChatGPT-4oの新Voiceモードが発表されて１週間くらい経ちますが、いまだに手元にはやってきておりません・・。

全ユーザー公開は秋ごろと噂されてますので、ひとまず現在のα版ユーザーの皆さんの声をキュレーションしつつ、手元に届いたらこういうことやりたいな、という内容をまとめてみます。

従来のVoiceモードとの違い

新Voiceモードは旧来のVoiceモードに対して、かなり応答性能が上がっているため自然な対話が可能です。(旧がおそらくやり取りに約３〜５秒くらいかかっていたのが、新では0.3秒そこら、らしいです)

また新Voiceモードは「音声を音声として学習・認識」していると言われています(OpenAIのサイトに書いてたはず)。従来は「一度音声をテキストに変換して、テキストで解釈し、さらに音声に戻す」ということをやっていましたので、できることは基本は「テキスト」を介した内容でした。
( また、そのせいで速度も落ちていた )

例えば、男声、女声、などのテキスト->音声部分での特徴づけは従来でもできましたが、複数の話者の認識は困難でした。

また、「混ざり合った音」を作る、ということも今回可能になっています。
具体的にはSE(サウンドエフェクト)音付きの朗読、とかですね。

論より証拠、といううことでひとまず新Voiceモード利用者の声を見てみましょう。

Twitter(X)上での利用者の声

サウンドエフェクト生成

30秒、45秒あたりに雷っぽいSE(サウンドエフェクト音)が入ります

サウンドエフェクトを生成しながらSFのストーリーを語ってもらう。SEのクオリティが普通に高いpic.twitter.com/H0VRKqyMRa
— kai (@kai_postv) July 31, 2024

カウントアップ＆ブレス

30くらいまでカウントアップしたタイミングで息継ぎしているのが印象的です。

3/ できるだけ早く10まで数え、次に50まで数える pic.twitter.com/jWVuNDUGPr
— 木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) August 2, 2024

(エセ？)関西弁

関西圏以外の人が頑張って関西弁を話そうとしている、みたいな感じ？

【ChatGPTボイスモード】

関西弁もいけるのやばすぎる…！

本当に関西弁なのか見て欲しいです👇 https://t.co/DgLNRgXqUa pic.twitter.com/4KZsuO7b7Y
— りくお| AIエンジニア学生 (@riku720720) August 1, 2024

日本語で英語の勉強

発音とかも勉強できますね

ChatGPTが英語の先生になった pic.twitter.com/L7q4Bj2a0R
— Hiroki | AIを使った英語学習 (@hiroki_nonomura) August 2, 2024

英語でフランス語の発音の勉強

クロワッサン、の発音が全然違うんですね

7/ フランス語を学ぶpic.twitter.com/q2Pf25wrpf
— 木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) August 2, 2024

おっさんが猫の鳴き声を真似る

徐々にクオリティが上がっております。

10/ 猫の鳴き声を真似するpic.twitter.com/FJOkAh0mmb
— 木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) August 2, 2024

音楽生成より、ということでは(notヒューマン)ビートボックス

15秒くらいでしょうか。どちらかというとボイパに近いデモです。

4/ ビートボックスを披露するpic.twitter.com/S3zzSfl85A
— 木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) August 2, 2024

使えるようになったらやりたいことメモ

個人的には「音楽のフレーズの耳コピ」がどこまでできるかな、というのを実験してみたいと思ってます。多分これができたらその先の音楽のアレンジとかも行けるようになると思うんですよね。
( あと、楽譜に起こしてもらえればピアノとかホルンとか使って演奏もできますし )

それ以外だと正直あまり思いつかないのですが、例えばこの方などはモノマネをどこまでできるか、という面白いアイディアお持ちだったりします。
( 学習データが多くないと厳しいのでは、という気もしてますが、気になりますね )

GPT4oボイスモードが来たら、とりあえずモノマネやらしてみよ。
初歩的な、五木ひろしのよこはま・たそがれ、くらいから。
— hokosugi.icp (@mugeimunou) August 1, 2024

ということで、新Voiceモード到着を座して待ちつつも、色々と検証アイディアを練ってみたいと思います。何か良いネタありましたらぜひコメントください。それではみなさんもどうぞ良いChatGPTライフを・・！(大城)

後日追記：アイディアメモ

・基本は受け身で、必要に応じて双方向のやり取りが可能な生成ラジオ番組(音楽とかお便り紹介とか)

この記事が気に入ったらサポートをしてみませんか？