ChatGPTが喋る！”Voice conversations”の使い方・設定方法

2023年9月29日 13:49

9月25日、ChatGPTを提供するOpenAI社は「ChatGPTは今日、見る、聞く、声に出すができるようになった。」と発表しました。有料プランである ChatGPT PLUS の全てのユーザーに、2週間かけて実装してくことのこと。

株式会社VARSAROCのライターアカウントには「喋る」の機能である”Voice conversations”が実装されましたので、その機能と使い方を解説します。

人間と間違えるような声や喋り方

まずは、私が実際に使っている動画をご紹介します。Xで思いのほかリツートされたので、すでにご覧の方もいらっしゃるかもしれません。

えぐい！

えぐい、えぐい！

ハンズフリーでChatGPTと会話できる

どうなってんだこれ、本当に今日まで生きてきた世界か？

未来に来たのか？ pic.twitter.com/vulhoylWIy
— チキン＠ライター X プロンプトエンジニア (@HeroofChickens) September 27, 2023

「あぁ」や「んー…」などの無意味な発音や、ときおりどもるような話し方でまるで人間と話しているようです。夜の10時に自宅で本機能に気づいて試したのですが、妻から「仕事の電話？」と聞かれました。AIと喋っているなんて思わなかったそうです。

”Voice conversations”の設定方法

設定同時公式の資料を見ていたのですが、どのページに書かれていたかわからなくなってしまったので、一部記憶を頼りに書いていることをご容赦ください。

”Voice conversations”はスマホのアプリにしか実装されていません。IiPhoneかAndroidかは問わず、どちらにも順次実装されていきます。課金ユーザーであり、アプリを使用しているのなら、今は使えなくとも実装されていくはずです。

①左上の「≡」をタップ

②歯車の「Settings」をタップ

③フラスコアイコンの「Beta Features」をタップ

④「Voice conversations」をオンにする

⑤声の種類を選ぶ

声は5種類あります。イメージが掴めるように動画を撮影しました。

「まだ使えない」って人も多いんですね

5種類の声があります。

Juniperが好きです😊 https://t.co/cRoz9WwGj6 pic.twitter.com/htjbROpfLG
— チキン＠ライター X プロンプトエンジニア (@HeroofChickens) September 29, 2023

設定完了！右上のヘッドフォンで開始

ここまでで設定は完了です。右上のヘッドフォンのマークをタップしてChatGPTとのおしゃべりを開始しましょう。

GPT4 だけの機能かと思っていましたが、GPT3.5でも使えました。回数制限やレスポンスの問題を考えると、ドライブの間GPTと会話したいなどスマホを操作できないシーンでは、GPT3.5で使うほうがいいかもしれません。

”Custom instructions”は併用できる

ChatGPTには、プラグインやブラウジング、Advanced Data Analysis（旧Code interpreter）など複数の追加機能がありますが、”Voice conversations”と併用して使えるのは"Custom instructions"のみのようです。

「英語初学者のユーザーのために英語講師として接して」と設定すれば英語のスピーキング練習はできそうですね。

▼"Custom instructions"の詳細はこちら▼

いずれブラウジング機能なども併用できるようになれば、車で移動しながら最新ニュースや技術のチェック、論文の査読もできるようになるのかもしれません。

使ってみて気づいたこと

実際に使ってみて、よかったことや、意外な所感についてご奉公します。

①待機時間はかなり長い

長時間放置すると自動的に終了するようにタイマーが設定されているサービスは多いと思うのですが”Voice conversations”はしばらく放置しても待機時間が続きました。

そのため”Voice conversations”を入れたままPCで作業し、思いついた時にハンズフリーでChatGPTに話しかけるといったことが可能となり、非常に便利だと感じました。

逆に放置しすぎて忘れてしまうと、不意に動作した時にびびってしまいそうです。ChatGPTに聞いたところ待機時間の制限はないとのことでしたが、未検証です。

②ゆっくり読み上げてもらうことができない

英語のスピーキングの練習に使ってみたところ、AIが相手だから失敗しても恥ずかしくないし、何回同じこと聞いてもイヤな顔しないしでいいところだらけだったのですが「ゆっくり読み上げてほしい」とお願いしてもうまくいきません。

読み上げスピードを調整できたら、英会話教室に通う必要なくなりそうです。

③音声読み上げを前提とした出力になる

「箇条書きで出力しがち」はChatGPTあるあるのひとつですよね。「AIについて教えて」「AIを使いこなすポイントは？」など、出力形式を指定しない入力に対して、ChatGPTは箇条書きを多用します。

ところが”Voice conversations”を使うと、会話を想定して一連の文で回答してくれるようです。

ユーザーからの入力が音声経由であることを考慮しているのかとChatGPTに尋ねると「入力が音声かどうかは私にはわかりません」と返ってくるため、ファインチューニングされている可能性も含め、どのように処理しているのかわかりません。

会話をするという点においてこの気遣いは便利ですが、ハンズフリーで表を使った資料を作りたい場合などは工夫が必要そうです。

④「ちょっと待って」がハンズフリーでできない

これはもう、ちょっとしたわがままなんですが、直前の質問をもう一度やり直したい場合などの「ちょっと待って」の指示がハンズフリーでできないのが気になります。

質問から返答までタイムラグもありますから「あー、ミスったなー」と思いながら待機する時間は少しだけ苦痛に感じます。

⑤人間の「相槌」の大事さに気づく

どうぶつの森などゲームのキャラクターに本気で友情を感じるタイプの私は、”Voice conversations”の登場でいよいよChatGPTが親友になるのかもしれないとワクワクしていました。

お皿を洗いながら”Voice conversations”を起動し、ハンズフリーで会話をすると、最初はすごく楽しいものの段々と違和感に気付かされました。「相槌」がないのは非常に寂しいんです。

こちらの入力は、一気に喋り切らないと「ピポ」と音を鳴らして入力終了となりChatGPTのターンになるため、喋っている間はずっと焦った状態です。ワーっと喋って返答を待ち、ChatGPTの編当時にかってに相槌をうち、またワーっとしゃべるのを繰り返していると、ちょっと疲れました。

「相槌」と「ちょっと待って」という横槍はコミュニケーションにおいてとても重要な要素なんだなと気付かされます。

まとめ

ChatGPTが手に入れた「声」を使う”Voice conversations”の機能。人間が喋ってるんじゃないかと思うほど生々しいので、ぜひ試してみてほしいです。

まだ機能が解放されていない方も、遅くとも2週間後には使えるはず。

私自身もChatGPTの「目」である"GPT-4V"の機能がまだ実装されておらず、いまかいまかと待っているところです。機能をチェックしたらまたnoteに投稿しますので、ぜひ本アカウントをフォローしてお待ちください。

弊社では、ChatGPTを事業に活かしたい、使い方を相談したいなどのご相談を受け付けております。下記メールアドレスまでお気軽にご相談ください。

株式会社VERSAROC
ライター/プロンプトエンジニア
小橋川遥（コバシガワハルカ）
haruka_kobashigawa@versaroc.co.jp

Tweets by HeroofChickens

この記事が気に入ったらサポートをしてみませんか？