ChatGPTのマルチモーダルな新機能

npaka

2023年9月25日 22:51

以下の記事が面白かったので、かるくまとめました。

・ChatGPT can now see, hear, and speak

1. ChatGPTのマルチモーダルな新機能

「ChatGPT」にマルチモーダルな新機能が追加されました。

・音声による会話 : iOS・Android
・画像について質問 : iOS・Android・PC

今後2週間以内に、Plus および Enterprise ユーザーに提供される予定です。

2. 音声による会話

ChatGPTとの音声による往復会話が可能になりました。
これによって、外出先で話しかけたり、夕食のテーブルでの議論を解決したり、就寝前に会話したりすることができます。

使い方は、次のとおりです。

(1) モバイルアプリの「設定 → 新機能」で「音声会話」を有効化
(2) ホーム画面右上のヘッドフォンボタンをタップし、5つの音声から好みのものを選択

音声合成はテキストと数秒のサンプル音声から人間のような音声を生成できる新モデル、音声認識はWhisperを活用しています。

3. 画像について質問

ChatGPTに画像について質問できるようになりました。複数の画像について話し合ったり、描画ツールを使用してガイドしたりすることもできます。
これによって、グリルが起動しない原因を解決したり、冷蔵庫の中身を調べて食事の計画を立てたり、仕事関連のデータの複雑なグラフを分析したりすることができます。

使い方は、次のとおりです。

(1) 写真ボタンをタップして画像を撮影・選択
※ iOS・Androidの場合は、最初に＋ボタンをタップ。

画像認識は、multimodal GPT-3.5・GPT-4 によって強化されています。

4. 今後の予定

画像と音声の機能を段階的に導入していきます。

OpenAIの目標は、安全で有益な AGIを構築することです。ツールを段階的に利用できるようにすることで、時間の経過とともに改善を加えてリスク軽減を改善できると同時に、将来的により強力なシステムに向けて全員が享受できるようになると信じています。