OpenAIが革新的なAI「GPT-4o」を発表、テキスト、音声、画像をリアルタイムで処理、より自然な人間とコンピュータの対話を実現

2024年5月14日 14:31

OpenAIは、新しい旗艦モデル「GPT-4o」を発表しました。このモデルは、テキスト、音声、画像をリアルタイムで処理できるという画期的な能力を持ち、より自然な人間とコンピュータの対話を実現します。

GPT-4o（「o」は「omni」から命名）は、テキスト、音声、画像のいずれか、またはこれらを組み合わせた入力を受け取り、同様に多様な形式で出力を生成できます。例えば、音声入力に対して232ミリ秒から320ミリ秒の応答時間で返答することができ、人間の会話に近い速度を実現しています。また、GPT-4 Turboと同等の性能を持ちながら、非英語圏のテキスト処理では大幅な改善が見られ、処理速度が向上し、API利用時のコストも50%削減されています。

従来、音声モードでは、音声をテキストに変換し、そのテキストを処理し、再び音声に戻すという3つのモデルを経由していました。このプロセスでは、トーンや背景音などの情報が失われやすくなっていました。しかし、GPT-4oでは、テキスト、音声、画像を一つのニューラルネットワークで統合的に処理するため、これらの問題が解消されました。これにより、GPT-4oは、より自然な表現や感情の出力が可能となります。

GPT-4oは、従来のベンチマークにおいても優れた成績を収めており、特に多言語対応、音声理解、視覚認識において新たな高水準を達成しています。さらに、安全性も重視されており、フィルタリングされたトレーニングデータやモデルの行動を改善する後処理技術により、安全な使用が保証されています。

OpenAIは、GPT-4oを評価する際、サイバーセキュリティ、説得力、モデルの自律性などのリスクを中程度以下に抑えるためのテストを実施しました。また、70人以上の外部専門家と連携し、バイアスや公平性、誤情報のリスクを特定し、対策を講じています。

GPT-4oのテキストおよび画像入力とテキスト出力機能は、ChatGPTの無料プランおよびPlusユーザーに提供されており、音声モードの新バージョンも数週間以内にChatGPT Plusでアルファ版としてリリースされる予定です。また、開発者向けにはAPIを通じてテキストおよびビジョンモデルとして利用可能であり、速度とコスト面でのメリットがあります。今後、音声および動画機能のサポートも信頼できるパートナーに向けて順次展開される予定です。

GPT-4oの登場により、AI技術はさらに進化し、多様な入力形式に対応することで、より豊かなユーザー体験が期待されます。これからの展開にも注目が集まります。

詳細内容は、OpenAIが提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか？