GPT2がGPT4omniとして正式発表され、既に使えるようになりました
日本時間2024年5月14日午前2時、OpenAIが最新のアップデートを発表しました。このアップデートにより、AIの利用がさらに身近なものとなります。以下の3つのポイントを押さえることで、OpenAIの最新動向を把握できます。
ChatGPTデスクトップアプリ公開
音声会話のレベルが向上:ほぼ人間並み
GPT-4o APIが公開("o"は "omni"の意味)
1. ChatGPTデスクトップアプリ公開
新しいmacOS用のChatGPTデスクトップアプリがリリースされました。無料・有料ユーザーを問わず、コンピュータ上で行っているあらゆることにシームレスに統合できます。
機能:
簡単なキーボードショートカット(Option + Space)で即座にChatGPTにアクセス可能。
アプリ内で直接スクリーンショットを撮り、議論可能。
Zoom会議中や開発環境に表示させ、リアルタイムでアドバイスを受けることが可能。
ローカルで動く別のアプリの画面解析も可能で、コードの修正やグラフの解析ができる。
音声入出力にも対応。
詳細は公式ページをご覧ください。
2. 音声会話のレベルが向上:ほぼ人間並み
2.1 音声の質の大幅向上
ChatGPTの音声会話の質が飛躍的に向上し、ほぼ人間並みになりました。会話速度は人間と同程度で、感情表現やトーンの変化、歌唱も可能です。
2.2 視覚機能(Vision)
動画の情景や登場人物の理解、数学の問題解決など、リアルタイムでの映像理解が可能になりました。
2.3 リアルタイム翻訳
ほぼ遅延なしでリアルタイム翻訳が可能になり、海外旅行時の言語の心配が不要になります。
GPT-4oを搭載した新しいボイスモードが数週間以内にChatGPT Plusのアルファテスターに提供開始される予定です。
3. GPT-4oが公開
3.1 概要と性能の比較
GPT-4oは超高性能で超高速のモデルです。GPT-4 Turboと比べ、以下の特徴があります:
速度: 2倍高速
料金: 半額
RateLimit: 5倍まで緩和
クオリティ: Claude 3 OpusやGemini Pro 1.5を超える
3.2 圧倒的速度
実際に使用すると、その速度の速さに驚かされます。開発者にとって多くの嬉しい変更点があります。
3.3 トークンの圧縮
トークンも圧縮され、より長い文章の入力と出力が可能です。
GPT-4oの主な特徴:
テキスト・音声・画像を単一のニューラルネットワークで処理
会話でのAI応答時間は平均320ミリ秒
英語とコードでGPT-4 Turboと同等の性能
英語以外の言語は大幅改善
ビジョンと音声の理解力が既存モデルを大きく上回る
提供開始:
本日よりChatGPTとAPIで利用可能
音声・動画機能は近日中に信頼できるパートナー向けに提供開始
詳細は公式ブログをご覧ください。
4. おまけ
4.1 無料で公開される機能
以下の機能が無料で公開される予定です:
GPT Store
Vision(画像、動画解析)
インターネット検索
メモリー機能
Advanced Data Analysis
4.2 ライブデモのスマホがオフライン?
今回のLive Demoでインターネットに接続されていないスマホが登場しました。ローカルで動いている可能性がありますが、詳細は不明です。
5. まとめ
OpenAIは今回のアップデートにより、さらに業界をリードする存在となりました。
デスクトップアプリ:
他アプリの操作が可能になり、自動化の幅が広がります。
例えば、ブログの作成と公開など。
APIの性能アップと低価格化:
開発者にとってコストを下げつつ性能を上げることが可能です。
機能の無料化:
他社に対する大きな脅威となります。
GPT-5や音声電話、ChatGPTの検索強化など、まだ公開されていない機能も多くあります。今後のOpenAIの動向に期待が高まります。
AI×協会ビジネスのパイオニアとして、富を生み出すリーダーを輩出することをこの3カ間の集中目標として活動中です~ありがとうございます。