OpenAIのGPT-4oが登場！映画「her」の世界が本当にやってくる

AI未来話

2024年5月16日 12:12

AIメディアを運営する田附と平岡が、 AIの最新動向やその未来に関する情報を広く掘り下げながら考察をしていくPodcast「AI未来話」

このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は95％がLLM「Claude」産で執筆しています。

今回は「#13 OpenAIのGPT-4oが登場！映画「her」の世界が本当にやってくる」からGPT-4oの特徴やビジネスへの影響について考察していきます。

OpenAIがGPT-4oを発表 - 映画「her」の世界が現実に

OpenAIが2023年5月13日、新しい言語モデルGPT-4oを発表しました。
GPT-4oはGPT-4 Turboと同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したモデルです。

この発表は、深夜2時に行われるなど、昔のAppleを彷彿とさせるようなイベントとなり、AI業界の注目を集めました。

GPT-4oの"omni"の意味

GPT-4oの"o"は、"omni"を意味しています。
これは日本語で”すべて、あまねく”を意味し、ラテン語起源の接頭辞から由来しており、テキスト、音声、画像などあらゆる組み合わせを入力として受け入れ、あらゆる組み合わせで出力できることを表しています。

つまり、GPT-4oは全方向での能力を備えているということです。

音声対話性能の大幅な向上

GPT-4oの特徴と能力向上

GPT-4oは、GPT-4 Turboと同等の性能を持ちながら、いくつかの点で大幅な能力向上を遂げています。特に注目されているのは、音声対話性能の向上です。

①応答速度の改善

GPT-4oの音声対話における応答速度は、平均0.32秒とほぼ実時間に近いレベルまで改善されました。

これは人間との会話における応答時間とほぼ同じだと言われています。
GPT-3.5の2.8秒、GPT-4の5.4秒から大幅な改善を果たしたと言えるでしょう。

②感情理解と表現力の向上

GPT-4oは、感情の理解と表現力においても大きな進歩を遂げました。相手の感情を理解し、適切な反応を返すことができます。

また、音声の抑揚や息遣いなどの非言語的な要素も理解できるようになりました。まるで人間と話しているかのような自然な会話が可能になったのです。

新機能

視覚支援機能（盲目の人へのサポート）

今回の発表で視覚障害者の課題を解決するBe My EyesとOpenAIの技術を利用した特別映像が公開されました。

この技術はカメラを通して周囲の状況を認識し、盲目の人をサポートすることができます。

例えば、タクシーを呼ぶ際に、どのタイミングで手を上げればいいかを教えてくれます。このような機能は、視覚障害者の自立を大きく助ける可能性を秘めています。

3Dモデル生成、手書き風画像生成

GPT-4oは、テキストから3Dモデルを生成したり、書き手の感情を指定してリアルな手書き風の画像を生成したりすることができます。

これにより、3Dモデリングやイラストレーションの分野にも大きな影響を与えると予想されます。

話者識別機能付き文字起こし

GPT-4oは、音声データから話者を識別した上で文字起こしをすることができます。これにより、議事録作成などの作業が大幅に効率化されることが期待されます。

大幅に強化されたOCR機能

GPT-4oのOCR(光学文字認識)機能は大幅に強化されています。
非常に正確で、人間でも読み取るのが難しいような細かい文字までも認識することができます。

例えば、複雑なレイアウトのカオスマップに記載された多数の会社名なども、すべて正確に読み取り、文字起こしをしてくれます。

しかも、このOCR機能は無料で利用可能です。

これまでOCRといえばAnthropicのClaudeが高い性能を誇っていましたが、GPT-4oはそれを上回る性能を無料で提供することになります。

前の配信で、ClaudeのOCR機能によって「OCRで食ってる会社は全部駆逐されるのでは」という話題になりましたが、まさにそれが現実のものとなりつつあります。

OCR機能が無料で使い放題になることで、OCRを売りにしているサービスは大きな影響を受けることになるでしょう。

📝GPT-4oの速度は世界を変える！
OCR性能も優れています

オススメの使い方

✅展示会を見るのが捗る！

- 展示会の企業出展マップ読み取る
- 企業名と会社概要抽出指示
- 情報キャッチアップしながら展示会回れる

とにかく早い、、、、 https://t.co/qU1FEfk0h9 pic.twitter.com/iu8kKiT0wA
— テツメモ｜AI図解×検証｜Newsletter (@tetumemo) May 13, 2024

GPT-4oの料金体系とデスクトップアプリ

GPT-4oは、APIコストを大幅に引き下げ、無料ユーザーにも多くの機能を開放するなど、利用しやすい料金体系を採用しています。

APIコストの大幅な引き下げ

GPT-4oのAPIコストは、従来の約半分に設定されています。
通常、性能が上がれば料金も上がるものですが、GPT-4oは逆の方向性を取っています。

これにより、より多くの開発者がGPT-4oを活用しやすくなるでしょう。

無料ユーザーへの機能開放

GPT-4oは、無料ユーザーにも多くの機能を開放しています。
有料プランとの違いはあるものの、基本的な機能の8割程度は無料で利用可能です。

これにより、AIをより身近なものにしていくビジョンを感じます。

デスクトップアプリのリリース予定

GPT-4oは、近日中にMac版、年内にWindows版のデスクトップアプリをリリースする予定です。

デスクトップアプリ化により、より快適で seamless な利用が可能になるでしょう。

例えば、プログラミングをしながらGPT-4oに質問をぶつけ、リアルタイムでアドバイスをもらうことができます。

まるでプロのプログラマが隣で教えてくれているかのようなAI家庭教師のような体験が実現するかもしれません。

RAGの大幅な性能向上とその影響

今回のGPT-4oのリリースでは、RAG(Retrieval Augmented Generation)の性能が大幅に向上したことが大きな話題となっています。

RAGとは、大量のデータを格納しておき、そこを参照しながら返答を生成する機能のことです。

ハルシネーションの問題を解決する可能性

GPT-4oではこのRAGの精度が飛躍的に上がったと言われており、これによってこれまで課題とされてきたハルシネーション（幻覚、つまりAIが誤った情報を生成してしまうこと）の問題が解決される可能性が高まっています。

正確なデータベースを参照できるようになったことで、AIがより事実に基づいた正確な返答を生成できるようになるのです。

高精度なAIアプリケーションの実現

RAGの精度向上は、より実用的で高性能なAIアプリケーションの開発を可能にします。

たとえば、AI家庭教師のサービスを開発する際に、東大合格のためのノウハウをすべてデータベース化しておけば、本当に東大合格を目指すための高精度なAIを作ることができるかもしれません。

プログラミングの指導や、専門的な分野の学習支援など、幅広い分野でのAI活用が期待できます。

デスクトップアプリとの組み合わせで真価を発揮

RAGの性能向上は、先に述べたデスクトップアプリのリリースと合わせて、より大きなインパクトを持つと考えられます。

デスクトップアプリ上でローカルにデータベースを保持し、RAGを活用することで、オフラインでも高度なAI機能を利用できるようになるでしょう。

また、プライバシーの観点からも、クラウドではなくローカルでデータを処理できることは大きなメリットと言えます。

GPT-4oがもたらすビジネスへの影響

GPT-4oのようなAIの急速な進歩は、ビジネス界に大きな影響を及ぼすことが予想されます。

スタートアップの開発成果の陳腐化

OpenAIのようなビッグプレイヤーがGPT-4oのような高性能モデルを次々とリリースすることで、スタートアップの開発成果が一瞬で陳腐化してしまう可能性があります。

スタートアップは、より特化した領域や、独自のデータを活用することで差別化を図る必要があるでしょう。

特化したサービスの重要性

GPT-4oのような汎用AIが普及することで、特化型のサービスの重要性がより高まることが予想されます。

特化型サービスは、特定の領域に特化することで、より高い付加価値を提供することができます。一方、汎用的なサービスは、コスト競争力が求められるようになるでしょう。

語学学習事業への影響

GPT-4oがリアルタイム翻訳機能を備えたことで、語学学習事業への影響も予想されます。

実際、GPT-4oの発表を受けて、語学学習アプリDuolingoの株価が急落しました。特化型の語学学習サービスは、独自のカリキュラムやコミュニティなどの付加価値を提供することで、生き残る道を模索することになるでしょう。

AIの発展による犯罪と法律的な懸念

AIの急速な進歩は、犯罪や法律的な問題も引き起こす可能性があります。技術の進歩に合わせて、適切な規制や対策を講じていく必要があります。

スマートグラスを用いたカンニング問題

最近、早稲田大学の入学試験で、スマートグラスを用いたカンニング事件が発生しました。

AIの力を借りることで、カンニングがより巧妙化する可能性があります。
教育機関は、このような不正行為に対する対策を講じる必要に迫られています。

ホワイトカラーとブルーカラーの仕事への影響

AIの発展は、ホワイトカラーとブルーカラーの両方の仕事に影響を与えると予想されています。

特に、単純作業の多いブルーカラーの仕事は、AIを搭載したロボットによって代替される可能性が高いと言われています。

一方、ホワイトカラーの仕事も、AIによって効率化が進むことが予想されます。ただし、どちらも高度な判断を必要とする上流の仕事は、人間の domain として残ることになるでしょう。

生成AIの技術競争とこれからの展望

GPT-4oの発表は、生成AIの技術競争がさらに激化することを予感させます。各社の技術力が拮抗する中、勝敗の行方が注目されています。

各社の技術力の均衡化

OpenAIだけでなく、GoogleやMetaなど、各社の技術力が拮抗してきています。競合他社の動向を見ながら、戦略的に技術開発を進めていく必要があるでしょう。

情報戦としての側面

生成AIの技術競争は、単なる技術の優劣だけでなく、情報戦の様相も呈しています。

各社は、自社の技術の優位性をアピールするために、デモンストレーションやベンチマークテストを行い、メディアを通じて情報を発信しています。

例えば、OpenAIはGPT-4oの発表に合わせて、盲目の人をサポートする機能やリアルタイムの音声対話などのデモンストレーションを行いました。

Googleは、PaLMを使った検索機能のデモンストレーションを行い、検索の高度化をアピールしました。

Anthropicは、Claudeの安全性の高さを強調し、倫理的なAI開発を前面に打ち出しています。

このように、各社は自社の技術的優位性だけでなく、社会的意義やビジョンも含めて情報発信を行っています。

メディアを通じた情報戦は、投資家やユーザーの関心を集め、市場での優位性を獲得するための重要な戦略となっています。

また、学術的な観点からも、各社の研究者が論文を発表し、技術的な優位性を示すことも重要です。

生成AIの技術競争は、単なる技術開発だけでなく、情報戦としての側面も持っているのです。

AIのまとめ

GPT-4oの登場は、生成AIの飛躍的な進化を象徴する出来事でした。

音声対話や画像認識、言語理解など、あらゆる面で人間に近づきつつあるAIの性能は、私たちの生活やビジネスに大きな変革をもたらそうとしています。

OpenAIやGoogle、Metaなどの大手テック企業による熾烈な技術競争は、単なる技術開発だけでなく、社会的意義やビジョンを巡る情報戦の様相も呈しています。

生成AIがもたらすインパクトは、社会のあらゆる分野に及ぶでしょう。

一方で、AIの発展は倫理的な課題も突きつけています。
プライバシーや雇用、AIの公平性など、技術の進歩に伴って生じる問題にも向き合っていく必要があります。

AIと人間が共生する社会を実現するためには、AIの可能性を最大限に引き出しつつ、その限界も見極めることが重要です。

AIをパートナーとして捉え、人間の創造性を拡張するための存在として活用していく。
そんな未来を目指して、私たちは今、一歩を踏み出そうとしているのです。

GPT-4oは、AIの時代の幕開けを告げる存在と言えるでしょう。

これからのAIと人間の共生時代を生きるために、私たちは何をすべきか。
その問いに向き合いながら、AIとともにより豊かで創造的な社会を作っていく。

そんな未来に向けて、今、AIの可能性に思いを馳せてみるのはどうでしょうか。

この記事が気に入ったらサポートをしてみませんか？