見出し画像

OpenAIとGoogle発表から読み取るべき両社の戦略の違い【前編】

 5/14火曜日早朝にOpenAIの発表会、5/15水曜日早朝にGoogleの発表会と続いて、先週は寝不足で辛かったです(笑)。僕はOpenAIは発表を見たのちに、速報をアップしましたが、Googleの速報までは書けませんでした。

 既に両社の発表内容は、SNSで話題になっていて、ご存じの方も多いと思いますが、似通った発表でしたね。

 Google発表の前日にOpenAIが発表日をもってきて、プレゼンがシンプルでわかりやすかったので、Googleの発表が霞みがちです。

 発表内容が多く、かつ、似ているので、両社の違いがいまいちわかりにくかったですよね。

 でも、両社の目指す方向性がおぼろげながらも、僕には感じ取れたので、【前編】(=今回)ではOpenAIの発表の意味、【中編】ではGoogleの発表の意味、【後編】では、両社の発表から読み取るべき戦略の違い、を順を追って、3部作構成で私見を交えて、お話しします。


 まずは、OpenAIの発表内容を簡単におさらいします。

OpenAIの発表の概略

 今回のOpenAI社の発表は、Chat-GPTの新バージョン「GPT-4o」の発表でした。よく聞かれたのですが、「o」はomniの「o」であり、オムニチャネルと言葉をよく耳にしますが、「あらゆる」という意味です。

 要は、文字、音声、画像、動画のマルチモーダルにちゃんと対応した、という意味です。この「ちゃんと」対応したという意味が今回のアップデートの最大の目玉です。

 OpenAIのリリースを総括してみましょう。新バージョン「GPT-4o」は、今までの最強版Chat-GPT4Turboよりも以下のアップデートがされました。

  • 言語性能アップ:言語処理でClaude 3 OpusやGemini Pro 1.5を超えた

  • 真のマルチモーダル対応:テキスト、音声、画像を同時に受け取り、処理して、多様な形式の出力を生成可能になった

  • 視覚機能(Vision)の向上:動画やビデオの理解力が高くなった

  • 高速応答:音声入力に対して、人間の会話とほぼ同等のスピードの、平均320ミリ秒で応答できるようになり、音声での会話がスムーズになった

  • デスクトップ版のリリース:ブラウザーだけでなく、画面の片隅に常においておけるデスクトップ版が新たにリリースされた

  • リアルタイム翻訳:遅延なく、同時通訳並みの翻訳ができるようになった

  • 感情表現ができるようになった:より人間に近い声で、相手の話す内容に応じて、相手の感情にあわせてしゃべれるようになった

  • 多言語対応:英語以外の、日本語も含む、多言語に対応し、英語で利用する場合に比べて、それほど差がなくなった

  • 大幅な値下げ:APIではGPT-4 Turboよりも2倍高速で、価格は半分になり、さらには、時間当たりの利用制限が5倍に増えた

  • 無料ユーザーもGPT4が利用可能:GPT4が利用量の制限がありながらも、GPT4にしかなかった、GTPsやデータ分析機能が使えるようになった

 といったところでしょうか。

 では、これらの発表の意味するところを、注目ポイントに絞って、深堀して説明しますね。

言語性能アップ

 先週、Claude3の紹介をしました。言語能力では、Chat-GPTを超えていると書きましたが、もう訂正しなければなりません。m(__)m

 Chat-GPT4oを発表以来使ってみたのですが、これなら、Claude3をあえて使わなくてもいいかな、と思うレベルに進化しました。従来あった「AIっぽい」表現も減りましたし、わかりやすさもかなり向上していました。

言語モデル最新比較表

 上の棒グラフのピンク色がChat-GPT4oを示しています。どれも、グリーンのClaude3の高機能モデルOpusを抜いてますね。僕も、今週使ってみて、Chat-GPT4oが最高という感じがしています。回答を長文で丁寧にするようになりましたしね。

言語能力でいうならば、現時点では、
Chat-GPT4o > GEMINI Pro1.5改善版 ≒ Claude3 Opus
でしょうか。


真のマルチモーダル対応

 これもすごい機能向上です。あれ?Chat-GPT4はマルチモーダル対応してましたよね?と思われるでしょうが、正確に言うと、「疑似マルチモーダル対応から、「真のマルチモーダル対応」になってきたということです。

 従来のChat-GPTでも、音声、画像が入力できて、その返答も、文字、音声、画像ができてましたが、それぞれが分離されて処理されていました。

 ですので、例えば、僕とChat-GPTが会話するときは、
①僕の声を文字に変換する
②その文字をGPT4に渡して回答文を生成する
③回答文を音声に変換してスピーカーから音出しする
 という3つのタスクを順次実行しなければなりませんでした。

 そのため、Chat-GPTと声で話しかけて対話すると、返答に時間がかかってしまっていました。

 それが今回、文字、音声、画像の同時処理することが可能になったので、僕の声をChat-GPTが聞き、回答を音声で生成して答えられるようになったのです。そのため、音声での会話のレスポンスが飛躍的に向上しました。

 過去に僕が「AI中山」を開発した時の、一番の課題は、この回答速度の遅さでしたので、それが解消されたのは、すごいことだと思います。

 そもそも、人はマルチモーダルです。例えば、親が子供に絵本を読んであげると、子供は、親の声を聴きながら、絵本の文字と絵を同時に読み取り、楽しむわけで、それぞれを別物とは思っていませんよね。

 例えば、会話をするときに、怒った声で話す場合と、やさしいトーンで話す場合は、人は回答の仕方を変えますよね?でも、音声を文字に変換した段階で、声のトーンは文字から情報として消えてしまいます。

 会社で話しているのか、プライベートで一人で話をしているかの画像情報も声と共に重要ですよね?これが、人はマルチモーダルである理由です。

 ですので、今回のマルチモーダル対応は、より人に近づくという意味において、重要なアップデートだったのです。

 この動画をご覧ください。

 iPad(おそらく)に、Chat-GPTの新開発されたデスクトプアプリを起動して、親と子供と数学に問題解かせる先生を、Chat-GPTがしているのですが、Chat-GPTはiPadのカメラとマイクから、子供の表情と声を読み取り、iPadの画面にペンで書きこまれた画像を読み込んでます。

 こうした、カメラからの動画や画像、キーボードからの文字入力、マイクの音声をリアルタイムで「マルチモーダル」情報として一括処理し、回答することを、この動画で示しています。

 ぱっと見て、何をしてるのだろう?と思われた方も多いと思います。

 しかし、この機能を実現することの大変さを、エンジニアや、僕のように「自分の分身AI」を作った者にはよくわかります。そのため、この発表には驚愕しました。

 このマルチモーダル機能を持つことに加えて、

  • 視覚機能(Vision)の向上

  • 高速応答

 が加わることで、もはや、画面の向こうにいるのが人間とかわらないような体験ができるようになったわけですね。特に、高速応答は大切です。僕もAI中山を使って一番苦労したこと、それは、「人の感覚では、レスポンスが1秒以内で返ってこないと違和感が起きる」からです。

デスクトップ版のリリースの意義

 こうしたマルチモーダル機能を持たせるには、今までのような、ブラウザーで動くだけのChat-GPTだと、文字と音声は同時認識しても、視覚機能が持てませんし、相手がPCで何をしてるのかも把握できません。

 ですので、デスクトップ版のリリースが必須だったわけですね。

 すべての機能をばらばらに説明していましたが、実はすべての機能を併せ持つことにより、より人へと近づいたというわけです。


リアルタイム翻訳機能

 もう、これは説明する必要はありませんよね。まだ見ていない方は、この動画をご覧ください。この発表直後に、オンライン会話のサービス会社である「Duolingo」の株価が一時暴落しました。それほどのインパクトでした。

 これからは、英語が話せないという日本人の最大の欠点が欠点でなくなり、グローバルビジネスに必要な語学能力は不要になる時代が来そうです。


感情表現ができるようになった

 個人的には、このアップデートが、僕の中では一番興奮しました。

 今までのChat-GPTも会話ができました。僕もよく音声で会話しています。でもどこか「AI」、それゆえ、会話に没頭できませんでした。
 
 しかし、今回のChat-GPT4oでは、マルチモーダル機能の実装で、相手の今の状況を言葉や表情、声から読み取って、会話ができます。

 Chat-GPT4oは、会話している内容から、その会話のトーンを読み取り、「それはいいわよね!」とか、「うーん。どうかしらぁ」と言ったりするようになりました。また声をトーンも喜んだり、怒ったりのトーンで話すことができます。

 この動画をみて下さい。寝る前の子供に童話を読ませるという話をしてる中、「もっと感情をこめて、童話を読んで」というと、感情表現豊かな声とトーンで、話をしています。

 僕が「AI中山」開発時には、できないと断念した、言葉に抑揚をつけて感情表現することが、わずか1年足らずで、できるようになったのですから。

 PCやスマホの先にある存在が人であるかAIであるかは、今後判別できなくなるでしょう。

多言語対応&大幅な値下げ

 この発表は、Chat-GPT4oを個人で使うには、関係ありませんが、ビジネスで使う開発者や、のような僕のようなAIシステムのインテグレーションをしている人には重要なアップデートです。

 ビジネスでChat-GPT4を使う、というのは、月額20ドルの固定料金のブラウザーで入力するのではなく、AIP(アプリケーション・インターフェースといいます)を経由して使います。

 例えば、コールセンターのチャットボットをビジネスで使いたい場合は、チャットボットの画面を作って、そこから、Chat-GPT4の機能を呼び出すため、APIという仕組みを経由して、Chat-GPT4、正しくは、GPT4の機能を使います。

 これには利用料が発生するのですが、やり取りする文字数に応じて課金され、現在のChat-GPT4は高すぎるため、企業ユースでは、Chat-GPT4ではなくて無料版で使える、Chat-GPT3.5を使わずえませんでした。

 また、日本語は英語と違い、単語の区切りが明確に理解されないため、英語よりも、文字数カウントが30%ほど多くカウントされるため、日本でChat-GPT4をビジネスでつかうのには、価格的に、無理がありました。

 それが、今回の多言語対応で、日本語にも対応したため、日本語も英語同様の文字カウントになって安くなりますし、利用料も半額、となると、従来の30%程度の価格でつかるようになります。

 そのため、ビジネスにおいても、Chat-GPTを3.5ではなく、4oに変更しやすくなりました。

 ビジネス領域でも最新版のChat-GPT4oを使う企業が増えるでしょう。

無料ユーザーもGPT4が利用可能

 これには驚きました。今までOpenAIは、ビジネスで利益を得るため、Chat-GPT4は有料ユーザーしか使えませんでした。

「Chat-GPT4?…3.5より少し頭がいいだけでしょう?」と思われるかもしれませんが、できることが違います。

 PDFファイルを読みこんでデータ分析できたり、オリジナルのChat-GPTである、GTPsという機能が使えたり、です。

 今回、一部機能制限はありながらも、誰でもChat-GPT4oが無料で使えるようになります。

 これには、現時点での利益を度外視して、利用ユーザー数を拡大したいという、OpenAIの深い意図が見え隠れします。なぜ急にこのような戦略転換をしてきたのかは、Googleの戦略と合わせ見ることで理解ができます。

 今回の前編では、OpenAIの発表を取り上げましたが、中編ではGoogleの発表内容を深堀りし、後編では、それらを踏まえた両社の戦略の違いや生成AIの未来について、語っていきます。

 【前編】(=今回)、【中編】【後編】と順を追って読んでいただくことで、「生成AIがどこに向かっていくのか」についての、解像度が上がれば幸いです。


この記事が気に入ったらサポートをしてみませんか?