Appleは「Ferret」という新しいマルチモーダルAIシステムを導入しました。これはGPT-4を特定の面で上回る能力を持ち、CLIP ViT-L/14というツールを使用して画像を解析し、コンピュータが扱える形式に変換します。Ferretは、異なる形状を分析し、各点の詳細と位置を理解することで、画像の特定の部分を正確に見つけ出し、説明することができます。ベンチマークテストでは、入力タイプ、出力の基盤、データ構築、GPT生成、堅牢性、定量評価の面でGPT-4を上回りました。細かいマルチモーダル理解とインタラクションの能力は、複雑な視覚タスクにおいてGPT-4よりも適しています。画像内の対象物や領域を正確に識別する点で、GPT-4に比べて優れています。Ferretの能力は、自動運転システムなどでの使用が期待されています。
公開日:2023年12月30日
※動画を再生してから読むのがオススメです。
ついに、Appleから彼らが開発していた機械学習または大規模言語モデルに関するいくつかの情報が出てきましたね。
つまり、AppleはマルチモーダルAIシステムを導入したわけだが、これはかなり印象的なもので、実際にGPT-4の能力を超えている部分もある。
そしてこれは、GPT-4がもはや王者ではないと言うとき、多くの人が見てきたシナリオかもしれない。
では、Appleが何を導入したのか、この新しいマルチモーダルAIシステムが本当に優れているのか、具体的に見てみよう。
では、このシステムの仕組みを見てみよう。
これはFerretと呼ばれています。
これは基本的にFerretモデルで、Appleの研究者たちによって作られています。
これらはそれを作成したものであり、基本的には主にビジョンモデルです。
まず、CLIP ViT-L/14と呼ばれるツールを使って、写真に写っているものを理解し、それをコンピューターが処理できる形にします。
次に、あなたが入力した単語を見て、それを理解できる形式に変換します。
そして、画像内の領域を特定し、左下隅にいる猫のような画像の特定の部分について話すと、モデルは特別な座標を使用して、それが画像内のどこにあるかを正確に見つけます。
もちろん、処理や形状の機能もあり、単純な箱だけでなく、画像内のさまざまな形状を扱うことができます。
これは、あなたが話しているエリアの多くのポイントを見て、各ポイントの詳細と位置を理解します。
最後に、これらの情報をまとめて、あなたが話している写真の特定の部分を正確に見つけ、描写します。
基本的に、ここには非常に印象的な高度な画像識別モデルがあります。特定のベンチマークでGPT-4と比較したとき、私自身もテストしましたが、実際にGPT-4のビジョン能力を上回っていることを確認しました。
まず、ここでいくつかのベンチマークがあることがわかります。
Ferretモデルのベンチマークを見ると、Ferretはすべての入力タイプ(Point boxとFree form)を持っていることがわかります。
また、出力も非常に優れています。つまり、画像内の特定のオブジェクトと、実際の物理世界でのオブジェクトの関係を正確に理解することができます。
そしてもちろん、データ構築、GPT生成、ロバスト性、そしてもちろんチャットによるSLGグラウンディングの定量的評価もあります。
というのも、この論文ではGPT-4とビジョンとの比較ではなく、GPT4RoIとの比較を行っているからです。
しかし、論文の後半で、視覚ありのGPT-4との比較をお見せします。
GPT4RoIを見てみると、ここに「関心領域における大規模言語モデルの指導調整」と記されています。基本的に、GPT4RoIとは、特定の地域に特化して細かく調整されたバージョンだったということです。
したがって、PDFのベンチマークでは、研究者たちはおそらくGPT-4 Visionではなく、GPT4RoIと比較していると思われます。GPT4RoIは、画像の関心領域を理解し、相互作用するために特に設計されたものであり、GPT-4 Visionが設計されたものよりも高度で特殊なタスクです。
GPT-4ビジョンは、言語と詳細な画像解析を組み合わせることができ、特に画像内の特定の領域に焦点を当てることができるため、細かい粒度のマルチモーダル理解とインタラクションにおけるFerretモデルの能力をテストするベンチマークとしてより適しています。
この比較は、フェレットモデルが複雑なビジョンタスクを処理する能力の進歩と特定の強みを強調するのに役立ちます。また、ここではGPT4RoIベンチマークも見ることができます。GPT4RoIが何であり、なぜFerretモデルと比較されたのかを正確に理解することができます。これらのことのいくつかは、実際にはビジュアルChatGPTのビデオを作成しましたが、それでもフェレットモデルはそれを上回っています。
ここで、GPT-4と比較する例の1つを見てみる必要があります。
自転車のオブジェクトの目的は何かということを述べている例です。リージョン0は、ここで見ることができるハイライトされた黄色の領域で、地面の真実のオブジェクトは自転車のショックアブソーバーであり、その目的はショックの衝撃を吸収または減衰させることです。これにより、ショックの運動エネルギーを別の形のエネルギーに変換し、特に不均一または荒れた地形を走行する際に、ライダーに快適さと安定性を提供するのに特に役立ちます。
つまり、lavaというモデルは、ビジョンモデルは正しく理解していなかったということです。 KOSMOS-2 マイクロソフトのマルチモーターモデルは、実際には正しく理解していませんでした。
そして、フェレットモデルは100%正しい。
モデルはショックアブソーバーであり、これがどれだけ効果的かを示しています。
さて、私は実際にこの画像をChatGPTに入れて、「バイクのハイライトされた領域の目的は何ですか?」と言いました。
そして、バイクのハイライトされた領域は、排気パイプとマフラーが配置されている場所ですが、これは完全に間違っています。
今、私は実際にこれを何度も試してみました。
このプロンプトを何度も何度も試しましたが、ChatGPTは全く正しく理解できませんでした。
もしかしたら、私よりもうまくプロンプトを出すことができるかもしれませんが、このゼロショット設定では、特定の物事に関する洞察を提供するのに有効ではありません。
彼らが実際に話したことの1つは、これとGPT-4とのさらなる比較です。
したがって、私たちはこれを見てみると、彼らが実際にいくつかのテストを行ったことがわかります。
したがって、GPT-4 Vision対Ferretの比較では、ここにFerretがあります。これは実際に参照と基準について話しているセクションの一部です。
たとえば、ここで「リージョン0は何に使用されますか?」と言っています。
対象はMKサイクルからの排気ガスを輸送するためのパイプです。
その通りです。
次に、2番目の領域、領域1、対象物はショックアブソーバーです。
それも正しいです。
さて、ここでGPT-4が試されたわけだが、彼らは実際に2つの方法でGPT-4を促そうとした。
つまり、赤い物体を要求したのだ。
その結果、排気管やマフラーは正解だった。
そして、赤い丸の中のオブジェクトは、もちろん、ディスクと答えました。
これも私が遭遇したことです。
彼らはまた、座標と一緒にGPT-4 Visionを取得しようとしました。それはより正確かもしれません。
そして実際、質問の最初の部分ではより正確な答えを得ることができた。
しかし、2つ目の例では、またしても完全に失敗してしまった。
今、私はさまざまな例をたくさん見たいと思っています。ただ1つのバイクの領域では、最適ではありません。
しかし、興味深いのは、グラウンディングです。
このキャプチャは誰もが知っているもので、さまざまなウェブサイトにサインアップしたり、さまざまなアプリケーションにサインインしたりするときによく目にするものです。
信号機があります」と表示され、「信号機の中からすべてのオブジェクトを検出します」と表示され、実際に信号機がどこにあるかがわかります。
ChatGPTは信号機を検出しようとしますが、もちろん間違えます。
ここでは、ChatGPTの信号機がハイライトされていますが、ここには信号機はありません。
これは本当に信じられないことだと思います。参照に関しては、GPT-4 Visionは比較的小さな領域の理解において不十分です。
同様に、グラウンディングに関しても、GPT-4 Visionは複雑なシーンや特定の領域にある比較的小さな物体の定位に失敗する。
しかし、基盤づけについては、我々はYang et alのプロンプトに従って、バウンディングボックスを使用して画像を局所化します。
画像のサイズは幅と高さであり、観察したところ、GPT-4 Visionは、画像中の色のついた領域や、テキスト中の座標を参照することで、ある程度理解することができました。
しかし、Ferretと比較すると、本当に小さな領域を正確に理解することはできません。
しかし、論文の中では、GPT-4 Visionの方が常識的な知識は豊富であると述べている。
例えば、排気管が騒音を低減することをさらに強調することができますし、GPT-4の強化された言語能力がはるかに高度であることも述べられています。
さて、この一番下にある接地に関してだが、Ferretは乱雑なシーンであっても、ほとんどの信号機を識別することに優れている。
とはいえ、Ferretは、特に接地のための正確なバウンディングボックスが必要なときに輝きを放ち、より小さな領域でピンポイントの精度を必要とするアプリケーションに対応する。
そして、Ferretはまさにこのギャップを埋める役割を果たす。
全体として、GPT-4 VisionとAppleの新しいマルチモーダルferretモデルを比較すると、Ferretが、特に複雑なシナリオにおいて、画像内の小さく特定の領域を正確に識別することに優れていることは明らかだ。
しかしGPT-4は、赤で輪郭を描かれた領域やテキスト中の特定の領域を認識することはできるが、より小さな領域では苦戦する傾向がある。
GPT-4 Visionが画像領域に関連する一般的な知識の質問と回答において知識豊富で効果的であるのに対し、ferretは小さな領域をピンポイントで特定する精度で際立っており、詳細な画像分析における決定的なギャップを埋めている。
さて、このことが画像に与える影響についてお話ししましょう。
というのも、もしこれが非常に効果的で、そうなる可能性が非常に高いのであれば、視覚モデルが、訓練されていないさまざまなタスクをこなすという点で、本当に役立つ状況になるかもしれないからだ。
たとえば、自律走行に関するビジュアル言語モデルの初期の探索について話していた論文がありました。
つまり、この論文ではGPT-4の視覚能力を道路上での運転に利用できる可能性があると述べているのです。
もちろん、自動運転機能にさまざまなAIシステムが使われていることは誰もが知っています。
GPT-4は、基本的にミニAGIシステムのようなもので、文脈から外れたシナリオを解釈することができるからです。
つまり、GPT-4は特定のものを識別し、画像と何が起こっているかを正確に説明することができるのです。
そして基本的に、彼らがここで行ったことは、信号機を理解しようとしたことです。
彼らはまた、あなたが見ている画像に基づいて、次に何をするかを示そうとしました。
そして、時にはそれを正しく理解することもあった。
赤は誤った理解を、緑は正しい理解を示しています。
そして、もし本当に効果的な画像モデルを手に入れることができれば、私たちはこれらの種類のモデルを見るかもしれません。おそらく、私たちが車に持っているいくつかのAIシステムよりもさらに効果的なものであり、完全な自動運転能力を提供してくれるかもしれません。
シナリオを識別できるだけでは十分ではないことがわかっているため、これらの自動車会社が直面している問題は、すべてのシナリオが同じではないということです。
なぜなら、多くの自動車会社が直面しているのは、すべてのシナリオが同じではないという事実だからだ。
一方、コンテキストから外れた場合、雪が降る場合など、これらの判断や必要なものは、ミニAGIシステムのようなものが必要です。これはまさにイーロン・マスクが言ったものであり、これらのAIシステムだけでは対応できないと言えるものです。
ということは、Appleから何か大きなアップデートがあるのかもしれません。
彼らが何に取り組んでいるのか全くわからないが、これは私たちに疑問、そしてより重要な、大きな疑問のひとつをもたらす。
AppleはSiriを手に入れ、長い間それを放置している。
そして、皆さんは思っているかもしれません、彼らは一体何をリリースするのでしょうか?
AIモデルやAIシステムを発表するつもりなのだろうか?
しかし、正直に言うと、Appleは待つ傾向がある会社だということを理解してほしい。
しかし、今回ばかりは、Appleが待つということは、実は恐ろしい状況なのかもしれないと思う。
なぜなら、これは伝統的な種類の技術ではないからだ。
なぜなら、これは従来の技術とは違うからだ。
そして、遅れをとれば、取り残される可能性がある。
そして、Appleは伝統的にサムスンの動向にはあまり関心がありません。なぜなら、通常はサムスンが最高の機能を最初に持っているからです。
しかし、Appleの場合、人々は忠実です。
たとえ3年遅れていたとしても、彼らはその機能を待つでしょう。
そして、たとえサムスン対アンドロイド、アンドロイド対Appleといった対立があったとしても、人々はアンドロイドの方が先だと言うでしょう。
しかし、コアな熱狂的支持者であるAppleは、そんなことはどうでもいい、と言うだろう。
そしてもちろん、Appleが実際に何をするのか興味深いです。なぜなら、何でも本当に可能だからです、皆さん。
Appleはついに、ジェネレーティブAIの分野への参入を決めた。
Appleは最近、Apple GPTと呼ばれるものを発表した。
Apple GPTは、Appleが開発中と噂されている人工知能言語モデルだ。
OpenAIのGPT-3に似ていると予想されており、Siriのバーチャルアシスタント機能やApple製品の他のAI搭載機能を強化することを目的としている。
Apple GPTという非公式な名称は、ChatGPTが使用しているのと同じ種類の、事前に訓練された生成変換モデルを使用している可能性を示唆している。
現在、Apple GPTは2022年にAppleのエンジニアの小さなチームによる実験として始まり、現在は将来の機能のプロトタイプを支援する内部使用に限定されている。
つまり、Appleが市場の動きが非常に非常に速いことを理解し、ジェネレーティブAI機能を展開するための全く新しいプラットフォームを持っていることは明らかだ。
新しいApple Vision Proから新しいiPhoneまで、Appleには新しいApple GPTを展開するために使用できる様々なアプリケーションがある。
そして我々が述べたように、Siriは大きな大きなアップグレードを受けるようだ。
私たちが話したいいくつかの予測された機能があります。
Apple GPTの最も期待される機能には、より優れた自然言語理解が含まれます。これは、私たちがSiriに話しかけたり、Siriが私たちに話しかけたりするときに、会話が現在のような単調なものよりもずっと良くなることを意味します。
これは、Siriのメジャーリリース以来、Appleがあまり改善してこなかったことです。
2つ目は、改善されたテキスト生成を得ることです。
ご存知のように、キーボードをタイプしていると、候補となる単語がたくさん出てくることがあります。
事前訓練されたジェネレイティブ・トランスフォーマーによってテキスト生成が改善されれば、iMessageでメッセージを書くのがもっと簡単になります。
そして、このApple GPTはおそらく、Notes、iMessage、WhatsApp、そしてもちろんあらゆる単語作成ソフトウェアなど、他の多くのAppleアプリケーションでもあなたを助けてくれると確信している。
3つ目は、もちろん、会話能力の向上です。
そして、これは潜在的に、私たちは独自のバージョンのSiriをカスタマイズすることができるかもしれないということを意味するかもしれません。
それは本当にとても興味深いことで、すでにある生成的な事前訓練されたトランスフォーマーにユニークなアレンジを加えることができるでしょう。
これらの機能は、Siriの文脈理解を向上させ、より正確な応答を提供し、ユーザーとのよりリアルな会話を可能にすると期待されている。
さて、他のAIツールと比較した場合、Apple GPTはChatGPTやGoogle Bardのような他のAIツールとパフォーマンスや機能性の点でかなり似ているとの情報もある。
しかし、まだ一般には公開されておらず、Appleの一部の従業員だけがウェブインターフェイスからアクセスできる。
また、Bloombergなど様々な情報源によると、Appleは2024年にAIの取り組みについて重大な重大発表を行う見込みだという。
つまり、Apple GPTはAppleが開発中と噂されている言語モデルで、2024年に大規模なオーバーホールが行われるようだ。
この画期的な発表が2024年のいつになるのかは定かではありませんが、おそらくAppleの様々なコンベンションと同様、最新製品の発表や通常の基調講演を行う際に、年間を通して開催されるAppleのライブストリームイベントの1つになると思われます。
Appleが行ったことは、オートコレクトを機械学習を使うところまでアップグレードしたということです。
以前は、Appleは古臭い古いバージョンの機械学習を使ってテキストを予測していました。
しかし、GoogleがTransformerアーキテクチャを実際に作成し、人々が使用するために先駆けたように、ChatGPTを実際に構築したものがOpenAIによって作られたものであり、これがAppleが現在実際に自動修正の単語予測に使用しているものです。
だから、これはまず大きな発表ではなかったが、もちろん、Appleが大企業として、この分野で何が起こっているかに真剣に注意を払っていることを示している。
つまり、AIの急速な台頭に注目しないわけがないのだ。
また、多くの人が見逃したが、もうひとつ小さなAIの発表があり、それはAppleの新機能Journalの紹介だった。
基本的にJournalは、ジャーナルを書くことができる機能ですが、オンデバイスのAIによって駆動されます。
実際に使われた言葉は、デバイス上の機械学習でした。
つまり、本質的には、あなたのiPhoneは、あなたの書くことをインスパイアする瞬間をパーソナライズされた提案を作成することができます。
提案内容は、写真、位置情報、音楽、ワークアウトなど、あなたのiPhone上の情報からインテリジェントにキュレートされるとも述べている。
そして、もちろん、あなたは基本的にあなたの携帯電話から引き出す提案をコントロールすることができる。
つまり、ここにあるのは、写真やその他さまざまな情報源など、あなたのiPhoneにあるあらゆるデータを引き出すことで、より効果的な執筆を可能にするAIツールなのだ。
さて、Appleのこの講演で非常に興味深かったのは、彼らが人工知能やAIという言葉について言及しなかったことだ。
このトランスクリプトを見ると、AIについては触れられていませんが、機械学習については7回も触れられています。
そして、もちろん、Ethan Mikというユーザーのツイートがありますが、これは非常に妥当なポイントです。
このツイートで、彼は基本的に、AppleはAIの時代におけるSiriという行き詰まりに対処していないと述べています。
Siriが何かわからない場合、Appleを使用していない人のために説明しますが、基本的には「Hey Siri」と言って促すことができる音声アシスタントで、あなたの電話は単に起動し、女性があなたに「何をしたいですか?」と尋ねるようになります。
男性でも女性でも、基本的にはアマゾンのアレクサのようなものだが、iPhoneのためのものだ。
さて、問題なのは、Siriにレストランのプロンプトを求めたとき、まさにこの男性がしたことだが、これはSiriの反応であり、マイクロソフトのBingが同じプロンプトでできることとは異なる。
もちろん、Microsoft Bingが音声で起動するものではないことは承知しているが、AIの時代になぜAppleはニュースや進歩を広めようとしないのだろうか?
それについては、私には答えがあります。それは単に自律型の製品です。
最近、Appleは人工知能の範囲を広げるためにさまざまな企業を積極的に買収しており、製品とサービスのAIと機械学習の能力を向上させることを目指しています。
Appleによって買収された企業のリストには、顔の表情を分析して人々の感情を読み取るAI技術を使用するスタートアップ企業であるEmotientが含まれています。また、機械学習と人工知能に特化した小規模なシアトル拠点のスタートアップであるTuriも含まれています。さらに、顔認識技術を用いてユーザーを認証することができるサイバーテクノロジーのスタートアップ、RealFaceもリストに挙げられています。AIを使ってパーソナライズされたサウンドトラックや適応型音楽を生成するスタートアップ、AI Musicも同様です。また、ビデオ圧縮用のAIアルゴリズムを開発していたカリフォルニア拠点のスタートアップ、Wave 1も買収されました。その他にも、Shazam、SensoMotoric Instruments、Silk Labs、Drive AI、Laserlike、Spectral Edgeなど多くの企業が買収されています。
これらの買収により、Appleはこれらの企業の専門知識と技術を活用し、さまざまな用途向けに高度なAIと機械学習機能を開発できるようになった。
例えば、2016年のTurriの買収により、Appleは機械学習ツールやプラットフォームの開発における同社の専門知識を利用できるようになり、2019年のXnor AIの買収により、Appleは自社製品向けの低消費電力エッジベースのAI技術を手に入れた。
さまざまなAI企業に投資することで、AppleはAI競争の最前線に立ち続け、テクノロジー業界のイノベーションを推進してきた。
会社は最近、iPhone Xの顔認識やSiriの改良された自然言語処理など、AIを活用した機能を導入してきました。また、AIの研究開発にも積極的に投資を続けています。
全体として、AppleのAI分野における買収は、テクノロジー業界の最先端を行くという同社のコミットメントを示している。
Appleは、買収した企業の専門知識と技術を活用することで、製品やサービスのAIと機械学習の能力を向上させ、ユーザーエクスペリエンス、効率、生産性の向上を推進しています。
Appleの機械学習に関する広範な研究は、テクノロジー業界の最先端を走り続けるための同社の戦略の重要な一部である。
機械学習に特化した専門部署があるため、Appleは研究開発に多額の投資を行うことができ、イノベーションを推進し、このテクノロジーで可能なことの限界を押し広げることができる。
Appleが機械学習へのコミットメントを示す一つの方法は、この分野における同社の革新的な取り組みに焦点を当てた研究論文を定期的に発表することです。
これらの論文は、コンピュータビジョンや自然言語処理から自律システムやデータプライバシーまで、幅広いトピックをカバーしています。
Appleの機械学習における革新的な取り組みの最近の一例は、Faceletと呼ばれるプログラムの開発である。
このプログラムは、機械学習アルゴリズムを使って、2枚の写真を使うだけで人の顔の写実的な3Dレンダリングを作成する。
この技術は、仮想現実ゲームや映画制作などの分野で重要な応用があり、機械学習の可能性を示して、さまざまな産業の進歩を推進しています。
全体として、Appleが機械学習に力を入れていることは、テクノロジー業界の最先端を走り続けるという同社のコミットメントの証である。
研究開発に多額の投資を行い、その成果をより広範な科学コミュニティと共有し、機械学習で可能なことの限界を押し広げることで、AppleはAI競争の主要プレーヤーであり続けることを確実にしている。