Meta 「ImageBind」公開! 百聞は一見に如かずを実装した マルチモーダルAIの概要
Meta社がオープンソースとして公開した、マルチモーダルなAIモデル「ImageBind」が、どんなアイデアで作られたのか調べてみました。
ImageBindとは
「テキスト」、「画像および動画」、「音声」、「深度(3D)」、「熱(赤外線)」、「慣性測定装置(IMU)のデータ」の6種類のモダリティ情報を単一の結合埋め込み空間へ統合した、いわゆるマルチモーダルAIの実現に向けた技術デモンストレーションのモデルです。
ここがポイント!
今までの常識
多数のモーダルを含むマルチモーダルモデルをトレーニングするには、すべてのモーダルの情報が同時にそろったデータセットが必要だと考えられていました。
そんな都合のよいデータは世の中に中々ありません。というわけで主に学習データの問題からマルチモーダルモデルの開発が停滞していた感がありました。
Meta社のブレイクスルー
Meta社は、マルチモーダルモデルのトレーニングに、画像を橋渡し役にして、画像とテキストのペアのデーターセット、および、画像と他モーダルとのペアのデータセットでの教師あり学習で、全てのモーダルの関係性が結合された埋め込み空間を作成するアイデアを提案しました!
テキストと画像のペアのデータセットはすでに豊富にありますし、音声と動画のデータセットはまぁ普通のビデオなのでどこにでもあり、動画とIMUデータのセットも、IMUはVRゴーグルや携帯電話など割と多くの機器に内蔵されていますので欲しければいくらでも収集できそう、深度データ、熱画像データも画像の一種ですので、データ収集は容易だと考えられます。
モデルの実装技術は自体は、基本的にLLMや画像生成分野で発展したTransformerの応用で対応できそう。
そんなこんなで、学習データ、モデルの実装技術がともにそろって、マルチモーダルモデル実現への可能性が一気に開けた感じです。よくやったMeta社さん!
ImageBind技術の使用例
例1)クロスモーダル検索。音声、深度、テキストなど、同時に観察していないモダリティを創発できる
例2)埋め込み空間演算。草原にいる鳥の画像に、波の音声のモダリティの埋め込み表現を追加すると、浜辺にいる鳥の画像が生成できるセマンティックスが自動的に構成される
例3)CLIP テキスト埋め込みで動作するようにトレーニング済みDALLE-2デコーダとオーディオ埋め込みを使用して、音声から画像を生成
深度カメラやらサーマルカメラを試しているあたり、meta社が何を目標にしているか想像するとワクワクしますね。
ImageBindの実装とトレーニング
モデルの構造
それぞれのモーダル毎に個別にTransformerを適用(画像(ViT)、テキスト、オーディオ(2DメルスペクトログラムにTransformer)、熱画像(1ch画像に変換後ViT-B)、深度画像(1ch画像に変換後ViT-S)、IMU (1D Conv後にTransformer)したのち、CLIPのテキストエンコーダの設計に沿ったTransformer層を適用する構造とのこと埋め込み空間を画像をキーにしてバインド
Web上の「画像」と「テキスト」のペア、または「画像・ビデオ」に紐づく「音声」、または「深度(3D)」、「熱(赤外線)」、「慣性測定装置(IMU)データ」のペアを自己教師付きデータとして、単一の結合埋め込み空間を訓練する。
学習データの組み合わせ
Web画像:画像 と テキスト
深度センサー:画像 と 深度(3D)データ
web動画:ビデオ と 音声
サーマルカメラ:画像 と 温度データ
FPSカメラ:一人称動画 と IMUデータ
npakaさんが、早速、ImageBindの統合埋め込み空間を試されています。
自然言語の埋め込みベクトル表現と同じ感じでマルチモーダルな概念を扱えるようです。
感想
画像を橋渡しにするという、いわゆる「百聞は一見に如かず」の格言を素直に実装したアイデアで、マルチモーダルAIが実現してしまうことに感動を覚えました。すごい。すごい(語彙)
今後、ImageBindで生成された統合埋め込み空間と、LLMを組み合わせて自立ロボットの世界モデルの実現など夢がふくみますね。お祭りの始まりかもしれません。
あと、この統合埋め込み空間の名前は「meta space」などと呼べばかっこいいのになぁと思いました。Metaだけに。小学生レベルの感想ですいません。😆
おしまい
この記事が気に入ったらサポートをしてみませんか?