マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#マルチモーダル

画像セグメンテーション技術 SEEMとは?~arxiv論文「Segment Everything Everywhere All at Once」を読む

上記論文で提案された、マルチモーダルな画像セグメンテーション技術である「SEEM」の概要をまとめてみました。数学的な定義などは専門家にお任せして図表メインで説明します。なお、デモは以下で公開されており、ソースコードも近日中に公開されるとのことです。楽しみですね。 実行サンプルまず、特徴的な実行サンプルの紹介から トラック形態のオプティマスプライム(映画トランスフォーマーに登場する主人公というか指揮官の機械生命体)のトラックヘッドの画像にざっくり印(黄緑の線)をつけておくと、

Meta 「ImageBind」公開! 百聞は一見に如かずを実装した マルチモーダルAIの概要

Meta社がオープンソースとして公開した、マルチモーダルなAIモデル「ImageBind」が、どんなアイデアで作られたのか調べてみました。 ImageBindとは「テキスト」、「画像および動画」、「音声」、「深度(3D)」、「熱(赤外線)」、「慣性測定装置(IMU)のデータ」の6種類のモダリティ情報を単一の結合埋め込み空間へ統合した、いわゆるマルチモーダルAIの実現に向けた技術デモンストレーションのモデルです。 ここがポイント!今までの常識 多数のモーダルを含むマルチモ