論文を読む

本

気になった論文などを読んでまとめ

運営しているクリエイター: はまち

#マルチモーダル

画像セグメンテーション技術 SEEMとは？～arxiv論文「Segment Everything Everywhere All at Once」を読む

上記論文で提案された、マルチモーダルな画像セグメンテーション技術である「SEEM」の概要をまとめてみました。数学的な定義などは専門家にお任せして図表メインで説明します。なお、デモは以下で公開されており、ソースコードも近日中に公開されるとのことです。楽しみですね。実行サンプルまず、特徴的な実行サンプルの紹介からトラック形態のオプティマスプライム（映画トランスフォーマーに登場する主人公というか指揮官の機械生命体）のトラックヘッドの画像にざっくり印（黄緑の線）をつけておくと、

Meta 「ImageBind」公開！百聞は一見に如かずを実装したマルチモーダルAIの概要

Meta社がオープンソースとして公開した、マルチモーダルなAIモデル「ImageBind」が、どんなアイデアで作られたのか調べてみました。 ImageBindとは「テキスト」、「画像および動画」、「音声」、「深度（3D）」、「熱（赤外線）」、「慣性測定装置（IMU）のデータ」の6種類のモダリティ情報を単一の結合埋め込み空間へ統合した、いわゆるマルチモーダルAIの実現に向けた技術デモンストレーションのモデルです。ここがポイント！今までの常識多数のモーダルを含むマルチモ

論文を読む

#マルチモーダル

画像セグメンテーション技術 SEEMとは？～arxiv論文「Segment Everything Everywhere All at Once」を読む

Meta 「ImageBind」公開！ 百聞は一見に如かずを実装した マルチモーダルAIの概要

Meta 「ImageBind」公開！百聞は一見に如かずを実装したマルチモーダルAIの概要