見出し画像

行動データを取り込みながらGNNとシームレスに互換性を持つように設計された統合グラフ構造「UniSG^GA」による医療VRメタバース研究

UniSG^GA: 幾何代数による3Dシーングラフ、生成AIに向けたジオメトリ、ビヘイビア、GNNの統合

なんか面白そうな論文を見つけたので紹介します。DeepL訳の補足。

UniSG^GA: A 3D scenegraph powered by Geometric Algebra unifying geometry, behavior and GNNs towards generative AI

https://arxiv.org/abs/2306.10621v1

マノス・カマリアナキス(Manos Kamarianakis)さん

  • ギリシャのクレタ島にあるクレタ大学、西マケドニア大学

  • ORamaVRという医療VRのスタートアップ

  • 他の共著者も同じORamaVR

  • スイス ジュネーブ大学も一人いる

概要:UniSG^GAは、3Dシーン上の行動とジオメトリデータを統合する新しい統合シーングラフ構造である。これは、グラフニューラルネットワーク(GNN)をシームレスに統合し、生成タスク中に3Dシーングラフ(3D-SG)を変換することに関連する課題に対処するために特別に設計されている。オブジェクト間のトポロジカルな関係をグラフ表現内で効果的に捕捉し、簡略化して保存するために、幾何代数(GA)形式をシームレスに統合するUniSG^GAを提案する。この新しいアプローチは、GNNの生成・予測タスク処理における全体的な性能と能力を向上させ、新たな可能性を開くとともに、シーン生成・合成を強化するための行動データを効果的に取り込むことができる、グラフベースの生成AIモデルのさらなる探求と開発の基礎を築くことを目指す。

1 はじめに

GPT(Generative Pre-trained Transformer)のような事前学習済み基礎モデルの近年の成功は、幾何学的深層学習[2]やGNN[6]の進化への道を開いた。このような進歩により、グラフトポロジー内の関係パターンをノードやリンクの特徴として組み込むことで、静的な3Dシーンの生成[3]が大幅に改善された。一般的に、これらのシーンは明確に定義された3D-SGに依存している。没入型VR体験の作成には、グラフ構造Lessons-StagesActions(LSA)[19]の採用によって指定される行動情報と相互作用の組み込みが必要である。とはいえ、3Dジオメトリ、ビヘイビア(LSA)としてカプセル化されたインタラクティブなイベントベースのアニメーション、およびGNNという3つの異なるグラフ構造(図1を参照)を管理する必要があるため、カプセル化されたすべてのデータをGNNに効率的に入力することが課題となります。このため、これらのグラフ間の変換を維持するのが非常に複雑になり、ボトルネックになる可能性があります。これらの限界に対処するために、我々はユニバーサルシーングラフ(UniSG)を提案します。UniSGは、3Dモデル、シーン、行動ステップの作成を反映し、新しいノード、エッジ、フィーチャーを生成するGNNを特徴とするノーコード・アプローチを提供することを目的とした新しいデータ構造である。UniSGは、エンティティ-コンポーネント-システム(ECS)、3D-SG、およびLSAをGNNと統合することで、生成的AI技術への道を開き、動作を組み込んだ3Dシーンの作成を簡素化し、既存のプロセスのボトルネックを緩和します。UniSGは、親エンティティと子エンティティ間の相対的なトポロジー情報をキャプチャして保持できる表現形式を活用しています。従来のユークリッドベースの行列形式や、3Dシーンで一般的に採用されているオイラー角やデュアル/シングル四元数に依存するのではなく、マルチベクトルなどの幾何学代数(Geometric Algebra; GA)ベースの形式を利用します;結果として得られるモデルはUniSG^GAと表記されます。GAベースの表現は、統一されたフォーマットで多様な変換データをカプセル化することを可能にし、[14]より深い幾何学的な接続を容易にし、それによって様々なタスク(セクション1.2参照)におけるGNNの性能に影響を与える。

1.1 生成AIにおけるGNNの重要性


GNNは、そのアーキテクチャの高い柔軟性と適応性により、様々なタイプ、サイズ、構造、接続パターン、複雑な関係構造を持つデータを扱うのに効果的であるため、近年大きな注目を集めている。その設計により、グラフは空間的な関係を捉え、依存関係をモデル化し、意味のある表現を抽出することができるため、ノードはオブジェクトを表し、エッジはそれらの間の関係や接続を符号化する複雑な3Dシーンのような、グラフ構造データを含む生成的および予測的なAIタスクに特に適している。具体的には、シーングラフCGフレームワーク[13, 17]におけるエンティティ・コンポーネント・システム(ECS)の場合、GNNは、オブジェクト関連データ(トランスフォーム、メッシュ、画像テクスチャデータなど)を含む、エンティティや多様なコンポーネントを表す異種ノードを含む。GNNの集約は、グラフのローカルな依存関係を捕捉することを可能にし、一方、グラフを通しての伝播は、グローバルな依存関係を捕捉することを可能にする。この文脈では、ノード間の複雑な相互作用も、メッセージパッシングメカニズムを使用した反復的なノード表現の洗練によって捕捉することができる。


図1:UniSG^GAは、GNNによって消化可能な、振る舞いを含む3Dシーンのために維持されなければならない3つの多様なグラフを統一する:(a)Entity-Component-Systemsを含む3Dシーングラフ、(b)振る舞いLSAグラフ、(c)導出GNNグラフ。親と子の相対的なトポロジーを記述するコンポーネントは、予測タスクや生成タスクのパフォーマンスを向上させるために、GAベースのフォームで表現される。

学習データからのGNNモデルは、固定長のベクトルや連続的な特徴空間を含む、意味のある低次元の埋め込みでエンコードすることができる。GNNモデルは、a)欠落要素やラベルを予測することを目的とした、注釈付き3D-SGを含む教師ありの方法で学習され、b)生成モデルを最適化することを目的とした、グラフ類似度や再構成損失を含む教師なしの方法で学習される。

1.2 GAとGNNs

GAとGNNsの組み合わせは、様々なドメインやタスクにおいていくつかの利点を提供する[1]。GAベースのアプローチは、多次元データが多ベクトルによって表現されるため、優れた情報(多次元間の固有の構造と相関関係)保存を実証している。これにより、時系列処理、ハイパースペクトル画像解析、交通予測などのタスクにおいて、従来の手法と比較して性能が向上する[9-12, 16]。また、実数値と比較してオーバーフィッティングのリスクも低減されるため、データの多次元性を維持しながら複雑な特徴を捉えるのに有効である。GAは回転データを扱うのに特に有利であり、ポーズ推定やタンパク質の予測などのコンピュータ・ビジョン・タスクに有用である[14, 15]。GAに基づく定式化は、回転に対するより良い回帰を可能にし、より少ないパラメータを学習しながら、高ノイズデータセットにおける誤差を減らすことができる。さらに、GAに基づくグラフ特徴の埋め込みは、GNNにおけるグラフ特徴の品質と表示を向上させる。GAの高い代数次元を活用することで、隠れ層全体の特徴情報の歪みを最小化することができ、その結果、グラフ関連タスクの性能が向上する。さらに、GAベースのアプローチは、適切なマルチベクトル表現を利用し、GAの代数的特性を利用することで、計算の複雑さを軽減することができる。この複雑性の低減により、より効率的なデータ処理と分析が可能となり、性能を損なうことなく学習すべきパラメータを少なくすることができる。要約すると、GAとニューラルネットワークの統合は、多次元データの表現の強化、情報保存の改善、回転データの効果的な取り扱い、より優れたグラフ特徴の埋め込み、劣悪なネットワーク条件に対する頑健性、計算複雑性の低減などの利点を提供する。これらの利点により、GAは様々な科学的領域やタスクにとって価値あるフレームワークとなり、より正確で効率的なデータ処理と解析を促進する。論文の概要 セクション2ではUniSGモデルを紹介し、セクション3ではGAベースの表現形式を利用した拡張UniSG^GAモデルを提案する。これらのモデルはElementsプロジェクトで実装され、利用可能である。Elementsプロジェクトでは、セクション4で説明するように、強化されたGA機能を含んでいる。我々のモデルの性能について得られた結果はセクション5で示され、結論、今後の課題、謝辞が続く。

2 UNISG: A UNIVERSAL SCENEGRAPH

[17]で簡潔に紹介されたUniSGシステムは、[13]で提案されたようなシーングラフにおけるエンティティコンポーネントシステム(ECSS)モデルに基づいて構築された異種グラフ構造を示す。このグラフは、3Dシーンとの相互作用や特定の条件によってトリガーされるイベントに関連する幾何学的情報と動作情報の両方を格納できる多様なコンポーネントタイプを包含する。具体的には、UniSGグラフには、info、TRS、メッシュの3種類のコンポーネントが組み込まれている。infoコンポーネントは子ノード間のノードタイプのカウントを保持し、TRSコンポーネントは対応する変換行列を平坦化して得られる16次元ベクトルを格納する。meshコンポーネントはサイズ1024の特徴ベクトルを格納し、AtlasNetEncoder [4]のような適切なエンコーダとポアソンサンプリングプロセスを組み合わせてメッシュを表現する。このエンコード手法により、元のメッシュの複雑さに関係なく、固定サイズの表現が保証される。その後、得られたベクトルをAtlasNetDecoderでデコードして点群を生成し、さらに三角メッシュに再構成します。行動機能を組み込むために、UniSGシステムは、望ましい行動特性に関連するデータを格納するActionDataコンポーネントと、このデータを処理する適切なActionシステムを導入しています。これらのECSコンポーネントとシステムは、Lesson-StagesActions(LSA)データ構造[18]に格納されているものと同様に、トレーニングシナリオ内で必要とされるユーザの行動を効果的に表現します。ActionDataノードは、すべてのアクションに対して標準化された構造を遵守し、アクション固有のデータと条件をベクトル形式で格納します。多様なアクションシステムは、グラフまたはその指定されたセクションを継続的にトラバースし、指定された条件が満たされているかどうかを検証する。ECSフレームワークのアーキテクチャ要素を図2に示す。黒いノードはエンティティを表し、青いノードはコンポーネントを表す。コンポーネントは、変換、メッシュ、アクションなどのさまざまなデータをカプセル化する。赤い線で表されるシステムは、コンポーネントに含まれるデータを処理し、グラフをトラバースしながら特定のタスクを実行する。黄色で強調表示されたグラフの特徴はベクトル形式で表現され、GNNがさらなる分析と処理のために利用できるようになっている。図2はまた、UniSGシステム内での「挿入」アクションの実装を例示している。この特定のシナリオでは、InsertActionシステムは、膝へのメスの配置が指定された空間境界を守っているかどうかを検証する役割を担っている。このチェックは、システムがActionDataコンポーネントにアクセスしたときに実行されます。異種のデータを統一フォーマットに統合するために、一般的に採用されているさまざまなファイルフォーマットが、単一のマスターファイルに統合されました。PixarのUniversal Scene Description(USD)は、VR-Recording[7]などのより高度な機能を含めることができる、その卓越した汎用性のために選択されました。
http://graphics.pixar.com/usd/

3  UNISG^GA: EMPOWERING UNISG WITH GEOMETRIC ALGEBRA


オリジナルのUniSGモデルはTRSコンポーネントを採用し、エンティティとその親とのトポロジカルな関係を16次元配列ベクトルとして格納している。このベクトルは4x4の変換行列を平坦化することで得られる。本論文では、行列由来のベクトルだけに依存する限界を克服するUniSG^GAモデルを提案する。UniSG^GAモデルは、変換データの代替形式の利用を提案し、より多様な表現を可能にする。特に、幾何学的な関係を表すデータの表現にGAを採用することを提唱する。GAの統合は、単にその受容を促進することを意図しているのではなく、様々な科学的領域、特にGNNに特に焦点を当てた予測タスクや生成タスクを含む領域において、改善された結果をもたらす可能性を実証することを目的としている。

4 UNISG^GA WITHIN THE ELEMENTS PROJECT

提案されたUniSG^GA構造は、その前身であるUniSGと同様に、[13]で紹介されたElementsプロジェクト内ですでに実装されている。Elementsは、シーングラフアーキテクチャ内に実装されたエンティティ-コンポーネント-システム(ECS)に基づく先駆的なオープンソースのパイソンフレームワークを提示します。科学的、視覚的、神経計算アプリケーションの要求に対応するように明確に調整されています。Elementsパッケージは、3つの重要なPythonコンポーネント(pyECSS、pyGLV、pyEEL)で構成され、ECSパラダイムの基礎的な実装を提供します。Elementsは、そのわかりやすさにもかかわらず、透明性を保ち、グラフィックスパイプラインの各段階を精査し、操作する能力をユーザーに提供しています。ラピッドプロトタイピングと開発におけるPython固有の利点を活用し、ユーザーは、新しいコンポーネントやシステムを導入したり、既存のものを改良したりすることで、Elementsの機能を拡張することができます。pyEELリポジトリ内のjupyterノートブックのコレクションは、多様な科学的ドメインやパッケージにまたがるElementsの現在および将来の機能の影響力を示す実証的なリポジトリとして機能し、それによって初心者と中級者の両方の開発者にとって貴重な教育的リソースを確立します。(a)GAに馴染みのないユーザーに基本的なGA概念を紹介する、(b)中級のGAユーザーに消化しやすい方法で異なる表現形式間の等価性を示す、(c)経験豊富なGAユーザーにGAを使用したモデルアニメーションなど、これらの原理のより高度な応用を提示する。

4.1 Geometric Algebra powered 3D scenegraph

現在、実装の容易さとGPUシェーダレベルの演算との互換性から、行列表現がこの分野を支配している。クオータニオンは、回転行列を評価する際のジンバルロックや補間アーティファ クトなどの問題を緩和してきましたが、GA は表現形式におけるさらなる進歩を導入します。平行移動、回転、拡張のGAベースの対応として、それぞれトランスレータ、ロータ、ダイレータを利用することで、定量的(補間に必要なキーフレーム数の削減)にも視覚的にも改善された結果を得ることができます[8]。
モータ(すなわち、トランスレータとロータの幾何学的積)から幾何学的情報を抽出するような複雑な操作は、よく整備されたClifford Pythonパッケージ[5]の機能を活用することで、簡単に実行できるようになり、異なる形式間の効率的な変換が容易になりました。具体的には、回転と並進を表す4x4行列をǔとする。左上の3x3の部分行列が回転行列で、最後の列の3つの最初の要素が並進ベクトル𝑡であることはよく知られています。行列𝑅から角度/軸を抽出し、同じ回転を表す等価な単位クォータニオンᑞを決定することができます。最後に、クォータニオンと並進ベクトルがあれば、それらを簡単に連結して、それぞれのデュアルクォータニオンᑞを得ることができます。

以下は(1)の要約で、回転データはシアン色、並進データは青色で表されている。


図2:(左)UniSGモデル[17]とは対照的に、提案されたUniSG^GAモデルは、変換行列の平坦化に由来する元の16次元配列ベクトルの代わりに、TRS成分(赤枠)に対して任意のGAベースの表現形式を使用することを提案している。(右)本論文で紹介された貢献を、紫色で示した最先端データと混合データに関して示した図。

5 結果


提案アプローチの有効性を検証するために、3Dシーングラフの分類、生成モデリング、トポロジー予測の3つの領域で実験タスクを実施した。図3と図5では、UniSG^GAモデルのTRSコンポーネントに異なる表現形式を用いた結果を示す。具体的には、a)平坦化行列(元のUniSGを表す)、b)CGAとPGAの多ベクトル、d)平行移動のためのベクトルと回転のための角度と軸を組み合わせたもの、e)二重四元数表現を比較する。各タスクには、従来のユークリッド指向フォーマットに対するGAベースの表現の性能を示す比較グラフが添えられている。結果は一貫して、GAベースの表現形式UniSG^GA: A GA-empowered Universal Scenegraphの利用を示す。 図3: セクション5.1で説明した分類タスクの訓練精度(左)と損失(右)。CGA/PGAマルチベクターやデュアル四元数など、従来の平坦化行列表現よりも優れているか、同等である。

5.1 分類

我々の手法は、2つの畳み込み層で構成されるニューラルネットワークアーキテクチャを含む分類タスクを通して評価された。このフレームワークの中で、GraphSAGE畳み込み演算が入力グラフに適用された。我々のアプローチの性能を評価するために、100の3Dシーンからなるデータセットを作成した。これらのシーンは、UniSGとUniSG^GAシステムの両方を用いてモデル化された、行動的に豊かな2つの3Dシーンの構成要素に摂動を与えるランダムノイズベースのデータ増強技術を用いて生成された。オーグメンテーションのために選択されたシーンは、外科手術室(OR)とリビングルームであった。データセットはトレーニングセットとテストセットに分割され、その比率はトレーニングが70%、テストが30%であった。ニューラルネットワークモデルは20エポック学習され、GNN注意メカニズムが採用された。本アプローチの実験段階では、各実験について10回の実行を行い、驚くべきことに、訓練とテストの分割の両方で100%の精度を達成し、その有効性を実証した。図3に示す分類タスクの実験結果では、どの手法でも初期の平均精度が低いことに気づき、より長い訓練やモデルの調整が必要である可能性を示している。精度はエポックごとに一貫して向上し、CGAとPGAでは若干の変動が見られる。Vector+Angle/Axis曲線の急峻さは、7.5エポック後に精度が100%になることから、モデルの学習が速いことを示している。すべての曲線は17エポック後に100%の精度に収束しているようであり、これは学習データに対してうまく機能していることを明確に示している。また、すべてのカーブで初期損失が少ないことがわかります。vector+Angle/Axisカーブは10エポック後に他のカーブよりも早く最小化されています。すべての損失曲線は18エポック後に収束するようであり、モデルがよく機能していることを示している。

5.2 UniSG^GAを用いた生成AI

我々のアプローチはさらに生成タスクでテストされた。この目的のために、特に外科手術室(OR)を表す、意味のあるレイアウトを持つ1000のユニークなシーンのデータセットを生成した。これらのシーンを条件付きグラフ変分オートエンコーダ(CGVAE)の学習に利用した。CGVAEの主な目的は、既存のシーンまたは空のシーンに、そのカテゴリに基づいてオブジェクトを順次または一括して追加できるようにすることである。最終的に、利用されるUniSG^GA構造は、すべてのオブジェクトエンティティ、およびそれぞれのシステムに対して、ビヘイビアコンポーネントを含むので、ビヘイビアを組み込んだシーンオブジェクトでオートエンコーダを訓練し、完全な生成AIソリューションを提供することを目指す(現在はトポロジー生成のみが評価される)。これを達成するために、UniSG^GA内の各エンティティノードに、対応するカテゴリ、例えば「メス」でラベル付けした。学習プロセス中、グラフ畳み込み層を持つGNNを包含するエンコーダモジュールは、固有の𝐹特徴と関連するカテゴリ埋め込みを用いてグラフの𝑁ノードをエンコードする。各ノードについて、ラベルを埋め込みに通すことでベクトル𝐸が生成され、𝑁 x𝐸行列になる。各ノードのエンコーディング/潜在空間表現Zは、入力グラフのノード行列(サイズ𝑁 x𝐹)を埋め込みと連結することで、それぞれのカテゴリ埋め込みと連結され、𝑁 x(𝐹+𝐸)行列となる。この連結された表現はZと表記され、その後2つの多層パーセプトロン(MLP)から構成されるデコーダモジュールに入力される:
1つはZˆからノード特徴をデコードするためのもので、もう1つはZˆから隣接行列をデコードするためのものです(図4参照)。我々の学習手順はいくつかの損失関数を組み込んでいる。具体的には、ノード特徴再構成のために平均二乗誤差(MSE)損失、隣接行列再構成のためにバイナリクロスエントロピー(BCE)損失、シーン生成の多様性を促すためにカルバック・ライブラー(KL)発散損失を用いる。モデルはこれらのカテゴリを用いて条件付きで学習されるため、特定のオブジェクトカテゴリに基づいて、生成シーンの条件付きサンプリングが可能である。これにより、既存のノードや新たに導入されたノードのカテゴリに大きく影響されるシーンの生成が可能となる。生成タスクの実験結果を見ると、図5(左)に生成された出力と目標出力との間の不一致を示す損失を見ることができる。この点から、すべての平均損失は最初は比較的低く、PGAとCGAは著しく低いことがわかる。すべての損失低減は、一貫して1.0以下で急速に最小化される。どの手法も非常に早期に収束するように見える。

図4:セクション5.2の生成タスクを説明する図。図5:セクション5.2で説明した生成タスク(左)とセクション5.3で説明したトポロジー(エッジ)予測タスク(右)に関するエポック0~100の損失。とPGAの平均損失曲線は常に他を下回っており、これはモデルがよく動作し、生成タスクを学習したことを示している。

5.3 トポロジー予測

最後に、UniSGとGAを搭載したUniSG^GAとの違いをさらに評価するために、トポロジー予測タスクを利用した。このようなタスクでは、"above"、"below"、"right-of "のような関係や、"part-of "や "connected-to "のような上位の関係を含む、オブジェクト間の空間的関係に関する正確な予測を求めるのが一般的である。我々のアプローチは、2つのオブジェクト間の「on-top-of」関係の識別を含むトポロジー予測タスクで特に評価された。この予測タスクに対処するため、グラフ変分オートエンコーダを、グラフ構造に基づいて所望のトポロジーリンクを予測するための隣接行列再構成に焦点を当てた単純化グラフオートエンコーダに変換することで、我々の以前のモデルに修正を加えた。我々の修正したモデルは特定のトポロジー予測タスクには有効であるが、UniSG内の複雑な関係や高レベルのセマンティクスを捕捉できない可能性があることは注目に値する。図5(右)に示すトポロジー予測タスクの実験結果は、CGAとPGAの平均損失(10回の実行)が初期に低く、他の手法と比較して急速に最小化されることを示している。どの手法も早期に収束しているように見えるが、15エポック後には、CGAとPGAの平均損失曲線は常に他を下回っており、性能が良いモデルであることを示している。損失曲線にはオーバーフィッティングの兆候は見られないが、これは訓練サンプルの多様性と量を増加させるというデータ増強の実行の直接的な結果である。10回の実行のそれぞれについて、1つのランダムなシーンが10000個のキューブで生成され、リンク予測はそれぞれの実行で1つのシーンで実行された。

6 結論と今後の課題

本研究では、行動データを取り込みながら、グラフニューラルネットワーク(GNN)とシームレスに互換性を持つように設計された統合グラフ構造、UniSG^GAを紹介した。UniSG^GAの主な貢献は、生成タスクを行う際に3Dシーングラフ(3D-SG)を変換することに関連する課題を克服する能力である。GAフォームを活用することで、UniSG^GAはグラフ内のオブジェクト間のトポロジカルな関係を効果的にキャプチャして保存し、予測タスクと生成タスクを処理する際のGNNの性能と能力を向上させます。この進歩UniSG^GA: A GA-empowered Universal Scenegraphは、埋め込まれた振る舞いを持つ複雑な3Dシーンの生成において、より効率的で直感的なアプローチへの道を開く。UniSG^GAのGNNアーキテクチャは、コンテンツと動作の両方を含む3Dシーンの広範なコーパスを使用して訓練する予定です。この学習データセットは、模型や教育カリキュラムの一部など、様々な種類のシーンで構成される予定です。このトレーニングプロセスを通じて、複雑な生成AIタスクにおけるUniSGのパフォーマンスを評価し、ノーコードオーサリングパイプラインに向けて、合理的な方法で振る舞いを組み込んだ3Dシーンの生成を可能にすることを最終目的としています。

謝辞:このプロジェクトは、助成金契約番号TAΣΦP-06378(REVIRES-Med)のもと、国家復興・回復計画「ギリシャ2.0」NextGenerationEU、およびInnosuisseの支援を受けた助成金契約2155012933(OMEN-E)のもと、イノベーション・プロジェクトSwiss Acceleratorから部分的に資金提供を受けた。

参考文献も興味深い

MAGES 4.0: Accelerating the world’s transition to VR training and democratizing the authoring of the medical metaverse

MAGES 4.0: 世界のVRトレーニングへの移行を加速し、医療メタバースのオーサリングを民主化する。IEEE Computer Graphics and Applications 43, 2 (2023), 43-56.

https://arxiv.org/pdf/2209.08819.pdf

「人体の内部とかシーングラフで描け、と言われても手術の真っ最中にそんなの動的に変わるんだよ!」というお気持ちが伝わってくる研究でした。すごいなギリシャの研究。

この記事が気に入ったらサポートをしてみませんか?