(メモ)非平衡熱力学・最適輸送・統計的機械学習・生成AIの論文のメモ

最適輸送理論を活用した情報幾何学・システム生物学で知られる、
東大の伊藤先生の論文についての、私的なメモです( *ˊᵕˋ* )

タイトルのとおり情報幾何(最適輸送)、非平衡熱力学・統計力学、統計的機械学習の分野を繋ぐ、分かりやすい論文ですので、興味のある方は是非ご一読ください( ⸝⸝•ᴗ•⸝⸝ )

特に、物理学には詳しいけど、
確率統計(特に確率過程と推定統計学、応用統計学)と
情報理論様々な情報量・エントロピーと確率との間の関係性信号理論情報圧縮など)については詳しくない方や、
エントロピーや情報量と物理量との間の関係性がよくわかっていない※
そういう方にはさらにオススメです(ง'̀-'́)ง
(【ギブス測度と【ラグランジュの未定乗数法】と【温度】
 ある物理量の【座標】と、その【変化速度】【波数】
 【座標】としての【自己情報量】と、その【変化速度】【波数】としてのシャノン【エントロピー】

以下、抜粋とコメント

非平衡熱力学の視点から、最適輸送が拡散モデルの学習にとって「良い」ことを議論しました
最適輸送がいわゆる最小散逸に相当する熱力学的な最適性を与える
拡散モデルに特化した生成AIとしてのモデルの良さを不等式で議論し、
それが最適輸送の時にoptimalになる
「応答関数」が、学習に使った拡散過程におけるエントロピー生成率と温度の積の時間積分で上限が与えられることがわかりました。

この上限は保存力で拡散するときは、2-Wasserstein距離の世界での速度の二乗の時間積分で与えられるコストとなり、この量を最小化することがいわゆる生成結果の良さを与えることになります。

そしてそれが、ちゃんと最適輸送、つまり2-Wasserstein距離の測地線でのダイナミクスになります。
これは数理的には、最小エントロピー生成が2-Wasserstein距離の測地線でのダイナミクスで与えられる、という主張と完全に等価であり

(コメント)
→最小エントロピー生成から離れる、過剰エントロピー生成が存在する場合は、Bures=Wasserstein計量のような【対称な】【計量】ではなく、カルバックライブラー情報量での【非対称な】【発散】になっていて、どれだけ【非対称なのか(の度合・濃度。順過程確率と逆過程確率との間に差がある非平衡系)】が、過剰エントロピー生成と関係しているのかな?

 通常は最大エントロピー原理や、情報熱力学第二法則などによって【対象な】計量になるはずなのに 【非対称な】発散になっている場合は、何か(計量を非対称にするような原因となる)余分な【情報量】をこの系が持っていて、この余分な情報量も、情報熱力学第二法則に従って散逸するときに、これが【過剰エントロピー生成】として測定されるのかな?

 なので、元々、Bures=Wasserstein計量のように【対称な】計量になってしまっている場合は、この系は【余分な情報量】持っていないので、 過剰エントロピー生成は常に0になったりする(常に測地線でしかダイナミクスが存在しない)のかな?

 ※なので機械学習では、その【余分な情報量】を復元したり、【特徴 / 秩序 / 非対称度合 / 位相幾何情報】として検出したりできるのかな?

また応答関数は熱力学的不確定性関係と同じような形で与えられる、Nakazato-ItoやDechant-Sasa-Itoで議論されてきたような形の量になります。
ただしこれはアナロジーであり、完全に今までの結果の特殊な場合になっているわけではありません。

というのも拡散モデルでは学習の時の拡散ダイナミクスと、
復元の際の時間を戻すダイナミクス
同時に扱う必要があり、その二つのダイナミクスの関係を表す物理量を扱う必要があるためです。

そこで我々は、「応答関数」という二つのダイナミクスに関する量を二つのダイナミクスを特徴付ける量として導入しました。

摂動はχ^2-ダイバージェンスで与え、
また生成精度の良さは入力データの分布と出力の分布の間の1-Wasserstein距離の二乗で与え、
この二つの量の比を考えています。

画像データの生成精度を議論するのに1-Wasserstein距離を用いたり、
分布の違いを議論するのにχ^2-ダイバージェンスを使うのは
非常に自然なやり方であり、
またそれが拡散ダイナミクスの2-Wasserstein距離の速度で与えられる関係式は、素朴な機械学習の数理研究としても筋が良い気がします。

新しく相関関数をつくって、2つのパラメータの間の【相関】を定義する、というのは、素粒子物理学を始めとした、様々な物理学理論でも、マクロな応用統計学の分野でも良く用いられますね( *ˊᵕˋ* )

またこの論文は拡散モデルと非平衡熱力学の接点をちゃんとまとめた文献としても価値がありうると思います。

特に拡散モデルの過去の研究が「読みにくい」と感じており、拡散モデルの理解を僕らが使う確率過程の表現で書き直したという点も、この論文が価値のある文献になるのではと期待しています。

これは非常にありがたいですよね( *ˊᵕˋ* )
 個人的には、確率過程での理解の方が分かりやすいので、非常に助かります( ⸝⸝•ᴗ•⸝⸝ )
 量子力学での(量子速度限界を単位時間とした)確率過程のダイナミクスや、その情報幾何的解釈、量子計量・情報計量を考える上でも、とても参考になります(ง'̀-'́)ง

拡散過程は、ブラウン運動などの確率過程によって記述されます[1]

熱力学的不可逆性は、確率的熱力学におけるエントロピー生成によって定量化されます[2,3].

確率熱力学】では、拡散過程における情報処理や熱力学的散逸との関係について様々な議論がなされてきました[4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24].

最適輸送理論に基づく[25]では、
【拡散過程の必然的な熱力学的散逸
が【確率的熱力学で議論されている[26,27,28,29]

拡散過程における【速度、精度、散逸の熱力学的トレードオフ関係】は、
熱力学第二法則の一般化】として議論されてきました[30,29,31,32,33].

この拡散プロセスは、近年、生成モデルと呼ばれる
統計的機械学習モデル
の文脈で議論されています[34].

→これも根っこが、「クラメールラオの情報不等式」に由来していて、2つのパラメータの同時推定には、必ず【1ビット(1/2)分のエントロピー】(フィッシャー情報量の「逆数」・相対エントロピー・逆温度)が存在する、ということに由来しているのかな?
 【統計学奥義でのAICとBICの同時最適化不可能性とも関係しているのかな?

そしてJarzynskiの平等[39]では、拡散モデルは空間構造のないノイズを含むデータから空間構造を持つデータを生成します。

→これは、位相幾何情報(画像や音声など、情報源の特徴・秩序パラメータなど)を復元する(信号理論的な文脈で)ことができる、ということでもあるのかな?
 その位相幾何情報の源の情報量が、
 本来【対称な計量】であるはずのBures = Wasserstein計量を歪めて【非対称な発散】であるカルバックライブラー情報量になっているのかな?

本稿では、拡散モデルを確率的熱力学の観点から再考し、
最適輸送理論に基づく熱力学的トレードオフ関係に類似した拡散モデルの速度と精度のトレードオフを導き出します。

速度と精度のトレードオフは、
正確なデータ生成の理論的限界は、
一般に、【エントロピー生成速度と温度によって与えられる拡散ダイナミクスの【速度によって制限される】ことを説明しています。

さらに、速度と精度のトレードオフの上限は、学習のための最適な拡散ダイナミクスが最適な輸送によって与えられることを説明しています。

→これも【統計学奥義でのAICとBICの同時最適化不可能性とも関係しているのかな?

推定誤差の典型的な例は、Kullback-Leibler発散です[83]、
情報理論と情報幾何学における擬似距離
およびワッサーシュタイン距離[25]、最適輸送理論における距離。

→KLDは【推定誤差】として機能することもあれば、
 本来対称であるはずの計量を【歪めて非対称な発散にする原因】
 として機能することもある、という側面もあるのかな?

ランダムなホワイト ガウス ノイズで、数学的にはウィーナー過程の差として定義されます。

ランジュバン方程式がブラウン粒子の位置のブラウン動力学と見なされる場合、パラメータ温度と外力にそれぞれ対応します[92].

拡散モデルのコンテキストでは、ランジュバン方程式で記述される順過程は、ランダムノイズがデータに順次追加される時間発展過程と見なすことができます。

過減衰フォッカー・プランク方程式[式(1)]、すなわち確率熱力学の非平衡熱力学を導入します[3]を参照し、拡散モデルとの関係について説明します。
確率的熱力学】では、熱力学的散逸率の尺度として、主に
【エントロピー生成速度
と呼ばれる量を考えます。

エントロピー生成は、【2つの経路確率間の統計的差】として解釈できます. Kullback–Leiblerの発散を考えると
エントロピー生成には、Kullback-Leibler発散としていくつかの表現があることを指摘する。
例えば、エントロピー生成は【情報幾何学における射影】として定式化することができ、これは【Kullback-Leibler発散の最小化問題】である

→この【情報幾何学における射影】【Kullback-Leibler発散の最小化問題】については、他の論文で分かりやすく解説されているので、興味がある方は、先生の過去のツイートをご覧ください( *ˊᵕˋ* )

過剰エントロピー生成率の熱力学的不確実性関係を求める[108,31],
観測可能な速度のトレードオフ関係を意味します

拡散モデルの速度と精度のトレードオフは、
確率過程における観測可能な速度の熱力学的限界を考慮する
従来の熱力学的トレードオフ関係とは異なり、
順過程と推定過程という【2つの異なる過程の差
がどのように変化するかに限界を与えるため、概念的に異なります。

また、拡散モデルに関する原著論文で論じた
経路確率に基づく手法を熱力学的観点から再考
することも興味深い。
というのも、原著論文で紹介した手法は、ランジュバン方程式やフォッカー・プランク方程式で記述される単純な拡散過程だけでなく、
マルコフジャンプ過程で記述されたグラフ上の拡散過程も扱える】ため、
現在の手法よりもスケーラブルな手法が期待できるからです。
このような場合、マルコフジャンプ過程の熱力学的トレードオフ関係と最適輸送[115,116,117,118]拡散モデルの最適性を検討するのに役立つ場合があります。
そのような場合、確率的熱力学におけるKullback-Leibler発散の情報幾何学的構造との類似性[103,118,32]損失関数はKullback-Leibler発散によって導入され、
その最小化は情報幾何学の射影定理として数学的によく議論されているため、重要かもしれません[83].
実際、拡散モデルにはシュレーディンガー橋に基づく確率的手法がいくつか存在します[119,120,50,71]これは、Kullback-Leibler発散の最小化によって与えられます。
このような系は、【経路確率に基づく確率的熱力学とのアナロジーを考えることで、何らかのトレードオフ関係を得ることができるかもしれません。


この記事が気に入ったらサポートをしてみませんか?