LLM解釈手法のPLNDについて語る

2024年3月14日 23:14

前回のnoteの続きです。

How do Large Language Models Handle Multilingualism?ではPLNDという言語固有ニューロン検出手法が提案されていました。言語固有ニューロン検出ということで広くみると、XAI領域、つまりLLMの解釈手法とも見て取れます。

今回はPLNDについて少し考えます。

PLNDについて

PLNDは、ある言語の入力に対して特異的に反応するニューロンを検出する手法です。基本的なアイデアは、各ニューロンの活性化が出力に与える影響の大きさを定量化し、複数の入力サンプルで一貫して大きな影響を持つニューロンを言語固有ニューロンとみなすことです。

Transformerの各層の入出力を $${h^i}$$, $${h^(i+1)}$$ とし、あるニューロン $${N^(i)_k}$$ の重要度を以下のように定義します。

$$
Imp(N^(i)_k | h^i) = ||T^i \ N^(i)_k (h^i) - T^i(h^i)||_2
$$

ここで、$${T^i \ N^(i)_k}$$ はニューロン $${N^(i)_k}$$ を除いた$${i}$$ 層目の変換を表します。

議論

さて、PLNDはLLMの解釈のために貢献しているとは思うものの、疑問点はたくさんあります。

重要度の定義

出力が大きく変化する=>重要であるは論理の飛躍があります。NNの冗長性や層の位置や深さ、内部の非線形な処理などなど、出力の変化には様々な要素が関わっており、重要性を語るのは大変難しいです。（と自分は理解しています）。
LLMより前の既存のNNの研究では重みの勾配に着目したり、へシアンに注目するのが一般的であり、その方が重要度は正確に測れるかなと思いました。

(ここらへんの議論、色々な学派があるのは重々承知しています。自分の意見が多いに間違っているかもしれないので、ご了承くださいませ。)

言語固有性の定義

単純にニューロンの出力変化の大きさだけで言語固有性を定義していますが、他の言語の入力に対する変化も考慮する必要があるかもしれません。例えば、あるニューロンがある言語で大きく変化するが、他の言語でも同程度変化するなら、そのニューロンは言語固有とは言えないはずです。

また言語によって文法や語彙の構造が大きく異なるため、同じ基準でニューロンの言語固有性を評価することが適切でない場合も考えられます。

ニューロンの独立性の仮定

各ニューロンを独立に扱っていますが、実際にはニューロン間の相互作用が重要な場合があります。ニューロンを個別に見るだけでは、言語処理の全体像が捉えきれない可能性があります。

因果関係の解釈

（PLNDの扱い方についての議論です。）言語固有ニューロンが検出されても、それが言語処理に因果的に重要なのか、単なる相関なのかは慎重に見極める必要があります。そして今回の結果で因果は何も言えないはずです。

何はともあれ、先述の通り、PLNDはLLMの解釈のために貢献していると思うので、筆者の方々には大変感謝です。

この記事が気に入ったらサポートをしてみませんか？