Hallucinationのモデルの内部指標として使えるALTI
言語モデルが事実では無いことを出力する問題であるHallucinationですが,それが「モデルの内部を見ると,Hallucinationがある程度わかる」,という話です.モデルの内部を見たHallucinationの検出は、簡易にはSequence log probabilityが低いものを弾く,などは考えられますが,ALTI[1]ではモデル内部の挙動を追跡しており,思想が面白かったので,数式の文脈を踏まえてメモを書いておきます.
[1] Measuring the M