LLMの知識はどこに詰まっている?
お疲れ様です。
日々、ChatGPTをはじめとするLLMと対話を重ねています。
最近参加したセミナーで、「LLMの知識はフィードフォワード層に蓄積されている」という考え方を知りました。
LLMはTransformerアーキテクチャをベースに構築されており、ざっくり言うと、マルチヘッドアテンション層とフィードフォワード層を繰り返すことで、高度な思考が実現されているのですが、マルチヘッドアテンション層では情報のどこに注意を払うべきか重みづけを行い、その情報をもとにフィードフォワード層で解釈を行うとされています。
つまり、フィードフォワード層には思考の結果である知識が蓄積されていると考えられています。
また、LLMのパラメータ数のうち60〜70%がフィードフォワード層に割り当てられていることからも、この層が知識を担っていると考えるのは妥当ではないかと感じます。
Transformerアーキテクチャの各要素の役割を考え、解釈を加えるのは改めて楽しい作業だなと思います。
最後までお読みいただきありがとうございました。