なぜLLMは長文の要約が苦手なのか - Transformerの仕組みから紐解く
お疲れ様です。
日々、ChatGPTをはじめとするLLMと対話を重ねています。
その中で長文を入力して文章を要約をさせることがあるのですが、一般的に、文章が長くなるほど要約精度が下がると言われています。
私も、「文章が長くなるとノイズが増えて、要約精度が下がるのかな?」と漠然と理解していたのですが、深く考えたことはありませんでした。
しかし、Transformerアーキテクチャの数式に立ち返って考えてみると、この現象について少し理解が深まりました。
Transformerアーキテクチャの要となる要素にマルチヘッドアテンション層があります。
このマルチヘッドアテンション層では、文章内で注目すべき箇所に重みをつける処理が行われています。具体的には、各単語について、どこに注意を払うべきかを決定し、その重みの合計が1になるように割り振ります。
このため、比較的短い文章であれば適切な単語に十分な注意を払い、その他の単語には小さな数値を割り振るのですが、単語数が膨大になると、一つ一つの単語に割り当てられる数値が小さくても、それらを足し合わせると、そこそこ大きな数値になります。
結果として、本来注目すべき単語に十分な重みが割り当てられず、注意が散漫になることで、要約精度が低下してしまうことがあるようです。
「文章が長くなるとノイズが増えて、要約精度が下がるのかな?」とイメージで捉えるのも大切ですが、数式に立ち返り、理論的な裏付けを持つことも重要だなと改めて感じました。
最後までお読みいただきありがとうございました。