NLP2022に参加しました（後編）

2022年4月12日 12:00

今回のテックブログは、前回に続き言語処理学会第28回年次大会(NLP2022)の参加報告をお届けします。前編は「要約・言語生成」、後編の今回は「Transformerの解釈性・Webサービス開発への応用可能性」に関する論文で気になったものをご紹介していきます。

はじめに

メディア研究開発センターの新妻です。
普段は自然言語処理に関わる研究開発や、ジャーナリズムのためのデータ分析に携わっています。

これまでに書いたnoteの記事には、次のようなものがあります。

それでは、NLP2022で個人的に気になった論文の紹介をしていきます。
自分の現在の興味範囲はTransfomerの解釈に関わる研究、あるいはWebサービス開発への応用が見据えられている研究です。
そのため、今回はその2つの軸で論文を4本選びました。

※本ブログ執筆時点ではNLP2022の予稿集は参加者にのみ公開されています。そのため、論文の図表などは貼らずに紹介します。

Transformerモデルのニューロンには局所的に概念についての知識がエンコードされている

有山知希（東北大学）, Benjamin Heinzerling, 乾健太郎（東北大学/理化学研究所）

概要

Transformerがある概念についての知識を局所的なパラメータに保存していることを解明した研究です。
事前学習済み言語モデルには、知識を必要とする穴埋め問題を解くことができるものがあり、Transformerのどこかにその知識が保存されていると考えられます。
そして、この知識が先行研究によりFeed-Forward層にエンコードされているだろうと仮定して実験をしています。

「知識を持っている」ことを確認する手法として知識帰属法を用いています。
知識帰属法とは、Feed-Forward層の中間表現をニューロンと見立て、ある入力をした時にある推論結果を仮定すると、その結果を出力するために反応する（=その推論結果に対する知識を持つ）ニューロンを特定する手法です。
その反応度合いはIntegrated Gradientsという手法を用いて確認しており、これはニューロンの活性値の変化に応じて、推論結果に対する勾配がどれだけ変わるかを確認することでニューロンの貢献度を計算するものです。
それによって、特定の知識に反応するニューロンを見つけて、その活性値を編集することでその知識に関わる穴埋め問題に正解する確率が変化するかを確認することで、言語モデルがそのニューロンに知識を保持していると判断しています。

具体的には、ある概念が正解となるマスク穴埋め問題のプロンプトをLAMAから作成しており、そのプロンプトの正解をモデルに推論させた時の正解確率に寄与したニューロンを知識帰属法で発見するという実験です。
実験結果は、多くの概念において知識ニューロンの活性値を編集すると確率が変化する傾向が見られ、知識が局所的にエンコードされていることが確認できたと報告されています。
一方で、品詞ごとに知識の保存形態が異なっていることが示唆されており、今後の研究課題として残っているとのことです。

所感

個人的にはIntegrated Gradientsの新たな活用の仕方を切り開いているという点で、個人的にはすごく面白いと感じた研究でした。
また、知識が局所的に存在しているということは、言語モデルが持つバイアスもまた局所的に存在している可能性があり、機械学習の公平性の観点におけるバイアスを取り除く上でもこの活性値の編集の方法は応用できそうだなと感じています。

Transformerにおけるフィードフォワードネットの作用

小林悟郎（東北大学）, 栗林樹生（東北大学/Langsmith 株式会社）, 横井祥, 乾健太郎（東北大学/理化学研究所）

概要

Transformerの層間でおこなわれる入力トークン列に対する文脈情報の混ぜ合わせに、AttentionだけでなくFeed-Forward層も影響を与えていることを示唆した研究です。
さらに既存のTransfomerに関する分析はAttentionにばかり注目をしがちだというところに問題意識を持ち、Feed-Forward層も考慮した全ての層を分析対象にする方法を提案しています。

Transformerの層における重みの変換は、活性化関数を近似して層への入力に紐づいたベクトルの和で表すことで、文脈情報の混ぜ合わせ度合いを定式化しています。
そして、その定式化に基づいて出力系列のあるトークンを構成している入力系列のトークンのノルムを計測することで、貢献度を計測しています。
実験では、Attention・Layer Normalization・Residual Connection・Feed-Forward層などの出力結果を元に、それぞれの出力の類似性を（スピアマンの）順位相関係数で計算することで文脈情報の混ぜ合わせ度合いを計測できるようにしており、相関係数が小さくなればなるほど、文脈情報が混ぜ合わせられていると考えられます。

実験結果としては、実際にFeed-Forward層でも前後の層との相関係数が低下しており、文脈情報の混ぜ合わせ度合いを変化させていると考えられるという結果になっています。
さらに、Residual ConnectionやLayer Normalizationも文脈情報の混ぜ合わせ度合いを変化させていることがわかったとのこと。
また、Feed-Forward層ではサブワードのペアや熟語となる単語同士などの混ぜ合わせが強化されたり、同じグループ（月名など）に属する単語同士や特殊トークンへの混ぜ合わせを弱くしたりする機能を持っていたようです。

所感

直感的な理解のしやすさからTransformerにおける文脈情報の混ぜ合わせ度合いを変化させることは、Attentionだけで起こっていると考えがちでしたが他の層もその変化に寄与していることを明らかにしたのはものすごく重要な研究だなと感じました。
また、個人的にはResidual ConnectionやLayer Normalizationでも混ぜ合わせが変化していることは驚きのある発見でした。

単語埋め込みを利用した商品に対するキーワードの予測

山口泰弘, 深澤祐援, 原島純（クックパッド株式会社）

概要

カテゴリを事前に定義せずに、商品から抽出したキーワードでうまくカテゴリ分けするための分類モデルを提案しています。
具体的には、出品者の入力内容の表記揺れが大きいECサイトで、商品をうまくカテゴリ分けするための仕組みで、実際にクックパッドマートで使うことを見据えて作っているとのこと。

この手法はモデルによってエンコードされた商品名とカテゴリ（キーワード）の近さを計算することで、カテゴリの分類をしています。
そして、そのモデルは次のような手順で商品名とカテゴリをエンコードしています。

商品名とキーワードをfastTextによって埋め込み表現に変換し、BiLSTMによってそれぞれをエンコード
商品名の潜在表現をキーワードの潜在表現との類似度によるAttentionによって重みづけし、それぞれの表現を平均
二つの表現のコサイン類似度を計算

所感

このモデルよって得られたキーワードを、Elastic Searchなどの全文検索エンジンに商品のfieldとしてインデックスするだけで、人手によるアノテーションを介さずにファセットナビゲーションなどを作れるなぁと思い、Webサービスの開発をする上であったら非常に嬉しいだろうなという研究だと感じました。
自身もサービスの開発を加速させるような研究をしていきたいという気持ちもあり、思わず感嘆してしまったため紹介させていただきました。

HTML 構造を補助情報として利用する日本語ブログ記事からの固有表現抽出

植塁（横浜市立大学大学院）, 數見拓朗（株式会社サイバーエージェント）, 小泉和之（横浜市立大学大学院）

概要

Webページからの固有表現抽出というタスクにおいて、これまで前処理段階で捨てられがちだったHTML構造を活用する手法を提案した研究です。

提案手法は、①HTMLを特殊トークンとして使う方法と②HTML構造をグラフに変換してグラフニューラルネットワーク（GNN）として扱う方法の二つです。
①については、「今日/は/<b>/ハンバーグ/</b>/を/作る」というようなトークンをBERTやBiLSTM-CRFに入力してBIOラベルを予測する方法
②については、HTMLのDOM構造をグラフに変換してGNNへの入力とし、テキスト部分のノードをノード埋め込みから得て、BERTの表現にconcatすることでBIOラベルの予測スコアを計算する方法

実験結果としては、②の方法のうちGNNにGraph Attention Networkを採用したものが最もスコアが高いという結果となったとのこと。
一方で、固有表現が開始タグ（<b>や<p>など）に現れやすいブログに絞ると、①の方法でBERTを使ったものが最も良いスコアになったようです。

所感

Webサービスを開発・運用している中で、サービス内のユーザ生成コンテンツやクロールして取得したWebサイトに含まれる情報を抽出したいという気持ちになったことはないでしょうか。この手法はその要求に応えてくれる第一歩となるツールだなと感じました。

特にブログのようなコンテンツマネジメントシステム（CMS）を持つユーザ生成コンテンツでは、それぞれの記事がある程度の類似の構造を持ちつつも自由度は残っているものになっており、ルールベースで情報を抽出することなどは困難です。しかし、ブログや記事をカテゴリやキーワードなどで分類したりしなければ、ユーザーの回遊しやすいポータルなどを作るのが難しくなります。
現状ではユーザや社内の人手に頼ったアノテーションが活用されることが多いと思いますが、非常にコストがかかってしまいます。
こうした研究はそれらの問題を解決に導いてくれそうだと感じており、とても動向が気になるため紹介させていただきました。

次回の年次大会

次回の年次大会の開催地は、なんと「沖縄」になったようです。
会場は沖縄コンベンションセンターで、Twitterアカウントも開設されました。

言語処理学会第29回年次大会(NLP2023)の公式アカウントです。NLP2023に関する情報をツイートしていきます。
— NLP2023 OKINAWA (@anlpmeeting) March 17, 2022

これはぜひ現地で発表したいですね〜、ということで来年こそは主著論文を出せるように頑張っていきたいと思います。