見出し画像

NLP2022に参加しました(前編)

メディア研究開発センターの研究開発テーマのひとつである「自然言語処理(NLP)」。3月には言語処理学会第28回年次大会(NLP2022)が開催されました。そこで今回から2回にわたって、参加報告をお届けします。まず前編は「要約・言語生成」、また後編は「Transformerの解釈性・Webサービス開発への応用可能性」に関する論文で気になったものをご紹介していきます。

はじめに

こんにちは。メディア研究開発センター(通称M研)の田口です。普段は自然言語処理に関する研究開発や、その成果を活用した社内ツールの開発をしています。

今回は要約や言語生成関連の発表で気になったものを4本ほど紹介します。

言語処理学会年次大会について

言語処理学会が主催する年次大会で、自然言語処理に関する幅広いトピックの研究発表が行われます。参加登録者数およびスポンサー数は歴代1位、発表件数も歴代3位とオンライン形式でも非常に盛り上がりました。朝日新聞社は昨年に引き続き今年もゴールドスポンサーとして協賛させていただきました。

また、M研からも2件の発表を行いました。そのうちの1件(「動画タイトルを用いたサムネイル画像の自動選択手法の提案」)は委員特別賞を受賞しました!

M研からの発表内容については、それぞれ筆頭著者がテックブログにて紹介しています。興味のある方はぜひ読んでみてください。

では、さっそくNLP2022で気になった論文の紹介に移りたいと思います。
※本ブログ執筆時点ではNLP2022の予稿集は参加者にのみ公開されています。そのため、論文の図表などは貼らずに紹介します。

抽出型要約と言い換えによる
生成型要約の訓練データ拡張

Loem Mengsay, 高瀬翔, 金子正弘, 岡崎直観 (東工大)

TransformerのようなEncoder-Decoderモデルの場合、大規模な訓練データが必要な一方でデータ作成のコストは大きいです。そこで、抽出型要約と言い換えによるデータ拡張をしてモデルの性能を向上させています。

「抽出型要約」というと文書の中から重要な文を選択するタスクに見えますが、実際は係り受け解析の結果を使って文圧縮をしています。そして、圧縮した文の言い換え文を取得することで疑似要約のデータとしています。

見出し生成タスク(入力・出力どちらも1文)と文書要約タスク(入力・出力どちらも複数文)で実験しており、文書要約タスクでは先頭3文を文圧縮・言い換えしたものを擬似要約としています。実験の結果、逆翻訳や自己学習などのベースラインよりも高い性能を達成しています。

提案手法では係り受け解析をspaCyで、言い換えを英独・独英の翻訳モデルで獲得しています。言い換えを日英・英日の翻訳モデルをで獲得すれば日本語でも同様のデータ拡張ができそうですね。

こちらの発表はスライドが公開されています。

記事に忠実ではない訓練事例も活用した
見出し生成モデルの忠実性の改善法

植木滉一郎, 平岡達也, 岡崎直観 (東工大)

松丸らの先行研究では、記事本文の情報だけでは見出しの生成が難しい(本文と見出しの間に含意関係がない)事例を含意関係認識器で分類し、データをフィルタリングする手法を提案しています。これによりモデルの生成する見出しがより原文の情報に忠実なものになります。

この研究では先行研究のフィルタリングによって訓練事例が減ってしまう問題に対処する手法を2つ提案しています。

1つ目の手法(部分修正)では上述の含意関係認識器を使って訓練事例が「忠実」か「忠実でない」かを分類します。「忠実でない」見出しに対しては、忠実でない箇所をマスクし、BERTで予測したトークンに置換しています。このように一部見出しを編集した上で、「忠実でない」訓練事例もフィルタリングせずにEncoder-Decoderモデルの訓練データとして使っています。

2つ目の手法(タグ制御)は非常にシンプルで、1つ目の手法同様に訓練事例が「忠実」か「忠実でない」かを分類し、その情報を訓練事例に付与しています。具体的には、「忠実」と判定された事例には<FAI>というタグを付与して「<FAI> + 記事本文」という入力にしてモデルの訓練を行っています。「忠実でない」場合は<HAL>というタグを同様に付与するだけなので非常にシンプルな手法です。

実験結果によると、どちらの手法も先行研究と同程度の含意率を達成し、人手評価においてはタグ制御モデルのほうが良いとのことです。ちなみに、発表時に「テスト時に<HAL>タグを付与して生成させると忠実でない文がでるのか?」という質問をしました。回答としては、「<HAL>タグを付与することで、頻繁ではないが記事にない情報を含んだ見出しが生成されてしまうといったことが発生する」とのことでした。

複数の指定語句を必ず含むリスティング広告
の広告文自動生成

黒木開 (negocia), 石塚湖太 (negocia/東工大), 川上孝介 (negocia), 中田和秀 (東工大)

この論文では、帖佐らの先行研究をベースに広告文生成で複数語句を指定できる高速な手法を提案しています。帖佐らの先行研究は、入力文と指定語句を結合してエンコードし、その語句を”必ず”含むようにデコードするというものです。

語句を”必ず”含むデコードにはGrid Beam Searchという手法が使われています。これは下記の3つの状態を考慮しながらデコードを行う手法です。
・Start(指定語句の最初のトークンを生成)
・Continue(生成中の指定語句の次のトークンを生成)
・Generate(制約に関係なく次のトークンを生成)
元論文の下記の図を見るとイメージしやすいかと思います。

スクリーンショット 2022-03-25 18.57.52
Hokamp and Liu(2017)より引用

先行研究の話はこれくらいで。このGrid Beam Searchとフレーズベースのデコード手法を組み合わせ、さらに高速化した手法がこの論文の内容です。生成例もいくつか載っており、複数のキーワードを指定してもそれらを含んだテキストが生成されていました。気になる方はぜひ予稿集が公開されたら読んでみてください。

また、この論文では先行研究として我々の研究成果である指定語句を必ず含む見出し生成が引用されていました。こちらの内容については下記のブログで紹介しています。

LP-to-Text: マルチモーダル広告文生成

村上聡一朗 (サイバーエージェント/東工大), 星野翔, 張培楠 (サイバーエージェント), 上垣外英剛 (東工大), 高村大也 (産総研), 奥村学 (東工大)

こちらも先ほど紹介した論文と同様に広告ドメインでの言語生成に関する研究です。この論文では、テキストに限らずランディングページ(LP)の視覚情報やレイアウトなどマルチモーダルな情報を扱えるモデルを提案しています。

提案手法では単純にLPから広告文を生成するのではなく、下記の2つのサブタスクを用意してマルチタスク学習を行っています。
・ランディングページの一部レイアウトをマスクし、OCRテキストなどの周辺情報を使ってレイアウトを予測
・入力となるLPの情報から実際に広告文に使われるトークンを予測

マルチタスク学習のほかにも、Mixture of Experts(MoE)による学習を行うことで、学習事例が少ないケースや、広告文の多様性をどう出すかという問題に対処しています。

多様な候補を生成するという問題は、自分が社内で取り組んでいる見出し作成支援ツールの課題の一つでもあるので非常に参考になりました。

おわりに

今回はNLP2022で気になった論文をいくつか紹介しました。要約や言語生成関連の面白い論文は紹介した以外にも多数あります。ぜひ予稿集が公開されたら読んでみてください。発表一覧は下記サイトより確認できます。

後編ではM研の新妻が気になった発表を紹介してくれます。Transformerの解釈性やWebサービス開発への応用可能性をもとに論文を選んでいるそうです。

ではまた。

(メディア研究開発センター・田口雄哉)