Faithful to the Original: Fact Aware Neural Abstractive Summarization オリジナルに忠実に: ファクト・アウェア・ニューラル抽象的要約

2020年6月23日 02:21

Faithful to the Original: Fact Aware Neural Abstractive Summarization
オリジナルに忠実に: ファクト・アウェア・ニューラル抽象的要約

** Abstract

抄録**

抽出的要約とは異なり、抽象的要約は原文の異なる部分を融合させなければならず、偽の事実を生成する傾向がある。
我々の予備研究では、最先端のニューラルサマリーシステムの出力の30%近くがこの問題に悩まされていることが明らかになった。
これまでの抽象的要約のアプローチは、通常、情報性の向上に焦点が当てられてきたが、我々は、実用的な抽象的要約システムのためには、忠実性もまた重要な前提条件であることを主張している。
本研究では、要約中に偽の事実を生成しないように、オープンな情報抽出技術と依存性解析技術を活用して、原文から実際の事実記述を抽出する。
そして、ソーステキストと抽出された事実記述の両方に条件を付けて生成を強制するデュアルアテンションシーケンスツーシーケンスフレームワークを提案する。
Gigawordベンチマークデータセットでの実験では、我々のモデルが偽の要約を80%も大幅に削減できることが実証されました。
特に、事実記述は原文の意味を凝縮していることが多いため、情報性も大幅に改善されている。

The contributions of our work can be summarized as follows:
本研究の貢献は以下の通りである。
- 我々の知る限りでは、我々は抽象的要約の忠実性の問題を初めて探求した。
- 我々は、元の事実に従うように生成を促すために、デュアルアテンションs2sモデルを提案する。
- 事実の記述はしばしば原文の意味を凝縮しているので、情報性を促進するという大きな利点もある。

**Conclusion and Future Work

まとめと今後の取り組み**

本論文では、抽象的要約における忠実性の問題について検討する。
我々は、一般的なOpenIEと依存性解析ツールを用いて、原文中の事実記述を抽出する。
そして、原文と事実記述の両方を条件とした生成を強制的に行うデュアルアテンションs2sフレームワークを提案する。
Gigawordベンチマークを用いた実験の結果、我々のモデルは偽要約を80%削減することを実証した。
また、事実記述は文の意味を凝縮していることが多いため、事実記述を取り入れることで情報性が大幅に向上することがわかった。

私たちの研究は様々な面で拡張できると考えています。
一方では、コピー機構やカバレッジ機構を用いたデコーダの改良を計画しており、これをさらに要約に適応させていく予定です。
一方で、要約の忠実性の自動評価にも興味を持っています。

** Introduction

序章**

オンライン情報が指数関数的に増加しているため、効果的な自動要約システムの開発が必要とされている。
この論文では、ますます興味をそそられるタスクである抽象文要約(Rush, Chopra, and Weston 2015a)に焦点を当てている。
このタスクは文書レベルの要約とは異なり、一般的な抽出技術を適用することが難しい(Over and Yen 2004)。
文章要約を形成するために既存の文を選択することは不可能である。
文章要約に関する初期の研究では、手作りのルール(Zajic et al. 2007)、構文木の剪定(Knight and Marcu 2002)、統計的機械翻訳技術(Banko, Mittal, and Witbrock 2000)が用いられていた。
最近では、注目されている配列対配列（s2s）フレームワークの応用がこの分野で注目を集めている（Rush, Chopra, and Weston 2015a; Chopra et al. 2016; Nallapati et al.

ご存知のように、文の要約は必然的に原文の異なる部分を融合させる必要があり、抽象的である。
その結果、生成された要約は元の関係性と不一致し、偽の事実を生み出すことが多い。
我々の予備研究では、最先端のs2sシステムの出力の30%近くがこの問題に悩まされていることが明らかになった。
これまでの研究では、通常、要約の情報性を高めることに力を注いできた。
しかし、実用的な抽象的要約システムのための最も重要な前提条件の一つは、生成された要約がソースで表現された事実と一致しなければならないということである。
本稿では、この点を要約の忠実性と呼ぶことにする。
偽の要約は、原文の理解を大きく誤らせる可能性がある。
最先端のs2sモデルを用いた生成結果の例を見てみましょう (Nallapati et を参考にしてください。2016）を表１に示した。
動詞「延期された」の実際の主語は「送還」である。
にもかかわらず、おそらくは実体の「ボスニア・モスレム」は、「延期」に近い
ソース文、要約システムの誤認 "ボスニア・モスレム "を主語にして事実を偽装 "ボスニア・モスレム延期"
一方、S2Sシステムは "ボスニアからUNHCRが撤退した "という別の捏造事実を生み出している。と書いて要約に入れています。
結果的に情報性（ROUGE-1 F1=0.57）と読みやすさが高い場合、その意味はオリジナルとはかけ離れたものになります。
このような要約は、実際にはほとんど役に立たない。

事実の捏造は深刻な問題であるため、直感的には、既存の事実を要約システムに符号化することが、捏造を回避するための理想的な解決策であるはずです。
次のようなことを考える。この目的を達成するためには、まず最初にソースの文章を見てみましょう。
比較的成熟したOpen Information Extraction (OpenIE)(Banko et al. 2007)のタスクでは、事実は通常、(subject; predicate; object)からなる関係トリプルで表現されます。
例えば、表1のソースセンテンスが与えられた場合、人気のあるOpenIEツール(Angeli, Premkumar, and Manning 2015)は、(repatriation; was postponed; friday)と(unhcr; pulled out of; first joint scheme)を含む2つの関係トリプルを生成します。
明らかに、これらのトリプルは、s2sモデルが犯した間違いを修正するのに役立つ。
しかし、関係性トリプルは必ずしも命令文から抽出できるとは限らない。
そこで、我々はさらに依存性パーサーを採用し、文の解析木から識別された(主語；述語)と(述語；目的語)のタプルで補完する。
これは、構文木ベースの文圧縮の研究（例えば、(Knight and Marcu 2002)）に触発されたものである。
我々は、事実記述として定義された短い文を形成するために、トリプルまたはタプルの中の単語をマージすることによって事実を表現します。
事実記述は、実際には文の骨格を形成する。
そのため、我々のモデルでは、事実記述を追加の入力原文として組み込んでいます。
実験の結果、抽出された事実記述の単語は、原文の単語全体よりも実際の要約に含まれる可能性が40%高いことが明らかになりました。
つまり、事実記述は明らかに要約のための正しいガイダンスを提供していることがわかります。
次に、原文と事実記述の両方を入力として使用し、それらの情報を十分に活用するために、最先端の注意喚起型s2sモデル（Nallapati et al.
特に、2つのリカレントニューラルネットワーク(RNN)エンコーダーを用いて、文と事実記述を並列に読み取る。
それぞれの注意メカニズムを用いて，我々のモデルは文と事実の文脈ベクトルを計算する．次に、相対的な信頼度に応じて2つのベクトルをマージします。
最後に、RNNデコーダが統合された文脈を利用して、単語ごとの要約を生成します。
我々の要約システムは、忠実性を高めるために事実を符号化するので、これをFTSumと呼ぶ。

FTSumの有効性を検証するために、Gigaword文要約ベンチマークデータセット(Rush, Chopra, and Weston 2015b)で拡張実験を行った。
その結果、我々のモデルは、最先端のs2sフレームワークと比較して、偽の要約を80%も大幅に削減できることを示した。
また、事実記述の圧縮性のため、事実記述を使用することで、自動情報性評価の面でも大幅な改善が見られる。

** Fact Description Extraction

事実の説明の抽出**

我々の観察によれば、最先端のs2sモデルで生成された要約の30%は、述語とその主語または目的語との間の不一致などの事実の捏造に悩まされている。
そこで、既存の事実記述をモデルに明示的にエンコードすることを提案する。
この目的のために、Open Information Extraction (OpenIE)と依存性パーサの一般的なツールを利用しています。
OpenIEは、オープンドメインのテキストから実体関係を抽出することを指す。
OpenIEでは、事実は通常、(subject; predicate; object)からなる関係のトリプルとして解釈されます。
トリプル（すなわち、主語＋述語＋目的語）は、通常、簡潔な文として機能するので、すべての項目を結合します。
OpenIEの出力の例を表2に示します。
ご覧のように、OpenIEは、異なる粒度で同一の事実を反映するために複数のトリプルを抽出することがあります。
極端なケースでは、1つの関係で50以上のトリプルバリアントが得られることもありますが、これは高い冗長性をもたらし、モデルの計算コストに負担をかけています。
冗長性と事実の完全性のバランスをとるために、関係のトリプルのすべての単語が別の単語でカバーされている場合には、関係のトリプルを削除します。
例えば、表2の最後の事実記述(I saw cat sitting on desk)だけが予約されています。
異なる事実記述が最後に抽出される場合、符号化処理を高速化するために、特殊な区切り文字"|||"を用いてそれらを連結し、式2と式3で説明する。

OpenIEは、実体関係の完全な記述を与えることができる。
しかし、関係の三重項は必ずしも命令文から抽出できるとは限らないことに注意が必要です。
実際、我々のデータセットでは、OpenIEの出力の約15%が空のインスタンスです。
このような空のインスタンスは、我々のモデルのロバスト性を損なう可能性があります。
観察されるように、完全な関係トリプルは常に利用できるわけではありませんが、(主語；述語)または(述語；目的語)のタプルは各文の中にほぼ存在しています。
したがって、我々は依存性パーサーを利用して、事実の説明を補足するために適切なタプルを掘り出します。
依存性パーサーは、文をラベル付けされた（ガバメント、依存）タプルに変換します。nsubj, nsubjpass, csubj, csubjpass, dobjのラベルに従って、述語関連タプルを抽出する。
より完全な事実記述を得るために、形容詞（amod）、数詞（nummod）、名詞複合語（compound）などの重要な修飾語も予約しておく。
そして、同じ単語を含むタプルを結合し、元の文に基づいて単語を順番に並べ、事実記述を形成します。
図1の依存関係ツリーを例に考えてみましょう。
この文では、OpenIEの出力は空です。
依存関係パーサに基づいて、まず、以下の述語に関連するタプルをフィルタリングする。(price; opened) (open; tuesday) (dealer; said)と、修飾頭のタプルです。(Taiwan; price) (shirt; price) (lower; tuesday)。
これらのタプルは、その後、2つの事実記述を形成するためにマージされます：台湾の株価は低い火曜日を開いた｜｜｜｜ディーラーは言った。

実験では、人気のあるNLPパイプラインであるStanford CoreNLP (Manning et al. 2014)を採用し、OpenIEと依存性解析を同時に処理しています。
両方の部分から派生した事実記述を組み合わせ、通常は無意味で取るに足らない「someone said/declared/announced」というパターンの事実記述をスクリーンアウトしています。
表 3 のコピー率を見ると、事実記述の単語は、原文の単語よりも要約に使用される可能性が 40%高い。
これは、事実記述が本当に文章の意味を大きく凝縮していることを示している。
上記の統計は、依存性構文解析に基づく圧縮和集合の実践を支持するものでもある(Knight and Marcu 2002)。
しかし、抽出された事実記述の長さの和が実際の要約よりも短い文章が20%もあり、4%の文章では空の事実記述までもが含まれている。
また、表 3 から、事実記述の中には、平均して 1 つの重要な原文単語が欠落していることがわかる。
このように、原文がないと、事実記述だけでは、要約を生成するための回答ができないことがわかる。

** Fact Aware Neural Summarization Model Framework

ファクトアウェアニューラル要約モデルフレームワーク**

図 2 に示すように、我々のモデルは、2 つのエンコーダと文脈選択ゲートネットワークを備えたデュアルアテンションデコーダを含む 3 つのモジュールで構成されている。
文エンコーダーは入力語 x = (x1, - - - - xn) を読み取り、対応する表現 (hx1 , - - - - hxn ) を構築します。
同様に、関係エンコーダーは、事実記述 r = (r1,---rk) を隠れた状態 (hr1,---hrk) に変換する。
それぞれの注意メカニズムを用いて、我々のモデルは、各デコード時間ステップtで文と関係文脈ベクトル(cxt と crt )を計算する。
ゲートネットワークは、現在の世代との相対的な関連性に応じて文脈ベクトルをマージするために続いている。
デコーダは、原文と事実記述の両方のセマンティクスを内包するテーラード文脈ベクトルに基づいて、単語ごとにサマリー y = (y1 , - - - - yl ) を生成します。

**Experiment

実験**

Datasets データセット
我々は、(Rush, Chopra, and Weston 2015b)と同様に、Annotated English Gigawordコーパスを用いて実験を行う。
この並列コーパスは、ニュース記事の最初の文とその要約としての見出しをヒューリスティックなルールでペアリングして生成される。
学習データセットと開発データセットは、(Rush, Chopra, and Weston 2015b)によってリリースされたスクリプト1によって構築されている。
このスクリプトは、トークン化、小文字化、すべての桁文字を#に置き換える、出現回数が5回以下の単語をUNKタグでマスクするなど、さまざまな基本的なテキスト正規化も行っている。
その結果、学習セットとして約380万組の文と見出しのペア、開発セットとして189K組のペアが得られました。
(Rush, Chopra, and Weston 2015b)と同じGigawordテストセットを使用しています。
このテストセットには2000組の文頭行ペアが含まれている。
(Rush, Chopra, and Weston 2015a)に続いて、空のタイトルを持つペアを削除し、(Rush, Chopra, and Weston 2015b)と比較して精度が若干異なる。
Gigawordコーパスの統計量を表4に示す。

Evaluation Metric 評価指標
自動評価にはROUGE (Lin 2004)を採用している。
ROUGEは2004年からDUC共有タスクの標準的な評価指標となっている。
ROUGEは2004年からDUC共有タスクの標準的な評価指標として採用されており、要約候補と実際の要約との間で重複する語彙単位（unigram, bigram, longest common subence (LCS)など）を計算することで要約の質を測定する。
ROUGE-1(ユニグラム)、ROUGE-2(バイグラム)、ROUGE-L(LCS)のF1スコア2を報告する。
ROUGE-1、ROUGE-2は主に情報性を考慮しており、ROUGE-Lは可読性との関連を想定している。
また、生成された要約が原文の事実と一致しているかどうかを手動で検査する。
我々は、要約を3つのカテゴリーに分けてマークしている。FAITHFUL、FAKE、UNCLEARの3つのカテゴリーにマークを付けています。
最後のものは、生成されたサマリーがあまりにも不完全で、UNKタグを生成しただけのように、その忠実さを判断することができない場合を指します。

Implementation Details実装の詳細
データセットでは、頻度の低い単語はUNKタグで既にマスクされているので、残りの全ての単語は学習セットに保存しておく。
その結果、ソース・ボキャブラリーのサイズは120k、ターゲット・ボキャブラリーのサイズは69kとなる。(Nallapati et al. 2016)を参考に、我々は人気のあるs2sフレームワークdl4mt3を出発点として利用し、単語埋め込みのサイズを200に設定する。
我々は、GloVe (Pennington, Socher, and Manning 2014)を用いて単語埋め込みを初期化する。
GRUの隠された状態次元はすべて400に固定されている。
我々は確率p = 0.5でドロップアウト(Srivastava et al. 2014)を使用する。
デコーダでは、サマリーを生成するためにサイズ6のビームサーチを使用し、サマリーの最大長を20ワードに制限する。
全てのモデルからの平均的なシステム要約長(約8.0ワード)は、特別なチューニングを行わなくても、開発セットの基底真理値と非常によく一致していることがわかった。

Baselines ベースライン
提案モデルを以下の6つの最先端のベースラインと比較する。

ABS (Rush, Chopra, and Weston 2015a)は、文を要約するためにアテンションCNNエンコーダとNNLMデコーダを使用した。
ABS+ (Rush, Chopra, and Weston 2015a)では，ABSモデルを追加機能でさらにチューニングして，抑制的傾向と抽出的傾向のバランスをとるようにした．
RAS-Elman ABSモデルの拡張として，畳み込み注意ベースのエンコーダーとRNNデコーダーを使用した（Chopra et al.
Feats2s (Nallapati et al. 2016)は、完全なs2s RNNモデルを使用し、エンコーダ表現を強化するために、POSタグやNERなどの手作業による特徴を追加した。
Luong-NMT (Luong, Pham, and Manning 2015)は、各層に500個の隠れユニットを持つ2層LSTMsニューラル機械翻訳モデルを適用した。
att-s2s dl4mtで標準的な注目度のs2sを実装し、このベースラインを「att-s2s」と表記する。

Informativeness Evaluation 情報性の評価
まず、表5のトレーニング中の最終的なコスト値を見てみましょう。
我々のモデルは、最先端のシステムと比較して、最も低いペルプレキシシティを達成していることがわかります。
また、FTSumgがFTSumcを大きく上回っており、コンテキスト選択の重要性が証明されていることがわかります。
ROUGE の F1 スコアを表 6 に報告する。
我々のモデルは忠実度の向上に焦点を当てているが、ROUGEスコアも他の手法に比べてはるかに高くなっている。
なお、ABS+やFeats2sは一連の手作業による特徴を利用しているが、我々のモデルは完全にデータ駆動型であることに注意が必要である。
にもかかわらず、我々のモデルは ROUGE-2 で Feats2s を 13%、ABS+ を 56%も上回っています。
事実の記述を無視した場合、我々のモデルは標準的な注意力s2sモデルs2s+attと同等である。
したがって、事実記述がROUGEスコアの増加に大きく寄与していると結論づけてもよい。
その理由の一つは、表3に示すように、事実記述の方が原文よりも情報量が多いということである。
また、FTSumgがFTSumcよりも優れている理由も大きく説明できる。
FTSumcは原文と関係を平等に扱うのに対し、FTSumgは後ほど詳しく述べるように、事実記述の方が信頼性が高いことが多いことを物語っています。

Faithfulness Evaluation 誠実さの評価
次に、生成された要約の忠実性を検査するために、手動評価を行う。
特に、テストセットから100文を無作為に選択する。
そして、生成された要約をFAITHFUL, FAKE, UNCLEARに分類する。
完全な比較のために、我々のシステムFTSumgの結果を注目度s2sモデルs2s+attと合わせて示す。
表 7 に示すように、s2s-att の出力の約 30%が誤情報を与えている。
この数は、我々のモデルでは6%にまで大幅に減少する。
我々のモデルで生成された要約の90%近くが忠実であり、これは我々のモデルをはるかに実用的なものにしている。
s2s-attは、述語に近い単語をコピーし、それらを主語と目的語とみなす傾向があることがわかる。
しかし、これは必ずしも合理的ではなく、実際にはメッセージを偽造していることになります。
これに対して、事実記述は確かに述語とその主語・目的語との関係を指定している。
その結果、事実記述に沿った生成は、通常、忠実さを保つことができます。

不良出力の例を表８に示す。
このように、att-s2s は、原文中の異なる部分を融合して要約を形成しようとすることが多く、それらのフレーズが関連しているかどうかに関わらず、要約を形成しようとする。
例えば、ａｔｔ-ｓ２ｓは、例１では、"postponed "の主語として "bosnian moslems "を、"pull out of "の目的語として "bosnia "を扱っているが、これは、"bosnia "が "pull out of "の目的語であることを意味する。
契約により、事実記述が実際の主語と目的語を指摘しているので、我々のモデルの出力は忠実である。
実際には、対象となる要約と全く同じである。
例２では，att-s2s も我々のモデルも満足のいく性能を達成していない．
さらに詳しく見てみると、この文のターゲットサマリーはやや奇妙で、通常の主節ではなく前置詞句(after taking a ## stoke...)に焦点を当てています。
主節は要約が難しく、質の高い事実記述が抽出されていないため、完全な要約はできない。

また、複数の長い事実記述がある場合、我々のモデルの生成が1つの項目に引っかかることがあることも注目される。
例えば、例3には2つの長い事実記述があり、我々のモデルは最初のものだけを生成に利用している。
その結果、高い忠実度にもかかわらず、情報性がやや損なわれている。このような場合は、カバレッジ機構（See, Liu, and Manning 2017）を導入した方が信頼性が高いと思われる。
今後の研究課題として残しておく。

Gate Analysis ゲート解析
表 6 に示すように、FTSumg は FTSumc よりもはるかに高い ROUGE スコアを達成している。
次に、ゲートネットワーク（式9）が実際に何を学習するのかを調べる。
学習中の展開セット上のゲート値の変化を図３に示す。最初は平均ゲート値が0.5を超えており、元の文に偏っていることがわかる。
学習が進むにつれて、モデルは事実記述の方が信頼性が高いことを認識し、ゲート値が連続して低下していきます。
最終的に平均ゲート値は0.415と徐々に安定していきます。
興味深いことに、文と関係のゲート値の比、すなわち(1 - 0.415)/0.415≒1.41は、表3に示されたコピーの割合の比、すなわち0.17/0.12≒1.42に非常に近いです。
これは、我々のモデルがコピー比率を事前に定義し、それをゲート値として正規化していると思われます。
次に、ゲートの標準偏差を見てください。
驚くべきことに、その変化は平均値に対してほぼ反対称です。
最終的な標準偏差は、ゲートの平均値の約90%に達します。
このように、まだ多くの文章が生成を支配することができます。
この奇妙な観察は、開発セットの上位/下位100ゲート値の要約を注意深くチェックすることを促しています。
上位100件のうち10件の事実記述が空で、60%近くがUNKタグを含んでいることがわかりました。
我々のモデルでは、これらのファクト記述は生成のガイドにはあまり価値がないと考えている。
その代わり、下位100ケースには空のファクト記述はなく、UNKタグは1つだけである。したがって、これらの事実記述は通常、十分な情報を提供してくれる。また、ゲート値が最も低いインスタンスでは、以下のようなペア（ターゲットサマリー、ファクト記述）を持っていることが多いことがわかります。
ターゲット国の株価の終値/オープン #.
ファクトカントリーの株価は低迷/下落/上昇 #.
抽出された事実記述自体は、すでに適切な要約である。
だからこそ、ファクト記述は生成において特に好まれるのです。

Related Works 関連業務
抽象的文要約(Chopra et al. 2016)は、与えられた文の意味を保持しながら、より短いバージョンの文を生成することを目的としている。
文書レベルの要約とは異なり、このタスクでは一般的な抽出的手法を適用することは不可能である(例えば、(Cao et al. 2015a; 2015b))。
文章要約のための初期の研究には、ルールベースの手法（Zajic et al. 2007）、構文木の剪定（Knight and Marcu 2002）、および統計的機械翻訳技術（Banko, Mittal, and Witbrock 2000）が含まれていた。
最近では、エンコーダ-デコーダ構造の応用がこの分野で注目を集めている。
Rush, Chopra, and Weston 2015a）は、アテンション畳み込みニューラルネットワーク（CNN）エンコーダとニューラルネットワーク言語モデルデコーダからなるABSモデルを提案した。
(Chopra et al. 2016)は、デコーダをリカレントニューラルネットワーク(RNN)に置き換えることで作業を拡張した。
(Nallapati et al. 2016)はこの路線を踏襲し、完全なRNNベースのシーケンスツーシーケンス(s2s)フレームワークを開発した(Sutskever, Vinyals, and Le 2014)。
Gigawordテストセットでの実験（Rush, Chopra, and Weston 2015a）は、上記のモデルが最先端の性能を達成していることを示しています。
一般的なs2sフレームワークを直接適用することに加えて、研究者は、要約の様々な適切な関係をインポートすることを試みた。
例えば、(Nallapati et al. 2016)は、名前付きエンティティやPOSタグなどの手作業で作られた特徴でエンコーダを豊かにしました。
これらの特徴は、従来の特徴ベースの要約システムで重要な役割を果たしていた。(Gu et al. 2016)は、要約に含まれる単語の大部分が原文からコピーされていることを発見した。
そこで、彼らは生成時のコピー機構を考慮したCopyNetを提案した。
その後、(Cao et al. 2017)は、ニューラルアテンション内のコピー機構を直接測定することで、この研究を拡張した。
一方、彼らは、要約における書き換え動作を反映するようにデコーダを修正した。最近では、（See, Liu, and Manning 2017）は、繰り返しを抑止するためにカバレッジ機構を使用した。
また、評価指標に合わせて損失関数を修正する研究もあった。
例えば、(Ayana, Liu, and Sun 2016)は、生成されたサマリーのROUGEスコアを最大化するためにMinimum Risk Training戦略を適用した。
Paulus, Xiong, and Socher 2017）は、尤度とROUGEスコアの混合目的関数を最適化するために強化学習アルゴリズムを使用した。
注目すべきは、先行研究は通常、要約の情報性の改善に焦点を当てていたことです。
我々の知る限りでは、我々は抽象的な要約の忠実性問題を探求した最初の研究者である。

この記事が気に入ったらサポートをしてみませんか？