文章要約アルゴリズム「PEGASUS」について解説 (1/2)

2021年5月31日 09:03

最新の文章要約技術の一つであるPEGASUSと、文章要約の評価法ROUGEについての解説し、ビジネスでの実用性について考えてみます。

1. 最近の個人的テーマは「論文要約」

ファイマテクノロジー（以下、ファイマ）は「テクノロジーで働くヒトを助ける」というミッションのもと、論文翻訳AI 1paperを提供しています。ファイマは小さな会社ですので、Googleなどの大きなIT企業と比肩する技術を開発して世界を変える！といった大きなことは難しいですが、日本のエンジニアがスキルアップして、よりよい世の中にする力をもつエンジニアが一人でも増えることは良いことだなぁと思って、サービス改善に取り組んでいます。

私自身、自社の経営課題への対応、事務作業、DXコンサルティングの業務だけでほぼ一日が終わってしまいます。どうやって細切れの短い時間で効率的に、専門知識や最新の技術動向を獲得し続けるかはエンジニアにとって非常に重要なテーマです。

そこで、エンジニアの技術習得の時短を目的として、論文要約をテーマに掲げました。（安直ですねw）

2. 文章要約技術「PEGASUS」とは

今回はGoogleが2019年末に発表した文章要約の最新技術であるPEGASUSと、PEGASUSを実際に動かして得られた実証実験結果などについて、2回に分けて紹介していきたいと思います。

文章要約タスクはこれまでの自然言語技術のタスクの中でもかなり難しい部類に入るタスクです。この分野の最新技術がどのぐらいのレベルまで来ているのか、の肌感覚を掴んでもらえれば幸いです。

3. なぜPEGASUS？

一般的に最近のSOTA（State of The Art：ベンチマークとされる最先端の技術）は非常に大きな計算資源を必要とするものが多いです。文章要約タスクにおいて、PEGASUSよりも精度の高いアルゴリズムがいくつかでていますが、PEGASUSは「少ない学習データで高い精度が出せる（≒お金や設備がないエンジニアにフレンドリー）」ということで、社内のドメスティックなタスクでも実用化しやすいと思い、紹介します。

一番気になるポイントは、本当に論文を要約できるのか？？という点だと思いますが、PEGASUSがどのような技術なのかを紹介し、次に実験の結果を共有していきたいと思います。

ファイマのサービスである、論文翻訳AI 1paperで出力した、PEGASUSについての論文翻訳結果をベースに説明していきます。

4. 要約技術の動向

下図は文章要約技術の進歩の歴史を表しています（このページより引用）。論文要約タスクは一般的にROUGEスコアというもので評価されています。縦軸はROUGEスコアで横軸は技術の発表年月になっています。

5. ROUGEスコア“25.53”の意味するところ

ROUGEスコアは簡単に言うと、教師となる要約文との一致度合いの評価指標です。ROUGEスコアは、単語レベルで評価するか、言葉の並びのレベルまで見るのかといった違いでいくつか種類があるため、引用元の表中ではROUGE -1、ROUGE-2など、評価結果の数値が複数選択できます。
ROUGEスコアについて詳しく知りたいという方はこちらをご参照ください。

数字同士の相対的な評価はできても、実際にROUGEスコアの数値を見て、それがどのぐらいの精度なのか、ビジネスで使えるレベルに達しているのか…という視点ではイメージが湧かないと思いますので、PEGASUSの論文末尾の付録についている要約結果とその評価を見て、精度の肌感覚を掴んでみましょう。

【事例１】
・原文

Norah Boyle, 85, suffered a head injury as Sabrina Duncan and Benter Ouma put her to bed at The Green Nursing Home in Kings Norton. She died 23 days later. The workers delayed calling 999 and pretended Mrs Boyle knocked her head on the head board. They must do 160 hours’ unpaid work and pay 500 court costs each. The pair were not prosecuted for being responsible for the fall, but for being ”grossly negligent in their response”. Mrs Boyle died in hospital after developing pneumonia. In sentencing, judge Mark Wall said it was impossible to say whether reporting the incident any earlier would have made any difference to Mrs Boyle’s eventual death. Her daughter, Ellen Boyle, said: ”I’m appalled that that’s what they got for what happened to my mum. ”I’m appalled that my mother’s life is only worth 12 months of a community order.” Speaking after the court hearing Det Sgt Victoria Lee said the pair had delayed calling an ambulance while they came up with a cover story. ”While [Duncan and Ouma] plotted, Mrs Boyle laid in bed with a serious head injury, her head bleeding onto the pillow,” she said. ”Most of us have relatives who are frail, disabled or vulnerable we expect them to be cared for professionally and compassionately.” Duncan, 40, of Shartlands Close, Cotteridge, and Ouma, 31, of Summerfield Crescent, Edgbaston, had pleaded guilty at an earlier hearing at Birmingham Crown Court to neglect and ill-treatment.

・ROUGE算出評価に使用された正解要約文（ヒトが作成）

Two care workers who admitted neglect after a pensioner fell from a hoist at a Birmingham care home have been sentenced to 12-month community orders.
年金受給者がバーミンガムの介護施設でホイストから落ちた後に怠慢を認めた2人の介護福祉士は、12か月の地域社会命令を宣告されました。

・PEGASUSによる要約結果

Two care home workers who admitted covering up the death of a woman who fell in her bed have been given community orders.
ベッドに倒れた女性の死を隠蔽したことを認めた2人の介護福祉士が地域社会の命令を受けた。

・ROUGE2-F1 スコア

25.53

これを見てどう感じましたか？
私は、「要約文としては重要な言葉がちょっと抜けていたりするのは気になるけど、使い方を工夫すればビジネスで活用できるかもしれない」と思いました。
エンジニアとして突っ込んだ評価をするとすれば、「抽象要約（要約には「抽象要約」と「抽出要約」があり、抽象要約は文章の全体もしくは重要な文を表す文を新たに生成する手法。抽出要約は、要約対象の文章の中から重要と思われる文を抽出して要約する手法。）にしては文章のできが良いので、エンベッディング（文章を数値に変換すること）されたベクトルは文章の意味をある程度正しく反映できているんだろうな」と感じました。要するに、モデルの言語読解能力は高いと感じたということです。

2021年5月時点ののSOTAによれば、PEGASUSのROUGE2-F1スコアが21.47です。これに対して、事例1の要約に対するスコアは25.53と、PEGASUSの平均的な出力よりもちょっといい感じの出力と言えます。なお、ROUGEスコアは言葉の一致度合いで評価しているので、モデルが似た意味の別の言葉に言い換えていたら点数が下がる仕組みです。抽象型要約の評価指標としては厳し目だということも押さえておく必要がありそうです。

ちなみに以下の事例では、ROUGE2-F1スコアが80.00と、高得点が出ています。

【事例2】
・原文

Media playback is not supported on this device Craig Cathcart put the visitors ahead before substitute Simon Church won and scored an 89th-minute penalty. ”There were lots of positives out of it even if we’d have come off and lost 1-0. They had a good mentality and attitude,” said Coleman. Wales face another Euro 2016 warm-up game against Ukraine in Kiev on Monday. ”We look forward to our next challenge now,” added Coleman. ”The team will change up again, and we’ll see how they go again.” Striker Church, currently on loan at Scottish Premiership side Aberdeen from Reading, was delighted with his equaliser from the spot. ”Northern Ireland were a tough side to play against. They’ve obviously done well to get where they are and it was a tough game,” he said. ”We wanted to do well because it was the last time a Wales crowd would see us before the Euros and we wanted to put in a good performance. ”I’ve just got to keep going now and hopefully score some goals. This is a great squad to be part of.”

・ROUGE算出評価に使用された正解要約文（ヒトが作成）

Wales manager Chris Coleman said he was pleased with his team’s performance after they came from behind to draw 1-1 with Northern Ireland in Cardiff.
ウェールズのマネージャー、クリスコールマンは、カーディフで北アイルランドと劣勢から追いついて1対1で引き分けた後、チームのパフォーマンスに満足していると語った。

・PEGASUSによる要約結果

Wales manager Chris Coleman praised his side’s attitude after they came from behind to draw 1-1 with Northern Ireland in Cardiff.
ウェールズのマネージャー、クリスコールマンは、カーディフで北アイルランドと劣勢から追いついて1対1で引き分けた後、彼のチームの態度を称賛しました。

・ROUGE2-F1 スコア

80.00

最新AIの文章要約のレベルはこのぐらいかぁというのが少しでも掴めれば幸いです。

6. まとめ

PEGASUSによる要約（ROUGE2-F1 スコア＝25.53）は、ビジネスへの応用に希望が持てる結果であることがわかりました。
次回はPEGASUSの技術的なところに触れていきたいと思います。

※解説内容は専門技術、論文の表現の正しさよりも一般の人にもわかりやすい表現にしております。正確な内容は論文原文をご参照ください。

ーーー

〇ファイマテクノロジーの論文翻訳AI「1paper」の紹介記事はこちら

〇ファイマテクノロジーの事業紹介記事はこちら

〇ファイマテクノロジーの「想い」はこちら