見出し画像

Web・ソーシャルメディア関連の気になった論文ピックアップ (NLP2023編)

2023 年3月13~17 日に自然言語処理関連の国内会議である言語処理学会第 29 回年次大会(NLP2023)が開催されています(沖縄開催)。自然言語処理という分野は、いわゆる「人間が日常的に使っている自然言語(日本語など)をコンピュータに処理させる一連の技術」のことを指し、英語から日本語に翻訳する技術などの基礎となっている手法を研究していたりします。最近流行りのChatGPTも自然言語処理という分野で生まれた技術の1つです。

この自然言語処理技術は、私達が普段紹介しているWebやソーシャルメディア関連の論文や、計算社会科学分野においても重要な位置づけを占めるものとなっています。例えば、ソーシャルメディアでどのような投稿が多いのか、どういった感情表現(ポジティブ or ネガティブ)をしているのか、などを理解することは、ソーシャルメディア分析において重要ですが、これらも自然言語処理の手法に基づいているものなのです。

このような自然言語処理の研究成果について国内の研究者などが集まって発表する会議がNLP2023です。NLP2023ではありがたいことに、参加していなくても無料で予稿原稿(会議で発表される論文・原稿など)が読めるのです!そこで、今回は論文紹介や毎週のWeb・ソーシャルメディア関連のニュースを配信しているWSMRの特別編として、予稿原稿の中でもWeb・ソーシャルメディアや計算社会科学に関連している論文をいくつか紹介したいと思います。今回の紹介で、言語処理技術へ興味持ってくれたり、NLP2023の参加者が聴講する論文の参考になれば嬉しいですね。

[P1-12] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案

著者:欅惇志 (一橋大), 田中リベカ (お茶大)

BERTなどの大規模言語モデルは、Webなどに用いられる情報検索のシステムにも使われるようになってきました。一般的にこのような応用システムに大規模言語モデルを適用する場合は、fine-tuningと呼ばれる追加学習を行いドメインに適用させるのですが、検索はクエリと大規模文書を同時に処理する必要があるから、高コストな追加学習が必要になってくるのです。
そこで、この研究では、fine-tuningの前にクエリ–文書ペアの適切性を推定するタスクを行うtuning手法 (Query–Document Pair Prediction)を提案しています。これを行うことで、検索性能が向上するそうです。この研究のように、Webの検索技術には自然言語処理が重要な役割を担っています。

[D2-2] 権利侵害と不快さの間:日本語人権侵害表現データセット

著者:久田祥平, 若宮翔子, 荒牧英治 (NAIST)

誹謗中傷はSNSや掲示板における大きな社会問題の1つです。このような問題に対して、既存研究では主観的な評価で誹謗中傷かどうかを判断して機械学習などで検出してきました。一方で、誹謗中傷を人権侵害の法律の問題として捉えることも、複雑な言語行為である誹謗中傷において重要です。
そこで、著者らは、民事事件の発信者情報開示請求事件と損害賠償等請求事件のデータをもとに、各事件に対応したネットの投稿がどのような権利侵害が行われたかについてアノテーションしたデータセットを公開したのです。
このような研究は、誹謗中傷という曖昧なものに対して明確な輪郭を提供するものであり、法律の枠組みを取り入れることは今後も重要になってきそうです。

[H2-5] 人間同士の雑談における話題遷移モデリング

著者:岸波洋介 (東北大), 赤間怜奈 (東北大/理研), 佐藤志貴, 徳久良子 (東北大), 鈴木潤, 乾健太郎 (東北大/理研)

ChatGPTの登場などによって対話システムに対する注目が高まっています。対話システムは相手の質問に対し適切に返答するだけでなく、能動的に対話を主導する、自然に話題を遷移させることが、自然な対話システムの構築において有用です。これまで単語分散表現や知識グラフを用いた話題遷移モデルが開発されてきましたが、これらは本当に人間同士の話題遷移を模倣したものでしょうか?著者らは、この問いについて、与えられた話題遷移が人が実際に対話でおこなう自然な話題遷移であるかどうかを判定する二値分類タスクを設計することで取り組みました。その結果、各手法でのみ表現できる話題遷移が存在することがわかりました。この結果は、既存手法の改善の手がかりとなりそうです。ちなみに、この研究はWebやソーシャルメディアとあまり関係ないですが、好きだったので紹介しました。

[D4-1] 日本語有害表現スキーマの提案と評価

著者:小林滉河, 山崎天, 吉川克正, 牧田光晴, 中町礼文 (LINE), 佐藤京也 (LINE/都立大), 浅原正幸 (国語研), 佐藤敏紀 (LINE)

言語モデルや対話システムが一般的に利用されるようになっていますが、このようなモデルによって生成されるテキストは逐一チェックされないことから、ヘイトスピーチや嫌がらせなどの有害な文章を生成するリスクが常に存在します。このような問題に対処するために、著者らは有害表現を詳細に分類できる有害表現スキーマを提案し、日本語のデータセットを構築しているのです。このようなリソースやスキーマ作成はWeb上のシステム構築において重要な役割を担っています。

[C5-5] 事実検証モデルのためのラウンドトリップ翻訳を利用した疑似フェイクデータ生成

著者:小林龍斗, 秋葉友良 (豊橋技科大)

フェイクニュースは大きな社会問題の1つになっており、機械学習などの手法によって自動的にフェイクニュースを抽出することが積極的に取り組まれています。しかしながら、社会に存在するフェイクニュースは限りがあるため、データ不足などの問題は否めません。そこで著者らは、正しい文章に操作することで自動的にフェイクのデータを作成する手法を提案しています。具体的には、ラウンドトリップ翻訳を介する、つまり、元の正しい文章を英語に翻訳し操作したあとに、元の日本語に戻すという処理を施すものです。これによって、データの量が増え、フェイク検出の性能が向上するそうです。

[Q7-3] 災害ツイートを対象とした場所参照表現の抽出における過去事例の利用とその災害種が及ぼす影響調査

著者:六瀬聡宏, 内田理 (東海大)

大規模災害時の被害を最小限に抑えるためには,迅速かつ的確な情報の収集と伝達が重要であり、この観点からTwitterでの情報収集は注目されています。しかしながら、Twitterでは大量の情報が一気に流れてくることから、そこから有用な情報を抽出することは難しいです。このような大量のツイートから、「どの場所について言及しているのか」について特定することは災害対応において必要となります。そこで、著者らは過去の災害時に流れてきた投稿を学習データとして用いた固有表現認識(NER)を活用し、ツイートの中に含まれた場所情報の抽出に取り組みます。通常は、機械学習モデルには教師データの作成が必要であることから、突然生じる災害に適用することは難しいですが、彼らは過去の災害情報を用いることでこの課題に対処しようとしています。

[A10-1] 日本語の大規模Twitterデータからみる新型コロナワクチン接種に関する人々の関心の推移

著者:武富有香, 須田永遠 (NII), 中山悠理 (東大), 宇野毅明 (NII), 橋本隆子 (千葉商科大), 豊田正史, 吉永直樹, 喜連川優 (東大), Luis E C Rocha (ゲント大), 小林亮太 (東大)

新型コロナワクチン接種は、安全性・有効性に対する不安や接種に関する政策への不満など多くの話題をもたらしてきました。実際、国民はコロナワクチンに対してどのように関心が推移していったのでしょうか?著者らは大規模な新型コロナワクチンに関するツイートデータに対してトピックモデルを適用することで、関心の推移について分析しました。彼らは中断時系列分析というイベント前後の変化を捉える手法を用いることで、2021年6月の職域接種の開始を堺に、ワクチンの社会的トピックの投稿が減少し、個人的な投稿が増加したことを明らかにしたのです。自然言語処理技術を用いて社会の状況を分析した重要な研究となっています。

[A10-3] 誰に向けた発言か?:ツイートの指向性推定

著者:清基英則, 劉康明, 矢田竣太郎, 若宮翔子, 荒牧英治 (NAIST)

SNSの利用人口が増えつづけていることからも、SNSの情報発信の重要性は増す一方です。特に健康情報などは情報発信は慎重に行い、届けたい人にしっかりと届けるように工夫する必要があります。そこで著者らは、ツイートがどの対象(年代や性別など)に向けて発信されているか,この発信者が想定する受信者像(ここでは「指向性」)について推定するというタスクを提案しています。実際存在する社会問題から、新たなタスクを提案しており、コミュニケーションを情報発信において「指向性」という新たな観点を提供してくれる研究となってます。

[D10-1] 議会会議録と予算表を紐づけるMinutes-to-Budget Linkingタスクの提案

著者:木村泰知, 梶縁 (小樽商大), 乙武北斗 (福岡大), 門脇一真 (日本総研), 佐々木稔 (茨大), 小林暁雄 (農研機構)

議会議事録は長く複雑であるものの、政治について理解したり、市民が予算をどのように扱っているのかを理解する上で重要です。著者らは、議会会議録マイニングの新たな取組みとして、議会における予算審議の発言と予算表の関連項目を紐づけるMBLink (Minutes-to-Budget Linking)タスクを提案しています。これは、予算表の中の項目が、どのような理由や根拠で決定されたのかを理解するうえで重要なタスクとなっています。彼らのタスクはNTCIR-17と呼ばれる情報検索の評価ワークショップにおけるタスクの1つとなっています。

[D10-3] 株式市場の出来事の長期的視野での理解を支援するニュース記事抽出によるストーリー可視化

著者:木下聖, 西村太一, 亀甲博貴, 森信介 (京大)

投資家が投資で成功するためには「歴史から学ぶ」ことが重要と言われています。しかしながら、投資家の主な情報源であるニュースは日々大量に配信されていくため、そこから過去のニュースを活用したりするのは大変です。そこで、著者らはとある出来事の流れを記述したニュースストーリーを可視化することを提案しています。具体的には、ニュースストーリーの可視化のために必要なステップを分割タスク、株式市場における重要度の高い株価材料を自動的に抽出、類似の株価材料を検索、最後に関連の記事を検索することで得られたニュースを時間の流れで可視化するといったものです。
彼らは株式市場というドメインで本提案を行っていますが、実際の長いイベントのニュース記事(COVID-19など)を扱う上でも活用できそうなものです。

[B11-1] 場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察

著者:久本空海, 西尾悟, 井口奏大, 古川泰人 (MIERUNE), 大友寛之 (NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研)

最近はあまり見かけませんが、ツイートには位置情報も付与ができ、こぞってユーザがFoursquareなどで「ここに行ったよ」と報告していた時代があったのです。このように即時性のあるツイートから位置情報を推定することは、人流や社会の状況を理解するうえで有用な情報源となっています。著者らの研究は、このようなツイートの位置情報推定に役に立つ1本となっています。彼らは、「ジオコーディング」と呼ばれる、住所や施設名といった間接的に位置を表す「場所参照表現」と、緯度経度のように直接的な「位置情報」を紐付ける処理のタスクを概観し、現状の課題と、更なる発展について議論しているのです。今後の位置情報推定のタスクにおいて参照できる1本となっていそうです。


この記事が気に入ったらサポートをしてみませんか?