EMNLP 2023に参加した話

2023年12月20日 11:20

はじめに

こんにちは。メディア研究開発センターの川畑です。普段は自然言語処理に関する研究開発業務を行っています。
先日シンガポールにて開催された EMNLP 2023 (自然言語処理分野の主要国際会議の一つです) に論文が採択されたので現地参加してきました。
今回の記事では現地の様子や面白そうな論文、採択論文の紹介をしていきます。

数字で見るEMNLP 2023

投稿件数は明確に数字では書かれていませんでしたが、昨年と比べて1,000件弱増加していたようです。昨年の EMNLP の投稿件数が4,000件強だったので大きな増加ですね。
本会議採択率についてはロングペーパーで23.3 %、ショートペーパーで14%の総計21.3%だったようです。
EMNLP や ACL のような国際会議には本会議に通らずとも Findings という枠組みで採択する仕組みがありますが、EMNLP 2023 では Findings まで含めると採択率は42.9%でした。
トラック別の投稿件数としては NLP Application が最も多く、次いで Theme Track: Large Language Model、 Resource and Evaluation が多いという結果になっていました。新しいテーマトラックにも関わらずこれだけの投稿数が集まっているところに LLM への注目度の高さが窺えますね。

現地の様子

さて、ここからは現地会場の様子をお届けします。リアル開催だからこその熱気や盛り上がりを余すことなくお伝えします！

と、思っていたのですが、実はアクシデントが発生してしまいました….。
シンガポール、高温多湿、屋台飯、お腹が弱い私…
そう、食中毒になってしまったのです！！
頭痛、発熱、下痢嘔吐…
シンガポールに来て、まさか自分がマーライオンのようになってしまうなんて思いもしませんでした。ウーンウーンとうなされながらなんとか食中毒から回復した時には、EMNLPは残すところあと一日でした。OMG。

まともに参加できたのは最終日だけだったのでほとんど書けることはないのですが、それで終わりだとあまりにも寂しいので今回 EMNLP 2023 に採択された私の論文 (NIIの菅原朔先生との共著) と他に見つけた面白い論文を紹介します。

論文紹介

Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension

拙著です。
この論文では、論理的な推論を要する読解問題における根拠理解能力の評価に焦点を当てています。ここで対象にしている論理的な推論を要する読解問題とは、さらに詳細な内包的な定義を与えることは難しいですが、以下のような、問題文の議論構造を (論理的に) 読み解く必要のある問題とお考えください。

このような問題に答えるためにはしばしば問題文には明示されていない推論の理解が重要になります。しかし、あるデータセットを解くために特定の推論能力 (この場合は暗黙的な根拠の理解) が要請されていたとしても、言語処理モデルが素直にそのような能力を行使してくれるとは限りません。例えば、ショートカット推論の問題などはその典型例でしょう。

Context:
In jurisdictions where use of headlights is optional when visibility is good, drivers who use headlights at all times are less likely to be involved in a collision than are drivers who use headlights only when visibility is poor. Yet Highway Safety Department records show that making use of headlights mandatory at all times does nothing to reduce the overall number of collisions.
Question:
Which one of the following, if true, most helps to resolve the apparent discrepancy in the information above?
Options:
A. In jurisdictions where use of headlights is optional when visibility is good, one driver in four uses headlights for daytime driving in good weather.
B. Only very careful drivers use headlights when their use is not legally required.
C. The jurisdictions where use of headlights is mandatory at all times are those where daytime visibility is frequently poor.
D. A law making use of headlights mandatory at all times is not especially difficult to enforce.
Answer: B

ReClor (Yu+ 2020) より

そこで、この論文ではそうした読解問題に暗黙的に前提されている根拠の解答能力を評価するデータセットを作成しました。具体的には既存の読解問題データセット (ReClor) の各選択肢について、その選択肢が正解である根拠、不正解である根拠を ReClor と同じ多肢選択式問題として作成することで、その選択肢の正誤根拠の理解の程度を問う問題を作りました。例えば、上記の問題例の正解選択肢の根拠を問う問題は以下のようになります。

Context:
In jurisdictions where use of headlights is optional when visibility is good, drivers who use headlights at all times are less likely to be involved in a collision than are drivers who use headlights only when visibility is poor. Yet Highway Safety Department records show that making use of headlights mandatory at all times does nothing to reduce the overall number of collisions.
Question:
How does the fact that only very careful drivers use headlights when their use is not legally required help to resolve the apparent discrepancy in the information above?
Options:
A. This would explain both phenomenons. If a driver who is safe is more likely to use headlights all the time then it would not matter if they use them or not, they are just a better driver.
B. The passage mentions nothing about the percentage of people that use headlights during the day when the weather is good.
C. The level of enforcement was not mentioned and it has to be assumed that people would abide by this rule if no other info is given.
D. None of the above choices.
Answer: A

このような問題を作ってモデル (InstructGPT, llama2, etc…) を評価した結果、モデルは正解選択肢の根拠には人間とほぼ同程度で正解できたものの、不正解選択肢の根拠を問う問題には人間と大きな開きがある結果となりました。
この結果を少し一般化して考えてみると、モデルはある状況 (e.g. 問題文と質問文) に対して収まりのいい仮説 (e.g. 正解選択肢) を肯定することには秀でているが、収まりの悪い仮説 (e.g. 不正解選択肢) を排除することは苦手である、と考えられるかもしれません。このように考えてみると、今回の結果は Perez+ 2022 や Wei+ 2023 で取り上げられていた sycophancy (客観的に間違っている人間の答えに追従してしまう振る舞い) と共通する LLM の「クセ」のようなものに思えます。

Establishing Trustworthiness: Rethinking Tasks and Model Evaluation

モデルの評価方法に関するポジションペーパーです。
この論文ではモデル評価の構成要素について整理したのち、評価方法の信頼性確保のために行うべき複数の施策を紹介しています。
LLMの性能の高さとその柔軟性ゆえにさまざまな評価タスクが開発されている昨今だからこそ読んでおきたい論文です。

特に個人的には "Explain Skills Required versus Skills Employed." という箇所が重要と感じました。そのデータセットを解くために必要とされているスキルと解くために用いられたスキルを説明せよ、という趣旨の内容です。流石にちゃんと説明するとなるとかなり骨の折れる作業になりそうですが、そこまではしなくとも、データセットを解くのに求められる (と作成者が想定している) スキルと実際に解答モデルが行使するスキルが一致すると考えるのはナイーブな想定である、と肝に銘じておくのは、2つのスキルがなるべく重なるような (つまり測りたいものが測れているような) 良いデータセットをデザインするのに重要な観点かもしれません。

おわりに

今回のEMNLP参加は途中の闇の期間のおかげでほろ苦酸っぱい思い出になりつつありますが、体調が回復してからは他の参加者と交流したり、ポスター発表にもそこそこ人が集まってくれて良い反省と経験の場になりました。

(メディア研究開発センター・川畑輝)