論文査読や論文の質の向上プロセスにおけるAIの活用とプロンプトについて

2023年10月23日 11:33

査読の業務効率化はAIで図れるか？

英語で論文を書くのも大変なのですが、英語論文を査読するのも大変なのです。
依頼がいきなり飛んできて、納期が短く、自分の専門からは離れたテーマで、しかも数十ページ、査読しても自分の評価向上にはそれほど役立たず、でもコミュニティには貢献する必要があります。

AIを用いて査読ができれば、業務効率化に直結することは間違いない！
今までの業務効率化は、情報システムを組織に導入することや、Excel関数、Gasを使って他のサービスとの連携など、主にルーティンワークを楽にする方法が主流でした。

スタンフォード大学がAIを用いて査読する方法について、専門家（人間）の査読との比較検証を行ったとの記事がありました。

上記の記事を引用しつつ、AI査読のプロセスとプロンプトを備忘録としたいと思います。

LLMを用いて科学的フィードバックを生成する

まず米OpenAIの「GPT-4」を用いて、科学論文のPDFに対するフィードバックを生成するための自動化パイプラインを構築した。このシステムは、初めにPDFを解析し、GPT-4用の特定のプロンプトを作成する。このプロンプトは、設計した指示に従い、論文のタイトルやアブストラクト、図や表のキャプション、その他の主要テキストを組み合わせて生成される。

　このプロンプトをGPT-4に供給することで、科学的なフィードバックを生成できる。このフィードバックには、研究の重要性や新規性、受け入れるための理由、拒否するための理由、改善の提案などが含まれている。

どうやら、AI査読のプロセスは以下の通りである。
①　PDFを用意してChatGPTで要約
②　PDFを解析→指示を設計（タイトル、アブストラクト、図や表のキャプション、方法論。。。などその他の腫瘍テキストを解析するための指示）
③　ChatGPT用プロンプト作成→プロンプト投入
④　アウトプットとしてフィードバック（例：研究の重要性や新規性・受け入れるための理由・拒否するための理由・改善の提案など）

論文中の図に記載されたプロンプトは以下のようである。適宜変更して実験してみようと思う。

Your task is to draft a high-quality review outline for a top-tier Machine Learning (ML) conference for a submission titled “Mind the Gap;”:
Abstract: We present modality gap, an intriguing geometric phenomenon

Figures/Tables Captions
Figure1:
….

Introduction:
Multi-modal models map inputs from…

=====
Your task:
Compose a high quality peer review of an ML paper submitted to a top-tier ML conference on Open Review.
Start by “Review outline.”.
And then: “1. Significance and novelty”
“2. Potential reasons for acceptance”
“3. Potential reasons for rejection”
List multiple key reasons. For each key reason, use
**.=2 sub bullet points** to further clarify and support your arguments in painstaking details. Be as specific and detailed as possible.
**4. Suggestions for improvement”,
List multiple key suggestions. Be as specific and detailed as possible.
Be thoughtful and constructive. Write Outlines only.

GPT-4で生成したフィードバックの評価

スタンフォード大の研究では、LLMと人間の査読者のフィードバックの重複を評価するためのコメントマッチングパイプラインを開発した。
提出された論文に対する人間のフィードバックとして、分野の違う２つの大規模データベースを作成し、内容の重複をチェックしている。

　第1のデータセット：Nature系列のジャーナルから取得。3096の受理された論文に関する人間の査読者からの8745のコメントを含む。
「Nature」「Nature Biomedical」「 Engineering、Nature Human Behaviour」「Nature Communications」などの15のNature系列のジャーナルが含まれる。

　第2のデータセット：コンピュータサイエンスの人工知能研究の主要な会議であるICLRから1709の論文に関する人間の査読者からの6505のコメントを含んでいる。（査読を通らなかった論文のコメントを含む）

調査の結果、LLMによる査読は、人間の査読とほぼ同等であると示された。
特に、査読を通らなかったものほどフィードバックの重複は大きい。
これは、拒否された論文の修正が大きいほど、人間とLLM双方が一貫して特定できる明確な問題点や欠点が多いことを示す。

　Nature系列のジャーナルにおけるフィードバックの結果、GPT-4が提供したコメントの57.55％は、全体の査読者の中で少なくとも1人の人間の査読者が記載していた。これは、GPT-4が人間の査読者と類似したフィードバックを提供していることを示している。
　さらに、GPT-4のコメントと特定の1人の査読者のコメントの重複を調べたところ、約30.85％一致していた。興味深いことに、2人の人間の査読者間でのコメントの重複率も28.58％と、これと近い数値であった。すなわち、GPT-4のフィードバックと人間の査読者のフィードバック間の共通点は、2人の人間の査読者間の共通点とほぼ同等であることを示した。

「GPT-4」は論文の査読ができるか？　米スタンフォード大らが検証　参加者の80％以上「AI査読は有益」：Innovative Tech（1/2 ページ） - ITmedia NEWS

査読におけるAIの利用

上記の結果は、AIを査読で利用する場合、以下の利用法が考えられる。
１）査読を依頼された際の下読み段階での大きな欠陥の指摘
細かい点は人の目で読む必要があるが、領域違いの論文の査読を依頼された場合などの、初期における大きな欠陥の指摘には業務の効率性が図れる。
２）投稿前にAIを用いてフィードバックを得ることは、研究者自身が論文の質の向上を図る上で有用であろう。

参考文献：
現論文はコチラ
Can large language models provide useful feedback on research papers? A large-scale empirical analysis
Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou
https://doi.org/10.48550/arXiv.2310.01783
2023年10月３日公開のホヤホヤ論文。
Cornell大学のリポジトリーに入っていました。著者を見るとほとんどが中国系の名前。。。。

リポジトリー　ChatGPTと相談しながら理解していこうと思います。

追伸：
ChatGPTに査読結果の修正におけるChatGPTの活用法について聞いたところ、幾つかのアイデアと共に下記の記述が。
ときには、これが一番重要、かもしれない。
そういえば初期のプロンプト生成に関するネット記事にも（最近もやっているヒトも多いかもしれない？）「やさしく教えてください」とか、「柔らかい表現で教えてください」とかが＃アウトプットに入っていました。

モチベーションの維持
査読結果が厳しい場合、モチベーションが下がることもあります。ChatGPTに励ましの言葉を求めたり、心の中を吐き出すことで、精神的なサポートを得られるかもしれません。

ChatGPT4より引用

そしてデジタル修行は続く。。。

この記事が気に入ったらサポートをしてみませんか？