医学英語論文作成におけるChatGPTの参考文献捏造問題をどうにかする(Elicit/Perplexity/Consensusの比較)
ChatGPT に論文作成のサポートをしてもらうと実在しない参考文献を捏造してくるhallucinationの問題があります。この問題を解決するために3つの大規模言語モデルと検索エンジンを併用したサービスを用いてみます。
3つのサービスとはElicit, Perplexity, Consensになります。
まず結論
元々Pubmedで探し出すべき文献を十分な本数見つけられる方はこれらのサービスを使う必要性はあまりありません。
Elicitがこの3つの中だと目的の論文を探すという用途においては一番良さそうです。
Perplexityは思いついたクリニカルクスチョンに対する先行研究や既存の知見をすぐに確認した場合に良いと思います。
1については若手の先生は意外とできていないことが多いのでこのようなサービスを利用する意味があると思います。これらのサービスはセマンティック検索という技術を使っているので検索ワードがドンピシャでなくても目的の論文を探し出してきてくれます。
1日程度しか触っていないのであくまでファーストインプレッションということでお願いします。
Elicit
Elicitは、機械学習を使用して研究を支援するサービスであり、論文の検索、重要な主張の抽出、要約、アイデアのブレインストーミングなどが可能です。
論文タイトルと雑誌名、研究デザイン(RCT、レビューなど)、被引用数、DOI(zoteroに入れられるので便利)、一言要約を出してくれます。
他にも左下に表示されているオプションでintervention, outcomes measured, number of participantsを表示させることも可能です。
右上の表示は上位4つに表示されている論文のサマリーを書いてくれるので不要な論文はゴミ箱マークで削除して、必要な論文のサマリーを上4つに表示させることで、そのサマリーを使って自分の主張をサポートする形で引用するのもありだと思います。
良い論文を見つけた場合は星マークをつけるとそれに類似した論文をお勧めしてくれます。
論文をクリックして開くと以下のように論文の詳細、研究の弱点、他の論文にどのように引用されているかなども含めて提示してくれます。また論文の内容に質問もできます。
メリット
目的の文献にPubmedより早く辿りつける
一言要約で検索効率が上がる
レビューやガイドラインの取っ掛りに良さそう
右上のTasksにパラフレーズ機能、Say more(GPTの文章補完)機能あり
デメリット
一言要約が必ずしも論文の主張と完璧に合致していない(要約が質問に応じて変化するとも書いてありましたが確認出来ませんでした)
Citation数は最新でない
Pubmedに既に掲載されているpublish ahead of printが引っかからない
論文詳細のところの引用されている文章が違う文献からの事がある
論文へ質問が抄録ベースなので浅いことしか聞けず物足りない(オープンアクセスの論文だと違うかもしれません)
Perplexity
Perplexity.aiは、大規模な言語モデルと検索エンジンを使用して複雑な質問に正確な回答を提供する回答エンジンです。ChatGPT と同様に対話型の検索が行えます。Twitter上のデータをサマリー化する機能も利用可能です。
こちらは参考文献つきの文章で回答を出してくれます。引用されている文献が適切であれば,この文章自体を自分の主張をサポートする形で引用するのもありだと思います。回答の下に論文へのリンクが表示されています。
メリット
文章の形で回答が出てくるので理解しやすい(ただ回答が参考文献に引っ張られるので賛否両論ある議論の場合は精査必要)
追加で絞り込みの質問ができる(でも専門的な質問だと上と同様な回答に終始しがち)
デメリット
参考文献の論文は当該分野の重要論文というよりは新しい論文が引っかかってくる(解決策としてはPubmed にperplexityで見つけた論文を入れて”Similar articles”で似た論文を漁ってください。もしくはconnected papers使って下さい)
Elicitと同様で恐らくPubmedに既に掲載されているpublish ahead of printが引っかからないです
参考文献の半分くらいは内容がかすっているだけのイマイチな論文です(内容を精査する必要あり)
Consensus
質問のキーワード検索に基づいて関連する論文のデータベースから検索し、関連論文から、Consensusモデルが結論を述べる文章を論文から抽出し提示してくれます。(PhD持ちの人によってアノテーションされた数万点の論文で訓練されたそうです)。
こちらの回答はクエリに対する論文中の回答に相当する1文が表示されます。雑誌の評価も表示されます。
メリット
入力した質問に対するそれぞれの論文の回答に相当する1文が知りたい場合にはconsensusが一番かもしれません
デメリット
好みもあると思いますがリストに論文のタイトルがまず出てこない時点で検索性が悪く、回答の文章が並んでいても見にくい印象があります(私の慣れの問題かもしれません)
少しマイナーな疾患だと適切でない論文が提示されることが多いです
終わりに
それぞれまたリリースされたばかりのサービスですので、それぞれ今後改良されてもっと使いやすくなる可能性があります。参考文献で主要な論文の引用漏れがないかどうかはConnected papersなどで確認するとよいでしょう。
ChatGPT は参考文献を引用するイントロや考察の部分は今ひとつですが他の部分はかなり上手に英語論文を書いてくれます。論文のドラフトを全部ChatGPTに作成をしてもらいたい場合はこちらを参照ください(すみませんが有料記事です)
参考資料