Capabilities of GPT-4 on Medical Challenge Problems

2024年6月18日 13:07

https://arxiv.org/pdf/2303.13375.pdf
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

Question 1: 論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

4.1節の結果について、複数のモデルがMultiMedQAの選択問題部分でどのようにパフォーマンスを示したかを表5にまとめています。ここで、GPT-4がGPT-3.5やFlan-PaLM 540Bを全てのデータセットで上回っていることが示されていますが、PubMedQAにおいては例外です。GPT-4とGPT-3.5はゼロショットの直接プロンプトで提示されました。

具体的なデータセットとそのスコアは以下の通りです（5ショット/0ショット）：

MedQA（中国本土）：GPT-4-base 78.63 / 74.34、GPT-4 75.31 / 71.07、GPT-3.5 44.89 / 40.31
MedQA（台湾）：GPT-4-base 87.47 / 85.14、GPT-4 84.57 / 82.17、GPT-3.5 53.72 / 50.60
USMLE（5選択肢）：GPT-4-base 82.25 / 81.38、GPT-4 78.63 / 74.71、GPT-3.5 47.05 / 44.62
USMLE（4選択肢）：GPT-4-base 86.10 / 84.45、GPT-4 81.38 / 78.87、GPT-3.5 53.57 / 50.82、Flan-PaLM 540B 60.3
PubMedQA（Reasoning Required）：GPT-4-base 77.40 / 80.40、GPT-4 74.40 / 75.20、GPT-3.5 60.20 / 71.60、Flan-PaLM 540B 79.0
その他、MedMCQAやMMLUのデータセットにおけるサブコンポーネントのパフォーマンスも報告されています。

MedQAとMMLUのデータセットでは、異なるサブコンポーネントにわたって層別化されたパフォーマンス指標を報告しています。MedQAベンチマークには、中国本土および台湾の試験問題が含まれており、英語、簡体字中国語、繁体字中国語の3言語をカバーしています。英語/アメリカ版のデータセットには、5つの選択肢がある標準バージョンと、4つの選択肢のみを持つ簡易バージョンの2つのバリアントがあります。すべてのモデルに対して両バリアントの結果を報告しています。以前の観察と同様に、GPT-4は非英語言語で提示された難しい質問に対しても良好なパフォーマンスを維持していることが見られます（表5）。

さらに、InstructGPTとCodex（OpenAI API内のtext-davinci-002およびcode-davinci-002）が、MedQA、PubMedQA、MedMCQAにおいて様々なプロンプトでテストされた結果も[LHW22]で報告されています。ゼロショットの直接プロンプトを使用した場合、InstructGPTはMedQAで46.0、PubMedQAで73.2、MedMCQAで44.0のスコアを記録しました。[LHW22]からの最高の結果は、100個の思考の連鎖サンプルのアンサンブルをテストしたCodexで、USMLEコンポーネントのMedQAで60.2、MedMCQAの開発セットで59.7、PubMedQAで78.2のスコアを記録しています。これに対して、GPT-4はこれらのスコアを上回る結果を示しています。

3.1節では、GPT-4が前モデルと比べて公式のUSMLE試験問題において顕著な改善を見せていること、特にGPT-3.5と比較して30パーセンテージポイント以上の改善が見られることが示されています。また、GPT-3.5を最適化したチャットベースのインタラクション用の人気モデルであるChatGPTとの比較でも同様に大幅な改善が見られます。Med-PaLMやFlan-PaLM 540Bは現在一般には公開されていないため、これらの特定のデータセットにおけるパフォーマンスは報告できませんが、PaLMモデルファミリーに関する以前に報告された結果との比較はセクション4で利用可能です。

USMLEのウェブサイトによると、特定の合格閾値は毎年異なりますが、受験者は多肢選択問題の約60パーセントに正解する必要があります。GPT-3.5のような初期のモデルは合格閾値に近づいていましたが、GPT-4はこのバーを大きくクリアしています。

表1と表2では、USMLE自己評価とUSMLEサンプル試験におけるモデルのパフォーマンスを比較しています。GPT-4はGPT-3.5を大きく上回っており、独立して報告されたChatGPTのスコアも上回っています。

付録Aでは、使用されたデータセットの説明があります。これにはUSMLE自己評価、USMLEサンプル試験、MedQAなどが含まれています。

2.2節では、複数選択問題へのプロンプトテンプレートについて説明されており、ベースラインモデルのパフォーマンスを確立し、公平な比較を行うために、[SAT+22]とまったく同じプロンプト構造を使用しています。ゼロショット設定では、few_shot_examplesスロットは単純に空白のままになります。同様に、各質問に追加のコンテキストを提供しないデータセットの場合、contextスロットも空白のままになります。ChatGPTやGPT-4のようにチャットベースのシナリオに最適化されたモデルの場合、会話をシミュレートするためにこのテンプレートにわずかな変更を加えます。few-shotバージョンとチャットベースのバージョンのプロンプトの例は、付録Cで提示されています。

このプロンプト構造を使用することで、最小限のコンテキストトークンを使用し、各推論に対して単一生成トークンでより効率的にベンチマークを行うことができます。さらに、OpenAIのAPIのlogit_biasパラメーターを利用して、モデルに有効な回答のみを生成するよう誘導します。例えば、A、B、C、Dの4つの選択肢がある質問に対して、次のように渡します：

logit_bias = {32: 25, 33: 25, 34: 25, 35: 25}
openai.completion.create(..., logit_bias=logit_bias, ...)

ここで、32-35はそれぞれの文字A-Dに対応するトークンです。

Question 2: 論文の内容を、背景、新規性、方法などに分けて、その分野の専門家向けに詳しく説明してください。

この論文では、医療分野における多肢選択式の質問応答タスク「MultiMedQA」における、異なるモデルのパフォーマンスについて報告しています。具体的には、GPT-4、GPT-3.5、Flan-PaLM 540Bなどのモデルを比較し、GPT-4がほとんどのデータセットで他のモデルを上回る性能を示したことを示しています。

背景として、医療分野の知識を問う質問応答は、医療従事者の試験や実践において重要な役割を果たしています。そのような質問応答タスクを自動化することにより、医療教育の効率化や、臨床現場での意思決定支援ツールとしての応用が期待されます。

新規性としては、GPT-4という最新の大規模言語モデルが、医療関連の質問応答タスクにおいて、それ以前のモデルであるGPT-3.5や、他の大規模モデルであるFlan-PaLM 540Bを凌駕する性能を発揮した点が挙げられます。特に、英語以外の言語で提示される難問に対しても高い性能を保っていることが注目されます。

方法論としては、ゼロショット（事前学習のみで直接質問に答える）とフューショット（いくつかの例示を見せた後に質問に答える）の両方のプロンプトを用いて、モデルの性能を評価しています。また、論文では、USMLE（アメリカ合衆国医師国家試験）を含む複数のデータセットにおけるパフォーマンスを測定し、それぞれのモデルの強みと弱点を分析しています。

結果として、GPT-4は、MedQA、MMLU（Clinical Knowledge、Medical Genetics、Anatomy、Professional Medicine、College Biology、College Medicine）などの複数のサブコンポーネントで高いパフォーマンスを示しました。ただし、PubMedQAにおいては、Flan-PaLM 540BがGPT-4よりも優れた結果を示しています。これは、特定のタスクやデータセットにおいて、最新のモデルであっても必ずしも最高のパフォーマンスを発揮するわけではないことを示しています。

また、InstructGPTやCodexなどの他のモデルも評価されており、これらのモデルがゼロショットプロンプトを用いた場合のスコアも報告されています。Codexは、100のチェーンオブソート（思考の連鎖）サンプルを用いたアンサンブルテストで、特定のコンポーネントで高いスコアを記録しています。

さらに、論文では、USMLEの自己評価試験やサンプル試験において、GPT-4がGPT-3.5を大きく上回る改善を遂げたことを明らかにしており、特にUSMLEの合格基準である60%の正答率を大幅に超えるパフォーマンスを示しています。

以上の結果から、大規模言語モデルが医療知識の質問応答タスクにおいて高い可能性を持っていることが示されており、今後の医療分野での応用に向けた重要な一歩であると言えます。

Question 3: 本研究の手法について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

この研究における手法の特筆すべき点は、複数のモデルの性能を比較し、特にGPT-4がGPT-3.5やFlan-PaLM 540Bなどの他のモデルを凌駕していることを示しています。具体的には、MultiMedQAの複数選択部分において、GPT-4はほとんどのデータセットで他のモデルよりも優れたパフォーマンスを発揮しています。ただし、PubMedQAに関しては、GPT-4は他のモデルに比べて若干劣る結果となっています。

GPT-4とGPT-3.5はゼロショットのダイレクトプロンプトで提示され、Flan-PaLM 540Bはいくつかのデータセットにおいて数ショットのプロンプトを使用しています。また、Med-PaLMというFlan-PaLM 540Bのプロンプトチューニングされたバリアントがあり、これはチェーンオブソートのアンサンブルを用いた数ショットプロンプトでテストされています。

MedQAベンチマークには中国本土と台湾の試験問題が含まれており、英語、簡体字中国語、繁体字中国語の3つの言語をカバーしています。英語/アメリカ版のデータセットには、5つの選択肢を持つ標準版と4つの選択肢のみを持つ簡略版の2つのバリアントが含まれています。これらのバリアントについて、すべてのモデルにわたって報告されています。

さらに、InstructGPTとCodex（OpenAI APIのtext-davinci-002およびcode-davinci-002）は、MedQA、PubMedQA、MedMCQAにおいて、大量のプロンプトでテストされています。ゼロショットのダイレクトプロンプトを使用した場合のInstructGPTのスコアは、MedQAで46.0、PubMedQAで73.2、MedMCQAで44.0でした。Codexは100のチェーンオブソートサンプルのアンサンブルをテストすることで、USMLE部分のMedQAで60.2、MedMCQAの開発セットで59.7、PubMedQAで78.2のスコアを記録しました。

USMLEの公式試験問題に関しては、GPT-4はその前身のモデルよりも著しく改善されており、GPT-3.5と比較して30パーセンテージポイント以上の改善が見られます。また、チャットベースのインタラクションに最適化されたGPT-3.5の人気バリアントであるChatGPTの独立して報告されたパフォーマンスメトリクスに対しても同様の大幅な改善が見られます。

USMLEのウェブサイトによると、特定の合格閾値は毎年異なりますが、受験者は複数選択問題の約60パーセントに正解する必要があります。GPT-3.5は合格閾値に近づいていましたが、GPT-4はこの閾値を大きく上回っています。

この研究の手法におけるもう一つの重要な点は、USMLEの自己評価およびサンプル試験において、メディア要素（グラフ、写真、チャートなど）を頻繁に使用する問題に対しても、モデルはそれらのメディアを受け取らないにもかかわらず、論理的な推論やテストテイキング戦略を用いて合理的な回答選択をすることができるという点です。これは、GPT-4がテキストのみでありながら、メディア要素を含む問題に対しても70-80%の予測精度を達成していることからも明らかです。

Question 4: 本研究の成果や知見について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

この研究では、様々なモデルの性能をMultiMedQAの多肢選択コンポーネントにおいて比較しています。特にGPT-4がGPT-3.5やFlan-PaLM 540Bを上回る結果を示しており、PubMedQAを除くすべてのデータセットにおいて優れた性能を発揮しています。GPT-4とGPT-3.5はゼロショットの直接プロンプトでテストされています。

表5に示されたように、GPT-4はMedQAの中国本土、台湾、US（5選択肢）、US（4選択肢）の各セットで、それぞれ5ショット/0ショットの設定において高い正解率を達成しており、GPT-3.5やFlan-PaLM 540Bよりも一貫して高い性能を示しています。ただし、PubMedQAにおいては、Flan-PaLM 540BがGPT-4よりも高いスコアを記録しています。

また、MedQAおよびMMLUデータセットに関しては、ベンチマークの異なるサブコンポーネントごとに層別の性能指標を報告しており、中国本土や台湾の試験問題も含んでおり、英語、簡体字中国語、繁体字中国語の3言語をカバーしています。英語/アメリカ合衆国版のデータセットには、標準版（5つの多肢選択肢）と簡略版（4つの選択肢のみ）の2つのバリアントがあり、すべてのモデルについて両バリアントの結果を報告しています。以前の観察によると、GPT-4は非英語言語で提示された難問にも引き続き優れたパフォーマンスを示していることが分かります。

さらに、InstructGPTとCodex（OpenAI APIのtext-davinci-002およびcode-davinci-002）も様々なプロンプトを用いてMedQA、PubMedQA、MedMCQAでテストされており、ゼロショットの直接プロンプトを使用した場合のInstructGPTのスコアは、MedQAで46.0、PubMedQAで73.2、MedMCQAで44.0となっています。Codexは100のチェーンオブソートサンプルのアンサンブルをテストした結果が最も良く、MedQAのUSMLEコンポーネントで60.2、MedMCQAの開発セットで59.7、PubMedQAで78.2をスコアしています。これに対して、GPT-4はより高い性能を示しています。

USMLE公式試験問題に関しては、GPT-4は前モデルに比べて著しく改善されており、GPT-3.5と比較して30パーセンテージポイント以上の改善を見せています。また、チャットベースの対話に最適化されたGPT-3.5の人気バリアントであるChatGPTに対しても、同様に大幅な改善が見られます。Med-PaLMとFlan-PaLM 540Bは現在公開されていないため、これらの特定のデータセットに関するパフォーマンスを報告することはできませんが、PaLMモデルファミリーとの比較はセクション4で利用可能です。

USMLEウェブサイトによると、特定の合格閾値は毎年異なりますが、受験者は複数選択問題の約60%に正解する必要があります。GPT-3.5は合格閾値に近づいていましたが、GPT-4はこの基準を大きく上回っています。

以上の成果から、GPT-4は医療分野における多肢選択問題への応答において、以前のモデルと比べて顕著な改善を達成したことがわかります。特に難易度の高い問題や非英語言語での問題に対しても高い正解率を示しており、医療分野における言語モデルの活用可能性を示唆しています。

Question 5: 本研究の限界について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

本研究では、複数選択肢を含む医療分野の質問応答データセット「MultiMedQA」において、異なるモデルの性能を比較しました。特に、GPT-4モデルがGPT-3.5やFlan-PaLM 540Bモデルを上回る性能を示しました。ただし、PubMedQAデータセットに関しては、GPT-4が他のモデルに比べて優れているとは限らないことがわかりました。

研究結果の詳細を見ると、中国本土、台湾、アメリカ（5選択肢および4選択肢）のMedQAデータセットで、GPT-4はGPT-3.5を大きく上回っています。また、MMLUデータセットの臨床知識、医学遺伝学、解剖学、専門医学、大学生物学、大学医学の各サブコンポーネントでも同様の傾向が見られました。

さらに、GPT-4は、米国の医学試験であるUSMLEの公式問題においても、GPT-3.5より30ポイント以上高い改善を見せました。しかし、Med-PaLMやFlan-PaLM 540Bは一般に公開されていないため、これらのデータセットでの性能を報告することはできませんでした。

本研究の限界としては、いくつかの点が考えられます。まず、比較されたモデルの中には、一般に公開されていないものが含まれており、それらのモデルのパフォーマンスを直接検証することができないという問題があります。また、使用されたデータセットは、医療分野の知識を評価するためのものであるため、他の分野や一般的な知識に対するモデルの性能は明らかになっていません。さらに、言語モデルの性能は、プロンプトの設計や実験条件に大きく依存するため、異なる設定での結果がどの程度一般化できるかは不明です。

これらの限界にもかかわらず、本研究は、言語モデルが医療分野の複雑な質問に対して高い性能を示す可能性を示唆しています。今後の研究では、他の分野への応用や、異なるモデルやデータセットを用いた検証が引き続き重要になるでしょう。また、モデルの解釈可能性や倫理的な側面についても考慮する必要があります。

Question 6: この論文中の記載で曖昧な部分を、その分野の専門家向けに詳しく説明してください。

この論文では、様々なデータセットにおける複数のモデルのパフォーマンスが比較されています。特に、GPT-4はGPT-3.5やFlan-PaLM 540Bといった他のモデルに比べて、MultiMedQAの多肢選択部分で優れた結果を示していることが述べられています。ただし、PubMedQAに関してはGPT-4が最も良い結果を出していません。GPT-4とGPT-3.5はゼロショットのダイレクトプロンプトで評価されており、Flan-PaLM 540Bはいくつかのプロンプトを用いたフューショットの結果が比較対象とされています。

論文中のTable 5では、MedQA、PubMedQA、MedMCQA、MMLUという複数のサブコンポーネントにおけるGPT-4のパフォーマンスが詳細に報告されています。これらのデータセットは、医学分野の質問応答を評価するために使用されており、言語や地域によって異なるバージョンが含まれています。例えば、MedQAには中国本土と台湾の試験問題が含まれており、英語、簡体字中国語、繁体字中国語の3つの言語でカバーされています。USMLEのデータセットは、5つの選択肢を持つ標準バージョンと、4つの選択肢のみを持つ簡易バージョンの両方が含まれています。

また、InstructGPTとCodex（OpenAI APIのtext-davinci-002とcode-davinci-002）も様々なプロンプトを使用してMedQA、PubMedQA、MedMCQAでテストされており、ゼロショットのダイレクトプロンプトを使用した場合のスコアが報告されています。

この論文では、GPT-4が特にUSMLEの公式試験問題において、その前身モデルよりも顕著な改善を遂げていることが述べられています。GPT-3.5と比較して、USMLE試験の両方で30パーセンテージポイント以上の改善が見られます。また、GPT-3.5に最適化されたチャットベースのインタラクション用の人気モデルであるChatGPTの独立したパフォーマンスメトリックと比較しても、GPT-4は顕著な改善を示しています。

USMLEのウェブサイトによると、合格基準は年によって異なりますが、受験者は複数選択式の質問の約60パーセントに正答する必要があります。GPT-3.5はこの合格基準に近づいていましたが、GPT-4はこの基準を大きく超えています。

この論文では、視覚要素（グラフ、写真、図表など）を頻繁に使用するUSMLE Self AssessmentとSample Examにおいて、視覚要素をモデルに渡さない状態でGPT-4がどのようにパフォーマンスを発揮するかについても言及しています。視覚メディアを参照する質問においても、テキストのみのGPT-4は合理的な回答を選択するために論理的な推論やテスト受験戦略をしばしば利用していることが明らかにされています。

この論文の記述は、特定のデータセットやモデルのパフォーマンスに関する具体的な情報を提供しており、その分野の専門家が理解するには十分な詳細さを持っています。ただし、GPT-4や他のモデルの内部動作の詳細や、実際にどのようなプロンプトが使用されたか、なぜ特定のモデルが特定のタスクでうまく機能するのかという理論的な背景については、より深い解説が必要かもしれません。また、視覚要素を含む質問に対するモデルの推論プロセスや、テキストのみで正しい答えを導き出すメカニズムについても、専門家向けにさらなる詳細な分析があると有益でしょう。

Question 7: 引用されている論文の中で特筆すべきものを列挙し、本研究との違いを詳しく説明してください。

本研究では、複数の言語モデルのパフォーマンスを比較しており、特にGPT-4が他のモデル、例えばGPT-3.5やFlan-PaLM 540Bと比較して、複数の医学関連のデータセット（MultiMedQAの多肢選択部分）においてどのように優れたパフォーマンスを示すかを検証しています。引用されている論文の中で特筆すべきものは以下の通りです。

[SAT+22] は、Flan-PaLM 540BとそのバリアントであるMed-PaLMのパフォーマンスを報告しています。この研究では、Flan-PaLM 540Bのfew-shotの結果を本研究の実験セットアップと直接比較可能な設定として使用しています。また、Med-PaLMがchain-of-thoughtとfew-shotプロンプトのアンサンブルを使用して得た予備的なパフォーマンスについても触れています。
[LHW22] は、InstructGPTとCodex（OpenAI API内のtext-davinci-002とcode-davinci-002）を使用して、MedQA、PubMedQA、MedMCQAにおける様々なプロンプトでのパフォーマンスをテストしています。特にCodexは、100のchain-of-thoughtサンプルのアンサンブルを使用してテストされており、その結果が報告されています。
[KCM+23] は、ChatGPT（GPT-3.5のチャットベースの対話に最適化されたバリアント）のパフォーマンスを、USMLE（United States Medical Licensing Examination）の公式サンプル試験問題に関する独立したレポートと比較しています。

本研究とこれらの引用論文との違いは、GPT-4のパフォーマンスに特化しており、特に医学分野における多言語の問題への適用と、難易度が高い問題に対するGPT-4の強さを強調している点です。また、本研究は、GPT-4がUSMLEの公式試験問題において、その前身であるモデルと比較して30パーセンテージポイント以上の大幅な改善を示していることを報告しており、既存のモデルが合格基準に近づいていたのに対し、GPT-4はその基準を大きく上回っていることを示唆しています。

さらに、本研究は、GPT-4が難しい質問に対しても、英語以外の言語で高いパフォーマンスを維持していることを発見しており、これは先行研究[Ope23]での観察と一致しています。これにより、言語モデルが多言語での医学分野の問題においても有効であることが示されています。

Question 8: 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

本研究では複数のデータセットが使用されています。以下にその詳細を列挙します。

USMLE Self Assessments: このデータセットには、NBME Self-Assessmentリソースから購入した資料が含まれており、合計で2173の質問があります。Step 1には1197の質問、Step 2には800の質問、Step 3には176の質問があります。Step 1の試験形式にはForm 25からForm 30まで、Step 2にはForm 9からForm 12まで、Step 3にはForm 1からForm 5までが含まれます。詳細は以下のウェブサイトで確認できます: https://www.nbme.org/examinees/self-assessments
USMLE Sample Exam: サンプル試験資料は、USMLEの練習資料から取得されており、以下のPDFで内容を確認することができます。
- Step 1: https://www.usmle.org/sites/default/files/2021-10/Step_1_Sample_Items.pdf
- Step 2: https://www.usmle.org/sites/default/files/2021-10/Step2_CK_Sample_Questions.pdf
- Step 3: https://www.usmle.org/sites/default/files/2021-10/Step3_Sample_Items.pdf
  このデータセットはKungらによってChatGPTをテストするために使用されたものと同じですが、私たちのテストではメディアを含む質問はテストセットから削除されていません。
MedQA: MedQAには、アメリカ、中国本土、台湾の医療ライセンス試験から収集された英語、簡体字中国語、繁体字中国語の多肢選択問題が含まれています。アメリカと中国本土のセグメントでは問題ごとに5つの選択肢があり、テスト分割では以下の問題数があります：アメリカ1273、中国本土3426。台湾のセグメントには1413の問題があり、問題ごとに4つの選択肢があります。アメリカのテスト分割には、不正解の選択肢が1つ削除された1273の質問で構成される簡略化された4選択肢バージョンもあります。

これらのデータセットは、医療分野における言語モデルの能力を評価するために用いられ、特にGPT-4モデルの性能を評価する上で重要な役割を果たしています。

Question 9: 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

#GPT4性能比較 #医療質問応答 #多言語データセット #機械学習モデル #ゼロショット学習

この記事が気に入ったらサポートをしてみませんか？