Performance of ChatGPT in Board Examinationsfor Specialists in the Japanese OphthalmologySociety

Ikemen Mas Kot

2023年12月9日 16:00

以下は、上記の論文のアブストラクトをChatGPTに解釈させたものです。解釈の正確性について保証はいたしません。

論文タイプ：本研究はオリジナル論文であり、学術誌「Cureus」に掲載されました。
本研究の背景と関連研究：本研究は、生成型AI（generative AI）の一分野であるChatGPTの医療応用に関するものです。過去の研究では、ChatGPTが眼科学の専門知識に関する質問に半数以上の正答率で回答することが報告されています。また、過去の研究では特に英語の専門試験での利用が検討されてきました。
本研究の目的とその重要性：本研究の目的は、日本語の医療応用でのChatGPTの有用性を検証することです。日本の眼科医師は、日本眼科学会の専門試験に合格することで専門医として認定されます。ChatGPTの性能を評価するために、専門試験の過去問題を使用し、ChatGPTの正答率と医師の平均点を比較しました。この研究は、日本の眼科学におけるChatGPTの実用化の可能性を示すことが重要です。
本研究で用いた材料やデータの詳細：本研究では、GPT-3.5およびGPT-4をベースにしたChatGPTモデルを使用しました。専門試験の過去問題を5つのセット（計500問）使用し、日本語のテキストをプロンプトとして入力しました。
本研究で何をどのように、どこまで明らかにした？：本研究では、ChatGPTの眼科学の専門知識に対する能力を評価しました。ChatGPT-3.5は22.4％の正答率であり、この正答率は専門医の平均点よりも2倍から3倍低いことが分かりました。一方、ChatGPT-4は45.8％の正答率を示し、専門医の正答率の約70％に近い結果となりました。さらに、ChatGPT-4は各小分野でのパフォーマンス特性を評価し、質問の種類によって異なる結果を示しました。
本研究の有効性はどのように検証した？：本研究では、ChatGPTのパフォーマンスを実際の受験者の正答率と比較することで検証しました。また、ChatGPT-4の能力をさらに向上させるために、プロンプトの改良（few-shot prompting）を導入し、その結果を評価しました。

この記事が気に入ったらサポートをしてみませんか？