Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study
1. 本研究の学術的な背景と研究が解決する問題は何ですか?
==> ChatGPTの非英語圏における性能は、十分に研究されていないため、本研究では非英語圏におけるChatGPTの性能を評価することで、医療現場でのクリニカル・レーズニングや医療知識の非英語圏での信頼性を評価することを目的としています。
2. 本研究の目的及び学術的独自性と創造性は何ですか?
==> 本研究の目的は、日本の医師国家試験であるJMLEでのGPT-3.5とGPT-4の性能を比較することであり、特に診断や医療用語においてどのように性能が向上するかを分析する点に独自性があります。
3. 研究の着想を得た経緯や、関連する国内外の研究動向とは何ですか?
==> 過去には、非英語圏におけるChatGPTの実装に関する研究が数多く報告されています。本研究ではさらに、医療現場における応用可能性について、JMLEを用いた評価を行いました。
4. 本研究で何をどのように、どこまで明らかにした?
==> 本研究では、医療現場でのChatGPTの性能を分析するため、JMLEの評価問題に対してGPT-3.5とGPT-4を採用して性能比較を行いました。その結果、GPT-4がGPT-3.5に比べて優れた性能を発揮したことが明らかにされました。
5. 本研究の有効性はどのように検証した?
==> 本研究では、JMLEに対する正答率を基準に、GPT-4がクリニカル・レーズニングや医療知識を非英語圏において学習することに有用であることを示しました。