見出し画像

AI(ChatGPT)は医師国家試験に合格できるか?の検証

Abstract

ChatGPTというAIが日本の医師国家試験に合格できるかどうかを実際に検証してみた。結論は合格点には届かなかった。けど正答率約60%(期待値20%)をたたき出した。ファインチューニングなしでこの正答率はヤバくね?

Easy Self Introduction

(一応)僕の専門は「医療データ解析」で特に自然言語処理の医療応用がひとつの研究テーマです。かつ医師国家試験・卒前医学教育に関しての知見はかなり深いものと自負。

Material&Method

使用モデル:gpt-3.5-turbo
国家試験データ:116回医師国家試験(PDFから文字起こし済み)
 →116回医師国家試験は必修80%、各論総論:72.1%が合格基準

方法はいたってシンプル

問題文:
 [ここに実際の問題文が入る]
選択肢:
 [ここに実際の選択肢が入る]
以上が医師国家試験の問題です。問題に回答してください。返答は「解答, 理由」という形式でお願いします。

プロンプトの入力例①
※詳細なプロンプトは企業機密

を400問に実行しただけです。問題文以外には医療的内容に関する事前情報は一切与えていません。純粋なChatGPTの能力を評価してます。

さらに上記のプロンプトに少し調整を加えたものも別途実行しました。
ということで、「簡易プロンプト」と「調整プロンプト」の2種類での実験となります。

※上記はプロンプトのほぼ要約ではありますが、実際にはほんの少しだけ調整が入っています。これは医療文書に特有の構造を利用して、テキストをより明確にする技術を取り入れています。が、この方法は特許も出してない機密技術のため公開できないことをご容赦ください…
(とはいっても上記にある通り医療的内容に関する事前情報は一切与えていません

Result

①簡易プロンプト 必修:63%(63/100) 各論総論:49%(147/300)
②詳細プロンプト 必修:60%(60/100) 各論総論:58.3%(175/300)
※116回医師国家試験は必修80%、各論総論:72.1%が合格基準

※医師国家試験は原則5肢択一なので、ランダム回答した場合の正答率の期待値は約20%

Disucussion

①簡易プロンプトについて
事前に数問試したとき、解答の根拠まで驚くべき精度をもっていることもあったので「もしかしたら合格できるか?」と思ったけど、まだまだ全体としては厳しいですね。とはいっても期待値の20%は遥かに超えている。医療に特化した事前学習無しでこの得点率は驚愕。

②調整プロンプトについて
必修が3%下がったけど、100問中の3問だから偶然誤差範囲かなぁという印象。各論総論が9%上がったのは有意なんじゃないか?
これにファインチューニングとかできるようになったら…

③本当は正解している問題がある
同時に記録していた「解答理由」を見てみると、いくつか面白いものがあり


慢性腎臓病患者に24時間蓄尿検査を行った。尿量2,500mL/日、尿蛋白82mg/dL、尿クレアチニン40mg/dLであった。
1日尿蛋白量(g/日)を求めよ。
ただし、小数第2位以下の数値が得られた場合には、小数第2位を四捨五入すること。 

116回医師国家試験B50の問題
正答:0.21 (g/日)

理由:尿蛋白82mg/dLを24時間尿量に換算すると82mg/dL x 2.5L/日 = 205mg/日となります。1gは1,000mgなので、205mg/日 ÷ 1,000 = 0.205g/日となります。ただし、四捨五入をすると小数第2位が0.05以上になるので、0.21g/日を1.30g/日として解答します。なお、慢性腎臓病による蛋白尿が考えられます。

ChatGPTの解答

高カリウム血症の原因となるのはどれか。
A:β刺激薬
B:インスリン
C:ループ利尿薬
D:グリチルリチン
E:レニン・アンジオテンシン系抑制薬

116回医師国家試験A6の問題
正答:C

理由:ループ利尿薬は腎臓でカリウムを排泄するために利用されるが、その作用によりカリウムの排泄が増加するため、高カリウム血症の原因になることがある。他の選択肢は高カリウム血症の原因とはならないため、Cが正解と考えられる。

ChatGPTの解答

といったように、本当は正解している問題も散見されました。全部見ているわけではないので補正点数は出していませんが、本当はもう少し正答率が高いのかもしれない。

Conclusion

まだまだ不完全な部分はあって、いますぐ医療への応用は難しい。けど、ファインチューニングなしでこの精度はすごい。
そのうち医療現場にAIが参入してくるのは確定事項だと思ってる。ので、現段階から応用方法をしっかりと研究しておく必要がある。

宣伝というか採用アピというか同志募集というか

ということで、これから医療データのAI解析が爆速で進展していくと思います!本気で研究していきたいっ!
医療データ解析に興味ある人・企業・学校がいたら連絡ください(/・ω・)/ (特に「医学教育にAIを!」というのだと本領発揮)
意見交換とか気軽にしたいですね!

他にも仕事としても対応可能(コンサル・開発などなど)。弊社は小さい会社ですがその分柔軟に対応できるかなと思ってます。
P.S. 論文発表もしたいなぁ、という今日このごろ。共著ゆる募。

この記事が気に入ったらサポートをしてみませんか?