『生成AI革命』全文公開：第4章の2

2024年1月23日 09:02

『生成AI革命』（日経BP 日本経済新聞出版）が1月19日に刊行されました。
これは、第4章の2の全文公開です。

2．医療に進出する ChatGPT

　セルフ・トリアージでの ChatGPT の能力は高い

　医療での利用としては、まず、医療機関での書類整理などの事務効率化がある。しかし、それだけでなく、医療行為そのものに対する利用が考えられている。
　その第一は、「セルフ・トリアージ（緊急度自己判定）」。これは、一般市民が自分の健康の緊急度や優先度を自ら判断することだ。現在では、これは主としてウェブの情報を頼りに行なわれている。しかし、正確度に疑問があるし、個人個人の事情に即した情報が得られるわけでもない。
　高齢化の進展に伴って、セルフ・トリアージの必要性は増える。事実、週刊誌には高齢者の健康に関する記事が満載だ。また、書籍も多数刊行されている。さらに、保険会社などが電話で健康相談サービスを提供している。セコムのサービスもあるし、「ファストドクター」というスタートアップも登場した。
　こうした目的のために ChatGPT を利用することに注目が集まっている。もし、医学的な質問に対して、大規模言語モデルが専門医レベルの回答をできるなら、事態は大きく変わるだろう。
　これについては、さまざまな調査が行なわれている（注4）。そして、検証成果はかなり有望な結果を示している。ChatGPT がアメリカの医師資格試験で合格ラインの結果を示したとの報告もあるし、医師による回答より ChatGPT の回答が好まれるとの調査もある。

人間より優れているとの評価も

　ワシントン大学の笠井淳吾研究員らは、ChatGPT やGPT4を使い、2018～2022年の日本の医師国家試験を解かせた。ChatGPT は不合格だったが、GPT4は5年分すべてで合格ラインを上回った（注5）。
　同様の結果を、オンライン診療を手がけるMICIN（マイシン）と金沢大学が、専門家による査読前の論文として公開した（注6）。
　2022年の医師国家試験のうち、画像を見ずに回答できる問題文について、日本語の問題文を平易な英語に翻訳させ、GPT4を使って回答させたところ、正答率は82・8％になった。2023年の試験については、正答率は78・6％だった。内訳は必修問題82・7％、基礎・臨床問題77・2％で、それぞれ合格ラインを超えた。ただし、研究チームは、間違えた回答の内容を、「時代遅れで、致命的に不正確な回答があった」と問題視した。
　医学界の有名専門誌『JAMA』に掲載された論文は、医師と ChatGPT を比較すると、医学的アドバイスの品質と共感の両面において、ChatGPT が生成した回答が高く評価されていると指摘している（注7）。とりわけ、つぎの諸点で ChatGPT が優れているという。

　・患者の状況に共感を示す。
　・患者個人の背景に興味を持ち、個人的な関係を構築しようとする。
　・歯科医師、医師、看護師、薬剤師などの資格試験の点数が高い。

　大規模言語モデルの臨床的有効性や診断支援の可能性を高く見積もる意見が多い。大規模言語モデルが臨床実装され、医療を強力に支援するようになる可能性は非常に高い。とくに、スクリーニングや初期診断、治療方針策定、フォローアップ、セカンドオピニオン、患者および医療者教育などは激変する可能性がある。

Google のMed-PaLM など、医療に特化した大規模言語モデル

　以上で紹介したのは、ChatGPT そのものだが、これに改良を加えたり、医療に特化した大規模言語モデルを開発する動きもある。
　グーグル研究所は、医療領域特化の大規模言語モデル Med-PaLM を発表した。アメリカ医師国家試験で、平均点である60％を大きく上回る85％の正解率を示した（注8）。臨床家が時間をかけて示す答えと比べると、かなり近いところに来た。ただ、臨床家のほうが勝っているとも言われる。
　日本でも、開発が進んでいる。ファストドクターとAI開発スタートアップのオルツが共同開発した大規模言語モデルだ。2022年度の医師国家試験の問題で、合格基準を上回る82％の正答率を達成した（注9）。中国の研究者らが開発した「ChatCAD」は、レントゲン画像をわかりやすく説明する。画像を見ながら詳しく聞くこともできる。人間より優れているとの評価もある（注10）。
　日本では、これから高齢化がさらに進展し、医師不足は深刻な問題になるだろう。信頼性のある医療用大規模言語モデルの開発は、日本の場合にとくに必要度が高い課題だ。

慎重意見も強い

　以上で述べたように、医学関係者の多くが、大規模言語モデルに対して高い期待を寄せている。これは、私には意外だった。慎重論が多いと思っていたからだ。
　もちろん、医療関係者のすべてが大規模言語モデルの利用に積極的であるわけではない。慎重論や消極的な意見が多いことも事実だ（注11）。『ニューズウィーク・ジャパン』の記事は、そうした意見を紹介している（注12）。明らかな誤りやバイアスなど、精度の不安定性に懸念が表明されている。だから、現時点では重要な判断が伴うケースで、専門家のレビューなく出力結果を利用することは難しいとされる。
　また、プライバシー、倫理、法的制約と規制などについても、解決すべき課題が多く存在する。治療や研究に取り入れることには、守秘義務や患者の同意、治療の質、信頼性や格差に関する倫理的懸念が伴う。むやみな使用は、予想外の結果につながりかねない。また、ChatGPT に送られた身元特定可能な患者情報は、将来利用される情報の一部になる。だから、機密性の高い情報が第三者に漏洩しやすくなる。

健康に関する利用はさまざまな微妙な問題を含む

　私自身は、これまで自分の健康問題に関して ChatGPT に質問をしたことはない。ChatGPT が誤った答え（ハルネーション）を出す危険があるからだ。
　仮にその問題が克服されたとしても、なおかつ問題は残る。これは、前項で紹介した懸念とは異なるものだ。
　第一に、自分の状況を正しく ChatGPT に伝えられるかどうか、自信がない。医師と面談する場合には、医師がさまざまな質問をし、それに答える。しかし、ChatGPT の場合には、そのような質問がない。質問自体を私が考えなければならない。電話の健康相談サービスでも、通常は先方が質問してくれる。ChatGPT との会話は、人間との会話とは異なるものなのだ。また、ChatGPT は、安全側に偏った回答をするはずだ。少しでも疑問があれば、「医師の診断を受けたほうがよい」と答える可能性が高い。自分では大丈夫だと思っているときにそうしたアドバイスを受けると、かえって不安になってしまう。
　こうしたことがあり、ここで紹介した調査結果を知ったいまとなっても、なかなか健康問題の質問をする気にならない。かといって、週刊誌にある「多少血圧が高くても気にする必要はない」という類いの記事も、乱暴すぎると思う。健康に関わる問題は、さまざまな微妙な要素を持っており、判断が難しい。この問題に関する研究調査がさらに進められることが求められる。

この記事が気に入ったらサポートをしてみませんか？