LLMに医師の代わりは無理(意見歓迎)
僕が優秀だと感じる内科医と、LLMについてディスカッションし、一定の結論に達しました。
現状人間にとって代わるのは無理です。
僕はそもそも仕事をほぼしていないのでAIに仕事を取られるとかの心配がありません、どっちでもいいのです。どっちでもいい立場から、AIはやはり人間には敵わない論ではなく、LLMの構造面とリアルワールドのズレを根拠に説明します。
AIが医療の仕事を変え、医者は要らなくなるとか、いや、AIは人間に敵わないところがあるとか予想されますが、
結局わからないということかなと思います。
この新しい技術が、今まで歴史で出てきた新しい技術と同じように応用されていくのかも誰にもわからないんじゃないかなと思います。
できることはわからなくても、できないことはわかります。その前提はドメイン知識と呼ばれる「現場」の経験がある場合です。
ドメイン知識を持った状態で、LLMの構造を理解した上で、使い方を思案するという試みです。
外来診療(普通に病院に受診する形態)で使うとどうなるか、僕の信頼している内科医に意見を伺ってみたところ、
自分が読んで正しいかどうか判断できるものに関しては、患者の治療に使う知識などのピックアップを頼むことができるというものでした。
でも、正しいかを判断するのは自分だし、あくまで情報収集作業の手間が減るだけだと言います。
LLMは単語の意味を理解して、内容のつながりを理解して述べている構造ではなく、言語の出現頻度を確率的に予測する構造から自然な表現を生み出しています。
手間が減るような医学的な文章作成や情報収集にしか使えず、医師の臨床判断そのものを代替するのは 限界があります。
それは、言語的な単語や文脈のつながりは合っていても、知識が間違っている現象が起きるからです。
例えば、診断がめちゃくちゃ難しい(どの病気にも当てはまらない症状を訴える)ある患者さんのことを相談した時、
候補となる病気を10個出してもらったのですが、そのうち3つは存在しない病気でした。
例えば「ヘルニア症候群が考えられます」とありましたが、ヘルニア症候群などという病気は存在しません。
一瞬そんなのあったっけ?と思ってしまいました。
つまり、人間が使うには、単語の出現頻度が高いものの組み合わせと、現実の知識とのつながりがイコールなのかのチェックをせねばなりません。逆にチェックできるレベルのものなら任せられます。ただ、それは時短以上の意味があるでしょうか。
LLMの限界はその奥にあります。
OpenAIのサイト上では、デタラメをほざいてもなんの影響もありませんが、現実世界はデタラメを鵜呑みにした患者は死ぬというリスクというものが存在します、もっというとペナルティやコストと言い換えられるかもしれません。
データ量を上げて正答率を上げれば解決するし、そんなの時間の問題で上がるという、スカタンなAI企業のCEOのコメントは鵜呑みにすべきではありません。(ドメイン知識のなさがここで裏目に出ます。)
仮に検出できる頻度以下まで間違いの割合を下げたとします。
ここからは僕の考察なのでややこしいし、細部に間違えているかもしれませんが、データの数<<<<<現実世界で生成されるパターン数になるため、いつかは間違いが現出しますが、数学的に予測できないと考えます。間違いの確率がそもそも計算できないからです。
間違いは取り返しがつかなかったらどうするのでしょう?
となると、社会で間違いについての合意ができていない(機械が間違えるならOKよ!という妥協。誰もこの話をしようとしない)ので、データ量を上げて完全に近づけるという方法論そのものがかなり厳しいと僕は考えます。
確率論的に正しい回答を出すモデルは、
(赤ちゃんが死ぬという取り返しのつかない)リスクが生じることがわかっている領域には向きません。
リスクは確率だけでは評価できないからです。
もう一つ、入力する情報量の問題があります。
医師の診察では、聴診などの診察、検査データ、画像データなど大量の情報を処理して、患者さんの方針を決定していきます。
それらの情報は矛盾しまくるのが普通で、時にはいくつもの現象がオーバーラップしており、ぐちゃぐちゃ絡まったメカニズムを紐解くのが医師の仕事です。(裁判官と似ているかもしれません。)
さらに、
「帰り際のそういえば先生‥」という逸話があります。
一通り話終わって、医師からの質問や診察が終わって、患者がドアに近づいて帰ろうとした頃、ふと思い出していうセリフが、超重要な内容だったりします。
何が言いたいかというと、AIに入力する情報量は言葉であれ映像であれ、情報量が圧縮されていたり、カットされたりしています。
現実の情報量は、人間が選んできた特徴量(AIの判断に必要だと思われるデータ)よりはるかに多く、人間の感覚器官の方が精巧ではないかと考えています。その中では人間同士の会話の相互作用でしか得られないものもあるかもしれません。
例えばLLMは、統合失調症の患者さんの完璧に理路整然とした妄想を確実に見抜けるでしょうか。
まとめると、LLMは、チューリングテストに部分的に合格する(機械と人間を区別するテストで、判別のつかないAIも出現している)ようなモデルであるものの、それだけでリアルワールドの問題処理が完結するかというと厳しいのではという考えです。論理構造が実装されていないのが限界なのか、他にも何か足りない要素があるのかわかりません。(専門家の方教えてください。)
逆に、言語的な流暢さ、自然さという特徴を利用する視点から見ると、使えるところはいろいろあるかもしれません。