見出し画像

医療における安易な人工知能(AI)の導入に対して危惧を表す論文(4件)

DoopLを用いて論文の要旨を和訳しました。機械翻訳ですので原著を参照してください。

【和訳】医療における人工知能に対する一般の認識:倫理的懸念と患者中心のケアの機会
https://bmcmedethics.biomedcentral.com/articles/10.1186/s12910-024-01066-4
要旨
背景 医療の質を向上させるために、患者中心のケアという理念が医療界のほぼすべての側面に組み込まれるようになってきた。患者や医療従事者の間では、この理念が広く受け入れられているにもかかわらず、人工知能の急速な進歩が、医療提供者との人間関係や患者主導の選択といった患者中心ケアの要素を脅かすのではないかという懸念がある。本研究では、患者が自分自身のケアに関して、どの程度これらの技術の使用に自信を持ち、快適に過ごしているかを調査し、患者中心のケアの要素と一致する可能性のある分野、または患者中心のケアの要素を脅かす可能性のある分野を特定する。
方法 フロリダ州の米国在住の成人600人からの調査データを分析するために、探索的な混合法のアプローチを用いた。調査は大手市場調査会社を通じて実施され(2023年8月10~21日)、回答は年齢、性別、人種/民族、政治的支持に基づいて州の人口を代表するように収集された。
結果 回答者は、患者の予約や経過観察のスケジューリングなど、医師と患者の関係とは関係のない医療関連業務におけるAIの使用に、より好意的であった(84.2%)。医師が持つ「人間味」を失うことへの恐怖は、質的コーディングにおいて共通のテーマであり、AIの導入と患者中心のケアとの間に潜在的な矛盾があることを示唆していた。さらに、意思決定の自己効力感は、AIに対するより高い快適レベルと関連していたが、意思決定のコントロールを失うこと、労働力の変化、コストへの懸念もあった。少数の参加者は、AIは医師にとって有用であり、より公平なケアにつながる可能性があるが、それは制限の範囲内で使用される場合に限られると述べた。
結論 医療におけるAIの活用は急速に進んでいるが、患者中心のケアの重要な側面に取り組む監督、規制、ガイダンスは不足している。現時点では、AIが患者と医師の関係を損なうという証拠はないが、患者の側には、医療におけるAIの適用、特に医師との相互作用に関する懸念がある。AIがどのように医療を補強するかを明確にするためには、患者中心の医療の原則を守りながらAIを取り入れるための医療ガイダンスが必要である。

https://www.pnas.org/doi/10.1073/pnas.2317967121

【和訳】大規模言語モデルに現れた欺瞞能力
https://www.pnas.org/doi/10.1073/pnas.2317967121
意義 本研究は、大規模言語モデル(LLM)における重要な能力である、欺瞞戦略を理解し誘導する能力を解明した。GPT-4のようなLLMが人間のコミュニケーションに絡むようになると、人間の価値観に合わせることが最も重要になる。本稿では、LLMが欺瞞シナリオの中で他のエージェントに誤った信念を植え付ける可能性を示し、このような高度なAIシステムの継続的な開発と展開における倫理的配慮の重要な必要性を強調する。
要旨 大規模言語モデル(LLM)は現在、AIシステムを人間のコミュニケーションや日常生活と結びつける最前線にある。従って、人間の価値観に合致させることは非常に重要である。しかし、推論能力の着実な向上を考えると、将来のLLMは人間の操作者を欺くことができるようになり、この能力を利用して監視努力を回避することができるようになる疑いがある。その前提として、LLMは欺瞞戦略の概念的理解を持つ必要がある。本研究は、そのような戦略が最新のLLMでは出現しているが、それ以前のLLMには存在しなかったことを明らかにする。我々は一連の実験を行い、最先端のLLMは他のエージェントの偽信念を理解し、誘導することができること、複雑な欺瞞シナリオにおけるパフォーマンスは思考連鎖推論を利用することで増幅されること、LLMにマキャベリズムを引き出すと、ずれた欺瞞行動を引き起こす可能性があることを示した。例えばGPT-4は、単純なテストシナリオでは99.16%の確率で欺瞞行動を示す(P < 0.001)。だまされることを予期している人をだますことを目的とした複雑な2次だましテストシナリオでは、GPT-4は、思考連鎖推論で補強された場合、71.46%の確率でだます行動に出る(P < 0.001)。まとめると、LLMにおけるこれまで知られていなかった機械の行動を明らかにした本研究は、機械心理学の新分野に貢献するものである。

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00061-X/fulltext

【和訳】医療における大規模言語モデルの倫理的・規制的課題
https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00061-X/fulltext
要旨 様々な業界において大規模言語モデル(LLM)への関心と利用が急速に高まる中、特に医療分野において、我々はいくつかの重大かつ深遠な倫理的懸念に直面している。LLMのユニークな技術的アーキテクチャーと言われる創発的能力は、他の人工知能(AI)モデルや使用される自然言語処理技術と大きく異なるため、LLMの倫理に関する微妙な理解が必要である。本ビューポイントでは、特にデータのプライバシーと使用権、データの出所、知的財産の汚染、LLMの広範な応用と可塑性に焦点を当て、ユーザー、開発者、規制当局の観点から生じる倫理的懸念に焦点を当てる。LLMを医療行為に責任を持って統合し、倫理原則との整合性を確保し、潜在的な社会的リスクから保護するためには、包括的な枠組みと緩和戦略が不可欠である。

https://www.science.org/doi/10.1126/science.adg8538

【和訳】臨床予測モデルの幻想的な一般化可能性

https://www.science.org/doi/10.1126/science.adg8538

編集者要約 医療における人工知能(AI)の中心的な期待は、大規模なデータセットから将来の患者に対する最善の治療方針を予測・特定できることである。残念ながら、これらのモデルが新しい患者に対してどのように機能するかはわからない。なぜなら、本当に独立した患者サンプルで前向きにテストされることはほとんどないからである。Chekroudらは、機械学習モデルは、たとえそのデータセットが大規模な国際多施設臨床試験であったとしても、あるデータセットでは日常的に完璧な性能を達成することを示した(Petzschnerによる展望を参照)。しかし、その正確なモデルを本当に独立した臨床試験でテストすると、性能は偶然のレベルにまで低下した。似たような多施設臨床試験で集計し、より頑健なモデルを構築しても、その後の予測性能は低いままであった。-ピーター・スターン

要旨 統計モデルによって治療に関する意思決定が改善されることが広く期待されている。医学的転帰データは高価で希少であるため、この期待は通常、研究者が1つか2つのデータセットや臨床的背景におけるモデルの成功を観察することに基づいている。われわれは、統合失調症に対する抗精神病薬に関するいくつかの独立した臨床試験において、機械学習モデルがどの程度うまく機能したかを調べることによって、この楽観論を精査した。モデルは、モデルを開発した臨床試験内では高い精度で患者の転帰を予測したが、アウトオブサンプルで適用した場合には偶然の結果よりも良い結果を示さなかった。試験データをプールして、除外された試験での転帰を予測しても、予測は改善されなかった。これらの結果から、精神分裂病の治療成績を予測するモデルは文脈依存性が高く、一般化には限界があることが示唆される。


ご来訪ありがとうございます。


この記事が気に入ったらサポートをしてみませんか?