【情報科学】生成AIが生み出す幻想
生成AIが誤った情報を作り出す理由は、その内部の仕組みと学習プロセスに根本的な要因がある。特に、生成AIの中で広く使われていると思われる大規模言語モデル(LLM: Large Language Model)の構造に注目すると、その背景が見えてくる。LLMは、自然言語処理の分野で、文章の生成、翻訳、対話などに使用されるモデルである。このようなモデルは膨大なテキストデータからパターンを学習し、次に現れる単語や文を予測することで文章を生成する。
生成AIで起こるハルシネーション(hallucination)は、存在しない事実を、あたかも本当のように作り出してしまう現象を指す。特に、モデルがトレーニングされていない事柄について答えを求められたり、不十分な情報から信憑性のある文章を生成しようとしたときに発生しやすくなるものと思われる。具体的には、おすすめの本を訊ねた際に、現実には存在しないタイトルの本を提示してくるようなイメージである。
では、なぜハルシネーションが起きるのか。生成AIのモデルは、統計的な手法を用いて、大量のテキストデータに基づいて単語やフレーズの出現確率を学ぶ。この学習プロセスで使用される、代表的なアーキテクチャが"Transformer"である。このモデルは、文脈の依存関係を学ぶことで、非常に自然な文章を生成できるのだが、その反面、事実の検証はしていない。Transformerベースのモデルは、次の単語を予測する過程で学習データ中の文脈的なパターンを使うのだが、その情報源が信頼できるものであるかどうかの判断はしない。
その結果、たとえば、質問に対して「正しいとされる回答」を見つけられない場合、モデルは文法的に正しく、かつ「らしく」見える回答を作り出す。このプロセスで起きるのがハルシネーションである。この現象は、モデルが「確率的にもっとも適切」と判断する語句の組み合わせを出力することに起因しており、その出力が現実のデータに必ずしも基づいていない場合があるのである。
また、生成AIのモデルは、多くの場合、インターネット上の広範なデータからトレーニングされる。これにより、言語構造や文脈のパターンは高度に学習されるが、そのデータセットには誤情報や信頼性の低い情報が含まれる可能性もある。さらに、トレーニング後に新しい情報が追加されなければ、モデルは最新の事実や変化する知識を反映できない。こうした制約も、誤った情報やハルシネーションを生む一因と考えられる。
生成AIがハルシネーションを引き起こさないようにするためには、事実検証を行う仕組みを組み込むことが重要である。最近の研究では、出力された情報を他の信頼性の高いデータベースと照合し、情報の精度を検証する方法が提案されているようだ[1]。また、生成AIが回答を作る際に、確率的に出力の信頼度を計算して、確率が低いものは警告する機能を備えることで改善が期待される。
参考文献
[1] Brown, T. B., Mann, B., Ryder, N., et al. (2020). "Language Models are Few-Shot Learners." arXiv.
[2] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention is All You Need." Advances in Neural Information Processing Systems.