生成AIを教育評価に使用する危険性

2023年12月19日 14:32

「教員に対して生成 AI の理解を深める FD」

前回は学生の情報リテラシーについて論じましたが、今回からは教員のFDがテーマです。

私大連ガイドラインで言及されている
「教員に対して生成AIの理解を深めるFD」
とはどういった内容を含むかについてのシリーズです。

FDといえば授業運営の工夫かなというところです。
授業運営での工夫は、国立大の生成AI指針をあつめたデータベースを見てみると
・ブレインストーミング
・アイデア出し
・プレゼンテーションの「壁打ち」
・校正、翻訳
などが言及されています。

こうした教学的な活用方法はFDの重要なトピックですが、同時に生成AIの教育活用上の懸念点も含むべきでしょう。
今回はその中でも評価に使用することの是非を考えます。

評価に使用することの危険性

プライバシーや様々なリスクの問題を置き去りにすれば、入試や定期試験、あらゆるレベルの記述式課題の評価に生成AIのサポートを取り入れることが技術的には可能です。
また、今後はそのような評価支援ツールが提供されるでしょう。

しかし、教育評価にAIを使用することの危険性は十分に議論されていません。

多くの国立大が生成AIの指針を発表している中で、生成AIを用いて学生を評価することを禁じているケースは確認できません。
文科省の2023年7月13日の「教学面周知」でも禁止されていない状況です。

逆に、名古屋大学の「教育研究における生成AIの利活用について」は、生成AIを評価に活用すること前向きです。

教員にとっても講義資料の作成や課題の作成および評価に生成AIを利用することでより効率的な教育を行うことが可能となります。今後は学生の生成AIの利用を前提とした課題設定や評価方法を検討することで、生成AIの高度な機能を積極的に活用できる人材の育成を図ることが重要です。

（名古屋大学、強調筆者）

EUは人間の格付けを禁止

大きなレベルでは、EUは政府や警察が市民を格付けするソーシャルスコアリングを最高リスク「レベル１：許容できないリスク」として定義し、人事採用での利用も「レベル２：ハイリスク」として規制を要する項目に指定しています。

例えばある容疑者が再犯率を予測することは許容されません。
なぜなら、その予測のもとになるデータ（その容疑者の人種、性別、居住地域…）で再犯率を予測することで、「黄色人種は、黒人は、女性は、◯◯犯罪の発生率が高い…」という過去のデータが再帰的に適用されてしまい、バイアス（偏見）がどんどん強化されていってしまうからです。

犯罪でなくても、人事採用で、出身地域や学歴、性別、その他のあらゆるデータから個人を評価することは、ハイリスクとされています。

人事採用での利用がハイリスクであれば、入試や定期試験において生成AIを用いて学生を評価することは大きなリスクがあることは自明です。

評価に使用するリスクの根拠

このリスクは、生成AIの学習データ内のバイアスに起因します。
生成AIの元になるLLMのトレーニングでは、web上の言語データが収集されていますが、その言語データには言語間でデータ量の差が生じています。

言語、宗教、あらゆる価値観でマジョリティのデータほど多く学習されていることは避けられません。
学生向けの情報リテラシーの記事でも書きましたが、性別、民族、人種、社会階層、地域、言語、年齢、学習データの情報源、障害、宗教、性的指向、政治、職業、感情、教育水準、消費文化など、十分に検証されていないバイアスは枚挙にいとまがありません。

生成AIは、もともとこうしたバイアスが内包されていて、不利な扱いや偏見を含むデータを利用していくことで、どんどん強化されていくという問題点を完全には解消できていません。

他にも「アノテーションバイアス」があります。
ある機械翻訳が優れているかを比較してスコアやタグを付ける（アノテーション）ことがありますが、その際にアノテーションする人間の性別や年齢、人種などの属性によってバイアスが生じます。
これに加えて、データの時代的な偏りやサンプリングの偏りなど、多くの面で生成AIはバイアスを含みやすいシステムです。

こうしたバイアスは、例えばある学生のレポートが既存の価値観におけるマジョリティに合わない内容であった場合に、不当に低く評価されてしまう可能性が考えられ、それが繰り返されることで既存のマジョリティの価値観が強化され、マイノリティが卑下され排除されていく悪循環を生むこともあります。

こうしたバイアスの影響が未知数であるため、EUはソーシャルスコアリングや人事評価での使用をハイリスクとして規制しています。

大学が組織としてやることを、教員や学生に転嫁しない。

大学が2024年以降、ガイドラインや指針を提示するにあたっては、UNESCOガイダンスや私大連ガイドラインで「大学が組織的に検討すべき項目」とされている部分と、授業内での活用を教員が独自に判断できる項目を峻別して
いく必要があります。

現在の各大学の文書では、その多くが「バイアスに注意して適切に利用」「教員の指示に従って利用」としています。
しかし評価に関する問題は、教員や学生が個人で「適切に」判断できるものではありません。

潜在的に高いリスクである部分についてはすべてを教員あるいは学生に委ねるのではなく、組織として規制や注意喚起が必要になると思います。