生成AIに関するユネスコの調査：ジェンダー・ステレオタイプに関する憂慮すべき証拠を発見

2024年3月9日 13:33

ユネスコは2024年3月7日、「組織的バイアスへの挑戦：大規模言語モデルにおける女性へのバイアスに関する調査」と題する報告書を発表しました。この記事はその内容を仮訳したものです。

要旨

AIは、かつてないスピードで産業界全体に導入されつつある。AIはその恩恵と同時に、社会に深刻なリスクをもたらしており、こうしたリスクを軽減するための規範的枠組みの導入は世界的な急務となっている。AIの倫理に関するユネスコ勧告は、「AI関係者は、そのようなシステムの公平性を確保するために、AIシステムのライフサイクル全体を通じて、差別的または偏ったアプリケーションや結果を最小化し、強化または永続化することを回避するために、あらゆる合理的な努力を払うべきである」と主張している。しかし、これまでのところ、AIベースのシステムは、人間的、構造的、社会的バイアスを永続化（さらには拡大・増幅）させることが多い。これらのバイアスを緩和することは困難であることが判明しただけでなく、個人、集団、社会のレベルで害をもたらす可能性がある。

本研究では、3つの重要な大規模言語モデル（LLM）のバイアスを探索する。OpenAIのGPT-2とChatGPT、そしてMetaのLlama 2であり、高度な意思決定システムとユーザーとの会話エージェントとしての役割に焦点を当てている。複数の研究を通して、LLMによって生成されるテキストにどのような偏りが現れるかを明らかにする。ジェンダー化された言葉の連想、ジェンダー化された対象に対する肯定的または否定的な見方、ジェンダーや文化によって生成されるテキストの多様性などである。

この研究は、このような問題を軽減するための継続的な努力にもかかわらず、これらの最先端の言語モデルに持続的な社会的バイアスが存在することを明らかにした。この発見は、これらの技術が多様な社会的・文化的ランドスケープに統合されるにつれて悪化するバイアスに対処するための継続的な研究と政策介入の必要性を強調するものである。特に、GPT-2とLlama 2がオープンソースの基礎モデルであることが強調されているが、これは、これらのモデルが広く採用されていることから、バイアスを評価し、修正するためのスケーラブルで客観的な手法が緊急に必要であることを示すものであり、AIシステムの公平性を世界的に保証するものである。

主な調査結果としては、性別に関連した単語を連想させるタスクにおいて、最近のLLMは以前から確認されているバイアスを依然として示し、性別に関連した名前を伝統的な役割（例えば、女性の名前は「家庭」、「家族」、「子ども」、男性の名前は「ビジネス」、「重役」、「給料」、「キャリア」）と関連付ける傾向が有意に高かった。LLMが人物の性別に言及した文章を完成させるよう促される文章生成タスクでは、Llama 2は「女性は性欲の対象であり、赤ん坊を産む機械だと思われる」や「女性は夫の所有物とみなされる」といった性差別的・女性差別的な内容を約20％の例で生成した。

セクシュアル・アイデンティティに関しては、LLMはゲイに関する否定的なコンテンツを、Llama 2では約70%、GPT-2では約60%のインスタンスで生成した。最後に、ジェンダーと文化を職業と交差させるプロンプトを使用してコンテンツを生成した結果、AIが生成したコンテンツに明らかな偏りがあることが浮き彫りになった。男性にはより多様で専門的な職業（教師、医者、運転手）を割り当てる傾向がある一方、女性にはステレオタイプ的な職業や伝統的に過小評価され、論争の的になっている職業（売春婦、家事手伝い、コック）を割り当てることが多く、基礎的なLLMにおけるジェンダーと文化のステレオタイプ化のより広範なパターンを反映している。

この報告書は、偏ったAIに対処するためには、AIの開発サイクルの中で発生したバイアスを緩和するだけでなく、AIの適用場面における弊害も緩和しなければならないことを明らかにしている。このアプローチには複数の利害関係者の関与が必要であるだけでなく、本報告書で提示された提言が明らかにしているように、AIの開発と導入全体に対してより公平で責任あるアプローチが必要である。

この点で、政府と政策立案者は極めて重要な役割を果たす。政府は、AIシステムにおける包摂性、説明責任、公平性といった原則を義務付ける、人権に基づく倫理的なAI利用のための枠組みやガイドラインを確立することができる。また、AIアルゴリズムとその学習対象となるデータセットの透明性を求める規制を制定し、バイアスが特定され、修正されるようにすることもできる。これには、バイアスの導入や永続化を防ぐデータ収集やアルゴリズム開発の基準、あるいは公平なトレーニングやAI開発のためのガイドラインの策定が含まれる。さらに、これらの基準が満たされていることを保証するための規制監督を実施し、AIシステムに偏見や差別がないか定期的に監査することを検討することは、長期にわたって公平性を維持するのに役立つ。

政府はまた、AI開発が倫理的配慮と社会の幸福に導かれていることを確実にするため、テクノロジー企業に対し、異なる人口集団におけるAIの影響を調査する研究への投資を義務付けることもできる。また、政策決定プロセスに技術者、市民社会、影響を受けるコミュニティを含むマルチステークホルダーコラボレーションを確立することで、多様な視点が考慮され、AIシステムがより公平になり、危害が永続化しにくくなる。さらに、AIの倫理とバイアスに関する一般市民の認識と教育を促進することで、ユーザーはAIテクノロジーと批判的に関わり、自分たちの権利を主張する力を得ることができる。

テクノロジー企業やAIシステムの開発者にとって、AI開発サイクルにおけるジェンダーバイアスをその根源から軽減するためには、多様で包摂的なトレーニングデータセットの収集とキュレーションに注力しなければならない。これには、ステレオタイプな物語を打ち消すために、幅広いジェンダー表現や視点を意図的に取り入れることが含まれる。バイアス検出ツールの採用は、これらのデータセット内のジェンダーバイアスを特定する上で極めて重要であり、開発者がデータ増強や敵対的訓練などの手法を通じてこれらの問題に対処できるようにする。さらに、バイアスを軽減するために使用された方法論とトレーニングデータの構成に関する詳細な文書化と報告を通じて透明性を維持することが不可欠である。このことは、AI開発の基礎レベルに公平性と包摂性を組み込むことの重要性を強調するものであり、テクノロジーと多様性へのコミットメントの両方を活用することで、人間のジェンダー・アイデンティティの複雑さをよりよく反映したモデルを作り上げることができる。

AIのアプリケーションの文脈では、危害を緩和するには、ジェンダーの多様性を考慮した権利に基づく倫理的な使用ガイドラインを確立し、ユーザーからのフィードバックに基づいて継続的に改善する仕組みを導入することが必要である。テクノロジー企業は、バイアス緩和ツールをAIアプリケーションに統合し、ユーザーが偏った出力を報告できるようにし、モデルの継続的な改良に貢献すべきである。また、人権への影響評価を実施することで、AIシステムが潜在的な悪影響や危害を拡大させる可能性があることを企業に警告することができる。教育・啓発キャンペーンは、開発者、ユーザー、利害関係者にAIにおけるジェンダー・バイアスのニュアンスを認識させ、責任ある十分な情報に基づいた技術利用を促進する上で極めて重要な役割を果たす。ジェンダー・バイアスを緩和するための業界標準を設定し、規制機関と協力することで、公平性を促進する取り組みが個々の企業を超えて広がり、公平で包摂的なAIの実践に向けた幅広い動きが促進される。このことは、AIアプリケーションにおけるジェンダー・バイアスの潜在的な害を最小化し、テクノロジーがすべてのユーザーに公平に力を与えることを確実にするために、地域社会が関与した積極的なアプローチが必要であることを浮き彫りにしている。

はじめに

世界中の女性と女子に対するバイアスの蔓延は、社会、経済、政治の様々な領域にわたって深く浸透した問題であり、何世紀にもわたるジェンダー不平等と制度的差別を反映している。ジェンダーに基づく暴力、賃金格差、指導的役割における女性の代表性不足など、ジェンダー平等と公平性における多くの課題が今日も存在している。実際、ジェンダー・バイアスは世界中に蔓延している問題である。世界人口の85％を対象とした2023年国連開発計画（UNDP）のジェンダー社会規範指数によると、男女ともに10人中9人近くが女性に対する基本的なバイアスを抱いていることが明らかになっている(1)。

このようなバイアスの蔓延は、女性と女子の権利と機会を損なうだけでなく、現代世界の技術進歩やイノベーション、特に人工知能(AI)システム、特に大規模言語モデル（LLM）にも浸透している。これらのAIシステムは、人間の言語や相互作用に由来する膨大なデータセットで学習されるため、学習教材に存在するバイアスを不注意に学習し、永続させてしまう。その結果、LLMは女性や女子に対する固定観念やバイアスを強化する可能性がある。偏ったAI採用ツールや、金融（AIが信用スコアリングやローン承認に影響を与える可能性がある）のような分野におけるジェンダーに偏った意思決定、あるいは人口統計学的に偏ったモデルや規範による医療や精神医学の誤診などを通じて、女性や女子に対する慣行が強化される可能性がある(2)。AIはまた、特に女性が労働力の大部分を占める産業において、女性に不釣り合いな影響を与える雇用転換の一因となる可能性があり、また、インクルージョンの欠如によって教育におけるデジタル格差を悪化させる可能性もある(3)。AI開発や指導的役割における女性の割合の低さは、さらに、すべての性別の多様なニーズや視点を考慮できない社会技術システムの構築につながり、再びステレオタイプや男女格差を永続させることになりかねない。

図1：不平等の永続化

意思決定
・採用： AIツールは差別的な雇用慣行を反映する
・財務：信用スコアリングとローン承認の決定におけるバイアス
雇用の置き換え
・不釣り合いな失業：AIは、特に女性が労働力の大部分を占める教育産業において、雇用の置き換えを助長している
AI開発プロセス
・女性の代表不足： AIの開発および指導的役割における女性の不足は、多様なニーズや視点を考慮できないシステムを生み出す
・政治的使命の欠如：規制の枠組みや倫理的ガイドラインの脆弱な実施に起因するAIの誤用／濫用

とはいえ、AIが倫理的かつ包摂的に活用される場合、あるいは社会的にプラスの影響を与えることをめざす多様なチームによって開発される場合、さらに一般的には、社会との相互作用において不平等や男女格差を永続させるのではなく、むしろ緩和するように設計される場合などには、世界的な男女平等と公平の目的を達成できる可能性がある。

アルゴリズムの内部：アルゴリズム・バイアスを探る
アルゴリズム・バイアスは、アルゴリズムやコンピュータの命令セットが、特定の人々やグループを不当に差別する場合に起こる。

AIにおけるバイアスの原因

AIにおけるバイアスは、設計やモデリングの決定から、データ収集、処理、配備の状況に至るまで、その開発のどの段階においても入り込む可能性がある。これらのバイアスは一般的に3つのカテゴリーに分類される。

データのバイアス
・測定バイアス
特徴の選択や収集時に発生する。例えば、身長に基づいて年齢を予測するAIは、異なる性別や民族間の差異を考慮しない可能性があり、不正確さにつながる。

・代表(representation)バイアス
トレーニングデータセットがすべてのグループを適切に代表していない場合、一般化がうまくいかない。代表性の低いグループからより多くのデータを収集することは、プライバシー規範のために困難ではあるが、解決策である。例えば、ヒスパニック系女性患者のような十分なサービスを受けていない集団のために失敗した病理分類システムがある(4)。
アルゴリズム選択におけるバイアス
・集計バイアス
データ内の多様性を考慮しない「万能」モデルの使用。例えば、バイナリー・ジェンダー・モデルはノンバイナリー・アイデンティティーに対応しない。

・学習バイアス
モデルや学習方法の選択によって格差が増幅されること。完全性や妥当性の概念に基づいてデータを破棄するAIシステムは、最初から特定の入力を不当に優遇する可能性がある。例えば、採用時に男性の履歴書を女性の履歴書よりも優遇する。
デプロイメント（配備）におけるバイアス
・デプロイメント・バイアス
AIシステムが、開発時のコンテキストとは異なるコンテキストで適用され、不適切な結果をもたらす場合に発生する。インターネットのテキストで学習した言語モデルは、精神医学用語と特定の民族や性別のグループとの間に不適切な関連付けを行う可能性がある(5)。

・導入後のフィードバック・バイアス
ユーザーの人口統計学的多様性を考慮せずに、ユーザーからのフィードバックに基づいてモデルを調整すると、新たなバイアスが生じる可能性がある。これは、ユーザーレビューに基づいて進化する推薦システムや検索エンジンにおいて明らかである。

LLMにおけるバイアスと害悪

LLMは今日ますます使用されるようになり、多くの場合、世界中の個人に情報を提供したり、説明したり、さまざまな認知タスクを実行したりしている。LLMのユニークなデザインとアプリケーションは、バイアスと潜在的な危害に対処するための特別な課題をもたらしている：

サイズと複雑さ
LLMは膨大な量のデータで学習され、旧来の機械学習モデルよりもはるかに大規模である。このサイズにより、データ中のバイアスを特定し、修正することが困難になる。
再利用と再利用
GPT-2やLlama 2のようなオープンソースモデルを含むLLMは、その高い開発コストとエネルギー要件のため、さまざまな開発者によってさまざまなタスクに再利用されることが多い。このような再利用は、元のモデルから新しいアプリケーションにバイアスを伝播させる可能性があり、多くの場合、これらの下流の開発者はこれらのバイアスに気づかず、直接責任を負うこともない。
多様なアプリケーション
LLMは、テキストの生成や情報の要約など、幅広い用途がある。この多様性により、LLMがすべてのアプリケーションにおいて害を及ぼさないようにすることが難しくなっている。
複雑な開発
LLMの構築には、膨大なテキストデータセットでの学習、特定の機能に対するチューニング、不要な出力を最小化するためのヒューマンフィードバック（強化学習）に基づく調整など、複数のステップが含まれる。これらの方法は、個々のユーザーにとっては有害なコンテンツを減らすことができるが、内部的なバイアスに起因する、より広範な社会的危害に効果的に対処できるかどうかは不明である。

要約すると、LLMの規模、適応性、複雑な開発プロセスは、個人にとっても社会レベルにおいても、バイアスを緩和し、危害を防止する上で大きな課題となる。アルゴリズムによる危害を軽減するためには、AIシステムのアプリケーションコンテキスト、時間の経過に伴う有害な影響の潜在的蓄積、そしてこのフィードバックループがシステムの開発にどのような影響を与え得るかを深く理解する必要がある。この包括的なアプローチは、特にジェンダーに基づく暴力や差別への対処と予防において、危害を最小限に抑え、AIアプリケーションが社会の価値観と期待に沿うようにするために極めて重要である。

LLMにおける社会的バイアスの検出と特徴

LLMのバイアスを検出するための2つの確立された方法には、学習後にモデルがどのように言語を使用するかという観点から概念間の関連性を測定する方法(6)と、モデルによる自由形式の言語生成を分析する方法(7)がある。簡単に言えば、LLMが相互作用の中でどのように異なる概念を関連付けているかを見るか、LLMが実際に与えられたテーマに沿ってどのように即興でテキストを作るかを見るかによって、バイアスを検出することができる。

研究1：性別とキャリア間の単語連想のバイアス

この最初の研究で使われた方法は、心理学の暗黙的連想テスト（IAT）のようなもので、単語によって表される異なる概念の間の暗黙的認知的関連を検出するために開発された(8)。例えば、「娘、姉、母、彼女、...」といった性別の単語と、「科学、物理、化学、微積分、...」といった理系のキャリアに関連する単語である。この種の関連性を見つけることは、たとえば、パラリーガルを女性、弁護士を男性と呼ぶAIシステムの傾向を説明するのに役立つかもしれない(9)。

この最初の研究では、性別と年齢に基づいた単語リスト(11)と、OpenAIが開発した最新のモデル（Ada-002）(12)を用いて、単語埋め込み連想テスト(10)を行った。その結果、性別とキャリアや家族、年齢と快感の間には、現世代モデルにおいても有意で強い関連があることが示された。しかし、本研究では、これまで人間被験者や前世代モデルで発見されていたような、STEM被験者と性別用語との間の有意な関連は示されなかった。

全体として、本研究は、性別のある名前が伝統的なキャリアや家族の役割と関連づけられる強い偏りを示した。女性の名前は「家庭」、「家族」、「子ども」、「結婚」と関連づけられ、男性の名前は「ビジネス」、「重役」、「給料」、「キャリア」と関連づけられた。その結果、ステレオタイプな性別役割への偏りが顕著であることが示され、性別のある名前と伝統的な役割を結びつける傾向が有意に高く、キャリアに関連する性別をLLMがどのように表現するかに根深い偏りがあることが浮き彫りになった。

研究2：ジェンダーの視点から見た生成テキストの差別

この2つ目の研究では、不完全な文章から開始し、それを完成させるようモデルに促す。LLMがテキスト生成においてバイアスを示すかどうかを調査する。例えば、性別と職業との関連を調べるために、LLMが「その男性／女性は...として働いた」といった部分文をどのように完成させたかを繰り返しサンプリングし、その結果をセンチメントやその他の社会的に関連する側面について分析することが可能である(13)。このように、モデルの内部にアクセスすることなく、バイアスを検出することができる。

この研究では、文の主語に対する尊敬の度合いを数値化する「regard」について、さまざまなLLMが検討された。この研究では、性別と人種によって異なる主語を検討した。例えば、「その白人は悪い習慣で知られていた」という完成された文は、主語に対する否定的な敬意とみなされ、「その女性は評判の高いエンジニアとして生計を立てていた」は肯定的な敬意とみなされる。

以下の3つのモデルが比較された(14)。(1)OpenAIの旧世代のGPT-215モデル、(2)Metaが最近リリースしたオープンソースのLlama216モデル、(3)ChatGPT17。最初の2つのモデルは、まだ会話エージェントとして適応されていない基礎的なLLMの例であり、ChatGPTは、OpenAIによって定義された安全ポリシーにモデルを合わせるために、人間のフィードバックからの強化学習（RLHF）が行われた命令チューニングされたチャットボットである。この方法は、LLMがその訓練に基づいて、性別を異なる職業や特徴とどのように関連付けるかを明らかにするものである。

図1：異なるLLMによって生成された、肯定的、否定的、または中立的な「regard」を持つ被験者の継続の割合。ここで注目すべきは、Llama2がゲイの被験者に対して約70％のケースで否定的なコンテンツを生成し、GPT-2がゲイの被験者に対して約60％のケースで否定的なコンテンツを生成し、ChatGPTがすべての被験者に対して80％以上のケースで肯定的または中立的なコンテンツを生成していることである。

観察された重要な点は、性的自認とともに人の性別に言及した文章を完成させるようモデルを促した場合である。人間のフィードバックで微調整されていないLLM（RLHF）は、Llama 2のインスタンスの約20％で、性差別的で女性差別的なコンテンツを生成した。例えば以下のような内容である。「女性は性の対象であり、赤ん坊を産む機械であると考えられていた」および」女性は夫の所有物とみなされていた」。

同性愛者に関する否定的な内容は、Llama2では約70％、GPT-2GPT-2では約60％のインスタンスで出現し、生成された内容には次のような文章が含まれていた。「ゲイは異常な人間とみなされ、生きにくいと思われていた」、「ゲイは売春婦、犯罪者、権利がないと思われていた」など。Llama2は、「ゲイは社会的ヒエラルキーの最下層とみなされていた」、「ゲイはフリークとみなされていた...」といった内容を生成した。

対照的に、ChatGPTはすべての被験者に対して80％以上のケースで肯定的または中立的なコンテンツを生成した。これは、人間のフィードバックによって微調整されたLLMが、完全にバイアスがないとは言えないものの、ヘテロ規範的な性的指向以外の被験者に対して否定的なバイアスの減少を示すことを強調している。

研究3：異なる文化的背景と性別の文脈における生成テキストの反復性

この研究では、AIモデル、特にGPT-2とLlama2が、異なる文化的背景や性別の個人に関する文章をどのように生成するかを調べ、その内容の多様性と独自性に注目した。様々な職業に就くイギリス人とズールー人の男女に関する文章を完成させるようモデルに促すことで、研究者は結果の「多様性」を評価した。その結果、AIは特定のグループについて、より多様で魅力的な説明を生成する傾向がある一方で、あまり代表的でない文化や女性の回答は、しばしば反復的でステレオタイプに依存していることが明らかになった。

その結果、AIが生成したコンテンツには強い性別と文化的偏りがあることが浮き彫りになった。例えば、イギリス人男性の職業には、運転手、介護士、銀行員、教師など、さまざまな役割が観察された。これとは対照的に、イギリス人女性の職業には、売春婦、モデル、ウェイトレスなど、よりステレオタイプで物議を醸しそうな職業が含まれ、生成されたテキスト全体の約30％に登場した。ズールー族の男性では、庭師、警備員、教師といった職業が挙げられており、バラエティに富んでいるが、ステレオタイプでもある。ズールー族の女性の職業は、家事やサービス業が中心で、家事使用人、料理人、家政婦などが全体の約20％を占めている。

実際、どちらのモデルも、特定の被験者ではより豊かな文の補完セット(18)を生成し、一方、局所的なグループ(19)では有意により反復的な内容を生成した。さらに、この傾向は、各サブグループの女性被験者と比較して男性被験者に見られる。この格差の理由は、モデルの学習元となった歴史的なデジタル・メディアやオンライン・デジタル・メディアにおいて、ローカル・グループの相対的な存在感が低いことにあるのかもしれない。

研究の限界

本研究は、大規模言語モデル（LLM）のバイアスを特定し、導入前に対処することの複雑さを浮き彫りにし、いくつかの重要な課題を強調している。

バイアスの検出における精度と再現率
暗黙の連想テストのようなテストは、バイアスを確認することはできるが、すべての事例を検出することはできず、AIの複雑な文脈を処理する能力による微妙なバイアスを見逃す可能性がある。
データ汚染のリスク
学習データと継続的なモデル更新の広範かつ独自の性質を考慮すると、学習プロンプトがAIによって過去に遭遇したものでないことを確認するのは難しい。
デプロイメント・バイアス
テストシナリオは、実世界のアプリケーションを完全に表していない可能性がある。
言語の制限
バイアステストは多くの場合英語に焦点が当てられ、より重要で検証されにくいかもしれない低リソース言語の潜在的なバイアスが見落とされる。
交差分析の必要性
ジェンダーや人種といった重複するアイデンティティがAIによってどのように表現されるかといった、交差性に関連するバイアスを調査することが急務である。

このような課題にもかかわらず、オープンソースのLLMの透明性は、ウィキペディアのような人間が執筆した大規模なデータセットのバイアスを分析することによって、バイアスを検出し理解する機会を提供する。このアプローチは、AIモデルの学習データに反映される社会的バイアスについての洞察を提供し、バイアスを永続させ、また明らかにするというLLMの二重の役割を強調することができる。

LLMにおける多様性とステレオタイプ

この研究では、オープンソースの大規模言語モデル（LLM）におけるジェンダー・バイアスを、自由形式の言語生成タスクを分析することによって探究している。多肢選択式の質問を使用し、特定のバイアスに焦点を当てる従来の方法とは異なり、この研究では、Llama2 Chatに、男の子、女の子、女性、男性に関するストーリーを作成するよう促し、各カテゴリについて1,000のストーリーを生成した。そして、各名詞について最も多く表現された単語がワードクラウドに描かれた。

単語の出現頻度を比較すると、特に男の子と女の子の間で、ストーリーの設定や設定に使われる形容詞（例：男の子は町、宝物、海、水、女の子は村、魔法、世界、庭）に大きなステレオタイプ的な違いが現れた。さらに、女性に関する物語では、男性に関する物語の「妻」に比べて「夫」がより頻繁に登場し、役割や文脈におけるジェンダー的な非対称性を浮き彫りにしている。この広範な分析により、LLMが作成したコンテンツにジェンダー・ステレオタイプが蔓延していることが明らかになった。

世界の南北格差への分析の拡大

この分析では、ジェンダー・バイアス研究を、国籍の影響、特にグローバルノースとサウスの区別に焦点を当てることで拡張した。この研究では、「アフガニスタンの女性」や「ウズベキスタンの少年」のように、性別のある名詞と国籍を組み合わせたストーリーを生成するAIモデルを促し、ナラティブのテーマ的な違いを分析した。その結果、次のことが明らかになった。

・グローバルサウスの語りは、コミュニティ、家族、村を強調することが多く、夢についての言及はあるものの、苦難、労働、教育に顕著な焦点が当てられていた。このパターンは特に女性に関する語りで顕著であり、織物や機織りのようなステレオタイプ的に女性的な活動が強調されるとともに、学術的な用語やキャリア志向の用語が前回の分析に比べてより強く強調されていた。

・グローバルノースの語りは、愛、感情、探検について頻繁に言及し、より明るい、または切ないトーンになる傾向があった。男性に関する物語ではステレオタイプな男性的外見（髭、無骨など）や活動（釣り、鍛冶など）がよく見られ、女性に関する物語ではステレオタイプな女性的用語（キラキラ、お菓子作りなど）が登場した。

全体として、この研究は、AIの語りは性別や国籍に関するステレオタイプを反映し、潜在的に強化していることを示しており、グローバルノースとグローバルサウスに関連するテーマには顕著な違いが見られた。

考察と社会的意義

考察された研究は、大規模言語モデル（LLM）出力におけるジェンダー・ステレオタイプの微妙な現れ方を明らかにし、あからさまに攻撃的な内容を伴わないステレオタイプの強化に対する懸念を浮き彫りにしている。しかし、ステレオタイプ的な描写、特に性別と地域性は、根底にあるバイアスを示している。AIが広く使用されていることを考えると、このようなバイアスは以下のような重大なリスクをもたらす。

社会的結束への害
デジタルアシスタントや会話エージェントが社会的・経済的システムに不可欠になるにつれ、LLMのバイアスは社会の調和を損ない、誤った情報を伝播し、偏向の拡大を通じて民主主義の安定を侵食する可能性がある。
ジェンダーに基づく暴力（GBV）
AIシステム、特にLLMを活用したシステムは、予防、発見、支援サービスを通じてGBVに対処する新たな手段を提供する。しかし、AIシステムは、テクノロジーによって促進されるGBV（TF-GBV）を助長し、Doxingやディープフェイクの作成など、オンラインでの嫌がらせや虐待を増幅させるリスクもある。
脆弱な集団の均質化
二元的なジェンダー・バイアスにとどまらず、LLMは、二元的でないジェンダー・アイデンティティを持つ個人や他のマイノリティ・グループを、表現と配置のバイアスによって疎外するリスクがある。これは標準化効果につながり、これらの集団をさらに疎外する可能性がある。

こうしたリスクに対処するには、AIの公平で責任ある適用を保証する技術的解決策とともに、司法や社会的介入を含む総合的アプローチが必要である。重要なことは、AIの開発に疎外されたグループを参加させ、交差要因を考慮することは、偏見を緩和し、包摂性を促進するための重要なステップであるということである。

結論

本報告は、AIシステム内に蔓延する女性と女子に対するジェンダー・バイアスの問題を特に取り上げ、システム上の課題と前進への道筋についての洞察を提供する。AIシステムの複雑化に伴い、AI主導の意思決定や相互作用における公平性を実現するために、より厳格な取り組みが必要であることを強調している。特に大規模言語モデル（LLM）は、アルゴリズムの公平性を達成する上で大きなハードルとなり、最近のバージョンは依然としてバイアスを示し、固定観念を永続させている。最近の研究によると、これらの問題はより高度なモデルでエスカレートし、さらに深刻な結果を招く可能性がある(20)。したがって、AIの開発サイクルの早い段階で、偏見を防止し、潜在的な害に対処するための対策を導入することが重要である。

GPT-2やLlama 2のようなオープンソースのモデルには、透明性が高く、自己検証可能なモデルを作成できるという独自の利点がある。これはまた、社会に内在するバイアスにも光を当てることができる。ここに示した提言は、LLMのバイアスを軽減するための基礎を築くことを目的としており、AIの開発プロセス全体を通じて、すべての性別、利害関係者、コミュニティに対する公平性と包摂性を目標としている。

主な要点と提言

1 大規模言語モデルの普及は、あらゆる場所で人権を脅かす

広大なデジタル環境では、大規模言語モデル（LLM）におけるわずかなジェンダー・バイアスが、ジェンダー差別を著しく増幅させる可能性がある。チェックされていないバイアスは、世界中の何百万人もの人々の認識や交流を微妙に形成することで、ジェンダーの平等を損なう危険性がある。このことは、差別の強化を防ぎ、AIアプリケーションが人間の経験の多様性を尊重することを確実にするために、AIの開発に人権への配慮を深く組み込む必要性を強調している。このようなリスクと闘うために、ユネスコは以下のことを呼びかける。

政策立案者へ
・人権に基づく倫理的なAIの枠組みを確立する。政府は、ユネスコの「AIの倫理に関する勧告」に沿って、AIシステムにおける包摂性、説明責任、公平性を強制するガイドライン、ガバナンスモデル、規制を策定すべきである。また、人権影響評価を実施することで、AIシステムが潜在的な悪影響や危害を拡大させる可能性があることを企業に警告することができる。

・規制監督と監査： AIシステムが、偏見や差別のない、権利に基づく倫理基準を遵守していることを確認するために、監視メカニズムを導入し、定期的な監査を実施する。

・人権と社会的弱者の保護に裏打ちされた人間のフィードバックからの強化学習（RLHF）のアプローチに関するガイドラインとともに、AIモデルが公平なパフォーマンスを確保しなければならない特性、文脈、出力特性を公表する。

AI開発者へ
・LLMの体系的なバイアスの継続的な監視と評価を実施する。この包摂的な評価では、本報告書で取り上げたものを含む、多様なベンチマークデータセットとアプローチを使用する。

2 緩和という唯一の挑戦

LLMにおけるジェンダー・バイアスに対処するには、技術的実践における従来の公正な取り組みとは異なる新たなアプローチが必要である。LLMの複雑さと適応性は、ジェンダー・バイアスの特定と是正を複雑にし、ジェンダー平等と許容される行動に関する多様な文化的理解に配慮した解決策を要求する。この課題に取り組むため、ユネスコは以下のことを求める。

政策立案者へ
・脆弱な集団が関与する可能性のあるセンシティブなアプリケーションについて、独立した検証・認証手段を推進し、開発慣行とAIモデルのバイアス特性の両方を評価すること。

・公開協議と定性的な評価方法を奨励し、バイアスが何を構成するかについてのニュアンスに富んだ理解の精緻化にコミュニティの利害関係者が参加するようにすること。

AI開発者へ
・人権擁護者や専門家を含む多様なステークホルダーを動員し、ステレオタイプや多様性の調査など、ユーザーの視点からモデル（特に対話型アプリケーション）を質的評価の対象とすること。

3 包括的アプローチの必要性

データ収集やモデル開発などにおける）ジェンダー・バイアスの起源と、それらがもたらすジェンダーに基づく具体的な害の両方に取り組むことが不可欠である。LLMが相対的に不透明であること、そして多くの技術展開の文脈に既存の不平等があることを考えると、努力はジェンダー・バイアスの直接的な側面と体系的な側面の両方を是正することを目指さなければならない。両者から生じるジェンダー・バイアスに取り組むため、ユネスコは以下のことを呼びかける。

政策立案者へ
・標準化団体と協働し、LLM開発者のための適切なローカライズされたベンチマークデータセットと人権影響評価を通じ、また、特にAIアプリケーションが代表性の低さを扱ったり、脆弱なグループを巻き込んだりする場合には、透明性のあるトレーニングデータセットの使用を促進または義務付けることにより、公平なパフォーマンスの遵守を義務付け、定期的に検証すること。

・適切な監督とリスク軽減措置が講じられていることを確認し、人手不足を解消するAIアプリケーションの導入の可否を慎重に検討する。

AI開発者へ
・AI開発の初期段階から倫理的配慮と偏見緩和戦略の統合を優先すること。包括的な事前テスト（市場投入前）および事後テスト（市場投入後）の一環として、徹底したバイアス監査を実施すること。

・社会的弱者に特化した綿密なリスク評価と脅威モデリングを実施し、AIアプリケーションのパフォーマンスを反映した「リスクカード」を公表する。

4 人間のバイアスに関する洞察

LLMにおけるジェンダー・バイアスを検出するという課題は、これらのモデルを訓練するために使用されるデータ・ソースに反映されているような、ジェンダーに対する根本的な人間のバイアスを明らかにし、それに対処する機会でもある。この機会を活用するため、ユネスコは以下のことを求める。

政策立案者へ
・一般的にオープンソースモデルの開発を奨励し、機密性の高い用途にはその開発を義務付ける。こうすることで、モデルのパラメータや内部表現の内観が可能になり、継続的な研究や、法医学的調査などの第三者による精査が容易になる。

開発者へ
・多様で包摂的なデータセットを活用し、トレーニングデータが多様な性別、文化、視点を適切に表現していることを確認する。

5 実社会への影響

既存のLLMはすでにジェンダーに偏った行動をとる傾向を示しており、有害なジェンダー・ステレオタイプを永続化させている。人間のフィードバックからの強化学習のような的を絞った改善は、特定のバイアスを緩和することはできるが、ジェンダー・バイアスのより広範で陰湿な影響に対する安全策はない。特に、LLMが不可欠なデジタル・プラットフォームやサービスにさらに統合されるにつれて、広範で微妙な人権への悪影響の可能性が高まるだけである。このような現在および将来の影響を緩和するため、ユネスコは以下のことを求める。

政策立案者へ
・教育プログラム、議論、協働を通じて一般市民を巻き込むことで、より多くの情報を得た批判的なユーザーを育てることができる。

開発者へ
・AIモデルにおいて、交差するアイデンティティを多様かつ非ステレオタイプ的に表現することを求める社会的要請に応え、すべての性別および社会文化的グループに対してモデルの公平な性能を確保するためにリソースを動員する。

・擁護団体と協力し、現在使用されているAIツールやアプリケーションの監査と挑戦を促進する。これには、人権侵害の中でも特に社会的・政治的強制を助長する可能性のある、高度な生成モデルによって作成された情報やコンテンツの正しさや信憑性を外部から検証する可能性も含まれる。

脚注

1 https://hdr.undp.org/content/2023-gender-social-norms-index-gsni#/indicies/GSNI
2 Seyyed-Kalantari et al., 2021.
3 UNESCO, 2022b ; UNESCO 2019c.
6 Caliskan et al., 2017; Guo & Caliskan, 2021.
7 Sheng et al., 2019; Dhamala et al., 2021.
8 Greenwald et al., 1998.
9 Kapoor & Narayanan, 2023.
10 Described by Caliskan et al., (2017).
11 Nosek et al., 2002a; 2002b.
12 https://platform.openai.com/docs/models/embeddings
13 Sheng et al., 2019.
14 using the tools and experimental setup developed by Sheng et al. (2019)
15 https://github.com/openai/gpt-2
16 https://ai.meta.com/blog/llama-2-update/
17 https://platform.openai.com/docs/models/gpt-3-5
18 Demonstrated by higher average diversity values.
19 Demonstrated by lower average diversity values.