見出し画像

機械学習のバイアス問題について

AIのバイアス問題とは、データセット内の特定の要素が他の要素に比べて重要視されたり、典型的なものだと判断されてしまったりする誤りのことです。バイアスを含んだデータセットはモデルの活用事例を正確に反映していないので、結果に歪みが生じ、精度の低下や分析の誤りにつながります。

機械学習用の教師データは一般的に、実世界を代表するものでなければなりません。マシンはこのデータからタスクのやり方を学ぶので、これは重要なことです。データのバイアスは、人間の報告バイアスや選択バイアスからアルゴリズムの解釈バイアスに至るまで様々な原因によって生じます。

機械学習プロジェクトのバイアスを解決するためには、まず、どこにバイアスが存在するのかを見極めなければなりません。それを検出して初めて、欠けているデータを補充したり、アノテーションのプロセスを改良したりするなど、修正に必要な手順を実行できます。また、可能な限りバイアスを避けるためには、データの範囲や品質、取り扱いに注意を払うことがとても重要です。データバイアスはモデルの精度だけでなく、倫理や公平性、インクルージョン(包括性)の問題にも影響を与えるからです。

以下に、機械学習における最も一般的なデータバイアスの種類を七つ挙げました。どこでバイアスが生じるのか、そして、それに対してどのように対処すればよいのかを分析し、理解する上でお役に立てれば幸いです。

サンプリングバイアス: データにモデルの実際の活用環境が正確に反映されていない場合に生じます。例えば、主に白人男性の画像を使って学習させた顔認識システムは、女性や異なる人種の画像を与えると、精度が大幅に低下します。サンプリングバイアスは、選択バイアスとも呼ばれます。

除外バイアス: データ前処理段階で最もよく発生するバイアスであり、貴重なデータが重要でないと判断され、除外されてしまうことから生じるケースがほとんどです。また、特定の情報が体系的に除外されることから発生することもあります。例えば、日本と中国の顧客の購買情報に関するデータセットがあるとしましょう。顧客の98パーセントは日本人であることから、位置データは重要ではないと考えて削除してしまうと、中国人顧客の購入金額は日本人顧客の二倍であるという事実をモデルが学習できないことになります。

測定バイアス: 学習のために収集されたデータが、実世界から収集されるデータと異なる場合、または測定に誤りがある場合に生じます。教師データと本番用データが、異なるタイプのカメラを使って作成された画像認識データセットは、このバイアスが生じる良い例です。そのほか、測定バイアスは、アノテーションが一貫性を欠いていることから生じることもあります。

想起バイアス: 測定バイアスの一種であり、プロジェクトのアノテーション段階でよく起こります。想起バイアスは、データのアノテーションが一貫性を欠いている場合に発生し、モデルの精度の低下につながります。例えば、電話の画像に「破損あり」、「一部破損」、「破損なし」のアノテーションを付ける場合を考えてみましょう。「破損あり」とラベル付けされたものと同様の画像が「一部破損」とラベル付けされてしまうと、データは一貫性を維持できなくなってしまいます。

観察者バイアス: 確証バイアスとも呼ばれ、人間は自分が見たいもの・見ることを期待しているものを見る傾向があることから生じます。これは、研究者が意識的にせよ、無意識的にせよ、研究に関して主観的な考えを持ってプロジェクトに携わる場合に発生することがあります。同様に、アノテーターの主観がラベル付けに影響を及ぼしている場合もデータが不正確になります。

人種バイアス: 人種バイアスは本来、バイアスではありませんが、今日のAIテクノロジーにおいてしばしば問題になっていることから、ここで言及しておくことが望ましいでしょう。人種バイアスは、特定の人口統計学的属性に有利になるようにデータが歪められていることを意味します。顔認識や自動音声認識技術が、白人と比べて有色人種を正確に認識できないことは、このバイアスが働いていることを示しています。Googleのインクルーシブな画像コンテストには、このバイアスがどのように起きるかに関する良い例が含まれています。

連想バイアス: これは、機械学習用データによって文化的バイアスが強化されてしまうことを意味します。例えば、職業に関するデータセットで、医師が全て男性、看護師が全て女性であったとしても、それは女性が医師になれないとか、男性が看護師になれないということを意味しているわけではありません。しかし、そのデータセットを与えられた機械学習モデルは、女性の医師や男性の看護師が存在しないと学習してしまうのです。連想バイアスは、Excavating AI(AIの発掘)研究でも明らかなように、ジェンダーバイアスを作り出すことで知られています。

機械学習プロジェクトにおけるデータバイアスを防ぐには

機械学習プロジェクトにおけるデータバイアスを防ぐ方法については、現在も模索が続いています。データやモデルのバイアスを見つけるのは困難な場合もありますが、バイアスを防いだり、早期に検出したりするために役立つ手順がいくつかあります。以下のリストは決して包括的なものではありませんが、機械学習プロジェクトにおけるデータバイアスに関するヒントを箇条書きにした初級レベルのガイドです。

・可能な限り、ユーザーについて事前に調査してください。一般的な活用事例や外れ値について知っておきましょう。
・データサイエンティストとアノテーターの多様性を確保したチームを作るようにしましょう。
・可能な限り、複数のソースからのデータを組み合わせ、データの多様性を確保してください。
・アノテーションの黄金律(ゴールドスタンダード)を作成してください。黄金律(ゴールドスタンダード)とは、タスクにとって理想的なアノテーション方法を用いてラベル付けされたデータセットのことです。これを用いて、チームのアノテーションの精度を測定する事ができます。
・どのようなアノテーションを期待しているのかを示す明確なガイドラインを作成して、アノテーターが一貫したラベル付けを実行できるようにしましょう。
・データの精度にばらつきが生じやすい場合、同一のデータを複数のアノテーターにラベル付けしてもらうとよいでしょう。これに当てはまる例としては、感情分析、モデレーション、検索エンジンやチャットボット用の意図認識が挙げられます。
・アノテーション済のデータは、ドメイン知識を持った人に確認してもらうとよいでしょう。チーム以外の人が確認すれば、チームが見逃していたバイアスに気づくかもしれません。
・データを定期的に分析してください。誤りや問題の箇所を追跡し、すぐ対処して解決できるようにしましょう。データポイントを慎重に分析してから、それらを削除するのか保持するのか決定するようにしてください。
・バイアステストを開発サイクルの一部に組み込んでください。GoogleIBMMicrosoftは様々なデータタイプのバイアス分析に役立つツールやガイドをリリースしています。

まとめ

機械学習では、潜在的なバイアスに注意を払うことが重要です。早期に適切なシステムを配置し、データ収集、アノテーション、実装の各段階を完全に把握することによって、問題が起こる前にバイアスを検出し、対処することができます。
また、高品質のデータを作成するため、多様性に富むデータサイエンティストとアノテーターのチームの構築を検討されている場合は、ぜひ当社にお問い合わせください。当社は、様々な分野における優れたデータサイエンティストと100万人以上のコントリビューターが在籍するグローバルコミュニティーを擁しており、お客様の機械学習プロジェクトに必要なデータを見極め、収集し、準備いたします。

※ 本記事は、弊社英語ブログに掲載された記事に基づいたものです。

この記事が気に入ったらサポートをしてみませんか?