見出し画像

Grammatical and Semantic Biases in Representation Learning from Raw Datasets

邦訳:生データを用いた表現学習における文法・意味バイアス

金子正弘

(東京工業大学 研究員)

画像2

------------------ keyword ------------------
自然言語処理
分散表現
データの偏り

----------------------------------------------

【背景】大規模なデータで分散表現を学習
【問題】データの偏りが分散表現に悪影響を与える
【貢献】学習データの偏りの影響を低減する手法の提案

 自然言語処理はテキストを理解する人工知能を作る研究分野である.テキストを理解可能にするには,まずテキストの情報をコンピュータが読み込めるように数値に置き換える必要がある.テキストの文法や意味に関する情報を表現した数値を分散表現と呼ぶ.単語間の関係や文の意味を正しく捉えた質の高い分散表現を獲得することはテキストを扱うシステムの性能改善につながる.近年の自然言語処理ではWikipediaやWebニュースデータなどの大規模なデータを使い,単語や文の共起から分散表現を学習することが主流となっている.

 一方で,大規模データでは文法や意味に関して偏った分布になっていることが知られている.このようなデータを用いると少数の素性より多数の素性を優先し,バイアスを含んだ分散表現が学習されてしまう.文法に関する文法バイアスであればデータセットに含まれるテキストの大部分は「私は医者である」のように文法的に正しく,「私に医者である」のように文法的に誤ったテキストはほとんど含まれていない.このように文法的に偏ったデータで学習された分散表現は文法誤りを考慮できていない.そのため,文法誤り検出や文法誤り訂正のように文法が誤ったテキストを扱うタスクに最適な情報を学習できていない.意味に関する意味バイアスでは,単語同士の共起頻度の違いにより意味に関する偏った情報を分散表現が学習してしまう.たとえば,データセットに「彼女は看護師である」のように「彼女」と「看護師」が共起した文は「彼女は医者である」のように「彼女」と「医者」が共起した文より高頻度に含まれている.一方で,「彼」と「医者」が共起した文は「彼」と「看護師」が共起した文より高頻度である.このようなデータを使った場合,分散表現は共起の偏りから「看護師」は女性であり「医者」は男性であるというバイアスを学習してしまう.

 そこで,本研究ではこれらのバイアスの影響を低減するために,(1) 学習されたバイアスの除去する手法と(2)データセットの偏りをなくす手法を提案した.(1)のバイアスの除去では,学習されたバイアスを分散表現から取り除く.たとえば,意味バイアスの性別に関するバイアスであれば「医者」や「看護師」のように性別情報を保持する必要がない分散表現から性別情報を取り除く.(2)の偏りをなくす手法では,少数のデータを増やすまたは重点的に学習することで分散表現がそれらのデータを考慮して学習できるようにする.たとえば,文法バイアスであればテキストデータに対して,擬似的な誤りを発生されることで文法的に正しいテキストと誤ったテキストの両方を考慮できるようにする.図は意味バイアスにおける2つの手法を示している.これらの手法はテキストを扱う人工知能のバイアスを低減することができる.

画像1


■研究ブログ
https://masahiro-kaneko.com/

(2021年5月31日受付)
(2021年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月日:2021年3月
 学位種別:博士(情報科学)
 大学:東京都立大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文:(自然言語処理研究会)
本研究は自然言語処理において文や単語をどのように表現すればいいか,という問題に対して,人手でメタ情報を付与していない生のデータから表現を学習する際に生じる文法や意味のバイアス(たとえば性別バイアス)についての研究を行ない,さまざまな深層学習の手法を駆使して,人工知能分野のホットな話題に切り込んでいます. 


画像3

金子正弘

研究生活:自分は研究の問題を解決するためにアイディアを出すところが好きなため,特に研究テーマに対してこだわりはなく,そのときに面白そうだと思ったことに取り組んできました.そのため,最終的に異なるテーマの研究に取り組むことになり,博士論文としてまとめるのに苦労しました.そして,このような苦労以外にも博士課程では進捗がでないことや論文に採択されないなどのつらい部分があります.博士課程を楽しみながらサバイブするコツは研究に対して気負いすぎないことと自分の心がときめくことを優先することだと思います.