【論文紹介】Estimation of Fair Ranking Metrics with Incomplete Judgments

文献情報

タイトル:Estimation of Fair Ranking Metrics with Incomplete Judgments
著者:Ömer Kırnap, Fernando Diaz, Asia Biega, Michael Ekstrand, Ben Carterette, Emine Yilmaz
会議:TheWebConf 2021

概要

例えば本をユーザに推薦する際に、上位30件の著者の性別が男女同数であるような公平性を満たしたいとする。著者の性別のメタデータがすべての本に付与されていれば、どの程度公平性を満たしているかは、全ユーザの推薦結果の男女比の平均を計算するなどして調べられる。しかし、そのようなメタデータが無い場合、全ユーザの推薦結果上位30件を対象に著者の性別を人手でラベル付けするのは時間や費用のコストの問題で難しい。そこで本研究では、各ユーザの上位30件の一部をサンプリングしてラベル付けすることで得られる男女比が、上位30件の真の男女比に近づくようなサンプリング手法を提案する。
複数の検索クエリの検索結果をサンプリングして検索システムがどの程度公平性を満たしているかを調べるといったように、提案手法は情報検索にも適用可能。

従来研究との差異

ラベルが付与されたデータを用いて、検索結果や推薦結果の公平性を測るための指標は色々と提案されてきたが、ラベルが存在しないデータを対象に、少数のデータをサンプリングしてそうした指標の高精度な推定を目的としている点に新規性がある。

手法

公平性の指標としては、大きく分けて以下の2種類を考慮。

  • Exposure-based representation:推薦結果中のアイテムの順位も考慮。例えば本の推薦結果上位30件のうち著者の男女が15件ずつでも、男性が上位15件で女性が下位15件であれば不公平とみなす。高順位のアイテムほど高いスコアを与えて、男女それぞれのスコアの和が同程度であれば公平とみなす。

  • Representation target:推薦結果中のアイテムの順位は考慮しない。例えば本の推薦結果上位30件のうち著者の男女が15件ずつであれば公平とみなす(Parity)。他にも、データセット全体での男女比と上位30件の男女比が同じであれば公平とみなす指標(Proportionality to the corpus presence)などのバリエーションがある。

サンプリングにあたっては、まず推薦結果の各アイテムに対してサンプリングの確率を計算する。このとき、高順位のアイテムほど高い確率が割り当てられるようにする。そのうえで、例えば各ユーザの上位30件の推薦結果のうち5件にだけ人手でラベル付けしたければ、ランキングの上位から6個ずつ5グループに推薦結果を分割する。各グループに属するアイテムのサンプリング確率の平均値をグループのサンプリング確率として、その確率に応じてグループを5回サンプリングする。サンプリングされたグループには6個のアイテムが含まれるので、その中の1個をランダムサンプリングし、ラベル付けに用いる。

サンプリング確率が低いグループのアイテムに付与されたラベルをより重視するようにして(例えば確率が0.2のグループからサンプリングした本の著者の性別が女性であれば、女性が観測された回数を0.2の逆数である5回とする)、男女比の推定値を計算する。

実験

人工データと実データ(TRECと書籍推薦)を使用。比較手法として、推薦結果の上位30件から5件を完全にランダムにサンプリングするような手法を使用(他にも、一部のデータのみにラベルが付与されている場合に、推薦結果からラベルの存在しないアイテムを取り除く手法とも比較)。
いずれのデータセット、いずれの公平性の指標でも、提案手法の方が真の属性値の比率(書籍であれば男女比)に近い値を推定できていた。例えば書籍データの実験結果では、以下のように比較手法(○印)よりも提案手法(✕印)の方が男女比の推定値と真の値が近い傾向にあることがわかる(図は論文より引用)。図の各点は一人のユーザ(に対する推薦結果)を表している。

この記事が気に入ったらサポートをしてみませんか?