見出し画像

情報推薦における多様性の測り方

この記事はnote株式会社 Advent Calendar 2022 12日目の記事です.

はじめに

多様性という言葉を最近多く耳にするようになった.情報推薦の分野でも多様性に関するトピックは注目されており,情報推薦におけるトップカンファレンスであるRecsysにおいても多く見かけるようになった.こちらのリポジトリをざっと眺めて見るとおおよそここ5年のうちに投稿された論文が多いように見える.また,Recsys 2022においてはDiversity and Noveltyというセッションが設営されているのも着目されている所以であろう.

弊社でも”多様性を後押ししよう”というミッションを掲げており,多様性に関してはメイントピックである.それはレコメンデーションに対してもそうなのだが,どのように多様性という概念を組み込んでいくかに関してはまだまだ議論の余地が存在すると感じる.そこで,既存の情報推薦分野における多様性を測る方法を調査することで,多様性に関する議論を後押ししようというのがこの文章の主題である.この文章では多様性の指標の定義には深く入り込まず,全体間を眺めることに注力することとする.

プリミティブな定義

情報推薦における多様性の指標として最も目にする機会が多いのはintra-list distance (ILD)と呼ばれる指標であろう.こちらは$${f_D(R_u|u)}$$として定義される.

$$
f_D(R_u|u) = \frac{2}{|R_u|(|R_u| - 1)}\sum_{i \in R_u}\sum_{j \neq i \in R_u} dist(i, j) [1]
$$

また,$${f_D(R_u|u)}$$のユーザ平均を取ったものとして定義されることも多い[2].記号について説明すると,$${U}$$を全ユーザ集合とし,$${u \in U}$$とする.$${R_u}$$をユーザ$${u}$$に対する推薦リストとし,$${dist(i, j)}$$はアイテム$${i}$$,$${j}$$間の距離とする.つまりILDとは推薦リスト内のアイテム同士がどれだけ離れているかとして定義される.

ここで,$${dist(i, j)}$$に関しては任意の距離関数を定義できる.例えば,ジャンルのベクトル表現同士のハミング距離として定義される場合が存在する[2].また,word2vecやbert等を活用したコンテンツのベクトルや行動ログを活用したベクトル表現のコサイン類似度を利用して距離を定義すると言った方法も考えられる.

またそれ以外にも,推薦リストに含まれるアイテムのジャンル集合がユーザが過去に評価したアイテムのジャンル集合全てを表現できているかといった観点や全ユーザの推薦リストでどれだけのアイテムをカバーできているかといったCoverageのような観点での指標も存在する[2].

ランキング指標に多様性を組み込む

検索分野ではTRECと呼ばれるワークショップにおいて多様性を考慮するタスクが2008年に開催され,それを期に多様性を考慮したランキング指標に関する研究が発展している.検索における多様性に関しては大きく分類すると2つの観点が存在する.1つ目が,”MTG”というクエリに対して”ミーティング”の検索結果を与えるか,”マジック・ザ・ギャザリング”の検索結果を与えるかの曖昧なクエリに対する観点である.2つ目が,”名探偵コナン”というクエリに対して漫画の検索結果を与えるのかアニメの検索結果を与えるのかといった側面の多様性に対する観点である.これらに関しては以下の文献によくまとまっているのでそちらを参照いただきたい.

特にこちらで紹介されているα-nDCGやM-IAという指標に関しては,推薦分野の性能指標としても活用されるnDCGやMAPと呼ばれるランキング指標の拡張であるので推薦分野でも活用できる.事実,α-nDCGに関しては推薦分野での拡張が提案されている[3].解説に関しては次の2つの記事が詳しいのでそちらに任せる.

情報アクセス評価方法論の書籍の中では,多様性を考慮する指標の中に検索意図タイプを考慮する指標が存在した.検索意図には誘導型と情報収集型が存在し,適切な評価指標が異なる.また,誘導型の検索意図は最上位の検索結果のみが有用で最上位以外の検索結果に誘導型の検索意図を反映させる必要がない.こういった検索固有の事情を加味した多様性指標に関しても書籍では提案されている.

ニュースメディアにおける多様性

多様性の指標として,よりドメイン特化の指標を提案している研究も存在する.Vrijenhoekらの研究[4]では,Helbergerの研究[5]における4つの推薦システムのコンセプトを元に,5つの評価指標に関して定義を行った.その4つのコンセプトに関しては以下の通りである.

  • The Liberal model

    • ユーザの好みに合わせて,トピックや文章のスタイルを選ぶ推薦システム

  • The Participatory model

    • ユーザがコミュニティで活動するために必要な共通認識をわかりやすい形で提供する推薦システム

  • The Deliberative model

    • 現在注目が集まっているトピックに対して異なる意見やさまざまな視点を与える推薦システム

  • The Critical model

    • マイノリティなコミュニティの声を強調させる推薦システム

これら4つのコンセプトに関してどれかが優れている主張ではなく,コンセプトごとに注視すべき指標が異なるという点を主張しており,それらの5つの指標は以下の通りとなっている.

  • Calibration

    • 推薦リストが過去の閲覧していた記事とどれだけ似ているかの観点

    • 推薦としてよく使われる指標の観点

    • 記事のトピックと記事のスタイル(文章の難易度を含む)の2つの観点について測っている

    • The Liberal modelはこれらの指標が高い方が良いが,The Participatory modelに関してはトピックに関しては低い方が良い

  • Fragmentation

    • 推薦リストがユーザごとにどれだけ異なっているかの観点

    • パーソナライズ度合いと解釈できる

    • The Liberal modelは高い方が良いがそれ以外は低い方が良い

  • Activation

    • 感情を動かすような記事なのかという観点

    • The Deliberative modelは低い方が望ましい

    • The Critical modelは高いことを期待されている

  • Representation

    • 記事の内容や意見,政治的ポジションのばらつき度合いという観点

    • どのようなトピックがどれくらい含まれるかを測っている

    • The Participatory modelは現実世界を反映させたトピックの分布になっている方が望ましい

    • The Critical modelは現実世界では目が向かないトピックが多く含まれることを期待されている

  • Alternative Voices

    • 誰の発信なのかという観点

    • マイノリティなコミュニティの記事がマジョリティグループであまり表示されていない場合,調整すると言った具合に使われることを想定している

コンセプトと指標の対応に関してはこちらの表を参照いただきたい.

[4]

こちらの論文において自分が重要だと感じた部分に関して引用を載せておく.

The form of presentation is an aspect that is often neglected in discussions around news recommender diversity, ignoring the fact that different people have different preferences and cognitive abilities to process information.

[4]

こちらはThe Participatory modelに関しての説明の一文である.このコンセプトではユーザに共通の理解を促すような推薦システムを目指す.一見するとパーソナライズは不要に感じるが,本論文では人の認知能力に合わせて情報の表示方法のパーソナライズを示唆している.

In fact, we argue that what constitutes ’good’ diversity in a recommender system is largely dependent on its goal, which type of content it aims to promote, and which model of the normative framework of democracy it aims to follow.

[4]

こちらはdiscussionの一文である.どのような多様性をよしとするかは推薦システムが目指すゴールによって異なる.ゆえにゴールとなる目線を揃えて必要な多様性に対して議論を進める必要性を感じる.

また,これらの指標をより扱いやすく,ランキング指標として使えるようにする研究も同じ著者らが行っている[6].実用的にはこちらの方が扱いやすいと考えられる.

おわりに

ここまで,一般的な多様性指標からドメイン特化した多様性に関するトピックまでつらつらと書いてきたが,共通して言えることは自分達のサービスがどの観点の多様性を考慮するかに関して決める必要があるということである.ILDであれば距離関数,検索であれば検索意図,ニュースであれば感情的な部分や政治的なポジションなど多様性を持たせる観点が決まって初めて多様性を議論するスタートに立てる.また,多様性という観点はコンテンツのばらつきという点だけでなくコンテンツの見せ方という部分にも考慮が必要そうである.多様性の議論の中ではコンテンツ自身以外の観点が生まれづらいように感じる.これらを踏まえて今後,多様性の議論を進めていければと考えている.

[1] Mi Zhang and Neil Hurley. Avoiding monotony: improving the diversity of recommendation lists. RecSys '08: Proceedings of the 2008 ACM conference on Recommender systems. 2008. p.123-130.
https://doi.org/10.1145/1454008.1454030

[2]
 Shameem A Puthiya Parambath, Nicolas Usunier, and Yves Grandvalet. A coverage-based approach to recommendation diversity on similarity graph. RecSys '16: Proceedings of the 10th ACM Conference on Recommender Systems. 2016. p.15-22.
https://doi.org/10.1145/2959100.2959149

[3]
 Javier Parapar and Filip Radlinski. Towards Unified Metrics for Accuracy and Diversity for Recommender Systems. RecSys '21: Proceedings of the 15th ACM Conference on Recommender Systems. 2021. p.75-84
https://doi.org/10.1145/3460231.3474234

[4]
 Sanne Vrijenhoek, Mesut Kaya, Nadia Metoui, Judith Möller, Daan Odijk and Natali Helberger. Recommenders with a Mission: Assessing Diversity in News Recommendations. CHIIR '21: Proceedings of the 2021 Conference on Human Information Interaction and Retrieval. 2021. p.173-183
https://doi.org/10.1145/3406522.3446019

[5]
 Natali Helberger. On the Democratic Role of News Recommenders. Digital Journalism 0, 0. 2019. p.1–20 https://doi.org/10.1080/21670811.2019.1623700

[6]
 Sanne Vrijenhoek, Gabriel Bénédict, Mateo Gutierrez Granada, Daan Odijk and Maarten De Rijke. RADio – Rank-Aware Divergence Metrics to Measure Normative Diversity in News Recommendations. RecSys '22: Proceedings of the 16th ACM Conference on Recommender Systems. 2022. p.208–219
https://doi.org/10.1145/3523227.3546780

感想等も合わせて送られてくると嬉しいです!