【データ分析】２つのランキングの類似度を測る Part.2

考える人

2023年8月2日 15:13

先日、「２つのランキングの類似度を測る」という記事を書かせていただきました。

「リンゴ」「マンゴー」「バナナ」「イチゴ」「オレンジ」「ブドウ」のようなアイテム群から作られたランキング同士を比較して、どの２つのランキングが最も似ているのか、または最も似ていないのかを定量的に評価する手法をまとめた記事です。

しかし、ここでの比較は２つのランキングを構成する要素が全く同一であることが前提となっていました。

つまり、「リンゴ＞マンゴー＞バナナ」と「リンゴ＞バナナ＞マンゴー」の２つのランキングは比較できても、

「リンゴ＞マンゴー＞バナナ」と「イチゴ＞バナナ＞マンゴー」の２つのランキングは前回の記事で紹介した手法では比較できません。

好きな芸能人トップ10などのランキングを考えた際、ランキングに登場する人物が丸っきり被ることを期待するのは難しいでしょう。

こうした要素の異なるランキングがどの程度似ているか考えることはできないのでしょうか。

要素の異なるランキングの類似度を測る方法

具体例で考えてみる

要素の異なるランキングがどの程度似ているか考えるためにはどうすれば良いのでしょうか。具体例を通して考えてみたいと思います。次の例１と例２はどちらも好きな果物を３つ挙げてもらった場合のランキングです。

例１：全ての要素が異なる２つのランキング

ランキングA：リンゴ＞ミカン＞メロン

ランキングB：梨＞オレンジ＞スイカ

例２：互いに１個を除いて要素が共通している２つのランキング

ランキングC：マンゴー＞ブルーベリー＞バナナ

ランキングD：ブルーベリー＞パイナップル＞マンゴー

ランキングAとB、ランキングCとDはどちらの組の方が似ているでしょうか。

実はランキングAとBは「バラ科」「ミカン科」「ウリ科」という括りで見ると科目の並びが全く同じになっています。ランキングを比較する目的によっては、ランキングAとBの方が似たランキングになっていると結論付けた方が良い場合があるかもしれません。

このように、ランキングの要素そのものでは異なっていても、適度に抽象化することで要素を揃えてランキングを比較できる場合もあります。この場合は、前回と同様に考えることでランキングの類似度を考えることが可能です。

しかし、素直に見ればランキングAとBは全く異なる種類の果物が３つ並んだランキングになっている一方、ランキングCとDは３つの果物の内「マンゴー」「ブルーベリー」の２つの果物は重複しており、直感としてはランキングCとDの組の方が似ているように思えますよね。

この直感は要素の重複に感じられるものであり、ランキングとしての順番を考慮したものではありません。つまり、順番に意味のあるランキング同士の比較ではなく、単なる集合同士の比較をしていることになります。

３つの測定方法

この「集合の類似度」を測定する代表的な手法は３つあるそうです。具体的に考えるため、ランキングXとランキングYを次のように仮定して、実際にAとBの距離を測定しながら紹介していきます。

ランキングX：マンゴー＞メロン＞バナナ＞スイカ

ランキングY：スイカ＞パイナップル＞マンゴー＞メロン

① Jaccard係数

Jaccard係数は、２つの集合に含まれている要素の内、共通している要素の割合を表します。完全に一致する時に１、共通する要素が無い時に０になります。

ランキングXとYの場合、「マンゴー」「メロン」「バナナ」「スイカ」「パイナップル」の５つの内、共通しているのは「メロン」「スイカ」の２つであるため、0.4と分かります。

$$
\cfrac{2}{5}=0.4
$$

② Dice係数

Dice係数は、Jaccard係数の分母を２つの集合の要素数の平均にしたものです。完全に一致する時に１、共通する要素が無い時に０になる点はJaccard係数と同様です。

先のJaccard係数は共通していない要素数が多ければ多いほど値が小さくなる値でした。本来、類似度は共通要素が多いほど高くなるべき数値であり、共通していない要素数の影響を強く受けることは理想的ではありません。

そのため、要素数の平均を分母とすることで共通していない要素数の影響を抑えようとしているのがDice係数の考え方です。

ランキングXとYの場合、２つの集合の要素数はどちらも４なので、平均しても４です。従って、0.5となります。

$$
\cfrac{2}{4}=0.5
$$

③ Simpson係数

Simpson係数は、Dice係数の分母を更に２つの集合の内、要素数が少ない方の集合の要素数としたものです。

つまり、２つの集合の内、要素数の少ない方の集合に対する共通要素の割合を表します。Simpson係数も、Jaccard係数、Dice係数と同様に完全に一致する時に１、共通する要素が無い時に０になりますが、Simpson係数の場合は加えて片方の集合がもう片方の部分集合の時にも１となります。

ランキングXとYの場合、２つの集合の要素数はどちらも４なので、Dice係数と同様0.5となります。

まとめ

本稿では、具体例を交えつつ要素の異なる2つのランキングの類似度を測る方法を検討してきました。

結果、類似度を測りたいランキングの要素が異なる場合、次の2つのアプローチが考えられることが分かりました。

・要素を適当に抽象化することで、要素の同じランキングとして考える
・ランキングとしての比較を諦め、集合としての類似度を考える

ただし、前者のアプローチを取ることができるケースは非常に限定的であるため、現実的には後者のアプローチを取ることがほとんどになると思われます。

この記事が参加している募集

数学がすき

2,806件

この記事が気に入ったらサポートをしてみませんか？