📏「類似度」と「差」を同時に散布図にプロットする技法、その名も SimDiff Plot

似ているのに違わないとか、違うのに、似てもいる、とか

SimDiff Plot(シムディフ プロット)

解説文: SimDiff Plotは、2つの変数、すなわち「類似度(Similarity)」と「差(Difference)」を一つの散布図上で可視化するための方法です。類似度は縦軸に、差は横軸にプロットされる。この手法は、2つの変数の間の関係性や相関を直感的に捉えるのに適しています。
利点:

  1. 直感的な理解: 類似度と差という、対立する2つの概念を一つの視覚的空間で捉えることができるため、その関係性を即座に理解することが可能です。

  2. データの分布の確認: どのような範囲の類似度や差がデータ内で頻出するのかを確認することができます。

  3. 外れ値の特定: 主要な分布から外れているデータポイントを容易に識別できます。

  4. 変数間の相関の確認: 類似度と差の間に明確な線形の関係やその他のパターンがあるかどうかを視覚的に評価することができます。

:
背景: e-commerceのサイトにおいて、商品のレビュー文章をベースに、商品間の類似性を計算する研究を行っています。ここで、コサイン類似度を用いて文章の類似性を計算し、一方で商品間の価格の差を「差」として取り入れます。
SimDiff Plotの適用: この研究において、SimDiff Plotを作成しました。横軸に商品間の価格の差、縦軸にコサイン類似度を取り、各商品ペアの関係をプロットしました。
結果の解釈: SimDiff Plotから、価格差が大きい商品ペアは文章の類似度が低い傾向にあることが観察されました。一方で、価格差が小さい商品ペアは、文章の類似度が高いことが多く、この関係性は線形的な負の相関を示していました。これは、価格帯が似ている商品同士が類似したレビューを受ける傾向にあることを示しています。


お願い致します