【論文紹介】LFM-2b: A Dataset of Enriched Music Listening Events for Recommender Systems Research and Fairness Analysis

文献情報

タイトル:LFM-2b: A Dataset of Enriched Music Listening Events for Recommender Systems Research and Fairness Analysis
著者:Markus Schedl, Stefan Brandl, Oleg Lesota, Emilia Parada-Cabaleiro, David Penz, Navid Rekabsaz
会議:CHIIR 2022

概要

Last.fmの約20億件の音楽再生ログデータセットを作成して公開。データセットは以下のページからダウンロード可能。
LFM-2b Dataset

従来研究との差異

音楽再生ログの作成と公開を目的とした研究は色々と取り組まれてきたが、本論文のデータセットは以下の点で優位性がある。

  • データ規模:20億件もの再生ログ

  • ログの期間:2005年から2020年の15年にも渡る再生ログ

  • 楽曲やユーザの特徴データ:楽曲はタグや歌詞の特徴量、ユーザは年齢、性別、国籍などが含まれる

データセット内容

データセットの内容の一部を以下に示す。数値はいずれも概数。

  • 12万ユーザによる20億件の再生ログ。

  • アーティストのユニーク数は516万、楽曲のユニーク数は5,080万。

  • 再生ログの半数は2005年から2014年の9年間、残り半数が2015年から2020年の5年間に含まれる。

  • Spotify APIから楽曲特徴量を取得できるよう、462万曲分のSpotifyのURI。

  • 127万曲分の歌詞特徴ベクトル。歌詞データはGeniusというサイトから取得。特徴ベクトルはBERTにより生成。

  • ユーザが楽曲に付与したタグ。各タグには楽曲との関連度が1~100の整数値で与えられている。1曲あたりのタグ数の中央値は5。

この記事が気に入ったらサポートをしてみませんか?