【論文紹介】Empirical analysis of session-based recommendation algorithms

文献情報

タイトル:Empirical analysis of session-based recommendation algorithms
著者:Malte Ludewig, Noemi Mauro, Sara Latifi, Dietmar Jannach
論文誌:User Modeling and User-Adapted Interaction, vol31, 2021

概要

セッションベースのアイテム推薦タスクを対象に、8種類のデータセット(EC系4種類、音楽系4種類)で非neuralな7手法とneuralな6手法の精度をオフライン評価で比較し、非neuralな手法の方が概ね精度が高いことを示した。音楽推薦を対象にオンライン評価も行い、こちらでも非neuralな手法の方がユーザの評価が高いことを示した。
オフライン評価用に、データの読み込み・モデルの学習・評価指標の計算まで行うフレームワークをGitHubで公開

従来研究との差異

セッションベースでない一般的な推薦を対象とした、非neuralな手法とneuralな手法の比較は、RecSys 2019でベストペーパーを受賞した以下の文献などで取り組まれている。
Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, RecSys 2019
本論文ではセッションベースのアイテム推薦を対象に非neuralとneuralを比較しているのが特徴。

オフライン実験

非neuralな手法は、相関ルールベース、nearest-neighborsベースなど7種類を用意。neuralな手法は、RNNベース、LSTMベース、CNNベース、GNNベースなど7種類を用意。データセットは8種類(EC系4種類、音楽系4種類)用意。
各データセットでMAP@20の高い順に手法をランキング。EC系では4種類中3種類のデータセットで非neural系の4手法がneural系を上回り、音楽系では4種類すべてのデータセットで非neural系の3手法がneural系を上回った。MAPだけでなく、Precision、Recall、HR、MRRでも同様の傾向であった。非neural系ではnearest-neighborsベースな手法の精度が高かった。neural系はデータセットによって手法間で順位が大きく異なり、安定性に欠けることも明らかになった。RNNベースのGRU4RECは非neuralな手法よりもpopularityの低いアイテム(noveltyの高いアイテム)を推薦できる特徴があった。
neural系の大半の手法は学習に要する時間が数十分~十数時間であるのに対して、非neural系は7手法中6手法が1秒以下であり、学習時間の短さという点でもメリットがある。

オンライン実験

シード曲を1曲指定すると次々に曲が再生されるラジオステーションのアプリを実装してオンライン実験を実施。音楽を聴きながら、その曲に対するフィードバック(曲に対するlike、過去に聴いたことがあるか、など)を15曲以上行うというタスクを設定。タスク後には推薦内容に関するアンケートも実施。
オフラインで使用した手法のうち、非neural系2種類(相関ルールベースとnearest-neighborsベース)とneural系1種類(RNNベースのGRU4REC)を使用。さらに音楽推薦に特化した2手法も使用。Amazon Mechanical Turkで各手法に対して50人ずつ被験者を集めた。
実験の結果、非neural系のnearest-neighborsベースの手法の方がneural系よりlike数を多く獲得し、アンケートの結果も良い傾向にあった。

この記事が気に入ったらサポートをしてみませんか?