見出し画像

AI技術に連なるものとしての機械学習のECへの応用 - 教師なし学習


本稿は、機械学習の初歩的な内容をECの観点で整理した記事の続きになります。前回の記事は、教師あり学習を扱いました。



■ 教師なし学習
 ECへの機械学習の適用は、ものすごく幅広いわけですが、初学者がその手法としてまず知る必要があるのは、「教師あり学習」と「教師なし学習」という代表的な分類です。

 教師あり学習に対し、教師なし学習とは、事前にサンプルとなるデータがない状態で、実データ自体を解析することで、データに存在する本質的な構造や特徴を抽出する手法です。例えばECにおける代表的な機能であるレコメンデーションでは、推薦を行う顧客や商品を分類するために教師なし学習手法としてのデータクラスタリングがとても多く使われています。また教師ありと同じくセキュリティでも使われることがあり、ログインアタック検知の際に、どのようなアタックパターンがあるのかを知るためにクラスタリングをしていくことがあります。

さて、そんな教師なし学習の手法ですが代表的なのは、みなさんご存知のk平均法(K-Means)やテキストマイニングの潜在意味インデックス(LSI)、トピックモデル手法(LDA)等です。k平均法(K-Means)とは代表的なクラスタリング手法の一つで、計算を反復的に行ないつつ、データを与えられたクラスタ数k個に分類します。単純なアルゴリズムで誰もが通る道でもありますので、応用もとてつもなく多いわけです。とりあえずユーザーを3タイプに分けたい、みたいなときに便利です。だからこそ何の観点で分けるのかという軸が大事になるともいえます。


潜在的意味インデックス(LSI / Latent Semantic Index)は類似した文書やデータをまとめていき、その共通性(トピック)を見つけていくのに役立つ手法で、トピックモデルと言われますが、その敷衍として、類似した顧客や商品、あるいは類似したレビュー等をまとめていくことに応用ができます。テクニカルに話すと、文書類似度を比較する最初の第一歩であるTF/IDFに次元圧縮を加えて効率を高めたものともいえます。文書やデータ内の違う単語や値でも、近い意味を持つ等の類犠牲を考慮することができ、またそこから多義性の問題をもある程度解消できて、データの意味を考えつつ分類することを可能にさせてくれます。そのため、違う表現だが似たような商品等の類犠牲を反映していく形で、商品検索やレコメンドの拡張等にももってこいではあります。もちろん人手で作った辞書、シソーラスを利用することもできますが、あらゆる言葉を網羅するのは大変なので、時に重宝します。


LDA(Latent Dirichlet Allocation)もLSIと同じくトピックモデルと言われる手法の一つで、文書やデータに用いられる語や値がそもそもどういう意味を持っているのかを推定します。次元をトピック単位に圧縮するという観点ではLSIに近いです。が、LSIはそもそも偶然対象としたデータの中に存在しなかった類犠牲のある語について考慮することができません。そこで語の確率分布を意識しながらデータ分類を行うことできるようにした、pLSI (Probabilistic LSI)という拡張があり、更に文書で表現されているトピック、つまりまとめられた文書の共通性をも揺らぎを持って扱うことができるようしたものがLDAです。説明が難しいですが、言葉の多義性について文書内の語でも文書のまとめ方でももっと包含できるようにしたのがLDAということで、ざっくり「LSIの確率的拡張版」というような理解でいいでしょう。

LSIやLDAはテキストマイニングの代表的手法、自然言語処理の文書分類の技法と紹介されることが普通で、そのため、ECでの用途はあまりないのではないかというイメージをもたれることも多いです。なのですが、レコメンドだけでなく商品データや評判情報の解析でも、多くは自然言語処理の文書分類タスクとみなすことができるため(教師あり学習の判別分析が使われることも当然多いですが)、教師なし学習はよく使われます。もうちょっと言ってしまいますと、トピックモデルというと、語、文書、そして文書の共通性「トピック」という関係になるわけですね。語と文書から、共通のトピックをもった文書を分類していく。ここで、語を例えば商品に置き換え、そして語によって形成されている文書を、商品群を買ったり、閲覧したり、検索したりしているユーザーの情報の総体に置き換えると、文書のトピックは、そのユーザー・消費者の持つある種の潜在的「目的」や「嗜好性」「スタイル」、言ってしまうとまだ表現されきっていない「隠れたニーズ」に置き換えることができます。そういうメタファーを働かすと、文書分類はニーズの発見に応用できる、つまり、マーケティングにも活用できるわけです。


 そもそも、教師なし、というのはサンプルデータを必要とする技法ではない、ということになるわけですが、ビジネスにおける問題解決のための態度としての意味は、ビジネス上の暗黙の前提や先入観から離れることができる、ということです。例えば、どのEC、どの小売ビジネスでも、顧客をリピート率や購入額でグレード付をするロイヤリティプログラムを導入していて、それに基づいて様々な施策を使い分けていると思います。ですが、教師なしで、純粋に施策に対する有効性が最大化するような形でグループ分けをしてみると、ロイヤリティプログラムのグレード分けとは全く関係のないセグメンテーションの軸が抽出され、実は、特定のジャンルにおいてはグレード別の施策って本質的に意味がないのではないか、ということが判明したりすることもあるのです。教師なしは、そういう意味で、適切にビジネス知識・ドメイン知識との距離を保ちながらも、時に大胆に活用していけば従来のマーケティングの常識を覆していくポテンシャルがそもそもにあって、トピックモデルの応用等は実はとてもエキサイティングなテーマではないかと言えます。特にここ10年はインターネットの発展、モバイルの普及、ソーシャルサービスの進展によって消費者の技術環境は大きく変化し、その購買行動も劇的に変容してしまいました。それゆえに今までのビジネス上の暗黙の前提が実はもう崩れていることも多く、ビジネス知識・ドメイン知識をあえて無視することは極めて大事な試みです。

 LSI のところで次元圧縮について触れましたが、ニューラルネットワークを用いた Autoencorders 等の手法もあり、教師ありと違ってサンプルデータを用意しないでいいということもあり、教師なし学習は桁の違う大規模なデータへの適用においても積極的に活用されるでしょう。今までにないビジネス上の発見も、教師なし学習から次々にもたらされるのではないかと期待します。

 以上、今回は、教師なし学習を扱いました。次回は、教師あり学習の拡張的な手法を取り扱います。



この記事が気に入ったらサポートをしてみませんか?