データ分析を用いてヒットしそうな映画タイトルを考えよう

2021年6月28日 19:30

新しいドラマのタイトルをつけるのはとてもクリエイティブな作業。語感、社会的な情勢、タレントとの関係性...など考慮しなければいけない要素はさまざま。ドラマがヒットするかどうかは予測不可能にも思えますが、データ分析がその不確実性を和らげてくれます。今回は新しい映画にヒットしそうタイトルをつける、Netflixにおけるデータ分析を用いた取り組みを紹介します。

ヒットしそうなタイトルを考える際は、以下の二点がポイントです。
・新しいタイトルと既存のタイトルの類似性は？また、その類似性をどう定量評価するか？
・各国におけるaudienceはどれくらいになりそう？

類似作品のNielsen rating（アメリカのテレビ番組レーティングサイト）を参照するというconventionalな手法もありますが、Netflixではこの問題に転移学習を用いています。

転移学習とは、端的に言えばある領域で学習させたモデルを、別の領域に適応させる技術です。具体的には、広くデータが手に入る領域で学習させたモデルを少ないデータしかない領域に適応させたり、シミュレーター環境で学習させたモデルを現実に適応させたりする技術です。

ドラマや映画のタイトルといったメタデータに、Netflixの専門チームがサマリのタグをつけます。このサマリつきデータを学習させ、映画タイトルのembedding（各単語をベクトルで数値化したもの）を作成します。このembeddingを用いて、タイトル同士の近さ（ベクトルの近さで表現できます）やaudienceの数を予測します。

embeddingを使うと従来手法より精度高く予想できるか、また専門家から見て結果が確からしいか、などを最後に確認します。

いざ実践
新しいティーンエイジャー向けの映画は、To All the Boys I’ve Loved Beforeのロマンチック感か、The End of the F***ing World?のダークコメディー感、どちらに近いのだろう。マーケティングの偉い人はEternal Sunshine of the Spotless Mindっぽいと言っている。

この質問に答えるために、先程のembeddingを利用しよう。embeddingは高次元のため、2次元に削減し、マップ化します。似ているタイトルはマップ上でも近くに現れます。新しい映画のembeddingはTo All the Boys I’ve Loved Before、The End of the F***ing World?のどちらに近いか、マップ上の位置を参照することで確認できます。

audienceの数の予測はより複雑です。audienceの数を予測したい映画のタイトルのembedding、その映画に類似する映画のaudience数、さらには配信された国のembeddingも作成して特徴量を作成し、教師あり学習を行います。（筆者注この場合、何を学習のtargetとするのかわかりませんでした。補足してくださる方がいたら、コメントをお願いします。）

データ分析を用ると一見不可能そうな、新しい映画のaudience数まで予測できるというのは面白いですね！

内容は以下のブログ記事を日本語に翻訳し、まとめ直したものとなっております。
Netflix TechBlog
Supporting content decision makers with machine learning

データ分析を用いてヒットしそうな映画タイトルを考えよう

いいなと思ったら応援しよう！