指名検索が多い映画は興行収入も多い説(映画編)
【更新情報2024年5月26日】
「その決定に根拠はありますか?」
確率思考でビジネスの成果を確実化するエビデンス・ベースド・マーケティング
戦略を導く為の「エビデンスの作り方」をテーマに、これまで体系化してきたノウハウを紹介したマーケティング・インテリジェンスの書籍を出版致しました。5問の調査でTVCM(施策)→コンビニで商品を見た(要因)→売上がいくら増えたか?→年間16.67億円(効果)の様に経路ごとに構造的に効果を把握する国際特許(PCT)を出願した分析法など、確率モデルや因果推論をプロジェクトで実際に活用している方法を特典の動画講義も活用して実装レベルの知識まで提供しています。
自己紹介と本note執筆目的
効果検証デザイナーの小川貴史と申します。電通グループなどの広告会社やデジタルマーケティングコンサルのネットイヤーグループでインターネット広告、マス広告、UXデザイン、PR、データ分析など幅広く経験してきた知見を活かして、今はPR会社カーツメディアワークスでマーケティングコミュニケーション領域のコンサルティングを行っています。(効果検証デザイナーは個人作家活動の際の肩書きです)
日本のマーケティングの現場では、因果関係の把握など、効果検証については全然データドリブンじゃないと思っており、そこに課題を感じています。その状況を変えていくための活動のひとつとして、昨年11月末に「Excelでできるデータドリブン・マーケティング」という書籍を出版しました。
時系列データ解析によって、TVCMやネット広告などによる経済効果を定量化(例えば、〇億円投下したTVCMによって売上〇億円増えたなどの介入効果を推定)する為のマーケティング・ミックス・モデリングという分析法を紹介しました。拙書では時系列データ解析による(残存効果などを加味した変則的な)回帰分析によってそれを行い、演習で読者が分析を再現できる様にしました。
本note執筆の動機は、GWの語源となった映画をテーマに、マーケターの方に統計モデルによる効果検証法と、その勉強法を紹介するものです。個人的にも、2018年のGWに映画館で見た「アベンジャーズ/インフィニティ・ウォー」に続く、「アベンジャーズ/エンドゲーム」が気になっており、どれくらいヒットするか、予測してみたかったためです。
また先月に、
「選挙活動」の効果検証をする場合、自分ならばどうするかと考え、
各議員名称の指名検索数が得票数に対してどれくらい影響を持つか?定量化するための(重)回帰分析を紹介するnoteを書いており、
そのnoteでは、映画の宣伝は公開前数か月、大作では数年前から宣伝する「チラ見せ」で作品への期待感を醸成していく広告手法(ティザー広告)が一般的であることを説明し、公開前にそうした広告に我々(消費者)が接触して「見たい!」と思っても、予約開始前に映画のチケットは購入できないため、(予約数の)代替変数として使えることが多い重要指標が「指名検索」である。と説明していました。
そこで、本noteでは「(作品名の)指名検索」が「興行収入」に影響するか?を(重)回帰分析で検証してみました。
先に結論を申し上げると、「説」はおおむね立証できそうでした。
さらに具体的には、分析によって得た予測モデルより、
「アベンジャーズ/エンドゲーム」の興行収入は「2018年」の興行収入1位の「ボヘミアン・ラプソティ」に迫るのではないか?
(2018年の(日本国内の)興行収入ナンバー1の「ボヘミアン・ラプソティ」の興行収入が104.6憶円。それに迫る93.45……憶円が予測値)
と推計できました。
前作「アベンジャーズ/インフィニティ・ウォー」が37.4億円でしたので、およそ2.5倍です。果たしてここまで伸びるか?いちファンとして今後ウォッチしてみたいと思います。
また、映画の興行成績をおよそ8割の的中率で人工知能が予測する、という記事もありました。
これより紹介する、作品ごとの指名検索数を用いた回帰分析でもある程度予測することができます。今回最終の分析結果としたモデルの予測精度の目安となる決定係数(「興行収入」の変動をどれだけ説明できるか?)はおよそ0.75…でした。上記の記事にある的中率8割(0.8)と近い値です。
今後はマーケター全員が本noteで紹介する回帰分析やその他多変量解析、データマイニング手法を用いてデータから事象を説明したり、予測するとはどういったことか?分析を実際に行った経験からそうした感覚を持つことが大変重要だと思います。マーケティング業務で行うアナリティクスを発展させ、人工知能がモデルを作って予測を行う様なシステム開発やツールの導入が、これからより積極化されていくと思われます。その際に最低限のデータ分析の感覚がないと、人工知能が行う分析の中身を全く理解できません。そのため、これからのマーケターの基礎リテラシーとして、分析を自ら実行してデータから事象を説明したり、予測するとはどういったことか?について学ぶことをオススメします。本noteの映画の事例はそのための教材のひとつです。
それでは、分析した内容について紹介していきます。
データテーブルを作る
まず、以下の文献を参考に、2018年の興収上位50の作品のデータテーブルを作っていきました。
Googleキーワードプランナーを用いて、各作品の指名検索数を調べていきました。
(参考文献)
また、指名検索以外にも、映画.comを参照し、 公開館
数(※ファーストラン時点、映画.com調べ)も作品ごとに記載しました。
成型したデータテーブルを確認する
成型したデータテーブルです。(興行収入降順で50作品となります)
Googleキーワードプランナーは月次単位で(最長過去24か月)までの検索数をリサーチできます。今回は、公開した月の前月から前々月、さらにもう1か月前までの3か月までの検索合計数と、公開した月を含む次月、次の次の月の3か月までの検索合計数を2つの説明変数として、ファーストラン時点、映画.com調べの公開関数を1つの説明変数として、合計3つの説明変数を説明変数候補として、興行収入(目的変数)を説明するモデルを作っていきます。
今回は拙書「Excelでできるデータドリブン・マーケティング」の演習でも使用させて頂いている「エクセル統計」というExcelアドイン型の分析ソフトを使用して回帰分析を行いました。
黄色く着色したセル(行)が曲者です。例えば、上から3番目の「名探偵コナン ゼロの執行人 」を例に説明します。この映画の「指名検索」を定義する際に、「名探偵コナン」を検索対象ワードとするのか?「名探偵コナン ゼロの執行人 」を検索対象ワードとするのか?それによって、指名検索数は大きく変わります。後者を対象とすると、著しく検索数が減ります。前者を対象とすると、「映画」に限らず、(マンガやアニメなどを含めて)「名探偵コナン」に興味があるユーザーの検索数となってしまいます。更に「めいたんていこなん 映画」など、「揺らぎ」の検索もあるかもしれません。「指名検索」をどの様に定義し、抽出するか?これは実は難しいことなのです。
今回は、主に前者の考えで検索対象ワードを設定し、簡易的にリサーチしました。黄色く着色した行については、「映画」以外の検索ニーズを多く含む可能性が高く、データの信ぴょう性が低い(映画の指名検索と捉えずらい)標本となっています。
重回帰分析を行う
まずは、目的変数を「興行収入」として、それ以外の「全説明変数」を用いて分析してみます。これを「モデル1」とします。
モデル1結果
緑色に色を塗った偏回帰係数について説明します。Google検索(公開)前3か月は係数がマイナスとなっています。Google検索上映月含む3か月後までの係数は1290.1690…となっており、(Googleの完全一致の指名検索数※私の定義)の数×係数分、興行収入に影響があると考えられます。
単回帰分析モデルの場合は単回帰係数と言いますが、 重回帰分析モデルの回帰係数を偏回帰係数と言います。「ある偏回帰係数は、それ以外の説明変数の値を固定した(変化させない)場合に、その説明変数が1増加すると目的変数の値がどれだけ増加/減少するかを示しています。」(「」内の記載は以下統計WEB記事より引用)
(参考文献)
次に水色に塗った標準偏回帰係数を説明します。これは、目的変数(得票数)への影響数が大きい変数はどれか?横並びで比較するものです。
(参考文献)
もう少し詳しく説明します。「標準偏回帰係数は、説明変数および目的変数をそれぞれ標準化した値から算出される偏回帰係数のことです。標準偏回帰係数は重回帰式における各変数の重要性を表す指標であり、標準化偏回帰係数どうしの大小を比較できます。」(「」内の記載は上記の統計WEB記事より引用)
Google検索上映月含む3か月後までが、0.8069…となっており、最も興行収入への影響が大きい模様です。
オレンジ色に塗ったP値は「偏回帰係数は 0 である(影響がない)」という帰無仮説を検定した値となっており、「P値が有意水準よりも小さい時は、帰無仮説を捨て対立仮説を採択します。すなわち、対立仮説が正しいと結論付けられます。」(「」内の記載は下記の統計WEB記事「検定で使う用語」より引用)
(参考文献)
有意水準は一般的に5%が用いられます。自然科学など理想的な実験に近い状況で行われる調査分析では厳しめの1%が採択されることも多く、社会科学など、実験的な調査分析が行えない状況では多少甘めの10%を採択することがある様です。拙書及び本noteでは10%水準として分析を行いました。マーケティングの分析は自然科学より社会科学に近く、実験の様な理想的な環境で得られないデータを分析することが多い為です。
10%を基準とした際に有意水準を上回るのはGoogle検索(公開)前3か月です。係数はマイナスです。感覚的には、映画公開前の指名検索数が多いほうが、興行収入も多そうですが・・
そこで、次は黄色く着色したセル(行)を削除したデータテーブルで分析を行います。削除するのは作品名のワードから、指名検索数の定義及び抽出が難しく、私が行ったアバウトな抽出の場合、(映画の指名検索数としての)信ぴょう性が低いデータです。
上記のデータテーブルより、モデル1と同様に目的変数を「興行収入」として、それ以外の「全説明変数」を用いて分析してみます。これを「モデル2」とします。
モデル2
偏回帰係数(緑色)のうち、Google検索(公開)前3か月はモデル1では係数がマイナスでしたが、プラスの値に変わり、更にP値も有意水準を下回りました。上映館数のP値は少し上がりました。
もう一度、データテーブルを見てみましょう。
上映館数は各作品、概ね300~350前後の値となっていますが、「カメラを止めるな!」だけは「2」となっています。社会現象となった「カメラを止めるな!」については、公開当時の公開関数が「2」しかないにも関わらず、大きな興収を得た特殊なケースとなっています。(日本での興収)上位50作品ではなく、全ての作品で分析ができる場合は、「カメラを止めるな!」以外にも興行館数が数件など少ない作品も含めた分析となる為、公開館数と興行収入の関連性を説明できる可能性が高いかもしれませんが、上位50作品の場合は、特殊なケースとなっているかもしれません。
そこで、「カメラを止めるな!」を外して、再度分析を行ってみます。これを「モデル3」とします。上映館数のP値が10%を上回っています。
次にエクセル統計の(重)回帰分析で行える機能として、P値を指定(有意水準)を下回る説明変数の組み合わせでモデルを探索する「説明変数選択機能」を使って分析を行います。今回は4種類ある選択法のうち「減少法」という方法を採択し、P値10%未満を条件に説明変数選択を行いました。この結果を「モデル4」とします。
モデル4結果
P値が10%を上回った上映関数の説明変数が外されました。目的変数(得票数)への影響数が大きい変数はどれか?横並びで比較する標準偏回帰係数を見ると、Google検索(公開)前3か月が0.1949…となり、Google検索上映月含む3か月後までが0.7712…となりました。
また、以下図にあるのはモデルの予測精度(の目安)となる指標を比較する為のものです。
( R2 乗)は「決定係数」といい、そのモデル(回帰式)が目的変数(得票数)の変動をどれくらい説明しているか?という目安です。ただし、重回帰分析で説明変数を増やしていくと、その変数が無意味(目的変数に対して影響を及ぼさない)ものであっても、決定係数は次第に 1に近づいていきます。決定係数が高くなったのが説明変数の数を増やしただけの効果によるものか、増やした以上の効果があったのかを見たいとき、「自由度調整済み決定係数」(修正R2乗)を比較します。(重)回帰分析の予測精度の比較として用います。「カメラを止めるな!」を外して、再度分析を行った「モデル3」が最も高くなっています。予測精度の観点からは最も有効なモデルだと考えられます。しかし、上映館数のP値が10%を上回っていました。そこで次に「自由度調整済み決定係数」(修正R2乗)が高かったモデル2を今回は最終結果として採用します。
(参照文献)
最終結果(モデル2)から導く指名検索が多い映画は興行収入も多い説(映画編)に対する示唆
モデル2
最終モデルとしたモデル2の「Google検索(公開)前3か月」の偏回帰係数は1683.7001…です。これは、「Googleの完全一致で氏名」を検索された回数1回あたり、1683.7001…の興行収入を押し上げるという介入効果の目安となります。「Google検索(公開)前3か月」の偏回帰係数は1106.3965…です。
しかしGoogleキーワードプランナーの完全一致で小川が策定した検索対象キーワードの検索クエリ数を推計しているに過ぎません。実際には多くの揺らぎなどを含んだ幅広いワード(検索クエリ)が実行されています。Googleだけでなく、Yahoo!など他の検索エンジンによる検索があることも考えられます。一概には言えませんが、キーワードプランナーで調べた候補者氏名の完全一致の2倍~10倍位は、当該作品(映画)を調べるニーズに対応する検索が発生していると思われます。
よって、仮にその倍数を6倍とした場合は、偏回帰係数は1/6の…となります。よって、
公開前3か月の指名検索が1回増えると、286.616…(円)興行収入が増える。
公開月を含む3か月の指名検索数が1回増えると184.399…(円)興行収入が増える。
これくらいだと、腹落ち感のある結果ではないでしょうか?どの作品も公開前の指名検索より、公開後の指名検索数が多くなっています。標準偏回帰係数からも、公開後の検索のほうが、興行収入への影響が大きいことが分かります。ただ、1回あたりの指名検索の価値を考えると、公開後3か月より公開前3か月の検索のほうが大きいと考えられます。公開前からその作品に期待するコアなファンによる検索が多いなどの原因を仮説することができます。
また、皆さんは、昨日見た広告全てのうち何種類を覚えているか?思い出すことができますか?また広告に限らず、昨日TV番組やインターネットサイトなどのメディアでキャッチした情報をきっかけとして「検索」を行った回数は何回ありますか?考えてみてください。おそらくは、数回あるかないか?もしくは人や日によっては0回という日もあるかもしれません。「認知」はしているが、「指名検索」したことがないブランドのほうが圧倒的に多いのではないでしょうか?
よって、企業やブランドが働きかけるコミュニケーションで、当該ブランドを(検索して)調べる、こうしたアクションの誘発は、購買への中間指標として、認知度以上に重要なものです。(低単価の日用品以外は特に)数理モデルを用いたアプローチによって広告効果を定量化する際に、「指名検索数」は非常に重要な指標となる場合が多いのです。
「アベンジャーズ/エンドゲーム」の興行収入は「2018年」の興行収入1位の「ボヘミアン・ラプソティ」に迫るのではないか?
冒頭で概ね、説は立証できそうだと申し上げましたが、指名検索数が1単位増加「したことによって」興行収入がいくら増えた、という因果効果の推定を目的とする場合は、さらに検証が必要となります。交絡といったことを考慮する必要があります。
(因果推論の基礎知識については下記noteにて)
本noteの説は「因果」ではなく、「相関」を前提にした表現となっているため、説を立証できた可能性があります。
分析したモデルのうち、自由度調整済み決定係数が最も高かったモデル2から「アベンジャーズ/エンドゲーム」の興行収入を予測してみた結果が下記です。
2018年の(日本国内の)興行収入ナンバー1の「ボヘミアン・ラプソティ」の興行収入が104.6憶円。それに迫る93.45…憶円です。
(得られた)係数は、モデル2から得られたものです。前3か月の検索対象ワード「アベンジャーズ」を含むGoogle検索数(Googleキーワードプランナー)は368,000ですが、「公開当月を含む3か月目」まで(4-6月)の指名検索の値はGoogleキーワードプランナーから、現時点では、そのまま求められません。
この値をどうして求めたか?について説明します。こうした時に行うのが単変量による時系列データ解析による予測です。今回は、完全一致を元にした検索数の実数が分かるGoogleキーワードプランナーではなく、検索数の実数は不明だが、他のキーワードとの相対的な指数として検索推移を調べることができる「Googleトレンド」から得た2018年4月1日~2019年4月28日までの「アベンジャーズ」を含むGoogle検索数(Googleトレンド)から得た値を元にExcel2016から実装された「指数平滑法」による予測を行い、それを元に「公開当月を含む3か月目」まで(4-6月)の指名検索の値を推計しました。
分析に興味を持っていただいたマーケターの方へ
拙書、「Excelでできるデータドリブン・マーケティング」では、アルコール飲料の事例、通販商材の事例を用いて、アルコール飲料は目的変数を売上本数として、通販商材はコールセンターとインターネット、双方の申込数を目的変数として、それをTVCMやインターネット広告、OOH、紙媒体がそれぞれいくつを押し上げるか?残存効果なども加味しながらモデル化していく様をこってりと演習します。今回紹介したエクセル統計の無料版でも分析を体験することができます。そんな演習をこってりと行った後の最終章(8章)では、本noteで重要なKPIとした指名検索などを用いる例を紹介しています。マーケティング分析をいくつかの業界でセグメントして、自動車業界など、高額な耐久消費財は、「指名検索」が重要といった内容や、因果推論について、こってりと解説します。
こってりを3回も使ったのは意味があります。データサイエンティストの大先輩から、拙書、「Excelでできるデータドリブン・マーケティング」は、「データサイエンス書籍のラーメン二郎」と評価頂いたからです。通常の書籍は最後の章は「軽く流す」位の内容ですが、最終章でもこれでもか?という解説が入り、「やべっ、ページないからしょうがなく終わるか」という感じで、まだまだ筆者が紹介したい内容がありそうだと、溢れ出ているそうです。
そんな「データサイエンス書籍のラーメン二郎」の拙書ですが、出版社マイナビ出版様の許諾を得て、1章までの全文公開noteを公開しております。知人の文系な広告代理店マンの方など、統計になじみのない方は、1章だけで「お腹いっぱい」とも言われておりますが、これからのマーケティングをデータドリブンにするための基礎リテラシーを養うために、ぜひご覧頂ければ幸いです。また、同書の監修を頂いたのはエクセル統計の開発会社の社会情報サービス社の方です。エクセル統計はマーケターにさほど知られていない印象があります。マーケターの皆様に強くオススメしたいソフトです!(なお、本noteで何度か参照した統計WEBも同社が運営するサイトとなっています)
これら、分析にご興味を頂けた方は、下記にて紹介する拙書を購入頂き、学んで頂く、または私が登壇するイベントなどでお会いできれば幸いです。
Excelでできるデータドリブンマーケティング 1章まで全文公開
以上となります。ここまでお付き合い頂きありがとうございました。
【更新情報2023年12月18日】
クッキー規制で目減りする効果計測の課題を解決法をnoteにしました。無料で使えるMETA社の高機能なMMM(マーケティング・ミックス・モデリング)ツール「Robyn」を徹底解説する2時間強のYouTube講義を公開しました。
【更新情報2024年5月26日】
「その決定に根拠はありますか?」
確率思考でビジネスの成果を確実化するエビデンス・ベースド・マーケティング
戦略を導く為の「エビデンスの作り方」をテーマに、これまで体系化してきたノウハウを紹介したマーケティング・インテリジェンスの書籍を出版致しました。5問の調査でTVCM(施策)→コンビニで商品を見た(要因)→売上がいくら増えたか?→年間16.67億円(効果)の様に経路ごとに構造的に効果を把握する国際特許(PCT)を出願した分析法など、確率モデルや因果推論をプロジェクトで実際に活用している方法を特典の動画講義も活用して実装レベルの知識まで提供しています。