見出し画像

Kickstarterでのクラファン成功の秘訣をデータ分析してみた

以前、Kickstarterという海外のクラウドファンディングでモノを買うと「人と違った”ちょっとイキった”生活ができる」と書きたりしてまして。

で、趣味のKaggleを散策してたところ、こんなデータがありまして。

Kickstarterの各プロジェクトの「成功/失敗の結果」ほか、いろんなデータが詰まってました。

これまでカバン財布と主にファッション用品を買ってきたワタクシ。ふと「どんなプロジェクトが成功しやすいのだろう?」と思って探索してみたわけであります。

以下、オリジナルの製品・サービスで世に打って出たいあなたの参考になれば幸いです。

どんなデータか

kickstarterのデータでbokehを試してみる_200919-Jupyter-Notebook (2)

15個の変数(列)、375,765のレコード(行)といった大きなデータでした。各列は下記です。

・ID:通し番号
・name:プロジェクト名
・category:プロジェクカテゴリ
・main_category:大きい括りのカテゴリ
・currency:募集する際の通貨
・deadline:締切日
・goal:目標の金額
・launched:募集開始日
・pledged:支援された額
・state:プロジェクトの今の状態(成功、失敗、キャンセル etc.)
・backers:プロジェクト支援数(≒製品を買った人)
・country:どの国のプロジェクトか
・usd pledged:支援額(kickstarterが計算したドル換算)
・usd_pledged_real:支援額(fixer.io apiが計算したドル換算)
・usd_goal_real:目標の金額(ドル換算)

太字がプロジェクト成功/失敗が意味する列となります

まずはデータがどういう顔をしているのか見ていきます。

前菜🥗データの概観

下記のあたりを把握します。

・どんなカテゴリのプロジェクトが多い?
・ゴール設定金額ってどのくらい?
・どの国が多い?
・募集期間ってどのくらい?

こちらの書籍でpandasのpandas_profilingが紹介されていて、使ってみました。

html形式で出力もできますし、JupyterNotebook上で出力することもできます。

これがあれば探索的データ分析(EDA)は一瞬でした。感動的に便利。

※そのほかに、以下ではseabornplotlyを使ってます。

TOP3は、プロダクトデザイン、ドキュメンタリー、楽曲

データはメインカテゴリ(main_category)と小さなカテゴリ(category)で整理されてました。

メインカテゴリでは、Film & Video, Music, PublishingがTOP 3でした。

画像5

小さなカテゴリでは、Product Design, Documentary, MusicがTOP 3でした。

画像6

◆5,000ドルぐらいのゴール設定

kickstarterのデータでbokehを試してみる_200919-Jupyter-Notebook

記述統計をみたところ、中央値(median)が5,200ドル(≒52万円)でした。

ただ、maxが1億ドルととんでもない額になってるので外れ値を処理した上で、箱ひげ図にしてみました。

4_箱髭図_goal

kickstarterのデータでbokehを試してみる_200919-Jupyter-Notebook (1)

5,000ドルが中央値。平均は7,716ドル。

大体、日本円で50万〜80万ぐらいのプロジェクトが多いということになります。

ヒストグラムにしたところこんな感じ。

4_ヒストグラム_goal;

◆プロジェクトはアメリカがほとんど

画像4

約8割がアメリカでのプロジェクトでした。

kickstarter自体が米発のウェブサービスなのでそらそうなりますかね。

2位のGB、3位のCAはそれぞれイギリス、カナダです。

◆30日±2〜3日が大体の募集期間

開始日(deadline)と締切(launched)の日付から、募集期間を出しました。

で、こちらも箱ひげ図でみてみたところ、

3_箱髭図

こちらもスゴイ外れ値があるようで、潰れてます(縦軸は日数)。

外れ値を処理しました。4_箱髭図2

30日±2~3日に集まってるようです。ヒストグラムでみると、こんな感じ。

4_分布

大体1ヶ月強の期間を募集することが多いようです。

ちなみに、メインカテゴリ別でみても募集期間にこれと言って大きな違いなし。

多少、Designがレンジがあるぐらい。

画像13

画像14

データの概観を把握できました。

次は「クラファン成功のためにはどんな点が重要そうか」を分析していこうと思います。

画像12

メイン🥩成功/失敗分析

マーケティングシーンでよく使われる、クロス集計、ロジスティック回帰、決定木を使用します。

1、クロス集計

state列に入っている、成功(successful)と失敗(failed)を使用して、構成比をいくつかの軸別で見ていきます。

1−1、通貨別

画像15

プロジェクト数ではアメリカがダントツでしたが、香港ドル(HKD)での実施が相対的には成功の比率が高かったです。

香港でのプロジェクトは件数が他と比べて少ない(200件ほど)ので、たまたま感は否めませんが、成功を狙うのならHKDで香港の方をターゲットにすると確度あがる?かもしれません。

1−2、メインカテゴリ別

画像16

main_categoryでは、ダンス、映画、コミックが成功率が高かったTOP3でした。

総じて、芸術系のプロジェクトが成功率が高い?ことが見受けられます。小さいカテゴリ別は種類が多いので割愛します。

1ー3、国別

画像17

国別の成功率では、HK(香港)、DK(イギリス)、US(アメリカ)がTOP3でした。

2、ロジスティック回帰&決定木

次に、ロジスティック回帰と決定木をやってみます。

2−1、ロジスティック回帰

ざっくり言うと、「0(失敗)~1(成功)」で1になる確率(0~100%)が上がるにはどのような変数が大事か明らかにする分析手法です。

ロジスティック回帰

※画像はこちらよりお借りしました

で、今回は因果関係があると仮定しての分析となります。

結果:成功/失敗(state)
※目的変数。backerやpledgeも同様の結果の指標となります

原因:メインカテゴリ、カテゴリ、募集期間、国、通貨
※説明変数

分析結果です

kickstarterのデータで成功要因をEDAする_200919-Jupyter-Notebook

「USD建てである」ことと「USであること」が成功確率を高めるTOP2でした。クロス集計ではHKDが成功率が相対的に高く出ましたが、確率を高めるにはUSDですね。

狙い目のメインカテゴリとして、音楽、演劇、コミックとなります。

また、小さいカテゴリでは、Tabletop Games、Theater、Shortsが成功しやすくなることが伺えます。

とはいえ、クラウドファンディングは「自身のやりたいこと・作りたいもの」を起点として支援を募る場なので「成功しやすいジャンル」という捉え方は、目的と手段が逆転してしまい相応しくないですね(^^;

であれば、これは誰得?な分析結果ですが、↑のようなカテゴリで応援を募りたい方がいたら「Kickstarterというプラットフォームが狙い目ですよ」という示唆になるかと思います。

ちなみに、今回の分析結果(のモデル)の精度です。

kickstarterのデータで成功要因をEDAする_200919-Jupyter-Notebook (1)

2ー2、決定木

続きまして、決定木分析をしてみます。

以前、Spotifyのデータで「人気曲になるためのポイントを分析」した時にも使ってみたやつです。

最近ハマっているイカしたビジュアルの決定木が出せるこちらを使用します。ありがたや。

分析結果です

緑が成功(successful)、黄色が失敗(failed)です。

決定木

まず、「goal(目標金額)が4,999ドル未満か以上か」で枝分かれてます。

そのあとは、「特定のカテゴリかどうか」と「募集期間」で分かれてます。

決定木_2

今回の場合だと、↑のような「成功が多い」グループに入ることが望ましくなります。

そのためにはどういう分岐をたどるかというと、

①「goal(目標金額)が4999.50未満」→「ファッションじゃない」→「募集期間が29.5日未満」
②「goal(目標金額)が4999.50以上」→「Tabletop Gamesである」→「募集期間が51日未満」

これといって、ソリッドで有用な示唆はありませんね(^^;

ここから得られる示唆としては、下記ってことでしょうか。

・目標金額は4,999未満の上で29.5日未満がいいよ
・(Tabletop Gamesは)募集期間は51日未満がいいよ

今回は処理が重くなる関係で、全データ(約37万件)の中からランダム抽出(1万件)した結果なので、全データ使うとまた違うかもしれません。

もしくは、ランダムフォレストを使用するなども有効かと思います。

3、おまけの「テキスト分析」

最後はおまけです。

各プロジェクト名についていろいろ遊んでみた結果です。

プロジェクト名自体が成功/失敗の原因になるとは思えないですが、なんか参考にならないかなと。

3−1、頻出ワード

成功、失敗プロジェクトのプロジェクト名でよく使われているキーワードを抽出してみました(それぞれ元データからランダムで1万件を抽出)。

画像24

顕著な違いはありませんが、強いていうと成功の方の「debut」は失敗の方だと低い出現です。

3−2、ワードクラウド 

これもおまけです。

こちらのライブラリを使って遊んでみました。

成功、失敗のプロジェクト名をワードクラウド にしてみて並べたものです。

画像23

※アリスなのは特に意味はありません。

やり方はこちらで解説してますのでよかったら。もしくは、こちらのマガジンだとこのnoteとまとめてご覧頂けます。


ってことで、本noteは以上です。

楽しんで頂けたら幸いです。

やり方


貴重なお時間で読んでいただいてありがとうございます。 感謝の気持ちで、いっPython💕