日本のスタートアップ企業の成長速度が米国に比べ30分の1以下という現状にデータサイエンティストは何ができるか

2023年9月24日 17:09

2023 年 9 月 14 日に IPA ( 情報処理推進機構 ) から衝撃的なレポートが発表されました。「成長しない日本のソフトウェアスタートアップ国内競争を促進してエコシステムを創出する」と題されたこのレポートでは、日本のスタートアップ企業の成長スピードが米国に比べ著しく遅いことを指摘しており、遅い理由として 1) プロダクトマネジメントの手法が浸透していないこと 2) ピボットの回数が少ないこと 3) 成長意欲を刺激する競争環境の不足を挙げています。

私は機械学習界隈の人間なので、この速度差を解消するためにデータサイエンティストができることは何か ? を考えたいと思います。データサイエンティスト協会によればデータサイエンティストは 3 つのスキルが必要とされており、その中の一つが「ビジネス力」です。ビジネス力はもちろんビジネスを成長させる力なので、この現状に対し解決すべき問いを立て、データで答えを出すのがデータサイエンティストの本分といえます。

本記事では現状の速度差、原因の分析、データサイエンティストによる解決アプローチの 3 つに分けて考察していきます。

トップの画像はSwaminathanさんのGlass Tortoiseを使わせて頂きました。

成長速度の彼我の差 : ランニングと新幹線

「著しく遅い」とはどのくらいでしょう ? IPA のレポートから創業年別の従業員数規模グラフ ( 図9 ) を参照するとわかります。左が日本、右が米国で縦軸が創業年、横軸が従業員数となっています。

IPA 成長しない日本のソフトウェアスタートアップ国内競争を促進してエコシステムを創出する
より引用

従業員数はスケールが 10 倍違う ( そもそもの従業員規模が 10 倍異なる ) ので注意が必要です。日本では創業 1~3 年目の従業員数の平均が 6.8 名、 10~13 年目の平均が 20.5 名です。米国では 1~3 年目の時点ですでに 26.1 名、 10~13 年目の平均が 458.3 名に登ります。素朴には、日本では 10 年以上かけてやっと米国の 1~3 年目の従業員規模に到達していると言えます。

具体的に成長速度の差を計算してみましょう。経過年数ごとの中央値をもとに単回帰を行い、傾きを比較すると差は 29.3 倍、約 30 倍となります。実際のスピードに換算すると日本がランニングなら米国は新幹線です ( 時速 7~8km vs 時速 200km超 ) 。 13 年目から 20 年目までを予測すると差はどんどん開いていき、最終的には 40~120 倍に差が開いてます。この差はどこから生まれるのでしょうか ?

IPA の創業年別の従業員数規模 ( 図9 ) をもとにした、創業 20 年までの従業員数中央値の予測

仮説 : 創業 3 年目までに顧客実証を済ませていない

IPA のレポートでは 1) プロダクトマネジメントの手法に未習熟な点 2) ピボットの回数が少ない点 3) 成長意欲を刺激する競争環境が不足している点、を原因に挙げています。詳細は IPA のレポートに譲りますが、1) についてはカスタマージャーニーマップを使う企業が 47% に留まり 21% は手法をそもそも知らない、2) についてはピボットの回数が約 10 倍少ない ( ピボット回数中央値の合計より算出 ) 、 3) 起業する機会を見いだしている人のうち日本は 50.9 ％、米国は 43.1 ％の人が失敗への恐怖を理由に躊躇していることを挙げています。 3 点目については、参照されている GEM（Global Entrepreneurship Monitor）の「Global Entrepreneurship Monitor 2022/2023 Global Report」より先 6 ヶ月で起業の機会があると感じる人の数 ( FIGURE 2.3 ) が調査対象の 49 カ国中最下位であることからも伺えます ( ちなみに起業が簡単、と感じる人の割合も最下位です ) 。

GEM Global Entrepreneurship Monitor 2022/2023 Global Report Figure 2.3 より引用。
Level A/B/C は GDP の大きさで分けられた区分。

上記調査から創業 3 年目までに顧客実証を済ませていないのではないか ? というのが個人的な仮説です。「顧客実証の完了」はいわゆる Product Market Fit の達成を指します。状態的には、顧客にとって不可欠と確認された解決策 (= ソフトウェア) が手元にあり、ターゲット顧客へのプレマーケティング等から市場シェアが獲得できると見込めた状態です。著名な Netflix や Airbnb 等の事例から、1~3 年以内にはこの状態に至ることが必要です。ベンチャーキャピタル Union Square Ventures の創業者 Fred Wilson 氏は、ブログで Product Market Fit を済ませるまでは 10 名以下、ビジネスモデルを固めて成長させ始めるには 25 名以下が好ましいと述べています。 IPA が公開した調査では 1~3 年目のスタートアップの人数は平均 26 名で Product Market Fit 後の人数に相当します。 4~6 年目には人数の平均が 86 名と約 3.3 倍に増えており、創業年数 12 年の中で最も大きい成長がみられる箇所です。上記調査から、「米国のスタートアップは 1~3 年の間に顧客実証を完了させ 4 年目には大多数が成長を加速させるフェーズに入っている」と予測できます。従業員数が 80 名のレンジになると企業評価額が 8 倍超と飛躍していることからも、この予測が裏付けられます。

carta The state of startup compensation, H1 2022 より引用

日本のスタートアップ企業は従業員数規模から 1~3 年の間に顧客実証を完了していないと思われるわけですが、その原因の一つと考えられるのがピボットの少なさです。ピボットの回数が約 10 倍少ないのは前述のとおりですが、ピボットできない理由の背後に収集しているデータの不足があると考えています。次の図は IPA のレポートで顧客実証をするためのプロトタイプ (MVP) の評価をどのように取得しているかのアンケートをまとめた図 ( 図4 )です。

日本のスタートアップは米国では半数以上が計測している顧客の獲得、定着に対する定量的なデータをほとんど取得していません(30% 台 vs 50% 台)。プロダクトの継続的な利用を示すリテンションは顧客実証の状態を計測するために必要な値であり、取得していないと進捗を評価できません。「顧客の紹介に関する定量的なデータ」は日本では 14% しか取得していませんが、これも顧客のプロダクトへの愛着度合いを示す NPS (Net Promoter Score) の計測に必要です。米国では 45% が取得しています。

結論として、日本のスタートアップは創業 1~3 年目までに顧客実証を済ませておらず、その理由は顧客実証の度合いを計測していないため何を修正すべきか (=ピボットすべきか) 判断できないから、と考えられます。

解決策 : メトリクスの定義、計測、可視化、予測

データサイエンティストが創業 1~3 年目のスタートアップでやるべきことはメトリクスの定義、計測、可視化、予測と考えます。具体的には「顧客実証の進捗度合いをどう計測すべきか ? 」という問いに対し適切なメトリクスを定義し、アプリケーションの中に計測のための実装を埋め込み、可視化し、将来の予測をチームに共有しピボットの必要性を提案します。合理的なピボットの提案が増えることで顧客実証が促進され、成長が加速するまでの時間が短くなります。以下の記事には顧客実証のフェーズで行うべきアプローチがより細かくまとまっています。

「データサイエンティスト」として採用されたときそんな役割を与えられていない、プロダクトに組み込む機械学習機能の開発を任されている、ということもあるかもしれません。ただ日本のスタートアップ企業の人数は IPA の調査から 7 名程度で、 4 年目以降も顧客実証が完了していない企業が多いと見込まれるのが現状です。当初データサイエンティストとして期待したいわゆる「セクシー」な仕事ではないかもしれませんが、米国のスタートアップと同じ軌道に載せられればプロダクトの成長率を 30 倍にできる非常に価値のある仕事です。

IPA のレポートでは解決策として主に 1) 競争の促進と 2) 起業家の成長志向マインドの醸成を挙げていますが、個人的には競争が激しくなるほど「勝ち目がない」と感じ成長志向が鈍化するため 2 つの対策はコンフリクトすると思います。データサイエンティストがプロダクトや市場のデータから成長の機会を発見することで、「先 6 ヶ月で起業の機会があると感じる人の数 ( FIGURE 2.3 ) が調査対象の 49 カ国中最下位」という現状を合理的に否定し機会の存在を明らかにすることが、「できるかもしれない」という気持ちを後押し結果として起業機会と成長の速度を高めると考えています。経済産業省が 2018 年に提議した最大 12 兆円 / 年の経済損失を生む「 2025 年の崖」の解消に SaaS 等ソフトウェアが果たす役割が大きいことは IPA のレポートが論じる通りであり、あと約 2 年と差し迫った崖を超えるのにデータサイエンティストが果たす役割は少なくないと思います。

おわりに

本記事では IPA が公開した力の入ったレポート「成長しない日本のソフトウェアスタートアップ国内競争を促進してエコシステムを創出する」をもとに、データサイエンティストが取れる解決策について論じました。
( 私が所属する ) AWS ではプロダクト開発チームが近年台頭する生成系 AI を含めた機械学習を効果的に活用できるようになるためのワークショップ
ML Enablement Workshop を推進しており GitHub で資料を公開してます。機械学習は顧客の課題を解決するための手段であり、解決策が「顧客実証」に至っているかを判断するには本記事で論じたメトリクスの定義、計測、可視化、予測が同様に不可欠です。

ワークショップ最後の「開始編」ではメトリクス定義について議論します ( ハンズオン資料の動画では具体的な計算式を解説しています ) 。

ML Enablement Workshop の資料より抜粋
(最新版の v1.1.0 の資料で、近日中に反映される予定です。)

メトリクスの計測をもとに顧客実証にむけマイルストンを設計します。

本ワークショップはプロダクトマネージャー、開発者、データサイエンティスト合同で行うワークショップで、 Amplitude の Director of Product である Abbie さんが語られるように、私もこれがプロダクトでデータ、機械学習を活用していくためにベストな座組と感じています。 AWS として、ワークショップの資料が本記事で必要と提案したデータサイエンティストからの能動的なプロダクトへの貢献のきっかけになればうれしいです！