a16zが考えるこれからのAIビジネスのリアルと5つの勝ち筋

2020年3月4日 02:33

SaaSがオンプレミスソフトウェアと比較した時に全く新しい事業構造を生み出したようにように、AIは本質的に新しいビジネスモデルを創造しました。

今回はa16zの記事の意訳をベースに、AIビジネスが今までのソフトウェアビジネスとどのように異なり、その違いや課題をどのようにクリアし、より強いビジネスを作れるのかについての考察したいと思います。

ソフトウェア＋プロフェッショナルサービス＝AI？

ソフトウェアの美しさは、一度作られれば何度も売ることができること。この特性はビジネス上の利点をいくつも持つ：継続的な収益源、高粗利（60-80%+）、そしてネットワーク効果や規模の経済が働く場合には超リニアなスケーラビリティを実現できる。

プロフェッショナルサービスはその正反対の立場にある。新しいプロジェクトには毎回担当の人員が必要で、一度しか売ることができない。結果として売上はリカーリングではなく、低粗利（30-50%）、そして当然スケールしにくい。参入障壁については、ブランドや既存顧客の管理に依ることが多い。

今日のAI企業は上記のソフトウェアとプロフェッショナルサービスの両方の要素を合わせ持つ。

ほとんどのAIアプリケーションは普通のソフトウェアのように、ユーザーのインターフェースやデータの管理、他のシステムとの連携などのタスクを行うためにコードが使われる。しかし、アプリケーションの根幹にあるのは学習データのモデルである。このモデルが画像を解析し、スピーチを書き起こし、自然言語を生成し、その他の複雑なタスクを実行する。

その管理プロセスはサービス業のように感じられることが多い。なぜなら顧客固有の作業が発生し、通常のCS機能以上のコストがかかるからだ。この力学はAIビジネスにとって様々なインパクトがある。以下の章でAIビジネスの①原価、②スケーラビリティ、③参入障壁について考察したい。

難しさ①：クラウドコスト＋人間の介在＝高い原価率

(1) クラウドインフラは隠れた費用

多くのソフトウェア企業はAWSかAzureなどのクラウドに料金を毎月支払っている。AI企業にとってこのインフラ費用は馬鹿にならない。以下のような要因でその額は大きくなる。

● 継続性：一つのAIモデルを訓練するのには数千万円（また億）の費用を計算処理のために要する場合がある。一度きりのコストと捉えがちだが、モデルを訓練し続けるために継続してコストが発生する。なぜならモデルに食わせるデータは時間と共に変化する傾向があるからだ（データドリフトという現象）。

● 計算の重さ：推論（与えられたデータをモデルに当てはめて、予測結果を導き出すプロセス）は一般的なソフトウェアの処理よりも計算が複雑になる。例えば、長い行列の掛け算はデータベースを読み取るよりも計算量は大きくなる。

● データサイズの大きさ：AIアプリは一般的なソフトウェアよりも画像・音声・動画といったリッチメディア上で作動する場合が多い。これらの種類のデータはより多くのストレージ量を消費とし、対象の限られた領域を抽出するのに大きな画像データの処理が必要となる候補領域（Region of Interest）の問題がある。

● 他リージョンへの移動：現状グローバルでAIモデルをスケールさせるのに適したツールがなく、クラウド上でのオペレーションは複雑だ。結果として、AI企業は待ち時間などの改善のために学習モデルを別のクラウドリージョンに移動させ続ける必要があり、その出入りのコストは大きくなる。

全てが合わさると、AIビジネスの売上の約25％はこうしたクラウド関連の支出に充てられる。極端なケースでは、ある複雑なタスクに取り組むスタートアップの場合、マニュアルのデータ処理の方が推論モデルによる処理よりも安価だったということもあった。

より最適な形で処理をできるモデルの圧縮などの技術によって課題を解決しようとする動きがある一方で、データ量と処理量は指数関数的に増えており、プロセッサーがその速度についていけるかはまだ分からない（2012年以来最先端のAIモデルを訓練するのに必要な計算リソースは30万倍にもなっているが、NVIDIA GPUのトランジスタ数は4倍弱にしかなっていない！）。分散コンピューティングは解決の糸口になりえるものの、主に速度を向上に繋がってもコストの問題は残る。

(2) AIの精度の向上・維持には人間の介在が必要

「Human in the loop（人間参加型）」と呼ばれるが、現状のAIには要所で人間が介在し、低粗利に繋がりやすい。主に以下の2つの部分で人間は必要になる。

● 前処理とラベリング：最先端のAIモデルを訓練する際にはデータのマニュアルの前処理とラベリングが必要になる。この部分は労働集約的で、AIの導入への大きな障壁となる。また、先述の通り訓練は一度で終わらないため、新しい教師データを食わせる度に毎回ラベリングしなければならない。事例ベースで多くの企業はこのプロセスに売上の10-15％をかけており、バグ修正や機能追加よりもコストがかかっている。

● データの意味の理解：認識が必要なタスクは、リアルタイムで人間がAIシステムに介在する。ソーシャルメディアにはAIによる管理をサポートする数千人の検閲者、自動運転システムには人間のオペレーター、医療機器のインターフェースには共同意思決定者として医師がいる。

AIのパフォーマンスが改善すれば人間の介入は減少していくだろう。しかし、プロセスから完全に消えるという可能性は低い。自動運転など多くの問題は、現世代のAI技術では複雑すぎて完全な自動化は難しい。安全性、公平性、倫理といった問題は言わずもがな。

また、クラウドの費用か人件費のどちらかが下がったとしても、SaaSビジネスのようにゼロに近いコストの水準まで下がることは考えにくい。処理データ量が増えていくにつれて2つのコストのどちらかは増えることになる。

難しさ②：ロングテールになり、スケールが大変

AI企業にとって、PMFしたかどうかは一般的なソフトウェアビジネスより判断が難しい。顧客を5-10社獲得でき、これで安心と思ったら機械学習チームのバックログが増え始め、オンボーディングに時間をかけなければならず、新規開拓にリソースが割けなくなる。

多くの場合、原因はエッジケース（極端な動作で発生する問題や状況）にある。AIアプリは制約の少ないインターフェースで、画像や自然言語といった構造化されていないデータの上で動作する。ユーザーは人間以上の能力があると思い、色んなものをインプットしてしまう。

このような状態空間モデルを管理するのは継続的で厄介な作業になる。インプットの値の幅が大きすぎるため、新規の顧客へのサービス導入の度に今まで見たことのないデータが出てくる。似たように見える顧客（例えば欠陥検出をする自動車メーカー2社）でも、組み立てラインのカメラの位置のようなシンプルな違いによって、差異の大きい訓練データを必要とするかもしれない。

ある起業家はこの現象をAIプロダクトの「時間コスト」と呼ぶ。その会社は各顧客との取引開始の際にデータ集めとモデルの調整に一定の時間をかけることで、顧客のデータの分布を可視化し、デプロイ前のエッジケースの排除を可能にする。しかし、チームと資金リソースはモデルが一定の精度に到達するまで手が離せなくなるというコストもかかる。普通、教師データをより速く生成する方法はほとんどないため、チームがどれだけ頑張っても訓練期間は読めない。

難しさ③：差別化・参入障壁が難しい

素晴らしいソフトウェア企業は強固な参入障壁がある。ネットワーク効果や高いスイッチングコスト、規模の経済など。

AIの世界では、技術的な差別化は難しい。新しいモデルは多くの場合オープンで学究的な場で開発される。リファレンス実装（訓練前のモデル）はオープンソースのライブラリで入手可能で、モデルのパラメータは自動的に最適化できる。データはAIのコアだが、顧客が持っていることが多く、公開されていたり時間が経つにつれてコモディティ化する。

また、市場が成熟するにつれて価値が下がり、比較的ネットワーク効果も弱い。一部の例では、AIにインプットするデータの「規模の不経済」が見られる。モデルが成熟するにつれて、エッジケースへの対応はよりコストがかかる一方で、サービスが価値提供できる顧客は少なくなっていく。

AIプロダクトが純粋なソフトウェアに比べて参入障壁が低いというわけではない。自社のデータをAIに学習させるコストがかかる性質を考えると、スイッチングコストは高く、一定程度のブランド力と独占に近い期間を作ることができる。

AI企業の勝ち筋？

起業家はAIビジネスを健全に成長させるのにどのようなことを考えるべきかについて、以下、記事の意訳＋筆者の考察になります。

勝ち筋①：モデルの複雑性を可能な限り排除

顧客ごとにユニークなモデルを訓練する場合と、全ての顧客に単一（またはいくつかの）モデルを適用できる場合とでは、原価で非常に大きな差が生まれる。「単一モデル」戦略はメンテナンスが楽で、新規顧客に素早く展開ができ、よりシンプルなエンジニア組織にできる。また、データのばらつきを減らし、重複する訓練を防ぐことで大幅にクラウドインフラ費用を抑えられる。

このような理想的な状態を作るための特効薬はないが、一つできる施策としては「契約締結前に」顧客と彼らのデータを深く理解することだ。ほとんどの場合はいくつかのモデルを持つか、微調整を加えることで十分だが、時に新しい顧客が機械学習の作業に大きな負担を強いることが明らかな場合がある。この場合、長期的な事業の健全性をとるか、短期的な売上成長をとるかの判断はAI起業家にとって最も重要な仕事となる。

勝ち筋②：領域を狭くしてデータの複雑性を減らす

人的労働を完全自動化するのは根本的に難しく、AIモデルが担えるタスクの範囲は思ったよりも小さい。しかし、人間にとって難しいがAIにとって比較的容易な問題の数は多かったりする。

例えば、2019年末に上場したAI Insideがある。彼らの製品、DX SuiteはOCR（Optical Character Recognition）という画像や書類の中から文字を読み取る技術に特化したサービス。

AI inside 株式会社「成長可能性に関する説明資料」

OCRの他にも、検閲やデータ入力、書き起こしといった複雑性が低く、回数が多いタスクに集中することで、モデルの訓練のために与えるデータもシンプルなものにできる。

領域の絞り方によって、受託ビジネスにとどまらず、ソフトウェア的なパッケージに仕上がられるのかが左右される。国内のAI企業で時価総額1000億円超のPKSHA Technologyは、顧客企業のソフトウエアにアルゴリズムモジュールを組み込む受託事業に加えて、それらのモジュールを組み合わせた用途特化の自社ソフトウェア事業が成り立っている。

株式会社 PKSHA Technology「2019年9月期　決算説明資料」

勝ち筋③：プロフェッショナルサービスと組み合わせる

AIの精度やソフトウェアの質は、Google / Amazonなどの巨人に分がある可能性が高い。一方で、日本市場で勝つにはソフトウェアだけでなく、カスタマーサクセスに関係するプロフェッショナルサービスの活用がキーとなる。

以下のグラフはSaaSビジネスのデータになるが、プロフェッショナルサービスの全体に占める売上割合が大きいほど、解約率が低いことが分かる。

Myya Daigle "2018 Private SAAS Company Survey- Part 2"

また、SaaSにおけるサービスの重要性は以下のnoteで以前触れているので参考までに。

ハイブリッドのビジネスを作ることは純粋なソフトウェアよりも難しいかもしれないが、一方で顧客ニーズのへの深い知見を得られるというメリットもある。また、特に複雑で新しいテクノロジーを売る場合、サービスはGo-to-Marketのエンジンを始動させるのに良い手段になりえる。

勝ち筋④：王道的に、データによる参入障壁を作る

AIモデル自体か、その元データが長期的な参入障壁となるかは確かではないが、良いプロダクトと独自のデータは良い事業の必要条件になる。

PKSHA Technologyは、以下のスライドで分かる通り、その王道を追求していると言えるだろう。

株式会社 PKSHA Technology「2019年9月期　決算説明資料」

顧客企業のソフトウェアに組み込んでもらい、顧客企業のデータを学習し使ってもらえばもらうほど教師データが増えまた学習することができ、PKSHAの提供しているアルゴリズムが賢くなっていく。また、導入して企業が使えば使うほど、その企業独自のデータを学習して最適化される。

このようなループができているため、データによる参入障壁の構築と解約リスクの低減が同時にできている。

勝ち筋⑤：高い変動費を織り込み、GTM戦略を練る

AI企業における原価（先述したクラウドインフラ費用と人件費）は一定の割合まで下がりはするが、完全に消えることはないので、低い粗利率を念頭に置いたビジネスモデルとGo-to-Market戦略を考えるべき。数人のファウンダーの良いアドバイスがこちら：

● モデルに与えるデータの分布を理解せよ
● モデルの品質維持とフェイルオーバーは最優先課題として扱え
● 真の変動費を見つけ出し、研究開発費の中に紛れ込まないようにすべし
● 事業計画上のユニットエコノミクスは保守的に（特に資金調達時は）
● 課題解決のためにスケールや外部的な技術の進歩を待つな

まとめ

今日の多くのAIシステムは、いわゆるソフトウェアとは違う。高原価、スケーラビリティ、参入障壁といったチャレンジを乗り越えるための勝ち筋をまとめるとこうなる。

① モデルの複雑性を可能な限り排除
② 領域を狭くしてデータの複雑性を減らす
③ プロフェッショナルサービスと組み合わせる
④ 王道的に、データによる参入障壁を作る
⑤ 高い変動費を織り込み、GTM戦略を練る

AI自体はまだ研究テーマから実社会での応用へと移行している過渡期であり、Convolutional Neural Network (CNN)を用いたAlexNetが2012年に現在の第3次AIブームに火を付けてからまだ8年しか経っていない。毎日のように新しいアルゴリズムが論文で発表されていて、今の最先端アルゴリズムが1年後にはレガシー化するかもしれないこの領域は見ていてワクワクするし、日本の市場にはまだまだ大きなチャンスがあると思う。

----------

AI起業家の皆様、ぜひディスカッションさせてください！フォローもぜひ㎜

https://twitter.com/tomo4kata

サポートいただき、ありがとうございますmm 執筆活動がんばります！