見出し画像

データサイエンスの各国の現状 〜中国〜

データサイエンスについて

データサイエンスは、統計学、コンピュータサイエンス、マシンラーニング、ビジネスなど複数の領域を跨る学問である。
 wikipedia中国のサイトでは、データサイエンスを下記のように説明している。

“データサイエンスはデータで知識を学ぶ学科であり、データから価値のある部分を取り出して、データプロダクトを作ることを目標とする。複数領域の理論と技術を融合している。例えば、応用数学、統計、モデル認識、マシンラーニング、データ可視化、データウェアハウス、高性能計算など複数領域の理論と技術を融合している。データサイエンスはさまざまなデータからプロではない人のために課題を理解する手助けをし、データを的確に処理することにも役立つ。さらに、生物学、社会科学、人類学などの領域において、研究を手伝う。ビジネス競争にも大きな貢献をしている。”


データサイエンティストについて

データサイエンティストに対する明確な定義がないが、中国の百度では、下記のように説明している。

“データサイエンティストは科学的な方法を利用し、データマイニングツールで、大量で複雑な数字、符号、文字、website、音声あるいは動画をデータで再現し、再認識する。その中にデータインサイトを見つけるエンジニアもしくは専門家のこと(統計学者やアナリストとは異なる)。優秀なデータサイエンティストはデータ収集、数学アルゴリズム、数学ソフトウェア、データ分析、推測分析、市場応用、戦略分析などの素質が必要。”

また、広義と狭義という観点で、下記のような説もある。

<説1>
広義:データを処理対象にしている従業者は全員データサイエンティストと言える。例えば、従来のデータベースマネジメントスタッフ、データベースエンジニアとデータ統計アナリストは全員データサイエンティストと言える。
狭義:データをリソースとして利用することで、会社のビジネス拡大を推進し、付加価値を作れる人しか本当のデータサイエンティストとは言えない。

<説2>
広義:データ処理、加工、分析などに従事しているデータサイエンティスト、データアーキテクト、データエンジニアなどは全員データサイエンティストと言える。
狭義:データ分析能力を持って、各種のアルゴリズムに精通し、データを直接処理できる人はデータサイエンティストと言える。

 全体的に中国では、データサイエンスはビジネスの価値を作ることに焦点を当てる傾向がある。但し、サイエンティストは海外ほど一般的に使われておらず、論文を発表するなどの科学者、研究者に使われる。データサイエンティストは、コンピュータサイエンスの能力は勿論、数学、統計学および優れたコミュニケーション能力も必要である。しかし、全ての能力を網羅しているスーパーマンはなかなか存在しないため、実際の業務の中で、データサイエンティストの細かい仕事内容で職種を呼ぶことはない。例えば、アルゴリズムエンジニアやモデリング開発エンジニアなどである。また、会社の規模によっても名称が変わることが多い。

全体的に、下記の3職種で比較される。

・データエンジニア
データウェアハウス及び関連のサービスを開発
ストラクト、技術プラットフォームとツールを担当
データサイエンティストとデータアナリストの仕事をサポート
プログラミングと運用保守能力が必要

データサイエンティスト
データで実際の価値を作る
データの収集・処理及びマイニング
モデリングなどを行い、インサイトを形成
ビジネス領域、マシンラーニング、プロセス能力及びコミュニケーション能力に置いて、深い知識が必要

データアナリスト
データプラットフォーム、ツール及びアルゴリズムモデルに基づいてデータを探索し、ビジネスインサイトを形成
ビジネス関係の専門知識が必要
良好なコミュニケーション能力


現状と課題

①応用状況

中国のデータサイエンスはさまざまな業界に適用しているが、中国だけでなく、全世界でもデータサインエンスの一番大きい買い手は、銀行などの金融企業と政府である。中小企業の投資はまだ低いレベルだが、中小企業の中でも、リテール業界はデータサイエンスを利用することが多く、主にクラウドのソリューションを利用している。
 中国の大手求人サイト51jobでデータサイエンティストをキーワードで求人情報を検索した。求人件数top10の結果は以下のとおりである。

スクリーンショット 2021-05-25 9.30.53

 ECビジネスはデータサイエンスが広く応用されている業界であり、求人ニーズもとても高い。EC業界においては、データサイエンティストはユーザの行動データを収集し、ユーザの好みを分析することで、潜在顧客を発掘し、パーソナライズマーケティングを推進する。また、推薦アルゴリズムを活用して、ユーザの好みを推測し、興味がありそうな製品を提案する。

 教育はECに次いで、2番目にデータサイエンティストの求人が多い業界である。covid-19をきっかけに、中国のオンライン教育の業界はものすごい勢いで成長している。データサイエンスはオンライン教育での運用がとても活発している。例えば、チャネル運営(weibo,redbook,tiktok)、カスタマーサービス(オンライン質疑応答、正式購入)、問題集の拡大と精度向上などが挙げられる。

 また、中国では、中国現地企業の利用が増える傾向にある。理由としては、下記の3点が考えられる。

①政府は現地化政策の事由とデータ保護の観点から、銀行や国有企業などに対し、中国現地の製品を購入するように要求している。
②データサイエンスの中で、データの保管場所はとても重要な要素のため、製品・サービスは未熟でも、中国現地企業を選択する傾向がある。政府の推進はあくまでも外部要素である。
③データサイエンスは、R言語や、Pythonなどのオープンソースの応用がとても盛んになっている。中でもオペレーションと保守は、サービスベンダーが価値を提供できる領域になる。その際に、中国現地の企業なのか、海外の企業なのか、はあまり重要ではなくなる。


②人材について

 中国は、2016年に初めて北京大学など3つの大学にデータサイエンス及びビッグデータ専門の学科を設け、2019年3月時点で418校になった(中国の大学大学院は全国で1265校)。学科の項目は、学校によって多少変わることがあるが、大体同じである。

一例として、下記のようなものがある。

基礎項目:数学分析、高等代数学、物理数学、データ構造、データサイエンス基礎、プログラミングデザイン基礎及び実践
必須項目:離散数学、確率と統計、アルゴリズム分析と設計、データベース、コンピュータサイエンス、並列計算とプログラミング、非構造ビッグデータ分析

 また、調査によると、アメリカの大学のデータサイエンスプロジェクトが、世界で最も多く、約425件あり、中国はアメリカのわずか20%で約93件、日本は約60件ある。国の広さで平均を計算すると、中国は日本よりも少ないレベルであることがわかる。

 データサイエンティスト専門の学科はまだ新しいが、実際に中国のデータ人材の出身学科を調査したところ、従来のコンピュータサイエンスと数学統計出身の人が最も多く、データサイエンティストレベルだと、基本的に大学院生と博士の学歴を持っている。

スクリーンショット 2021-05-25 9.40.30

 男女比率について、従来のハイテク領域では、男性の比率が高く、男女の差が大きい。しかしながら、データ領域では、女性の比率が3分の1以上を占めており、女性にも人気の職種であることがわかる。

レポート3中国2


 
 中国のデータサイエンティストの中で、2019年に給与が最も高かった top14の職種は以下のとおりである。この中からも市場ニーズを読み取ることができる。

  推薦アルゴリズム、データアーキテクト、アーキテクト
  探索アルゴリズム、デープラーニンング
  グラフィックアルゴリズム、音声認識、自然言語処理
  アルゴリズムエンジニア、golang、音声/動画/グラフィック開発
  Hadoop、画像認識、戦略コンサルティング

 データサイエンティストは、中国でとても人気な職種だが、人材不足が大きな課題になっている。知識の習得と共有を推進するために、データサイエンティストのコミュニティがたくさん立ち上げられており、定期的にコンテストを開催している。影響力のあるコミュニティのコンテスト経験が大手企業の募集条件に入るケースもある。


まとめ

 中国では、データサイエンスは応用面でも人材面でも非常に盛況な業界である。未熟な分野でもあるが、物凄いスピードで実践に移行している。調査していく中で、中国のデータサイエンスはアメリカの情報を引用することがとても多いことが分かった。現地企業は成長が見込まれているが、海外の情報収集と勉強は今後も欠かせないものである。