データの仕事の年収や価格の話

日本では収入とか単価の話を聞くことがセンシティブなのですが、データサイエンティストとか、データエンジニアの相場は大体どのくらいなんでしょう?

ということで、センシティブな年収とか単価の話です。

まずは年収の話。

まず、年収について。年収は、2019/11に発表された、データサイエンティスト協会調査研究委員会のアンケート調査結果資料をベースにします。本当はローデータまで当たって詳しく検討したいところですが、公表されているのが単純集計だけなので、ひとまずここから想像を膨らませます。

すると、ダイレクトに年収分布のグラフが掲載されていますので、こちらを見やすくします。

画像1

( 2018年データサイエンティスト協会一般(個人)会員アンケート単純集計結果, データサイエンティスト協会 調査・研究委員会p8, https://www.datascientist.or.jp/common/docs/2018_research_GT.pdf より抜粋)

まずサンプルについて。この調査の有効回答数は391に対して、Q10のnは274、およそ70%です。274という数字はQ6, Q7でも出現しており、一方でQ5までは391や385などなので、なんらかのフィルタがかかっています。こちらは発表資料ですので、おそらく口頭で説明があったものと思われますが、この資料だけからは不明です。察するに、なんらかのデータに関わる仕事に就いている人だけを抜き出したのではないかと思うのですが。

さらに、「答えたくない」が7.7%あるので、年収分布は253人分の回答です。そもそも本調査結果はデータサイエンティスト協会に参加している一般(個人)会員を対象に実施された時点でそのようなバイアスがかかっており、その全体が391人、そこからさらに何らかのフィルタがかかって253人分であるということは、念頭に置く必要があります。

さて、とはいえ253人分のデータがあるので、これをもうちょっと見やすくします。最も読み取りを困難にしているのは右から三番目のバーで、人数割合が最も大きいパート。年収1000万円~1500万円が最大ですので、「データサイエンティストの年収は1000万円~1500万円!」と答えたらそれはデータサイエンティストではありません。釈迦に説法で恐縮ですが、1000万円までは100万円刻みで集計されているのに対して、1000万円以上でいきなり集計幅が500万円になっているので、バーが跳ね上がっています。業界では当たり前にビンの幅を確認するものですが、一般の方はこれでミスリードされがちなので、誰に向けて書くかで注意が必要です。

よって、この凸凹を修正しましょう。修正したのが次のグラフです。

画像2

こちらは先の年収分布を対数正規分布でフィッティングしたものです。元データを累積密度に変換し、それと対数正規分布の累積密度分布がもっとも近くなるようにパラメータを調整しました。対数正規を使ったのは、なんとなく年収は対数だからです。

画像3

フィッティングの状況です。上の青い年収分布グラフのビンの切り方を元に戻すと、これになります。ぴったりは合っていませんが、それなりにフィットできました。対数正規なので、上の方を重点的にあわせにいっています。また、1000~1500を一つにまとめるのはちょっと乱暴だったと言うことが見て取れます。

さて、この対数正規分布を信じると、「データサイエンティストの年収分布(バイアス込み)」は、

・平均 800万円付近
・最頻値 630万円付近
・中央値 730万円付近

となります。つまり、

・DSの半分は730万円以下
・最も仲間が多いのは630万円付近
・平均値は上位の高給取りが引き上げている

いかがでしょう?皆さんの感覚と合いますか?例えば、DSは高給っていうイメージがありますけれど、例えば2000万円を超えるのは全体の1%もいないし、1500万円超えもわずか4%です。年齢分布(DS協会資料p2)と見比べてみても、そんなにバブルな業界には思えませんし、一方で、85%が正社員、また、43%が大学院修士以上であることも合わせて考えると、さほどよくもないぞと思うところです。

ちなみに個人の思いとしては、上の方は放っておいてもいくらでも稼ぐと思うのでおいといて、底上げは図った方がいい、それには、世間からのイメージをもうちょっと変えていった方がいいんじゃないかなと思っています。特に、DSと言いつつスペシャルではない人のキャリアをどうしていくか。また、企業に依存しないキャリア形成をどうするか。など。閑話休題。

次に単価の話。

単価の話、これもなかなかにセンシティブな話なんですが、誰かが言い始めないと、今後、業界的にちょっと困る事態になるだろうなと。というのも、買う方に「相場観」ができていないんですよね。価格が提示されて、それが高いのか、安いのか、ぼられてるのか、良心的価格なのか、全然わからないという話をお客さん方面からしばしば聞きますし、同業他社でもいやそれぼりすぎでしょみたいなこともあったり、どういうことができる人が、どの程度の価格で調達できるのか、それは内製と外注でどう違うのか、そもそも何が違うのか、そういうことが整理されていないまま、「AI」とか「機械学習」とか、「データサイエンティスト」とかいうキラキラワードで煙に巻かれているような気がしているお客さん側が沢山いらっしゃると思います。大企業同士でやっている間はいいのですが、データ分析、データエンジニアリング、ビッグデータの流れは急速にコモディティ化してきているので、大企業だけのものにしておくわけにもいきません。

そこで、うちの会社でのこれまでの実績と、様々な会社さんと話をしてきた経験上から、大体このくらいの相場観だろうなというのを示して、あとは「うちは違う」って言ってくれる人が出てきたらいいと思います。

が、その前になぜ「単価」なのか。データ分析、データサイエンス、データエンジニアリング、これらは「モノ」を作りません。システム屋さんはシステムを作りますし、メーカーはものを作りますが、データなんとかはサービス業です。それはなぜかは過去記事などでも書いている気がするので割愛しますが。

サービス業なので、その価値は瞬間に発生し、次の瞬間には揮発します。ですから、データなんとか業は、時間単価で販売するのがもっとも合っている、と思っています。もちろん、その時間で何をどの程度実施するのかは、ゆるっとコミットするのですが、そもそも分析結果を「確実にコミットできる」ならばそれは分析をする前から明らかなので、分析をする意味などありません。プロジェクトに「データなんとか」と名前がついた時点で、それはそのデータの活かし方がまだわかっていない証拠で、それを活かす方法を見つけるのがデータなんとかの仕事ですが、確実に見つかるのならその時点で問題は解決しています。「データなんとか」の製品を買うケースもあるじゃないか、と、もちろんそうなのですが、それはデータなんとかを買っているのではなくて、データなんとかで実現できるソリューションを買っているのです。例えば、最近では画像タグ付けがかなり簡単にできるようになってきましたが、これは「AI」や「データなんとか」を買っているのではなくて、「画像認識」を買っている。一つのソリューションになったときにはもうそこに「データなんとか」という名前はつきません。空気が悪かったり、うまく循環しなかったりするときには空気を気にしますが、問題が無ければだれも空気の存在を気にしません。それと同じです。

さて、単価に戻ります。

単価とは、人月単価のこと。その人が一ヶ月働いた対価としていくら支払うのか。

人(以下、法人も人として扱う)によって一ヶ月間でできることは違いますので、当然人によって単価は違います。特にデータなんとか業は形がないので、その人ができることを資格や実績などで計りにくい。それでも、何らかの形を与えて単価という物差しで計測しないと、売れません。この場合の「売る」は、会社が会社に外注もしくはSESとして販売することの他、個人が、自分のスキルや能力をもってその時間を会社に売る、つまり、就職する際の給与のことでもあります。

つまり、年収と単価はほどほどに関連します。SESなどをやっている会社では、売価の何割か上前をはねて(言い方悪いですが)給与を出すので、当然給与が高ければ売価も高く、安ければ安いです。同様に、内製でデータなんとかを抱える会社も、その労働力や技術力などを自社採用にするか外部調達するかは、リスクや自由度なども当然考えながら、給与をいくら支払うか、もしくは単価いくらで何人月支払うか、そのバランスを取っています。

さて、データサイエンティストの年収の中央値は730万円でした。730は割り算が苦手なので、720にします。これをモデルケースにしてみます。

まず、人の側。年収720万円は、日本の会社の多くが月給+賞与で年収が決まることから、12ヶ月+賞与2ヶ月×2=16ヶ月とみなすと、月額45万円+年二回の賞与90万円ずつ、になります。これが中央値。年齢分布の平均値はおよそ40歳なので、40歳で年収720万円、月給額面45万円が中央のイメージですね。なお、データサイエンティスト協会には大手企業が多数参加しているので、比較的若めに見られる「データサイエンティスト」の年齢平均が40歳というのは妥当なところだと思います。一方で、資料をみると25-39歳が一旦ガクッと落ちているのはかなり気になります。ちょうどロストジェネレーションあたりです。

次に、これを売る会社の側。いわゆるピンハネ率ですが、従業員として実際に手にする金額と、それを会社が生産人員として管理したり、もしくは他社へリソースとして販売する際の金額には違いがあります。まずはこれをおよそおさえましょう。

ざっくりと、およそ年収の2倍~4倍が販売価格になります。つまり、年収720万円ならば、外販価格は1440万円~2880万円程度、人月単価に直すと120万円~240万円です。内製部隊にいる場合も、およそこれくらいのイメージでコスト計算されていると思います。

なぜ、月給45万円なのに、販売価格が120万円~240万円になるのか。

まず大きいのが社会保険。その中でも健康保険と厚生年金が大きいですが、いわゆる社会保険の会社負担分は給与の約15%、月6.75万円、年108万円です。

次に大きいのが場所代。オフィスは一般に交通の便の良いところにあるので、だいたい一人5万円/月~10万円/月かかります。水道高熱費や清掃などもこれに含まれます。データサイエンティスト協会のメンバーを見ると、一等地にオフィスのある会社さんが多いので、ここは10万円/月で計算しましょう。月10万円、年120万円です。引っ越し費用の積み立てなどはこれに含まれていると思っていいです。

次は通勤費用。といっても、定期代に月に2,3万円かかっている人はかなり遠い方だと思います。2万円/月で計算すれば十分です。

単純に人が一人働くと、年収720万円ならば、会社が支払う費用は972万円になりました。

さて、一人が即戦力で働けて、最初から何の手当もせず、営業もせず、管理もしないで働ければこれだけで済むのですが、会社にはだいたい事務の人がいて、営業の人がいます。IT化によって事務はかなり省力化されてきましたが、相変わらず税務署や労基局や法務局や自治体やなんやかんやと様々な書類が必要で、そのための人件費がかかります。事務要員の確保もさることながら、それら公的責務のために税理士さんや会計士さん、弁護士さん、社労士さんに様々なお願いごとをしますので、その費用もかかります。特許を出したければ弁理士さんも来てもらいます。また、営業の人がいなければデータなんとかが働く仕事がありません。営業さんが社会の様々な課題を探して、持ってきてくれるので、データなんとかは働くことができます。当然、良い仕事を沢山持ってきてくれる、勘の良い営業さんは、その費用も高いです。場合によってはアナリストなどが営業を兼ねてサポートしているケースもありますね。また、一つの案件に関わる時間が長ければ長いほどアウトプットは増えますが、一度に担当できる業務は減ります。ここでは一人およそ年商1億円くらいを想定しましょう。5人~10人分ほどの仕事を担当しますと、役務提供だけならこのくらいになります。(販売などがからむともっと増えますが、それは一旦無視します。)営業さんの関与を20%として、2000万円が営業さんの分、残りがエンジニアの分です。事務方と合わせて30%と概算しましょう。

逆算すると、上の972万円が70%にあたるので、100%は1389万円になります。これが、年間に期待される売上額です。

さて、仕事というのは波があります。何かを受注して、それに対して労働を行い、その対価を受け取っています。ものづくりでも、商品の売れ行きには波があります。一方で、会社が従業員を雇用する際には、日本では基本的に解雇できません。つまり、仕事の波に合わせて柔軟に雇用を調整することができないようになっています。労働者保護のためです。

解雇規制が破られる事態というのが倒産です。会社が斃れるときには解雇も行われます。会社が斃れると全従業員が不幸になるので、会社はそれを避けようとします。しかし、経営がちょっと厳しくなったからと行って、余った従業員をリリースすることはできません。すると、当然の帰結として、バッファを持ちます。売上の変動をある程度吸収するために、一部の売上を給与として分配するのではなく、留保してリスクに備えます。当たり前のことです。全員で死にたくはないですから。

生産=資本×労働という生産関数に対して、メーカー等でしたら資本側が厚いので、いざとなれば資本を切り崩すことができますから、労働側のバッファは比較的小さいです。一方、IT関連ならば資本が小さくても人の能力だけで仕事ができるので、労働の方が重くなります。データなんとかという仕事においては、そのバッファはおよそ1/4~1/6程度とみていますが、いかがでしょうか。つまり、当人を純粋にアウトプットに充てられるのは全体の3/4~5/6で、残りは平均的に空いてしまう。このバッファを持っておかないと(つまり、このバッファを見込んで計画を立てないと)、倒産リスクが上昇します。例えば、2020年は4月、5月に様々な予定が止まってしまって、受注予定だった仕事が延期になったり、流れたりしたケースが多かれ少なかれあったと思いますが、そういう事態に際してバッファを適切に持っておかないと、すぐ経営危機に陥ります。リスク管理は経営における重大な責務の一つです。

さて、ですから、年1389万円かかる要員は、年間の3/4の9ヶ月、もしくは5/6の10ヶ月程度で稼ぐ必要がありますので、これを月に直すと1389÷10=139 ~ 1389÷9=154です。これが、さきほど「単価は年収の2倍~4倍、120万円~240万円」と申し上げたことの根拠です。120よりはちょっと多めですが、これは営業の関与とバッファの取り方によります。最低ラインが2倍と思えばいいと思います。

なお、細かいことですが、この1人月は月90%稼働想定です。日本は月平均するとだいたい1月20日あるので、1人月=20人日としてしまいがちですが、これはNG。日本の労働法では、有給休暇を年間20日ほど付与する義務がありますので、これを月に分配するとだいたい2日/月、つまり、1月に2日は休ませなけれなりません。よって、1人月は18人日で換算しないと、有休が取れないブラック企業になってしまいます。原価は変わらないため、1人月=20人日換算で計算する場合は単価を20/18だけ上げて、171万円にしておく必要があり、さらには、一人では担当しきれないので、複数人をアサインする必要があります。

さて、では、ずっと上の方で「2倍~4倍」と言いまして、いま2倍強まで解説しました。残りの部分、4倍まで上がるのはどういった理由でしょうか。

個人に帰する部分や、営業、事務なども全部既に入っていますが、さらに単価を引き上げる効果があるのは:

・資産価値:特別な資産を用いることができる
・ブランド価値:特別なブランドである
・ネットワーク価値:特別なネットワークをもっている

他にもあるかもしれませんが。これらは、当人に付随するものではなく(当人に付随するモノならば、その分年収が上昇するので、上で考慮済み)、当人以外の価値です。

特別な資産というのは、例えば分析ソフトウェアです。その会社しか持っていないソフトウェアを使って分析します、というのは、ぴったりマッチすれば顧客側にとって非常に価値が高まりますので、もしその価値をソフトウェア利用代として取らないのであれば、データなんとかさんの単価を上げて価値を供給することになります。これはわかりやすいです。

次にブランド価値。超有名企業であるとか、有名な企業グループの名前がついているとかは、それだけで付加価値になります。なぜなら、それがある種の安心感に繋がるから。リスクをヘッジして、そのコストを支払っていることになります。○○のグループ会社だから、ひどいレベルの仕事はしないだろう、とか、○○というサービスを開発したところだから、きっと○○については詳しいだろうとか。有名ブランドであれば、裏側のネットワークにも期待しますよね。○○の問題があったときに、それは親会社の○○部署が専門なので、すぐにヒアリングしてきてくれるとか。あとは、会社が潰れる心配がないというのも取引においては重要です。4月にローンチしたい、そのために、分析をどうするか検討している、この会社は責任もってローンチまでに回答を仕上げてくれるのか?途中で無くなりはしないだろうか?という不安も、大企業ならばそうでもないかもしれません。

但し、このパラグラフはポジショントークですので話半分で聞いて頂きたいのですが、このブランド価値というのはなかなか曲者です。顧客の側にそれを判断する材料だったり、背景知識だったり、経験値が少ないことは、このような専門的な領域ではある意味当たり前で、だからこそリスクヘッジとしてのブランド価値が活きるのですが、逆に言うとブランド価値はただそれだけのものです。つまり、顧客の側に判断材料や背景知識、経験値があったとすれば、ブランド価値など無くとも適切な買い物ができるということです。特に、データなんとか界隈は非常にスピードが速く、そのためブランド価値よりも個々人の能力値の方が仕事の成果に大きく影響している印象があります。今は社内で培養された人よりも、大学・大学院時代にしっかり積み上げて、社外の勉強会や、グローバルな学会などで見かける人の方が、質の高いアウトプットを出せている印象があります。ポジショントークここまで。

ネットワーク価値は人の組み合わせのことを指していますが、これは大きい会社ならではのメリットだと思います。データなんとかは取り扱うものがデータですので、必然的に社外秘であることが多いです。テクニックや論理などは公共知ですので勉強会や学会などで仕入れられますが、そのデータや顧客に直接関係することは社外では口にできません。そのとき、社内に様々なものに精通している人たちがいると、それはアドバンテージになります。なんとか総研とかがそれにあたります。私も過去にそういうところにいたことがありましたが、だいたいの専門家がその辺にいることは、成果を効率的に進展させることに非常に役立ちました。

余談ですが、総研から独立してその環境が無くなったことは痛手でした。一方で、独立したからこそできた仕事などもあったり、独立した後も何人かの友人とはその後もコミュニケーションがあったりしたことは、対外的には強みになりました。もちろん、独立すればすべての情報環境を自分でコントロールできるようになる(逆に、しないと何もない)ので、積極的に外部とコミュニケーションして、総研にいたときよりも広くて深いインプットができるようになっていったことは、良かったと思います。現在、weworkというコミュニティ型シェアオフィスに居を構えているのも、そういったインプットのアンテナを高く張るための方策の一つです。

さて、そのような、資産価値、ブランド価値、ネットワーク価値によって、同じ人でも顧客に対して自分だけの力の2倍、もしくはそれ以上の付加価値を供給できる、かもしれません。ですから、最終的には1人月154万円が、240万円とか、300万円などに上昇します。あくまでも、モデルケース40歳月給45万円(年720万円)での話です。

まとめとその他

ということでまとめると、

・データサイエンティストの中央値イメージは、40歳月収45万円
・その人の人月単価は120万円~240万円

なお、月給が90万円(年収1440万円)になれば、人月単価も308~480万円になりますが、月給90万円(年収1440万円)は上位5%です。例えば、若くてすごいデータサイエンティストで、新しいモデルや新しいソフトウェアをどんどん開発して、会社に何億円もの利益を上げ続けるような人はもちろん存在しますが、そういう方は分布の端の方です。あくまでも、この文章の題材はスペシャル人材ではなく、広く一般の「データサイエンティスト」のイメージです。

また、このイメージ像は内製部署、つまり、自社のための分析やデータエンジニアリングを行う人でも同じで、年収720万円なら単純費用だけで972万円、約1000万円かかっており、事務方の費用や管理者の費用なども合わせると、だいたい1500万円から2000万円ほどかかっていることになります。雇用してしまえばあとはコストだけなので、日頃あまり意識することがないと思いますが、いつなんどき転職したり、自分で独立したりしないとも限りません。また、メーカーなどでは一方に稼ぎ頭の商品があって、データなんとかは売上と比べて割合が小さいので、思わぬ高給をもらって妬まれていたり、逆に、割に合わぬ給与だと思っていたりもするかもしれません。そんなときは、自分にかかっているコストと、自分がいることによって会社が得られている粗利(もしくは、自分がいなくなることによって減る粗利)とをざっくり計算できると、それが自分の自信にもなりますし、交渉材料にもなります。

あとは、元にしたデータがデータサイエンティスト協会の年収分布だったので、データサイエンティストについて(データなんとか、と濁しながら)考えてきましたが、実は私は「データサイエンティスト」というフレーズはあまり好きではなくて、データエンジニア、データ分析者(アナリスト)、研究員、コンサルタントなどと呼んだ方が実態と合っていると思っていますし、おそらくこのアンケートに答えているほとんどの人が「サイエンティスト」=「科学者」ではないと思います。(本当のところは知りません。)ただの呼称ではありますが、このことが、ビッグデータ以降のAIや機械学習の流行とともにミスリードな「データサイエンティスト」像を作ってしまって、お客さんの側から見て余計にわかりにくくなっているように思います。ですから、ハイプサイクルの山をそろそろと下る今、業界全体をバブルから正常化して、ちゃんとした価値をちゃんとした価格で届けられるようにしていかないといけないなと思っています。

「データサイエンティスト」界隈には、確かにもの凄い人はいます。しかし、この業界で働いている多くの「データサイエンティスト」は、そういうスターと比べてごく普通の人です。一般の人と比べたら多少、もしくは相当に数理統計に詳しかったり、データを論理的に読み解く力に優れていたり、高度なアルゴリズムで高速に計算できたり、もしくは最新の技術やツールを使って効率的にデータを回したりできますが、それでも普通の人で、データサイエンティストという肩書きだけではなく、データエンジニア、データ整備人、データアナリスト、リサーチャー、データ分析コンサルタントなど、様々な肩書きで仕事をしています。そういう普通の人たちの、普通に優れている能力や技術を使って、一歩ずつ着実に自社やお客さんのビジネスを前進させることが、私らデータに関わる多くの職人達の役目ですし、そういう市場が醸成されることが理想です。

この記事が気に入ったらサポートをしてみませんか?