「データ、データうるせえよ!結局何がやりてえんだよ!?」って役割はどうですか?
"Garbage in, garbage out"
どうも、風呂上がりのペリエ最高!Takashiです。
上の言葉はIT系の人なら一回は聞いたことがあると思います。
つまり、
「ゴミを入れればゴミが出てくる」、「ゴミみたいなデータを入れても返ってくるのはゴミだけである」
ってあたりまえのことですね。
最近知ったけど、これは統計学の世界でも同じらしいです。
「ゴミみたいなデータを解析しても、ゴミみたいな結果しか出てこない」
まぁそう言われたら「そりゃそうよね」って感じで特に疑う余地はないですけど、どうもこれがよく理解できてないままビッグデータやAIに手を出そうとする例が結構多いらしいです。ゴミみたいなデータを持ってきて「なんか解析して良い結果出して!」ってな感じで、「いや…、無理無理!」みたいなことです。
良い結果を出すのは良いデータを使うのが近道だというのは何となく直感的にわかるかと思います。
あたぼうよ。
さて
今回は「データを扱うエンジニアとはどういう職種か?」を考える前に、
そもそも「データを扱う」ってなに?
データを使ってできることってなに?
そこにどういうビジネスや研究のニーズがあるの?
ってのを簡単に整理したいと思います。
最終的にはそこに勝機を見出して、その他のよくあるデータサイエンティストや機械学習エンジニアとどう差別化できるってのを考えていけたらいいなと思っとります。
※ちなみに私が今までの自分の経験やネットでかじったこと中心なので嘘や偏見があるかもしれませんが、その点はご了承ください。「わかんないところ」は「わからん」て書きます。むしろ指摘してほしいくらい。
「データを扱う」ってなに?
これ簡単に書くと、
「データを扱うエンジニア」ってのは
「何かモノを作るエンジニア」ってこととかではなく
データについて考える、データを集める、データを管理する、データを解析する、データから知見を得る、データから学習する…
などを行うことを「扱う」と定義し、それぞれあるいはその複数に携わるエンジニアのことを指してます。
巷では知らんけど、今私の中ではそう考えてます。
私の理想は全体を通しでもっと広く活躍できるようなエンジニアですね。
データサイエンティストとか機械学習エンジニアも重複するところはあるかもしれないですけど、この二つはそれぞれ集まった跡どういうことをするかを指していて、それがメインの仕事になる場合が多いのではないかなと考えてます。もちろんそうでなく全部を通しでこなしてる人もいるとは思います。
まぁそこは言葉の定義だけってこともあるからあんま気にしてないですけど
プログラマとSEとかの違いについて言葉の定義はあるけど、実際それぞれ人によってできることだったり仕事の内容ちがいますもんね。
とりあえず私が考えてる「データを扱うエンジニア」ってのは今んところそういうことです。
これはでもまた勉強していく中で変わっていくと思います。
データを使ってできること
私は、データ使ってできることって基本的に3種類しかないと考えてます。
「データを使って新しい知見を得る」
「データを使って学習する」
「データが存在するということ自体」
このどれかかなと。
色々難しいことやったり言ったりしてるけど結局こうやろ?
他にあるのかな?あればご指摘ください。
データを使って新しく知見を得る
「日本人の平均貯金額は?」「このお店で一番売れてる商品は?」
とかそういうやつですね。データを集めて、何か新しく知見を得るということは誰でも一度はやったことがあると思うし、世間一般的にやってることなので想像するのも簡単だと思います。わかりやすいですね。
ビジネスでいうと、アンケートだったり、調査だったりとかそういうことですね。
割と簡単。だけど正しくやらないといけない。
データを使って学習する
これは今あるデータから学習して次の何かを予想・予測することですね。
「機械学習」とかそれっぽいことだけではなく、例えば単純に何か失敗をして怒られたから次から気を付けるとかもそうですね。「前年度これで失敗したからこれはやらない」とか、「同じ条件の会社がこれで成功したからうちもやろう」とかそういうのもそうです。
ビジネスでいうと、マーケティングとかコンサルティングそういうことですね。
これは難しい。結局わからないってこともよくあるし、そもそも当たらなかったり…。
データが存在するということ自体
これはデータを何かに使うというわけではなく、存在すること自体に価値がある場合です。証拠になるものとか。
あるいはデータを集めたという事実だけが必要な場合です。
ビジネスでいうと、エビデンス集め、事実確認、実績残しみたいなことです。
うん、急に抽象的になったなw
んー…、具体例があんま思いつかんけど、そういうことが必要な仕事が結構あるということも同時に私は知っていますとしか言えないです。全部が全部意味がある仕事だとどんなに幸せか…!
そこにどういうビジネスや研究のニーズがあるの?
んー、正直これはまだ整理できてないです。
あるかないかでいうとニーズはある。だって毎日どこかしらで誰かしらがおこなっているようなことだし、それは必要なことだから。今後も増えてくるはず。
その中でどう自分の立ち位置を獲得していくか?ってのも私の課題だと考えています。
ただプログラマみたいに、
どの分野にも少なからず需要があるから、ニーズはあるからいけるだろうって
データの解析ツールを作る!とか、データを集めるツールを作る!とか、データの解析だけはできる!とか
そういうビジネスや立ち位置に踏み切るのは危ういと思います。
IT企業の受託的な話と変わらなくなってしまい、それは強くないから。
あと他のデータサイエンティストや機械学習エンジニアや統計家などの立ち位置の人に到底勝てません。専門を極めた方を相手にできるのは本当に一握りの人だと思います。
少なくとも何かの分野に特化していることは必要だと思います。
物流とか医療とか教育とかそういうことです。
それぞれの分野にはそれぞれ法律があったりしてデータの性質や取り扱い方が違うのでそのノウハウは価値があるからです。
たぶん今思うに、
今後は、ある特定の分野で
質の良いデータを持っていること
質の良いデータを獲得できる技術やノウハウを持っていること
とかがビジネスや研究のポイントとなってくるんじゃないかなと思ってます。そこにニーズを見出し自分の立ち位置を見いだせればと思います。
そっちだと強い。
まとめ
とりあえず、こんな感じで。
んー書いててよくわからんくなってきたな…
データを扱うということを、どうビジネスや研究にしていくか、その中に立ち位置を見つけるかってことは今の私からしたら難しいです。
ただ、まず整理の上で重要なのは
上に書いた
「データを使って新しい知見を得る」
「データを使って学習する」
「データが存在するということ自体」
三つのうちのどれにどういうニーズがあるのかってことです。具体的にはこの三つに絶対落とし込まれるはずなので、ビジネスや研究も突き詰めればこのどれかになるはずです。
三つ全部に言えることだけど
最初に言った、ゴミみたいなデータじゃダメってのがやはりありますね。
私の経験上、または聞く話だと
よくわからんまま集まった既存のデータを使ってなんかやろ!なんてことをやって、なにか新しい知見が見つかってその後それを利用してビジネスなり研究なりがうまくいくのはたぶん紙のように薄い確率だと思います。ものすごく時間もお金もコストもかかるのでそのつもりでやる必要があります。でもこれをあまり考えずにやって失敗している人たちは結構多いです。あとよくわかってない人達だけでよくわからんまま始めるってのも結構聞きます。
それぞれのフェーズで専門家だったり全体を俯瞰して把握してリードする人は必要です。
なので、ここら辺を是正する役割というのは一つポイントになるのではないかなと思います。
つまり
きちんとデータを
0.何(どれ)をやりたいから
1.どこから
2どう集めて
3.どう使って
4.何を出すのか
を設計するような役割が絶対に必要です。
それが私の目指している「データを扱うエンジニア」の役目なのか?
ってのはちょっとまだわからんです。
次回はここら辺を掘り下げて書いていきたいです。
長々とありがとうございました。
バイビー!
ハイライト
何か書いた量にそぐわんくらい内容薄いというか思い付きで書いてる感が否めん。けどいっぱい書いてつかれた。
この記事が気に入ったらサポートをしてみませんか?