DX人事担当が知っておくべきデータ分析プロジェクトの実態
どうも、DX人材を発掘したいDX人事担当じんです。
先日「Pythonエンジニア認定データ分析試験」に受かったことで、社内で勉強会を開くことになりました。昨今データ分析プロジェクトが乱立していますが、人事がその業務実態を知らないと、適切な評価がくだせません。今回は勉強会で議論したポイントを一部ご紹介します。
泥臭いデータ前処理が9割
生データはとても汚く、そのままでは機械学習などは適用できません。まずは、データを綺麗に加工する作業が必要です。データ分析プロジェクトの大半はデータを収集したり加工したり泥臭い作業の繰り返しということを、人事も理解しておきましょう。料理と一緒で仕込みが肝心なのです。
"データ分析を行う上で、データハンドリングは非常に重要な役割を持ちます。機械学習においてはデータのハンドリングが業務の8割とも9割ともいわれています。データのハンドリングは前処理ともいわれ、データの入手や再加工、つなぎ合わせや可視化など、分析を行う上で何度も繰り返し実行します。"
「Pythonによるあたらしいデータ分析の教科書 1.1.5 データハンドリング(前処理)の重要性」より
機械学習の適用だけならコマンド数行
機械学習の代表的な手法の1つに「ランダムフォレスト」というものがあります。人事面接で「ランダムフォレストを適用してですね〜」とかアピールされると、大抵の人事はその謎の単語の組み合わせに「ランダムな森?!何か分かんないけどすげえっ」と思ってしまうかもしれませんが、それでは過大評価をしてしまう可能性があります。なぜなら単に適用するだけなら以下数行のコマンドで出来てしまうからです。
from sklearn.ensenmble import RandomForestClassifier
#ランダムフォレストをインスタンス化する
forest = RandomForestClassifier(n_estimators = 100, random_state=123)
#学習
forest.fit(X_tarin, y_tarain)
#予測
y_pred = forest.predict(X_test)
「Pythonによるあたらしいデータ分析の教科書 4.4.2 分類-ランダムフォレスト」より
こんなことが出来るのは、「パッケージ」と呼ばれる魔法のツールのおかげです。パッケージを使うことで、世界の凄腕のプログラマーが書いた最高品質のプログラムを、誰でも短いコマンドで呼び出せるようになります。Pythonがなぜデータ分析の世界で大人気のかというと、データ分析に便利なパッケージがとても充実しているからです。
なので、人事としては「単に適用するだけだったら簡単に出来るみたいですが、あなたなりに工夫したことは何ですか?」とより突っ込んで聞いてみましょう。まともにやっているなら、特徴量エンジニアリング(予測に使える説明変数を作るなどの前処理)やハイパーパラメータ(学習アルゴリズムを決定するパラメータ)のチューニングなど、色々出てくるはずです。
他にも、「ランダムフォレストのアルゴリズム概要とメリットデメリットを教えてもらえますか?」「他の選択肢と比べてなぜランダムフォレストにしたんですか?」など、一般的な質問を問うのもいいと思います。
そして、手法にばかり囚われず、そもそもの分析プロジェクトの目的設定やどう実務活用していくのか、よりビジネスにおいて本質的なところに議論をフォーカスしましょう。
以上、人事として知っておくべきデータ分析プロジェクトの実態でした。専門的な仕事は評価が難しいですが、人事として過大評価も過小評価もしないためにも、ちゃんと勉強して実態を知ることは大事だと思います。
それでは!
この記事が気に入ったらサポートをしてみませんか?