何をやりたいからデータを集めるのか?
どうも、Takashiです。
遅い夏休みとかとって色々やってたらだいぶ間が空いちゃった…、ごめんちゃい
前回話した内容が下記でだいぶフワッとしてたのでちょっと掘り下げていけたらなと思います。
目的をしっかり持つ
これは別にこのデータを集めることだけではなく何事もそうだけど
まずなんでそれをやるかって目的を持つことが一番大事なんですよね。
開発しかり、研究しかり…
目的を持ってなくて失敗する、私が今まで経験した中でいうダメなパターンは
「なんかデータ集めてみた(集まってる)んだけどこれで何かできないかな?」
って思って走り出しちゃうパターンですね。
これはもう大体の場合がなんもできないと思います。
ものすごく確率が低いけど偶々なんか結果が出るか
めちゃくちゃコストかけて頑張って何度もやってるうちになんか知見が出るか
結局結論として「このデータだとダメだ…」ってのがわかる
ってことになると思います。
こんな感じで一発狙うようなことをやっていてはコストがかかりすぎて…、その割には何もわからない
あるいはもの凄く単純なことしかわからなかったり…
というようにとにかくあまりいい結果には結びつかないでしょう
でも正直こういう話が一番多いと感じます。
AIもビッグデータも万能じゃないんだよ! (少なくとも今は…)
だからまず目的をしっかり設定したうえで
そこからデータをどこからどうやって集めるかというのを考えるのが本当の筋道なんだと思います。
「A集団からBという方法でデータを集めるとCという知見を得られそう。だからデータを集めます」とか
「Xという方法でYからデータを集めるとZの予想が行えるんじゃないか?という仮説を検証するためにデータを集めます。」とか
そういうことですね。
注意すべきなのは、
目的がぶれたり曖昧だったりすると、そのあとやる設計も集めたデータもすべて意味が無くなっちゃう
ってことです。
設計をきちんとやろう!
目的をしっかり持った上で、設計をやっていきます。
これも当たり前ですね。
前回まとめた
1.どこから
2どう集めて
3.どう使って
4.何を出すのか
をできるだけ詳細につめていく必要があります。
詳細につめればつめるほど「成功」する確率は上がると思います。(たぶん)
というよりはどこか一つでもないがしろにしたら失敗して当たり前って感じですかね。
あと今書いてて思ったんですけど
これプラス、「誰が(と)やるのか」「どのくらいの期間でやるのか」「お金はどのくらいかかるのか」「成功しそうかどうか」とかそういう話も絡んできますよね。
そこら辺も立派な設計だと私は考えています。
失敗できないからこそ、技術的な方法論だけではなく実際の運用もしっかり見据えておかないといけない
むしろそっちの方が難しいのかなとも思います
例えば、
毎年同じ集団から同じような方法でデータを集めるとしても、今年は一年前とは条件が異なっていてうまく集められない
なんてこともザラにあると思います。
そうなったときには、前年度の設計を考慮には入れるけど、1から設計し直しをする必要がありますね。
しかも前年度と比べたりするデータや、追加で行うデータであるならば
その整合性も考慮した上で必要なところを変更する必要があるという、非常に難しくて神経をすり減らすような調整を余儀なくされたりするかと思います。
だから実際の運用も見据えた上で設計することは非常に大事でしょう。
まとめ
当たり前のことしか書いてないけど
当たり前のことができてないことがかなり多いという私の経験などをもとに書いてみました。
今あるデータで無理やり何かやろうとせずに
データを集める際は、
きちんと目的を持って設計をした上で一からデータを集めましょう。
次回は設計をさらに細かく掘り下げていきたいと思います。
次回「どこからデータを集めるのか」ですね。
宜しくお願いします!
ハイライト
久々に書いたから、だいぶまじめぶっている
この記事が気に入ったらサポートをしてみませんか?