見出し画像

どこからデータを集めるのか

どうも、Takashiです。

ごめんなさいしごとがいそがしくてかくひまがなかったのですーぶへー。

日常の業務に忙殺されて、研鑽に時間が取られないってのあるあるだけどやっぱりよくないですね。

さてさて…


どこからデータを集めるのか


・集められないデータもある
いきなり否定から入るのですが、そもそも集められないデータも世の中にあります。
例えば、過去のデータ、集めるのにコストが激高なデータ、政治的な理由で集めてはならない、などなどです。
まず最初にこれを考慮した上で次のステップに行きましょう。
そもそも収集が現実的ではないのに実施しても無駄で、大体不幸な結果が待っています。
でも意外とこういうことが実際に行われていたりしますし、耳にすることもありますので何とも言えない感じです…。


では実際に集めるとして、次にその手段を考えます。
・既に存在するデータを使う
・一からデータを作る(集める)


・既に存在するデータを使う
例えば集めたいデータが、既にインターネットで公開されていたり、書籍として発行されていたりする場合もあります。
集めたいデータがそれで問題ないなら素直にそれを使いましょう。
車輪の再発明と同様に、既に存在するデータをもう一回集めてもデータとしても意味がありません。
なので活用できるものがあるならばそれを使うべきです。

ただしそれで目的が達成されるかは慎重に吟味する必要があります。
データ取得の前提条件やデータの粒度などが目的と異なってないかどうかなど、本当に活用できるかをチェックすることが大事です。


・一からデータを作る(集める)
必要なデータが存在しない場合は、一から作ることになります。
上記を経てやっとこれを考えるべきです。
その場合はさらに綿密な計画や設計が必要となります。

まず大まかに、対象はどんな物や人や現象か?などをしっかりと定義します。
対象の特性、条件を考慮して収集のための設計を行い、より質が高くて多くのデータを集めることに注力する必要があります。

時間や場所なども大切な要素です。
例えば時間についてはその時期の年間行事や一日の中でどの時間帯に収集を行うかなど
場所については日本か海外か、ある限定されたイベント会場など
を考慮する必要があります。
これらにより集まるデータの質と量に雲泥の差が出てくることはザラにあります。

またデータの生成は対象が意識的に行うのか、無意識的に行うのかも考慮する必要があります。
何かアンケート的なものを取ってそれを入力してもらうのか、ユーザーが使用するアプリで勝手にログデータが溜まる設定になっているのかなどです。
それぞれ必要なものが違うので、収集のために準備する時間やお金や人材などが異なります。

さらにデータを集めるのに質と数のどちらを優先するかを考える必要もあります。
綿密な一人ひとりのデータが必要なのか、荒くてもいいからとにかく多くのデータが欲しいのかなどです。
当たり前ですが両方を満たすとなるとそれなりのコストがかかることが普通です。
なのでどちらをどこまで妥協できるかなども考える必要があります。


まだまだ考慮することはあると思いますが、ざっくりと上げてもこれだけ考えることがあるわけです。
最初の一歩のところなので躓かないようにしたいですね。
「garbage in, garbage out」にならないようにしっかりと計画や設計を行い、データを集めましょう。


今日のハイライト

久しぶりすぎて文章のテンションがよくわからん

この記事が気に入ったらサポートをしてみませんか?