スパースエンジニアリング

ビッグデータ、実はスカスカ ~スパースデータ問題~

一昔前までは、データの取得には大変コストがかかり、貴重でした。しかし現在では様々なデバイスからデータが取得できるようになり、ビッグデータと呼ばれる巨大なレコード数を持つデータセットが手に入るようになりました。これだけデータがあれば、結構自由に分析できる・・・ と思うのは少し早いかも。データが増えたのは増えたのですが、実は各データ変数を見るとスカスカ、という問題が各所で発生しているのです。ビッグデータなのにデータがほとんど入っていないんです! 例えば巨大な音楽配信サービスがあ

スキ
1