見出し画像

機械学習で扱うデータとは

みなさんこんにちは、いぬがすきです。

データアナリストへの道の第一歩を踏み出そうとしているサラリーマンです。

分析については全くのど素人なので、
『学んだ知識をビジネスに活かしていけるようにする』ことをゴールに勉強していきたいと思います📊

今回は機械学習で扱うデータについてです!

それでは、一緒に勉強していきましょう!

オペレーショナル・アナリティカルデータ 

みなさんの会社、特に大企業には多くのデータが蓄積されていると思います。

では、社内に溜まっているこれらのデータをそのまま用いて機械学習を行えば、
ビジネスに活かせる価値を見出すことができるのか!?というと、

答えは『できない!』そうです。
残念、、、じゃあどうしたら良いんだって話ですよね。

普段蓄積しているデータは、あくまで何かの記録を残しておいたり、
社員情報やシステムへのアクセス記録といった、事業を回してく上で必要なデータであり、解析するためのデータではないとのこと。

このように、普段溜めているデータのことをオペレーショナルデータと呼ぶそうです。

そしてデータを活用するためには、このオペレーショナルデータをいかに解析できるようなデータ、 アナリティカルデータに変換できるかが非常に重要とのことでした!

非構造化・構造化データ

基本的に機械学習で扱えるデータは、Excelやcsvのように行と列を持つ表形式データかつ、中身が数値である必要があります。 

表形式データのようにデータ構造がわかりやすくなっているデータを構造化データと呼び、
機械学習ではこの構造化データを主に扱っていきます。

しかし、身の回りにある多くのデータは、テキストや画像、 音声のように構造化されていない非構造化データです。


一昔前までは、 非構造化データを扱うのは難しかったのですが、 ディープラーニングの登場、発展により、 非構造化データの活用も徐々に可能になってきました。

・今日のまとめ
『機械学習にはアナリティカルデータが必要!』


いかがだったでしょうか?
みなさんもご自身の会社にどんなデータが溜まっているか考えてみて、
そのデータがどんなデータなのか調べてみるのもおもしろいかもしれないですよ!


下記参考資料です📚


この記事が気に入ったらサポートをしてみませんか?