【データ分析ってExcelでもできるんじゃない?】
こんにちは!椎名悠です。
先日、AIを学ぶ過程でデータサイエンス(データ分析)についても学んできました。
今って無料で学べるところがあるんですね、ビックリしました。
これ、キャリアアップしながら転職も支援してくれるそうなんですが、ここに無料でAIについて学べるコースがあるんです!
というわけで、データサイエンティストになるための基礎コースを学んできたので、今回はそのお話をしていきたいと思います。
〈データサイエンティストって何?〉
そもそもデータサイエンティストってなんじゃいって話だと思うので、まずはそこからざっくりとお話しします。
データサイエンティストとは、企業が扱う(もしくは手に入れてきた)膨大なデータを基に、売上増加など、企業の望む目標達成のためには何が密接に関わっているのか分析する人のことを指します。
と言っても上の表現もデータサイエンティストの全体を定義しているとは言えず、曖昧ではありますが、要はデータを扱って分析が得意な人と思ってもらえれば良いです。
そして、データサイエンティストってAIの機械学習においても重要な役割を担っています。
なぜなら、AIも最初から賢いのではなく、賢くなるために膨大なデータが必要だからです。
そして、そのデータもAIのために予測精度を高くできるように調整が必要なんですが、それができるのがデータサイエンティスト。
データの中でも、学習に必要な特徴量(予測するのに必要なデータの各要素)を見分ける等、様々なアプローチを行い、AIの学習精度、予測精度を向上させていきます。
というわけで、まずはAI学ぶ上で大事だなと感じたので、先日学んできたんですよね。
〈でもデータ分析って…〉
僕が学んだ限りだと、あくまでも基礎内容のみではありますが、データ内の平均値や標準偏差値をみたり、そのデータから円グラフやヒストグラムを作ってデータの傾向について調べるスキルを手に入れました。
そのために、Pythonがどーとか、Jupyter notebookを利用してーとか、暗号にも思えるコードを覚えたりもしました。
でも、平均値や標準偏差値、円グラフにしてもヒストグラムにしても、
Excelでできるのでは??
と思っちゃったんですよね。笑
事実、その程度であれば、Excelにデータを表にして、関数を利用してデータの傾向は見れるはず(というか実際にやったことがある)なので。
あれ?これって学ぶ意味あった?と思ってしまいました。初めは。
〈データの調整も可能(むしろそれが大事)〉
やっていくうちに分かったのですが、もちろんデータの傾向をざっくり見る場合にはExcelでも確かにできます。
しかし、もしデータ自体に欠損箇所がある場合、データの傾向を調べる以前の問題にぶち当たるわけですよ。
その場合、Excelでやるよりも、Jupyter notebook等を利用する方が、つまりプログラミング的な要素を学んでコードを書く方が楽なんです。
例えば、欠損箇所のあるデータ部分の抽出や、その欠損箇所への仮データの代入方法と言った、具体的なデータの調整についてはやはりExcelよりもデータサイエンスを利用した方が手軽ですぐにできました。
〈今度はタイタニックの生存予測を組み立てる〉
というわけで、僕が学んだ時間は無駄ではなかった!と安心したので、これからは具体的なAIモデルを作る体験をしていこうと思います!
今取り組んでいるのは「タイタニックの生存予測をするAI」です。
は?と思うかもしれませんが、これはAIを学べる世界的なコミュニティKaggle(カグル)に出てくる初心者用の課題です。
Kaggleのことや、タイタニックの生存予測モデルについては、次回にでも詳細をお話しできればいいなと思いながら、現在検証中です。
というわけで今回は以上です!
また次回お楽しみに〜!
この記事が気に入ったらサポートをしてみませんか?