動画見てデータサイエンス入門した話
こんにちは.
鈴木です.
画像の作者はこの人です.
バックグラウンドの回路図のような模様と二進数によるデジタル感,そして人間の脳とそれが融合している感じがいいですね.ベースカラーの青の知的なイメージと....話がそれました.笑
さて!!
このたび,Udemyの【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門を修了しましたので,データサイエンスについて一丁前に語ります.
知ってる人も多いでしょうが,UdemyはVODの講座です.
VOD,Video On Demand,見たいときにいつでも!のやつですね.
そして,時々セールしてます.
ぼくもAIについては(AIの中の機械学習の中の深層学習については)日本の中ではまぁまぁ詳しい方ですが,データサイエンスの全体像についてはそんなに詳しくないので,とりあえず,入門してみようと思いまして!
はじめに
この記事は,
データサイエンスで大事なことを流れにそって整理します.
なので
データサイエンスやってみたい
データサイエンス知ってみたい
って人のための
とっかかりの1つ
になればなーって感じですね.
そして,僕が受講したUdemyの講座はこれです
もちろん他にもあります.
英語で探せばもっとあります.
講座について
これはこっちで書いてみました.笑
ただ,ビデオ自体が8時間あって,僕は1日4時間くらい,2日半くらいかけてだらだらやりました.
データサイエンスで大事なこと
と,いうわけで,受講後,入門を果たした鈴木的に大事だと思ったことを描いてみます.
1.課題が前提としてあること
2.データを擦りまくる
3.正しいモデルを作る(機械学習による予測モデルを作る場合)
1.課題が前提としてあること
【こんなことを解決したいな】とか【こんなことをしたいな】とかすでに課題ややりたいことがある,という前提ですね.
解決したい課題を無視して,【データはこれを使う!】とか【モデルはこれを使う!】とか決めるのは危険ってことです.
つまり,【とりあえずAI】とか【とりあえずビッグデータ】はあまりよろしくないです.
2.データを擦りまくる
もうね,これですよ.
データを用いて探れることを,数値の計算,近似曲線の算出,グラフとしての表示などの手法で多角的に探ります.
探ることによって,【どんなデータの集まりなのか】から【どのデータの影響力が大きいのか】,【データ同士にはどんな関係があるのか】,【数値として処理できるようにするためにどうするか】とか【欠損がないか】あるならば【欠損値はどう補完するのが良いのか】など,データの本質とそれに見合った処理の方法が判明していきます.
3.正しいモデルを作る(機械学習による予測モデルを作る場合)
ここまで来て初めて,分析のための準備ができるので,機械学習を適用していきます.
ひたすら擦り切って機械が扱いやすくなったホクホクのデータセット.これをモデルでどーーーーん.
とは,いかないので,解決する課題に対するモデルの評価の方法を考えます.そして,ホクホクのデータセット使って結果をみて,分析して,モデルのチューニング,あるいはデータの組み直しをして,また結果をみます.
こうしてPDCAサイクルを回してやっと正しいモデルが完成します.
おわりに
いやー講座はキツかったですね!!
でも,なんとなく入門できた気がします.
思い切って勉強用の本も買ってみたので,
ガシガシ勉強していこうと思います.
コンペティションにも参加する意欲増したので,
得意のAIで複雑な問題をゴリゴリ解決して行ってしまおうかなと思います.
もちろん,問題に合わせて,他の機械学習手法も合わせてですね.
なんてことを思ってしまうようになりました.笑
皆さんもぜひ入門してみて下さいねー!
最後までありがとうございます!
追伸:
前にイベントでデータサイエンスしてました.笑
まぁ,でも記事読み直したら門叩いたって書いてあるんで,今回は門を開けたってことにしておきます!!笑
勢いで本も買ってみました.笑
鬼のような分量があるので,レビューは...笑