プログラミングゼロ経験者がRとPythonを学んでみた
このnoteでは、プログラミング未経験者である私が、Chicago Booth MBA プログラムで開講されているデータアナリティクス/データサイエンスに関するクラスを履修し学習した結果、どういったレベル感に達し、どんな展望が見えてきそうなのか、について、卒業後の自学のために整理してみたいと思います。
履修している授業
以下2つのクラスを履修しています。
・ Data-Driven Marketing
・ Data Analytics with R and Python
クラスの簡単な説明は、以下noteにまとめてあります。
現時点での目標
そもそも、自分がプログラミングを学んでみたいと思ったきっかけは、ビジネスデータ分析に関するExcel以外のツールの知見を得てみたい、というところにあります。より具体的には、以下3点になります。
・ 統計解析 (例:回帰分析)
・ ビジュアライゼーション (例:チャートの作成から示唆出し)
・ 機械学習 (例:需要予測モデルの作成)
また、ツールとしては、統計解析に強みを持つRと、機械学習に強みを持つPython双方を同時並行で学べたらと思い、対応するクラスを履修した次第になります。
Rについて
Rについては、ざっくりいうと以下のようなことが出来るようになった感覚があります。
・ 用意されたデータセットから、重回帰を用いた分析、予測モデルを作成
・ 対数線形回帰、ロジスティック回帰、ラッソ回帰、Adstockといったより複雑なモデルで分析、予測モデルを作成
・ 基礎的な機械学習の実装 (元データを学習サンプルとテストサンプルに分け、モデルの作成→評価)
・ ggplotを用いたビジュアライゼーション
Rについては、概ね当初目標としていたことが出来るようになってきており、クラスを2つ履修して集中的に学んだ効果が出てきていると実感します。
参考までに、Data Analysis with R and Pythonで使っていた教科書は、以下になります。
(英語版は全文無料公開されています)
Data-Driven Marketingについては教科書はなく、教授が作成したレジュメ、レクチャー資料で学習していました。
今後ですが、ビジネスデータサイエンスとしてのより幅の広い&深い統計解析手法を学習していきたいという思いがあります。本来であれば、Data-Driven Marketingの上級クラスとして、Big DataやMachine Learningというコースがあり、そういったクラスを履修することが出来たら、と思うのですが、生憎今学期が最後なのでそれは叶いません。
しかしながら、元Chicago BoothでBig Dataのクラスを受け持っていたMatt Taddyがその講義資料を基に執筆した「ビジネスデータサイエンスの教科書」という、正にピッタリの書籍を見つけたので、今後はこの本を元に独学していくのがいいのかも、と思っている所です。
Pythonについて
Pythonについては、ざっくりと以下のようなことが出来るようになりました。
・ 基本的なビジュアライゼーション(Matplotlib)
・ データ分析に必要なパッケージ(Pandas/NumPy)についての基本的な動作
・ statsmodelsを用いた基礎的な統計分析(線形回帰/ロジスティック回帰)
・ scikit-learnを用いた機械学習の実装(回帰/分類)
Data Analysis with R and Pythonで使っていた教科書は、以下になります。
分析対象のデータセットがあった時に、それをPython上でより分析に適した形に弄ったり、ビジュアライゼーションしたりしたうえで、基本的な線形回帰モデルに入れて分析、モデル作成、評価、という一連の流れは何とかこなせるようになった、といったところでしょうか。
今後ですが、scikit-learn/機械学習についてもっと深く学んでいきたいという思いがありますので、以下の本で独学していけたらと考えています。
今は、kaggleで難易度が低そう&自分の興味があるコンペを見つけ、この本とGoogleを駆使して自分でプログラミングしてみる、ということをやっています。
完全に自己満足ですが、自分で考えてコードを書いて機械学習を回す、その結果がすぐに評価される、というサイクルがメチャクチャ面白いです。kaggleについてはまた別でnoteに出来たらと考えています。
今後の展望について
プログラミングやデータサイエンスについては、学ぼうと思えばいくらでも深掘りできる果てしなさがあり、かつ日進月歩が著しい分野でもあります。
一方で、エンジニア/データサイエンティストではない、いちビジネスパーソンとして、一定程度のデータ分析、プログラミングに関する教養や今後の展望が見えてきたという点に於いては、今学期集中してデータサイエンスについて学んだ意義はあったと感じています。
また、今後より深いデータサイエンス(例:ディープラーニング)、あるいはまったく別のプログラミング言語(例:SQL)の知識を得るうえでの素地ができたという点でも、学んだ価値はありました。
これからもプログラミング/データサイエンスについては、自分のペースでコツコツ学習していけたらと思います。
この記事が気に入ったらサポートをしてみませんか?