#078 勉強ログ：俯瞰して効率よく仮説練る(Ggallyの活用)

"元" 社畜の育児

2020年4月19日 07:44

先週からPythonだけでなくR言語も使っていくということでRstudioをインストールしました。

さて、今週授業で扱ったことは表題と関係の無い内容（ロジスティック回帰のモデル解釈や予測精度の検証など）でした。

ただ、個人的に一番学びがあったのが、演習中における『仮説に当てをつける』というプロセスが汎用性高い気がしたので備忘録としてまとめます。

▼今回の内容

今回はGgallyのggpairの関数なるものを使って「仮説の当てをつけること」を行いました。下記のようなものです。

※ちなみに、上記のデータセットは「テストの点数とその受験者に関する行動、属性情報を説明変数」です。

▼上記の効用

一番の効用はザッと俯瞰して影響度合いを見ることかなと思います。選択した変数間でクロス集計をしまくってくれるので、とりあえずどこが影響ありそうで、影響なさそうかが見えます。

今回のデータセットで考えれば、どこが一番Total_scoreに影響を及ぼしていそうかという観点でみると、code_moduleが影響がありそうです。

これを読み解くと、選択したコースによってテスト結果に影響がするわけですが、そりゃぁコースを担当する教官によってテスト内容が違いますから当然、スコアは違ってきますよね。。

当たり前のことですが、バッと出してみて改めて理解できることが多いです。この手の活用方法を調べてみると割と似たようなことがポイントとして書いてありますね。

▼実際のコード

R言語は基本的な文法もシンプルでPythonに似ているなぁと思っており、下記Rで書ものの似たようなことはPythonでも出来ると思っております。

#データの読み込み
data <- read.csv("open_univ_data.csv", header = T)
head(data)
summary(data)

#ライブラリの読み込み
library(dplyr)
data2 <- select(.data=data, Total_score , quiz_sum_click , imd_band , final_result  , highest_education , studied_credits , TMA_date_avg)
library(ggplot2)
library(GGally)
p<-ggpairs(data2)
p

上記、データを読み込み、あてをつけたい変数をselectで指定して、並べるだけです。とても簡単。

▼現業での活用シーン

では、これは現業にどう活かせるのか？ズバリここで想定したいのは

『”仮説のないとりあえず分析“のオーダーが来た時』

かなと思います。具体的には上司から”はい！じゃぁ、これで分析よろしくっ！“と分析オーダーをもらってデータセットをみると…

”意味不明なほど変数が多い。。どこから手をつければいいのやら…“

と、暗中模索が始まる時がわりとあります。そんな手探りではじまってしまった時ほど、俯瞰して仮説のあてをつける第一歩として最適なのかなと思います。

▼今後に向けて

実際にメモをしてみて思いましたが、RでもPythonでもわりとどちらでも出来ることが多いので、この分析はRならこれ、Pythonならこれという形で合わせてインプットした方がよいような気もしてきました。

また、この程度であれば何も難しいこともないので、まずは会社の方でも実際に使ってみてRも慣れていこうと思います。

ここまでご覧頂き誠にありがとうございます！今後も誰かのためになるような小ネタや気づきを発信し続けたいと思いますので、スキでもコメントでもフォローでもリアクション頂けると死ぬほど嬉しいです🙇‍♂️🙇‍♂️