Day5. 『はじめてのR』を写経する(統計プログラミング入門)
村井 潤一郎『はじめてのR: ごく初歩の操作から統計解析の導入まで』の内容を1日30分間なぞって、統計プログラミング言語「R」を勉強することにした。
Day5. 簡単な統計解析
1日30分でどのくらい進むのかわかってきた。よってまだ第2章だが、もう驚かない。落ち込まない。
Day.4を経て、Rを電卓として使うことに慣れたので、統計の基礎的な処理をやってみる。
解析するデータを用意する
・身長のデータ「160,167,169,181,173」という5人のデータを用意。
・これらのデータを「身長」というオブジェクトに格納してみる。
> 身長<-(160,167,169,181,173)
エラー: 予想外の ',' です in "身長<-(160,"
> 身長<-c(160,167,169,181,173)
写経失敗である。「c」が足りなかったので3行目で再試行した。うまくいったようだ。
・一瞬何をしたかわからなかったが、「c()」という関数を実行したことがわかった。5人の値をまとめる(combine)関数だ。
・見やすくするために「<-」の前後に半角スペースを入れてもいいらしい。
オブジェクトの中身を見てみる
> 身長
[1] 160 167 169 181 173
でてきた。うれしい。
「身長」の平均を計算する
・関数「mean()」を使う
> mean(身長)
[1] 170
できた!
標準偏差を計算する
・関数「sd()」を使う
> sd(身長)
[1] 7.745967
これで「2-3 簡単な統計解析」は終わり。
2-4 データの型
統計解析で扱うデータの型について。各種データ型の扱い方を見てみる。
文字をデータにいれるとき
・例:身長(数値)と性別(m=male,f=female)のデータを扱う
> 身長と性別 <- c(170,"m",160,"f")
> 身長と性別
[1] "170" "m" "160" "f"
オブジェクト名の中身も確認できた。1つのオブジェクトでは1つのデータの型しか扱えないらしい。
というわけでまとめながら30分経ってしまった。今日はここまで。
まとめ
・値をまとめる関数「c()」
・平均値を出す関数「mead()」
・1つのオブジェクトでは1つのデータの型しか扱えない。
・未解決:「ls()」をたたいたときに出てきた、xとyが何かまだわかっていない(なにかの1次方程式?)
写経している教本
村井 潤一郎『はじめてのR: ごく初歩の操作から統計解析の導入まで』
補足:書いてる人間について
このnoteでは、下記のバックグラウンドがあることと、あくまで写経をすることが目的のため、理解するプロセスである程度端折っていることがある。
●背景
・このnoteを書いている人間は、過去にUIデザインの仕事と並行してフロントのコーディングをHTML/CSSや(たまにjQuery)を扱っていた。
・挫折したがPHPやRuby on Railsなどでのweb開発にも挑戦したことがある。
・コマンドラインツールには過去にGitを利用する中でちょっと親しんでいた(wipという表現の便利さに目覚めた)。
補足:マーケターがRを学ぶ背景
分析担当として、EXCELで重回帰分析をするときに数多くの壁にぶつかったのだが、Rなら関数などで簡単に処理できるらしいのだ。
いったんの目標は、この本を一度すべてなぞった上で、重回帰分析のスクリプトが理解できるようになること。
そうすれば、これまでの少ないプログラミング学習経験に照らして、コピペで他の解析がちょっとできるようになると見込んでいる。
写経とは、読んで字のごとくお経を書き写すこと。
IT業界では「プログラミングコードを書き写す」ことを意味しており、効果的なプログラミング学習方法のひとつとして知られている。
(出典:プログラミング学習で写経を最大限に活かす方法)
わたしをサポートしたつもりになって、自分を甘やかしてください。