Day5. 『はじめてのR』を写経する（統計プログラミング入門）

2020年3月5日 19:41

村井潤一郎『はじめてのR: ごく初歩の操作から統計解析の導入まで』の内容を1日30分間なぞって、統計プログラミング言語「R」を勉強することにした。

Day5. 簡単な統計解析

1日30分でどのくらい進むのかわかってきた。よってまだ第2章だが、もう驚かない。落ち込まない。

Day.4を経て、Rを電卓として使うことに慣れたので、統計の基礎的な処理をやってみる。

解析するデータを用意する
・身長のデータ「160,167,169,181,173」という5人のデータを用意。
・これらのデータを「身長」というオブジェクトに格納してみる。

> 身長<-(160,167,169,181,173)
エラー:  予想外の ',' です  in "身長<-(160,"
> 身長<-c(160,167,169,181,173)

写経失敗である。「c」が足りなかったので3行目で再試行した。うまくいったようだ。
・一瞬何をしたかわからなかったが、「c()」という関数を実行したことがわかった。5人の値をまとめる(combine)関数だ。
・見やすくするために「<-」の前後に半角スペースを入れてもいいらしい。

オブジェクトの中身を見てみる

> 身長
[1] 160 167 169 181 173

でてきた。うれしい。

「身長」の平均を計算する
・関数「mean()」を使う

> mean(身長)
[1] 170

できた！

標準偏差を計算する
・関数「sd()」を使う

> sd(身長)
[1] 7.745967

これで「2-3 簡単な統計解析」は終わり。

2-4 データの型

統計解析で扱うデータの型について。各種データ型の扱い方を見てみる。

文字をデータにいれるとき
・例：身長(数値)と性別(m=male,f=female)のデータを扱う

> 身長と性別 <- c(170,"m",160,"f")
> 身長と性別
[1] "170" "m"   "160" "f"

オブジェクト名の中身も確認できた。1つのオブジェクトでは1つのデータの型しか扱えないらしい。

というわけでまとめながら30分経ってしまった。今日はここまで。

まとめ

・値をまとめる関数「c()」
・平均値を出す関数「mead()」
・1つのオブジェクトでは1つのデータの型しか扱えない。
・未解決：「ls()」をたたいたときに出てきた、xとyが何かまだわかっていない（なにかの１次方程式？）

写経している教本

村井潤一郎『はじめてのR: ごく初歩の操作から統計解析の導入まで』

補足：書いてる人間について

このnoteでは、下記のバックグラウンドがあることと、あくまで写経をすることが目的のため、理解するプロセスである程度端折っていることがある。

●背景
・このnoteを書いている人間は、過去にUIデザインの仕事と並行してフロントのコーディングをHTML/CSSや（たまにjQuery）を扱っていた。
・挫折したがPHPやRuby on Railsなどでのweb開発にも挑戦したことがある。
・コマンドラインツールには過去にGitを利用する中でちょっと親しんでいた（wipという表現の便利さに目覚めた）。

補足：マーケターがRを学ぶ背景

分析担当として、EXCELで重回帰分析をするときに数多くの壁にぶつかったのだが、Rなら関数などで簡単に処理できるらしいのだ。

いったんの目標は、この本を一度すべてなぞった上で、重回帰分析のスクリプトが理解できるようになること。

そうすれば、これまでの少ないプログラミング学習経験に照らして、コピペで他の解析がちょっとできるようになると見込んでいる。

写経とは、読んで字のごとくお経を書き写すこと。
IT業界では「プログラミングコードを書き写す」ことを意味しており、効果的なプログラミング学習方法のひとつとして知られている。
(出典：プログラミング学習で写経を最大限に活かす方法)

わたしをサポートしたつもりになって、自分を甘やかしてください。