見出し画像

【ラーニング・ジャーナル】 Udemy "Rではじめる統計基礎講座(記述統計編)" (講師: 寺田 清明)まとめ

Udemyで開講されている "Rではじめる統計基礎講座" の学習のまとめです。主に、統計用語とR関数についてまとめていきます。

目次
・CSVファイルの読み込み
・データの生成と抽出
・表の作成
・グラフ(ヒストグラム)描画
・平均・分散・標準偏差
・標準化
・標準正規分布における確率の算出
・上位から何% or 何人目かを算出する手順

CSVファイルの読み込み

read.csv("data.csv"): data.csvを読み込む
※データを読み込むときには、必ず、データのあるフォルダを Woking Directory として設定すること

データの生成と抽出

rnorn(10000, mean = 170, sd = 5.5): 平均170、標準偏差5.5の正規分布に従うデータランダムに10,000個生成する
sample(p, 100): pより100個のデータをランダムに抽出する

表の作成

matrix(0, 15, 5): 5列15行の行列をつくる

グラフ(ヒストグラム)描画

hist(data, breaks = seq (0.2, 0.34, 0.01)): dataのヒストグラムを描画する(引数breaksをとり、下限0.2、上限0.34、階級幅0.01を指定)

平均・分散・標準偏差

mean: 平均を算出
var: 不偏分散を算出
sum(x - mean(x))**2)/n: (標本)分散を算出する
sd: 標準偏差を算出

標準化

scale: 標準化を行う
※ Z <- (X - m) / s(標準化の計算式): (観測値 - 平均値) / 標準偏差

標準化: 平均0、標準偏差1正規分布に変換すること
標準化のメリット: 異なる平均、標準偏差を持つ分布を標準化することで比較することができる

標準正規分布における確率の算出

pnorm: 標準正規分布における下側確率(マイナス無限大からの面積)を算出
※上側確率 = 1 - pnormで算出された値

上位から何% or 何人目かを算出する手順

1. 標準化する
2. pnormにより面積を計算する
3-1. 1から上記の値を引き、100をかけてパーセンテージを出す
3-2. 1から上記の値を引き、人数nをかけて上位何人に入っているかを算出する


最後まで読んでくださった方ありがとうございます。よろしければサポートいただけますと幸いです。本を買い、noteを書き続け、読書文化の輪を広げるために使います。