見出し画像

【1-15】RでExcelやcsvファイルのデータを素早く確認する(EDA)

今までの内容でExcelやcsvファイルのデータを読み込むことができることになりました。今回は読み込んだ後にざっくりデータの概要を確認する方法を紹介します。

使うデータ

url <- "https://raw.githubusercontent.com/mitti1210/myblog/master/data01.csv"
data <- read.csv(url)
dat$氏名 <- NULL  #氏名の列を削除

基本的な関数

View(data) #rstudio内でデータを表形式で確認できる
head(data) #最初の数行を確認
tail(data) #最後の数行を確認
str(data) #どの列にどんなデータが入っているかを確認(型やデータの数)
summary(data) #データの要約(平均や最大値・最小値・四分位範囲・カテゴリーの集計)

まずはデータがちゃんと入っていそうかデータを眺めることが必要です。
Excelファイルのように目視するのであればRStudioならView(Vは大文字)を使うと確認できます。

右のdataをクリックしても同じ結果になる

またhead()やtail()で直接データを確認することもできます。

ちゃんと読み込めているか?謎のNAなどないか?など確認する


200人9列のデータ
chr:文字, int:整数など型がわかる
平均値など簡単な統計量がわかる

EDAツールを使う

EDAというのはElectronic Design Automation(探索的データ分析)といい、データの概要を掴んだり、色々な切り口でデータを分析し仮説を立てるような作業になります。細かい分析を行うためのtidyverseパッケージは今後説明していきますが、ざっくりデータの確認を行うツールとしてsummarytoolsパッケージとEDAツールではないのですがGGallyパッケージを紹介します。

pacmanパッケージの読み込み

#pacmanパッケージをインストールしていない場合はインストール
#インストール済みなら下の1行は行わなくてOK
if (!require("pacman")) install.packages("pacman")

summarytools

summarytoolsパッケージはデータの数や平均・標準偏差・最小値・中央値・最大値を表示したり、連続変数であればヒストグラムを、Missingで欠損値の値を表示してくれます。欠損値があると計算に支障が出ることがあるので欠損値の確認はとても大切です。

pacman::p_load(summarytools)
dfSummary(data) %>% view()
左上のPlotsの下のアイコンをクリックするとブラウザで開く

GGallyパッケージのggpairs()

 GGallyパッケージのggpairs()は散布図行列を表示してくれます。

pacman::p_load(GGally)

ggpairs(data)

#Macで日本語の文字化けが起きる場合はこちら
ggpairs(data) +
  theme_grey(base_family = "HiraginoSans-W3")
ヒストグラム、箱ひげ図、散布図、相関係数などを表示してくれる

そしてggpairsの便利な機能としてはあるカテゴリーごとに色を付けることができます。aes_string(color="カテゴリーの列", alpha=0.5)を追加します。
カテゴリーの列はcharactor型、もしくはfactor型である必要があります(数値型だとダメ)alphaは色の透過の程度なので0.7あたりでも大丈夫です。

#ここでは性別で色分けしてみる
ggpairs(data,aes_string(color="性別", alpha=0.5))

#Macで日本語の文字化けが起きる場合はこちら
ggpairs(data,aes_string(color="性別", alpha=0.5)) +
  theme_grey(base_family = "HiraginoSans-W3")
こうすることで視点を増やすことができる
交絡バイアスを確認することもできる

まとめ

今回はデータを確認する方法を紹介しました。
データを取得してすぐに検定をかけるのではなく、最初はちゃんと読み込めてるか?も含めてデータの確認が必要です。Excelではない分析ができますので、ぜひ試してみてください。







この記事が気に入ったらサポートをしてみませんか?