R・Pythonを使ったデータ分析入門~表形式データとCSV~

大学に入って実習や研究が始まると、表形式にデータをまとめてそこからデータを分析するといったことをやると思います。

今回は表形式データを分析する際によく使われるCSV形式のデータとその扱いについて解説します。自分も学部時代、いきなりCSVが出てきて面食らったことがあるので、その辺をわかりやすく噛み砕いていきたいと思います。

以下使用するパソコンはMacを想定して説明していきます。

表形式のデータ

表形式のデータといえば、エクセルシートを思い浮かべる人が多いのではないでしょうか。あるいはスプレッドシート派の人もいるかもしれません。どちらにせよ、データ分析の最初の段階では、表にデータを入力していくという作業があると思います。

(中にはすでにデータが整っていて、あとはそれを使って解析するだけという人もいるとは思いますが、今回はデータ作成のところからやっていきます。)

表形式データを作っていくには、まずどういう表を作っていくかを事前に考えます。

表は行(縦方向の区分)列(横方向の区分)から成り立っています。以下が表の例になります。

スクリーンショット 2021-05-22 14.27.46

date(日付)、name(名前)、height(身長)という3つのがあるのがわかります。そして上から1行ずつ見ていくと、ある時点のある人の身長がどれくらいか、というのがデータとして格納されているということがわかります。

一般的に、列の方は事前に「こういう値を取りたい」と考えて設計されるもので、列数はあまり多くはなりません。データは行の方に追加されていくので、行数はどんどん膨らんでいくことになります。なので10000行×10列みたいな形で縦長になることがほとんどです。

表のイメージはつかめたでしょうか?

CSVデータ

では次にCSVデータに入っていきます。
そもそもなぜこんなものが出てくるのか?エクセルデータのままだとダメなの?と思いませんか?いちいちCSVにするのも面倒ですよね。

なぜCSV形式にすると良いかというと、エクセル形式のままでもできなくはないけれど扱いにくいから、というのが理由となります。なにせエクセル形式のデータはとある1ソフトウェアでの扱いに特化したものなので、いわば内輪的な形式のデータと言えます。

なので、みんなが扱いやすいCSVというフォーマットに変換した上で分析することが多いです。

Excelで作った表をcsvに変換する方法は以下の通りです。
Excelで表を作成してデータを保存する場合、通常は.xlsxというフォーマットになります。

スクリーンショット 2021-05-22 15.02.45

ファイル形式のところをクリックして、CSV UTF-8(コンマ区切り)(.csv)の形式を選択します。

スクリーンショット 2021-05-22 15.03.05

これで保存すれば、CSV形式のデータを作成でき、そのデータを用いて分析に入っていきます。

なお、1つのExcelファイルに複数のシートが含まれる場合、1枚ずつしかCSVにすることはできないので注意してください。

こうして作成したCSV形式のデータを特定のディレクトリに入れておき、Rで分析する際は、そのディレクトリをワーキングディレクトリに設定すれば、いよいよ分析に入れます!
(ワーキングディレクトリについてはこちらで解説をしました↓)

ちなみにCSV形式になるとデータはどうフォーマットされるかというと、以下のようになっています。(CSVデータを「テキストエディット」で開くとこのように見れます。Excelで開くと前と同様に表形式で表示されます)

スクリーンショット 2021-05-22 15.26.32

これを見ると、先の行に当たる部分は改行によって区切られているのがわかります。列に当たる部分はコンマ(,)によって区切られるようになります。CSVはComma Separated Value(=「コンマで区切られた値」)の略ですが、実際にコンマで区切られているのが見て取れます。

このように表がテキストの形で表されるので、扱いやすくなっています。同時に、.xlsxから.csvに変換したことでファイルサイズがかなり小さくなっている点にも注目してください。Excel形式のデータから余計なものを省くと、これだけコンパクトになるというのが確認できると思います。

スクリーンショット 2021-05-22 15.40.28


この記事が気に入ったらサポートをしてみませんか?