見出し画像

統計ソフトStataを知る(2):データ格納

「Stataを知る」第2回目です。
今回はStataのデータ取り込みについて考えていきます。
※私はStata14を使っていますが、どのStataも構造は同じです。
  バージョンの違いで混乱しないよう基本的にStataの画像は用いません。

1.データの格納とは?

第1回目の「Stataを知る」では、Stataの使い方3ステップを知りました。

①データを取り込む
②そのデータを分析(統計検定)する
③結果を(表やグラフで)手に入れる

データの格納はこのステップ①のことです。
世の中にはいろんな形でデータが保存されています。
紙に書いてあったり、Excelファイルだったり、CSVファイルだったり。
それらをStataで分析するには、
Stataのデータ格納庫にデータを一旦入れ直す必要があります。
データの入れ直しは、Excelファイルなどのインポート(取り込み)や、
格納庫に直接手入力する方法(非現実的!)があります。
そして、取り込んだデータは「.dta」という形(拡張子)で保存できます。
一旦「.dta」形式で保存しておけば、「.dta」ファイルを読み込こむことで
データ格納庫にデータが取り込まれます。
なお、格納したデータはData Browserで確認できます。
それを直接編集したい場合はData Editorで行えます。

画像2

Stataは、このデータ格納庫にあるデータ、
つまり「.dta」形式で保存されるデータしか分析できないため、
まずデータの取り込みが第一ステップとなります。
誰かとデータを共有したいとき、その人がStataを持っていれば、
.dtaファイルを渡せば分析がすぐに行えます。
Excelファイルは、.dtaのスタイルに合うように調整が必要です。
このあたりの話は次々回にする予定です。

2.格納の仕組み

まず.dtaがどんな作りになっているか知るために、
Data Editorに直接データを入力してみましょう!
※膨大な量のデータを直接入力すると死にます。でも少量なら無問題!

とりあえずこんなデータを入力したいと思います。テストの点数です。

画像2

ではStataを開いて、Data Editorを探して〜開きましょう!
パッと見てExcelと違うところがあります。
縦横の番地(A列、B列…とか、行1、行2…とか)が書いていません。
まあとりあえず入力してみましょう。
Excelで言うところの「A1」にデータの「山田」を入力します。
ただし、日本語入力できないバージョンもあるので「yamada」と入れます。
するとExcelの番地のようなものが自動的に表示されます。
第1列の項目名に「var1」、第1行の項目名に「1」と入りました。
「yamada」は var1 [ 1 ] に入力されましたね。
同様に「sato」と「kobayashi」を同じ列に順に入力します。
それぞれ var1 [ 2 ]、 var1 [ 3 ] に値が入りましたか?
var1 [ 1 ] はExcelの「A1」のように番地として使えそうですね。

でも実は、これは番地ではありません
varはvariableの略で、「変数」のことです。
「変数」とは、同じ種類のものを入れておける箱だと考えてください。
例えば、部屋を片付けるとき、おもちゃはおもちゃ箱に片付けますよね?
山田、佐藤、小林というデータは、氏名という同じ種類のデータです。
それらをvar1という箱に入れたのです。

おもちゃ箱にせよ、氏名を入れた箱にせよ、
箱から何か1種類取り出す場合、どれでも好きなものを取り出せます。
あなたは取り出すものを、好きなように変えられます。
だからこの箱のことを変数と呼ぶのです。

Stataにデータを入れるときは、番地にデータを入れるのではなく、
箱=変数を用意して、その箱に同じ種類のデータを入れていくのです。
なおその箱はきっちりと区分けができる箱なので、
1番目に「山田」、2番目に「佐藤」といったように格納できます。

画像3

さて、おもちゃの場合、箱の表面に「おもちゃ」と名称を書くでしょう。
「var1」も同様、「氏名」のように好きな名称に変更が可能です。
むしろこれをやっておかないと「var1」って何入れてたっけ?となります。
名称の変更についてはもう少し先で解説します。

なおData Editorに入力すると、そのときにどんな命令が裏で出ていたのか、
結果がResultウインドウに表示されます。
逆に言えば、CommandウインドウからData Editorに入力命令を出せます。
このあたりの話は、分析についての第一回目で考えていきます。

3.まとめ

今回は、大きく2つ扱いました。

①外部データの分析は、一旦Stataに取り込まなければ分析できない。
 →データを格納して保存したものは.dta形式である。
②データは種類に応じて変数を用意して格納する。

次回は変数についてもう少し考えていきます。

この記事が気に入ったらサポートをしてみませんか?