200303_データ整理

データ分析の入口

大学院の期末試験、研究報告、日本フライングディスク協会の業務が立て続けに押し寄せていたため、前回の更新からすっかり日が空いてしまいました。世間がコロナウィルスの話題で盛り上がっている昨今ではありますが、私は大学院生活の1つの節目を迎え、春休みに突入しました。それに合わせて論文執筆に向けてデータセットの作成に着手したので、このエントリーではその辺りのことをまとめようと思います。

データセット

データセットとは、統計分析ソフト等によって処理するデータのまとまりのことを言います。私は”R”もしくは”Stata”を用いて分析を行う予定でいるため、そのソフトに取り込める形式(Excel or CSV)でデータセットを作成しています。例えば、Rは日本語に対応していないので、ファイル名や数値、行列の名称を全て英数字で表記する必要があるなど、使用する統計分析ソフトによってデータセットの作り方が多少異なってきます。

私が現在進めている研究では、使用するデータベースの一部が電子媒体で存在しないため、①国立国会図書館からコピーを取り寄せる、②必要なデータをExcelに手入力する、③統計分析ソフトに取り込む、という手順を踏むこととなります。このエントリーを書いている時点では、①が完了して②を進めています。データ分析の入口に立ったばかりといったところでしょうか。

データベースを利用する際の注意

データセット作成中に気が付いたことがあります。私が利用しているデータベースは、全国の企業にアンケート調査を実施して得られた回答を1つの冊子にしたものなのですが、回答者によって答え方が異なるのです。例えば、経済分析において一般的な効率性分析では企業が所有する資本量と労働量のデータを用いることが多く、私もその2つを収集しているのですが、労働量の代理変数となる従業員数の定義が企業によってまちまちなのです。ある企業は正規雇用者のみを回答しており、またある企業は非正規雇用者も含めて回答しており、またまたある企業は正規/非正規の区別なく全従業員数を回答しているといった状態です。おそらく、設問の抽象度が高いために回答者による解釈の幅が広がってしまっているのでしょう。

既存のデータベースを利用するとしばしばこういった問題に直面します。時系列を追いかけようものなら、年によって回答者の解釈が異なっているなんてこともあります。コンサルタントとしてバリバリ働いていた時代(といっても半年前)に業務でデータベース作成のための調査を実施する際には、"そのデータをどのように分析したいか"を常にイメージしながら設問を設計するように先輩から指導を受けていたのですが、その大切さを身を以て知った格好です。

これからこのデータをどのように料理していくか、頭を悩ます日々が続きそうです。

この記事が気に入ったらサポートをしてみませんか?