趣味のデータ分析001_柱書
このnoteでやりたいこと
端的には、データを触りたい。データを使ってなにか言うとか、まあそういうのもないわけではないが、基本はとりあえずデータを色々いじって触って揉みしだきたい。そういうnoteにしたい。
メッセージ性とかはとりあえず気にしないことにする。個人的な備忘メモ以上のものにはならないだろうし。なにより趣味だし。
このnoteの目標と制約
とはいっても何かしら目標とか制約がないととりとめもなくなるので、以下の通り定める。縛りがないとやる気でないよね。昔のJRPGの縛りプレイ大好き。
週一(以上)でなんかグラフとインプリケーションを作る。
原則は日本政府の公表データをベースにする。
グラフの定義とかを細かく調べる。
使用データはアップロードする。
まあこんなところか。週一でグラフを作れるかはよく分からん。まあグラフはできるときは一気に大量にできるので、小出しにするのだろうか。インプリケーションとの関係では、ある程度まとめて出さないとストーリーはできなそうだけど。
いずれにせよ、2年間ぼちぼち暇になるはずなので、最低でも70~80くらいはグラフとインプリケーション=分析、が仕上がってほしい。頑張れ私。
2の政府公表のデータは、基本的にe-statを使う想定。
https://www.e-stat.go.jp/
個人的にはこのデータベースというかポータルサイト、結構優秀だと思うんだけど、どうなんだろう。各省庁のデータが横断的に取得できるデータベースって、米国やEUには少なくともないような気がする(日本語しか対応してないのが玉に瑕だが、分量的にしょうがないのか…私が公表してたデータも日本語しかないし…)。
当初目標は、e-statに載ってるデータを全部1回以上使う!と思ってたけど、多分これは無理。背景についてはどっかで小ネタ的に言及しよう。そもそもe-statについて幅広に解説した記事ってあんまりなさそうだし、個人的に一度整理はしておきたい。
3のデータ定義は、地味だけど個人的には一番こだわりたいところ。アンケート調査か法人決算書等から推計しているのか、ユニバースがどこまで広いのか、国際比較は本当に比較になっているのかなど、定義詰めるだけで十分インプリケーションは出てくると思うんだよなぁ。出てこないかもしれないけど。グラフ作成にはあまり役に立たないのも難点。
ただ、ネット上に転がる数多の調査は「そもそもその調査、誰にどんなふうに聞いたんや」というのが不明なのが多すぎる。アンケート調査で質問表非公表のものとか、引用するのすら怖いんですよ。まあそもそもこのnoteの分析の元データは基本政府統計にするつもりだから、そのへんの心配は無いだろうが…いずれにせよ、くだくだしくないくらいに定義についてもちゃんと述べるようにはしたい。
4はnoteの基本仕様に含まれているんですかね…ま、よそに出しても恥ずかしくないエクセルを作る、ということも訓練だ。
分析仮テーマ
せっかくなので仮テーマも、思いつきだけど書いておこう。暫定下記。
資産所得倍増計画関係
労働生産性関係
法人企業統計使ってなんか遊べないか(企業利益とか企業資産の推移?)
離職率統計について(昭和高期より今のほうが低い?)
年代別統計の何かを使ってコーホート分析
このへんか。資産所得倍増は私自身も多少の蓄積があるので、まずはこれに関する分析を吐き出してペースを掴みましょうかね。
https://www.jiji.com/jc/article?k=2022062000776&g=pol