「第14回Zoomで経済学」Q&Aの続き

2021/08/21 追記: 「Zoomで経済学」でお話しした論文の日本語解説は、こちらからもお読みいただけるようになりました。https://premium.toyokeizai.net/articles/-/26445

【2021/08/31 まで再公開】

2021年1月20日に、UCBerkeley Haas Business Schoolの鎌田准教授に「Zoomで経済学」にお招きいただきました。

ご参加くださったみなさま、ありがとうございました。時間の都合でお答えしきれなかったご質問のうち、私の身に着けた専門知識でお答えできる範囲のものについて、お答えいたします。(この投稿は1月末くらいまで公開しておく予定です。)

データについて

データに関する質問です。戦後と現代では、市区町村の合併等で、当時の地域の境界線と現在の境界線は異なるかと思います。その違いに対処するために、データ(shape file)の利用でどのように工夫されましたか?


論文では分析対象*と利用可能なデータによって、何年の時点の行政区域に統一させるかが、少し違ってきますが、ここでは、たとえば1946年のラジオ聴取のデータ(市区町村レベルのデータがある)と、1950年の国勢調査をリンクする例をご説明します(*論文中では選挙のほか出生数なども分析しています)。

(1)1946年の境界線Shape file(こちらを利用)に、都道府県市区町村の名前をキーにしてラジオ聴取率を接合する(2)1946年と1950年のShape file(国土交通省)を使って2時点間の行政区域の対応関係(1946年時点の各行政区域の重心centroidが、1950年時点のどの行政区ポリゴンに含まれるか)を調べる(3)1950年時点での市郡を単位として1946年の変数を再集計するという3段階の手続きを踏みました。70年以前は市区町村コードがふられていないこと、市区町村名表記に揺らぎがある(新旧漢字)、Shape file の市区町村名が違っている・欠損している、などの理由から、ステップ(1)に非常に骨が折れました。

投票率のデータソースは新聞からでしたが、政府の公式の記録は残っていなかったのですか?

第22回衆議院議員総選挙一覧は国会図書館デジタルコレクションにてインターネット配信されておりますが、市郡別かつ男女別で記載されているのは有権者数のみでした。国全体の男女別投票率は公式記録にも残っているので、そちらと、私が新聞から収集した男女別投票率の全国平均(市郡の有権者数で重みづけをした加重平均)が統計的に違わないことを確認しました。

LDAでトピック分析を行っていましたが、もとの資料はどのようなものでしょうか。ラジオ番組の内容ですか?

発表中にお見せした例がその一部なのですが、ラジオ番組の内容が英語で要約されたものです。

奥山さんは、Dellさんたちのように、歴史的史料のデジタル化にも、機械学習の手法を用いられましたか?

この論文を書くにあたっては、機械学習の手法は使っておりません。史料の性質を理解するためにまずは自分である程度手入力したあと(1)歴史的史料の入力の実績お持ちの業者さんに依頼(2)学部生のRAを雇って作業を依頼の2種類の方法をとりました。また地図のデジタル化は、Yale大のGISライブラリアンとStat Lab, そしてDigital Humanity Labのスタッフの方の指導を受けつつ私自身で行いました。

歴史データでの実証研究特有の難しさはありますか?

私が博士論文を執筆して気が付いた、歴史データ特有の難しさは、主に以下の3点です。


(1) 現代よりも利用可能な変数が少ないケースが多いため、分析になんらかの仮定を置かなければならない。


(2)データが見つかっても、分析可能な形になっていないことが多いので、データセットを作るまでに時間とコストがかかる(ただしこの点は、画像認識技術の利用で緩和されるかもしれません)。


(3)「この統計は誰が何の目的で収集し、保存していたのか。」という統計の性質を丹念に検討する必要がある。現代のデータであれば、調査統計を設計・収集している主体に直接おうかがいして、統計の性質(誰が答えているのか、回答に誤差がありそうか、欠損値があるのはなぜか、など)を理解することができますが、歴史上のデータとなると、それが非常に難しい。現存する資料をたどって、また経済学を超えた他分野の先行研究の助けで、理解していくことになります。

そのほか論文の内容に関連して

予期せず男女平等参画社会になったとありましたが、アメリカが介入する前には、そのような声はなかったのでしょうか。

婦人政策が予期しないタイミングではじまった、と申し上げるのが(私が理解している範囲では)適切だったかと思います。女性参政権運動をはじめ、男女平等を求める声は戦前からあったといって差し支えないかと思います。

当時の衆議院選挙の大選挙区制と中選挙区制の違いはどのようなものでしょうか。大選挙区=中選挙区よりも1選挙区あたりの当選者数が多いのであれば数%の得票率UPはインパクトがあると考えました。また、候補者の男女比率はどのようなものだったのでしょうか。選挙を経るごとに女性候補者数の割合が減ったということはないのでしょうか。

発表の際は時間の関係でご説明できなかったのですが、ご指摘の通り、1946年の選挙は大選挙区制限連記制、1947年以降は次の選挙制度改正までいわゆる中選挙区制ですね。平均的には1選挙区あたりの議席数は前者の方が多いです。


1946年総選挙では全候補者数2770名、うち女性は79名ですから、女性比率3%弱となります。なお伊藤康子著『草の根の婦人参政権運動史』(吉川弘文館、2008)の159頁160頁に1946年選挙における女性立候補者79名全員の氏名、年齢、職業、政党、選挙区と得票結果等が載っておりました(私の分析でも、このような候補者の属性はコントロールしています)。


下グラフ(横軸が衆議院議員総選挙の年、縦軸が女性の比率)の灰色実線をご覧いただけるとわかるように、1947年選挙では、女性の候補者比率は5%越えと上昇。しかしその後は、1980年代まで低空飛行していました。

画像1

平塚雷鳥はじめ、大正時代から女性のメインメディアは雑誌なのかな?というイメージでしたが、雑誌メディアの政治参加への影響はあるのでしょうか。

大変よいご指摘で、戦前に、婦人雑誌が婦人参政権運動をどのように媒介したのか(しなかったのか)などの定量的分析は、私も非常に気になっている点です。※本研究では、1946年の時点で自然条件からくるラジオの聞き取りやすさ、と雑誌へのアクセスには、統計的な意味で関連はなかった、ことを仮定しています。

 [AMラジオの聞こえの良さを左右するという]自然条件の違いというのは具体的にどのようなものですか。

例えば電波は水中をより通過しやすいなどです(減衰の度合いが低い)。

放送時間帯(午後1-2時)が重要ということですが、それはAMラジオに電波関連したことですか?

ご指摘の通りです。操作変数(ラジオ聴取率を「あたかもランダムに」うごかす要因)は、AMラジオ波が日中は地上波として伝わることに寄っているますので。

男性もリスナーの3割ほどいたようですが。

「1947年7月のリスナー調査によると女性回答者の7割が『婦人の時間』を聴いている、あるいは聴いたことがある」と申し上げましたが、これは日本放送協会が行った調査の対象になった女性のうち7割、です。(ですので残りの3割が男性というわけではありません)。

反実的な分析も行われたそうですが、その際に識別の問題にどのように取り組まれましたか?

反実的な分析の際は、「ラジオのお陰で増えていた得票数」(ラジオ聴取率1パーセント当たりの効果×当該市郡の聴取率)を女性候補者の得票数から引き、その分を男性候補者の得票数に等分して加算、候補者の順位を再推計し、当選者を再計算しています。ですので、講演中も申し上げた通り、これはあくまでひとつの反実仮想的なシナリオであり、これが絶対というわけではありません。

因果推論を学ぶための入門書

今回の講義を通じて因果推論に興味を持ちました。因果推論を学んでいない学部生が入門書として読むのによい、オススメの本はありますか。

伊藤公一朗先生のこちらの新書は、いかがでしょうか。

第1章「なぜデータから因果関係を導くのは難しいのか」からはじまり、第2章では、実際に現実世界で実験ができるケース(ランダム化比較試験(RCT))が紹介され、さらに第3~5章で「『まるで実験が起こったかのような状況を上手く利用する』という考え方の『自然実験(Natural Experiment)』」が議論されています。

それから中室牧子先生、津川友介先生によるこちらも。

「経済学修士課程に興味のある人のスペース」スラック(*)にご参加の方から、一目でわかる計量経済学文献リストをいただきました↓ (*このスラックはYale大の伊神先生が運営していらっしゃいます。常時メンバー募集中だそうです)。

そして…黒川博文先生から、「因果推論のための計量経済学」文献リストをいただきました↓

とりわけEBPMにご関心のある方でしたら、経済セミナーさんのこちらの連載を。

文献をご推薦くださったみなさま、有難うございました。