Toshiyuki Matsuura

経済学の研究者。専門は国際経済学、応用ミクロ計量経済学。

Toshiyuki Matsuura

経済学の研究者。専門は国際経済学、応用ミクロ計量経済学。

最近の記事

[Rによるデータ分析入門]正誤表

拙著「Rによるデータ分析入門」に誤植が見つかりましたので訂正します。 2024年5月2日更新 P. ⅳ 9行目 (誤)高野祐介 (正) 高野佳佑 第1章 RとRStudioの基本動作 P.27 6行目 "tableone"は一つ不要(動作上は問題ありません) 第3章 回帰分析 P.84 1行目 誤)たとえばageを1/12して(age_rev)築何か月かを示す指標にすると 正)たとえばageを1/12(age_rev)にすると P.108 下から7行目 誤)性の賃

    • [RとStataによるデータ分析入門]重力モデルの推定

      本コラムでは二国間貿易額のデータベースであるUncomtradeの使い方について紹介します。まず、データベースには以下からアクセスできます。 https://comtradeplus.un.org/ 以下のようなサイトにアクセスできます。 データを取得するには、Dataタブの"Trade"を選びます。 次のようなページが出てきます。 たとえば「2018年の日本の世界各国への輸出額」を取得してみましょう。貿易データは一般に輸入額のほうが正確に記録されているので、ここで

      • [Rによるデータ分析入門]Chat GPTによるエラー対処法

        Chat GPTによるエラー対処法 たとえばtidyverseをインストールしたのにlibrary()で呼び出そうとするとエラーが発生する Chat GPTに質問してみました。 以下のような回答が返ってきました。このアドバイスに沿って対処するとエラーは解消しました。

        • [Rによるデータ分析入門]ggplotによる図の作成(3):Chat GPTの活用

          本コラムではggplot2で回帰分析の係数使ったグラフの作成方法を紹介します。推計結果をもとにChat GPTで図を描くスクリプトを作成しています。ggplot2の基本的な使い方を知りたい方は以下を参照してください。 事例紹介 具体例として、厚生労働省賃金構造基本調査の年齢階級別職種別賃金データを用いて、キャビンアテンダント(航空客室乗務員)の賃金関数を推定します。航空業界では1990年代の終わりから2000年代にかけてLCCの参入などの規制緩和により競争が激しくなり、客

        [Rによるデータ分析入門]正誤表

          [Rによるデータ分析入門]データ読み込みのトラブルシューティング

          本コラムではRでデータ読み込む際に生じうるいくつかのトラブルの解決策を紹介します。 桁の大きな数値が入ったCSVファイルを読み込むと文字列として認識されてしまう 桁の大きな数値が入ったデータをCSVファイルに変換し、Rで読み込もうとすると文字列として認識されることがあります。次の例は、世界銀行のWorld Development Indicatorから取得した世界各国のGDPのデータでCSVファイルに変換してあります。たとえばE+11は10の11乗で、一見数値が入っている

          [Rによるデータ分析入門]データ読み込みのトラブルシューティング

          [Rによるデータ分析入門]イベントスタディ型差の差の分析(1)

          本コラムでは、イベントスタディ型の差の差(DID)の分析を紹介します。 問題意識 差の差の分析では、イベントが発生する(処置が始まる)と、イベント(処置)の影響を受ける処置群の成果指標Yが変化し、影響を受けない比較群Yと乖離が生じるので、この差を計測しようとする分析です。通常の差の差の分析では、暗黙の仮定として、イベントが発生すると即座に効果が現れ、また、その効果は一定のまま持続すると想定されています。 しかし、図2のように実際にはイベント発生の効果が顕在化するまでに時

          [Rによるデータ分析入門]イベントスタディ型差の差の分析(1)

          [Rによるデータ分析入門]欠損値処理方法のまとめ

          本コラムではRで欠損値を処理するための関数やtipsをまとめています。 欠損値とは何か データセットの中の数値が入っていない個所を欠損値といいます。たとえばEXCELで作成したデータセットで空欄になってところがあると、これをRで読み込ませるとNAと表示されます。NAはNot Avaiableの意味です。 欠損値かどうか判定する関数:is.na() 欠損値かどうかを判定するにはis.na()関数が使えます。is.na(x)でxが欠損値のとき真となり、欠損値でない場合は儀

          [Rによるデータ分析入門]欠損値処理方法のまとめ

          [Rによるデータ分析入門]merge関数の使い方

          本コラムはRで2つのデータフレームを接続するmerge関数の使い方、注意事項について説明します。データの接続は、小さなデータであればEXCELで作業すれば済みますが、大規模データの場合、EXCELではものすごく手間がかかりますし、手作業ですのでどこかでミスが起こりかねません。そのようなときにはRのmerge関数が便利です。 基本的な使い方と注意事項 たとえば以下のような2つのデータフレームobj1とobj2があったとします。2つのデータにはidという番号がついているので、

          [Rによるデータ分析入門]merge関数の使い方

          [Rによるデータ分析入門]対数による回帰分析でエラーが出るときの対処法

          Rで変数に対数をとって回帰分析する際にエラーが出る場合があるのですが、本コラムではその対処方法について説明します。 そもそも回帰分析でなぜYとXに対数をとるの?という疑問については、様々なWEB記事で紹介されていますが、特に以下のコラムを一読することをおすすめします。 はじめに Rで変数に対数をとって回帰分析する、今、データフレーム名がdataf, 被説明変数がY、説明変数がXのときにlm(log(Y)~log(X),data=dataf)を実行した際にエラーが出て進め

          [Rによるデータ分析入門]対数による回帰分析でエラーが出るときの対処法

          [Rによるデータ分析入門]離散選択モデルの様々(3):ヘーキットモデル

          ヘーキット・モデルとは、被説明変数が観察されるのが一部、というような状況に用いられるモデルです。本コラムでは、数学的な説明は計量経済学のテキストに譲り、できるだけ直感的な説明でヘーキットの意義について説明した後、Rにおける推計方法を紹介します。 なお、このシリーズを通しで読みたい方は以下を参照してください。 ヘーキットの直感的な意義 たとえば、健康状態と賃金の関係を考えてみましょう。今、データには健康状態が悪くて非就業の人と健康状態が良くて就業している人が含まれていると

          [Rによるデータ分析入門]離散選択モデルの様々(3):ヘーキットモデル

          [Rによるデータ分析入門]離散選択モデルの様々(5):生存分析

          本コラムは「離散選択モデルの様々」では、 (1)多項ロジット・モデル (2)順序ロジット・モデル(Ordered Logit Model) (3)ヘックマンの二段階推定モデル (4)カウント・データ を紹介してきましたが、(5)では生存分析で使われるKaplan-Mayer生存曲線の推計とCox比例ハザードモデルを紹介します。(1)~(4)を読みたい人は以下のリンクを参照してください。 生存分析, Survival Analysisとは 生存分析とは、元々、疫学や生物学分

          [Rによるデータ分析入門]離散選択モデルの様々(5):生存分析

          [Rによるデータ分析入門]離散選択モデルの様々(4):カウント・データ

          本コラムは「離散選択モデルの様々」では、 (1)多項ロジット・モデル (2)順序ロジット・モデル(Ordered Logit Model) (3)ヘックマンの二段階推定モデル を紹介しましたが(4)ではカウント・データに用いるポワソン回帰モデル、負の二項分布モデルを紹介します。 カウントデータとは カウントデータとは、営業マンの契約成約件数や、患者の通院回数 ・連続変数だければどゼロまたは正の整数しかとならい ・ゼロが多い といったデータを分析する際に使用します。 使用

          [Rによるデータ分析入門]離散選択モデルの様々(4):カウント・データ

          [Stataによるデータ分析入門]正誤表

          「Stataによるデータ分析入門」第3版における修正箇所をお知らせします。なお、本コラムは、Stataによるデータ分析入門第3版のWEB補論として用意されました。 第2刷対応箇所 167下から2行目 「次のような3つのダミー変数を導入した回帰式を推定します。」に以下の脚注追加 「なお、この回帰式と差の差の分析の推定量の関係については、WEB Appendixを参照してください。」 リンクはこちら 第3刷対応箇所 P.104 1行目 & (誤)対数をとった変数 (正)

          [Stataによるデータ分析入門]正誤表

          [Rによるデータ分析入門]離散選択モデルの様々(2):順序ロジット・プロビット・モデル

          本コラムは(1)では多項ロジット・モデルを紹介しました。(2)では、多項選択モデルの一種である順序ロジット・モデル(Ordered Logit Model)を紹介します。 順序ロジット・モデルとは 順序ロジット・モデルは、被説明変数が、1. 強くそう思う、2.どちらでもない、3. そうは思わない、のように順序を持つ選択肢になっている変数を扱うモデルです。アンケート調査などでは、このような選択肢が用意されていることがよくあります。この変数を通常の最小二乗法で分析すると、第4

          [Rによるデータ分析入門]離散選択モデルの様々(2):順序ロジット・プロビット・モデル

          [Rによるデータ分析入門]ggplotによる図の作成(2)

          本コラムではRのグラフ描画パッケージgglot2の使い方を紹介します。Rではtidyverseパッケージに含まれるggplot2パッケージを使うことで綺麗なグラフを描くことができます。第2回は、折れ線グラフの作成方法を紹介します。 なお第1回は以下を参照してください。基本的な使い方と散布図の作成方法について紹介しています。 下準備 ここでは2022年の年齢階級別学歴別男女別賃金データであるwage-census2022.csvを使います。データとスクリプト例は以下からダ

          [Rによるデータ分析入門]ggplotによる図の作成(2)

          [Rによるデータ分析]GIS情報の取り扱い(2)

          本コラムではGIS情報の活用について説明します。GISとはGeography Information Systemの略で、緯度経度情報などを数値解析するシステムです。第2回は、ちょっと試してみようということで不動産賃貸物件の住所情報を緯度経度に変換し、ここから計算した距離を回帰モデルの説明変数として導入してみましょう。事例としては、英語ではNIMBY(Not In My Backyad) とよばれる「必需品だが自分の近隣には来てほしくない施設」の存在が賃貸料に及ぼす影響につい

          [Rによるデータ分析]GIS情報の取り扱い(2)