記事一覧
![](https://assets.st-note.com/production/uploads/images/132783053/rectangle_large_type_2_7bcb7e17aeba60476c22b6353f844163.jpeg?width=800)
[RとStataによるデータ分析入門]重力モデルの推定
本コラムでは二国間貿易額のデータベースであるUncomtradeの使い方について紹介します。まず、データベースには以下からアクセスできます。 https://comtradeplus.un.org/…
[Rによるデータ分析入門]正誤表
拙著「Rによるデータ分析入門」に誤植が見つかりましたので訂正します。
2024年6月17日更新
P. ⅳ 9行目
(誤)高野祐介 (正) 高野佳佑
第1章 RとRStudioの基本動作
P.27 6行目 "tableone"は一つ不要(動作上は問題ありません)
第3章 回帰分析
P.78 5行目 t値の定義式の右辺の分母
誤) $${t=\frac{係数}{係数の標準偏差}}$$
正)
[RとStataによるデータ分析入門]重力モデルの推定
本コラムでは二国間貿易額のデータベースであるUncomtradeの使い方について紹介します。まず、データベースには以下からアクセスできます。
https://comtradeplus.un.org/
以下のようなサイトにアクセスできます。
データを取得するには、Dataタブの"Trade"を選びます。
次のようなページが出てきます。
たとえば「2018年の日本の世界各国への輸出額」を取得
[Rによるデータ分析入門]Chat GPTによるエラー対処法
本コラムはRによるデータ分析入門のWEBサポートとして作成されています。
Chat GPTによるエラー対処法について紹介します。たとえばtidyverseをインストールしたのにlibrary()で呼び出そうとするとエラーが発生しました。
Chat GPTに質問してみました。
以下のような回答が返ってきました。このアドバイスに沿って対処するとエラーは解消しました。
[Rによるデータ分析入門]データ読み込みのトラブルシューティング
本コラムではRでデータ読み込む際に生じうるいくつかのトラブルの解決策を紹介します。
桁の大きな数値が入ったCSVファイルを読み込むと文字列として認識されてしまう
桁の大きな数値が入ったデータをCSVファイルに変換し、Rで読み込もうとすると文字列として認識されることがあります。次の例は、世界銀行のWorld Development Indicatorから取得した世界各国のGDPのデータでCSVフ
[Rによるデータ分析入門]欠損値処理方法のまとめ
本コラムではRで欠損値を処理するための関数やtipsをまとめています。
欠損値とは何か
データセットの中の数値が入っていない個所を欠損値といいます。たとえばEXCELで作成したデータセットで空欄になってところがあると、これをRで読み込ませるとNAと表示されます。NAはNot Avaiableの意味です。
欠損値かどうか判定する関数:is.na()
欠損値かどうかを判定するにはis.na()
[Rによるデータ分析入門]merge関数の使い方
本コラムはRによるデータ分析入門のWEBサポートとして作成されています。
本コラムはRで2つのデータフレームを接続するmerge関数の使い方、注意事項について説明します。データの接続は、小さなデータであればEXCELで作業すれば済みますが、大規模データの場合、EXCELではものすごく手間がかかりますし、手作業ですのでどこかでミスが起こりかねません。そのようなときにはRのmerge関数が便利です。
[Rによるデータ分析入門]離散選択モデルの様々(3):ヘーキットモデル
ヘーキット・モデルとは、被説明変数が観察されるのが一部、というような状況に用いられるモデルです。本コラムでは、数学的な説明は計量経済学のテキストに譲り、できるだけ直感的な説明でヘーキットの意義について説明した後、Rにおける推計方法を紹介します。
なお、このシリーズを通しで読みたい方は以下を参照してください。
ヘーキットの直感的な意義
たとえば、健康状態と賃金の関係を考えてみましょう。今、デー
[Rによるデータ分析入門]離散選択モデルの様々(5):生存分析
本コラムは「離散選択モデルの様々」では、
(1)多項ロジット・モデル
(2)順序ロジット・モデル(Ordered Logit Model)
(3)ヘックマンの二段階推定モデル
(4)カウント・データ
を紹介してきましたが、(5)では生存分析で使われるKaplan-Mayer生存曲線の推計とCox比例ハザードモデルを紹介します。(1)~(4)を読みたい人は以下のリンクを参照してください。
生存分析
[Rによるデータ分析入門]離散選択モデルの様々(4):カウント・データ
本コラムは「離散選択モデルの様々」では、
(1)多項ロジット・モデル
(2)順序ロジット・モデル(Ordered Logit Model)
(3)ヘックマンの二段階推定モデル
を紹介しましたが(4)ではカウント・データに用いるポワソン回帰モデル、負の二項分布モデルを紹介します。
カウントデータとは
カウントデータとは、営業マンの契約成約件数や、患者の通院回数
・連続変数だければどゼロまたは正の
[Stataによるデータ分析入門]正誤表
「Stataによるデータ分析入門」第3版における修正箇所をお知らせします。なお、本コラムは、Stataによるデータ分析入門第3版のWEB補論として用意されました。
第2刷対応箇所
167下から2行目
「次のような3つのダミー変数を導入した回帰式を推定します。」に以下の脚注追加
「なお、この回帰式と差の差の分析の推定量の関係については、WEB Appendixを参照してください。」 リンクはこち
[Rによるデータ分析入門]ggplotによる図の作成(2)
本コラムではRのグラフ描画パッケージgglot2の使い方を紹介します。Rではtidyverseパッケージに含まれるggplot2パッケージを使うことで綺麗なグラフを描くことができます。第2回は、折れ線グラフの作成方法を紹介します。
なお第1回は以下を参照してください。基本的な使い方と散布図の作成方法について紹介しています。
下準備
ここでは2022年の年齢階級別学歴別男女別賃金データであるw