見出し画像

【STATA Techs-007】2値サンプルt検定

THEME:t検定
GOAL:STATAでt検定(母平均の差の有無に関する検定)をできるようになる。

◯データセット

◯使用コマンド◯

varname2が2値変数の時、
ttest varname1, by(varname2)

◯お題◯
戸主の所得(「income_master」)について,エリア(「area」)によって差はあるだろうか。大都市(1,2)とそれ以外の都市(3,4)規模における母平均の差の有無について、検定しなさい。
=2群の平均に差があるかt検定をしなさい

◯検定◯

今回は、大都市(1,2)とそれ以外の都市(3,4)に「area」を分けた上で、「income_master」を実数にとったt検定を行います。まず、「area」と「income_master」を要約してみましょう。「income_master」は実数で、「area」は数字自体には意味を持たない質的変数なので、前者はsummarizeコマンド、後者はtableコマンドを使用します。

sum income_master
tab area

「income_master」は外れ値もないのでこれでいいとして、「area」は大都市とそれ以外の都市に分かれていませんので、分ける必要があります。「area」の1と2を0にまとめ、3と4を1にまとめた新変数「area2」を生成しましょう。

gen area2 = area
recode area2 1=0 2=0 3=1 4=1

このコマンドでokです。確認しましょう。

tab area2

さて、大都市とそれ以外の都市という2値変数の準備もできました。それではt検定を実行しましょう。

ttest income_master, by(area2)

なんか、めっちゃ出てきましたね!ひとつずつ見ていきましょう。
まず、グループが大都市とそれ以外の都市の2値で分かれているのが確認できます。そのグループに対応した観測数(obs)、平均(mean)、標準誤差(Std.Err)、標準偏差(Std.Dev.)、95%信頼区間(95% Conf. Interval)が返されています。
次に、「conbined」の行は、上が2値で分かれていたものを統合した時の数値です。「diff」の行はそれとは逆に、差をとったものになります。t検定は実数の平均の差が統計的に有意かを検定するものです。

では最も肝心のP値はというと、Ha: diff != 0をみます。すると、「Pr(|T| > |t|) = 0.0509」ですので、差は10%水準で有意ということになります。

======
本田恒平(Kohei Honda)
一橋大学大学院経済学研究科博士後期課程(政治経済学、労働政策)

▼質問やご意見等はコメントかホームページのフォームから▼


この記事が気に入ったらサポートをしてみませんか?