マガジンのカバー画像

Rで統計入門

12
運営しているクリエイター

記事一覧

[ R ] グラフの描き方で印象が全く異なるはなし。

[ R ] グラフの描き方で印象が全く異なるはなし。

[ サイトマップを見る ]

概要 グラフの描き方を変えると,変化を実際以上よりも大きくみせたり,二つの条件の間に差がないのに,あたかもあるように見せることができます。それは,読み手をだますことですから,グラフの作成者はグラフを作るとき,読み手に誤解を与えないよう注意して作図する必要があります。

グラフの描き方3月8日は国際女性デーです。この日は女性の権利向上の必要性を伝えるために設けられていま

もっとみる
[ R ] データファイルの冒頭 n 行を読み飛ばす

[ R ] データファイルの冒頭 n 行を読み飛ばす

Google Trendsは,Google 検索での検索クエリから,トレンドがどう変化しているかをグラフで見ることができます。

データは csv ファイルでダウンロードできます。統計やグラフの作成の勉強用のデータとしても使えて便利です。

R で Google Trends の出力する csv には注意する点が2点あります。

冒頭2行にデータの説明が書いてある

データのラベルが日本語になって

もっとみる
[ R ] ふたつの折れ線グラフを重ねて描く

[ R ] ふたつの折れ線グラフを重ねて描く

概要 この記事は,R を使ってふたつの折れ線グラフを重ねて描く手順を説明したものです。初心者を対象にわかりやすく,説明することを心がけています。

折れ線グラフとは折れ線グラフにはx 軸とy 軸があります。

x 軸の数値が変化することによって,y 軸のデータ量がどのように変わるのかを確認するときに効果的なグラフです。

具体例

純アルコール量と死亡リスクの関係を調査した,Holman たち (

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(3)中央値

R を使って,「わかる」統計!合格!統計検定4級 データの記述(3)中央値


中央値の計算

中央値とは,測定値を小さい値から大きい値へ並び替えたとき,中央にくる測定値のことをいいます。

以下は,コロナ前のある中学校の1年生の体重です。このデータの中央値を求めましょう。

7個の測定値があれば,真ん中は4番目です。この場合,中央値は 45 です。

一般化それでは,中央値の算出を一般化しましょう。

測定値を変数 n であらわします。

n = 1 の場合

測定値が1

もっとみる
[ 入門編 ] R を使って「わかる」統計! データの記述(2)平均値

[ 入門編 ] R を使って「わかる」統計! データの記述(2)平均値

入門編とは

Rを使って「わかる」統計! と題して記事を書いています。この入門編とは,それらの記事を中学生や昔数学をしたけれどもすっかり忘れてしまったひとを対象に書き直したものです。

平均値の計算

以下は,コロナ前のある中学校の1年生の体重です。

7個の測定値があるので,平均値は次のように求めます。

7個の測定値 {34, 37, 38, 45, 47, 52, 61} がある。

7個の

もっとみる
[ 入門編 ] R を使って「わかる」統計!合格!統計検定4級 データの記述(1)

[ 入門編 ] R を使って「わかる」統計!合格!統計検定4級 データの記述(1)

入門編とは

R を使って「わかる」統計!合格!統計検定4級と題して記事を書いています。これらの記事は高校生で学ぶ記法などが出てきますので,中学生や昔数学を勉強してけれどずいぶん時間がたって何も覚えていないひとにとっては,ちょっと敷居が高いかもしれません。

そこで,入門編として,記事を書くことにしました。

統計学の目的

データを記述すること,これが統計学の目的のひとつです。

次の数値は20

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(2)平均値

R を使って,「わかる」統計!合格!統計検定4級 データの記述(2)平均値

一般化さきほど,中学生の体重の平均値を求めました。43名である場合は次のように求めました。

43個の測定値がある。

43個の測定値を足し合わせる。

足し合わせた数を43で割る。

45名の場合がありました。

45個の測定値がある。

45個の測定値を足し合わせる。

足し合わせた数を45で割る。

このように個々の場合で,測定値の個数は変わります。ここで,この数をアルファベットの n で表

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(1)

R を使って,「わかる」統計!合格!統計検定4級 データの記述(1)

統計学の目的データを記述すること,これが統計学の目的のひとつです。

次の数値は2018年5月に測定された男子中学生の体重です(1年生,43名)。数値は,青山 (2022) の論文を参考に生成しています。2018年5月の段階では,私たちはまだコロナを経験していません。

体重は体重計で測定されます。なんらかの物差しで測った値のことを測定値といいます。測定値のあつまりをデータといいます。

次のデー

もっとみる
Bonferroni 法 多重検定の問題を避ける方法

Bonferroni 法 多重検定の問題を避ける方法

多重検定の問題

多重検定の問題とは,有意水準 5%のもとで,検定を繰り返すことで,第一種の誤りの危険性が 5% を大きくこえてしまうという問題を言います。有意水準5%のもとで,10回検定をした場合,第一種の誤りの危険性は40%を超えます。

$$
1 - .95 ^{10} = .40 \cdots
$$

Bonferroni 法

この問題を避けるには,有意水準を5%より小さくすればいいでし

もっとみる
なぜ,一つの研究で検定を何回も行ってはいけないのか?

なぜ,一つの研究で検定を何回も行ってはいけないのか?


多重検定の問題

一つの研究で工夫のないまま何度も統計的仮説検定を行なってはいけません。

私たちは,今,人生に対する満足度に影響を与えるものを調べているとしましょう。600名の社会人(男女300人)を対象に質問紙調査をしました。調査対象者には以下の5つの質問に答えてもらい,最後に,「人生に対する満足度」を測定する尺度に回答してもらいました。

性別

職業の有無

趣味の有無

病気の有無

もっとみる
共分散って何のための指標なの?

共分散って何のための指標なの?


共分散共分散は,モデルとデータの適合度を検定するときに使いますが,それ以外ではあまりに使いません。しかし,共分散は相関係数を学ぶときに不可欠な概念です。母集団の共分散の値を算出する場合は,以下の式で表現されます。



$$
s_{xy} = \frac{1}{n} \displaystyle \sum_{k = 1}^n
{(x_k - \overline{x})(y_k- \overlin

もっとみる
[ R ] 棒グラフを描く

[ R ] 棒グラフを描く

概要 この記事は,R を使って棒グラフを描く手順を説明したものです。初心者を対象にわかりやすく,説明することを心がけています。

棒グラフとは棒グラフにはy 軸があります。

y 軸にはデータの量をとり,複数の条件間で量に差があるか確認する際に便利なグラフです。

具体例

総務省のまとめた「第49回衆議院議員総選挙年齢別投票者数調(抽出調査)」をみてみましょう。

18 歳から 80 歳以上まで

もっとみる