マガジンのカバー画像

確率と統計

11
運営しているクリエイター

記事一覧

共分散って何のための指標なの?

共分散って何のための指標なの?


共分散共分散は,モデルとデータの適合度を検定するときに使いますが,それ以外ではあまりに使いません。しかし,共分散は相関係数を学ぶときに不可欠な概念です。母集団の共分散の値を算出する場合は,以下の式で表現されます。



$$
s_{xy} = \frac{1}{n} \displaystyle \sum_{k = 1}^n
{(x_k - \overline{x})(y_k- \overlin

もっとみる
なぜ,一つの研究で検定を何回も行ってはいけないのか?

なぜ,一つの研究で検定を何回も行ってはいけないのか?


多重検定の問題

一つの研究で工夫のないまま何度も統計的仮説検定を行なってはいけません。

私たちは,今,人生に対する満足度に影響を与えるものを調べているとしましょう。600名の社会人(男女300人)を対象に質問紙調査をしました。調査対象者には以下の5つの質問に答えてもらい,最後に,「人生に対する満足度」を測定する尺度に回答してもらいました。

性別

職業の有無

趣味の有無

病気の有無

もっとみる
Bonferroni 法 多重検定の問題を避ける方法

Bonferroni 法 多重検定の問題を避ける方法

多重検定の問題

多重検定の問題とは,有意水準 5%のもとで,検定を繰り返すことで,第一種の誤りの危険性が 5% を大きくこえてしまうという問題を言います。有意水準5%のもとで,10回検定をした場合,第一種の誤りの危険性は40%を超えます。

$$
1 - .95 ^{10} = .40 \cdots
$$

Bonferroni 法

この問題を避けるには,有意水準を5%より小さくすればいいでし

もっとみる
DNCL を使って確率の勉強を始めよう! 確率の基礎 (1)

DNCL を使って確率の勉強を始めよう! 確率の基礎 (1)

確率とはある出来事が起きる確率は次のように求めます。

$$
ある出来事が起きる確率 = \frac{ある出来事が起きる場合の数}{全部の出来事が起きる場合の数}
$$

具体例で考えてみましょう。くじが3本あります。それぞれのくじには1,2,3まで数字が書いてあります。奇数が書かれたくじをひくと昼休み遊ぶことができます。偶数が書かれたくじをひくと昼休みに教室を掃除しないといけません。あなたは1本

もっとみる
DNCL を使って確率の勉強をしよう!サイコロの面は6つあります。

DNCL を使って確率の勉強をしよう!サイコロの面は6つあります。

問題1

サイコロの面はいくつありますか?

解答

6つですね。サイコロは立方体です。これを展開すると以下のようになります。

1, 2, 3, 4, 5, 6。たしかに6面あります。

問題2

サイコロを1回振って,1の目が出る確率は?

解答

確率とは何か。0から1までの値で表され、0はある出来事が絶対に起こらないこと,1はある出来事が必ず起こることを示します。0.5は,ある出来事が起き

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(1)

R を使って,「わかる」統計!合格!統計検定4級 データの記述(1)

統計学の目的データを記述すること,これが統計学の目的のひとつです。

次の数値は2018年5月に測定された男子中学生の体重です(1年生,43名)。数値は,青山 (2022) の論文を参考に生成しています。2018年5月の段階では,私たちはまだコロナを経験していません。

体重は体重計で測定されます。なんらかの物差しで測った値のことを測定値といいます。測定値のあつまりをデータといいます。

次のデー

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(2)平均値

R を使って,「わかる」統計!合格!統計検定4級 データの記述(2)平均値

一般化さきほど,中学生の体重の平均値を求めました。43名である場合は次のように求めました。

43個の測定値がある。

43個の測定値を足し合わせる。

足し合わせた数を43で割る。

45名の場合がありました。

45個の測定値がある。

45個の測定値を足し合わせる。

足し合わせた数を45で割る。

このように個々の場合で,測定値の個数は変わります。ここで,この数をアルファベットの n で表

もっとみる
[ 入門編 ] R を使って「わかる」統計!合格!統計検定4級 データの記述(1)

[ 入門編 ] R を使って「わかる」統計!合格!統計検定4級 データの記述(1)

入門編とは

R を使って「わかる」統計!合格!統計検定4級と題して記事を書いています。これらの記事は高校生で学ぶ記法などが出てきますので,中学生や昔数学を勉強してけれどずいぶん時間がたって何も覚えていないひとにとっては,ちょっと敷居が高いかもしれません。

そこで,入門編として,記事を書くことにしました。

統計学の目的

データを記述すること,これが統計学の目的のひとつです。

次の数値は20

もっとみる
[ 入門編 ] R を使って「わかる」統計! データの記述(2)平均値

[ 入門編 ] R を使って「わかる」統計! データの記述(2)平均値

入門編とは

Rを使って「わかる」統計! と題して記事を書いています。この入門編とは,それらの記事を中学生や昔数学をしたけれどもすっかり忘れてしまったひとを対象に書き直したものです。

平均値の計算

以下は,コロナ前のある中学校の1年生の体重です。

7個の測定値があるので,平均値は次のように求めます。

7個の測定値 {34, 37, 38, 45, 47, 52, 61} がある。

7個の

もっとみる
本当?新聞を読むひとほど投票に行く?新聞普及率と都道府県議会議員選挙投票率との相関関係の分析

本当?新聞を読むひとほど投票に行く?新聞普及率と都道府県議会議員選挙投票率との相関関係の分析

Tittiby の記事によると,ニューヨークタイムズの有料購読者数が 1036万人になったとあります。この数には紙媒体の購読者数とデジタルでの購読者数が含まれています。デジタルの購読者数は 970万人とあるので,紙媒体の購読者は66万人に過ぎません。デジタル版への移行が進んでいますね。

紙媒体かデジタル化といったちがいはあれど,新聞というものは私たちのくらしにかかせないもののようです。今回はその

もっとみる
R を使って,「わかる」統計!合格!統計検定4級 データの記述(3)中央値

R を使って,「わかる」統計!合格!統計検定4級 データの記述(3)中央値


中央値の計算

中央値とは,測定値を小さい値から大きい値へ並び替えたとき,中央にくる測定値のことをいいます。

以下は,コロナ前のある中学校の1年生の体重です。このデータの中央値を求めましょう。

7個の測定値があれば,真ん中は4番目です。この場合,中央値は 45 です。

一般化それでは,中央値の算出を一般化しましょう。

測定値を変数 n であらわします。

n = 1 の場合

測定値が1

もっとみる