マガジンのカバー画像

統計問題雑談

23
統計の問題をネタに雑談します。
運営しているクリエイター

記事一覧

固定された記事

統計ネタひとり雑談(目次ページ)

Cover Photo by Martin Martz on Unsplash Psychological Statistics問1:平均、分散 問2:2変数の関係 問3:偏相関係数 問4:記述統計用語 問5:信頼区間の解釈 問6:信頼区間の計算 問7:相関係数の検定 問8、問9:分散分析 問10:統計分析の注意点 雑談なし。 より過去の出題問題 (22年度2学期 問6など)推測統計用語

(9):決定係数。またの名を分散説明率。これって何者?

学び始めて、約10年放送大学に入学後、はじめて心理統計を学び始め、もう10年近くになります。はじめはもう、わからないことだらけだったのですが、さすがにいくつも教科書を読んでくると、話を理解する土壌ができてくるというか、ああ、こういう説明の仕方もあるのかと、余裕をもって読むことができるようになります。 因子分析という高い壁 放送大学で卒業論文、同大学院で修士論文を書くにあたり、わたしは「因子分析」という方法を用いてデータ分析をしました。すごい、因子分析ができるなんて! とか

(8):重回帰分析の式であれこれ遊んでみる

重回帰分析って難しい?重回帰分析について何か書こうと思うと、あれもこれも書けてしまうのですが、ここでは、過去問の学習にわりと直結しそうな、式の解釈について書いてみます。「社会統計学入門 ‘12」の第11章でとりあげられている重回帰分析の例を使って、式の解釈を練習しましょう。次の式です。 年収(予測値)= 定数(100.2) + 243.5×性別 + 14.6×勤続年数 大事なのは独立変数と従属変数 当然のことですが、どの変数を使って、何の予測値を計算するのか、ということが

(7):平均値の差の検定

帰無仮説の表現を確かめよう検定のときに最初に設定するのは帰無仮説の方ですね。クロス表の検定のところで、期待度数というのは何も期待しないこと(=帰無仮説)で、検定というのは帰無仮説の世界でやっている、ということを書きました。平均値の差の検定でも同じです。 平均値の差の検定では、期待度数は登場しませんが、「何も期待しない」という点は同じです。ふつう、平均値の差の検定をするときには、「こっちのほうが高いって出てほしいなあ」という淡い希望をもつものです。 新しい指導法の方が効果が

(6):信頼区間の問題って、…

慣れない用語との戦いだよね区間推定の難しさって、なんといっても用語の難しさだと思いますね。標準誤差、自由度と臨界値(限界値とも)、これらを組み合わせて信頼区間ですね。 なあんだ、たいしてたくさんあるわけじゃないね。と侮るなかれ。標準誤差の理解のために、難しい用語がまた出てくるんですね。平均値、標準偏差、標本分布、標本分布の平均値(期待値)、標本分布の標準偏差(これが標準誤差ですね)、といった具合に。難しい用語で殴り倒したい相手がいる方にはもってこいかもしれません? 理解の

(4)補遺:どれくらい偏ると「目立つ」のか

まず2×2表でシミュレーションとりあえず、一番簡単な2×2クロス表で、シミュレーションをしてみましょう。次のようなシートを作りました。 左上が検定したいクロス表です。総度数や周辺度数を変化させると、クロス表のバリエーションがいくらでも増えるので、それらは固定しておきます。黄色く塗られたセル(PXの位置)の数値を変えると、その他のセルも度数が変わります。右側の「Ex」は期待度数です。総度数と周辺度数を固定していますから、期待度数も固定されます。 その下の「5%臨界値」がカイ二

(4):nなのか?n-1なのか?どっちなんだい!

nか、n-1か、それが問題だ標準偏差を求めるには、基本的にはローデータが必要なんですが、大量の仮想ローデータを載せて「計算せよ」なんていう試験問題は出ません。データの入力に時間を使わせてしまっては他の問題が解けませんからね。というわけで、標準偏差を求める問題には、サンプルサイズと偏差二乗和が示されています。 偏差二乗和って何さ 「偏差二乗和」ってそもそも何? といっていると問題は解けません。分散や標準偏差の元になる値です。なんだかいかつい言葉なんですが、次のように3つに分

(4):「帰無仮説」の世界へようこそ

「帰無仮説」の世界への招待状2023年度の1学期の問題で出題されているのは、①カイ二乗分布の限界値を答える問題と、②検定統計量と限界値を比較して検定の解釈をする問題です。この科目でよくみられるのですが、①について2種類、②について2種類の選択肢が作られていて、それを組み合わせて4つの選択肢が作られています。言葉で書くとややこしいけど、実際に選択肢見てみれば明解でしょ? ①クロス表の自由度 一つ目は、カイ二乗分布における限界値を答える問題です。この教科書には、附録として分布

(3):「期待度数」には何も「期待」してはいけない。

「期待」度数とは「何も期待していない」度数のこと期待度数 統計用語の中には「期待」という言葉がときどき登場しますね。「ときどき」といっても、実際には「期待値」「期待度数」くらいなのですが、どっちもけっこう理解しにくい概念なのだろうと思います。 ここでは「期待度数」について書きます。 「期待度数」とは、「何も期待していない」度数です。 ん?どういうこと? 「期待」 国語辞典を見てみましょう。「期待」の語義としてこんなことが書いてあります。 ところが、「期待値」となるとま

(2):相対度数の問題って要するに文章読解問題?

わりとよく使うのは行比率だよねクロス表の相対度数に関する問題は、何しろ間違えやすい感じがします。なぜかというと、 ① どのセルの度数を、どっちの方向で(行方向か列方向か)相対度数にすればいいのか、さらに、 ② もう一つのどの値と比較すればいいのか、 ということを正確に読み取らないといけないからです。これ、きらいな人が多いんじゃないだろうか。苦手な人はとことん苦手、というか。 時間に多少の余裕があるなら、相対度数表を2つとも作ってから問題文を読み直すほうがいいかもしれない。でも

(1):単純集計は統計の第一歩でしょ。

分析の第一歩としての単純集計いろんな教科書に書いてあると思うのでしつこく繰り返さないけど、実際にデータを収集したら、変数ごとに単純集計して、度数分布表やヒストグラムを作るのはデータ分析の基本だね。 どうしてかというと、こういう作業の中で、外れ値が見つかったり、明らかに異常な値が見つかったり、記入漏れが見つかったりするので、そういうのをどう扱ったらいいかを考えることができるから。もしそういう値がなかったら、安心して次の分析に移れるからね。 ついでに書いておくと、外れ値は単純

(10):要するに参加者は何人か。それが「行数」だ。

HADを使いましょう「心理学統計法」の試験問題で、ある意味で、もっともこの科目らしい問題です。分散分析のF値(近似値)を、選択肢から選ぶ問題なのですが、数値を電卓で計算してそこにたどり着くのはけっこう大変です。できないわけではありません。電卓でもやろうと思えばできるんです。ただ、それなりに面倒だからやりたくないだけです。 だったらExcelでもいいんでしょ? という感じもしますが、だめです。いえ、「対応のない」場合はできるんですが、「対応のある」場合ができないんです。だから

(9):有意=少なくとも相関係数は0じゃないらしい。だから?

相関係数の有意性検定よくある間違いとして、入門書に書いてありそうなやつは、「相関係数が有意だから、強い相関がある!」ってやつですね。これは誤り。だって、有意になったと言うことは(ごく普通の、いわゆる「無相関検定」の場合)、「少なくとも相関係数が0だとは言えないよね」くらいの結論しか示していないわけで、「強い相関」なんて一言も言ってくれない。 あと、サンプルサイズが大きくなれば、$${r=0.15}$$みたいな小さい係数でも有意になりますからね。$${r=0.15}$$って、

(8):信頼区間を求める問題

計算式は暗記すれば簡単…信頼区間を求める式は、基本となる形を暗記すれば簡単ですね。一般的には、 標本統計量 ± 臨界値 × 標準誤差推定値 という形をとります。ん? 見たことない? それは、教科書に書かれている計算式を、かなり一般的な言葉に書き換えているからかもしれません。でも、こういう「骨組み」で覚えたほうが、応用が利くはずです。 ①標本統計量 信頼区間を求めたい統計量ですね。平均値についてなのか、比率についてなのか、あるいは分散についてなのか。統計学の教科書によく出て