見出し画像

統計学:データの収集

このセクションでは、調査や実験など、データを収集するための重要な方法と、データを解釈するときに直面する可能性のある問題を紹介する。

一般に、統計では、アイテム、人、または動物のコレクション全体またはグループに関心がある。このようなグループを母集団(population)という。

母集団をより理解するためには、大規模な調査をし、メンバーに関する情報を収集する必要がある。このような調査をするのは、実質不可能。

そのためにサンプルを抽出する必要がある。サンプルは、対象の母集団のサブセットであり、母集団の特定の数のメンバーを選択することによって取得される。

サンプルのみを調査して母集団全体について結論を出すプロセスは、推論(inference)と呼ばれる。

母集団全体を調査することは困難であるため、ほとんどの統計の基礎は推論。

代表的なサンプル

サンプルは母集団の情報の失わさせる。

サンプルが有益であるためには、そ理想的には母集団自体のミニチュアバージョンのようでなければなければならない。このようなサンプルを代表的なサンプル(representative sample)と呼ぶ。

では、サンプル戦略について見ていく。関心のある母集団について信頼できる結論を引き出すには、母集団からサンプルを収集する方法を慎重に選択することが重要。ここでは、最も一般的に使用される3つの方法の概要を説明する。

最も一般的に使用される方法は、ランダムサンプリング。母集団のメンバーがランダムに選択される。

もう1つの有用なサンプリング方法は、間隔サンプリングとも呼ばれる系統抽出(systematic sampling)。系統抽出では母集団のメンバーがなんらかの固定された方法で抽出される。例えば、母集団は順序付けられ、10番目のメンバーごとにサンプルに含めるように選択される。

母集団が多様であることがよくあり、共通の特性を持つメンバーのサブ母集団または層を通じて抽出することもある。この多様性を維持したい場合、層化サンプリングで抽出する。

集団からサンプリングする際、サンプルを再選択すると、さまざまなデータを収集することができる。このような変動をサンプリング変動という。

Pサンプルを使用して対象の母集団を推測する場合、通常は1つのサンプルしか選択できない。したがって、サンプリングのばらつきを最小限に抑えることが重要。

調査

調査は、直接、電話、電子メール、郵便、インターネットなど、さまざまな方法で実施できる。一般に、関心のある母集団のすべての人々を調査することはできないため、サンプルのみを調査する。

したがって、調査の信頼性を高めるには、調査を実施するサンプルが母集団を代表するものである必要がある。

では、調査の設計について学びましょう。

多くの調査では人間が質問に回答する必要があり、人間は忘れたり、影響を受けたり、嘘をついたりする可能性があるため、偏見や不正確さが生じる傾向がある。そのため。バイアスのリスクを最小限に抑える調査を設計する必要がある。

考慮すべきこと
・ターゲット母集団
・調査をどのように提供するか(たとえば、オンライン、電話、または直接)。
・私たちが尋ねるべき質問、そして最良の言い回しと回答の仕方は何か

質問は次のようにする必要がある。
・明快さ、曖昧さなし。
・公平でニュートラルなスタイル。
・適切な数の質問。

実験と臨床実験

データを収集するための一般に使用されるもう一つの方法は、実験または臨床試験によるもの。この方法は、新薬や医療介入が病気の治療にプラスの効果をもたらすかどうかを調べたい場合など、2つの変数の間に因果関係があるかどうかを判断する場合に役立つ。

まず、調査したい集団が答えたい質問から始める。
場合によっては、質問に答えるには、何らかの治療、介入、または状態と、関心のある母集団のいくつかの特性との間に因果関係があるかどうかを判断する必要がある。

たとえば、新しい肥料を使用することで一部の作物の収穫量が増えるかどうかに関心があるとする。
通常、母集団のすべてのメンバーに対して実験を実行することはできないため、サンプルを選択する必要がある。
これらのサンプリングされたメンバーを母集団実験ユニット(the population experimental units)と呼ぶ。

また、私たちが関心を持っている実際の効果を評価するために、治療、介入、または状態の影響を受けない実験ユニットの2番目のサンプルを実験に含める。これを制御群(control group)と呼び、実験の分析では、対照群のデータを治療群(treatment group)と呼ばれる他の群のデータと比較して、違いがあるかどうかを確認しする。

バイアスの可能性を減らすために、治療群と制御群の両方の実験単位が同等であることが重要。
実際には、選択されたユニットまたはそれらの外部条件は完全に同一ではないため、異なるユニットが、私たちが研究したい治療、介入、または条件に対して異なる反応を示す可能性がある。これは自然変動(natural variability)と呼ばれ、実験を数回繰り返すことで測定できます。

観察研究

場合によっては、実験を使用してデータを収集することが倫理的でないという理由から、不可能な場合がある。そのような場合に、行うのが観察研究である。


この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?