一般的に使用される 16 のデータ分析手法のまとめ

1. 記述統計

記述統計とは、データの中心傾向、離散傾向、歪度、尖度を説明するための表作成と分類、グラフィックスと要約データの使用を指します。

  • 欠損値の充填: 一般的な方法: 消去法、平均法、最小近傍法、比回帰法、決定木法。

  • 正規性テスト: 多くの統計手法では、値が正規分布に従うか、ほぼ従う必要があるため、事前に正規性テストを実行する必要があります。一般的に使用される方法: ノンパラメトリック テストの K 量テスト、PP チャート、QQ チャート、W テスト、動的差分法。

2. 仮説検証

1.パラメータテスト

パラメトリック検定は、母集団の分布が既知である (一般に母集団は正規分布に従う必要がある) という条件下で、いくつかの主要パラメーター (平均、パーセンテージ、分散、相関係数など) を検定することです

1) U 検定の使用条件:サンプル含有量 n が大きい場合、サンプル値は正規分布に従う

2) T 検定を使用する条件: サンプルサイズ n が小さい場合、サンプル値は正規分布に従う

  • 1 サンプル t 検定: サンプルの母集団平均 μ と既知の母平均 μ0 (多くの場合、理論値または標準値) との間に差異があるかどうかを推測します。

  • B 対応のあるサンプルの t 検定: 母平均が不明で 2 つのサンプルを対応付けることができる場合、同じペア内の 2 つのサンプルは、治療効果に影響を与える可能性があるさまざまな条件下で非常に類似しています。

  • C 2 つの独立したサンプルの t 検定: 一対の比較において、すべての点で非常に類似している 2 つのサンプルを見つけることができない場合に使用されます。

2. ノンパラメトリック検定

ノンパラメトリック検定では、全体の分布が既知であるかどうかは考慮されず、多くの場合、全体のパラメーターは検定されませんが、母集団全体に関する特定の一般的な仮定 (全体の分布の位置が同じであるかどうか、全体の分布が既知であるかどうかなど) が検定されます。は普通)

該当する状況: シーケンシャル型データ。このタイプのデータの分布形状は一般に不明です。

  • A 連続データではありますが、全体の分布形状が不明または非正規です。

  • B 全体的な分布は正規分布であり、データは連続的ですが、サンプル サイズは 10 未満など非常に小さいです。

主な方法には、カイ二乗検定、順位和検定、二項検定、実行検定、K 量検定などが含まれます。

3. 信頼性解析

アンケートの信頼性など、測定の信頼性を確認します。

分類:

  • 外部信頼性: 異なる時間に測定したときのスケールの一貫性の程度、一般的に使用される方法を使用したテストと再テストの信頼性

  • 内部信頼性: 各尺度が単一の概念を測定するかどうか、および 2 つの尺度を構成する内部項目がどの程度一貫しているか、一般的に使用される方法は信頼性の半分です。

4. 分割表分析

離散変数またはステレオタイプ変数間に相関関係があるかどうかを分析するために使用されます。

2 次元の表の場合はカイ二乗検定を実行でき、3 次元の表の場合はメンテル・ハンゼル層別分析を実行できます。

分割表分析には、ペアのカウント データに対するカイ 2 乗検定と、行と列の両方が順序変数である相関検定も含まれます。

5. 関連分析

現象間に何らかの依存関係があるかどうかを調査し、特定の依存現象に対する関連する方向と依存度を調査します。

  • 単一相関: 2 つの因子間の相関は単一相関と呼ばれます。つまり、1 つの独立変数と 1 つの従属変数のみが研究に関与します。

  • 複素相関: 3 つ以上の因子間の相関は複素相関と呼ばれます。つまり、研究には 2 つ以上の独立変数と従属変数の間の相関が含まれます。

  • 偏相関:ある現象が複数の現象に関連しているとき、他の変数が変化しないと仮定したとき、2つの変数間の相関関係を偏相関といいます。

6. 分散分析

使用条件: 各サンプルは独立したランダム サンプルである必要があり、各サンプルは正規分布母集団からのものである必要があり、各母集団の分散は等しい必要があります。

分類

  • 一元配置分散分析: 実験に影響を与える因子が 1 つだけある場合、または複数の影響因子がある場合、1 つの因子と応答変数の間の関係のみが分析されます。

  • 多因子対話型分散分析: 実験には複数の影響因子があり、複数の影響因子と応答変数の間の関係を分析し、複数の影響因子の間の関係を同時に検討します。

  • 多因子非対話型分散分析: 複数の影響因子と応答変数の間の関係を分析しますが、影響因子間に影響関係がないか、影響関係が無視されます。

  • 共分散分析: 従来の分散分析には明らかな欠点があり、分析における特定のランダムな要素を制御できないため、分析結果の精度に影響を与えます。共分散分析は、主に共変量の影響を除いた修正主効果に対して分散分析を行うもので、線形回帰と分散分析を組み合わせた分析手法です。

7. 回帰分析

分類:

1. 単変量線形回帰分析: 従属変数 Y に関連する独立変数 X は 1 つだけです。X と Y は両方とも連続変数でなければならず、従属変数 y またはその残差は正規分布に従う必要があります。

2. 重回帰分析

使用条件: 複数の独立変数と従属変数 Y の間の関係を分析します。X と Y は両方とも連続変数でなければならず、従属変数 y またはその残差は正規分布に従う必要があります。

  1. 変動スクリーニング法:最適な回帰式を選択するための変動スクリーニング法には、全水平法(CP法)、段階的回帰法、前方導入法、後方消去法などがあります。

  2. 水平診断方法:

  • 残差検定: 観測値と推定値の差は正規分布に従う必要があります。

  • B 強影響点の判定:探索方法は大きく標準誤差法とマハラノビス距離法に分けられます。

  • C 共線性診断:

  1. ) 診断方法: 許容差、分散拡張係数法 (拡張係数 VIF とも呼ばれます)、特性根決定法、条件ポインター CI、分散比

  2. ) 処理方法: サンプル サイズを増やすか、主成分回帰、リッジ回帰などの別の回帰を選択します。

3. ロジスティック回帰分析

線形回帰モデルでは、従属変数が連続正規分布変数である必要があり、独立変数と従属変数は線形関係にありますが、ロジスティック回帰モデルには従属変数の分布に関する要件はなく、従属変数が次の場合に使用されます。変数は離散的です。

分類: ロジスティック回帰モデルは条件付きと無条件に分けられます。条件付きロジスティック回帰モデルと無条件ロジスティック回帰モデルの違いは、パラメータ推定に条件付き確率を使用するかどうかにあります。

4. その他の回帰手法: 非線形回帰、順序回帰、プロビット回帰、加重回帰など。

8. クラスター分析

サンプル個人または指標変数は、その特性に従って分類され、物事の類似性を測定するための合理的な統計が見つかります。

1. 性質の分類:

  • Q タイプ クラスター分析: サンプルを分類します。サンプル クラスタリングとも呼ばれます。距離係数は、ユークリッド距離、極端な距離、絶対距離などの類似性を測定するための統計として使用されます。

  • R タイプ クラスター分析: 指標を分類し、指標クラスター分析とも呼ばれます。類似性係数を統計として使用して、類似性、相関係数、分割係数などを測定します。

2. メソッドの分類:

  • システム クラスタリング手法: サンプル クラスタリングまたは小規模サンプルの指標クラスタリングに適しています。システム クラスタリング手法は、一般に指標をクラスタリングするために使用され、階層クラスタリングとも呼ばれます。

  • 段階的クラスタリング手法: 大規模なサンプルのサンプル クラスタリングに適しています

  • その他のクラスタリング手法: 2 段階クラスタリング、K 平均法クラスタリングなど。

9. 判別分析

1. 判別分析: 誤った判断の数を最小限に抑えるために習得された、明確に分類されたサンプルのバッチに基づいて判別関数を確立し、特定の新しいサンプルについて、それがどの母集団に由来するかを決定します。

2. クラスター分析との違い

  • 1) クラスター分析ではサンプルと指標を分類できますが、判別分析ではサンプルのみを分類できます。

  • 2) クラスター分析では、物事のカテゴリーが事前に分からず、また、それがいくつのカテゴリーに分割されるかも分かりませんが、判別分析では、物事のカテゴリーが事前に知られている必要があり、また、それがいくつのカテゴリーに分割されるかも分かりません。

  • 3) クラスター分析では、履歴データの分類は必要ありませんが、サンプルを直接分類します。判別分析では、判別関数を確立するために履歴データの分類が必要で、その後サンプルを分類できます。

3. 分類:

1) フィッシャー判別分析法:

  • 分類は距離を基準として行われます。つまり、サンプルは、サンプルからの距離が最も近いカテゴリに分類されます。これは、2 つのカテゴリの識別に適しています。

  • 分類は確率を基準として行われます。つまり、サンプルは最も高い確率でカテゴリに分類され、複数カテゴリの識別に適しています。

2) BAYES判別分析法:

BAYES 判別分析手法は、FISHER 判別分析手法よりも完全かつ高度であり、複数カテゴリの判別分析を解決できるだけでなく、分析時にデータの分布状況も考慮できるため、一般的によく使用されます。

10. 主成分分析

相互に関連する指標変数のセットを独立した指標変数の新しいセットに変換し、少数の新しい指標変数を使用して、元の複数の指標変数に含まれる主な情報を包括的に反映します。

11. 因子分析

多変量データに潜む、直接には観測できないが計測変数に影響を及ぼしたり支配したりする潜在的な要因を発見し、その潜在要因が計測変数に及ぼす影響の程度や潜在要因間の相関関係を推定することを目的とした多変量手法。メソッド

主成分分析と比較します。

  1. 同じ: どちらも、複数の元の変数の内部構造関係を調整する役割を果たすことができます。

  2. 違い: 主成分分析は元の適応情報を合成することに重点を置き、因子分析は元の変数間の関係を説明することに重点を置き、主成分分析よりも詳細な多変量統計手法です。

使用:

  • 1) 分析変数の数を減らす

  • 2) 変数間の相関関係を検出して元の変数を分類する

12. 時系列分析

動的データ処理の統計的手法では、実際的な問題を解決するために統計法則に続いてランダム データ シーケンスを研究します。時系列は通常、傾向、季節変化、周期的変動、不規則な変動の 4 つの要素で構成されます。

主な手法: 移動平均フィルタリングおよび指数平滑法、ARIMA 水平パターン、定量的 ARIMA 水平パターン、ARIMAX モデル、方向性自己回帰水平パターン、ARCH ファミリー モデル

13. 生存分析

生存時間の分布パターン、および生存時間と関連要因の関係を研究するために使用される統計分析方法。

1. 含まれる内容:

  • 生存プロセスを説明する、つまり生存時間の分布法則を研究する

  • 生存過程の比較、つまり、2つ以上のグループの生存時間の分布パターンを研究し、それらを比較する

  • 危険因子を分析する、つまり生存プロセスに対する危険因子の影響を研究する

  • 数学的モデルを確立します。つまり、数式を使用して生存時間と関連する危険因子の間の依存性を表します。

2.方法:

  1. 統計的説明: 生存時間の分位数、生存期間の中央値、平均、生存関数の推定、および生存時間を判断するためのグラフによる方法が含まれます。分析されたデータについて統計的な推論は行われません。

  2. ノンパラメトリック検定: グループ化変数の各レベルに対応する生存曲線が一貫しているかどうかを検定し、生存時間の分布に関する要件はなく、生存時間に対する危険因子の影響を検定します。

  • A 乗法極限法(PL法)

  • B 生命表法(LT法)

3. セミパラメトリック水平回帰分析:特定の仮定のもと、複数の危険因子によって生存時間が変化する回帰式を立てる方法であり、その代表的な手法がコックス比例ハザード回帰分析法である。

4. パラメトリック モデル回帰分析: 生存時間が特定のパラメーターの水平形状に従うことがわかっている場合、対応するパラメーター モデルを当てはめて、より正確に分析し、変数間の変化規則を決定します。

14. 典型的な相関分析

相関分析は一般に2つの変数間の関係を分析するのに対し、正準相関分析は2つの変数グループ(3つの学力指標と5つの学力指標など)間の相関を分析する統計分析手法です。

正準相関分析の基本的な考え方は主成分分析の考え方に似ており、ある変数セットと別の変数セット間の単変量多重線形相関の研究を、いくつかの包括的な変数ペア間の単純な線形相関に変換します。 、これらの少数の変数ペアに含まれる線形相関情報は、元の変数グループに含まれるすべての対応する情報をほぼカバーします。

15. R0C分析

ROC 曲線は、一連の異なる 2 値分類法 (カットオフ値または判定しきい値) に基づいており、真陽性率 (感度) を縦軸、偽陽性率 (1 特異度) を横軸として描画されます。

使用:

  • ROC 曲線は、任意の限界値で疾患識別能力を簡単に検出できます。

  • 最適な診断カットオフ値を選択します。 R0C 曲線が左上隅に近づくほど、テストの精度は高くなります。

  • 疾患を特定するための 2 つ以上の異なる診断検査の能力を比較するには、診断システムの精度を反映するために ROC 曲線の下の面積が一般に使用されます。

16. その他の分析方法

多重応答分析、距離分析、項目分析、対応分析、決定木分析、ニューラルネットワーク、システム方程式、モンテカルロシミュレーションなど

この記事が気に入ったらサポートをしてみませんか?