マガジンのカバー画像

SQL分析データ準備と基礎統計

21
Teradata Databaseを利用した、大量データを前提として分析をする際のデータ準備と基礎統計取得の方法、サンプルSQLなどをまとめました
運営しているクリエイター

2022年5月の記事一覧

SQL分析データ準備と基礎統計#20:可視化

ここまでで紹介してきた大量データに対する基礎統計結果の把握に用いる可視化手法について以下…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#19:サンプリング

作成されたデータセットを学習用と評価(ブラインドテスト)用に分けるなど、ランダムに複数の行…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#18:相関係数

相関係数自体の計算は以下です。上が単純な2変数の相関をとる場合で、下は群ごとに分割して相…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#17:統計量

量的変数におけるデータの中身を把握する方法として、分布をみるほかに、統計量を把握する方法…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#16:量的変数のカット、ヒストグラム

質的変数の場合は単純に件数カウントすれば分布を導き出せますが、量的変数の場合は範囲集約し…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#15:質的変数の集計

統計的な定義はともかく、分析の際に意識する変数の種別としては量的な違いを示す量的変数と、…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#14:グラフデータと関連性、のつづき

グラフデータに極めて近しい形式の出力データとして、関連性分析のデータがあります。典型例として挙げられるバスケット(買い物かご)分析や、オンラインショッピングにおいて推奨商品を決定する協調フィルタリングと呼ばれたりする分析のベースとなっているものです。単純化すれば「ある商品とある商品の関連性が高い」ことを見つけ出すことが目的で、これを整理するためにはグラフ分析同様、組み合わせのデータでデータを整理していくことになります。 縦の明細データを組み合わせに ナチュラルボーンなグラ

SQL分析データ準備と基礎統計#13:グラフデータと関連性

ソーシャルネットワークにおける誰と誰が友人(フォローしあう)関係かといったデータを扱う分析…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#12:終点基準の相対期間

時系列集計データを経常的に集計し、モニタリングしていく際に、終点を例えば前月末にして、そ…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#11:時系列データの変数化

幾つか時系列データを変数化する際によく使われる例を以下に記します。 標準化、Zスコア 平…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#10:取引履歴の集計

売上などの発生レコードを時系列で順に保持していくデータに対して、一定期間で集計をかける場…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#09:相対日付時刻

例えば顧客におけるなにがしかの行動ログを分析するとして、利用開始タイミングは顧客によって…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#08:生年月日から年齢を計算する

生年月日に限らず、契約日から特定日付までの日数を計算するときに利用するのが以下です。仮に…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#07:日付に期間を足しこむ

日付データ、例えば契約日に期間、例えば60カ月を足しこむ際、60カ月が固定であれば以下のように書きます: cast((契約日 + interval '60' month) as date) as 契約終了日, そして、60という値が例えば可変で、文字型で別の列にセットされている場合は、以下のようになります。これはまず契約月数を月のインターバル(期間)型に変換して、それを足しこむということをしています。最後に日付型にキャストしているのは日付時刻型になっているのを日付に直し