マガジンのカバー画像

SQL分析データ準備と基礎統計

21
Teradata Databaseを利用した、大量データを前提として分析をする際のデータ準備と基礎統計取得の方法、サンプルSQLなどをまとめました
運営しているクリエイター

記事一覧

SQL分析データ準備と基礎統計#21:計算済みの値で箱ひげ図を可視化

箱ひげ図(Box Plot)は量的変数の統計量を確認する際によく利用されますが、多くの可視化ライブ…

yssymmt
8か月前

SQL分析データ準備と基礎統計#20:可視化

ここまでで紹介してきた大量データに対する基礎統計結果の把握に用いる可視化手法について以下…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#19:サンプリング

作成されたデータセットを学習用と評価(ブラインドテスト)用に分けるなど、ランダムに複数の行…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#18:相関係数

相関係数自体の計算は以下です。上が単純な2変数の相関をとる場合で、下は群ごとに分割して相…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#17:統計量

量的変数におけるデータの中身を把握する方法として、分布をみるほかに、統計量を把握する方法…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#16:量的変数のカット、ヒストグラム

質的変数の場合は単純に件数カウントすれば分布を導き出せますが、量的変数の場合は範囲集約し…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#15:質的変数の集計

統計的な定義はともかく、分析の際に意識する変数の種別としては量的な違いを示す量的変数と、単に違いを示す質的変数があります。ただ境目は不明瞭です。わかりやすい量的変数としては、売上金額のような、値が連続していてそのまま件数カウントしても意味がないくらいばらけているものです。そのため外形的には数値型のデータとなります。これに対して質的変数は外形的には文字型で、分かりやすい例としては性別などがあげられます。一方で年齢はそこそこ連続していますが、年齢別のカウントをしても、分布を理解す

SQL分析データ準備と基礎統計#14:グラフデータと関連性、のつづき

グラフデータに極めて近しい形式の出力データとして、関連性分析のデータがあります。典型例と…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#13:グラフデータと関連性

ソーシャルネットワークにおける誰と誰が友人(フォローしあう)関係かといったデータを扱う分析…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#12:終点基準の相対期間

時系列集計データを経常的に集計し、モニタリングしていく際に、終点を例えば前月末にして、そ…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#11:時系列データの変数化

幾つか時系列データを変数化する際によく使われる例を以下に記します。 標準化、Zスコア 平…

yssymmt
2年前
1

SQL分析データ準備と基礎統計#10:取引履歴の集計

売上などの発生レコードを時系列で順に保持していくデータに対して、一定期間で集計をかける場…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#09:相対日付時刻

例えば顧客におけるなにがしかの行動ログを分析するとして、利用開始タイミングは顧客によって…

yssymmt
2年前
2

SQL分析データ準備と基礎統計#08:生年月日から年齢を計算する

生年月日に限らず、契約日から特定日付までの日数を計算するときに利用するのが以下です。仮に現在日付からの日数を取得するとして、両方が日付データであれば、数値(小数)に変換し、10000で割り、小数点以下を落として整数にします。以下は書き方の例ですが、分かりやすいよう複数行にしています。 floor(cast((cast((current_date) as integer format '99999999') - cast((生年月日) as integer format '9