見出し画像

Tableau PrepBuilder 学習

分析用のデータは、信頼できるデータでなければ!と思っています。
Tableauで分析する前、データの状態は確認してますか?
「傾向の分析だから誤差とすればよいよ、、」と言われても、、
私の場合、それって誤差レベルか一応確認してます。。

そんな時に使用してるのが、「Tableau PrepBuilder」です💛
本来の使い方なのか!と言われると困りますが、好きで使っています!


Tableau Prep はどのようなツール?

データプレパレーションツールで分析等に使うデータの前処理を行うもの。Tableau等で分析する前にデータを整形して分析しやすくします。
uniqueフィールドなのに重複してるとか、文字の揺れ("Yes","yes等)や、あるフィールドをGroupにした時の最新日付の顧客名称を使用するとか、、
Tableauでパフォーマンスが良くない場合は、前処理で整形も考慮に。

◆いいなと思うところ
 マウス処理だけで直感的に行えるところが最高にいい!
 - データをビジュアライズしながら作業を進めていける
     (図例)オーダーIDは複数行ある、オーダー日と出荷日(あれっ?変だ)
 - 処理をフローとしてSaveし共有できる

ETLツールなのか?

ETLとは、複数散らばっているデータを統合処理してDWHなどにデータを保管するツールで、プロセスは下記。
 ①データ抽出 (Extract)、②変換・加工 (Transform)、③連携・保管 (Load)
プロセス簡素化の大きなメリットがありますが、プログラミングが必要。

PrepBuilderは、②をメインとしたTableau 製品スイートのツールになりますので少し位置づけが異なります。

個人メモと使用例

私は個人的にPrepBuilderがとても気に入っていて、スプレッドシートの集計替わりにも使っています。
複数散らばっている大きなデータで固まりそうなものは、UnionしたりJoinししたりであっという間に集計できます。
その工程でおかしなデータを目で確認できるしファイルにも書き出せるから、ホント助かっています。

Excelやスプレッドシートは英大小文字(例:A001SyE32m)は区別しないので、これをKeyにvlookupや重複削除していたら気をつけてくださいね。
(index,match, exact でできるけど、大変、、)

重複チェック

下記は、1製品IDは1製品名?1製品IDに複数の製品名がついてる?の確認

簡単な重複チェックは集計をフローに追加して行います。
下記へは、左側の(画面切れ、、)フィールドをドロップするだけ。
①グループ化したフィールド:
 ここに置いたフィールドをグループ化。複数OK。
 更にフィルターやクリーニングした値を指定できる。
②集計フィールド:
 ①のグループ化をここに置いたフィールドで集計。複数OK。
 集計方法指定。フィルターで値の範囲や計算も指定できる。

ーーーーーーー
下記の結果、29の製品IDが異なる2つの製品名を持っているようです!

フィールド:出荷までの日数を追加

出荷までの日数(出荷日ーオーダー日)のフィールドを追加します。

計算フィールドの作成をするとフィールドが追加されます。
出荷までの日数のマイナス値を選択し右クリック「保持」し、直接出荷日フィールドの年の値を「値の編集」で変更することもできます。

マイナスの値が数件あり、出荷日の年が1年ズレているようです。
出荷までの日数でマイナス値を全て選択し右クリック「保持」し、出荷日とオーダー日と見比べ変更すべき値か確認します。
出荷日フィールド値の変更は、直接値を右クリックし、「値の編集」で変更できます。
変更内容は残るので、その変更を削除すれば元に戻ります。

今のつぶやき

2回目の投稿となります。
Tableau Prepは好きなんだけど使い込んではおらず、今回初めて細かいところも見て、「こんなこともできるんかーい」と感じました。

そして、サンプルースーパーストアのデータが、Prep使って変更できるようなデータを混ぜているところがイイね! と思いました。

疲れたので、、ほっこり会話
ーーー
13時頃のごはん処にて・・・
品のいい老夫婦:お嬢ちゃん、今昼食なの?
お嬢:(お嬢のお供に)うーん、あの人たち、なにを聞いきてるの?
お嬢お供:今、おひるごはんなの?って聞いてるんだよ。
お嬢:(デン!)おじさん、おひるごはんはね、
   ちゅうしょく じゃなくて きゅうしょく って言うんだよ。
品のいい老夫婦 他:アハハ!かわいいね~
お嬢お供:(ひぇ~)


この記事が気に入ったらサポートをしてみませんか?