見出し画像

DATA Saber 基礎練メニュー(随時更新)2023/08/20更新

DATA Saber認定後の精進中につき、基礎練メニューを考えてみる。
 ※自分が間違えそうなところや忘れそうな機能。

基礎練習・・・Tableau操作の維持
新譜の譜読み・・・初めてのデータを扱うときにおさえるポイント


Tableau操作ポイント

ord1:Tableauデータソース(tds)、マーク、分割、ソート、メジャーネーム/メジャーバリュー、複数メジャーでの軸の共有、リファレンスライン、インスタント分析、連続と不連続、簡易表計算、傾向線、アクション、小計、散布図、クラスター、ハイライター、日付の計算式(DATEDIFF)、地図の使用、カスタムテリトリー、ビジュアルグループ
ord3,5:クロスデータベース結合、データブレンド、セット、コンテキストフィルター、計算式、目標値との比較、表計算、パラメーター、分布の確認、ダッシュボードとストーリー、統計と予想、ジオコーディング、データ抽出
ord8,9:詳細レベル(LOD)表現、顧客行動の分析、ダッシュボードの高度なテクニック、高度な表計算、時系列データの分析、高度なグラフタイプ、地理的分析


おすすめページ


Tableau用語集(2023/04/29)
Tabjo(Japan Tableau Ladies User group)作成、非公式用語集

2023/04/29追加


考え方参考


自分のデータに取り組むにあたり(2023/05/03)
※Data Storytellingの基礎〜Tableauで初めて自分のデータと向き合うために より

Master KT動画(https://www.youtube.com/watch?v=QtBVH6EWnyI)のメモ
 
2023年5月に「Rising 未来のデータサイエンスコンテスト」をやってみて、新しいデータを扱う時の基本所作を忘れていました。
 メモの内容に加えて、ディメンションの階層を整理したり、別名つけたりして、分かりやすくしておくと良い。


ビジュアルの重要性(2023/05/03)
※DATA Saber Boot Camp Week2 "Visual Best Practice: Art and Science of Visual Analytics"より

2023/05/03追加
Master KT動画(https://www.youtube.com/watch?v=_flMp3iD8z4)のメモ2つ


プラットフォームの重要性(2023/05/03)
※DATA Saber Boot Camp Week1 "Platform 101: Data Platform〜すべての人が安心してデータを使える土台を作る"より
※DATA Saber Boot Camp Week3 "Platform 102: Data Platform - History~データは見られるほど美しくなる"より
※DATA Saber Boot Camp Week3 "Platform 102: Data Platform - Future~すべての人が安心して生きられる大地を目指して"より

2023/05/03追加
Master KT動画(https://www.youtube.com/watch?v=8cDik60z-kw, https://www.youtube.com/watch?v=4Yx8GwUi_ik, https://www.youtube.com/watch?v=S-Titt1xLGw)のメモ2つ


パフォーマンスの重要性(2023/05/03)
※DATA Saber Boot Camp Week5 "Designing Dashboard for Performance"より

2023/05/03追加
Master KT動画(https://www.youtube.com/watch?v=AgNn-EnEJvo)のメモ


Tableau操作


書式設定

  • 書式設定を「自動」にしていると、その後、既定のプロパティを変更されると引きずられる。
    「自動」ではなく、手動指定しておけば、引きずられない。

  • ワークシート>右クリック の「書式設定のコピー」はすべてを反映してくれる訳ではない。

  • 参考ページ:Chiakiさん(@ishiaki_tab)のページ https://chiakiroku.com/tableau-formatting/


パラメーター

  • イメージ
    プログラムでいうところの変数
    この変数の値で条件分岐させるなどができる

  • 作り方
    メジャー(ディメンション)を右クリックして、作成 → パラメーター
    データ型や取りうる値を設定する。選択肢を限定するなら「リスト」とか

  • ワークシート上の配置
    上部メニュー 分析 → パラメーター → 作成したパラメーター

  • パラメーターを計算式に反映
    計算フィールドを作成して、IFなどで、作成したパラメータの値によって、取りうるメジャーを選ぶなどする。例えば以下。
     IF [パラメーター:売上と利益] = 1 THEN [売上]
     ELSE [利益]
     END

  • 作成した計算フィールドをグラフに反映すると、パラメーターによってグラフが変わる。


ビン

  • イメージ
    ヒストグラムの区分け単位、バケツ

  • 作り方
    区分けしたいメジャーで 作成 → ビン → 区分けしたい単位を入力

  • 作ったビンを列、ヒストグラムで数えたいディメンション(カウントで集計)を行にする

  • スタートが「0」なので、例えばサイズが10の時は、0~9、10~19というように、10個ずつ区切りになる。
     ※0~10とかに思いがちなので注意!!


連続と不連続

  • 例えば、売上合計のランクで、トップ3のフィルターを設定したとする

  • ランクを不連続にしてフィルター表示するとそれぞれの順位を一つずつ選ばないといけない。1,2,3に見えていても不連続だからそれぞれが独立したものとして識別される。
    □1
    □2
    □3

  • ランクを連続にしてフィルター表示すると上位3位までだったら、1~3というように3を選べば1,2,3が選択される。連続だから1~3には2が含まれることになる。

  • 日付は不連続と連続をそれぞれ選べるので、目的に応じて選ぶ。


属性

  • ディメンションでもメジャーでもないもの

  • 集計単位にならないもの

  • 使用例
    予測の際、予測インジケーターと実績値グラフをつなげたい時、予測インジケーターを「属性」に変える。値は一意に決まるので「*」にならず実績値と同列でグラフ表示される?

  • 使用例
    表計算で、計算には反映したくないけれど、表示だけしたい際に、「属性」にする。


○○率の扱い

  • ○○率の場合、集計が「合計」だと意味がないので、「平均」とかにする。

  • ただし、レコード単位の○○率の平均というのは要注意。母数が違う場合、○○率の平均と、集計データから算出される○○率は、異なる結果になる。
    ※下表でいうと、定価と売価を集計してから割引率を計算すると43.2%だが、単純に割引率を平均すると35.0%。表でみると当たり前だが、Tableau上だと気づきにくい。

  • Tableauでは、「既定のプロパティ」で項目(メジャー)毎にデフォルトの集計方法を決められるので、先に設定しておくと後々間違いが少ない。ついでに、数値形式も「パーセンテージ」にしておく。 ・メジャーは、単位や規模感を確かめておくのが吉。

  • ディメンションは、項目数(左下のマーク数など)を確かめておくのが吉。

  • 全体の○○率の計算方法

    • [AA]/[BB]だとうまく計算されない(SUM{[AA]/[BB]}になってしまう)。SUM[AA]/SUM[BB]にしよう。

    • オーダー日のすべての曜日で利益率が15%を切っている年はありましたか?


クエリーパイプライン(Order of Operations)

数々のフィルターの適用順序

  1. 抽出フィルター
    ・設定方法:データペイン>右クリック>データの抽出
    ・参考:https://domcomnote.com/tableau/extraction/

  2. データソースフィルター
    ・設定方法:「データソース」画面の右上、フィルター「追加/編集」から設定。
     ※「ワークシート」画面で、データペイン>右クリック>データソースフィルターの設定 でも設定可。
    ・行レベルの集計フィールドをフィルターに使用可能。
     例.単価 = [売上] / [数量]、という集計フィールドを作ると、データソースフィルターの選択肢に[単価]が使える。
    ・参考:https://note.com/ritz_tableau/n/n92aef6d1f86b

  3. コンテキストフィルター
    ・設定方法:ディメンションフィルターから「コンテキストに追加」

  4. FIXED

  5. セットフィルター

  6. ディメンションフィルター

  7. EXCLUDE/INCLUDE

  8. メジャーフィルター

  9. 表計算フィルター


フィルター使用例

  • ディメンションフィルター(青) → メジャーフィルター(緑)
    例.2016年の家具の中で売上20万円以上の顧客名。
      ↓
      日付とカテゴリ(青)、売上20万円以上(緑)

  • ディメンションフィルター(青)を複数設定する際、優先的にフィルターするものを「コンテキストフィルター」に指定する
    例.2016年の家具の中で売上20万円以上の顧客名。
      ↓
      日付とカテゴリをコンテキストフィルターにして、顧客名を通常フィルター(条件で売上20万円以上)
     ※日付、カテゴリ、顧客名(売上20万円以上)を同列のフィルターにすると、全体で売上20万円以上の顧客名を出してから、2016年の家具だけの売上が表示されてしまう。


LOD計算(LOD表現)

  • ビューとは別に、どのレベルで集計するのかを関数で明示的に指定できる。

  • FIXED、INCLUDE、EXCLUDEの3種類

  • 書式 { FIXED ディメンション : 関数( メジャー ) } 多分

  • FIXED 絶対指定のイメージ、予め基準値とかが決まっている場合に使うのが良い?

  • INCLUDE 相対指定(プラス側)のイメージ、分析していてちょっと要素を足したい時に使う?

  • EXCLUDE 相対指定(マイナス側)のイメージ、分析していてちょっと要素を減らしたい時に使う?

  • 参考.hikaruさんのnote
    https://note.com/hika_lulu/n/ncbdbab34357a


静的フィルターと動的フィルター




日付、時刻データ(2023/08/20更新)

  • 日付データは前年比や曜日などいろいろ使えるので、日付型にしておく。

  • 「20230507」のような日付データは、「dateparse(“yyyyMMdd”,フィールド)」という計算で日付型に変換できる。※ydは小文字、Mは大文字

  • 時刻「hh:mm:ss」はエクセルのように「[hh]:mm」というふうには扱えない。
    「hh:mm:ss」をカスタム分割「:」で時・分・秒のパーツに分けて整数化、計算フィールドで足し算する(分で揃えるなら、時×60+分+秒÷60)。

  • 年度表示(4月始まり)
    「既定のプロパティ」-「会計年度の開始」で年度の区切り月を設定できるが、表示上、日本の年度感覚+1になってしまうので注意。
    ※以下、解消案(tableau public)



カスタム分割(エクセルでいうところの区切り文字)

  • 計算フィールドでいうとSPLITとTRIM。


メジャーネームとメジャーバリュー

  • 使いこなすと便利なはず。


地理的役割

  • とっても有効、だと思う。つないこなせるようにする。

  • ディメンションが階層構造になっている場合(地域と都道府県とか)、都道府県で地理的役割を設定すると、地域の地理的役割に「次から作成」が出てきて、都道府県をベースにした表現が使える。




この記事が気に入ったらサポートをしてみませんか?