Ordで学んだポイント
はじめに
こんばんは!DATASaber認定をめざして奮闘中のEmiです。
試練期間も残すところわずかとなってきました・・
今回は各Ordで学習してきたポイントを、自分で振り返ったときに実践できているかのチェックのためにまとめておこうと思います。
※Ordの各設問の答えを網羅しているわけではありません
Visual Analyticsのサイクル
Tableauに向いていること・向いていないこと
<向いていること>
・ビジュアル化する
・インタラクティブ(双方向/対話式:何かを変更したら返答がある)
・繰り返し/定期的に使用する
・迅速さを求められるもの
・シンプルさ
・ユビキタス(いろんな媒体で見ても大丈夫)
<向いていないこと>
・紙資料
・データをエクスポートするために作られた資料
・複雑なクロス集計
・Excelレポートを完全置換しようとする
ダッシュボードのデザイン
※誰が見ても素早く正確に同じように情報を与えることがダッシュボードの本来の目的。
※Storytelling/Design/Analysisが欠けることなく融合している状態を目指す
※パフォーマンスが良いダッシュボード
=人が見たときに分かりやすいデザインに通じる
作成した目的、伝えたい内容が明確になっているか
┣探索型(閲覧者が分析できるように作成したもの):
中立であるため特定の項目を強調しない
┗説明型(作成者が主張したいことを説明するために作成したもの):
意見が明確で、主張したいポイントを強調する
閲覧する相手、場面、環境に合わせた設計になっているか
書式の設定範囲はテーマ > ワークブック > ワークシートの順番
使われていないフィールドがマークカードの「詳細」に入っていないか
作ったけど使わなかった計算フィールドが残っていないか
1つのシートで作成できるものが複数シートに分かれていないか
色を多用しすぎない(7色くらいまで)
テキストテーブルをチャートにできないか
地図表現で使っていないのに地理的役割をつけていないか
閲覧者にとって不要なもの(無意味な軸ラベルなど)は削除できないか検討する
ダッシュボードのサイズを「固定」しているか
重要なVizは左上に配置する(多くの人は左上→右上→左下→右下と見る)
ダッシュボードに配置するVizの数は必要がない限り3~4枚におさめる
追加情報はツールヒントに入れるという手段も考慮する
閲覧者に必要以上の操作を要求していないか (操作せずとも一画面でどんと情報が出せるのであればその方がGOOD)
タブを非表示にしているか(ダッシュボード上にボタンを配置するなど、タブ間の移動ができるようにしているか)
フィルターアクションの選択解除時の動作を「すべての値を除外」にできないか
ダッシュボードのパフォーマンス(処理効率)
なぜパフォーマンスを意識することが大事なのか
処理が遅い(ボタンを押してもなかなかVizが表示されない)とそのことが気になってしまいがち
┣「もっと処理を早くできないか」と同じような別のダッシュボードを作成
┗本来の目的である「何を知りたかったのか」を忘れる
快適に分析できるダッシュボードを作成して、意思決定や行動までのフローが途切れないようにしよう!
どこで何を処理しているか
・データベースでの処理:データの結合・集計・計算
・Tableauでの処理:マークの表示・表計算・ソート
※何の処理が原因でパフォーマンスが悪いのか原因を突き止めて(「パフォーマンスの記録」を確認する)から対策を考える。
データソースの準備
ディメンションのNULLは極力ないように
必要であればデータベース側でテーブルを準備する
結合:同じデータベースで1対1、1対複数でつなぐ
ブレンド:異なるデータベースで複数対複数でつなぐ、集計されたもの
処理が速いデータ型/パラメータ
データ型:整数 > ブール >文字の順に早い
データ型変換:ネイティブ機能(Tableauが持っている機能)は計算フィールドよりも処理が速いことが多い
(例)8桁の数字を計算式を使って日付型にするのではなく、フィールドを右クリックして型変換する
ロジック計算:行レベルの計算はIF文よりブール値にして別名を付ける
文字の検索:ワイルドカード検索が速い
パラメータ:条件式で参照する場合は「整数」で作成し表示名を変更する
処理が速いフィルター
<ディメンションフィルター>
・範囲(連続)フィルター > 不連続フィルター
・保持・除外フィルター(ツールヒントで出てくるやつ)は遅くなりがち
<日付フィルター>
・相対日付 > 連続日付の範囲指定 > 不連続日付
<クイックフィルター>
・項目がデータに依存しない > 項目が表示される
※項目を表示させるにはすべての項目を取得してこないといけないため
・データベース内のすべての値 > 関連値のみ
※関連値のみの場合、他のフィルターに影響されるため
クイックフィルターの代わりに・・
・フィルターアクションを活用する
・パラメータを活用する
処理される順番(クエリパイプライン)
(参考)詳細を分かりやすく解説されているブログhttps://note.com/minoru_tech/n/n9bbd821563bf
最適なチャート
Preattentive Attribute:無意識に働きかけるもの
チャートは下記10種類の組み合わせ
Form(形):向き・幅・長さ・囲い・サイズ・形状
Color(色):色相・彩度
Position(位置):空間グループ・位置
特にインパクトが強いものは「位置」「色相」「サイズ」「形状」
データのタイプと相性が良いPreattentive Attribute
分類的な名義(カテゴリや国名、メーカー名など):形状・色相
順序的な名義(2020年・2021年・・、金銀銅、高中低など名義そのものに順序があるもの):位置・サイズ・彩度・色相・形状
量的なもの(数字の大小で図ることができるもの、重さ、価格、温度など):位置・長さ・サイズ・彩度
イメージしやすい組み合わせ
場所:地図
経時的な傾向:折れ線グラフ・面グラフ・棒グラフ
比較とランク付け:棒グラフ
相対的割合:ツリーマップ
関連性:散布図
分布の分析:箱ひげ図・ヒストグラム
一部と全体の関係:棒グラフ
※円グラフがおすすめされない理由:
角度で比較しづらい、すぐ隣のものとしか比較できないなど
データ活用の土台を整備する
なぜデータサーバーが必要か
<データの一元管理>
最新データが反映されたダッシュボードを提供することができる
┣データ更新の都度、ファイルをメール等で共有する必要がない
┗ユーザ同士が話をするときに「同じもの見てる?」という確認不要
<トラディショナルBIからモダンBIへ>
※トラディショナルBI:
ビジネス部門から依頼を受けたIT部門がデータを抽出~レポート作成する
※モダンBI:
ビジネス部門のユーザ自身でセルフサービスで分析を行う
一か所にデータをまとめて置いておくことで、
ユーザが使いたいときに使いたいデータで分析してもらうことができる
┣分析した結果から意思決定・行動までを素早く行える
(データ抽出・分析してもらう待ち時間がない)
┣同一データから複数のダッシュボードを作成したものの
データ更新が一度で済む
┗同じようなデータを何個も作る必要がない
<ガバナンス>
必要な人のみがデータを閲覧できるように制限をかけることができる
準備する側は何をしたらいいか
・さまざまなデータベースから必要なデータを抽出して、
ユーザが安心して使える環境を整える
┣使用するユーザが多いデータはメンテナンスやチューニングの
優先度を高くする
┗参照してはいけないデータには注意喚起のメッセージを出す
・ユーザ各自の分析スキル向上を支援する(脱レポートファクトリー)
┣Visual Analyticsの出発点である課題や疑問を持っているのは
ユーザであり、分析結果をもとに意思決定をするのもユーザ
┗「難しいことでもできます!」な人を5人育成するより、
「基本的なことはできます!」な人を100人育成する方が、
育成効果は高い
ライセンスの違い
みんなでデータを見て判断するようになると?
経験や勘、想像だけで話すのではなく、数字が判断基準となるため合意が取りやすい
自分だけで考えていたのでは気づけないことに気づくことができる
使うデータがどんどん洗練されていく
さいごに
ポイントをまとめていると、ダッシュボード作成時に「師匠にアドバイスもらった内容だ!」というものがたくさん出てきました。
普段意識できていない、足りていないことがたくさんあるな、と再認識しています。
これからも時々このメモを見て、大事なことを忘れていないか振り返りながらダッシュボード作成に取り組んでいきたいと思います。
最後まで読んでいただいてありがとうございました!
この記事が気に入ったらサポートをしてみませんか?