Tableauのサンプルデータ "スーパーストア"の奥深さ
2023年11月中旬から、Tableau DATA Saberに取り組み始めました。
ほぼ初めてTableauに触れてから1ヶ月半が経とうとしている、2023年の年末です。
ちょっとDATA Saberの活動も疲れたタイミングでもあるので、気分転換も兼ねて、お勉強にお世話になりまくったサンプルデータ「スーパーストア.xls」について、思いを馳せてみたいと思います。
”スーパーストア.xls"について思ったこと
大きく、以下のような感想です。
秀逸なオンボーディングツール!!
ほどよく(いや結構)ダメなデータ(笑)
だからこそ、色々考えることができちゃう。Tableauの勉強だけに留まらないかもよ!?
秀逸なオンボーディングのツール
Tableau学習を初めて、最初に思ったことなんですが、この「スーパーストア.xls」は、マジで秀逸なオンボーディングのツールだな…と。
データ活用のツールを入手したものの、何をやろう…どこから勉強しよう…となりがちですが、Tableauの場合は、そのデータがインストールと同時にPCに入ってくれる。
これって、マジで素晴らしい。
一昔前に、データベースのお勉強をしようと思ったら、DBサーバ構築して…までは簡単に出来るけど、勉強に使えるデータセットの準備で挫折する、っていうのも、ままありました。
それが、デフォルトで入ってる。
だからこそ、それを利用した問題・解説がコミュニティの中で生み出される。結果、新規学習者が学びやすい環境が、利用者によって生み出される、というサイクルが生まれているように感じます。
私自身、Tableau以外は利用したことがないので、他のツールのサンプルデータの状況は知らないのですが…
試しに、「Power BI サンプルデータ」でググってみると、こんな感じで、「お好きなのを選んでダウンロードしてね」って感じでした。
まぁ、これはこれで素晴らしいんですが、やはりTableauのように、最初から入っている全員共通のサンプルデータがあると、圧倒的に共通認識化しやすいんだろうな…と思いました。
ほどよく(いや結構)ダメなデータ(笑)
"スーパーストア.xls"は、以下のシートから構成されています。
「注文」シート
「返品」シート
「関係者」シート
メインの注文シートですが、ざっとみただけでも、以下のようなことを思ったりしましたw
"顧客名"は個人情報だから、入れたくないな…(別で厳重管理したい)
"顧客ID"に顧客の個人名称略称入れる意味ないよね… 苗字変わったらIDはそのままで、顧客名だけ変えるの?
"製品"・"カテゴリ"・"サブカテゴリ"とかは、別テーブルでID管理したいな…
"製品ID"にカテゴリ、サブカテゴリ名称入れるのもなぁ…
カテゴリ「家具」のサブカテゴリに「家具」があるのって、なんやねん…
返品シートの場合、「返品」欄は全部"⚪︎"だし不要では?"オーダーID"だけで良いのでは?
などなど。
また、もう一つのサンプルデータとして「サンプル - スーパーストア - 予算.xlsx」もあります。
こちらは、シートの中で構造化されきっていない、分析に使うにはよりダメなデータ(笑)
ただ、このようなExcelも、「インタプリタとユニオンとピボットで扱えちゃうんだぜ!」っていう体験をさせるための、ある意味秀逸な体験データとも言えますw
そして、「スーパーストア.xls」も、上記のようないろんな要素があるからこそ、簡単に1ファイルだけ取り込んで、カスタム分割などTableau上で色々やれることを順次体験できるんだな…と思いました。
改めて、ものすごく秀逸なオンボーディングツールだな…と再認識しました。
だからこそ、色々考えることができちゃう。Tableauの勉強だけに留まらないかもよ!?
先ほど述べたように、"スーパーストア.xls"の注文シート、返品シートには、色々思うことがあります。
(Tableauの勉強のために、色々修正できる余地を残している部分も含めて、秀逸なデータだなぁ..とも思いますw)
このデータから、業務含めての疑問・改善案や、その影響・対応シナリオなども色々考えられそうです。
例えば…
前述の通り、顧客情報は分離して管理し、個人情報は分析段階では極力触れなくていい状態にしたい。ID体型も綺麗にしたい。
でも、それをすると、既存の営業業務で利用しているツール(データ入力側)まで影響出ちゃうだろうな…
とすると、今後のシステム大幅刷新のタイミングに、データ整理も合わせて実施できるようにできるといいな。でも、投資対効果は出るかな。業務側の課題とセットで言えるといいな。課題を探ってみよう。
とはいえ、顧客の個人情報を持っているところは、セキュリティ観点から対応した方がいいな。
とか
返品データってオーダーIDと、返品ステータスと思われる"返品:⚪︎"しか持っていないけど、これは顧客から返品されて受け取ったら、⚪︎にして、返金している業務?
であれば、返金の消し込みしておかないと、正しい利益の計算ができないよね…
あと、返品理由とかはヒアリングして蓄積しないと、返品率の改善ができないよね…
という仮説で、返品データを見てみると、そもそもオーダーIDが紐づかないもの(Nullのもの)が56もあるじゃん…
返金できてるのか???(このデータの前の年とか、集計していない時点の注文…? だとすると、返品までの期間長すぎない? モヤモヤ)
とか。
データから分析業務・営業業務自体の改善項目も見出せそうな要素が、色々ありそう。
まとめ
DATA Saberは、データを使ってより良い世界を作る人たちなので、スーパーストア.xlsを眺めながら晩酌しつつ、このデータが生まれる業務とその改善事項に思いをはせてみるのも一興かと思いますー。
まだDATA Saberになっていない、酔っ払いApprenticeの戯言でした…。