【DATA Saber Bridge】Tableau PublicへのViz投稿のヒント

この記事は、Tableauの技術及びビジネスへの応用力を問う、DATA Saber認定に向けて取り組むユーザの方に向けた内容となっております。
資格認定に必要な活動の一つ「Tableau PublicへのViz投稿」ネタに困っている人、何のダッシュボードを作ったらいいのかわからない(業務ネタは守秘義務で投稿でいないし)と悩んでいる方にに向けて、私が取り組んだ経験を記載したいと思います。

まず、私が活動として取り組んだ(でいる)のは以下3件になります。
・2022 M-1グランプリ審査員分析
https://public.tableau.com/app/profile/y.ito/viz/M-12022/M-12022?publish=yes
・炭水化物チェッカー
https://public.tableau.com/app/profile/y.ito/viz/_16739716387800/sheet1?publish=yes
・バイクの犯罪被害ダッシュボード
https://public.tableau.com/app/profile/y.ito/viz/_16743585496620/sheet0?publish=yes
これらの経験から、どのようにネタをさがしていくか、記載したいと思います。

興味を持つことについて作ってみる

おいおい、それがないから困ってるんだろ、と思って読んでいる人もいるかもしれませんが、レポートを作り切ったうえでやはり大切だと思うので改めて書いておきます。
興味がないから、とりあえず使えそうなオープンデータを眺めてネタだしをしているかもしれませんが、分析できそうで手を出すべきではないと思います。
まず、自身が興味を持つことを選ぶと、レポートをどこまで作ればいいか、という線引きが出来ます。これは完成する上で重要な要素です。データドリブンな活動には全てのユーザがタスクを持っておくことが重要と言われていますが、まさにそのタスクが必要です。
私の場合、1番目はM-1グランプリを題材に選びました。もともと毎年見ていたのですが、毎年いやだなぁと思うのはネットでの特定の審査員へのクレームです。皆、レジェンド級の芸人が審査を務めているし、7人いるんだから好き嫌いで決めていいと思っていました。今年もやはり山田邦子さんへの否定的な意見も見かけたのでこれはいかんな、と思ってテーマに選びました。この時の私の目的は、本当に山田邦子は審査員としてふさわしくないのか?をデータに基づいて判断することで、そこがわかればレポートは完結します。もし、単なる分析だったら、採点の平均値やばらつきを眺めて終わっていたと思います。興味がある=答えが知りたい という思いがあったのでレポートとしてまとまったと思います。2番目のネタである炭水化物チェッカーも同様です。私は食事制限が必要な家族がいるため、毎食食事の重さをはかり炭水化物量を計算しており、このダッシュボードを思いつきました。ここでの目的は、入力の速さです。見た目としてはしょぼいのですが、いつもより早く記録できれば目的達成だったので、手離れよく見極めることができました。
続いて、自身が興味を持つことを選ぶと、深く洞察するための指標が見えてきます。私はM-1グランプリの審査結果を分析する軸として、決勝進出3組とその他の7組に対する平均点の差の割合、 各審査員と最高得点と最低得点の差の割合、個人の相対的な順位といった指標を選び、結論を導きました。これはおそらく今年M-1を見ただけの人、たまたまM-1審査結果をまとめたcsvデータを見かけた人では出せない観点だと思います。日頃から審査員には何が求められるのか?といようなことをもともと考えていたので思いつくことができました。もともと明確にこのような基準があったわけではありませんが、自分が考えるダメな審査員(決勝に進む3組に相対的な高評価をしていない審査員は外れているし、全員に同じ点数をつけるようでは審査の意味がない)を考え、その逆をみることで見えてきたわけです。
各審査員の採点というデータの向こう側に何があるのかを当たり前のように考えていたからこそこの指標が出たのだと思います。
そのため最初に述べた通り、興味があることをやったほうが、結果的にレポートがよくまとまると思いますので、グラフを作りやすそうというところをスタートにしない方がいいと思います。

些細な興味でもOK

興味を持つことは最初はどんなに小さくてもいいと思います。タスクがぼんやり見えてくるだけでいいのです。
私の3番目のネタは、東京都内のバイクの盗難状況です。もともとDATASaberのチームメイトが公開したダッシュボードのソース元として、東京都内犯罪情報が紹介されていたときに見た思い付きです。
最近街中で、電動キックボードで走っている人を多く見かけており、法的に公道での電動バイク利用もOKになるなどのニュースを見て、実際保有したらどうなるだろうと考えたことがあり(購入意欲はかなり低いですが)、その記憶と結びついて、もしも電動バイクを買ったら、盗難のリスクがどれくらいあるのか?どうやって守るべきなのか?という疑問が生まれてきて、今、分析しています。そこまで購入は本気ではないのですが、バイクの盗難はどのくらい、どんな時に起こるのだろうと考えるタスクがあることで、単にデータを眺めるだけでなく、目的を持って探すことが出来ています。
もし、こうだったらくらいでもレポートを作る練習くらいはできると思います。

データの探し方

さて、無事タスクが決まればデータ探しです。
私は1件目は自分の手打ち。2件目のレポートも手打ちですが、検証段階では栄養素のオープンデータのリストを使っていましたが、これも普段から気になってて調べた経験があるからです。やはり気になっていることは、統計的にまとめていなくても、関わるデータには触れているのだと思います。
(私の3件目は、データから入った面もあるので簡単に見つかりましたが)
データは必ずしも、どこかに転がっている綺麗なものを探す必要はなく、自分自身で作るくらいで、運よく見つかればラッキーの気持ちでいればいいと思います。
オープンデータの探索に慣れていない人に言っておきますが、世の中、特に日本国内で転がっているオープンデータの多くは、データとしてまとまっていないものが多いです。
1行目にラベルが入っておらず 5行目6列みたいな中途半端な位置からテーブルが書かれたエクセルファイルだったり、ラベルが2行になってたり、思ったよりもきれいなデータはないのでそういうものだと思って取り組んだ方がいいです。(海外のサイトやDATASaberで紹介されたものは形式としてはそんなことはないですが)

それでもネタがないんだけど

いや、でもやっぱそれでもネタがないな、と思う方は他の人のダッシュボードを見てみましょう。この人はこういう結論をだしたけど、違うんじゃないか?これじゃなくて他のとこが気になる、なんてのもの出てくるかと思いますので見てみてもいいかと思います。
ちなみにM-1でいえば、登場順と得点の関係とか気になってます。トップバッターは審査がしづらい(あとからどんな人がくるかわからないから高得点がだしづらい)なんて言われたりしますが、本当にそうなのかデータで確認してもらいたいです。優勝者と点数の関係(M-1では得点は決勝の中の予選で、優勝者は別の方法で決める)はどうなってるかとか、共感した方はトライしてみて下さい。

この記事が気に入ったらサポートをしてみませんか?