見出し画像

5. Prepで重複削除にチャレンジ(寄り道)

↓この話の続きです(ちょっと今回は横道にそれてますが・・・)。

さて。
昔々イラレで作成した港湾施設(主にケーソン工法)の年表図を
Tableauで再現するというチャレンジですが・・・
【港湾名】ー【都道府県】を紐づけるデータがないことに気付きました。
最終的に北から順に並べたいので、何か一覧表が必要そうです。

①もともとのエクセルの別シートにケーソン工法のみ該当データあり。
これではちょっと不足です。
ただ、古い港湾名があるようなので残してはおきたいところ。

②国土交通省・港湾局のHPに【港湾管理者一覧表】というデータが。
https://www.mlit.go.jp/common/001403579.pdf
この【6.港湾一覧表】から都道府県名をとってみることにします。

①+②で目的の表を作ってみることにします。
とりあえずPrepに入れちゃいます。
不要な列を削除して・・・

港湾一覧
ケーソン表より

港湾一覧のほうは、カラム名が「湾」「名」で港湾の名称に"湾"がない。
ケーソン表は、カラム名が「湾名」「県名」で県名に"都道府県"がない。ユニオンしたいので、こちょこちょしてまとめてみます。

港湾一覧:”湾”を追記してカラム名変更
ケーソン表:都道府県名を追加

整頓して・・・いざユニオン!

港湾一覧+ケーソン表

無事に【港湾名】ー【都道府県】表っぽいものができました。

・・・あれ?
1,166行???
もともとの表で総数993となっていましたが・・・

神戸港の例(重複データ)

重複ですね。
"神戸港"だけで10行くらい存在しているようです。

データの重複。。。
いつもエクセルで先に作業してごまかしてました。
ちゃんとTableauで操作できるようになりたい!!

no+eの中にステキな記事を見付けました!
とても丁寧に書いて下さっているので、
SQLとか意味不明な私でもなんとかなりそうです
(勝手にlink掲載してすみません。問題があれば削除します)!

ではやってみます。

初めてのPartition&Orderby

■計算フィールド
{ PARTITION [港湾名]:{ORDERBY[Table Names]:ROW_NUMBER()}}

TableauPrepでの解説

【今回のケースで読み替えると】
・[港湾名]の重複を何とかしたい!
  → グループ:PARTITION
・順番は何でもいい
 →とりあえずTable Namesで:ORDERBY
・いくつ重複しているか分からない
  →とにかく番号をお願いします:ROW_NUMBER()

番号をふったところ

ここで番号が1のレコードだけ保持して完成です!

重複を除いて【港湾名】ー【都道府県名】が1対1になったところ

できました!
Linkしたページで紹介されているタイルも挑戦してみましたが、
記事でも触れられている通り
【いくつ重複しているか分からない】時はこの方法が良さそうです。

やっと必要なデータが揃った・・・ような気がします。

今度こそDesktopへ!

いいなと思ったら応援しよう!