見出し画像

【Prepスキルアップ】クリーニングステップ

Tableau Prep Builder バージョン 2024.1
Tableau Prep ユーザー会のmitamuuです。今回はクリーニングステップについて書きます。しかし、クリーニングを語り始めたらきっと一晩では終わらないので、今回はさわりだけとなります。機能の細かい情報はTIPSとか使ってご説明できればと思っています!

UI構成

Tableau Prep Builder のクリーニングステップは、データの探索、変更、および改善を容易にする多数の機能を提供しています。UIは以下の主要な部分から構成されています

プロファイルパネル

各フィールドのデータ分布を視覚的に表示し、異常値や一貫性のないデータを識別できます。 フィールドの左上のアイコンをクリックしますと、データの型を変更することができます(例:整数から文字へ)。

データグリッド 

生のデータを表示し、個々の値を直接編集することができます。

変更パネル 

実行した変更の履歴が一覧表示され、適用された変更を追跡し、必要に応じて変更を調整または削除できます。

三点リーダー(エリプシス)メニュー

Tableau Prep Builderでのクリーニングステップにおける三点リーダー(エリプシス)メニューは、データの型に応じて異なるオプションを提供します。数字(数値型)、文字(文字列型)、日付(日付型)のそれぞれに対するオプションを以下に詳細に説明します。

数値型(数字)

数値データに対するエリプシスメニューのオプションは以下の通りです:

1. フィルター

データセットから特定の条件を満たすデータのみを選択して表示します。数値フィールドの場合、特定の値の範囲、最大値、最小値などに基づいてフィルタリングすることができます。

2. 値のグループ

似たり寄ったりの値をグループ化し、カテゴリーとしてまとめることが可能です。これにより、大量のデータを効率的に要約し、分析を簡略化できます。

3. 重複行の特定

データセット内で完全に一致する行、つまり重複する行を識別します。これにより、データのクリーニングが容易になり、重複を削除してデータの正確性を向上させることができます。

4. 詳細

選択したフィールドに関してようやく統計から詳細情報へ変換します。

5. サマリー

フィールドに関する要約統計を提供します。詳細か、サマリーはいずれかとなります。

6. フィールド名を変更

データフィールドの名前を変更します。これにより、データベース内のフィールド名をより理解しやすいものにすることができます。ちなみに、直接フィールド名をダブルクリックしても変更可能です。

7. フィールドを複製

現在のフィールドを複製し、同じデータの新しいフィールドを作成します。これはデータを変更する前に元のデータを保持しておきたい場合に便利です。

8. 保持するフィールド(単一選択ケース)/保持(複数選択ケース)

選択したフィールドのみを残して他のフィールドを非表示にします。

9. 計算フィールド

新しい計算フィールドを作成し、カスタム計算式を用いてデータから新しい値を導き出します。これによりデータの洞察を深めることが可能です。

10. フィールドの非表示にする

データグリッドから特定のフィールドを非表示にします。これにより、分析に必要ない情報を一時的に隠すことができます。

11. 削除

データセットからフィールドを完全に削除します。不要なデータを削除することで、データセットの管理が容易になり、処理のパフォーマンスを向上させることができます。このステップ以降に使用しない場合に使用しますが、元のデータから削除するわけでないのでご安心ください。

文字列型(文字)

文字データに対するエリプシスメニューのオプションは以下の通りです:

  1. フィルター

文字型データに対する「フィルター」機能を使用すると、特定の条件やキーワードに基づいてデータセットから行を選択または除外することができます。

2.クリーニング

「クリーニング」オプションでは、文字列データ内の一般的な問題を修正できます。たとえば、先頭や末尾の空白をトリムする、大文字と小文字の統一、誤字脱字の修正、不要な記号や数字の削除などが行えます。これによりデータの整合性が向上し、分析の精度が高まります。

3.値のグループ

「値のグループ」機能を使用すると、類似または関連する文字列を手動または自動でグループ化できます。たとえば、異なる表記で同じ意味の項目(例:「株式会社」と「㈱」)を同一のグループにまとめることができます。これにより、データをより一貫性のある形式で分析できるようになります。

4.値の分割

「値の分割」オプションを利用すると、特定の区切り文字(コンマ、スペース、タブなど)または固定幅で文字列を複数のフィールドに分割することができます。例えば、フルネームを姓と名に分割したり、住所を都道府県、市区町村、番地に分割するなどが可能です。これにより、データがより詳細に分析や操作が容易になります。

※それ以外は数字型と同じです。

日付型(日付)

日付データに対するエリプシスメニューのオプションは以下の通りです:

1.フィルター

日付型データに対する「フィルター」機能を使用すると、特定の日付範囲、特定の年月日、または特定の日付条件(例えば、過去30日間、今週、昨年など)に基づいてデータセットから行を選択または除外することができます。これにより、特定の時間枠内のデータのみを分析することが可能になり、データセットの管理が効率的に行えます。

2.値のグループ

日付データにおいて「値のグループ」機能を使用すると、指定した日付をまとめることができます。しかし、あまり使うシーンは思いつきません。

3.日付の変換

「日付の変換」オプションを使用すると、日付データの形式を変更したり、日付の一部を抽出したりすることができます。例えば、日付形式を年月日から月日年に変更したり、日付から年、月、日のいずれかを抽出して新しい列として保存することができます。また、曜日や週番号などの情報を抽出することも可能です。この機能により、日付データをさらに詳細に分析しやすくすることができます。

※それ以外は数字型と同じです。

これらのオプションを適切に使用することで、データをより効果的にクリーニングし、分析のための準備を整えることができます。データの種類に応じて適切なツールを選択することが重要です。

UIメニュー

値のフィルター

「値のフィルター」機能を使用すると、データセット内の特定の値に基づいて行を選択または除外することができます。このフィルタリングは、数値、文字列、日付など任意のデータ型に適用可能です。フィルタリング条件を設定することで、特定の基準を満たすデータのみを表示し、それ以外のデータを隠すことができます。これにより、データセットをより詳細に分析しやすくなります。

重複行の特定

「重複行の特定」機能は、データセット内で完全に同一の値を持つ行を識別するのに役立ちます。この機能を利用すると、重複データを発見し、それを削除または修正することができます。これにより、データの一貫性と品質を保ちながら、分析の精度を向上させることが可能です。

フィールド名を変更

「フィールド名を変更」機能を使用すると、データセット内の任意のフィールドの名前を変更できます。これは、フィールド名が分かりにくい、またはデータソースからのデフォルトの名前が不適切である場合に特に便利です。名前をわかりやすくすることで、データの理解と操作が容易になります。

計算フィールドの作成

「計算フィールドの作成」機能を利用すると、既存のデータから新しい値を計算し、それを新しいフィールドとしてデータセットに追加することができます。計算式は、算術演算、条件付きロジック、データの変換、日付演算などを含むことができます。これにより、データに対する追加的な洞察を提供し、より複雑なデータ分析が可能になります。

この記事が気に入ったらサポートをしてみませんか?