見出し画像

無料で使えるデータプレパレーションツール試してみた

データプレパレーション

データプレパレーション(Data Preparation)は、データ準備、データ前処理とも呼ばれ、さまざまな領域に保管している生のデータを分析や機械学習に使える状態にクレンジングするデータ変換プロセスのことをいいます。

プレパレーションツールが注目される背景

データ活用におけるプロセスでの準備コスト
データ分析作業のうち、作業時間の大部分を占めるのは、データ準備であることがわかっています。
つまり、データプレパレーションのコストを削減することは、データ分析作業全体のコストを削減することに直結するのです。

データの質、量が求められる時代
昨今ではあらゆる業界、業務でデータ活用が進み、セルフBIやAutoMLツールの人気が高まっています。
それにより、専門家ではないビジネスユーザーが自らデータ活用を行う機会が増え、良質なデータが求められるようになりました。
またDXや、クラウドサービスの普及により、データの量も年々増えています。これまで当たり前のように行われてきた、Excelを使ったアナログな作業が、困難な機会も増えてきています。

VARISTA Data Editor

処理フローをつなげていき、データを加工していくタイプのデータプレパレーションツールです。
フリープランは無料で利用することができるため、気軽に試すことができます。

利用するデータ

kaggleの「Recruit Restaurant Visitor Forecasting」コンペのデータを利用し以下の処理を施していきます。

https://www.kaggle.com/c/recruit-restaurant-visitor-forecasting

加工開始

ツールでデータを開くとこのような画面になります。
「フィルタを追加」から加工する処理を追加していきます。

スクリーンショット 2021-04-25 14.26.57


データの結合 - 「マージ」フィルタ

複数ファイルに別れているのデータを結合していきます。

スクリーンショット 2021-04-25 14.30.07

スクリーンショット 2021-04-25 14.33.53

スクリーンショット 2021-04-25 14.34.18

air_store_idをもとに2つのデータを結合

スクリーンショット 2021-04-25 14.40.42

スクリーンショット 2021-04-25 14.39.39

結合するデータ、列を選択

スクリーンショット 2021-04-25 14.42.31

このように air_stora_id に対して Left Join を行うことができました。


文字列のsplit - 「区切り文字で分割」フィルタ

air_area_name には「Fukuoka-ken Fukuoka-shi Daimyō」や「Tōkyō-to Toshima-ku Mejiro」のようにスペースで連結された地名が入力されています。
これらの値をスペースで区切って都道府県、市地区町村名に分割していきます。

スクリーンショット 2021-04-25 14.46.17

スクリーンショット 2021-04-25 14.49.26

区切り文字は半角スペースを入力します。

スクリーンショット 2021-04-25 14.49.43

このように air_area_name_0 には 「Tōkyō-to」, 「Hokkaidō」 など都道府県
air_area_name_0 には 「Abashiri-shi」, 「Kurume-shi」 など市区町村が入力されました。

平均値算出 - 「カテゴリ毎の平均値へ変換」フィルタ

各都道府県の平均visitors数を算出してみましょう。

スクリーンショット 2021-04-25 14.55.23

スクリーンショット 2021-04-25 14.56.08

スクリーンショット 2021-04-25 14.56.58

各都道府県ごとの平均訪問者数が算出できました。

その他のフィルタ紹介

欠損補完
このように、いくつかの補完方法が用意されています。

スクリーンショット 2021-04-25 14.58.14

日付フォーマットの変更

スクリーンショット 2021-04-25 14.59.15

スクリーンショット 2021-04-25 15.01.06

スクリーンショット 2021-04-25 15.00.00

外れ値の除去
視覚的に外れ値を確認し、除去することができます。

スクリーンショット 2021-04-25 15.02.42

スクリーンショット 2021-04-25 15.02.30

その他の機能

各列の統計情報のビジュアライズ

スクリーンショット 2021-04-25 15.04.04

スクリーンショット 2021-04-25 15.05.14


おわり

小さいデータならエクセルやGoogle Spread Sheetで加工できますが、数MB以上のデータになってくると、開くのも加工するのも、時間がかかってきたり、そもそも開けないといったことが起きてきます。
ある程度ガッツリとデータ加工をしたい場合はPython+Pandasでコードを実装するのもありですが、ちょっとした加工にわざわざコードを実装して実行するのも億劫な場合があったりします。
そんな時にはこのようなお手軽に利用できるプレパレーションツールが重宝されるのではないでしょうか?
みなさんもぜひ使ってみてください。


この記事が気に入ったらサポートをしてみませんか?