見出し画像

Massteryで私が実現したい未来

皆さん、こんにちは。高速検索の会社、フォルシア株式会社でエンジニアをしている伊藤です。

今回は、私がMassteryで実現したい未来について書かせていただきます。私がデータクレンジングというテーマに思い入れを持つに至った経緯については、僕らがMasstery部を立ち上げた理由 #3でも少しお話させていただきましたが、今回はまた少し別の経験を切り口からに、お伝えさせていただきます。

すぐに使い始められるデータは意外と少ない

エンジニアという仕事柄もあり、データを扱う場面がとても多いのですが、すぐに使い始められるデータというのは中々多くありません。

私は旅行販売サイトの検索部分の開発に携わってきた期間がエンジニア人生の多くを占めているのですが、そのなかでデータの加工や整形が必要になる場面に多々遭遇してきました。

例えば・・・

サイトのアクセスログを分析するための準備

ECサイトの日々のアクセス状況は日々ログに蓄積されています。しかしこれを即分析に活用できるかというとそうではありません。ログの書式は定まっていますが、単に何となくログを出力しているだけでは、複数のシステムが出力しているログを突き合わせないと分析に必要な情報は読み取れないことがほとんどですかったりします。

分析に必要な情報を、分析に扱いやすい形で蓄積していくためには、分析のためのログ収集の仕組みを構築する必要があります。

そういった仕組みを構築する以前のログを活用したい場合には、上記のように複数のログの突き合わせが必要になります。

●機械学習の下処理
機械学習を活用する前に、まずデータの下処理が大変とはよく言われることです。私自身は機械学習エンジニアではありませんが、エンジニアとして日々働いたり情報収集をしていると
お客様からデータをいただくときには、個人情報などの秘匿情報を取り除いたり用途に照らしてノイズとなるような情報を取り除くといった加工が必要になる場面をよく見聞きします。

●ホテル・旅館の名寄せ
様々な旅行会社の宿泊プランを比較可能にしている宿泊比較サイトでは、旅行会社Aの施設aと旅行会社Bの施設a’が同じ施設かどうかを判定して、同じ施設間だけをサイトで比較対象にする必要があります。

同じ施設かどうかは、施設の施設名・住所・電話番号・所在地緯度経度から総合的に判断しますが、これらの情報は旅行会社Aと旅行会社Bで同じ表記になっているとは限りません。そこで、たとえば「住所の番地は英数字表記に揃える」といった地道なデータのクレンジングをして初めて、「旅行会社Aの施設aと旅行会社Bの施設a’は同じ施設のようだ」とわかります。
----
エンジニアは、データを加工するための便利な手段をたくさん持っているのですが、それでもデータを加工・整形する仕事は大変です。いわんや、エンジニアでない一般の方がデータを加工するのはどれほど大変なことか。広く使われているのは表計算ソフトですが、データが大規模な場合や、継続的な繰り返し作業の場合に、表計算ソフトで処理するのは難易度が高いと感じます。

なぜデータの加工が必要になるのか?

なぜこんなにもデータの加工や整形が必要になるのか。それはシンプルに「人やシステムが変われば、着目したい切り口が異なるから」だと思っています。データの形式は同じでも、その表現はその場所場所に最適化したほうが扱いやすく、わかりやすいのです。

たとえば特に、高速検索の会社フォルシアでは、ECサイトオーナー様の基幹システムのデータの持ち方を検索に最適な持ち方に持ち替えるということをやっていますが、基幹システムに登録する場合と検索に使う場合で、扱いやすいデータの持ち方は異なると感じます。

また、基幹システムに登録する際はECサイトオーナー様の業務に最も適した表現ですが、ECサイトに掲載する場合にはECサイトで商品を購入するユーザにとって便利な情報が必要になります。

カバンの内寸が細かく書いてあるよりも、「A4入ります」と言ってもらえたほうが伝わりやすいことがあるのと似ています。

「使えるデータがすぐ手に入る」状態に

以上でお話してきたように、データはその場その場の人ユーザやシステムに最適化された表現になっていますので、別の場所に持っていくと、どうしても加工や整形が必要になるものです。

データはシステムの血液のようなものです。そのデータがよりスムーズに流れることで、システムとシステムがつながれば、世の中はより便利になるはずです(ここでのシステムは、必ずしもソフトウエアに限らず、人を含む「仕組み」を意図しています)。

現在は、商社様の商品データ登録を中心にご利用いただいているMassteryですが、今後はカバー領域を広げて、幅広い範囲でお役に立てたら嬉しいです。

今後とも応援よろしくお願いいたします。

私達がご提供している製品「Masstery(マスタリー)」は、
多くの人手が必要だったデータ整備を自動化する画期的なデータクレンジングツールです。フォーマットの統一、カテゴリーの自動分類、独自の変換、差分情報の取得等、データ整備に必要なあらゆる機能をご提供しています。
Masstery 公式サイト:https://mstr.forcia.com/(データクレンジング) 
フォルシア株式会社 企業サイト:https://www.forcia.com/ (高速検索)

もしよろしければこちらの記事もご覧ください。


この記事が参加している募集

業界あるある

この記事が気に入ったらサポートをしてみませんか?