見出し画像

Exploratoryを用いた探索的データ分析によるデータリテラシーの啓蒙活動

まとめ
・データリテラシーと探索的データ分析の深い関わり
・探索的データ分析ツールExploratoryの紹介
・Exploratoryを使った社内啓蒙活動について
・(データエンジニア絶賛募集中!)

 初めまして! データソリューショングループの松村と申します。

 2019年10月の部署立ち上がりと同時に入社し、プロダクトデータの分析の他にも分析基盤の構築やデータリテラシーの啓蒙等をやっております。
 ネオキャリア入社前は大学院で因果推論やベイズ統計学のマーケティングへの応用研究をやりつつ、統計解析に強いプログラミング言語であるRの勉強会「Tokyo.R」の運営をやっていました。コミュニティ活動は現在も継続しており、最近では Music × Analytics Meetup という「音楽 × 分析」をテーマにした勉強会運営にも携わっています。
 学生の頃から趣味でギターをやっているのですが、最近は料理とサイクリングもアツいです。

 今回は探索的データ分析ツールExploratoryを活用した「データリテラシーの啓蒙活動」について、お話させていただきます。データ分析を広めて使ってもらうためにどのような取り組みをしているのか、事例として参考になれば幸いです。
 最後までよろしくお願いいたします。

1. データリテラシーの向上にはEDAが有効

 データサイエンティストなどのデータに関する専門家だけでなく、プロダクトに直接関わる現場の方々(以降、「現場」で統一)がデータを「正しく」扱う能力(データリテラシー)を持つことは、データをビジネスに利活用する上で非常に重要です。本noteではデータリテラシーを天野の記事で言及していた「データを扱う上で必要なスキル・マインド・センス」と定義※1し、この啓蒙活動を「育成」として分析組織が担う1要素に定めています。

 (なぜ「現場」にデータリテラシーが必要なのかという具体的な話は、2月に天野が触れる予定です)

分析組織図

 データリテラシーを向上させるための一つのアプローチとして、「探索的データ分析/解析※2(Exploratory Data Analysis; EDA)」が有効ではないかと私達は考えています。

探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。
https://www.msi.co.jp/splus/products/eda.html より 

 「モデル」というワードはあまり馴染みがないかもしれませんが、「仮説」と言い換えて構いません。つまり、探索的データ分析では「データを理解し」、「可視化や基本的な集計」を繰り返すことで仮説そのものをデータから構築・磨いていきます。
 この工程は誰でもできる単純作業と思われがちですが、データを正しく処理する知識とスキルや、適切な仮説を立てるセンスなどが求められ、経験を積まないとうまくできません。
 このようなスキルやセンスは、冒頭で定義した「データリテラシー」を支える構成要素と考えられます。そのため弊社では、データリテラシーを向上させる目的で探索的データ分析を「育成」に取り入れています。

リテラシー

 データリテラシーの普及活動でしばしば見られる事例として、データベースからデータを取り出すSQLを教えるというアプローチ※3があり、弊社でも一部の方に実施しています。
 しかし、そのアプローチではデータ加工の「スキル」が伸ばせる一方、初心者はSQLの書き方に意識が向いてしまう傾向があるため、「センス」に直結する多面的な見方を鍛えにくいと思われます。
 また、TableauなどのBIツールを使えば様々な可視化を簡単に参照でき、仮説構築のセンス向上に役立ちますが、元データを深堀りして探索を進めることに不向きなため、データ構造の理解やデータ加工のスキル向上には繋がりにくいと考えられます。

 そのため、弊社ではデータ加工から分析まで一貫して実行でき、スキル、センスの双方の向上に役立つExploratoryを分析ツールとしてだけでなく育成にも利用しています。

2. 探索的データ分析ツールExploratoryの活用

 本章では先に言及したExploratoryを使ったデータリテラシー啓蒙の取り組みについて触れます。はじめにExploratoryの概要や特徴を紹介し、次に1章で言及した課題を解決するために具体的に行っている活動をお伝えします。

2-1 Exploratoryとは
 Exploratoryは、「データサイエンスの民主化」を掲げている探索的データ分析ツールで、コードを書かずともマウス操作で様々な分析を実行できます。
 主な機能は、次の通りです。
・データ加工
・可視化
・統計的分析
・分析結果の共有(コラボレーションサーバー)

画像5

https://exploratory.io/ より

 弊社では、主に現場の方がコードをガリガリと書かなくても再現性のある分析を簡単に実行できる環境を提供するために昨年からExploratoryを導入して、操作方法だけでなくデータの見方・扱い方を含めてレクチャーする活動を行っています
 コードを書かずに分析を行えるツールは世の中に多くありますが、私達がExploratoryを導入した主な理由は以下の5点に分類されます。

画像6

 これらのメリットを活かせば、従来複数のツールでいくつものファイルが作成・共有されていた状況を打開し、効率的かつ再現性の高いデータ活用が可能になります。 

画像7


 以下の画像は、Exploratoryを選んだ理由のうち「問題の修正と発見」の2つの項目(「読み込みデータの統計量可視化」と「データ加工ステップの記録」)に対応するスクリーンショットとなります。
 これらは普段からExcelで業務を行っている現場の方から特に好評※4で、「データ理解」や「データ加工技術」を必要とする探索的データ分析を行う・教える上で、個人的にも好きな機能です。

画像4

画像4


2-2 Exploratoryを使った教育・啓蒙活動の取り組み
 取り組んでいるExploratoryを使ったデータリテラシーの啓蒙活動をまとめると次の通りです。
A. 週次での勉強会
B. EDA Salonへの参加

 これらについて、具体的な内容を説明します。

A. 週次での勉強会
 週次の勉強会では、セミナー形式で大人数に対して行うのではなく「データ分析に興味がある」「この人だったらできそう」という方をピックアップし、データ加工の技術や少し踏み込んだ統計的分析を学ぶカリキュラムを個別に組んで行っています
 次のスクリーンショットは、現在実施中の勉強会カリキュラムの一部です(詳細はぼかしています)。

カリキュラム

 個別にカリキュラムを組むのは効率が悪いように見えますが、ひとりひとりに時間をかける形で行うことで技術や知識を身につけた後に業務で実践し、自身のチームの他の方々に教えられる(レバレッジを利かす)ように心がけています。
 中でもカリキュラムを組む際に注力している点は次が挙げられます。
・効率的なデータの管理方法
・データを見るときに気をつけるべきこと 

 上記のカリキュラムにおける「計算の作成」の回では「1ヵ月1ファイルのデータを扱うことが多い場合、月の情報を列として作成して、ファイルを縦に結合していくとグラフ化しやすいので便利」といった日々のデータ管理で役立つ情報を伝えています。
 また、「条件分岐」の回では値を置き換えたい(ExcelのIF関数のイメージ)場合に欠損値の扱いに触れるなど、段階を経るごとに「データ理解」をしやすくなるように工夫をしています。

B. EDA Salonへの参加
 EDA Salonは、「探索的データ分析(Exploratory Data Analysis)をみんなで学ぶ場」の提供を目的として、Exploratory社が主催している企画です。

 定期的にオープンデータに対するお題(最新の第11回はアメリカの大統領選のデータ)が公開され、それに対して自由な発想で分析した結果を参加者が共有していきます。弊社では第8回(「トレンド入りしたYouTubeビデオのデータ」が題材)に、私と勉強会のメンバーが参加しました。

 EDA Salonに参加し投稿することで、データを正しく処理する知識とスキルや、適切な仮説を立てるセンスを同時に鍛えられます。特にテーマに対して自由な視点で取り組んだり、他の方の視点を学ぶ事で「センス」を鍛えられるのは、他の分析コンペティションにはない特徴です。

 公開されたデータに対して分析を行うコンペには、代表的なものだとKaggleSIGNATEがありますが、これらは「予測精度」というゴールが決まっており、様々な統計的な分析手法を知っている必要があるために専門家以外には参加のハードルが高いです。
 EDA Salonは「こんなグラフを作ってみました!」とグラフ一つでも参加できるため、様々な職域の方も楽しめます。

3. 振り返りと今後について

3-1 勉強会の成果
 勉強会を実施してみて、以前と比較して確実にデータ加工技術の向上やデータに対する意識の変化が見られました。
 例えば、一昨年に勉強会に参加したメンバーはロジスティック回帰などの統計的分析手法を身につけ、自身の取り組みをExploratory社が主催するデータサイエンス勉強会で発表するほどに成長しました。

 昨年から参加し始めたメンバーも同様に成長が見られます。具体的には、Exploratoryを通じて学んだデータ加工や集計、可視化方法の業務への活用方法を自ら考えられるようになりつつあります。

3-2 勉強会開催にあたっての課題点
 勉強会開催における現時点での課題は、参加者に合わせたカリキュラムやスケジューリング、伝え方です。ひとりひとり異なる背景※5がある中で、分析者の立場からデータを扱う上で知っておいて欲しい内容も盛り込んで進めるのは簡単ではないと感じています。

 自己紹介でも言及した通り、私はTokyo.Rという勉強会の運営もやっており、コマンドによるデータ加工の方法などをレクチャーしています。Tokyo.Rはデータ分析経験者が多く何十人も一斉に参加する形ですが、社内勉強会では経験のない方に個別に教える形で、必要な内容のリストアップと扱う順番、勉強会のペースなどを合わせるのに苦労しました。
 これを解決するには、これまで行った勉強会のカリキュラムをパターン化した上で、いくつかの汎用的なカリキュラムを作り必要に応じて微調整をする、といった方法が考えられます。データ分析人材育成プログラムをサービス提供する企業も増えており、外部提供可能な形にブラッシュアップしていこうと思います。

3-3 今後取り組んでいきたいこと
 まず、現場で事業に直接関わっている方にもっとExploratoryを広めていきます。勉強会に参加しているメンバーと同じ部署の方から「私もExploratoryを使ってみたい」という声も上がっており、勉強会を告知して参加者を増やしていくアプローチではなく、現在のメンバーを起点に参加者を増やしていくことを考えています。これは現在の勉強会参加者に講師となってもらい、教え合い・学び合いの輪を形成していくアプローチです。この形式によりデータリテラシー普及の波及が期待され、ひいては会社組織全体のデータリテラシーを爆発的に底上げさせることができます。

 次に、Exploratoryそのものを普及させていくと同時にコラボレーションサーバーを積極的に利用していきたいと考えています。コラボレーションサーバーには次のような様々な便利な機能がありますが、現状では「分析結果の共有」しか有効に使えていません。
・分析結果の共有
・データのバージョン管理機能・ダッシュボード機能
・スプレッドシートやデータベースと連携したスケジューリング機能(毎日○時にダッシュボードを更新する、といった機能)

画像8

https://ja.exploratory.io/collaboration-serverより

 これらの機能を活用できれば、自動でデータやダッシュボードの状態を最新に保てるため、手動でやらざるを得ない作業の自動化など、現場の業務効率改善に繋がります。

 また、このコラボレーションサーバーの活用事例として、先述したEDA Salonの社内版を実施できないか、という目論見もあります。
 Exploratory社が主催しているEDA Salonは世界に公開されているデータを用いて分析のアイデアを出し合うというコンセプトでしたが、こちらは「社内に蓄積されたプロダクトデータを用いて、メンバー同士で分析のアイデアを出し合う」という企画です。
 現在あまりデータに興味のない方や、データに興味があるけどあと一歩を踏み出せない方が、業務で関わる身近な題材を用いることでデータ分析に取り組むきっかけになるのでは、と考えています。

 他にもExploratoryで使える社内パッケージを分析組織メンバーで開発して内部向けに展開するという考えもあり、分析組織と現場を繋げる非常に有用なツールと言えます。

3-4 Exploratoryへの要望
 
2-1で紹介した以外にもExploratoryには素晴らしい点が多くあるのですが、個人的に「欲を言えばこんな機能もあったらいいのに」といった点もあります。
 例えば、コラボレーションサーバーで分析結果を共有するとグラフやレポートを閲覧できますが、共有した本人あるいは別の人がUI上でデータそのものを深堀りできません※6。グラフやレポートを共有するコラボレーションサーバー上でも分析できる機能があると分析のペアレビューとしても使えて、もっと便利な製品になるでしょう。

 他にもExploratoryデスクトップだけでなくサーバー版が欲しいとか、tidymodelsに対応して欲しいとか、管理機能の強化とかありますが、現時点でも非常に良い製品であり、今後も活用していきたいと思います。

4. おわりに

 本記事では、Exploratoryを使ったデータリテラシー向上の取り組みについてご紹介しました。
 まだまだ試行錯誤しながら進めている部分はありますが、引き続き情報を発信していきますのでよろしくお願いいたします。

 最後に社内のデータをまとめていく基盤領域を主導できるデータエンジニアを絶賛募集しております。

 カジュアル面談を含めたご都合の良い形にて、是非ともお話を伺いたいと考えております。こちらも合わせてご興味がある方は是非ご連絡いただけると幸いです!

※1: MIT(マサチューセッツ工科大学)の定義では、データリテラシーとは、データを読み取り、使用、分析し、データを使って議論する能力を意味します。
(D’Ignazio, C., & Bhargava, R. (2015). Approaches to Building Big Data Literacy. In Bloomberg Data for Good Exchange 2015. New York, NY, USA.)

※2: 文献や資料によって"Analysis"が「分析」と訳されている場合と「解析」と訳されている場合がありますが、本記事では「分析」で統一しています。

※3: SQL教育の他社事例として以下のようなものがあります。
ディレクターがSQLを使えてよかった話
非エンジニアが気づいたらSQL書けるようになった話@BASE
企画や営業など非エンジニア職がSQLを勉強したらメリットばかりだった話

※4: このようなExcelと比較したときのExploratoryの優位性は、Exploratory社のオンラインセミナーで詳しく聞くことができます。
セミナー #41 なぜExcelユーザーはExploratoryが好きなのか Part 1
セミナー #42 なぜExcelユーザーはExploratoryが好きなのか Part 2

※5: 勉強したことがある内容、興味がある内容、仕事で必要な内容、身に付けたい内容など

※6: グラフを共有した場合、簡単なフィルタリングはできますが、コラボレーションサーバー上でテーブルに戻って分析を深堀りしたり、別のグラフを作ったりといったことはできません。





15
株式会社ネオキャリアでデータ分析に関わる人々が情報を発信していきます。 発表スライドなどは下記に掲載していきます。  https://speakerdeck.com/neo_analytics