見出し画像

EDI・コラム「欠測データが引き起こすAIの歪みとデータ融合による対処法(篠田和彦)」

こんにちは!エコノミクスデザインです。

エコノミクスデザインは、アカデミアサイド3名、ビジネスサイド1名の計4名が2020年に「経済学をビジネスに活用すること」を目的に共同創業した会社です。

HP:https://econ.news/

エコノミクスデザインは、主に2つの事業を行なっております。

  1. エデュケーション事業

    1. ビジネスに活用できる経済学を中心とするビジネスマン向けオンラインスクール「The Night School」の運営

    2. DX・AI等にまつわる経済学分野のリカレント教育関連の企業研修等

  2. コンサルティング事業

    1. エコノミクス・アドバイザリー・サービス:課題解決に関連する学知の提供・データ作成及びそれに関連するサービス

    2. エコノミクス・デベロップメント・サービス:学知に基づく仕組み(アルゴリズム・関数・指標等)の設計・開発及び提供

この記事では、エコノミクスデザインで活躍する研究者が執筆したコラムをお届けします。



欠測データが引き起こすAIの歪みとデータ融合による対処法

エコノミクスデザイン エコノミスト
篠田和彦(名古屋大学 経済学研究科 専任講師)

AIやその他のデータサイエンス技術の発展により、最近ではビジネスや社会のあらゆる場面でデータ活用が進められていますが、それらの現場では非常に多くのケースで欠測データという問題に悩まされることになります。

欠測とは文字通り、データセットにおいて本来あるべき値が記録されていない状態を指し、放置すると分析結果やAIシステムの性能に深刻な歪みをもたらす可能性があります。

実際に我々エコノミクスデザインが関わったプロジェクトでも、欠測データは頻繁に発生しており、プロジェクトの成否を分ける重大な問題であることを身を持って実感してきました。

このコラムでは、欠測データはどのように生じるのか、結果に与える影響、そして、その対処法の一つであるデータ融合アプローチについて解説します。

欠測データの回避は難しい

すでに述べたように欠測とは、本来あるべき値が存在していない状態であり、様々な原因によって生じます。

例えば、ぱっと思いつくだけでも以下のような原因が挙げられます。

・回答拒否:アンケート調査で回答者が質問に答えたくない、または答えられない場合。
・測定機器の不具合:センサーなどの故障により、データが正しく記録されない場合。
・プライバシーやセキュリティの問題:個人情報や機密情報を保護するために、それらのセンシティブな情報を直接記録できない場合。
・人為的ミス:データ入力時の転記ミスや入力漏れ。
・データ統合の問題:データベースのテーブル結合時などに、データ形式やキーの不一致が生じる場合。

このように欠測の原因は多岐にわたるため、よほど気をつけて実験やデータ収集の仕組みを整えなければ、欠測を回避することは困難だと言えるでしょう。

そのまま使っちゃダメなの?

データ分析やAIシステム開発の現場では、欠測以外にも考えなければならないことは山程あるため、本音を言えばあまり面倒なことはせずに安易な選択に流れたくなってしまいます。

例えば、簡便な方法として「欠測値を含むデータを無視する」や「欠測値を平均値や中央値などで補完する」などがありますが、これらの方法では非常に限定された特殊な状況以外では、分析結果やAIの学習に偏りを生じてしまうことが知られています。

例1:アンケート調査で所得に関する質問の回答率が低い場合に無回答の人のデータを除いて分析してしまうと、所得分布が実際のものから乖離してしまう可能性があります。
実際、高所得・低所得層の回答率は低くなる傾向があるようで、そのような場合に無回答のデータを除くと中間所得層の特徴が過剰に反映された分析結果が得られることになります。

例2:ECサイトにおいて、過去の購買履歴や個人の特性を表す変数などの情報から、ユーザーの購買行動を予測するモデルを構築する場合を考えてみてください。
また、一部ユーザーで年齢が欠測しているとします。このとき、年齢を平均値(例えば35歳とする)で補完してモデルの学習を行うと何が起こるでしょうか?この場合、本当の年齢が20歳であっても60歳であっても等しく35で欠測を補完することになり、正しい年齢ー購買行動間の関係性を学習することができなくなってしまいます。結果として、予測モデルの性能低下を招くと考えられます。

欠測が結果に与える影響の度合いは、欠測の割合やその発生パターンによって異なります。欠測の割合が高いほど、また、欠測が無作為ではなく特定の傾向を持っているほど、結果に対して深刻な影響を及ぼします。

したがって、欠測の原因を特定し、その影響を最小限に抑えるための対処法を慎重に選択する必要があります。

データ融合による対処法

ここまで、欠測の原因や、欠測データをそのまま使ってしまうことの危険性について解説してきました。

欠測値への対処法に関しては、統計学や計量経済学を含む様々な分野で膨大な蓄積があり、現在も多くの新しい研究が進められていますが、ここでは一つのアプローチとしてデータ融合を簡単に紹介します。

データ融合とは、複数ソースのデータを組み合わせることで、欠測を補い、全体としてのデータの質を向上させる手法です。単一のデータのみでは欠測への対処が難しい場合に、特に有効な対策となります。

具体的には、以下のような利点が挙げられます。

・情報量の増加:複数のデータソースを組み合わせることで、単一のデータセットでは得られない情報を補完できます。これにより、欠測値の影響を最小限に抑えることができます。

・コストの削減:新たにデータを収集するよりも、既存のデータを融合する方が、コストを削減できる場合があります。特に最近ではオープンデータ、オンライン調査、SNSなど、多様なソースのデータが利用可能になってきたことで、データ融合のコストは大幅に低減しています。

・適用条件の緩和:単一のデータのみで欠測に対処する方法では、一般に、適用可能なデータの分布や欠測パターンなどに強い条件が課せられます。

  一方、データ融合においても組み合わせるデータに要求される条件はありますが、適切なデータが利用可能であれば、より柔軟に欠測に対処できることが多いです。

どのようなデータを組み合わせるか、どのような方法で組み合わせるかは、個別の問題の性質や利用可能な補助データによって変わってくるため、一概に言うことはできません。

しかし、最近ではオープンデータやオンライン調査といったデータ収集の選択肢が増えており、データ融合が有効な解決策となり得るケースは増えているのではないでしょうか。また、データ活用気運の高まりに伴い、データ融合手法に関する研究も盛んになってきており、今後ますますビジネスにおける実用性も高まっていくと考えられます。

我々エコノミクスデザインでは、こうした最新研究の知見を活用することによってビジネス課題を効果的に解決すべく、研究者によるコンサルティングを行っています。
今回ご紹介したようなデータ活用以外の分野についても、多様な専門家が参画しておりますので、ビジネス課題でお困りの際にはぜひ一度ご相談ください。


様々な分野で活用が広がるデータサイエンスの知見

エコノミクスデザインでは、経済学の専門知を起点とした制度設計を様々なクライアント様と共同で行っております。

公開している事例としては、アサヒ飲料様との事例がございます。
ご興味ある方はぜひご覧ください。

アサヒ飲料、エコノミクスデザインと共同で販売データ利活用による収益向上のためのデータ分析を実施
プレスリリース:https://prtimes.jp/main/html/rd/p/000000002.000083790.html

今回のコラムで取り上げたデータサイエンスの内容などに関連して、何か知見が必要となった場合には、ぜひご相談ください。

お問い合わせはこちら

終わりに

エコノミクスデザインでは、様々なメンバーが自身の担当領域に関する案件に従事し、企業の課題に対して、経済学を用いたコンサルティングを行なっております。
現在、多くの研究者がエコノミクスデザインに参画し、様々な分野の研究者が案件に従事しています。

また、今では、上場企業やグローバル企業を含む、数十社以上の企業にコンサルティングを提供するまでに成長しました。

エコノミクスデザインでは今回のコラムに関連しない分野の研究者も多く在籍しています。今回のコラムに関連しない分野でも、何かビジネスでお困りの課題があったら、ぜひお気軽にお問い合わせください。

お問い合わせはこちら

この記事が気に入ったらサポートをしてみませんか?