見出し画像

因果を知りたがる統計分析と予測したがる機械学習

統計的手法としての機械学習

 AIとか機械学習という言葉がニュースなどを通じて、耳目に達することが多くなっている。とはいえ、AI、人工知能、機械学習というと、グーグルのような最先端の大企業での遠い話、あるいは、むしろうさん臭いSFのような話で、眉に唾して話しを聞かないといけないというイメージを持たっている方も多いであろう。過去に何度か人工知能ブームというものがあったものの、ものにならなかった歴史があるのも事実であり、そのような感想を持つのは、ある意味では健全であると言えよう。

 ただ、この人工知能という言葉は、その意味するところが広すぎる。目下、その発達、進化に注目が集まっているデータ分析の技法については、機械学習、マシーンラーニング(ML)という言葉の方が、より的確な表現となる。

 端的に言ってしまえば、この機械学習という技法は、統計学の応用である。勿論、従来の統計学のままということではないが、データの集まり、多くの場合は、数字に置き換えたデータのパターンから傾向や関係を抽出して、データを分類したり、予測したりするという点では、やっている「計算」は、多くの場合、共通しているのである。

 統計手法との「共通性」を意識して、大きく整理すれば、機械学習とは、

○データと「知りたいこと」との統計的、確率的関係を数式化する
○その数式の「当てはまり具合」を、繰り返し計算による調整で、高めていく
○データと繰り返しの数が多いので、そこを機械で実施させる

ということになる。


システム2の補完として

 「この機械学習/統計手法に基づくデータ分析が、人にどのような意味を持つのか」を、行動経済学という別の角度から考えてみたい。

 近時の行動経済学の理論的仮説として、人間の思考には、2つのモードがあるとされている。直感的な早い思考である「システム1」と、論理的で遅い思考である「システム2」である。様々な情報に基づいて、論理的、統計的に思考するシステム2は、本来的に人間の思考に備わっている。
 だからこそ、人間が機械学習を作り出すことができるのである。

 しかし、このシステム2は高コストな仕組みであり、日常的に動いているのはシステム1の方だ。システム1は、「(印象に残っている)経験と勘」によるスピーディーな判断を可能とするが、その分、ある種のバイアスを持っていることになる(行動経済学に基づく各種の実験によって、これらのバイアス、人間の認知傾向について、様々なものが発見されおり、人事評価の評価基準の策定などにも応用されている)。

 この行動経済学の知見を踏まえると、機械学習とは、システム1が持つバイアスを補正するための情報を生み出すため、高コストのシステム2の思考の一部を、機械に下請けに出していると解釈できる。


統計分析と機械学習の差とは?

 統計は、目の前にしている事象、出来事の特徴や傾向を把握し、「なぜ、そうなっているのか」を探っていこうとする知的営みであり、原因を探っていくことが、その目的、動機となっている。

 一方、機械学習では、インプットがアウトプットに変化していくメカニズム、因果関係を解明することよりも、主に複雑な事象の予測をしたいという欲求、目的を持っている。有名なのは、囲碁やチェスといった複雑なゲームの勝利の方程式だが、天気予報であったり、複雑な化合物の組成であったりといった、かなりの多数の要素が複雑に絡み合っている現象のインプットとアウトプットの関係を予測することが目的、動機、となっている。逆に、インプットとアウトプットの関係の一つ一つのステップやメカニズムの解明には優先順位が置かれていない。


ヒューリスティックの補正

 日常生活において直面する様々な事象に対処していく上で、とにかく「予測」できれば良いということにはならないだろう。それよりも、直面している事象の意味やそこに至る過程を解明することが求められているはずだ。
 ということであれば、統計的発想が重要で、そこに「予測」を主眼とする機械学習的なものの考え方を加味するということになるであろう。

 特に、重要なのは、システム1によってなされる事象理解におけるバイアスを、どう補正するかということである。人間には、様々な評価バイアス、認知バイアスがあるとされている。これらは、先に紹介した行動経済学では、ヒューリスティックと呼ばれ、大きく次の3つに整理されている。

①利用可能性ヒューリスティック
 関連する情報を全て入念に調べることなく、簡単に手に入る情報に頼る。

②代表性ヒューリスティック
 類似性がありそうに見えるというだけの理由からもっともらしい関連性を見つける。

③「アンカリングと調整」ヒューリスティック
 特定の参照点を判断のアンカー(錨)として、この参照点に合わせて選択を調整、判断する。

 このようなヒューリスティックを、統計的に説明されるデータ分析によって修正するということが、意思決定の質の向上のために有効なのではなかろうか。