見出し画像

目的達成のためにブラックボックスを許容する - 説明しないAI

以前、機械学習を使うとき、説明可能性が重要になることがあるという話を「AIを意思決定に使うために必要な説明可能性」という記事で書きました。

今回はビジネス目的によって、AIのブラックボックスを許容する、つまり説明しないことを受け入れることについて話します。
この話をするにあたって、Random Forestという機械学習の有名手法の生みの親であるLeo Breimanが2001年に書いた論文「Statistical modeling: The two cultures」 (Breiman, L. (2001), Statistical science, 16(3), 199-231.)の内容を抜粋していきます。
この論文は、「データが生成されるメカニズムにこだわった統計学」と「複雑なメカニズムを複雑なものとして処理した機械学習」について論じている非常に面白い論文です。

「データモデリング」と「アルゴリズムのモデリング」の違い

画像1

Breimanの論文では、統計モデリングを「データモデリング」と「アルゴリズムのモデリング (以下アルゴリズム)」という2つの文化に分けて説明しています。 

データモデリング
「データモデリング」では、例えば顧客の購買行動を、会員ステータスや過去の購入したカテゴリなどを使い、顧客が購買行動につながる変数をモデル化することを目的とします。データモデリングでは、このモデルを使って今後その顧客が何を買うかを予測します。
アルゴリズム
「アルゴリズム」では、なぜ購買したかという過程は気にせず、商品を購入するかどうかの「予測精度の最大化」を目的とします。いわゆる機械学習と呼ばれている世界はこれを指していることが多いです。
つまり、データが生まれる背景の理解は後回しで、とにかく予測精度を上げるために最適化をしていくということです。

簡単に2つの違いをまとめると以下のようになります。

・データがどのように生成されるかを仮定するのが「データモデリング」
・データがどのように生成されるかを仮定してないのが「アルゴリズム」

そもそも、アルゴリズムがこのようなアプローチを取る理由は、データが生成される現象は複雑すぎてモデル化が難しいという考えからきています。
そのため、複雑なものを頑張って理解しようとするのではなく、複雑なものを複雑なものとしておいたまま、予測精度の最大化という目的達成するというアプローチをしているということです。
もし、ビジネスの目的が何らかの予測の精度を上げることでであれば、データが生成されるモデルを考えるよりも、複雑さを受け入れて予測精度が高くなる目的を達成したほうがよいということです。
手段は何でもいいから、とにかく目的を達成するというアプローチとも言えます。

「すべてが釘に見える」状態を避ける

画像2

この論文で面白い点は、Breimanが「データモデリング使うことが、現在の“機械学習が解いているような面白い問題”から統計学を遠ざけた」と主張している点です。
データを生成するときに仮定されるデータモデルに集中するあまり、その先にある予測精度にフォーカスを当てるという分野が統計学では生まれなかったということです。
このことをBreimanは、

If all a man has is a hammer, then every problem looks like a nail

ということわざを利用して説明しています。
このことわざは日本語で「ハンマーしか持っていなければ、すべての問題が釘に見える」という意味で、データモデリングだけを使うことをハンマーだけを持っている状態と同じとBreimanは例えています。
ただし、Breimanは、データモデリングを否定する立場にいるわけではなく、目的に応じてデータモデリングやアルゴリズムを適切に選択する必要があると主張しています。つまり、アルゴリズムだけを利用することも逆にハンマーしか持っていない状態になりかねないということです。

ビジネスでは何を目的とするか

画像3

Breimanの考え方を元にすると、ビジネスで機械学習を用いる目的が予測精度の最大化であれば、機械学習の中身がブラックボックスになることを気にせず、とにかく予測精度が高くなるようなモデルを探してもよいということです。
もちろん予測精度に大きな影響を与えてしまうリーケージには最大限気をつけて学習をしなければなりません (リーケージに関してはまたどこかの機会でまとめます)。高い精度の予測ができたと思いきやリーケージが起きていたということはよくある話です。
逆に、予測精度の最大化よりも、データの中身を理解する必要があるというのであれば、データモデリングが必要になってきます。
つまり、ビジネスで何を目的とするかで用いるべき手法が変わってくることを、使用する側がきちんと理解して、手法を選択する必要があるということです。
特定の手法の専門があればあるほど、問題を自分の得意な手法で解こうとしがちです。問題解決方法にこだわりすぎて、本当に解くべき問題を見失わないようにしましょう。

「何が要因となって結果が出てきたのか?」に対する答え

画像4

予測精度とモデルのシンプルさはトレードオフです。
ブラックボックスを許容して予測精度の高いモデルで結果を示したとしても、「何が要因となってこの結果が出てきたのか?」と聞かれることが多々あります。
これに対して、最近の研究では説明を可能にするための手法がいくつか出てきます。しかし、これらを用いても必ずしも満足のいく説明ができるわけではありません。
そのため、ベストアンサーとは言えないかもしれませんが、この問いには以下のように答えることができます。

「多くの変数を考慮した複雑なモデルのため人が理解できるように説明できる範囲を越えています。説明可能にするためには、予測精度を下げてシンプルなモデルを使う必要があります。」

つまり、複雑なロジックを人が理解できる状態まで「情報を落とす」ということ自体が難しいことを説明し理解してもらうということです。

まとめ

今回は、目的が予測精度を高めることであればブラックボックスを許容する選択もあるという話を、Breimanの論文「Statistical modeling: The two cultures」を紹介しながら解説しました。
AIを利用する現場で説明責任などが発生した場合に、「AIを意思決定に使うために必要な説明可能性」と共に参考となれば幸いです。

この記事が気に入ったらサポートをしてみませんか?