データが導く正解とは

2019年11月15日 20:33

COMEMOの方で意見を募集しているということだったので、「データが導く『正解』を信じますか」という質問について考えてみたら、信じるとか信じないの前に、「データが導く正解って何だ？」というところで思考が深みにはまってしまいました。。。

運転を例に考えてみましょう。自動運転ではなく普通の運転です。これは、周りの車や歩行者、道の状態、天候や車のスピード、目的地までの距離、約束の時間や自分の疲れ具合などなど、ものすごい量のデータを脳が絶えず処理しながら、今すべき動き（ハンドルを切る、ブレーキを踏む、ウィンカーを出す）を導き出しています。そして、車の運転において、「事故を起こさず目的地まで無事にたどり着くこと」が正解だとすれば、殆どの場合、脳がデータをもとに導き出している答えは正解です。

では、事故を起こすのはどんな時か。ブレーキが壊れて止まれなかったなど、正解の行動はわかっているけど物理的にそれができないというケースを除けば、以下のようなパターンがあると思います。

・データが足りなかった：暗い道で歩行者が見えずにぶつかったといった、事故を起こさないための判断をするにあたって必要なデータが脳に届かなかったケース。歩行者がいるというデータが届いていれば、避けるべきという正解を脳は導き出せたはずです。正しい判断をするためには、必要なデータが全て揃うことが極めて重要です。

・データの評価を誤った：いつの間にか運転中に寝てしまった（自分の疲労具合というデータを過小評価した）、大丈夫と思ったが速すぎてカーブを曲がりきれなかったなど、データ自体は脳に届いているけれど、そのデータの評価を正確にできなかったケース。これは非常に人間的なエラーだと思いますが、AIにおいても起こりうるミスです。当たり前すぎる話ではありますが、データを基に正解を導くためには、届けられたデータを正確に評価することが必要です。

・正解を知らなかった：一方通行の意味を知らずに逆走してぶつかってしまったなど、本来あってはいけないことですが、何が正しい判断なのかを知らなかったというケース。先述の「評価を誤る」というのは、本当はどうすべきか知っていたけれども、疲れや過信によって判断を誤るというパターンでしたが、そもそもの判断基準自体に不備があれば、正解の出しようがありません。自動車の場合は、こういうことが起こらないよう免許制度があったりしますが、めちゃくちゃな運転をしている自転車のライダーなんかは、正しい運転の仕方（自転車は本来車道を走るべきなど）を知らないケースが多い気がします。いずれにせよ、データから正解を導くためには、正しい評価基準が必要ということですね。

・正解が無かった：大勢の集団を避けるためにハンドルを切って一人を轢いてしまったなど、いわゆるトロッコ問題的なケース。世の中には絶対的な正解が存在しない問題も多々あるわけで、そういったケースにおいては、データどうこうとは別次元の話になります。

他にもこれらの亜種のようなパターンもあるとは思いますが、大きくはこの４つのいずれかに分類されるはずです。それはつまり、データから正解を導くためには、けっこうはっきりとした条件があることを意味します。その条件とは、「画一的な正解が存在し、その正解を知っていること」。そして、「判断に必要なデータが全て揃っており、基準に基づき正しく判断できること」です。

翻って、今回の意見募集のエントリを読んでみると、意見を募集されている植松さんのお話は、もっとずっと感覚的なことだと感じます。AIが「これが正解」って言ってくることに対して、感覚的に納得いかない。その気持ちはすごく共感するのですが、それは根っこの部分にある「何を正解とするか」が問題なように思いました。ストレスを計測するシステムのお話が出ていますが、ここで問題になるのは、AIが正確にストレスを計測できているかではなく、「ストレスってそもそも何よ？」ということではないかと。

システムの詳細はわかりませんが、おそらく心拍や発汗、体温などのデータを組み合わせて、あくまで統計的に「ストレスを感じている人の傾向にある」と言っているだけかと思います。しかし、そもそもストレスを感じている状態というのが、果たしてそのような生体データだけで図れるのかという大きな問題があります。条件の一つである、必要なデータが揃っているのか、という話ですね。

それ以上に、ストレスという実は極めてアバウトな概念は、人によって捉え方が大きく異なります。専門的には、環境の変化は、例えマイナスな状況からプラスの状況に移ったとしてもストレスであるとされますし、生体データなどから観測する数値的なストレス状態と、人がその状態をストレスとして認識しているかどうかには、もともと乖離があるはずです。

何が言いたいかというと、今回の意見募集のエントリに書かれているようなケースというのは、大前提である「画一的な正解」が存在しないものであり、この分野においてはデータで正解を導くことがそもそもできないということです。

また、「データが導く『正解』を信じますか」という問いの核心は、ストレスなど人間が感覚的に使っている概念に対して、画一的で数値的な認識を当てはめること自体がおかしいということ。もっと言うと、人それぞれにとって正解の意味が異なるのに、同じものさしで測ること自体がおかしいということ。これは、データで導くかどうかというよりも、人の価値観の多様性と、その多様性を排除しようとする社会の対立という、AIやシステムとは別の軸の話にあるのではないかと思います。

といったようなことをひっくるめて、私はデータが導く正解を信じますが、データで正解を導き出せる問い自体が実は極めて少ないということも、非常に重要だと思うのでした。

データが導く正解とは

いいなと思ったら応援しよう！