おしゃべりな 人工知能講座⑦
■機械学習のまとめ
天馬「今まで説明した機械学習を、用途別にして代表的なアルゴリズムを表にまとめてみた。情報圧縮だけは説明を省いてしまったが、最近はそれほど使わないので問題ないと思うが」
猿田くん「え~!アルゴリズムって、いっぱいあるなあ。面倒だから、これひとつあれば何でも解決できる、万能アルゴリズムってないですか?」
天馬「若いくせに、ものぐさだな。機械学習の分野では、No Free Lunch定理という有名な定理がある。これは、どんな問題やどんなデータに対しても最高の精度を出せる万能なアルゴリズムは存在しないという定理だ。
機械学習には、とても長い研究の歴史がある。そのなかで、用途ごとに様々なアルゴリズムが考えられ、先人たちの多大な苦労によって、少しずつ改良され精度が向上してきたのだ。だからここに記載したアルゴリズム以外にも、さらに数多くの手法がある」
伴くん「先生、それでは実際に僕たちが機械学習を利用する時は、どうすればよいのですか?」
天馬「今回の講義は座学なので、実際に手を動かす体験はできないな。まあ現場で機械学習を利用する場合には、対象となる問題の構造が不明の場合、様々なアルゴリズムで実際に実験をするしかない。この実証実験はPoC(Proof of Concept)と呼ばれているが、要するに汗をかいてあれこれやってみなければ果実は得られない、ということだな」
■丸暗記するのが過学習
天馬「では次に移ろう。しかしマリリンは、私が何も指示しなくても、適切な図を出せるようになったな。学習効果が高いもんだ」
愛さん「だって、この講義は何度もやっているからではないのですか?」
天馬「いや、この講義は今回が初めてだ。まあとにかく、この図は機械学習を実際に利用する際の問題を、単純化して説明したものだ。
最初に説明した線形回帰の話は、まだ覚えていると思う。この図の丸い点は教師データをプロットしたもので、線は教師データを基に誤差が最小になるように引いた線だ。左のグラフは、変数が1個つまり直線で近似しようとしたものだ。見たとおりに直線では誤差が大きすぎて使い物にならない。逆に右の図は、変数を7個も用いて複雑な予測曲線を作りだし、可能な限り教師データに、予測を近づけようとした図だ。これでは逆にデータがない箇所が大きく外れている。このように、教師データに合わせ過ぎた状態を過学習 over-fittingと呼び、注意が必要だ。もっとも教師データの件数が膨大にあれば、このような過学習は解消するのだがね。しかし実際の利用現場では、入手可能な教師データの数は限られている場合が大半だ。したがって、その制約条件の中でいかに精度の良い予測モデルを得るのかを、試行錯誤しながら考えなければならないのだよ」
伴くん「この過学習が生じたかどうかは、どうすれば分かるのですか?」
天馬「正解付きの教師データを、すべて学習に使わずに、例えば7対3に分ける。教師データの70%で学習させて、残り30%のデータで検証すれば、そこで用いたアルゴリズムとパラメータでの正解率が判明するだろう。このような検証方法をホールドアウト法と呼び、このような検証方法を用いれば精度の良いモデルを作れる」
愛さん「では、この過学習が生じていたら、どうすればよいのですか?」
天馬「まずは予測に必要な変数を加えたり、逆に減らしたりしてみる。もしくはパラメータを調整してみるんだ。それでもダメだったら、アルゴリズムそのものを変えて、再度実験をするしかないな。この過学習の問題は、後で話すニューラルネットワークでも、よく問題になる現象だ」
猿田くん「でも教師データが大量にあればいいんですねよ」
天馬「まあそうなんだが、この過学習というやつは、言ってみれば試験前に徹夜で教科書の試験範囲を丸暗記する学生みたいなもんだ。教科書に載っていることは答えられるが、ちょっとヒネられると答えられなくなるだろ。ちょうどそれと似たようなものだな。猿田くんもそうだったろう」
猿田くん「ボクは、そんな丸暗記なんて時間の無駄なことはしませんよ。真面目だからキチンと応用問題まで勉強しましたよ」
愛さん「あら、伴さんなら分かるけど、猿ちゃんが真面目に勉強する姿は想像できないわ」
天馬「まあ本人が言っているんだから、そういうことにしておこう。とにかく教師データが大量にあると言う意味は、あらゆるパターンがそこに含まれているので、応用問題でも解けると解釈ができるな」
天馬「これで機械学習の話はお終いだ。機械学習の主要なところは話したつもりだ。要するに機械学習とは、統計学で発達してきた様々なアルゴリズムを応用したものだと思えばよい」
伴くん「そうですね。僕が昔大学生の時に習った統計学と使っていた考え方は、同じように思えました。それがなんで機械学習という名前になったのでしょうか?」
天馬「統計学は、あくまでも何らかの事象を、数式で説明するための学問だったろう。しかし機械学習では、同じ数式を用いても『予測』や『分類』などに利用している。違いはそんなところかな」
愛さん「え?それじゃ人工知能の話とは、関係なさそうに思えますけど」
天馬「いやいや、これがちゃんと人工知能に繋がるんだよ」
猿田くん「じゃあ統計学が進化して、人工知能になるんですか?」
天馬「まあ、そういう考え方もある。後で説明するから先走りしないでくれ。では話を元に戻して、次からはいよいよニューラルネットワークの原理に移るぞ」
【ディナータイム】
キーンコーンカ ー ンコ ー ンとチャイムが鳴る。会議室はブラインドで外が見えなかったが、いつのまにか17時半だった。いつも時間に正確な日登美さんが部屋に入ってくる。
天馬「ちょうど時間になったな。本日の講義はここまでにしよう」
日登美さん「天馬先生、お疲れ様でした。みなさんもご苦労様でした。今日の講座はこれで終了です。明日は9時開始となりますので、遅れないようにしてください」
愛さん「せんせ、今日は泊まりですよね。せっかくなので、みんなで食事でもどうでしょうか?」
天馬「おや、ありがたいね。この街は初めてなので、どこで夕飯を食べていいかも分からなかったし、一人でボソボソ食べても美味くないしな」
日登美さん「あらいいですね。私も行きたいところですが、まだ仕事があるのでここで失礼します。みなさん飲み過ぎて明日は遅刻しないでくださいよ」
愛さん「ハーイ。よかった、伴さんは大丈夫ですよね」
伴くん「家にはお昼休みに、先生と飲み会になるかもって伝えてあるから大丈夫だよ」
天馬「なんだ、お昼から決めてたんだ」
猿田くん「愛ちゃんが張り切って、昼休みから根回ししてますからね。ただ、ボクはちょっとだけ遅れます。どうしても今日中にやらなきゃならない作業が入ってしまったので。愛ちゃん、先にやってて」
愛さん「あら宴会大好き男子の猿ちゃんが遅れてくるとは、珍しいわね。じゃ、しかたないから先に遠慮なくガンガン飲んでるわ。せんせ、行きましょ」
天馬は大学に残してあるマリリンや飛雄が気がかりだったが、今日のルーチンはホテルに戻ってからやることにした。
バタバタと後片付けをした天馬は、愛さん、伴くんと一緒に会社を出て、薄暗くなってきた道を駅方面にぶらぶらと歩く。愛さんが先導してしばらく歩き、ネオンがチカチカと手招きする、小綺麗な居酒屋に入った。天馬が泊まるビジネスホテルにも近く、いかにも女性が選びそうなお洒落な店だ。まだ早い時間のためか客はまばらだったが、薄暗い店内を案内されて、かまくら型の個室に入る。
愛さん「未だに全面禁煙の飲み屋が少ないけど、ここなら煙も入らないし、大丈夫。せんせ、生ビールでいいですか?」
天馬「まあ、とりあえずビールというやつだな」
愛さん「じゃあ生ビール3つお願いします」
愛さんは仕切り屋のようで、伴くんの意見も聞かずに、どんどんツマミを注文をしていく。
愛さん「せんせ、さっきの講義のなかで人工知能なんか存在しない、とおっしゃっていましたが、どうしてですか?」
天馬「お、仕事熱心だね。では聞くが知能とは何だと思うかね?」
愛さん「えーと、知識がたくさんあってそれを使って考えられることかな」
伴くん「いや知識よりも、まず課題とか問題があったら、それを解けることじゃないでしょうか」
天馬「まあ、実は正解というか知能の定義には諸説があって、決まっていないんだ。つまり知能の定義がないのに、それを人工的に創れるわけがないだろう」
愛さん「なにそれ、そんなインチキな話」
伴くん「いやいや愛ちゃん、明確な定義がなされてないと、たとえ人工知能ができましたと言われても、それが本物かどうかを検証できないだろう。そうですよね、天馬先生」
天馬「その通りだ。昔から知能とは何か、という哲学的問題には多くの議論があった。そこに講義の最初の頃紹介した、アラン・チューリングが一石を投じたんだ。それが『チューリングテスト』だ。これは相手が誰か分からないようにして、チャットのようにテキストで会話し、相手が人間か機械か区別ができなかったら、相手に知能があると判断しよう、というものだ」
愛さん「だったら、今あるスマートスピーカーなんかはチューリングテストに合格できそうですね」
伴くん「そう言えば、ヘルプデスクサービスで、チャットボットが回答するものがありましたね。あれだったら合格しそうですよ」
天馬「今あるチャットボットはQAベースだから、想定外の質問には答えられないな。Siriやスマートスピーカーは確かにかなりのレベルまで達しているね。しかし一問一答形式で、質問があったら回答をするが、自ら話すような『会話』ではないな。また想定外の質問があった場合には、人間のオペレーターに繋いでいるという噂もある。都市伝説かもしれないが、もう一息かな」
しばらくガヤガヤと飲んでいると、ようやく猿田がやって来た。
愛さん「猿ちゃん、遅かったじゃない。なにしてたの?」
猿田くん「いやまあ、いろいろと調べものがあってね。それより、なに講義の続きみたいな話をしてんの。愛ちゃん、天馬先生のアイドル、マリリンのことは聞いてくれた?」
愛さん「私はマリリンさんには興味ないもん」
天馬「マリリンは別にアイドルじゃなくて、ただの助手だよ」
猿田くん「おや先生、先生の大学にボクの友人がいるんで聞いてみたのですが、そんな金髪グラマーは見たことがないそうですよ。本当に助手ですか?先生の家にでもいるんじゃないですか?」
天馬「そ、そんなことはない。あの大学のキャンパスは広いからね。それに研究室に閉じこもっていることが多いし」
猿田くん「へーそうですか。まあいいや。で、マリリンって独身?何歳?恋人いるんですか?」
天馬「まあまあ、矢継ぎバヤに聞くもんじゃない。とりあえずビールでも飲んで落ち着きたまえ」
愛さん「そーよ猿ちゃん。なにいきなり、マリリンのことばかり聞いてんのよ。そんなプライベートなこと、先生が教えるわけがないでしょう!」
天馬「そ、その通りだ。申し訳ないが、マリリンの個人情報を部外者に教えるわけにはいかないんだ、猿田くん」
猿田くん「なーんだ、つまんないな。あとで大学の友人に調べてもらおうかな」
天馬「ダメだ、ダメだ。大学関係者の情報は、厳重に管理されているからな」
猿田くん「そうですかぁ?先生の大学のセキュリティは、ザルみたいなもんでしたよ。ちょっと見ただけでも、ルーターのパスワードなんか初期設定のままだったし。とても専門家が管理しているようには見えなかったけどな」
天馬「なに、もう大学のネットワークを調べているのか?」
愛さん「猿ちゃんは、こう見えても情報システム部門で、ハッカー対策の専門家だからね」
猿田くん「いやいや、ボクの友人からの話ですよ。気にしないでください」
伴くん「まあまあ、確かにマリリンさんは非現実的なほどの美人なので、男だったら気になりますよ」
愛さん「あらあら、伴さんまでマリリンさんですか」
天馬「そうだよ。敷島さんみたいなかわいい子を目の前にして、マリリンの話ばかりするのは、どうかね」
愛さん「ありがとう、天馬先生。この人たちには見る目がないのよ」
ワイワイと賑やかに飲みながら、飲み会は夜遅くまで続いた。しかし天馬が途中でホテルにチェックインしていないのに気がつき、アタフタと精算して飲み会は終わることになった。
夜遅く、ビジネスホテルの狭い部屋にたどり着いた天馬は、酔っぱらった頭でノートパソコンを使い、大学のネットワークにログインする。今日の分のログをざっと確認し、深刻なエラーがなかったようなので、そのままベッドにもぐり込み寝てしまった。
翌朝、閉め忘れていたカーテンから、朝日が入り込み、天馬は目が覚めた。天馬は、昨晩の猿田くんの発言で、どこか引っ掛かったことがあったのだが、寝ぼけた頭では、どうしても思い出せない。朝食のバイキングをボソボソ食べていても思い出せなかった。しかたなく、天馬は疑われないように、とりあえず急いで対策をして、ホテルをチェックアウトすることにした。
昨日も歩いた道だったが、快晴の中を今日はラフな格好の社員と思われる人がぞろぞろと歩いている。正門での受付は顔認証されていたため、スムーズに通過する。研究センターの会議室にたどり着くと、すでに人事の日登美さんと猿田くんがいた。講義用のパソコンをセットアップしているようだ。
この記事が気に入ったらサポートをしてみませんか?