見出し画像

噛んで含めるように機械を育てる

機械学習(AI)では、画像とか文書とか音声とか、いろいろなものの特徴をコンピュータに学習させて、分類や判定を行う。
例えば、様々な種類の動物の写真を何千枚も用意して、画像データとそれぞれの画像に写っている動物の名前をコンピュータに突っ込んで覚えさせてしまえば、次からは画像を見せてそこに何の動物が写っているか答えられるようになる。
音楽ファイルを学習させればジャンルを判定できるようになるし、文書を放り込めば何のテーマで文章が書かれているか分かるようになる。
融通が利かない点としては、学習していない動物はもちろん判定できないし、新しい音楽ジャンルのことは当然、知らない。
とはいえ、もっとも近いと思う動物やジャンル、テーマを答えてくれるので、新しい事物に出会ったときの人間と同じかもしれない。

ところで、コンピュータに学習させるときの要点がいくつかあるらしい。
学習モデルと呼ばれるプログラム、つまりはどういう思考回路でコンピュータに学んでもらうのかは大切だろうし、そもそもコンピュータ自身の性能は学習速度に直接、影響する。
しかし、プログラマーが学習モデルの構築とともに、手間と時間と配慮を投入するのは、データの形式と事前の加工らしい。
データを学習モデルに放り込むといっても、ただ入れればいいわけではない。
学習モデルが正しく学習できるように、事前にある程度、データを成形する。
病理学領域では、病気の組織標本、つまり、切除され取り出された病変部を薄く切って見やすいように染色したもの、の画像データをもとに病名の診断をする機械学習モデルの開発が進んでいる。
ある講演で、もっとも苦労したのは標本ごとの染色の程度を補正することだと演者の先生が言っていた。
病院ごとに、あるいは標本作製の担当者によって、全体に濃く染まった標本と薄い標本が存在する。
病理医の視覚や脳は、自動的に染まりの濃さを補正しながら、標本を観察している。
例えば、ある病気では、紫色に強く染まり、かつ、ある一定の形をなす細胞が見つかるとして、全体に紫色に染めすぎた標本を見た病理医が、すぐさまその病気だとは思わない。
紫色に染まりすぎだと認識しつつ、それでも目的の細胞があるかどうか探索している。
こうした補正はほとんどのケースにおいて無意識で行われる。
しかし、コンピュータはこういったことが時には苦手らしい。
だから、機械学習をさせる前に、あらかじめ色味を補正するステップを入れるほうが正確に診断できるようになるかもしれない。
要は、画像なら画像の特徴がはっきり出て、なおかつ、全体に色味がおかしいといった変な偏りやノイズの少ないデータじゃなければいけないということだ。
機械学習の研究がもっと進めば、そういったデータの成形すらも、自分で学習しながらやってくれるようになるだろう。
それにしても、日進月歩の機械学習にあって、学習をさせるその手前の、細々とした補正や変形に日々、格闘しなければならないのは奇妙に思える。
それはきっと人間側の基準で考えているからだ。
自分自身が、見たものや聞こえる音を認識する前に、いちいち労力をかけて補正しているような気がしないからだ。
きっと、人間が無意識で行っている情報の整理は洗練されたシステムなんだろうなと、いまいち片付ける気のしない、デスクに積み上がった書類を見ながら思った。

この記事が気に入ったらサポートをしてみませんか?