見出し画像

数分で Computer Vision を概観(ひと夏の挑戦とカンブリア爆発、そして新しい景色)

 Computer Vision について書きます。

 Computer Vision (コンピュータービジョン)という言葉は、あまりメディアに出ることもなく、一般の方に知られることの少ない用語です。Computer Visionは、コンピューターサイエンスの一領域であり、コンピューターにどのように物を、世界を見るかを教え、視覚を与えることができるかを追求しています。

 百聞は一見にしかず、といいますが、そのレベルに到達するためには、視覚的に、情報を取得し、加工し、分析し、立体的に把握し、状況を理解し、物体を認識することができる必要があります。それができて始めて、物が何であるかを言うことができ、機械の処理を自動化させ、人々をナビゲートし、障害物を回避するということもできるようになります。

 Computer Vision の研究は、1816年のカメラの発明にその原点を見ることができます。それから主にメカニカルな領域で様々な発展がありつつ、150年たった1966年の夏に、長く語り継がれる一つのエピソードが誕生しました。コンピューターサイエンティストで後のMIT AI Lab の共同創設者、Marvin Minsky が当時大学生だった Gerald Sussman (後のAI-based CAD の第一人者で、計算記述の権威)に、Computer Vision Problem というテーマを提案し、こう言いました。「この夏を使って、カメラとコンピューターをつなげて、コンピューターに何が見えているのかを言わせてみてよ」 これが、人工知能に連なる Computer Vision という分野誕生の契機と言われています。それは大学学部生のひと夏の課題だったという伝説です。もちろんその年の夏でプロジェクトは完了せず、この難題に挑む多くの研究者が現れ、研究と開発は続き、それから更に50年の年月がたち、2016年に Minsky は亡くなりました。
 そして現在、Computer Vision は長足の進歩を遂げました。2010年の教科書「Computer Vision: Algorithms and Applications」には、OCR、バーコードリーダー、指紋センサー、3D モデリング、モーションキャプチャー、監視カメラ、CTスキャンにおける腫瘍の発見等、Computer Visionがどのようなことを実現できているかが記載されています。今や、カメラをつなげてコンピューターが何が見えているのかは、ある程度、言えるようになりました。それだけではなく、よりカメラも高度化させることに成功しました。パノラマ写真、三次元カメラ(Depth Camera)、ピンぼけ補正、カメラの手ブレ防止、自撮り写真を演出するフィルター、それら恩恵はあまたの製品・サービスに導入されています。更には、昨今の、AR (拡張現実)VR (仮想現実)MR(複合現実)の進化もComputer Vision 研究の成果です。 VR、MRで使われるHMD (Head Mount Display)は、前述の Marvin Minsky の発明です。また、今後、普及していくであろう、Autonomous Car やDelivery Drone も膨大な これら 研究の努力の上に成立します。

 コンピューターの視覚 (Computer Vision )と言いますが、そもそもコンピューターにとって全てのものは情報です。我々は花を見たら、それが花だと分かりますが、コンピューターにはその物体が、生物学的に、あるいは、文化的に、花という意味をもっていることは分かりません。そもそも理解する必然性が内在していません。コンピューターにとって、動画像も基本はピクセルの連なりであり、数字の連なりです。RGB で表現すれば、色は3つの数字の配列になり、その膨大な集まりこそが画像ということになります。そこにはコンピューターにとっての固有の意味が存在するわけではありません。
 そこで多くのアプリケーションを開発することによって、意味を付与し、コンピューターに世界を理解させていく必要があります。例えば3D復元です。二次元データである写真画像等から、三次元の物体や景色を構成していきます。例えば、物体認識です。画像の中にある、物体、例えば家具とか、動物とか、植物とか、人間とか、それが何であるかを認識していきます。
 これら様々なアプリケーションの拡充には、代数幾何や様々な応用数学、物理学や統計が力を貸し、そして機械学習、深層学習が進化を後押ししています。インターネットの発展によりセンサーやモバイル機器が普及し、それらによる大量の動画像データが蓄積され、学習データを用意するコストも大幅に下がりました。機械学習手法を使い、コンピューターに、物体の画像と意味の正解セットをトレーニングさせることが容易になり、認識の精度は飛躍的に向上しました。中でも、深層学習のブームの火付け役にもなった Convolutional Neural Network (CNN)の貢献が大きいです。CNNは、画像を、フィルターと呼ぶ小さいピクセルの集まりに分割します。それぞれのフィルターはピクセルのマトリックスになっていて、このマトリックス内のピクセルのパターンが、他のピクセルのパターンとどう異なっているかをスキャニングすることで、画像の識別・分類を行います。またCNNはレイヤー構造をもっており、各レイヤーへの入力と出力が類似しているので、レイヤーをブロックのように積み上げることができます。画像という存在の抽象的な部分(エッジやテクスチャー等)を最初のレイヤーで学習し、その後のレイヤーで画像に写っているものの形状等を学習し、更にその後のレイヤーで構成物や被写体そのものを学習します。このような層構造により、複雑な物体の認識も効率的・効果的に行うことができます。深層学習の Computer Vision への適用は、2012年でのILSVRC2012(大規模画像認識チャレンジ)におけるプレトレーニングなしでのCNNの圧勝という華々しいニュースによって広く注目されるようになりました。その後、この分野の探求は広く進み、CNN だけではなく、Recurrent Neural Network (RNN) を用いた効果的な動画(画像シーケンス)の認識・意味理解からの精度向上等、コンピューターに動画像の意味を教える、意味を獲得させる研究は大きく進捗してきました。

 更に、このような深層学習による画像認識・物体認識を中心とした成果は、今後のロボティクスの発展を大きく後押し、製造業を中心とした多くの産業で革新をもたらすことが期待されています。例えば、倉庫内のロボットがピッキングをしたり、物の仕分けをするのは、あるいは、Autonomous Carが無人で道路を走るのは、今までは厳格に定義されたルールの中で、その通りに存在する、形状や大きさも厳格に定められた物と環境に対してのみできました。ですが、適切に構築された Computer Visionシステム、すなわち、センサーやカメラ、そして空間のマッピング技術(SLAM等)、それらによって得られた各種データや動画像への認識技術の適用によって、物を認識し、形状や大きさを都度正確に把握できれば、より柔軟に産業用ロボットはタスクをこなし、安全に Autonomous Car は道を走り、Droneは空を飛ぶことができるようになります。
 2年前の「新経済サミット2017」で、松尾豊 教授は、このロボットの「眼の誕生」が生物におけるカンブリア爆発と同じことを引き起こすと述べました。


46億年という地球の歴史の中で、5億4200万年前から5億3000万年前という短期間の間に、現存の種が出そろう「カンブリア爆発」が起きた。この発現について、著者のパーカーは、生物に眼ができ、視覚情報が入るようになった“光スイッチ”で説明している。それまでの生物は匂いを頼りに緩慢に動いていたが、眼を持つ三葉虫は遠くの外敵を察知し、素早く動けるようになった。やがて相手の生物も眼を持ち、生存戦略が多様化したのだ。 松尾氏は「同様のことが機械やロボットの世界でも起きる」と語る。「ただし、現在は前カンブリア時代です。イメージセンサーは網膜の働きしかない。脳の裏にある視覚野で信号を受け、初めて本当の意味で眼が機能し、多様な作業ができます。この視覚野の働きがディープラーニングにあたります。眼を持った機械により、自動化できなかった農業、食品加工、建設、組立て加工などの産業が一気に発展する。“機械・ロボットのカンブリア爆発”が起き、大きな産業を興せるでしょう」

 以上のように、深層学習によって加速している、今後のComputer Vision の進化がもたらす革新のポテンシャルは大きく、カンブリア爆発のようなサービスやアプリケーションの多様化も期待されます。ですが、とはいえ、それでもコンピューターにとって本質的な意味を獲得していくというのはまだまだ道ははるか遠いというのも現状です。
 例えば、昨今はやっている、Generative Adversarial Network (GAN)による画像生成は、Computer Vision の最新トピックと言えますが、膨大な画像から学習させて、新しい画像を生成させていくと、人間にとっては例えば多足多眼の犬のような生理的に気味の悪い画像が生成されることがあります。


 コンピューターにとって全てのものは情報です。言い方をかえると、人間にとって重大な意味があることが彼らにとってはほんのちょっとの差異でしかないこともあります。上下の向きは、重力に縛られて生きる我々にとっては重大な意味を持ちますが、彼らにとっては画像が逆さまになっているだけです。色の反転もそうです。このことは、逆の可能性も示唆します。つまり、人間にとっては意味をもたないが、コンピューターにとって有益となる画像のあり方が存在しうる可能性です。最近流行りの Data Augmentation のテクニックの一つである、画像のMix Up は、人間にとっては意味をなさない混ぜ合わされた画像がコンピューターにとっては学習効率を高めていくのに効果的である、ということを示しました。


また、人間にとってはその違いが知覚できないものも、コンピューターにとっては情報の違いとして正確に捉えることができるものもあります。例えば、人間の脈の動きや呼吸の胸の上下動も、わずかな動きのために人間の知覚では見逃しがちであっても、コンピューターは正確にそれを捉えることも可能で、様々な医療センサーの開発につなげることができます。8Kカメラの高精細な動画は時として人間が知覚できる情報量をこえる場合があるといわれていますが、コンピューターにとっては、計算資源の追加によってこの問題は対応できます。今までは人間がコンピューターに見えるものを教えていたのですが、これからはコンピューターが人間にこういうものが見えるんだよということを教えてくれる、ということも始まります。教えるだけでなく、教えられる、関係は一方通行から相互のものになります。コンピューターの眼を通して我々が世界を見るということでもあります。まるで親と、成長著しい子供の関係であるように。

 人間の視覚、コンピューターの視覚は、お互いがやりとりをする意味を介して発展してきましたが、今やそれぞれの方向性を見出し始めてもいます。前述したカンブリア爆発の喩えのように、多様な産業でのアプリケーションの発展が期待されます。Computer Vision の更なる進化が、今まで眺めたことのないどのような風景を我々に見せてくれるのか楽しみでもあります。

補足
 本記事に関連して、筆者が関わってきた楽天技術研究所の画像認識によるチケットレス入場や、画像認識も活用されるAIによる感情認識の記事を以下に紹介します。


この記事が気に入ったらサポートをしてみませんか?