見出し画像

AR体験に利用できる画像処理技術(ComputerVision)7選

※弊社のテックブログより移行しております。
https://tech.graffity.jp/entry/computervision

ARは視覚の代替、拡張にあります。 ベースとなる技術である、Computer Visionは、2012年のDeepLearningのブレイクスルーにより、毎年たくさんのComputerVisionの研究が発表されることから始まりました。初めはクラウド上で動くものでしかなかったこのテクノロジーは、今やスマホでサクサク動く時代へ。 AR普及するのに欠かせない、ComputerVisionテクノロジーを今回はピックアップしたいなと思います。

INDEX

1. 顔認識
2. 画像分類
3. 物体識別
4. 物体追跡
5. セマンティックセグメンテーション
6. インスタンスセグメンテーション
7. 姿勢認識

1. 顔認識

顔認識は、顔から特徴点を抽出するテクノロジーです。 現在利用されているARのユースケースでは、ダントツであるFaceFilterがそうですね。 近年急速に普及している、Avatarも同様なテクノロジーを利用しています。

iPhoneXではdepthセンサーより、より細かく特徴点を把握できるので、Avatarの表現をよりリアルにすることができました。 これが画像ベースでできると非常に面白い世界になりそうですね。

以下のMeMojiでは、なんとDisneyのキャラクターになりきっています。 子供に人気が出そうなユースケースですね。

2. 画像分類

画像分類は、画像のラベルを予測するテクノロジーです。

画像分類の学習から予測までのステップは以下です。
・訓練データとして、N個の画像とそれぞれの画像にK個のラベルを用意します。
・DeepLearningでN個のインプットデータと、K個のラベルを学習させます。
・ある画像を入れた時に、K個のどれに分類されるかを予測します。

シンプルなステップですが、画像を正確に予測していくことが難しい。 より具体的に分類したければしたいほど難しいです。 大量なデータとそのラベル、そしてAIエンジニアの力量が必要な分野です。

実際にPiterestでは、大量なデータをオンラインで集め、画像分類を使った画像検索を提供しています。 

どのような画像検索かは、こちらのDemoより!

3. 物体識別

物体認識とは、画像の物体それぞれに対して、ラベルとその領域を予測するテクノロジーです。

自動運転の要素技術であることから、大手IT企業が研究開発を進め、リアルタイムに精度高く識別ができています。

・You Only Look Once (YOLO)
・Single Shot MultiBox Detector (SSD)
・Region-Based Fully Convolutional Networks
あたりで検索するとモデルにたどり着けると思います。

以下はYOLOを使った物体識別です。

4. 物体追跡

物体追跡とは、あるシーンの中の物体がどのように動いたかトラッキングし、今後どのように動くかを予測するテクノロジーです。

こちらも自動運転に必要な要素技術なので、TeslaやUberなどが研究開発をしており業界をリードしています。

fully-convolutional network tracker というモデルが有名です。 デモはこちらから。

5. セマンティックセグメンテーション

セマンティックセグメンテーションとは、画像のそれぞれのピクセルが、車、自転車などの概念に属するのかを予測できるテクノロジーです。上記の写真だと、人・道・車・木・歩道などを識別することがピクセル単位でできています。 物体識別とは違って、ピクセル単位で予測できることが一番大きな特徴になります。

以下が有名なモデルになります。 * Dilated Convolutions * DeepLa * RefineNet.

Tensorflowで作った、Dilated ConvolutionsのDemoがこちらになります。

6. インスタンスセグメンテーション
f:id:graffity:20180730131032j:plain

インスタンスセグメンテーションは、セマンティックセグメンテーションをさらに深め、上記の画像のように、車や人をさらに識別してセグメンテーションするテクノロジーです。

Mask R-CNNあたりが有名ですね。 以下がデモになります。

7. 姿勢認識

姿勢認識は、画像から人の体を認識し、ボーンを予測するテクノロジーです。 この技術は、Vtuberに使われている技術ですね。

OpenPoseというモデルが有名で、デモはこちらから。

このボーンを予測するという文脈では、ジェスチャー認識もあります。 2018年のF8で、Facebookが研究している発表していました。こちらもスマホARで使える未来は近いですね。

8. まとめ

「ARイノベーションを牽引するComputerVision7選」ということで、ワクワクする未来感のあるテクノロジーと出会えたらに嬉しいです。 個人的にもテクノロジーが好きなので、率先して深くリサーチしていければと思います。まだまだ公には出ていないCV技術はあると思いますので、定期的に発信していければと思います。

このようなCV技術を使い、早く人類がARの未来に近づけるよう頑張っていきます。

参考記事


この記事が気に入ったらサポートをしてみませんか?