AR体験に利用できる画像処理技術(ComputerVision)7選
※弊社のテックブログより移行しております。
https://tech.graffity.jp/entry/computervision
ARは視覚の代替、拡張にあります。 ベースとなる技術である、Computer Visionは、2012年のDeepLearningのブレイクスルーにより、毎年たくさんのComputerVisionの研究が発表されることから始まりました。初めはクラウド上で動くものでしかなかったこのテクノロジーは、今やスマホでサクサク動く時代へ。 AR普及するのに欠かせない、ComputerVisionテクノロジーを今回はピックアップしたいなと思います。
INDEX
1. 顔認識
2. 画像分類
3. 物体識別
4. 物体追跡
5. セマンティックセグメンテーション
6. インスタンスセグメンテーション
7. 姿勢認識
1. 顔認識
顔認識は、顔から特徴点を抽出するテクノロジーです。 現在利用されているARのユースケースでは、ダントツであるFaceFilterがそうですね。 近年急速に普及している、Avatarも同様なテクノロジーを利用しています。
iPhoneXではdepthセンサーより、より細かく特徴点を把握できるので、Avatarの表現をよりリアルにすることができました。 これが画像ベースでできると非常に面白い世界になりそうですね。
以下のMeMojiでは、なんとDisneyのキャラクターになりきっています。 子供に人気が出そうなユースケースですね。
2. 画像分類
画像分類は、画像のラベルを予測するテクノロジーです。
画像分類の学習から予測までのステップは以下です。
・訓練データとして、N個の画像とそれぞれの画像にK個のラベルを用意します。
・DeepLearningでN個のインプットデータと、K個のラベルを学習させます。
・ある画像を入れた時に、K個のどれに分類されるかを予測します。
シンプルなステップですが、画像を正確に予測していくことが難しい。 より具体的に分類したければしたいほど難しいです。 大量なデータとそのラベル、そしてAIエンジニアの力量が必要な分野です。
実際にPiterestでは、大量なデータをオンラインで集め、画像分類を使った画像検索を提供しています。
どのような画像検索かは、こちらのDemoより!
3. 物体識別
物体認識とは、画像の物体それぞれに対して、ラベルとその領域を予測するテクノロジーです。
自動運転の要素技術であることから、大手IT企業が研究開発を進め、リアルタイムに精度高く識別ができています。
・You Only Look Once (YOLO)
・Single Shot MultiBox Detector (SSD)
・Region-Based Fully Convolutional Networks
あたりで検索するとモデルにたどり着けると思います。
以下はYOLOを使った物体識別です。
4. 物体追跡
物体追跡とは、あるシーンの中の物体がどのように動いたかトラッキングし、今後どのように動くかを予測するテクノロジーです。
こちらも自動運転に必要な要素技術なので、TeslaやUberなどが研究開発をしており業界をリードしています。
fully-convolutional network tracker というモデルが有名です。 デモはこちらから。
5. セマンティックセグメンテーション
セマンティックセグメンテーションとは、画像のそれぞれのピクセルが、車、自転車などの概念に属するのかを予測できるテクノロジーです。上記の写真だと、人・道・車・木・歩道などを識別することがピクセル単位でできています。 物体識別とは違って、ピクセル単位で予測できることが一番大きな特徴になります。
以下が有名なモデルになります。 * Dilated Convolutions * DeepLa * RefineNet.
Tensorflowで作った、Dilated ConvolutionsのDemoがこちらになります。
6. インスタンスセグメンテーション
f:id:graffity:20180730131032j:plain
インスタンスセグメンテーションは、セマンティックセグメンテーションをさらに深め、上記の画像のように、車や人をさらに識別してセグメンテーションするテクノロジーです。
Mask R-CNNあたりが有名ですね。 以下がデモになります。
7. 姿勢認識
姿勢認識は、画像から人の体を認識し、ボーンを予測するテクノロジーです。 この技術は、Vtuberに使われている技術ですね。
OpenPoseというモデルが有名で、デモはこちらから。
このボーンを予測するという文脈では、ジェスチャー認識もあります。 2018年のF8で、Facebookが研究している発表していました。こちらもスマホARで使える未来は近いですね。
8. まとめ
「ARイノベーションを牽引するComputerVision7選」ということで、ワクワクする未来感のあるテクノロジーと出会えたらに嬉しいです。 個人的にもテクノロジーが好きなので、率先して深くリサーチしていければと思います。まだまだ公には出ていないCV技術はあると思いますので、定期的に発信していければと思います。
このようなCV技術を使い、早く人類がARの未来に近づけるよう頑張っていきます。
参考記事
この記事が気に入ったらサポートをしてみませんか?