見出し画像

画像認識を現実世界に適用する際の問題点とその解決策

画像認識(Computer Vision: CV)における深層学習の応用は実社会に広がってきていますよね。もう5年ほど前になりますが、ResNetというCNN(ディープラーニングの一種である畳み込みニューラルネットワーク: Convolutional Neural Network)が人間の画像認識の精度を上回ったことは記憶されている方もいるかも知れません。そのCNNに関して、どうやって使えば良いのか、やはり気になることはあるかと思います。

画像等のデータを撮影する機械はどうするのか、そして取得されるデータはどう扱えば良いのか?

大変重要な問題ですよね。まず、AIを訓練するための画像が必要です。医療業界においては、医療機器のリユースがされると聞きましたので、その場合にこのリユースされた機器を使って画像を撮影することになると思います。その際に、「機器の違いによる特性、ノイズ」、「撮影者によるノイズ」などを考慮する必要性が出てきます。

機器が異なる場合には、同じ画像枚数、同じ解像度、同じ画像の明るさになるように調整する必要性があります。なぜならば、これらの特徴が異なる場合には、その異なった特徴を見分けることで分類できてしまうことがあるからです。

また、撮影者によって撮り方があからさまに異なる場合は、やはり、それぞれある程度の画像数があったほうが結果に信頼性が出てきます。

一般にデータセットを構築する際にも、データのラベルを均等にすることが必要です。(「腫瘍なしが99%」で「腫瘍ありが1%」であった場合に、"腫瘍なし"と予測するだけで99%の予測精度になってしまいますよね。通常これくらいの偏りになってしまうと、ディープラーニングのモデルは学習せずに、"腫瘍なし"を吐き続ける結果になってしまいます…)

上記がデータセットを構築するまでの話でしたが、機器の違いによる特性などを考慮して、ディープラーニングのモデルを賢くする方法もあります。ここでは、代表的な転移学習である「ファインチューニング」「ドメイン適応」をご紹介します。

ファインチューニングは、一旦モデルを作った後、対象となるドメインの画像を更に教えてあげることです。例えば、犬や猫、コンピュータなど一般的な画像が含まれるILSVRCデータセットに対して、マニアックな鳥だけを後から教え込むことなどが、例としてあげられます。こうすることで、最初から学習させるよりも、低コストでそのディープラーニングのモデルは高い精度で鳥の詳細なクラスを予測することが可能となります。

ドメイン適応は、十分な教師ラベルを持つドメインから得られた知識を、十分な情報がない目標のドメインに適用することで、目標ドメインにおいて高い精度で働く識別器などを学習します。特に、目標のドメインの分布を十分な教師ラベルを持つドメインに合わせるようなストラテジーが採用されることが多いです。

今回の例では、たくさんの画像を取得している機器Aでディープラーニングのモデルをトレーニングし、機器Bでの画像をドメイン適用させて、機器Bでもそれなりの精度を達成させるのが、上記のアプローチとなります。

プロダクトの自動分類

「野菜や果物等を、AIを使ってベルトコンベアで自動分類」できれば実社会にとても役立つことは簡単に予想できると思います。一方で、分類するクラスの数や種類が多岐にわたると、分類が難しくなると予想されます。具体的に、このような問題に対して、きゅうりの自動分類に挑戦した農家があるようです。

解説にあるように、最大152層から構成されるResNetのような深いニューラルネットワークではなく、数段の層の深さでも人間のサポートになるようなディープラーニングのモデルが出来ているんですね。


この記事が気に入ったらサポートをしてみませんか?