見出し画像

E資格【ラビット・チャレンジ】109日目/YOLO簡単なまとめ

●既存の手法より優れている点

回帰問題に落とし込んだので処理速度が早い。

画像全体を見るので誤検出が少ない。

●構造の説明

画像をS×Sのgridに分割する。

それぞれのgrid(grid cell)は「bounding boxes(物体の候補領域)」(※クラス推定)と、「bounding boxの信頼度」(※回帰)を行っている

bounding boxは

x:「bounding box」の中心の座標(x軸)
y:「bounding box」の中心の座標(y軸)
w:「bounding box」の横幅
h:「bounding box」の高さ
信頼度

のパラメーターから構成されている。

出力形式:

検出数をBとして分類クラス数Cとすると

S☓S☓(B☓5+C)のテンソル形式で出力される。(この5はパラメータの5)

最初のconv層(24層)で特徴量を抽出し、最後の全結合層(2層)で「分類」や「物体領域の座標修正」を行う。

●特徴

「YOLO」は単一のネットワークで完結している点が従来の手法と異なる。

「Fast YOLO」は汎用的な物体検出としてはもっとも早いアルゴリズムであり、「YOLO」はリアルタイム画像認識の(2016年5月時点)段階では最先端の手法。

「YOLO」は新しいドメインの画像にも対応できるのでアプリケーションへの適用に適している様子。

「VOC 2007」、美術作品のいずれにおいてももっとも高い精度を発揮した。


●苦手なところ

1つのgridで分類できる物質はパラメータとして設定した「バウンディングボックス数」に制限されてしまう。
また、各ウンディングボックスにおける予測クラスは1つになる。


そのため「小さな物体の集まり」の識別が苦手。

また、「既存とは異なるアスペクト比を持つ物体」の検出も苦手。

この記事が気に入ったらサポートをしてみませんか?