見出し画像

セグメンテーションについて

セグメンテーション:画像を分割する機械学習のタスク

セグメンテーションは、画像をいくつかのオブジェクトに分割する機械学習のタスクです。この分野には主に3つのタイプがあります。

1. セマンティックセグメンテーション

  • 目的: 画像中の全ての画素にクラスラベルを予測する。

  • 特徴: 各画素がどのオブジェクトに属するかを識別します。

2. インスタンスセグメンテーション

  • 目的: 画像中の全ての物体にクラスラベルを予測し、一意のIDを付与する。

  • 特徴: 重なり合う物体を個別に識別し、同じクラスの異なる物体を区別します。

3. パノプティックセグメンテーション

  • 目的: セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせる。

  • 特徴: 画像中の全ての画素にクラスラベルを予測し、物体には一意のIDを付与します。

深層学習によるセグメンテーションの主要なアプローチ

セグメンテーションは、画像を意味のある部分に分割する深層学習のタスクです。以下に、この分野でよく使われる主要なアプローチを紹介します。

全層畳み込みネットワーク (FCN)

  • 概要: 全層畳み込みネットワーク(Fully Convolutional Networks ; FCN)は、Longらによって提案されたセマンティックセグメンテーションのための手法です。FCNでは、VGG16などの画像分類の分野で優れた成果を上げているモデルの全結合層を畳み込み層に置き換えます。画像分類モデルの全結合層を畳み込み層に置き換え、画像全体の特徴を抽出します。CNNではプーリング処理により特徴マップはダウンサンプリングされる。FCNの逆畳み込みネットワークでは、逆畳み込みを用いてアップサンプリングを施す。このアップサンプリングする際に少し前の空間情報を利用する(スキップ接続)を利用することできれいに表示できる。

FCN は,VGGNetなどの初期のアーキテークチャを元に,出力付近の全結合層も含めて,(プーリング層やReLU活性化関数以外は) ,全ての層を畳み込み層で済ませる設計のCNNである.
これにより,出力画像の全ての画素位置で,クラス識別による複数チャンネルのラベル予測を行う「密な予測(dense prediction)」を行うことができる.

このような,全結合層を無くして「出力層付近(ヘッド)も,全て畳み込み層で済ませるCNN」を,全結合が終盤に備わっているCNNと区別する意味で,「Fully Convolutional なニューラルネットワーク」(あるいは「Fully convolutional な CNN = FCN」)と呼ぶ.

  • 応用: セマンティックセグメンテーションに適用され、ピクセルごとのクラス確率を出力します。


SegNet


SegNetは、画像のセグメンテーション(分割)を行うための深層学習モデルで、特にシーン画像のセグメンテーションに適しています。このモデルは、画像の各部分を詳細に分析し、それぞれのピクセルが何を表しているかを識別する能力を持っています。自己符号化に似ています。

SegNetの特徴と仕組み

  • エンコーダ・デコーダ構造: SegNetは、画像から特徴を抽出するエンコーダ部分と、その特徴をもとに画像を再構築するデコーダ部分から成り立っています。エンコーダは特徴マップの代わりに最大値プーリングが利用されている。SegNetでは、前半のエンコーダでプーリングを行うのと同じ回数だけ、後半のDecoderでアップサンプリング(アンプーリング)を行う。そのアップサンプリングを行う際、エンコーダ側の対応する(特徴マップ同士のサイズが同じの)プーリング層において、最大値プーリングをおこなった際に、各窓内で最大値を取ったプーリング座標インデックスを受け渡し、再使用します 。

  • プーリングインデックスの活用: エンコーダで行われるプーリング(データの圧縮)の際に、どの位置の情報が重要かを記録し、デコーダでこの情報を利用して画像を正確に再構築します。

  • 細かな特徴の抽出: SegNetは、画像の小さなエッジやテクスチャなどの細かい特徴も捉えることができ、これにより精密なセグメンテーションが可能になります。

SegNetの応用

  • 車載カメラや室内画像の分析: SegNetは、特に車載カメラで撮影された前方のシーンや室内のシーン画像の分析に適しており、これまでの手法よりも高い精度で物体の境界を識別できます。

SegNetと他のモデルとの違い

  • スキップ接続の不使用: SegNetは、FCNやU-Netのようなスキップ接続を使用せず、独自のアプローチを採用しています。

  • 複数クラスの識別に焦点: SegNetは、画像内の複数のクラスをピクセルレベルで識別することに特化しており、単一物体の前景・背景識別に限定されません。

SegNetは、画像セグメンテーションの分野で新しい可能性を開いた重要なモデルであり、特に複雑なシーン画像の分析においてその価値を発揮します。


U-Net

  • U-netは、画像のセグメンテーション(物体の位置を特定する)を行うための深層学習モデルです。このモデルは特に生物医科学の分野での画像分析に適しており、2015年に発表されました。

U-netの主要な概念

  1. Semantic Segmentation: 画像の各ピクセルをクラス分類するタスクです。これにより、画像全体ではなく、ピクセルレベルでの分類が可能になります。

  2. Fully Convolution Network (FCN): 全結合層を畳み込み層に置き換えたネットワーク。これにより、「物体が何であるか」から「物体がどこにあるか」への出力が可能になります。

  3. Deconvolution: 畳み込み処理の逆処理で、小さくなった画像を元のサイズに戻す「アップサンプリング」の手法です。

  4. Skip-Connection: 畳み込みによって失われる位置情報を保持するための技術。畳み込み後の特徴マップを保持し、逆畳み込み時にこれを利用します。

U-netの構造

U-netの構造は左右対称で、「U」の形をしています。左側では画像の畳み込みを行い、右側では逆畳み込みを行います。この際、Skip-Connectionを用いて畳み込みによって失われた位置情報を補完します。

U-netの特徴

  • 精密なセグメンテーション: Skip-Connectionにより、より精密な物体の位置情報を出力できます。

  • 複数の技術の組み合わせ: FCN、Deconvolution、Skip-Connectionを組み合わせることで、高い精度のセグメンテーションが可能になります。

U-netは、これらの技術を巧みに組み合わせることで、特に医療画像などの複雑なシーンにおいて、物体の正確な位置を特定することができます。このモデルは、深層学習を用いた画像分析の分野で重要な役割を果たしています。



この記事が気に入ったらサポートをしてみませんか?