👀Viola-Jones物体検出フレームワーク

2023年11月15日 07:00

Viola-Jones物体検出フレームワークは、主に顔検出に使用される高速なオブジェクト検出アルゴリズムです。このフレームワークは、積分画像、Haar-like特徴、AdaBoost、カスケード分類器の4つの主要なコンポーネントを使用します。以下は、このプロセスを疑似コードとして表したものです。

def viola_jones_detection(image):
    # ステップ 1: 積分画像を計算
    integral_image = compute_integral_image(image)
    
    # ステップ 2: 使用するHaar-like特徴のセットを選択
    features = select_haar_features()
    
    # ステップ 3: AdaBoostを使用して特徴を強化
    classifiers = train_adaboost(features, training_data)
    
    # ステップ 4: 分類器のカスケードを構築
    cascade = build_classifier_cascade(classifiers)
    
    # 検出プロセス
    detected_objects = []
    for (x, y, window_size) in sliding_window(image):
        window_integral = compute_window_integral(integral_image, x, y, window_size)
        if cascade_classify(cascade, window_integral):
            detected_objects.append((x, y, window_size))
    
    return detected_objects

def compute_integral_image(image):
    # 積分画像を計算する関数 (前の説明を参照)
    pass

def select_haar_features():
    # Haar-like特徴のセットを選択する
    # このステップでは、顔検出に有用な特徴のタイプやサイズを定義します。
    pass

def train_adaboost(features, training_data):
    # AdaBoostアルゴリズムを使用して弱分類器を訓練し、それらを組み合わせて強分類器を作成
    pass

def build_classifier_cascade(classifiers):
    # 分類器のカスケードを構築。各段階では、前の段階を通過したウィンドウのみが次の段階に進む
    pass

def sliding_window(image):
    # 画像上を移動するスライディングウィンドウを生成するイテレータ
    # この関数は、検査するウィンドウの位置とサイズを返す
    pass

def compute_window_integral(integral_image, x, y, window_size):
    # 指定されたウィンドウの積分画像を計算
    pass

def cascade_classify(cascade, window_integral):
    # 与えられたウィンドウに対してカスケード分類器を適用し、物体が存在するかどうかを判断
    pass

Viola-Jones物体検出フレームワークは、Paul ViolaとMichael Jonesによって2001年に提唱された機械学習による物体検出フレームワークである。主に顔検出の問題に動機づけられている。

このアルゴリズムは、従来の700MHz Intel Pentium IIIで、384×288ピクセルの画像から15フレーム/秒で顔を検出することができ、時間に対して効率的である。またロバストであり、高い精度と再現率を達成している。

畳み込みニューラルネットワークのような最新の手法に比べると精度は劣るが、その効率性とコンパクトなサイズ（DeepFaceのような典型的なCNNの数百万のパラメータに比べ、わずか50k程度のパラメータ）により、計算能力が限られている場合でも使用される。例えば、オリジナルの論文では、この顔検出器はCompaq iPAQ上で2fpsで実行できると報告されている（このデバイスには、浮動小数点ハードウェアを持たない低消費電力のStrongARMが搭載されている）。

CC BY-SA 4.0 File:Haar Feature that looks similar to the eye region which is darker than the upper cheeks is applied onto a face.jpg Created: 1 December 2014

Wikipediaでの解説

Viola–Jonesフレームワークの主な特徴として、以下の4つのキー技術が挙げられます。

積分画像 (Integral Image): 画像内の任意の矩形領域のピクセル値の合計を高速に計算できるデータ構造。これにより、特徴のスケーリングと位置の変更が容易になり、計算速度が大幅に向上します。
アダブースト (AdaBoost) 学習アルゴリズム: 弱い分類器（単純な特徴に基づく判断を行う分類器）を組み合わせて、より正確な強い分類器を作成する学習アルゴリズム。Viola–Jonesフレームワークでは、顔検出に関連する特徴を選択し、非顔と区別するために使用されます。
カスケード分類器: 検出プロセスを複数の段階に分け、各段階でオブジェクト（例えば、顔）でないと判断された領域を排除することにより、計算量を削減します。最も簡単な特徴から始まり、徐々により複雑な特徴を用いて分析が行われます。これにより、非顔領域を迅速に排除し、検出プロセスの効率を高めることができます。
ハール様特徴 (Haar-like Features): 画像内の特定の形状を識別するために使用される、シンプルで効果的な特徴。これらは、顔のようなオブジェクトに特有の明暗のパターン（例えば、目の周りの暗い領域と鼻の橋の明るい領域）を検出するのに適しています。

Viola–Jonesフレームワークは、その高速性と効率性のために、監視カメラ、画像編集ソフトウェア、およびその他の多くのアプリケーションで広く利用されています。また、このフレームワークは顔検出技術の研究における基礎としても機能し、後続の研究に大きな影響を与えました。

Viola-Jonesオブジェクト検出フレームワークではHaar特徴量が利用されています。

Haar特徴量は、画像内の特定の形状やパターンを識別するために設計された、シンプルながらも強力な特徴量です。これらの特徴量は、画像の明るさの変化を利用して、例えば顔の構造のようなオブジェクトの特性を捉えます。

Haar特徴量は、矩形領域内のピクセル値の差を計算することに基づいています。これらの矩形は画像上で様々な位置、サイズ、形状に調整され、顔のようなオブジェクトが持つ典型的な特徴（例：目と頬の間のコントラスト）を検出するのに使用されます。Haar特徴量は、積分画像の概念を利用して高速に計算することができ、この高速計算がリアルタイムのオブジェクト検出を可能にしています。

Haar特徴量には主に3種類があります：

エッジ特徴量: 画像の特定の領域内で明るさが急激に変化する場所を検出します。これは例えば、顔の境界や鼻の橋など、エッジや輪郭が明瞭な領域を識別するのに有効です。
ライン特徴量: 明るい領域と暗い領域が交互に現れるパターンを検出します。これは、顔の特定の部分、例えば目の下の影など、細かい線状のパターンを識別するのに適しています。
四角特徴量: 4つの隣接する矩形領域のうち、対角線上に位置する2つの領域が明るく、残りの2つが暗いというパターンを検出します。これは、より複雑な形状やテクスチャの識別に役立ちます。

これらの特徴量は、アダブースト学習アルゴリズムによって選択され、最も識別力のある特徴のみがオブジェクト（顔）検出の最終モデルに組み込まれます。Haar特徴量の使用は、Viola-Jonesフレームワークの効率性と精度の両方を大幅に向上させています。

Viola-Jonesは基本的にブースト特徴学習アルゴリズム

Viola-Jonesは基本的にブースト特徴学習アルゴリズムであり、Haar特徴分類器に対して修正AdaBoostアルゴリズムを実行し、分類器のシーケンスを見つけることによって学習される。Haar特徴分類器は粗いが、非常に高速な計算が可能であり、修正AdaBoostは多くの弱い分類器から強い分類器を構築する。

OpenCV

Haar特徴ベースのカスケード分類器を用いた物体検出は、2001年にPaul ViolaとMichael Jonesによって論文「Rapid Object Detection using a Boosted Cascade of Simple Features」で提案された効果的な物体検出手法である。これは機械学習ベースのアプローチで、多数の正負画像からカスケード関数を学習する。このカスケード関数を用いて、他の画像から物体を検出する。
ここでは顔検出を扱う。最初に、このアルゴリズムは分類器を学習するために、多くのポジティブ画像（顔の画像）とネガティブ画像（顔のない画像）を必要とします。次に、そこから特徴を抽出する必要があります。そのために、下図に示すHaar特徴が使われます。これはちょうど畳み込みカーネルのようなものです。各特徴は、白い長方形の下のピクセルの総和と黒い長方形の下のピクセルの総和を引くことで得られる単一の値です。

https://docs.opencv.org/3.4/db/d28/tutorial_cascade_classifier.html

最終的な分類器は、これらの弱い分類器の重み付き和です。弱い分類器と呼ばれるのは、それだけでは画像を分類できないが、他の分類器と一緒になると強い分類器になるからである。この論文によれば、200の特徴でも95％の精度で検出が可能だという。彼らの最終的なセットアップには約6000の特徴があった。(想像してみてほしい。これは大きな進歩だ）。
では、画像を撮影する。24x24のウィンドウをそれぞれ取る。それに6000の特徴量を適用する。それが顔かどうかをチェックする。ちょっと非効率的で時間がかかると思いませんか？そうなんです。著者たちはそれに対して良い解決策を持っている。
画像の大部分は非顔領域である。だから、ウィンドウが顔領域でないかどうかをチェックする簡単な方法があったほうがいい。もしそうでなければ、一発で破棄し、二度と処理しない。その代わりに、顔がありそうな領域に焦点を当てる。こうすることで、顔の可能性がある領域のチェックに時間をかけることができる。

https://docs.opencv.org/3.4/db/d28/tutorial_cascade_classifier.html

分類器のカスケード

そのために、彼らは分類器のカスケードという概念を導入した。1つのウィンドウに6000の特徴量をすべて適用するのではなく、特徴量を異なる段階の分類器にグループ化し、1つずつ適用する。(通常、最初の数ステージは非常に少ない特徴しか含まない）。もしウィンドウが最初のステージで失敗したら、それを破棄する。残りの特徴は考慮しない。合格したら、第2段階の特徴を適用し、処理を続ける。すべての段階を通過したウィンドウが顔領域となる。その計画はどうなっているのか！
著者の検出器には6000以上の特徴があり、最初の5段階で1、10、25、25、50の特徴を持つ38段階があった。(上の画像の2つの特徴は、実際にはAdaboostのベスト2特徴として得られたものである）。著者によれば、6000以上の特徴量のうち、平均して10個の特徴量がサブウィンドウごとに評価される。
これが、Viola-Jones顔検出の仕組みの直感的な説明です。詳しくは論文を読むか、追加リソースセクションの参考文献をご覧ください。

カスケード分類期のイメージ　「カスケードする」とは、「何かが連なっている状態」、「連続して起こっている状態」などを意味する表現である。「cascade」には「階段状に連続しているもの」や「縦つなぎ」などの意味があるため、そういった状態にすること、そういった状態のものを「カスケードする」、「カスケードしている」などと表現することがある。

積分画像(Integral Image)または面積和表

def compute_integral_image(image):
    import numpy as np
    
    integral_image = np.zeros_like(image, dtype=np.int32)
    
    integral_image[0, 0] = image[0, 0]
    for x in range(1, image.shape[1]):
        integral_image[0, x] = integral_image[0, x-1] + image[0, x]
    for y in range(1, image.shape[0]):
        integral_image[y, 0] = integral_image[y-1, 0] + image[y, 0]
    
    for y in range(1, image.shape[0]):
        for x in range(1, image.shape[1]):
            integral_image[y, x] = (image[y, x] + 
                                    integral_image[y-1, x] + 
                                    integral_image[y, x-1] - 
                                    integral_image[y-1, x-1])
    
    return integral_image

# 入力画像
image = np.array([[10, 20, 30], 
                  [40, 50, 60], 
                  [70, 80, 90]])

# 積分画像の計算
integral_image = compute_integral_image(image)

array([[ 10, 30, 60],
[ 50, 120, 210],
[120, 270, 450]], dtype=int32)

この積分画像では、各要素がその位置に対応する矩形領域のピクセル値の総和を表しています。たとえば、一番右下の要素450は、画像全体のピクセル値の合計を示しています。

面積和表は、グリッドの矩形部分集合の値の和を迅速かつ効率的に生成するためのデータ構造およびアルゴリズムである。画像処理の分野では、積分画像としても知られている。1984年にフランク・クロウがミップマップで使用するためにコンピュータグラフィックスに導入した。コンピュータビジョンでは、Lewis[1]によって普及し、その後「積分画像」という名前が与えられ、2001年にViola-Jonesの物体検出フレームワークで顕著に使用された。歴史的には、この原理は多次元確率分布関数の研究、すなわち、それぞれの累積分布関数から2次元（またはND）確率（確率分布下面積）を計算する際に非常によく知られている。

https://en.wikipedia.org/wiki/Summed-area_table

お願い致します