見出し画像

技術のうろこ DATAFLUCT aline. Vol.02 ーにんげんたちのいるところー

DATAFLUCT aline.では、人工衛星画像から推定された建造物面積情報を用いて、スプロール現象の可視化を行っています。

今回は、この論文にて検証されている、人工衛星画像から建造物面積情報を算出する手法ついて解説します。

推定の説明性と現実的な学習時間を実現した手法

人工衛星データを用いた地表のモニタリングは、観測対象の吸収光/反射光/放射光の割合などの物理的特性を用いた、説明性のある手法が主流でした。

スクリーンショット 2020-04-02 1.40.40

また、最近はモデルの説明性はないものの、機械学習を用いた帰納法的推論による検出手法も増えてきています。

しかし、地球観測データは、

1. モニタリング対象の粒度が様々
2. 多種多様なセンサーによって観測されている
3. 様々な場所、様々な環境で取得されている

を特徴とする、膨大で、多様な、非構造データです。
そのため、従来の物理ベースの方法では様々な環境を表現するためのパラメータが非常に多く人力では困難であり、機械学習を用いた方法では、膨大な時間がかかる学習を、衛星のセンサー種類や分解能、検出対象に応じて実施しなければならないため、小さいデータセットへの適用に留まっています。

そこで、今回解説する手法では、学習に時間のかかる特徴量の抽出を説明性のあるモデルで構築し、学習時間が短くて済む特徴量からの分類を機械学習で実施することで、推定の説明性と現実的な学習時間を実現した手法を提案しています。

Symbolic Machine Learning Associative Classifier

データから有用な知識を抽出する方法のひとつに、連関規則というものがあります。
これは通常、例えば買い物データから「カレールーを買った客は、玉ねぎを買いやすい」のような傾向を掴むバスケット分析として使われている手法です。
この連関規則を、例えば
「画像の緑色の場所は、森林が写っている傾向がある」
のような画像分類のタスクに適用します。

しかし、買い物データと違い、画像は色の連続データです。
連関規則を使うためには、連続値である画像データを不連続な属性データへ変換する必要があります。

今回の手法は、下記2つのステップで行います。
1. 画像データの属性データ化
2. 画像データの属性と、分類対象ラベルの関係性の算出

量子連鎖化(quantization-sequencing)

画像から属性データを作る方法はいくつかありますが、人工衛星画像の特徴から2つの基準に沿うものを選びます

1. なにか特別な統計分布に従う必要がない
(統計的分布が適しているかを確認するだけでも大変なため)
2. 疎表現であることを取り入れている方法であること
(特徴量空間を圧縮、計算的に有利にできるため)

上記の基準を踏まえ、それぞれのバンドをいくつかの区画に分けます(量子化)。区画分けの際、各バンドの最大値を基準に行うことで、過適合を避け、特定の統計分布への依存をなくしています。
また、画像の観測波長だけではなく、他のカテゴリカルデータ(例えば道路の有無など)も同時に扱えます。

各バンドデータを量子化した後、それらの組み合わせをとり、各組み合わせを属性とします(連鎖化)。

スクリーンショット 2020-04-02 4.15.34

この段階で必要なパラメータはいくつの区画に分けるかのみです。区画数が少ないと属性数が少なく、分類できるラベルが限られてしまいますし、反対に区画数が多すぎると、属性数が非常に多くなり、学習に大量のデータが必要になってしまいます。

連関規則分析(Association Rule Analysis)

上記で作成した属性データに対し、どのような傾向を持つかを検証します。
今回のケースでは、

「青色が強い」「道が存在しない」→ 水(河 or 海)
「緑色が強い」「道が存在する」 → 農地
「緑色が強い」「道が存在しない」 → 森

といったように、画像の各ピクセルの属性と、土地利用属性の関係を導くことが目的となります。

土地利用属性への分類を学習するため、CORINE Land Coverのデータを教師データとして使用しています。

スクリーンショット 2020-04-03 3.46.10

学習は下記の手順で行われます。
はじめに、各属性がどの土地利用属性にラベル付けされているかを集計します。
例えば、「属性781に属するピクセルは画像中に100ピクセルあり、そのうち43ピクセルが建造物、1ピクセルが森、5ピクセルが農地...としてラベル付けされている。」といった具体です。
次にピクセル数の集計結果を用いて、各ラベルの適合度を指標化します。今回はENDI(Evidence-based Normalized Differential Index)と名付けられた、ラベルの出現頻度と分類確率を基にした指標を用いています。
最後に、算出された指標がどんな閾値を超えた場合に、そのラベルを正解とすれば全体として最も正答率が高くなるかを機械学習で推定します。

属性分けからラベルの適合度算出まで、繰り返し処理がないため、データ数や画像サイズの増加に対して計算量が爆発的に増加することがないことがわかります。

異なる環境での分類性能

スクリーンショット 2020-04-02 3.43.14

この手法の強みは、モデルの説明性と処理時間の短さだけではありません。
人工衛星画像の性能や、環境の変化にも柔軟に対応できる強みがあります。
例えば上図は、分解能の粗い建物の教師データ(上)と、その教師データで学習したモデルを分解能の良い画像を適用したときの予測結果(下)です。
分解能の粗い画像での学習モデルを適用させたとしても、十分良い分類性能が出ています。

終わりに

人工衛星画像の分析というと、最新の画像分析アルゴリズムを用いた物標の検出が華々しく注目を集めることが多いですが、本記事では従来の説明性のある演繹的なモデル構築と、機械学習を用いた帰納的分類の両方を用いたハイブリッドな手法について解説しました。
今回は建造物検出への適用でしたが、他にも農地や道路など様々な物標に対しても適用が可能です。

DATAFLUCT aline.は、これらの手法を用いて都市課題の解決を試みるサービスです。今後は耕作放棄地の検出や、ハザードマップ作成、環境汚染の発生源の特定などの取り組みを通じ社会に貢献して参ります。

株式会社DATAFLUCTでは、学術的な知見によって物事の本質を見極めることを重要視し、方法論にとらわれず、様々な課題に取り組んでいます。本手法を適用できそうな課題などございましたら、ぜひご相談ください。