素人発想玄人実行2.0

本ノートは、電子情報通信学会・情報システムソサイエティ誌に執筆した「フェローからのメッセージ」(2021年)に図などを追加したものです。

画像2

「着眼大局着手小局,素人発想玄人実行」は,2006年8月に在外研究で米国カーネギーメロン大学ロボット工学研究所に1年間滞在し,帰国の際に金出武雄先生から頂いた言葉である.「素人発想玄人実行」とは,金出先生の著書[1] によると,「発想は単純,素直,自由,簡単でなければならない.しかし,発想を実行に移すには知識がいる,熟練された技がいる」ということである.筆者はそれ以来,この言葉をモットーにして研究に取り組んでいる.しかし,「言うは易く,行うは難し」の典型であり,実践するのはなかなか難しい.多くの論文を読んでいくと知識が深まり専門性は高くなるが,それが障壁となって,本質ではなく小さなことに着目した問題設定を行いがちである.また,本質を捉えても工夫をせず愚直に実装するとうまく動かないことがある.約10年を経て「素人発想玄人実行」に少しだけ近づけたのではと思う筆者らの研究二例について紹介し,最近,自分なりに思い描く「素人発想玄人実行」のアップデートを共有したい.

2010年頃,画像間の対応点マッチングのための特徴点検出・記述の研究が多く取り組まれていた.中でも,射影変化を伴う画像間の対応点マッチングは,キーポイントの特徴を表現するアフィン領域を求める必要があり,難しい問題であった.従来手法では,キーポイントに対して1つのアフィン領域しか推定しないため,画像の変形やキーポイントの位置ずれの影響により異なるアフィン領域を推定してしまうという問題があった.これは,局所的探索を行うことが原因であり,「着眼小局着手小局」と言える. 2015年に筆者らが国際会議ICCVにて発表した「非等方性LoGフィルタによる複数のアフィン領域の推定」[2] では,様々な楕円形状の非等方性LoGフィルタを用いて複数のアフィン領域を推定することを提案した.シンプルに,一つではなく複数の領域があっても良いのでは,という「素人発想」である.しかし,いざ実装となると,非等方性LoGフィルタにはx方向のスケール,y方向のスケール,回転角の3パラメータがあり,その組み合わせは数千種類となる.複数のアフィン領域を推定するため,焦るが余りこの数千種類のフィルタ全てを畳み込む処理をこのまま行うと,膨大な計算コストが必要となる.そこで,「玄人実行」として,数千種類の非等方性 LoG フィルタ群を特異値分解により求めた14 種類の固有フィルタで近似し,畳み込み処理を効率的に計算することにした.これにより,複数のアフィン領域を効率的に求めることができ,射影変化を伴う画像間の対応点マッチングの高精度化を実現した.

この研究において,「素人発想玄人実行」の言葉が研究の方向性や進め方を決める手助けをしてくれたように思え,2006年から約10年を経て,ようやく「素人発想玄人実行」に一歩近づけたと思える研究であった.この研究以後も,常に,素人発想で玄人実行になっているかを自問自答しながら研究に取り組んで来た.

2012年以降,深層学習が主体となったコンピュータビジョン研究はデータドリブンなアプローチが主流となった. 2019年に国内シンポジウムMIRU2019にて筆者らが発表した「知識転移グラフによる共同学習」[3] は,複数の深層学習ネットワークの共同学習を実現する研究である.従来の二つのネットワークを用いた知識蒸留と呼ばれる共同学習では,大きくて複雑な学習済みモデル(教師ネットワーク)が学んだ知識を蒸留し,蒸留した知識を小さくて軽量なモデル(生徒ネットワーク)に転移し学習に利用していた.単純に生徒ネットワークを単体で学習するより,知識を転移することで,小さなモデルでも良い精度を獲得できるのである.しかし,この場合の知識転移は先生から生徒への一方向の伝達であり,研究者が設計していたため限定的であった.そこで,我々は教育現場における教室での学習のように,先生からだけでなく多くの生徒が複雑に互いに教え合う,多様な知識転移を行う共同学習へと拡張できたら良いのではという「素人発想」からこの研究が始まった.

これを実現するために,まず複数のネットワーク間の知識転移の統一的な表現をグラフで記述することにした.グラフのノードは様々なサイズの深層学習モデル(事前学習あり/なし),エッジには知識転移となる4種のゲートと損失関数を設定した.これを共同学習のための知識転移グラフと呼び,エッジが持つネットワーク間の知識転移を4種のゲートとノードにおけるモデルの組み合わせ探索という問題として解いた. 3ノードにおいて最適な知識転移グラフを探索した結果,学習初期では教師ネットワークから二つの生徒ネットワークへと知識を転移し,学習の後半では生徒ネットワーク同士での知識転移が行われ,従来法より高精度となることが分かった.このように知識転移をグラフで表現し探索問題に落とし込んで解くことで,知識蒸留と相互学習を組み合わせた新たな知識転移法が発見されたのである. さらに,ノード数を増やして最適な知識転移グラフを探索すると,そのグラフのノードには事前学習モデルである教師ネットワークが選択されない傾向があることを確認した.予期せず,優秀な生徒が周りに多数いれば,先生は必要ないということになる.これは,あくまでも深層学習の共同学習における傾向ではあるが,実際の教育現場,例えば大学の講義室でももしかしたら同じことが言えるのかもしれない.

この研究方法では,研究者は予め問題設定と解き方を限定せず,知識転移を表現するフレームワークを研究者が専門性を発揮して設計し,最適化探索を行うことで,研究者が想定していなかった新たな知見を発見することに繋がった.これは,昨今の計算機が膨大なパラメータ空間から使用を満たすプログラムを探索するSoftware 2.0時代の研究方法とも言えるのではないだろうか.筆者はこの研究方法を密かに「素人発想玄人実行2.0」と呼び,探索により獲得した新たな知見が次の新たな研究の端緒となることを期待しつつ,日々研究を楽しんでいる.

画像2

最後に,機械知覚&ロボティクス研究グループで一緒に研究を楽しんでくれた多くの卒業生,山下隆義先生,平川翼先生,外部共同研究者の皆様に感謝すると共に,
そして研究の礎となる言葉を贈って頂いた金出武雄先生に深謝する.

[1] 金出武雄,独創はひらめかない—「素人発想,玄人実行」の法則,日本経済新聞出版,2012.

[2] T. Hasegawa, M. Ambai, K. Ishikawa, G. Koutaki, Y. Yamauchi, T. Yamashita, and H. Fujiyoshi, “Multiple-hypothesis affine region estimation with anisotropic log filters,” ICCV, pp.585-593, Dec. 2015.

[3] S. Minami, T. Hirakawa, T. Yamashita, and H. Fujiyoshi, “Knowledge transfer graph for deep collaborative learning,” ACCV, pp.203-217, Feb. 2020.

講演動画はこちらで公開しております。ご興味ある方はご視聴ください。
https://vimeo.com/686130389

スクリーンショット 2022-05-31 17.02.19


この記事が気に入ったらサポートをしてみませんか?