テーマ考案合宿から始めるcvpaper.challengeでのインタラクション研究

筆者:鈴木亮太

産業技術総合研究所 研究員 鈴木亮太です.

cvpaper.challenge運営メンバーで,システム管理とInteractionグループのグループリーダーを任されています.

Interactionグループとは,画像処理の研究者の集いであるcvpaper.challengeにおいて,ヒューマン・コンピュータ・インタラクション,人間とコンピュータの関わりにおける性質の解明や使いやすさの向上を狙うといった,毛並みの違う角度から研究を行うグループです.

画像処理は,計算機科学の中でも応用的,境界領域的研究領域です.基礎研究もさることながら,その処理が人間の視覚としてどのように受け入れられ,作用するか,つまりヒューマン・コンピュータ・インタラクションは重要であると考えます.筆者はそのような考えのもと,cvpaper.challengeにて新規に研究グループを立ち上げ,画像と関係したヒューマン・コンピュータ・インタラクションに関する研究を行ってきました.

本稿では,ImageNet Reannotationという事例から,cvpaper.challengeにおける研究の立ち上げから,研究施行,発表までの流れをご紹介します.

テーマ考案合宿

cvpaper.challengeでは,研究テーマを考案するにあたり,合宿を行っていました(コロナ禍中は休止).年末に行っていた恒例行事で,cvpaper.challengeのメンバーが一堂に会して,テーマに関するブレインストーミングを行うものでした.

この合宿以前にcvpaper.challengeメンバー勧誘を強化し,この合宿に臨むという流れを組んでおり,多くの新メンバーを迎えて合宿を行っていました.
この合宿は,ブレストを通じて対面して気楽に議論することで仲良くなり,さらに志向の近い人たちを集めて研究グループを立ち上げ,実際の研究施行まで繋げるという目的の元開かれるものであり,運動会や会食などのレクリエーションも織り交ぜつつ各年3日間ほど行われたものでした.ブレストはそのルールに「新しいアイデアを多く出してもらうためにアイデアを否定しない」というものがあり,意見を肯定するという性質から仲の良さを醸成するのにうってつけの会議方式です.所属組織やシニア・ジュニアの境なく,終始楽しく議論を行いました.

このテーマ考案合宿で発案されたアイデアを基に,世界のファッショントレンドを解析可能としたFashion Culture Database(FCDB)(ツイート)の提案や,画像を見てボケるNeural Joking Machine(ツイート)など,インパクトのある研究がcvpaper.challengeでは実際に数多く行われています.

メンバーを変えながら議論を行う中で,人間と画像処理AIの橋渡しである,画像データセットに注目するメンバーが(筆者を含め)見つかり,一緒にグループを組織して研究しようということになりました.

Interactionグループの立ち上げと,ImageNet Reannotation実行計画

かくしてInteractionグループを立ち上げました.主に2つの研究テーマを擁していましたが,本稿ではとりわけImageNet Reannotationについて取り上げます.

画像処理研究者が,画像データセットのデファクトスタンダードとして挙げるものに,ImageNetがあります.ImageNetは,画像処理におけるAIブームの先駆けとなったAlexNetを実現したデータセットとして有名で,ImageNetで学習した深層学習モデルをベースとして非常に数多くのモデルが世に送り出されています.また,評価用データセットとしても頻繁に用いられています.1年前の研究が古いと言われる現在の画像深層学習の潮流において,9年前のデータセットが使われ続けているというのは驚くべきものです.

さて,ImageNetをベースとして研究が数多く行われてきましたが,その進化につれて,とりわけ画像が何物であるかを見分ける画像分類タスクにおいて,だんだんその性能が高止まりしてきた様子があります.その原因を考えたときに,実は昔から囁かれていた

「ImageNetには妥当性が疑わしいデータが含まれている?」

という点が影響しているのではないかと考えました.

とりあえずImageNetを使うと性能の良い深層学習ができるので,半ば無視されていた話題ですが,この時点において改めてその規模と性質,深層学習に与える影響をちゃんと評価すべきなのではないかと考えました.

とはいえ,ImageNetは,5万人弱のAmazon Mechanical Turkのクラウドワーカーの手により,1400万枚以上, 2万種類以上のクラスの画像がアノテーションされて構築されたという規模のデータセットです.ImageNetの構築と同じように疑わしさを評価したのでは,最低でも同様な人手や時間が掛かってしまうと考えられます.また,このような疑わしさはクラウドワーカーを利用したことに起因する可能性も考えられます.

そこでInteractionグループでは,cvpaper.challengeのメンバーの力を借りて,画像処理研究者の専門的視点から,非常に正確なアノテーションを効率的に行うImageNet Reannotation Workshopの開催を計画しました.普段からImageNetを扱っており,また画像処理に求められる要件を身をもって理解している研究者自身がアノテーションすることによって,100%と言える正確さでアノテーションできると期待できます.さらに,正確さや精度を高め,そのうえ疑わしさの性質を洗い出して貰うために,3人程度のグループによる協力タスクとし,議論しながらアノテーションを行ってもらうことにしました.これによって,非常に高い正確さ・精度をもった疑わしさのアノテーションを効率的に行うことができます.

ここで,インタラクション的に興味深い点としては,以下の点があると考えました.

・クラウドアノテーションで画像データセットを作ろうとすると,何が起こるのか?

・それをプロ視点だと見つけることができるか?

そのため,プロ視点での疑わしい点はどういうところにあるかを説明してもらうというタスクも必要であると考えました.そして,グループを組むことにより議論を促し,その結果をリアルタイムに報告してもらうことで,議論の促進と明確な分析の取得を同時に行えると考え,次章に述べるアノテーション作業を計画することにしました.

ImageNet Reannotationを行うために,独自のアノテーションシステムを開発しました.Webアプリケーション開発に強いメンバーに助力してもらい,Ruby on Rails実装で,クリックによってアノテーションができるシステムを作りました.クラスラベルに相当する画像がタイリングされ,その中から「画像分類タスク学習用データとして妥当でないと思われる画像」を抽出するという形で行いました.

ImageNet Reannotaion

夏の合宿のメインコンテンツとして,合計23人の参加者により計3日間行いました.メンバーの研究紹介や,チュートリアル講演等のセッションも含めつつ,一日合計約6時間程度のアノテーションセッションを作りました.

約3人一組でアノテーション作業を行いました.それぞれ他のミーティング等のために一部欠席することを許容していたので,各セッションの参加者数は異なり,またグループもセッションごとに組み換えを行いました.アノテーションシステムは完全にローカルなネットワークでのみ動き,アノテーションシステムにアクセスする端末はインターネットにアクセスすることができませんでした.アノテーション作業の他,アノテーション中に発生した困りごとや,アノテーションの細かいルール等をSlackで報告してもらうようにしました.Slackはインターネットに接続する必要があるので,必然的にインターネットに接続された別の端末を用意し,それを操作する人が必要になったり,ラベルの意味を正確に把握するためにインターネットで調査を行ったりなど,自然な分業態勢が発生するような設計を行いました.

実際に精密にアノテーションができるよう,インターネットによる調査を基に気を付けてアノテーションをされている様子がうかがえました.時に「犬に詳しくないから辛い」などの苦しみなどの愚痴も共有しながら,計223クラス,約28.5万枚の精密アノテーションが行われました.

MIRU2020

国内最大級の画像処理の学会であるMIRU2020にて発表を行いました.MIRU2020はオンラインで行われ,Twitterでのアクティビティも活発になりました.我々も,cvpaper.challengeのTwitterアカウントからImageNet Reannotationの宣伝を行いました.

・ImageNetというデファクトスタンダードで使われている大規模画像データセットに,疑わしいデータが存在すること

・画像処理研究者たちが手作業で大規模にアノテーションしたこと

・その疑わしいデータが6%も報告されたこと

これらの点から話題を呼び,Twitterでは200以上のLikeをいただき(ツイート),MIRU2020講演会場でも多くの参加者にお越しいただき,議論をさせていただきました.

おわりに

cvpaper.challengeは,気鋭のメンバーが集い,「面白い!」と感じるネタを率直に拾い上げて,強固な協力体制を築きながら自由に研究することのできる場となっていると感じます.具体的なテーマや技術が無くても,自分はこれが面白いと思う!こういう方向性の研究もしてみたい!というモチベーションから,研究ネタを作り出し,研究し,発表まで持っていくことができます.

Interactionグループはで,画像処理技術をツールとした人とコンピュータの関わり方の分析,効率向上のための支援を行う研究を志向して一緒に楽しく活動していただけるメンバーを募っています!ぜひcvpaper.challengeのリクルートページからお問い合わせください.

この記事が気に入ったらサポートをしてみませんか?