見出し画像

これからのAI開発はアルゴリズムよりもデータの質が鍵になる

みなさん、はじめまして。FastLabel共同創業者の上田(@eisukeai)です。私たちはAI開発に欠かせないアノテーションプラットフォームを提供しており、先日ジェネシアベンチャーズから資金調達を実施しました。

それにともない、代表の鈴木から創業経緯のnoteが公開されました。プレスリリースだけでは伝わりきらない、私たちの想いをnoteに書いてくれています。興味のある方はこちらをご覧ください。

上記のnoteで鈴木からバトンを渡されたので、自分からはFastLabelが具体的に何をしているか、どのような課題を解決しようとしているのか、ということについて書きたいと思います。

そもそもアノテーションとは?

一言でいうと、AIに学習させるための教師データを作成する作業のことです。

AIは大きく分けて教師あり学習と教師なし学習の2種類が存在しており、教師あり学習ではあらかじめ人によって正解を定義したデータを用いてAIを学習させます。

具体的にいうと、乗り物を検出するAIを作りたいときに、画像にある物体が「飛行機」か「自動車」かなどのタグを付けていく作業のことをアノテーションと呼びます。以下が実際に画像にアノテーションしている動画です。

アノテーションが間違っていると(例えば、自動車を間違えて飛行機とアノテーションするなど)、AIに間違ったデータを学習させることになるので期待する精度が出なかったり、意図しないふるまいをしたりするため、アノテーション(データの質)はAI開発においてとても重要な要素になります。

アノテーションって何が大変なの?

AIプロジェクト経験者は分かると思いますが、一見するとアノテーションは簡単な単純作業に見えます。しかし、AIを実社会で利用するために教師データの品質をきちんと管理しようとすると、実はアノテーションはめちゃくちゃ複雑かつ大変で、AI開発における工程の8割を占めている、と言っても過言ではありません。

テスラ社の「Building the software 2.0 Stack」という自動運転AIのアノテーションに関する講演が分かりやすいので、こちらの事例をもとにアノテーションの課題を紹介します。(海外の道路の画像ですが、イメージは伝わると思います。)

例えば、道路を走っている車を検出したいので、車をアノテーションするとします。こちらの画像であれば、画像にうつっている車をアノテーションすれば良いので簡単そうです。

画像2

それでは、こちらの画像ではどうでしょうか?

画像3

これは1台の車としてアノテーションしたら良いのか、それとも見えている車を別々(4台)にアノテーションしたらよいでしょうか?

信号機の状態(車が進んで良いのか、ストップしないといけないのか)を判別するAIを作りたいときに信号機をアノテーションするとします。以下のようなケースはどのようにアノテーションしたら良いでしょうか?

画像4

また、道路標識に合わせて自動車の走行可否や速度調整を判断したいAIを作りたい場合に、以下のようなケースではどのようにアノテーションしたら良いでしょうか?

画像5

一番右の標識に関しては数式を解かないといけないので、もはやネタレベルですが、こういうデータが混じっていたとして、そもそも教師データとして含めるのか、含めないのか。

含めるとしたらどのようにアノテーションするのが最適なのか、含めないならこのようなケースに他の手段でどうやって対応するのか、など都度エンジニアやそのドメインの専門家による判断が必要になってきます。

また、AI開発では教師データは最低でも数千枚〜数万枚は必要です。規模が大きいプロジェクトになると数十万枚〜数百万枚にもなることもあります。そのためアノテーションも数人〜数十人規模の体制で行います。

AIの精度を担保するためには、上記のような様々なユースケースに対して、教師データの品質を担保するために、全員で共通認識を持って同じ基準でアノテーションする必要があります。一度アノテーションの基準が変わると今までアノテーションしていたデータの修正が必要になります。

大量の画像や動画データ、アノテーションルール、データ品質・進捗管理など、教師データの品質をきちんと管理するためには専用のシステムは必須で、ここが属人化してしまうと、品質が担保できなくなり、結果として良いAIを開発することができません。

教師データを一元管理できるSaaS

FastLabelでは、このような課題を解決するために、ウェブ上から簡単に教師データを作成・管理できるサービスを提供しています。

画像や動画、矩形やセグメンテーション、キーポイントなどあらゆる種類のアノテーションをウェブ上からすぐに開始でき、レビューワークフローやユーザー権限によるプロジェクト、データレベルのアクセス制御にも対応しています。

アノテーションが間違っていたら、ユーザーはコメントを残して、担当者にシェアすることで、詳細な認識合わせも簡単にできます。

スクリーンショット 2021-04-05 22.35.08

また、マネージャーはアノテーションの進捗状況や、データの偏りなどを、ダッシュボードから瞬時に把握でき、不足するデータを収集したり、アノテーター(アノテーションする人)の数を増やすなど、改善のためのアクションをすぐに実施できます。

スクリーンショット 2021-04-05 22.35.53

アノテーションデータもサムネイル形式で確認でき、視認性高くデータをチェックできます。そのため、間違っているアノテーションデータを簡単に発見し、修正できます。

スクリーンショット 2021-04-05 22.36.44

さらに、学習させたAIと連携することで、予測結果と正解データを一覧で比較可能になります。以下の画像の赤色の部分が予測結果で、緑色の部分が正解データになります。

スクリーンショット 2021-04-05 22.38.18

好みのフィルター条件で、アノテーションクラスの分布などデータの統計情報を確認でき、データの傾向や、どのようなデータに対して現在のAIが強いのか、弱いのかを簡単に把握できます。

スクリーンショット 2021-04-05 22.39.02

また、信頼度やIoU、精度などAIの評価で使用される指標をもとにデータをソート、フィルタリングできます。AIが苦手なデータを抽出して、URLを送るだけで、その結果をマネージャーやエンジニア、顧客などのステークホルダーに簡単に共有できます。

スクリーンショット 2021-04-05 22.39.34

このようにFastLabelは、プロジェクトで教師データを作成・管理するために欠かせない機能を搭載したアノテーションプラットフォームを提供しています。

エンジニアだけでなくマネージャーや現場の人など、多くの人がコラボレーションでき、チーム全体で共通認識を持つことが容易になり、プロジェクトをスムーズに進めることが可能になります。

また、ツールだけでなくアノテーション代行のサービス(教師データ作成の代行)も提供しており、AIの実用化をしたい企業に欠かせないオールインワンソリューションとなっています。

AIによる産業革命を支える基盤を提供する

日本ではAIの幻滅期に入ったと言われていますが、AIによる産業革命はまだ始まったばかりで、その力を実社会で活かしきれていません。

最近、ソフトバンクの孫正義さんの「大概にせえ!」発言で話題になりましたが、日本でAIが遅れている理由としては、アノテーションサービスのようなAIの社会実装を支援するための周辺サービスが充実していないことが原因にあると思っています。

海外ではアノテーション専門の企業が既に数多く存在していますが、日本ではいまだにエンジニアや社員が自らアノテーションするのが主流です。アノテーションの外注先もBPO企業が作業リソースを提供しているだけで、前述したようなデータ品質の課題が解決せず、なかなか企業のAI活用が進んでいません。

FastLabelは、AIが既存産業の深く大きな課題を解いていくこれからの時代に、良質なデータを生み出す基盤を提供し、AI革命を支えるインフラになることを目指しています。

最後に

今回はFastLabelが解決しようとしていることについてnoteを書いて見ました。コメント欄やTwitterなどで意見いただけると嬉しいです。

また、「AI革命のインフラになる」というミッションをもとに、これから起こるAIによる産業革命を支えるプロダクトを一緒に作っていく仲間を募集しています!もし興味のある方は採用ページを見て頂ければ幸いです。

最後まで読んでいただきありがとうございました。

サポートして頂くと、こちらからもサポート返しさせて頂きます。