見出し画像

【5選紹介】データアノテーションを効率的に行う手法

機械学習プロジェクトの品質は、データ収集、データ前処理、アノテーションという三つの重要な要素をどのように行うかにかかっています。アノテーションとは文字通り、タスクのやり方をモデルに教えるデータに注釈をつけることを意味しており、機械学習プロジェクトに不可欠です。

とはいえ、アノテーションは多くの場合、時間がかかる複雑な作業です。例えば、画像認識システムはしばしば、特定のオブジェクトの周りを囲むバウンディングボックスを必要とします。一方、レコメンドエンジンや感情分析システム用に正確なアノテーションをつけるには、複雑な文化的知識が必要な場合もあります。さらに、一つのデータセットには、アノテーションを必要とするサンプルが数万件ほども含まれている可能性があるのです。

そのため、機械学習プロジェクト用に適切なアノテーション手法を選択するには、タスクの複雑さやプロジェクトの規模およびタイムラインを考慮する必要があります。そこで今回は、よく利用される五つのアノテーション手法とそのメリットとデメリットについてまとめました。

機械学習用のアノテーションは大まかに言えば、次のようなカテゴリーに分類できます。

社内: 社内のデータサイエンティストチームにアノテーションを任せるといった方法です。プロジェクトによっては、オープンソースの機械学習ツールなどの利用も考えられます。進捗の追跡が容易であることや、精度や品質が信頼できることがメリットとして挙げられます。一方、社内にデータサイエンティストのチームを抱える大企業以外は、実行が難しいかもしれません。 

アウトソーシング: 一定の期間、プロジェクト用にアノテーションを行うチームをつくる必要がある場合、アウトソーシングは良い選択肢になります。求人サイトや自社のソーシャルメディアを通じてプロジェクトを公表すれば、応募者を集めることができます。その後、面接やテストを行って、適切なスキルセットを備えた応募者だけをアノテーションチームに採用すればよいのです。これは、一時的にアノテーションチームを構築するための良い方法ですが、ある程度の計画と準備も必要になります。つまり、スタッフが新しい仕事に精通し、仕様書に従ってアノテーションを完了できるように、トレーニングを行うことが重要です。さらに、チームの作業用に、アノテーションツールのライセンスが必要となるかもしれません。

クラウドソーシング: クラウドソーシングサイトを利用すれば、特定の作業に取り組む人を世界中から集めることができます。クラウドソーシングの場合、タスクが可能になり次第、世界中から登録者が受注できるので、非常に迅速に実施でき、費用対効果にも優れています。とはいえ、クラウドソーシングサービスは、人材の質や品質保証、プロジェクト用のツール、人材管理の点で様々です。そのため、クラウドソーシングを検討する場合は、これらの要素に関するプラットフォームの対応を調査することが重要です。

合成: プロジェクトに必要な属性を含む新しいデータを作成または生成することです。このためのアプローチの一つは、敵対的生成ネットワーク(GAN)を用いたアノテーションです。敵対的生成ネットワーク(GAN)は、生成器(Generator)と識別器(Discriminator)という二つのネットワークを利用し、フェイクデータの作成と識別を競わせます。そのため、これを利用すると、非常に本物に近い新しいデータを生成することができます。GANなどの合成アノテーション手法を利用して既存のデータセットから全く新しいデータを作成することができれば、効率よく高品質のデータを作成することができます。とはいえ、現在のところ、合成アノテーション手法では、大量の計算能力が必要であり、非常に費用が高くなる可能性があります。

プログラム: プログラムによるアノテーションは、スクリプトを用いて自動的にアノテーションを行う手法です。これによって、画像やテキストへのアノテーションが自動化されるので、人間のアノテーターを多数雇用する必要がなくなります。さらに、コンピュータープログラムは人間が作業するより迅速にタスクを完了できます。しかし、自動アノテーションはまだ、完璧ではありません。そのため、プログラムによるアノテーションの場合、専門の品質保証チームと組み合わせ、データセットを確認させる場合が多いのです。

それぞれのアノテーション手法には独自のメリットとデメリットがあります。自社のプロジェクトにとってどれが最適なのかは、課題の複雑さや教師データ、会社の規模やデータサイエンスチームの有無、予算や期限などの要素によって異なります。アノテーションのソリューションを検討する際は、これらの事項を考慮するようにしてください。

独自の機械学習プロジェクトに適したアノテーション手法をまだ決めかねている場合は、ぜひ当社にお問い合わせください。当社は100万人のコントリビューターを擁し、世界中の様々な分野のハイテク企業に機械学習用のデータサービスを提供しています。長年にわたる経験と専門知識を駆使して、お客様のプロジェクトに必要なデータを見極め、作成し、アノテーションを付与いたします。

※ 本記事は、弊社英語ブログに掲載された記事に基づいたものです。


この記事が気に入ったらサポートをしてみませんか?