見出し画像

機械学習向けデータセットの作り方

機械学習プロジェクトは結局のところ、データは機械学習モデルの中核をなす要素なので、データやアノテーションに何が必要なのかを知ることは、正確なモデルを構築するための最初のステップです。

データセットの作成は、データ収集とアノテーションという二つの部分に分けられます。データ収集とは、テキストや音声、画像、動画として生データを集める作業であり、アノテーションとは、機械学習を実行できるようにデータを準備する作業です。とはいえ、データの作成はしばしば、時間のかかる複雑な作業です。にもかかわらず、データは必ずゼロから作成しなければならないのでしょうか。この記事では、機械学習プロジェクト用のデータセットを見つけるための二つの方法、公開データセットとカスタムデータセットについてご説明したいと思います。それぞれ、どのような場合に利用されるのか、そして、特定のデータセットを調達する際、どのようなオプションが利用可能なのかについて見ていきましょう。

公開データセットを活用できる場合

インターネットには機械学習プロジェクトに利用できる様々なデータが含まれており、公開データセットを検索すれば、アノテーションや機械学習用のパッケージ化されたデータを見つけることができます。KaggleやGoogleのDataset Search(データセット検索)は、構造化データと非構造化データの両方を格納している一般的なリポジトリの良い例です。また、よく利用されている公開データセットとしては、ImageNetとCOCOデータセットが代表的です。両方とも、物体検出やセグメンテーション、分類タスクに利用される大規模な画像データセットです。

公開データセットは、機械学習アルゴリズムの研究過程でデータを使って試してみたい人にとって最適でしょう。アノテーション済みのデータセットを利用すれば、データ収集とアノテーションの作業を省略して、前処理やテスト、実用化に集中できます。私たちが最近行ったテキストおよび画像データセットの多クラス分類に関する研究でも、特定の機械学習システムの開発とその機能を探求する上で、公開データセットは非常に役立ちました。さらに、概念実証あるいはユースケース例を構築して迅速に開発やテストを行う際も利用できます。この場合、実証後に、社内データやカスタムデータセット、または他の公開データセットを使ってモデルの改良やスケーリングを行うかどうかを決定することができます。これらを考慮すると、公開データセットで十分目標を達成できる場合もあるでしょう。一方、公開データセットだけで十分でないのは、どのような場合でしょうか。

カスタムデータセットが必要な場合

カスタムデータセットは、特定の目的のためにゼロから構築されるという点で公開データセットと異なります。そのため、カスタムデータセットが必要となるのは、特定のプロジェクト用のデータを他で見つけることができない場合が多いです。しかし、社内データにクリーニングとアノテーションを行って構築したり、既存のデータセットを調整して作成したりすることもよくあります。
例えば、株式会社ZAIZENはユーザーの感情を基に自然な対話を行うチャットボットを制作していますが、システムに学習させるため、意図をラベル付けした日本語の日常会話のサンプルを必要としていました。そこで、同社は、モデルに十分広範なテキストデータを与えるため、質問と回答のサンプル5,000セット以上から成る会話コーパスを作成することを選択しました。

カスタムデータセットの別の例としては、モデルの開発サイクル中に新たなデータが必要となるケースがあります。つまり、まだ学習していない事項についてシステムに教えるためのデータ(欠けているデータの提供)が必要になったり、教師データを増やしてモデルを改良したりする場合です。当社が現在行っている国立研究開発法人情報通信研究機構(NICT)とのプロジェクトがこれに当たります。旅行者用の翻訳アプリの開発を支援するため、当社は定期的に音声データや文字起こしサービスを提供しています。

上記のいずれの例でも、特定の目的に合わせて、機械学習に必要なデータセットの作成とキュレーションが行われました。その結果、データサイエンティストチームはそのシステムを最大限に活用できるようになりました。

プロジェクトに適したデータセットを見つける方法やデータセットの収集およびアノテーションの方法でお困りの場合は、ぜひ当社にお問い合わせください。当社は、業界トップクラスのデータサイエンティストと、100万人以上のコントリビューターが在籍するグローバルコミュニティを擁しており、お客様の多種多様な機械学習に役立つデータセットを収集、準備いたします。

※ 本記事は、弊社英語ブログに掲載された記事に基づいたものです。

この記事が気に入ったらサポートをしてみませんか?