AI 音声アシスタントはなぜ会話ができる?
機械学習用音声データの重要性
AppleのSiri、AmazonのAlexa、SamsungのBixby、Google Assistantなどのバーチャルアシスタントは、大量の音声記録に基づいて訓練されています。
音声合成(TTS)や、音声録音、文字起こし(STT)などの音声データによって、バーチャルアシスタントは声を認識し、私たちの母国語を処理し、リクエストに応じて機械翻訳することができます。
Flittoでは、音声合成(TTS)や文字起こし(STT)など様々なタイプの音声データを提供しており、法律、スポーツ、エンターテイメント、会話、カスタマーサービス、、ITなど複数のドメインに対応しています。
音声合成(TTS)とは?
Text to Speech の略。
人間の音声を人工的に作り出すことである。音声情報処理の一分野。
文字起こし(STT)とは?
Speech to text の略。テープ起こし、または文字起こしとは、録音された人の言葉を聴き取り、その内容を文章に直す作業である。
Flittoには、25の言語で大量のオーディオやビデオの文字起こしができます。
原文言語の文字起こし完了後、ご要望の言語に翻訳をします。
音声/音声データセット
音声や音声データは、テキストや画像データよりも見つけるのが難しいことが多いですが、その理由はいくつかあります。
音声データは準備に時間がかかり、また収集後の分類も多く必要になります。
自然言語データセットには、複数の言語の直接の会話や、電話での会話の音声サンプルが含まれています。
通常、会話に参加している話者の年齢、性別、アクセントなどの人口統計学的なメタデータがタグ付けされています。
環境騒音データセットには、動物の鳴き声、楽器の音、キーボードを打つ音などの日常的な環境音が含まれています。
音声分類
世界のつながりが深まるにつれ、言語データセットに対するニーズはこれまで以上に具体的になってきています。
Flittoは、メタデータの分類を使用して、最も具体的なガイドラインを満たす様々なテキストや音声コーパスの収集をサポートしています。
音声データセットの場合、メタデータの分類には、性別、年齢、場所、状況、録音環境、翻訳の場合は言語ペアが含まれます。
当社のサイト上の言語データは、認定言語学者、校正者、翻訳者による厳格なレビュープロセスを経ています。
非ネイティブスピーカーが話す南部のアクセントや、日本のネイティブスピーカーが話す日本語の方言を探している場合でも対応できます。
また、英語、アラビア語、中国語(簡体字)、フランス語、ドイツ語、インドネシア語、日本語、韓国語、マレー語、ロシア語、スペイン語、タイ語、ベトナム語、フィンランド語を含む25言語でのTTSやSTTデータセットの多言語制作もお手伝いします。
言語データ収集方法
ユーザーが、言語関連のタスクをして参加ポイントを獲得できるFlittoアーケードを使用してデータを収集しています。
アーケードでは、何百万人ものユーザーが、楽しみながらや、学習目的のために文字起こしや翻訳をすることができるサービスです。
Microsoft、Samsung、Systranなどの多くのパートナー企業に、音声、画像、テキストなどの様々な種類のコーパスデータを提供しています。
Flittoサービス
Flittoは、言語データ、クラウドソース翻訳、プロ翻訳、YouTube動画翻訳サービスを提供しています。
日本の一般的な翻訳企業と比較して約5分の1のコストで才能豊かなエンジニアと翻訳者を揃えAPIソリューションのカスタマイズいたします。
■アプリのダウンロードはこちらから
Google Play
App Store
ビジネスに関するお問い合わせは、Flittoに直接ご連絡ください。
この記事が気に入ったらサポートをしてみませんか?