AI 音声アシスタントはなぜ会話ができる？

Flitto(フリット) | 世界173カ国1,400万人が利用するAI翻訳サービス

2021年2月25日 21:28

機械学習用音声データの重要性

AppleのSiri、AmazonのAlexa、SamsungのBixby、Google Assistantなどのバーチャルアシスタントは、大量の音声記録に基づいて訓練されています。
音声合成（TTS）や、音声録音、文字起こし（STT）などの音声データによって、バーチャルアシスタントは声を認識し、私たちの母国語を処理し、リクエストに応じて機械翻訳することができます。

Flittoでは、音声合成(TTS)や文字起こし(STT)など様々なタイプの音声データを提供しており、法律、スポーツ、エンターテイメント、会話、カスタマーサービス、、ITなど複数のドメインに対応しています。

音声合成(TTS)とは？

Text to Speech の略。
人間の音声を人工的に作り出すことである。音声情報処理の一分野。

文字起こし（STT）とは？

Speech to text の略。テープ起こし、または文字起こしとは、録音された人の言葉を聴き取り、その内容を文章に直す作業である。

Flittoには、25の言語で大量のオーディオやビデオの文字起こしができます。
原文言語の文字起こし完了後、ご要望の言語に翻訳をします。

音声/音声データセット

音声や音声データは、テキストや画像データよりも見つけるのが難しいことが多いですが、その理由はいくつかあります。
音声データは準備に時間がかかり、また収集後の分類も多く必要になります。

自然言語データセットには、複数の言語の直接の会話や、電話での会話の音声サンプルが含まれています。
通常、会話に参加している話者の年齢、性別、アクセントなどの人口統計学的なメタデータがタグ付けされています。

環境騒音データセットには、動物の鳴き声、楽器の音、キーボードを打つ音などの日常的な環境音が含まれています。

音声分類

世界のつながりが深まるにつれ、言語データセットに対するニーズはこれまで以上に具体的になってきています。
Flittoは、メタデータの分類を使用して、最も具体的なガイドラインを満たす様々なテキストや音声コーパスの収集をサポートしています。

音声データセットの場合、メタデータの分類には、性別、年齢、場所、状況、録音環境、翻訳の場合は言語ペアが含まれます。
当社のサイト上の言語データは、認定言語学者、校正者、翻訳者による厳格なレビュープロセスを経ています。

非ネイティブスピーカーが話す南部のアクセントや、日本のネイティブスピーカーが話す日本語の方言を探している場合でも対応できます。

また、英語、アラビア語、中国語（簡体字）、フランス語、ドイツ語、インドネシア語、日本語、韓国語、マレー語、ロシア語、スペイン語、タイ語、ベトナム語、フィンランド語を含む25言語でのTTSやSTTデータセットの多言語制作もお手伝いします。

言語データ収集方法

ユーザーが、言語関連のタスクをして参加ポイントを獲得できるFlittoアーケードを使用してデータを収集しています。
アーケードでは、何百万人ものユーザーが、楽しみながらや、学習目的のために文字起こしや翻訳をすることができるサービスです。

Microsoft、Samsung、Systranなどの多くのパートナー企業に、音声、画像、テキストなどの様々な種類のコーパスデータを提供しています。

Flittoサービス

Flittoは、言語データ、クラウドソース翻訳、プロ翻訳、YouTube動画翻訳サービスを提供しています。

日本の一般的な翻訳企業と比較して約5分の1のコストで才能豊かなエンジニアと翻訳者を揃えAPIソリューションのカスタマイズいたします。

■Webサイト

■アプリのダウンロードはこちらから
Google Play
App Store

ビジネスに関するお問い合わせは、Flittoに直接ご連絡ください。

この記事が気に入ったらサポートをしてみませんか？