見出し画像

文字と音声と、デジタル環境にて

大きく言えば、文明の中心的な構成には、音声から文字、文字から音声の往来がある。いま、デジタルの世界において、それがわれわれ普通のユーザーが手の届くところで展開されている。

音声から文字への変換は、デジタル技術として音声からテキスト(Speech-to-Text、STT)が実現し、実用されている。最初に確実に関心を集めたのは、たしかにスマホの入力などにおいての環境設定においてではないかと思われる。携帯デバイスにおいての明かな需要はそれへの期待や実装を促した。そして、グーグル・ドキュメントにおける入力方法のスタンピードな機能は、やがて安定したインターフェスまで確立し、安心して使える機能として定着した。

画像1

話した言葉をそのまま文字に変換することは、音声認識の技術を中核として、さまざまな話し方や環境への対応などに数えきれない苦労や工夫が費やされたと容易に想像できる。ただ、そのようなことは普通のユーザには簡単には見えない。マイクに向かって話したら即座にテキストが現われ、しかも手に入れた文字は単純にして完成度の判断が容易く、その成果が直感的だ。

これに対して、反対方向の文字から音声への変換は、はるかに多様性をもった。音声そのものには個性がつきものであり、その完成度もしたがってさまざまな制約や基準が付きまとった。

これに一つの答えを最初に出したのはやはりグーグルだったかもしれない。音声合成(Text-to-Speech、TTS)の「エンジン」を提供して、さまざまなアプリなどに用いられた。ただ、いまのなっても広く使われているものには、機械読み上げの感が拭えず、あくまでも内容が伝わればよいといったようなものだ。

一方では、AI技術の活用など、音声合成には感情豊かで、しかもユーザーが読み上げ音声を選べるようなサービスがつぎからつぎへと登場してきた。英語の読み上げについて言えば、つぎはその一例である。

画像2

Text-to-Speech, 英語の文章をパソコンが読み上げてくれる

日本語においても同じで、広く使われるまでには行かなくても、音声の完成度には感心するものがあった。

画像3

Text-to-Speech、TTS、チョイミテーナ、日本語の文章をパソコンが読み上げる

しかも最新版のブラウザEdgeには、「音声で読み上げる」の機能が実装され、閲覧しているページの上を右クリック一つで上質な読み上げ機能にアクセスすることが可能になっている。

ここでは中国語による読み上げ機能の発展に特別に触れておく必要があるかもしれない。同じ条件で検索してみれば、中国語の環境でのTTS機能の提供は明らかに多種多様で、新しいサービスは後を絶たない。しかもその特徴の一つは、ほとんどの場合有料ということであり、なんらかの形で利用料金を徴収し、細かな需要に応えられる商業利用にまで成長したものだ。つぎはその一例である。

画像4

Text-to-Speech、TTS、在线Ai转换、中国語の文章をパソコンが読み上げる

さらに音声から文字へという技術に視線を戻そう。動画に字幕を付けるという作り方において、YouTubeは自動的に字幕生成のサービスを提供している。多国言語に対応し、試してみれば心地よいぐらいの出来栄えだ。つぎは日本語の古典を朗読した動画への対応を試みたものである。ほとんどもう一つの言語だと考えなくもない古語だが、それでも七割り程度の正確率を出していると思える。

画像5

YouTube、字幕の作り方

文字と音声の往還、デジタルの環境においていまや最初の波が出来上がっていると考えたい。これからはもっともっと発展する分野に違いなかろう。

「デジタル小ワザ」と名乗り、小さな動画を作ってみた。個人的に覚えておきたいメモであり、同じ関心をもつユーザーのために最小限の手助けになることを願いたい。


この記事が気に入ったらサポートをしてみませんか?