リアルタイム翻訳字幕の特性と向き合い方

*nao*

2022年4月24日 04:27

序章

ゆかりねっとコネクターという音声認識型の翻訳システムをつくっています。５００人以上の方に支援をしていただきながら３年以上運用を続けています。

認知が広がるにつれ、製作者側が驚くような素晴らしい使い方もあれば、「もっと使い方の工夫ができればもっとよくなるのに…」もあります。

たまに「つかえねーよ、こんなもん」と直接連絡をくださる方もいますが、まぁ、それも１つの個人の感想でしょう。そこを含め、いろいろかきつづってみます。

前提として

（意訳も含めた）完ぺきは翻訳を望むなら、優秀な通訳者を雇いましょう。でもそんな優秀な通訳者を「いつでも、自分が思い立った時に、自由に」用意できる人なんてまずいないでしょう。（それに、人にまかせたって、すべてが完全なことは決してない）

で、それもできないなら「自分で正しく話せばいいじゃない」となるわけだけど、それもまた言語習得コストは高いわけです。

そこで、人としては好きな時に好きな言語を程よく仲介してくれて、人間が言語を完ぺきに覚えなくても使える「翻訳システム」を欲するわけです。とはいえ、そんな完璧なテクノロジーなんて存在しません。

不完全なテクノロジーであっても、「うまく使う」ことでその敷居を下げることができる優秀な道具です。なんせ同じことを人間がやろうとしてもできないんだから、まずはそれだけでも十分なことなのです。

包丁や自動車が「便利な道具」なのか「人を傷つける道具になる」のかは使い方によるのと同じように、翻訳もまた使い方によって大きく異なる結果となります。

運用スタイル

今回想定している運用スタイルは、「一人で運用せざるを得ない状態」において、いかに字幕を付けて運用するか？に絞っています。本来字幕の状況を最大限生かすためには、文章の訂正者を織り込むことが有効です。

現に、学会や大学のイベント、大型配信イベントなどでは、何人かの訂正者をつけて文章を随時修正することで「人間による補正・レベルアップ」を図り、より発話に忠実な文章となるように仕上げています。

音声認識システムを展開しているUDトークでは、このような修正のスタイルを推奨していますし、ゆかりねっとコネクターも修正された文章を表示できる仕組みに対応しています。

必要なマインド

音声認識システムも翻訳システムも急成長中のシステムです。日々確実に進歩しているものの、「人間が自由気ままにつかっても、いい感じに処理してくれる」というわけにはいきません。

なんなら、機械だからこそ空気を読まないってところもあります。なので、道具を使う側の「人間」が、どのように使っていけば得たい結果にちかづけるか？を考えていくことでその時にベストとなる状態をつくりだせるということになります。

ゆかりねっとコネクターの外乱要因は、この３つに分けられます。

a)音声認識

ゆかりねっとコネクターで使われる音声認識の種類としては、主にGoogle音声認識、Microsoft音声認識、UDトークを介して行われるAmiVoice Cloud音声認識となります。

ウェブでフリーソフトとして配られているツールの大半はGoogle音声認識システムを使っているように見えます。（担当者調べ）

（ブラウザを介してアクセスするフリーのものは大半がGoogle音声認識です。）

a-1) Google音声認識

Google音声認識の特徴は、「音声の音から想定される、文章としてなりたつものをもってくる」ということです。なので、多少言い損じても、語尾がきれても「文章として読めるもの」を持ってくる傾向があります。

ただし「文章として読める」ことが「発話と同じ」とは限りません。語尾をちゃんと話さないがゆえに否定文が肯定文になることもおおいので、語尾はちゃんと話しましょう。

また、日本語の文脈を学習していることもあり、唐突な文章や単語などは推論がうまく機能せずに思った文章にならないことが多いです。（これはどの音声認識でも同じ傾向）

なので、短い文に難しい単語をまぜて「文章が正しく出ない！」といっても、それは難しい。なんならネイティブな人でもそれを理解できないケースもあることでしょう。（人間は前後の文脈やその人の性格・口調で補正をして考えるから読み取れることも多いが、翻訳機はそんなことをしていない）

なので、認識しやすい文脈で話すことが大事です。

a-2) Microsoft音声認識

Microsoft音声認識は、句読点をいれてくれる音声認識システムで、Edgeブラウザから使うことができます。

音声認識システムの応答はGoogle音声認識よりワンテンポ遅いですが、その分、認識精度を向上できるように努力しているようにみえます。

Microsoft音声認識はGoogleほどWebデータから学んでいないようで、最新の単語などは出にくい傾向にあります。音声認識は知らない単語を聞いたときに「その文章の語順と音の並びから一番使われる単語」を推論します。そのため、知らない単語を認識したあたりから結果が崩れていくような現象が発生しやすいです。

Microsoft音声認識の場合は、句読点を自動的に打ちますので話す言葉の間が重要になってきます。適切な会話の間を持つことで、音声認識の結果もよくなっていくことでしょう。

a-3）AmiVoice Cloud音声認識

AmiVoice Cloud音声認識は商用向けの音声認識エンジンです。契約すれば個人でも低価格な音声認識システムを構築することができます。

商用システムでありながら、実質無料でつかえるのがUDトークです。そしてゆかりねっとコネクターはUDトークと連動することができます。

AmiVoice Cloudは、この中では唯一辞書登録が可能な音声認識エンジンです。「知らない単語が来た時に文章が崩れる」という音声認識の弱点を克服する１つの方法としては辞書を鍛えるという手段があり、UDトーク（AmiVoice Cloud）はこの手段をユーザが簡単につかえます。

また、AmiVoice Cloudは「音に忠実に音声認識変換をしようとする」という特徴があります。多少文法と異なっても音に近い文章をもってこようとするので、多少崩れた話し言葉でも認識しやすい傾向があります。半面、話した人の特徴がとってもよくあらわれる仕組みでもあります。

話者の話し方が下手だと、その通りに出る傾向も強く出ますので、トークスキルも上げていく必要があります。

b)翻訳システム

翻訳システムは、Google、Microsoft、Amazon、DeepL、Papago、Watsonの中から選ぶことが可能です。

比較的皆さんからの評判が良いのはDeepL、つぎにGoogleですが、韓国語の翻訳に関してはPapagoのほうが評価が高いようです。

DeepLは比較的短文に弱く、時折あらぶった翻訳を変える癖があります。Google翻訳はWebから学んだと思われる文章が返されることがあり、スラングを含む文章が返されることがあります。

なんとなくニュアンスが伝わるという意味ではDeepL、Papagoの評判をきいていますが、多国語に対応するという意味でも、１１０言語も扱えるGoogle、次につづくMicrosoft翻訳は欠かせないかとおもいます。

（翻訳コストという意味では、Microsoft翻訳は安いです）

c)表出システム

得られた結果をどのシステムどのような表現で出すか？という部分を担当しています。読み切れるタイミングとか、文字のサイズとか、デザインとか。

この部分をゆかりねっとコネクターが担当するわけです。

映画やテレビの字幕などでは、文字数や行数、文字が出ている時間はガイドラインがあって「ある程度読み切れるように」配慮されています。

ゆかりねっとコネクターではある程度ユーザが自由に設定できるので、話のスピードや配信画面のレイアウト、使う字幕機能などに応じて設定するとよいかと思います。

人のトークスキル

こんな特性のあるテクノロジーですが、なんだかんだで使う人によって結果が大きく変わります。たとえば、音声認識っていうのはいろんなしゃべり方を学習をしたデータを持っています。（各社が努力して作りこんでいるのは主にこの部分）

その学習結果の中央値をとおるようなしゃべり方をすれば、ほぼドンピシャ言葉が出てくるわけです。で、言葉の語順が学習された文章の語順に近ければ、ぴったりお望みの文章が出てくるって寸法です。

なので、しゃべり方に揺らぎがあってメーカーで学習された中央から大きく外れるような音声となるとおもったような出力が得られなくなります。

たとえば、アナウンサーの文章を読み取らせると、大半がそのまま出ます。それぐらい「誰が聞いてもきれいな話者」であれば、音声認識システムが知らない単語が来なければほぼ認識ができます。

実際には、揺らぎや方言、間や発話なども含めて、ここに異なる部分があります。これは個性を表すものですから無理に治すものでもありませんが、「人間が聞き取りやすい・にくい」もあるように、機械にも相性や得意・不得意な相手があります。某プロレスラーのモノマネで「なんか言ってるけど内容がわかんないや」のパターンと一緒です。

機材の状態

たとえばパソコンのマイク設定がAGC（音量自動調整ON）になっていて、ノイズが乗りやすい状態になっていたり、ケーブルにノイズが乗りやすい状態になっていると、機械にとって認知が難しい状態になります。

つまり音として認知しているので、雑音は少ないほうがいいってことですね。（変換手順は音→音素→ひらがな→文脈から漢字に変換という手順なのでこの変換過程がスムーズに進むほうがいい）

また、音声の質も大事です。音声のモデルは 8KHzや16KHzサンプリングのモデルになっていることが多いかと思います。これぐらいの音声帯域があることが前提になっていると考えてよいので、音声が圧縮されている環境（たとえば、速度制約を受けているネット回線の音声とか）だと、思った結果を得られないことがあります。

高音をある程度ちゃんと得られるような通信形態をつかいましょう。

それでもうまくいかないとき

それでもうまくいかないときは、補正をかけていきましょう。補正にもいくつかの種類があります。

１つ目は、音声認識自体の補正。これは前項で説明したUDトークの辞書機能になります。「なるべく誤った音声認識結果を出さないために学習させる」というポリシーで設定するものです。

なので、何度話してもうまくいかない文章にしぼって登録してみるとよいかとおもいます。

２つ目は、音声認識結果の補正辞書。音声認識を補正しても出ちゃう場合や、音声認識自体に辞書機能がない場合に活躍するものです。「誤った言葉を置き換えることで正しくする」というポリシーで設定するものです。

少し扱いが難しいものの、視聴者さんの名前などが正しく認識せずいつも同じ誤り方をする…みたいな場合に有効です。

翻訳に関しても、補正辞書をいれてあるので、毎回間違う翻訳の表現は置換することは可能です。

まぁ、音声認識だけでつかっている「ゆかりねっと」のユーザさんの環境を見ても、いろんな置換辞書を駆使して日本語の読み上げ精度をUPさせているところをみると、そこに翻訳が乗っている「ゆかりねっとコネクター」なら、もっといろんな手を尽くす必要がある（ケースもある）ということです。

で、完全じゃなきゃダメなの？

結局のところ、いろいろ癖や特徴のある道具ですが、どんな運用ポリシーで運用するのか？がすべてです。

もともと、日本語なんて難解な言語を扱う人の配信を見に来たとして、情報が全くなくて、音声もゲーム音楽に被さっていて…なんていう配信に来たとして、字幕すらなかったら、もう本人が話している内容なんてまず届きません。

「ネットで有名だから」とか「配信者が自分が推したいタイプだから」とかいう理由があれば、字幕がなくても見に来るかもしれませんが、そうじゃない人にとって「自分を知ってもらう」スタートラインにすら立てません。

なので、「自分のやっていることを知ってもらう」ためにつけるのであれば、「１００％じゃないにしても、６０％ぐらいは正しい字幕」を許容しておいて、「字幕は自動翻訳で間違うことがあります」と書いておいて、疑問についてはチャットで会話してもらう…みたいなスタンスがよいでしょう。

配信者自身も、外国の視聴者が固定視聴者になってくると、伝わりやすい画面配置とか、翻訳されやすい言葉の話し方などの工夫をするようになってきます。

視聴している海外の方から「その話し方のほうが伝わる」とか「その表現は置き換えたほうがいい」などのアドバイスももらえることでしょう。

そうやって一緒に育っていく配信者を何人も見てきました。そして、そのなかでゆかりねっとコネクターも育っているし、音声認識システムや翻訳システムも育ってきています。

もっとも配信者のトークだって、見返してみたら「すべてが完ぺき」なわけじゃないでしょう。これは「妥協せよ」じゃなくて「どう使えば最大効果を発揮できるかという点に注目して運用してみたらいいという事です。

AmiVoice Cloudも、２年前と比べたらずいぶん素直に変換するようになりました。これもみんなが使い、会社が開発を続けた結果ですね。

それに、これは翻訳にかぎったことではありませんが、電車に乗っていて音声が聞けない環境や、聴覚が不自由で音声情報を活用できない場合など、様々なケースにおいても字幕は大きな役割を果たします。

あとは、誤字自体をつっこみの１つととらえて上手くエンタテインメントに作り替えている人もいます。「頼りない相棒だけどよろしくね」スタイルってやつです。

相乗効果

実際に字幕を付けていくと、「翻訳をするには相手の文化などをしらないといけない」ことが多くあることに気づきます。翻訳だけを挟めば正しいことになるなんてことはありません。

相手の国をしって、文化をしって、表現をしって…「日本にはこういう常識、考え方」があるけど、外国では表現や理解が難しいもの…なども見えてきます。

そうやって相手を少しずつ理解しながら、「相手を知りたい・相手に伝えたい」という気持ちのもとに双方がよりそっていくことが、「ちょっとぐらい翻訳が正しくなくても、伝えたいことがつたわる」ということに伝わるという状況につながっていくわけです。

そうしているうちに、相手の国のあいさつを覚えたり、かんたんな会話をおぼえながら、翻訳機に頼らなくても意思疎通がすこしずつとれるようになってくることでしょう。

結局のところ…

前半でシステム側の特性をいろいろ書きましたが、実はそんなことはどうでもいいことです。会社でも仕事を達成するために「部下や部署の特性に合わせた指示や仕事の回しかた」をするでしょ？それと一緒です。

狙いたいパフォーマンスや結果を得たいために、自分がどういう立ち回り（使い方）をすればよいか、それを追求するだけなのですよ。

もちろん、システムの製作サイドは、より良い結果を得られる道具となるよう、レベルアップは続けていっています。

UDトークの開発者である青木氏はいいました。「テクノロジーは日々進歩するものだ」と。

今の変換結果が不満足なものでも、明日は違うかもしれません。何か新たな手段を加えれば、もっと良くなるかもしれません。もしかしたらブレイクスルーが起きる技術がうまれているかもしれません。

なので、今日の変換結果に満足しなくても、「テクノロジーは使えない！！」って怒ったり、嫌いになったりしないでください。

きっとそれはあなたの理想に世界が追い付いていないだけ。追いつくまではまだもうちょっとだけ時間が必要なので、そのあいだ、ちょこっとだけ手を入れてみたりしてみてください。

それに、コミュニケーションを本当にあなたが取りたいとおもうなら、いろんな手段をあの手この手で試してみるのがいいと思いますよ。

ツールも研究するぐらいの勢いで触って、話し方もいろいろ試して、相手の反応をみてみましょう。フィードバックをもらっていければ、ちょっとずつ状況がかわっていくことでしょう。

（今回はあえてこのケースを話しませんでしたが）訂正者を導入するとかリスピーク（音声認識をし直す担当者）をつけるとか、いろんな方法を導入するなどの方法もあります。通訳者自体もインターネット経由で仕事を受けてくれる人たちも増えてきていますので、どうしてもレベルアップしたいができないという場合は、人の手に頼るのもよいかとおもいます。

ツールを使ったユーザのその後

ツールをうまく使えなかったケースでは、「今はまだいいや」って言われるケースは割と聞いています。

半面、「海外の友達ができた」とか「視聴者の傾向がだいぶかわってきて、違う世界がみえてきた」というレポートもきいています。

字幕を常用して、新たにできた友達と会話が続いていたり、ファンが増えたり、海外のコミュニティと遊べるようになった！という方までいます。

自分で言語を覚えるきかっけとなって、ツールを使うのを卒業したユーザーさんもいます。

いまとなってはすごい遠い存在の…有名な配信者さんになった方が何人もいらっしゃいます。

目標をもってうまく使った方は、どんどん羽ばたいているので、「一人で使ってもうまくいく使い方、コミュニケーションの取り方は存在する」と考えています。

そして、ゆかりねっとコネクターは羽ばたきたいと思う方の夢の一部を助けるツールでしかありません。

ぜひうまくツールをつかってあなたの夢を実現してみてください。

いいなと思ったら応援しよう！

開発したり研究したりするのに時間と費用がとてもかかるので、頂いたお気持ちはその費用に補填させていただきます。