CAT講座その1：翻訳メモリ前編

2022年3月17日 23:56

「翻訳の求人で、”未経験OKだけどCATツールが使えるのは必須”って書いてあるけれど、どう言う状況だろ？」というツイートを見かけまして…
たしかに、通常の翻訳求人で”CATツールが使えることが条件”とだけ書かれていても、何をどう求められているのか分からないですよね。
という訳で、複数回に分けて、私なりにCATツールの解説をしていきたいと思います。

私の専門分野はゲームとITですが、今回はどちらかというと、ITよりの話となります。

翻訳者として”CATツールが使える”というのは、翻訳用データベースを扱えるということ

CAT（Computer Assisted Translation）ツールとはズバリそのまま、コンピューターの力を活用して翻訳するツールのことであり、通常はTrados StudioやMemoQなどのソフトウェアを指します。これらのソフトは、”翻訳メモリ”や”用語集”といった翻訳専用のデータベースを参照しながら翻訳できることが特徴です。そして翻訳者として”CATツールが使える”というのは、この翻訳専用のデータベースを適切に扱えるということと同義だと思ってもらって構いません。翻訳メモリや用語集には、多くの原文と訳文のペアが登録されており、使いこなすことで用語統一などがきちんとできるようになります（もちろん始まったばかりのプロジェクトの場合は、翻訳メモリや用語集には何の蓄積もありませんが）。
それから、新たに翻訳を追加してこれらのデータベースの蓄積を増やしていくことも、翻訳者には期待されています。これは比較的簡単で、CATツールで普通に作業すれば、完了した訳文は翻訳メモリに自動的に登録されていきます。
なお、CATツールにはプロジェクト管理機能などもありますが、それらはPM（プロジェクトマネージャー）さん向けの機能であり、基本的に翻訳者は扱えなくても大丈夫です。

CATツールの画面について

それでは具体的に説明していきましょう。次の図は、Trados Studioの画面です。ソフトが異なるとレイアウトも異なりますが、基本的にどのソフトでも、”翻訳作業欄”と”翻訳のデータベース”をひとつの画面でまとめて確認できるようになっています。

図1 CATツール画面
テキストサンプル：『アドベンチャーズ・フロム・アナザーワールド』

実際に作業するのは下部の翻訳作業欄ですが、適宜、上部の翻訳メモリや用語集も閲覧・検索します。

翻訳メモリについて

翻訳メモリとは、その言葉のとおり、原文と訳文の組み合わせを記憶（メモリ）するデータです。
①同じようなフレーズが繰り返し登場する場合
②複数の翻訳者で共同作業する場合
③追加コンテンツの翻訳を後からする場合
などに、言い回しや用語、トーンを統一するのに役立ちます。

次の翻訳作業欄を拡大した図を見てください。

図2 翻訳作業欄

CATツールの場合、文書を読み込ませると、このように文章が区切られます。そして区切りごとに訳を「確定（ショートカットまたはボタン操作による）」することで、その原文と訳文のペアが翻訳メモリに都度登録されていきます。
上記のサンプルテキストは、<7>と<8>の後に、似たような言い回しの<9>と<10>のテキストが続きます。こんな時こそ翻訳メモリが大活躍です。

翻訳作業の流れとしては、まず<7>と<8>を普通に訳して「確定」し、<9>に進みます。すると、CATツールが自動的に翻訳メモリを調べて、「これに似た文章ありましたよ～😄」と、翻訳メモリから<7>の文を引っ張り出してきてくれるのです。上の画面では94％の一致率の既訳が提案されています。<10>の文に至っては、<8>の文と数値の違いしかないため、100％一致として数値も自動的に変更された訳文が提案されています。

ちなみにこの時、上部の翻訳メモリの参照欄では、その差分も視覚的に分かるようになっています。

この場合はskilledが変わっているため、「得意な」の部分を変更すれば訳を使い回しできるということが分かります。

なんとなく、翻訳メモリを活用した翻訳作業のイメージはついたでしょうか。
このサンプルでは似た文章が近くにあるので、翻訳メモリに頼らなくても文言の統一は簡単にできます。しかし大きなプロジェクトになると、統一すべき文言があちこちに点在していたり（実際に文書に登場する順番で原文が並んでいるとは限りません）、別の翻訳者さんの担当ファイルに入っていたりすることも少なくありません。そういった時に翻訳メモリで検索すれば、他の箇所でどのように訳されているかをすぐに確認できます（オンラインプロジェクトの場合は翻訳メモリもリアルタイムで更新されるので、並行で作業を進めている人の訳語を確認することも可能）。

特にIT案件の場合は用語統一が重視されるので、私は知っている言葉でも面倒くさがらずに翻訳メモリで頻繁に検索するようにしています。たとえばこちらのテキスト。

Total video files -> 動画ファイル合計
Total audio files -> 音声ファイル総数

Totalの意味は調べなくても想像がつきますが、こういった場合も「合計」と「総数」のように訳語のばらつきが発生する可能性があります。それを避けるために、私はtotalのような言葉であっても翻訳メモリを検索します。

コラム：翻訳メモリの読み取りは高度な情報解読

ここまで読んでいただいて、察しのよい方であればお分かりになると思うのですが、きちんと手入れされていない翻訳メモリは使いものになりません。登録されている訳が誤訳満載、訳語がばらつき放題…こういった翻訳メモリのせいで、作業効率が落ちる、単価以上の負担がかかるという実害が発生する場合は、ヤバいと思った時点でPMさんに相談しましょう。翻訳メモリを管理する（よい訳がそろった状態に選別する）というお仕事も世の中にはあります。そういったところにコストをかけずに使えない翻訳メモリを渡してくるのは、提供側の問題です。
こちらが問題について論理的に説明しても向こうが理解しない場合、そのPMさんまたは翻訳会社さんは、残念ながらあまりよろしくないと思います。よいPMさんであれば、聞く姿勢を持ち、（エンドクライアントの承認を得られるかは別として）納期調整や単価交渉などの手立てを考えてくれます。

それから、翻訳メモリはデータベースとして使い倒してください。全角と半角の間にスペースを空けるかどうかや、パーセント記号を全角か半角のどちらにするかなどで悩む場合、スタイルガイドに記載がなく、具体的な指示がなかったとしても、翻訳メモリで検索すれば、過去訳が模範を示してくれる場合があります。
※私はこのために、翻訳メモリの検索やLQAに特化したXbenchの併用をおすすめしています。Xbenchの解説については、また別の機会にできればやります。

また、訳語がばらついていて、どれに合わせるのがよいか分からない場合は、翻訳メモリの訳の登録日や登録者も確認します。
基本的には登録日が最新の方が精度はよいと思います。ただし当日のように日付が近すぎる場合は、並行して作業している別の翻訳者さんの最終確定していない訳の可能性もあるため要注意です。
登録者に関しては、エンドクライアントの中の人や、PMさんの名前で登録されているものであれば、誰かがすでに確認した訳である可能性が高いので、信頼ウェイトが増えます。実際のエンドクライアントのHPや文書を見て、最終的に採用されている訳と比べるのもよいでしょう。

翻訳メモリを参考にして自分で判断した場合は、「どのような根拠で、どのように判断して、どう処理をしたか」をPMさんに説明して了承を取ったり、クエリに残したりするように私はしています。PMさんは翻訳メモリの中身までは確認する時間がない一方で、エンドクライアントから問い合わせがあった場合に対応する立場にいます。ですので、こういった個別の判断は、ボトムアップ精神で報告するようにします。

ここまで来るともはや翻訳という範疇を超えて、ただただ高度な情報解読をしている気持ちになりますが、まあ、これも広義の翻訳（ローカライズ）の仕事だと思います。

ちなみにCATツールの作業では、「確定」をせずに飛ばして、後続の文の訳を先に決めることも可能です。「言い回しは統一したいけれど、どういう訳にするかは最後までひととおり作業した後に決めたいな」という場合は、空欄のままにするか、仮訳だけ入力して、次の文に進んでしまいましょう。

それでは、今回はここまで。次回は、101％一致や一括入力について説明したいと思います。

この記事が気に入ったらサポートをしてみませんか？