見出し画像

「中国語の単語の区切りがわからない問題」をITでサクッと解決する

中国語のネット記事を読んだときに、漢字の羅列(たまに句点)で絶望感を感じた人は多いのではないでしょうか。全文翻訳はGoogle翻訳がやってくれるとしても、どの漢字が翻訳結果のどこにひもづいてるかわからなかったり…

通常の語学学習だと「単語をひたすら覚えて、区切り位置を把握する」「文法を覚えて、文章の構成から区切り位置を推測する」のどちらかになると思うのですが、いずれもちょっとした調べものに使える方法ではありません。

今回の記事では、中国語の学習サイトを運営する大学の先生が作った「中国語の分割ツール」(+補足的にGoogle翻訳)を使って、漢字が並んだ中国語の文章から自分が知りたい単語をズバッと抜き出す方法をお伝えします。

1. 中国語の文章を単語に分割してくれる「Chinese Text Analyser」がスゴイ

まずは、こちらの動画を「冒頭10秒」だけ見てください。

こんな漢字が羅列した文章が…

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

一瞬で単語ごとに分割!

画像1

というシンプルなサービスです。

ちなみに、漢字の下にアルファベットらしきものが見えてますが、これはピンインという中国語の読み表記で、英語訳が書いてあるわけではありません(でもこの後の解説どおり作業すれば似たようなことができます)。

さて、あとは区切られた漢字の中から自分が探してる単語らしきものを探せば…とすんなり進めばよいのですが、さすがにそううまい話ではありません。

1.1 専門用語を複数の単語として区切ってしまうこと多々あり。ブロックチェーン=ブロック+チェーンとか

画像2

このツールに限ったことではないのですが、多くの文章解析手法は「文章の意味を理解してるわけではなく、単語(らしきもの)を見つけて文章を区切る」作業をしています。

分割に使用する単語はツールが勝手に考えているわけではなくて、既存の辞書や用語辞典を参考にしています。なので、たとえば「ブロックチェーン」という言葉が、「ブロック」「チェーン」というい2つの単語に区切ってしまうことがあります。

この問題、特にテック関係の文章でよく起こります。「ブロックチェーン」に限らず、「暗号通貨」も「自動運転」も「モバイル決済」も全部そうです。いまどきのテック系のキーワードは、複数の既存単語を組み合わせたものが本当に多い。

さて、いったいどうしたものか。

2. 「Chinese Text Analyser」と「Google翻訳」で技術用語を正確に探し出す方法

画像3

ここからは具体的な文章を元に、翻訳手順を解説していきたいと思います。

事例としては、中国でWikipediaより人気があると言われる「百度百科」(バイドゥが提供しているユーザー編集型の用語辞典)から「ブロックチェーン」の用語解説・概要部分を翻訳していきたいと思います。

百度百科・ブロックチェーンのページより概要を抜粋

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。
区块链(Blockchain)是比特币的一个重要概念,它本质上是一个去中介化的数据库,同时作为比特币的底层技术。区块链是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一次比特币网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。

ちなみに、この内容をまるごとGoogle翻訳で日本語にすると下記の文章になります。

ブロックチェーンは、分散データストレージ、ポイントツーポイント伝送、コンセンサスメカニズム、暗号化アルゴリズムなどのコンピュータテクノロジの新しいアプリケーションモードです。 いわゆるコンセンサスメカニズムは、ブロックチェーンシステムで異なるノード間の信頼と獲得権を実現するための数学的アルゴリズムである。
BlockchainはBitcoinの重要な概念であり、本質的には仲介されたデータベースであり、Bitcoinの基礎技術として機能します。 ブロックチェーンは、暗号方式を使用して生成された一連のデータブロックです。各ブロックには、情報の有効性を確認するためのビットコインネットワークトランザクションに関する情報(偽造防止)と、次のブロックの生成が含まれます。

文章全体の意味をざっくり把握するにはこれで十分ですが、「ブロックチェーン」「ビットコイン」「コンセンサスメカニズム」といった重要キーワードが原文のどの単語(漢字)に対応してるか、パッと理解するのは難しいのではないでしょうか。

※ブロックチェーンの百度百科ページまで自力でたどり着けない人は、ぜひこちらの記事も参照ください。

2.1 「Chinese Text Analyser」で文章を単語に分割

さて、ここから実際の翻訳作業を解説していきます。まずは冒頭の動画で見てもらった中国語の分割サービス「Chinese Text Analyser」のページを開いて、

画像4

入力ボックスに、翻訳したい文章をコピー(今回の場合は、百度百貨のブロックチェーンの説明概要)

画像5

「分割」ボタンをクリックすると、

画像6

元の文章を、単語ごとに区切ったテキストが出てきます。(下に出てくる発音表記(ピンイン)は今回は使いません)

2.2 Google翻訳で分割結果の確認

さて、ここから単語の分割結果の確認に入ります。パッと見た感じ、一文字で区切られている単語が非常に多く、細かく刻みすぎだなという印象です。(これは前述した単語分割の方法が原因です)

画像7

さきほどの状態から、オレンジ色の「分割修正ボタン」を押す

画像8

元の文章を単語ごとに「/」で区切ったテキストが表示されます。

画像9

この画面で翻訳したい部分を「/」も含めて選択。近くに表示される翻訳ボタン(小さいGoogle翻訳アイコン。赤矢印)を押すと、
※文章の選択(ドラッグ)するだけで翻訳する方法もあります。説明は後ほど。

画像10

なんと!分割された単語ごとに翻訳された結果が表示されます。

分割前の翻訳結果と分割後の翻訳結果を並べてみるとこの通り。

分割前の翻訳=自然な文章だけど単語の対応が分かりにくい

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。
ブロックチェーンは、分散データストレージ、ポイントツーポイント伝送、共通メカニズム、暗号化アルゴリズムなど、コンピュータテクノロジの新しいアプリケーションモードです。いわゆるコンセンサスメカニズムは、信頼を実現し、ブロックチェーンシステム内の異なるノード間で権利を得るための数学的アルゴリズムです。

分割後の翻訳=単語の羅列なので、単語ごとの対応が分かりやすい

区/块/链/是/分布/式/数据/存储/、/点/对/点/传/输/、/共/识/机/制/、/加/密/算/法/等/计算机/技术/的/新型/应用/模式/。/所/谓共/识/机/制/是/区/块/链/系/统中/实现/不同/节/点/之间/建立/信任/、/获取/权益/的/数学/算/法/。
領域/ブロック/鎖/ IS /配布/式/データ/ストレージ/、/ポイント/ /点/移送/輸送/、/ CO /識別/乾燥機/ G /、/追加/暗号化/オペレーター/方法/その他/コンピュータ/テクノロジー/ /新規/アプリケーション/モード/。 AS / /いわゆるCO /識別/機械/システム/ IS /領域/ブロック/チェーン/システム/システムに/実装/異なる/セクション/点/数学間/作成/トラスト/、/取得/エクイティ/ A / /カウント/メソッド/。

分割後の翻訳結果を見てみると、やはり「ブロックチェーン」「ビットコイン」といったキーワードは出てきません。予想通り、細かく分割し過ぎているようです。

2.3 「Chinese Text Analyser」の修正機能で単語を結合

「Chinese Text Analyser」は、自身の単語分割機能が完ぺきではないと理解しているようで、自動での単語分割後に手動で単語の分割・結合する機能を備えています。

翻訳結果の冒頭に「ブロック/鎖」と、かなりブロックチェーンらしき箇所があったので、

画像11

原文の該当箇所となる「块/链」の「/」をクリック。すると、「/」が削除され「块链」という1つの単語に修正されました。

2.4 結合後の単語をGoogle翻訳で改めて確認

ブロックチェーンと思われる箇所の区切り箇所を修正して、改めて翻訳をしてみると、

画像12

翻訳結果に「ブロックチェーン」という言葉が現れました。念のため「块链」をGoogle画像検索してみると、

画像13

ブロックチェーン関連の画像が多数出てくるので、翻訳に間違いないことを確認できました。

※Google画像検索で単語の意味を確認する方法・理由を知りたい方は、こちらの記事をご覧ください。

同様に、

・細切れの単語や漢字から知りたいキーワードの位置を類推
・該当箇所の前後で結合して翻訳
・念のため、画像検索で正しい意味か確認

することで、全文検索で出てきたキーワードが、どの漢字に対応しているかを正確に調べることができます。

例えば、「共/识」を結合した「共识」=コンセンサスと分かったりします。

まとめ

画像14

最初は絶対無理だと思った「漢字の羅列からキーワードを探し出す」ことも、上記の方法で簡単にできることが分かっていただけたでしょうか。

中国語の単語や文法を勉強して自分の力で読み解けるに越したことはないのですが、せっかくなのでITの力もフル活用しながら効率よく中国語での情報収集を進めていただければと思います。

補足1:ポップアップ翻訳を文章ドラッグだけでする方法

本文中では、翻訳したい文章を選択後に「翻訳ボタン」をクリックと書きましたが、下記の設定をすることで「ドラッグするだけでポップが表示」、翻訳結果が確認できるようになります。

画像15

画像16

翻訳のポップアップで「すぐにポップアップ」(赤矢印)を選択すると、翻訳したい文章をドラッグで選択するだけでポップアップの翻訳結果が表示されるようになります。(その上の「クリックするとポップアップするアイコンを表示」が標準設定。翻訳ボタンと言ってたやつです)

どちらの設定を選ぶかは個人の好みだと思いますが、翻訳作業をある程度まとまった時間するときには、この設定をした方が時間短縮になると思います。

補足2:ポップアップ翻訳は「元文章(/含む)」で250字以内で

画像17

Google翻訳のポップアップですが、翻訳前の文章が長すぎると動作しなくなるようです(もしかしたら処理に時間かかってフリーズしてるだけかもしれませんが)。

Googleの仕様を確認したわけではありませんが、自分の環境では「分割の/も含めて250字」より少ない場合はきびきび動いているので、そのあたりを目安に1回の翻訳量を調整するとよいと思います。

(twitter:@tech_nomad_

サポートいただいた分は下記にまとめた本を読んで還元したいと思います! デジタルヘルスケア https://is.gd/4XCPtN スタートアップ×知財 https://is.gd/KHV8G8 中国スタートアップ https://is.gd/KG2zcF