"やっぱ栃木はいちごだよね"を訳せますか

先日、『AI vs. 教科書が読めない子どもたち(新井紀子2018年)』をようやく購入しました。まだ読み進めている途中なので、本書の真意に触れることは出来ませんが、今日は「自然言語処理」というAI技術の発展により同時通訳が可能になるのか?という話について言及したいと思います。

現在、Google翻訳等のあらゆる翻訳ソフトは基本的に英語を主言語としています。そのため、文法構造が似ているスペイン語やフランス語に対する翻訳精度は高いです。しかし、日本語と英語は言語体系が異なるため、精度は低いです。翻訳ソフトを使って、あれ?変な文だなと思ったことがあると思います。根本的に文法構造が違うのですが、その中でも特に特徴的な文を例に挙げてみます。

1. うなぎ文
「私は、うなぎ」
これだけ読むと意味が分からないと思いますが、自然に使っているものです。

「注文決まった?」
「俺はカツ丼。君は?」
「私は、うなぎ」

こうすれば、どんな場面でどんな意図で発言されたものなのかが分かりますよね。
これは"うなぎ文"と呼ばれるもので、"AはB"という文は"A=B"とならない場合があることを示しています。この状況で"I am an eel."と訳す人はいないと思いますが、日本語だとそれと同じ現象が文脈にフィットするものとして起こっているのです。タイトルの「栃木はいちごだよね」も同じです。栃木はいちごではないはずなのですが、日本語のネイティブスピーカーであれば「栃木県はいちごの名産地として有名である」という意味を理解できます。

2. こんにゃく文
「こんにゃくは太らない」
これもおかしいことが分かります。こんにゃくは痩せたり太ったりするものではありません。正しくは(文的に)「こんにゃくを食べても太らない」です。対応する英語は"Konjac does not get fat."ではないですよね。

3. 人魚構文
「太郎は明日、大阪に行く予定です。」
言語学者の角田太作さんが、この文の奇妙さを指摘したことで有名です。奇妙な点としては、上記2つの文と同じく「太郎は予定です」という全体の構造がおかしいことがまず挙げられます。そして、人魚構文と言われる所以は、上半身が人間、下半身が魚という不一致が起こっているからです。前半は「太郎は行く(動詞)」という動詞述語文であり、後半は「予定(名詞)です」という名詞述語文なのです。このような構文は、韓国語、中国語、ヒンディー語、モンゴル語などアジア圏の言語でも観察されることが分かっています。英語、フランス語、スペイン語などには見られません。

最初に述べたように、AIなど翻訳ソフトの主言語が英語に設定されている以上、上記のような特徴を持つアジア圏の言語(特に日本語)を翻訳することは大変難しいと考えられます。ディープラーニング(深層学習)の研究も進み、AI自らがネット上の情報をかき集めて学習を進めるということも聞きますが、どちらの言語のネイティブスピーカーにとっても違和感のない同時通訳は実現するのでしょうか。

言外の部分に目を向けてみる

「言語そのもの」以外に私たちが言葉を使う上で重要になるのは、コンテクスト(文脈、慣習と言われるもの)です。文化人類学者のEdward T.Hall が『Beyond culture(1976年)』で世界の言語コミュニケーションの型を高文脈文化(high-context culture)と低文脈文化(low-context culture)に分けたことで、各言語の背景にある特徴を指摘しています。

高文脈文化とは、コミュニケーションを行う者同士の共通認識が重要視され、実際に言葉として表された部分よりも言葉になっていない部分を理解されることが多い(頻度、度合い共に)文化のことです。簡単に言えば「言わなくてもわかる」「察する」「空気を読む」というやつです。これの最極端の例が日本語とされています。日本語に次いで、中国語、アラブ語、ギリシャ語などが挙げられています。

低文脈文化とは、言葉として表された部分のみが情報として相手に伝わり、それ以外の部分は理解されない・されにくい文化のことです。最極端はドイツ語とされています。その他、スカンジナビア語や英語が挙げられています。

つまり、日本語と英語の比較という部分に目を向けると、単に言語構造が異なっているだけでなく、背景にある言語コミュニケーションの型が違っているのです。この二つはかなり密接な関係にあるので、にわとりが先か卵が先かみたいなところがあるようにも思いますが…。ここを跨いで自然に通訳が行えるようになること、私はAI技術について人並みの知識しかありませんし、今後の研究についても把握していませんが、本当に難しいことだと思うのです。

私が高校生の時必死で頑張った、「provide=提供する、purchase=購入する、indicate=示す…」と言った単語の対応を何万語も記憶させることは、一瞬で出来てしまいます。でも、翻訳はそんな簡単な作業ではない。

「人間の知的活動を数式化してAIという計算機にプログラムする」ことでAI技術は進歩していくと言いますが、コンテクストのカバーまで数式化できるとは思えません。とりあえず、今すぐには。

この記事が気に入ったらサポートをしてみませんか?