21/10/14 英語力は誤り訂正で試される

今週はオンラインで国際会議に出席していた。もともとオフライン参加の予定で久々に海外出張かと喜んでいたのだが、コロナは思うように収束せず、結局口頭発表というタスクだけが残った。
今回の会議は、オンラインオフラインのハイブリッド形式で行われた。僕はこのタイプの会議には初参加だったのだが、初日の朝、僕がその問題に当たるのに長い時間は必要なかった。
ハイブリッドということで、会場からの質疑は会場のマイクが拾うことになるのだが、おそらくマイクそのものがPCに接続されているのではなく、マイクが会場のスピーカーを通して出した音をPCのマイクが拾うという状態らしい。それで何が起こるかというと、これはもう音が悪すぎて質疑の内容がほとんど入ってこないのだ。はじめ、これは僕の英語力の欠如によるものなのかと思ったが、ほとんどネイティブに近い人でも聞き取ることは相当に難しいらしい。
それでも文句は言っていられないので、一通り出席し、先ほどクローズしたが、このハイブリッド会議というのは、他のどの瞬間よりも英語力を試される場所なのではないかと思った。
英語力、と一口に行ってもその尺度は色々ある。読み書き、会話、もっと言えば、どの程度の読み書きができるか、どの程度の速度なら聞き取れるかなどなど。こうした様々な尺度の中で、今回必要とされたものは、”誤り訂正”の能力だった。

情報科学の分野では一般に誤り訂正というと、ノイズを含んだある情報から適切に必要な情報を抽出することであるが、特に音声認識や、自然言語処理の文脈では、文法の誤り訂正が活発に研究されているらしく、例えばそれを自動翻訳や第2言語習得に応用する動きも見られる。
それで、いくつか記事や論文を眺めていると、この文法誤り訂正には大きく分けて3つの方法があることがわかる。ルールベース、分類器ベース、そして機械翻訳ベースだ。
門外漢なので誤謬を含んだ説明になるかもしれないが、僕の理解では前の二つは、こちらが明示的に与えたルールに照らしてインプットされた内容を訂正する一方、機械翻訳は与えられたデータから統計処理または機械学習を経て、検証と訂正を試みるというものである。
僕は一連の文献に当たっているときに、「むしろ僕はどの方法論で言語処理しているのだろうか」という疑問い思い至った。つまり、僕という人間を一つの計算機だとしたとき、僕は(思考の上で)与えられたルールに従っているのか、またはこれまでの経験に従っているのかという問題だ。
無論、計算機のアプローチとは違って、人間にとってそれらは不可分な場合も多いのだが、強いていうなら僕は、”ニューラルネット的に処理したいけどまだルールベース”なのではないかと思った。つまり、例えば先の会議での雑音を多分に含んだ質疑に対して、本当なら経験的な直感に基づいて内容を処理したいが、現状ではやっぱり”文法ベース”での処理に留まっていて、それはすなわち教育によって与えられたものでしかないのではないかということである。

そう考えると、ネイティブと非ネイティブの間に聳え立つ大きな壁は、このルールベースと機械翻訳ベースという差異によって理解できるのではないか。僕らは日本語話者は基本的に文法を教わる前にそれを身につけるし、従ってそれは須く経験から来るものだ。一方で、非ネイティブ言語に対しては、まず文法や単語、発音といった切れ切れの”ルール”から学習を始めその総体として言語体系を獲得する。
であるならば、言語処理技術がルールベースから機械翻訳ベースへと進化していることを鑑みても、僕はルールベースである限り、ネイティブ的に言葉を操ることはできないし、誤り訂正だって無理がある。
おそらく、僕は今後も苦しみながら英語を使うだろう。しかし機械翻訳ベースを目指す以上、重要なのは”教師データ”であるのだから、やっぱり苦しみながら使い続けるしかないのろう。おわり。

...実はこの洞察から論を進めてではどのような学習法が論理的に適切なのかということを考えようと思ったのだが、おそらくは言語教育や機械翻訳の文脈で盛大に議論されていることのような気もするので、ここで留めておく。もし斯様な文献があれば参照したい。

この記事が気に入ったらサポートをしてみませんか?