[CHI2022採択] 最新の機械翻訳技術を組み込み、日常の至る所で自然と覚えたい外国単語に触れられる語彙学習システム

2022年6月21日 09:20

ヒューマンコンピューターインタラクション（HCI）のトップ国際会議のひとつである ACM CHI 2022 に、荒川（カーネギーメロン大学）、矢倉（筑波大学）、小林（東北大学）が共同で執筆した、機械翻訳技術に基づいて日常の至る所で外国語の語彙学習を行うシステムを提案する論文 “VocanEncounter: NMT-powered Vocabulary Learning by Presenting Computer-Generated Usages of Foreign Words into Users' Daily Lives” が Full paper で採択されました。本記事ではその内容について簡単に紹介したいと思います。

1. 背景

語彙学習は外国語を学ぶ上で欠かせないステップの1つです。多くの人が、単語帳や単語カードで英単語を覚えるといった経験をしたことあるのではないでしょうか。ただし、これらの語彙学習のアプローチでは、人々が自ら主体的に勉強の時間を作って、単語を覚えようと努力することが前提とされています。そのため、忙しかったり、モチベーションが低かったりすると、継続して学習することが難しくなってしまいます [1] 。また、単語カードのような教材では、往々にして外国語と母国語の意味を1対1対応させて覚えていく形式になるため、単語の意味を丸暗記することはできても実際どのように使われるかという用法に触れづらく、覚えた単語を自在に使えるまでに至らないという問題 [2] も存在します。

私たちは、より効率良い語彙学習を目的に、発展を見せる自然言語処理、特に機械翻訳の技術を活用したシステムを提案し、その有効性をユーザ実験によって示しました。

2. 関連研究

語彙学習に関しては、HCI 分野でも多くの研究が行われています。過去の研究はざっくりと2つのアプローチに分けることができます。1つ目は Micro Learning と呼ばれるアプローチです。これは「わざわざ時間を割かなくていけない」というハードルを解決するために、ユーザが日常の様々な場面で語彙学習に触れる機会をコンピュータが提供するというものです。例えば、スマートフォンの通知で外国語の単語クイズを提示する手法 [3] が提案されています。

"MicroMandarin: mobile language learning in context" [3]

もう1つは Usage-based Learning と呼ばれるアプローチです。これは語彙学習において、覚えた語彙を使えるようになるためには、そのリアルな用法とともに学習することが大事であるという点を念頭においたものです。例えば、ユーザが覚えたい単語が含まれるニュース記事をインターネットから検索して提示することで、ニュースを読みながら単語の用法を学べるというもの [4] が提案されています。

"As We May Study: Towards the Web as a Personalized Language Textbook" [4]

これら2つのアプローチが効果的であるとされる中で、2つのアプローチの良いところを同時に実現できるようなシステムは存在していませんでした。というのも、ただスマートフォンの通知で単語の用法を提示するだけでは、モチベーションの低いユーザは無関心になり、容易くシステムを無視してしまうことが予見されます。つまり、いかにユーザにとってのハードルを下げながら、用法を含めたリアルな学習機会を実現するかという点を考える必要があるのです。

そこで、私たちはユーザのコンテキスト（状況）を反映した介入のデザインとして、ユーザの興味関心のある用法をユーザの日常生活の中で提示することで、学習効率の向上を図りました。

3. 提案手法: VocabEncounter

具体的に開発したシステムは、VocabEncounter（語彙との遭遇）というものです。これは、ユーザが日常生活において目にしている母国語の文章の一部を外国語に自動翻訳し、かつそれが覚えたい外国語の単語の用法になっているという状態を作り出します。私たちは普段、ニュース記事だったり、SNSだったり、はたまた街中の看板だったりと、多くのテキストに視覚的に触れています。VocabEncounter はそうした日常の中の数多の母国語のテキストに、覚えたい単語を含む用法を適切に埋め込むことを可能にします。

VocabEncounterでは仕事中、通勤中、散歩中、映画鑑賞中など日常の様々な場面で覚えたい単語に自然と遭遇することができる。

ここで鍵となるのは、ユーザが普段から触れている中の文章を語彙学習に用いるという点です。つまり、わざわざ語彙学習のために時間を割く必要はなく、読みたいと思って読み進めているニュース記事やウェブサイトの中に、覚えたい単語の用法が出てくるので、そのままの流れで興味関心を持ちながら学ぶことができるのです。

自分が読みたいと思ってアクセスしたウェブサイトの中に、覚えたい単語の用法が出てくるので、そのままの流れで語彙学習に繋げられる。

ただし、こちらの手法の実現にはいくつかの工夫が必要です。そもそもユーザごとに埋め込む対象となるテキストはもちろん、覚えたい単語そのものも異なる中で、どの部分を語彙学習に使うのか、うまく選ぶ必要があります。外国語の用法に翻訳されている部分が長すぎたり、あるいは用法を埋め込むことで母国語の原文の意味を損なったりしてしまうと「興味関心を持ちながら学ぶ」のを阻害することに繋がります。

こうした懸念を解消するために、VocabEncounter は複数の自然言語処理技術を活用しています。詳細は論文を参照していただきたいですが、機械翻訳の制約付きデコーディングや多言語単語埋め込みなどの技術が使われています。

4. 実験と結果

実験ではまず、VocabEncounter が生成する「覚えたい単語が含まれた翻訳文」がどの程度の品質なのかを評価しました。クラウドソーシングを用いて、文の自然性、原文の意味の反映度合いの二つの観点で評価しました。その結果、VocabEncounter が生成する文は人が翻訳する場合に引けを取らない精度で翻訳できることを確認しました。翻訳の例をいくつか共有します。

原文「もっと前向きな内容になるはずだったの」
埋め込む単語: optimistic
生成した用法 “It was supposed to be a more optimistic content.”

原文「自分にぴったりの商品を探し出すことができ」
埋め込む単語: retrieve
生成した用法 “You can retrieve the perfect item for yourself.”

こうして、VocabEncounter が語彙学習に使っても問題ないような品質の用法を提示できることを確認した後、実際にそのようなインタラクションによってユーザの語彙学習が促進されるのかについて実験を行いました。

この2つ目の実験では、ユーザに VocabEncounter を使って数日過ごしてもらい、その学習効果を単語テストを使って評価しました。その結果、提案するアプローチによって語彙学習のためだけに時間を割かなくても、より効果的な学習が実現できることが確認できました。また、その使用感についてもユーザに好ましく受け入れられることが確認できました。

5. まとめ

まとめると本論文では、以下のような貢献をしました。

・覚えたい外国語の単語を、ユーザが触れているテキストに適切にフレーズとして埋め込むシステムである VocabEncounter を提案
・ユーザ実験により、VocabEncounter を使うことで語彙学習の効率が上昇すること、そしてユーザに好ましく受け入れられることを確認
・提案手法に基づく複数のアプリケーションを実装し、機械学習の生成モデルを活用した新しい語彙学習のパラダイムを導入した

今後の展望としては、ユーザの状況に応じてどの程度システムが単語を埋め込むのかを適切に調節できるようにしたいと考えています。現在のアルゴリズムの内部では、生成される文の品質をチェックして、一定の閾値より高い場合にユーザに提示するようにしています。例えばその閾値を高く設定することで、ユーザは高い品質の文のみに遭遇することが可能になり、また閾値を低く設定することで、ユーザは多くの文に遭遇することになります。このように AI の介入に対して人がコントロールを持てることは、Human-AI Interaction の重要なガイドラインの1つ [5] になっています。

6. FAQ

Q1. 外国語のフレーズが提示されるということは、ある程度その言語が分かっていることが前提となっているのでしょうか？

そのように考えています。システムの評価では、国際的な言語能力指標である CEFR の B2 レベルの人を対象にして実験を行いました。これは幅広い話題に関してその言語を使ってコミュニケーションが取れるレベルで、日本人平均のレベルより少し上を表しています。しかし、実際に VocabEncounter を利用できるレベルの要求度はもう少し幅広いと考えています。特に VocabEncounter の機能として、翻訳箇所をホバーすることで元の文章と埋め込まれている単語が参照できるため、学習ハードルは低く、また初学者であってもフレーズ単位で学習ができると期待しています。

Q2. ユーザのプライバシはどうなるのでしょうか？

ウェブサイトの中身など、ユーザが触れているテキストを直接扱うため、プライバシへの配慮は必要と考えています。例えば、VocabEncounter はクライアントサイドでの実装が可能である上に、また秘匿性の高い機械翻訳技術を使うことでもプライバシに考慮したシステムが実現できます [6]。

Q3. どんな単語でも日常で触れるテキストに埋め込むことはできるのでしょうか？

覚えたい単語リストの中で、実際にどの程度埋め込まれて登場するかの頻度には、ばらつきが生まれることがあります。意味的に広く使用される単語は頻繁に出現したり、反対に専門性の高い単語などは出現率が低かったりします。

ただ、ユーザが普段触れているテキストの内容や傾向を解析すれば、この頻度を事前に推定することは可能だと考えています。もし、覚えたい単語の中に現れづらい単語があれば別途意識的に覚えるようにユーザに通知するなど、VocabEncounterと他の学習方法を組み合わせた方法が期待されます。

参考文献

[1] G. Gassler, et al. 2004. Integrated Micro Learning–An Outline of the Basic Method and First Results. Interact. Comput. Aided Learn., 4, 1–7.
[2] T. S. Brown and F. L. Perry. 1991. A Comparison of Three Learning Strategies for ESL Vocabulary Acquisition. TESOL Q., 25, 4, 655–670.
[3] D. Edge, et al. 2011. MicroMandarin: Mobile Language Learning in Context. Proc. ACM CHI, 3169–3178.
[4] M. F. Lungu, et al. 2018. As We May Study: Towards the Web as a Personalized Language Textbook. Proc. ACM CHI, 338.
[5] S. Amershi, et al. 2019. Guidelines for Human-AI Interaction. Proc. ACM CHI, 3.
[6] Q. Feng, et al. 2020. SecureNLP: A System for Multi-Party Privacy-Preserving Natural Language Processing. IEEE Trans. Inf. Forensics Secur., 15, 3709–3721.

この記事が気に入ったらサポートをしてみませんか？