英文読解中の視線計測コーパス論文が出ました

2024年6月13日 09:39

Research Methods in Applied Linguistics (RMAL) で，以下の論文がオンライン公開されました。

Nahatame, S., Ogiso, T., Kimura, Y., & Ushiro, Y. (2024). TECO: An eye-tracking corpus of Japanese L2 English learners’ text reading. Research Methods in Applied Linguistics, 3(2), 100123. https://doi.org/10.1016/j.rmal.2024.100123

本研究は，以下の科研費の成果の第二弾となる論文です。

本論文は，日本語を母語とする大学（院）生41名が英語の文章を読んだ際の眼球運動データについて，1人あたり約1万語（合計41万語以上）に対する眼球運動データを含む視線計測コーパス (Tsukuba Eye-tracking Corpus; TECO) として構築・公開し，データの収集方法や種類，記述統計，信頼性や妥当性を報告したものとなっています。先日出版されたARELE論文では，コーパス構築に先立って得られた文章単位の眼球運動データセットをGlobal eye movement behavior (Cop et al., 2015; Rayner et al., 2006) として分析・公開し，日本語母語英語学習者のベンチマークの提示や文章難易度との関連を検証することを目的としていました。本論文では，Local eye movement behavior (Cop et al., 2017; Kuperman et al., 2023) として単語単位の眼球運動データを扱い，それらを視線計測コーパスとして構築・公開するにあたって，その信頼性や妥当性を実証することを目的としています。

論文の詳しい内容

本コーパスには，以下の9つの眼球運動データ指標が最大で41万語以上の単語（トークン）に対して与えられています（各指標の定義は論文を参照してください）:
　(a) skipping, (b) first fixation duration, (c) gaze duration,
　(d) total fixation duration, (e) number of fixations, (f) refixation,
　(g) regression-in, (h) rereading, and (i) regression path duration

論文では，これらの指標について（１）協力者レベル・単語レベルの信頼性，（２）記述統計と分布，（３）単語の長さや頻度，読み手の特徴が与える影響，の3つの分析を行っています。その結果，（１）については，本コーパスに含まれる9つの眼球運動データ指標の信頼性は，先行するL2視線計測コーパス (GECO L2, MECO L2) と比較しても概ね高いことが示されました。（２）については，記述統計を算出・吟味しつつ，注視時間データについては外れ値が多く含まれ，分析においてデータの変換などが必要になる可能性を指摘しました。（３）については，理論上注視時間に大きな影響を与えるとされる単語の長さと頻度が，本コーパスにおいても予測通り有意な影響を与えていたことから，本コーパスに含まれるデータの妥当性を主張しました。

（３）についてはさらに，文章における単語の位置，単語が行頭・行末にあるかどうか，パンクチュエーション（ピリオドやコンマなど）の有無がデータに影響を与えていることも示されています。これらの点は，実際に本コーパスのデータを分析・活用する上で重要な情報だと思います。なお，本コーパスでは，文章に含まれる各単語について，上記で述べた長さ（文字数）や頻度レベル (New JACET 8000)，文章内の位置などの情報も提供しています。

視線計測コーパスの構築は近年国際的にも多様な分野で盛んになっているので，そのような先行した取り組み（GECOやMECOなど）に参画するというのもできなくもなかったのですが，それをしなかったのは（実際はそうできなかった事情もあるのですが），何よりも自分（たち）が欲しいと思えるデータを集めたかったというのがあります。たとえば，日本にいる英語学習者がGECOで使われたようなアガサクリスティーの小説を読むというのは一般的ではないし，ＭECOで使われている文章は長さが短く，難易度も偏りがあったりしたので，日本にいる英語学習者が学習の過程で出会うような文章を読んだ際の眼球運動データをできるだけ多く収集してコーパスを構築したいという思いがあり，今回の研究につながりました。

本コーパスのデータは，L2読解研究はもちろん，方法論研究やデータ分析の授業で使うためのオープンリソースとしても役立つかもしれません（データサイズが大きすぎてやや扱いづらい面もありますが）。先行するARELE論文と合わせて，現時点で文章単位のデータセットと単語単位のデータセットそれぞれを公開しているので，「文章全体に対する読み (Global reading behavior)」(Cop et al., 2015; Rayner et al., 2006) に関心があれば前者を，「文章中の単語の読み (Local reading behavior)」(Cop et al., 2017; Kuperman et al., 2023) に関心があれば後者を利用できるかと思います（ただし，文章単位のデータはベンチマークを示すことを主目的として構築されたものなので，単語単位のデータと違って信頼性などは論文では検討していないことに注意してください）。私自身，それぞれのデータセットを用いて，他の研究者と協働した応用研究に現在取り組んでいます。また，査読者から提案されたので，論文ではMulti-word unitに対するデータセットにも言及していますが，実際にはそれを作るのは大変かなと思っています（できなくはないのですが…）。

ただし，本コーパスには，先行するコーパス (GECO, MECO) のように英語母語話者のデータやL2英語に対応したL1日本語による読解のデータは含まれていません。当然，これらのデータの欠如に関しては査読者からも指摘されましたし，本コーパスの大きな限界点だと思います。論文中にも書いていますが，データセットの大きさ（＝協力者にできるだけ多くの文章・単語を読んでもらうこと）を優先したので，読解を行う時間も相当長くなり，L2英語のデータを収集するだけにとどまりました。先行するコーパスの限界点を克服する形で今回のコーパスを構築しましたが，もちろん先行するコーパスにしかない強みもあるので，目的に応じて使い分けることが必要かなと思います。

投稿と査読について

今回RMALに投稿した理由はいくつかあるのですが，最も大きかったのは査読から公開までが早い（と伝え聞いていた）ことです（実際の査読プロセスは下記参照）。また，論文のオープンアクセス費用についても高いけれど他に比べればまだマシだったというのもあります。なので，視線計測コーパスの公開という今回の論文の目的を踏まえて，できるだけ早くかつオープンに論文を公開できる場所を選びました。加えて，母語読解だと視線計測コーパスはMethod系のジャーナル (e.g., Behavior Research Methods) に掲載されていることが多く，RMALもすでに視線計測のレヴュー論文を複数出版しているので (e.g., Brysbaert & Drieghe, 2024; Fioravanti & Siyanova-Chanturia, 2024)，ジャーナルとのフィットという点でも良いと判断しました。

なお，本論文ではARELE論文と同じ協力者から収集したデータを扱っていることから，論文中で採択済みのARELE論文を引用して各論文の位置づけを明記するとともに，投稿の際にはそのことをカバーレターに記して，同論文をエディターに提出しました。加えて，iThenticateでの類似度分析も行い，その結果もエディターに提出しています。

査読から採択までのプロセスについては，伝え聞いていた通りとてもスピーディーでした。

2024年2月　投稿
2024年3月　返却 (Revision)
2024年4月　再投稿
2024年5月　返却 (Accept pending minor revision)
2024年5月　再々投稿　→　Accept
2024年6月　オンライン公開

大体査読は2回とも1か月くらいで返ってきて，再投稿の際にはこちらで修正に1か月くらいかけていたので（ジャーナルからは2週間を指定されたのを延長しました），こちら側の修正が早ければもっと早く進んだと思います。

最後に

最後に，本論文で扱っているデータは非常に膨大であり，アノテーションやデータの整理・処理は1人ではこなすことができませんでした。共著者の方々にはこの点でご尽力いただいたと共に，論文についても様々な観点から議論と改良を重ねていただきました。この場で改めて感謝申し上げたいと思います。

この記事が気に入ったらサポートをしてみませんか？