見出し画像

恥ずかしい誤字脱字に効く!校正支援ツール「TyE」

メディア研究開発センター(M研)の田森です。

今回は、M研で開発中の校正支援ツール「TyE(たい)」の紹介をしたいと思います。ネーミングは先に開発した「TSUNA(つな)」の兄弟分、ということでお察しください

こちらのウェブサイトでも、情報を更新していきます。

TyEとは

TyEができることはシンプルで、日本語で書かれた文の「誤っていそうな箇所」を指摘します。APIで提供しているので、様々なアプリケーションやサービスに適用できます。下記の例は、作成中のデモ画面でのチェック結果です。

TyEによる検知結果

TyEの特徴を以下にまとめました。

  • 検知のためのルール辞書を必要としません。

    • 日本語のルールから逸脱している部分を自動的に検知します。

    • 助詞や「同音異義語」といった、ルールにしづらいものも検知できます。

  • 「文字の追加が必要」「誤った文字が入力されている」「余計な文字がある」ことを検知できます。

    • 上記の例では、それぞれ赤、緑、青で示しています。

  • 「検知の自信度合い」を確認することができます。

    • 上記の例では、色が濃いほど自信があることを示します。「明日の死霊」や「科学療法」は自信がないようです。APIから返却された数値を可視化したものです。

    • 提案の取捨選択の目安にすることができます。

  • 「どう直せばいいか(修正候補の提示)」は提示しません(理由は後述)。

個人的には「ルール辞書がいらない」というのが大きいと思います。誤りはあらかじめルール化できるものでは必ずしもなく、いわば「ゼロデイ攻撃」的な誤りも検知することが必要だからです。このTyEは、大量の正しい日本語から日本語ルールを学び、そのルールに逸脱しているものを検知できるので、ある程度そういうものに対処できます。

修正候補の提示をしないのは、とにかく誤り箇所検知の性能にこだわった、開発上の理由があります。検知さえできれば、候補の提示はBERTなどのMasked Language Modelでもある程度(オプション的に)可能なこと、また日本語ネイティブの利用を想定しており、検知さえできれば自分で修正できることからあまりニーズがなさそう、一方で現状では検知と同時に「正しい修正候補を提示する」タスクの難易度が高いことも理由です。

TyEの性能はいかに

京都大学が発表している日本語Wikipedia入力誤りデータセットというものがあります。Wikipediaの編集履歴から、入力の誤りによって編集された文を収集したデータセットです。

このデータセットで評価したところ、8割程度の水準で誤りを検知できることがわかりました。完璧ではないものの、TyEによりマークアップされたものをとりあえず見ておけば、メールの送信やツイートをしたあとに「あ!」ということが最大8割程度減らせる?ということになりそうです。

我々のテックブログでは、公開前にはTyEでチェックするようにしており、これは有用だ、ということで皆様にもお使いいただければ、と思っている次第です。将来的には、社内のシステムにも組み込まれる予定です。

TyEの学習について

詳細は現時点では多く語ることはできないのですが、朝日新聞社では「文法的に正しい日本語」が複数のプロフェッショナルによって確認されつつ、日々大量に作成されています。この正しい日本語により言語モデルを構築しています。一方で、社内のシステムより(前述のWikipediaのデータセットのように)編集履歴を取得し、誤り訂正のデータも取得できます。

これらの言語モデルやデータを組み合わせて学習し、文中の誤り箇所を検知できるようにしています。

TyEの提供について

TyEは現在、複数の社外パートナー様にご試用頂いており、PoCの真っ最中です。

APIで用意しているので、現在ご利用中のCMSに組み込んだり、簡単にWebアプリを作成することもできます。Chromeの拡張機能も作成することもでき、社内で試用しています。

Webアプリとして
Chrome Extentionでの利用事例

TyEの苦手なこと

TyEは「日本語の文法からはみ出ている」部分がチェックできますが、それ以上のことはできません。例えば、事実のチェックやそれぞれのメディアの細かいルールのチェックはできません。

「太陽が西から昇る。」というのは日本語の文法としては正しいので誤りとして検知できませんし、「コンピュータ」「コンピュータ」をどちらかに揃える、といったこともできません。

理想的な校正支援ツールは、TyEのようないわゆるAIベースのものと、ルール辞書との共存が効果的と考えています。以下の画像は、朝日新聞社で実際に使われているルール辞書と、TyEを共存させたデモの例です。「首都のコロンボ(は誤り)」のようなルールをあらかじめ設定しておいた一方で、「管制な住宅街」はTyEが検知しています。

スリランカの首都は(社内ルールでは)「スリジャヤワルデネプラ・コッテ」です!

ご興味のある方は…

今回ご紹介した機能のいくつかはご試用いただくこともできますので、こちらまでお気軽にご連絡ください。

mrdc-info@asahi.com

最後までお読みいただき、ありがとうございました。

(メディア研究開発センター・田森秀明)