見出し画像

【AI校正】 Typolessを紹介させてください by 開発者

Noteに記事を投稿するのは久方ぶりになりました、M研の倉井です。
なぜ久しぶりになってしまったのか、それは今回お話しする「Typoless」の開発にいそしんでいたからです! … 言い訳ですね笑
というわけで今回はM研が開発・公開した 「朝日新聞社の文章校正AI Typoless」 について、どんなことができるのか、また将来的にどんなことができるようになるのか、お伝えできればと思います。


Typolessはズバリこんなもの

Typolessは文章校正のWebサービスです。これまでにWordやGoogle Docsで文章を書いているとき、文字に赤い波線が付いていて、カーソルを合わせると校正の指摘がされていたという経験がある方は多いと思います。
Typolessはまさにその役目を担うツールで、我々が独自に開発したAIや朝日新聞社の校正ルールを活用し、高い精度で誤っていそうな箇所を検知できるようになっています。あくまで文章の誤っていそうな箇所を指摘するだけで、勝手に書きかえるようなことはしません。

そんなTypolessですが、我々開発チームが掲げているVisionがあります。
それは、「文章に潜む誤りを見逃さない」です。

日本語文章をパソコンで書く場合、①自分が思いついた言葉を、②指を通して入力し、③変換を行って確定させる、というステップを踏む必要があります。どんな文章を書き上げるか、つまり①に多くの脳のリソースを割いた結果、②や③の確認がおろそかになり、タイプミスや変換ミスが起きてしまう状況は多々あるのではないでしょうか。
そんな状況において、ユーザーの入力を尊重しながら、間違っていそうな箇所をお知らせすることで文章を完璧に仕上げてもらいたい。縁の下の力持ちを目指したいという思いが開発チームの原動力になっています。

また最近は文章を対外的に公開し、その反応を得ることが非常に多いと思います。特にSNSなどでは気軽に情報を発信することができますが、情報が拡散されやすい環境であるため、一つ何かを間違えると炎上につながってしまうというリスクも内在しています。企業等においては、社内からの発信を管理しきれておらず、気づいたら他の部が炎上していたというようなことも多いのではないでしょうか。
Typolessはカスタム辞書を利用した組織での用語の統一機能や、炎上しそうな言葉やフレーズのチェック機能を備えています(一部公開前の機能も含む)。それらを活用することでリスクマネジメントにも活用いただけるように、日夜開発を進めています。

以上、ざっとTypolessが目指している姿をお伝えいたしましたが、ではそれを実現するためにどんな機能が備わっているのか、以降で紹介させていただきます。

校正を支える3つの要素

Typolessでは2023年12月現在、大きく3つの校正の柱があります。①AI校正、②朝日新聞社のノウハウが詰まったルール辞書、③ユーザー自身で作るカスタム辞書の3つです。①は全てのプランでご利用いただけますが、②と③に関してはプレミアムプランとエンタープライズのみの機能となります。
3つのどの校正においてもユーザーの入力をサーバー側に残すことはなく、また内容を確認するようなこともないので、機密性の高い文章でも安心して入力いただけます。

①Typoless AI

AIによる校正はTypolessのコア機能といっても差し支えありません。朝日新聞社の保有する膨大な量の文字校正履歴をAIに学習させることで、「この文脈ではこの文字はこう直されるべきだ」ということを指摘できるようになっています(修正候補まで提示します)。このAIはChatGPTではなく、朝日新聞社が10年以上の歳月をかけて研究・開発した独自のAIとなっています。校正に特化したAIであるため校正にかかる時間が非常に短く済み、最大2万文字を平均5秒程度で処理可能です。

Typoless AIはTypolessの名前にも含まれているように、主にタイポ(タイプミスや誤変換)を指摘してくれます。例を挙げるならば、以下のようなものが指摘可能です。

間違があります -> 間違があります(文字の置換)
活用したものとなっています -> 活用したものとなっています(不要な文字の削除)
一緒がんばろうね -> 一緒がんばろうね(文字の挿入)
イベントが会場した -> イベントが場した(誤変換)

実際のUIは以下の画像のようなものになっており、間違いは右側のそれぞれのエラーに対応したパネル上からも修正することが可能です。

Typoless AIによる指摘は赤色で表示される

肝心な指摘の精度ですが、様々な種類の誤り(文字の欠如、衍字、誤変換等)が含まれている文章データセットに対してTypoless AIを適用した結果、80-90%の誤りを指摘することができました。
今後も定期的に学習データのバリエーションを増やしたり、AI自体を高性能にする研究も継続したりすることで、より精度を向上させていきます。

②朝日新聞社のノウハウが詰まったルール辞書

朝日新聞社では、一つの記事を紙面に掲載するまでに5-6人によって文章が校正・校閲されます。その中で言葉の使い方や誤りやすい言葉などがたくさんルール化されており、その数は10万を超えます。
そのうちの一部は「朝日新聞の用語の手引」というルールブックとして社外に公開しているのですが、この10万を超えるルールが搭載されているのが「朝日新聞社のノウハウが詰まったルール辞書」です(以降ルール辞書と呼びます)。
Typolessで文章を校正することで、この10万を超えるルール辞書をすぐにご利用いただけます。新聞社独自の言葉の取り決めも含まれているので、その全てが一般的なライティングに貢献するわけではありませんが、誤変換しやすい言葉や誤用しやすい言葉もたくさん登録されているので、それらを一から用意することなく利用できるのは、我ながら便利だなと思います。

ルール辞書で指摘できる言葉を以下に例示します。

ご多聞にもれず -> ご多分にもれず
説明 > 「~に漏れず」は「ご多分」

公算が強い -> 公算が大きい
説明 > 公算は一般に「大きい、小さい」で表す

ルール辞書系の指摘は青色

個人的には、いずれも言われないと気づかずに使ってしまいそうだなと思います。こちらに登録されているルールには、過去に朝日新聞社で間違えたことのある言葉も収録されているので、新聞社でさえ犯してしまいそうなミスや気づきにくい言葉の誤用などを拾うことができます。

上記のような誤りやすい表現のほかに、ルール辞書ではダイバーシティー&インクルージョンに配慮した言葉も検知可能です。こちらは「朝日新聞の用語の手引」に記載されている言葉以外にも、Typoless用にピックアップした言葉が指摘されるようになっています。
例を挙げると以下のようなものがあります。時代背景に沿って使い方を改めるべき言葉やポリコレ的に配慮すべき言葉が指摘されます。

キーマン -> キーパーソン
父母会 -> 保護者会

③ユーザー自身で作るカスタム辞書

3つ目の辞書は、お客さまご自身で育てていく「カスタム辞書」です。ご自身や所属する組織の中でよく間違えてしまう言葉や、使い方に注意が必要な言葉、漢字の開く開かないを統一したい言葉などをあらかじめ登録しておき、それが入力された時に指摘できるという機能です。
専用のページから簡単にルールを登録したり、編集したりすることができます。

ルール辞書の登録画面

実際にカスタム辞書による指摘がされている画面を以下に用意しました。
例えば「新聞制作」というミスが多ければ新聞制作を「新聞製作」と変換するようなルールを用意すればOKです。
他にも「お客様」のを開く開かないといった設定や、自社商品名の大文字小文字の統一などにも活用できます。
画像内の「効果的」のように、変換候補を登録せずに「気をつけるべき表現」を見つける用途でも利用可能です。法律的に避けるべき表現などを登録しておくと、それらを使ってしまっていた場合に検知することが可能です。
もちろん、Typoless AIやルール辞書の結果と同時に指摘が行われます。

カスタム辞書も青で指摘される

ユーザーからの意見を伺っていると、カスタム辞書が真価を発揮するのは、「チームにおける言葉の統一を図りたい状況」なのではないかなと思います。商品名の表記統一や使ってはいけない言葉の洗い出しのためにカスタム辞書を活用することで、チームのみんなが同じ基準を満たした文章を執筆できるようになります。

ここまで、Typolessの校正を支える3つの要素について説明いたしました。
仮に指摘範囲が重複していた場合、カスタム辞書>ルール辞書>Typoless AIの順で指摘が優先されます。
まだまだ機能や性能面でかゆいところまで手が届くとは言えませんが、ユーザーのみなさまに満足いただけるアプリケーションを目指して開発を行っていますので、期待していただけると幸いです。

選べる3つのプラン

2023年12月時点では、3つのプランを用意しております。全てWebアプリケーションを利用するためのプランです。

(個人向け)スタンダードとプレミアム

まず、1人で使ってみたいという方向けのプランが2つあります。
スタンダードプランプレミアムプランです。
スタンダードプランが2,200円/月、プレミアムプランが5,500円/月(ともに税込み)となっています。
これらの差分として、スタンダードプランではTypoless AIのみが利用可能である一方、プレミアムプランではそれに加えてルール辞書やカスタム辞書がご利用いただけます。
どちらも14日間のトライアルがありますので、まずはプレミアムプランで機能をフルで試していただき、その後そのまま本契約に移行するのか、プランを換えて本契約に移行するのか、あるいは利用をやめるのか判断いただくのが良いと思います。
ちなみに、トライアル中にプランを変更すると即座に課金が発生し、本契約に移行するので注意が必要です。
また利用開始から14日間(336時間)が経過すると自動で課金が発生し、本契約に移行します。

表で比較すると以下のような違いがあるので、参考にしてみてください。
もちろん、企業にお勤めの方が個人で業務のために利用することも可能です!

個人で利用可能な2つのプラン

(チーム向け)エンタープライズ

3つ目のプランとして、エンタープライズプランがあります。
こちらのプランも問い合わせいらずで利用開始が可能です。
こちらはチームで利用したい方向けのプランになっています。
基本的に使える機能はプレミアムと変わりませんが、チーム内でカスタム辞書を共有できたり、支払いが請求書払いで行えたりというメリットがあります。
料金は1-10名までは全体で49,500円/月固定で、11人目からは1人追加ごとに4,950円/月(ともに税込み)が加算となります。
エンタープライズプランは現在トライアルがない仕様になっているのですが、近い将来トライアル可能にする予定ですので、ご期待ください!

エンタープライズプランとその他プランの比較

チームには管理者とメンバーという2つの権限があり、管理者メンバーだけがアクセスできる画面でチームのメンバーを管理したり、支払い方法を管理したりすることができます。

管理者だけが開ける組織管理画面

また2要素認証や、外部IDPとの連携も可能です。
いつも会社で利用している基盤(Azure ADやGoogle Workspaceなど)と連携することも可能ですので、お気軽にお問い合わせください!

今後の開発予定

今現在開発中で公開を計画しているもの、開発は未着手なもののやりたいと思っているものなど温度感は様々ですが、紹介させていただきます。

APIプランの公開(2023年12月末公開済み)

APIによってTypolessの校正をお客さま自身の環境からご利用いただけるようになります。
利用できる校正は、この記事で説明した①Typoless AI、②ルール辞書、③カスタム辞書の3つになります。
料金は校正にかけた文字数に基づく従量課金制で、詳しい金額については公開をお待ちください。トライアル期間がついたAPIを問い合わせいらずで自動発行するシステムを開発しておりますので、ぜひお気軽にご自身のシステムへの組み込みをお試しください!
カスタム辞書についてはCRUD操作の可能な、校正のエンドポイントとは別の専用APIを併せて提供いたします。

炎上リスクのある表現の検知機能(2023年12月末公開済み)

大規模言語モデルを活用し、偏見・差別・攻撃的表現等を含む箇所を指摘できる機能をリリース予定です。
Typoless AIが指摘できる文法や誤変換のミスはなく、ルール辞書やカスタム辞書にも登録されてはいないものの、その言葉を受け取った相手を不快にさせる可能性のある表現の検知に有効です。

カスタム辞書を複数持てるように(2023年12月末公開済み)

エンタープライズプランにおいて、一つの組織が複数のカスタム辞書を持てるようにする予定です。
プロジェクトごとに使う辞書を分けるような運用が可能になります。

カスタム辞書のインポート・エクスポート機能(2024年3月公開予定)

カスタム辞書のルールを特定の形式のファイルから一括登録(インポート)することが可能になります。
APIプランでは一括登録機能を提供予定ですが、APIを使う予定のないWebアプリケーションのユーザーが、一度にたくさんのルールを簡単に登録可能になります。
またルールのエクスポート機能も実装予定です。

Wordファイルの校正機能(2024年中公開予定)

Wordに対するサポート機能を提供予定です。
目標としては、Wordのアドイン形式でTypolessを提供し、Wordで文章書きながらWord純正の校正機能のようにご利用いただけることを目指していきます。
技術的な調査の結果その実現が困難であることが分かった場合は、Web上にWordファイルをアップロードすると、誤っていそうな箇所に校正コメントを残したWordファイルを返却する機能を開発予定です。

お問い合わせはこちらから

仕様についての詳しい情報、校正精度についての他社ツールとの比較、料金などについての問い合わせはこちらから受け付けておりますので、お気軽にご連絡ください!

資料請求はこちらから

Typolessはまだ世に生まれたばかりのプロダクトです。ありがたいことに多くの方からお問い合わせや要望のコメントをいただいております。
それらをうまく採り入れながら「文章に潜む誤りを見逃さない」というVisionを達成しつつ、みなさまの文章執筆に欠かせない縁の下の力持ちを目指していきますので、ぜひ一度Typolessをお試しください!

(メディア研究開発センター・倉井 敬史)