#043AIに古文書は読めるのか？

2021年9月20日 11:09

　8月に人文学オープンデータ共同利用センターから「みを」というAIくずし字認証アプリの正式版が公開されました。これまでは語学の学習と同様に、古文書の読解には長時間の訓練が必要なため、熟練工を育てるように、読解出来るまでにはどうしても時間がかかりましたが、そのような時間、経験が素人にもすぐに導入出来るのであれば、このようなアプリケーションの登場は夢のような革新だと思います。

　昨年のニュースでは下記のような記事がありました。こちらの記事では約60万字分のくずし字の「字形」がデータベースの登録されていて、照会した画像から文字を一文字づつばらしてデータベースと照合して判読する、と書かれています。

　60万字分の「字形」がデータベースと聞くとすごい情報量だと感じます。ちなみに、『くずし字用例辞典』（東京堂出版、1993年）には、6406字が採録されています。単純に60万を6406字で割ってみると、1文字につき94個のバリエーションが登録されていることになります。

　とりあえず、物は試しで、手元にある史料の写真で実際に「みを」を使ってみました。下の写真は手元にある史料写真で、その下がAI判読の結果です。こちらの史料は、冊子中に和菓子の名前が出てきたので、面白がってその部分のみを撮影したものです。「〇一、干菓子　〇ありへいとう　〇やどり木　〇赤　おしもの　つる、亀」と書かれています。「つる、亀」の部分は割書きになっています。こちらを「みを」にかけてみますと、

　「〇こ十葉な　〇あかへいとう　〇ふどりみ　〇赤　ほしもの　つる、能」となっています。上記の実際に読んだものと比べると、22文字中13文字しか正答にたどり着いていません。約6割というところです。０からスタートする場合には6割の正答はそこそこ直しが少ないとなると思いますが、このAIを使うということは、答えを導き出せない人が使用するという前提になると思いますので、この回答があっているかどうかの判別がつかないと考えると、正答率6割はそうとう危ない、論文などには使用できるレベルではないと言えそうです。

　先の写真は、固有名詞が羅列されているので、少し難しかったかもしれませんので、今度は別な史料で実験してみましょう。次の史料はお金の納付書にあたります。上の写真には「覚　一、金五拾疋　右者月祓御祈祷料　慥ニ神納仕候、以上」と書かれています。こちらを「みを」に掛けたものが下の写真です。

「覚　■登■桧尺　右か月梅片行■料　陰ニ神納のほい上」とAIは判読しています。「■」部分は文字として認識出来なかったのか、上下の文字の一部と理解したのかは不明ですが、読めていない箇所です。全体として全く意味が判らないですね。全体で22文字中7文字しか正答出来ておらず、正解率としては約3割しか読めていません。こちらはきちんと文章になっているものですし、江戸時代の史料ですので割合字としては綺麗に書いてある方です。また、実践で使えるかどうかの確認として、筆者の専門の時代である明治時代の史料でも試してみました。こちらは明治時代の地方名望家の日記の一節です。上の写真には欄外に「十一日」罫線の部分に「八尾銀行重役会、又光平紀念碑除幕式ニ行」とあります。これを「みを」に掛けてみたものが下の写真です。

　欄外部分を「太」、罫線部分は「■■■行重後入かた、又光平き合■法■■■■」となっています。全体で21文字中5文字しか正答出来ておらず、正解率としては約2割3分にしか到達していません。このように現場で実際に出くわす史料で試験的に使用してみましたが、正解率が2割から6割という非常な低さであり、また出くわす史料によって触れ幅が大きいことが判ります。

　今年の2月の記事で「AIでくずし字を読解、90％以上の精度で認識」というものがありました。今回使用した「みを」とは別のメーカーの制作した、古文書・古典籍をオンライン上で簡単に解読できるサービス「ふみのはゼミ」というAI-OCRソフトの紹介です。この記事を読んでみると、「古文書・古典籍から字形を採集し」たとあります。さらに読み進めると、国文学研究資料館古典籍共同研究事業センター長の山本和明氏のコメントとして、「それ（30万点にもおよぶ古典籍の内容）を知りたいと願っても、残念なことに一部の人を除き、判読するすべがありませんでした。今回開発された支援システムは、当館がオープンにした字形データなども活用され、オンライン上で解読可能な仕組みと伺っています。」とあります。つまり、くずし字読解のAIとは言うものの、実際のところは古典籍の版本から文字サンプルの多くを抽出しており、人の書いた手書きの文字ではなく、版本＝「きれいなフォントで表現された冊子」からサンプル抽出している、と言えるでしょう。さらに踏み込んで言うと、文字のシルエットによる画像検索、照合を行っているだけなので、AIでは文脈から判断することが出来ないと言えます。どうやら「90％以上の精度」というのも、画像照合以外の部分は「正解の判っている古典籍」だからこその正解率だと言えそうです。「源氏物語」や「方丈記」など、既に活字になっているものであれば、実際にAIがOCRにかけて読めない部分が発生したとしても、古典籍のテキストデータを事前に入れておいて、OCRに掛けた際に物語のどの部分にあたるのかを検索出来れば、「ここにはこの字が来るはずだ」という類推がAIにも成り立ちます。人間であれば「あい■えお」という■の部分が欠けている文書を見ても、誰しもそこに入る答えが「う」であることが類推出来ます。すなわち、そういう機械にですら「既に判っているもの」であれば高い正解率が出せるということのようです。

　古典を原典に当たって読み直したい、という方には、新発見の校本などでなければ、かなりの精度で読むことが出来て、これらのソフトを役立てることが出来るのかも知れないので、もう少し割書きなどを読む精度が上がってくれば、国文学の現場では役立つ可能性はあるかもしれません。しかし古文書の現場では初出のものがたくさん出てきます。また人の数だけ癖字があるので、データ収集を重ねて凡例を増やしていったとしても、近世や近代のように山のような史料数がある場合には、どうやら使用するのは現実性が薄そうな気がします。

　そこで、ちょっといやらしいですが、試みに自分ではどのくらいの文字データが頭に入っているのかなと計算してみたところ・・・1点に400字記載されていると見積もって、1日に30点調査出来たとして、年間300日仕事したと仮定し、現在まで25年だとすると、400×30×300×25＝90000000。9000万字！そのくらい文字を見ているのか？！と驚きました。もちろん毎回調査している史料に常に異なる文字だけで構成されている訳ではなのですが、9000万字とはなかなかの数字ですし、これが割り引いて考えて半分だったとしても4500万字というのはなかなか大した数です。試みに先の『くずし字用例辞典』に掲載されている6406字で単純に9000万を割ってみると、1文字に対して14049パターンになります。もちろん計算上の事ですので、筆者が『くずし字用例辞典』に掲載されている全ての字に出くわしたことがあるとは思いませんが、AIと比較すると、そもそもの登録されている文字数が単純に2桁も異なり、辞書に基づいたパターン数で換算すると3桁も異なるということになります。AIと人とでは、そもそもの登録されている文字数がどうやら比較にならないくらいの開きがあるようです。

　「みを」の注意事項に「「みを」アプリのAIは、江戸時代の版本から集めたくずし字データを学習しているため、江戸時代の版本に対する精度が比較的高めとなりますが、他の時代の資料や、写本、古文書などでは、精度が低下する可能性があります。」という但し書きがあります。ちょっと2割から6割の精度で「くずし字を読むソフト」を名乗るのはどうなのかという気もします。実際に現場で使用した使用感から感想を述べるとしたら、どちらかというと「版本を読むソフト」の方が実情に即しているのではないか、というのが実際に使用してみた正直な印象です。

　念のために公平を期して、得意としている版本でも試してみましょう。『都名所図会』の一部をパソコンのディスプレイから携帯で撮影して「みを」にかけてみました。画面から乱雑に撮影したので、文末が切れていますが、上の写真には最初の行には「松崎本涌寺ハ開基日生上人にして日蓮宗派なり、天正年」、次の行には「の学室となる、妙泉寺ハ日像上人のひらき給ひし所」、3行目は「毎歳七月十六日堂のまへにて此里の老若男女うち」、4行目には「つけ声おかしく拍子とり踊り狂ふなり、是なん松崎」、5行目には「名に高し、其夜うしろの山において妙法の二字を焼」、5行目には「会の送火とするなり」とあります。これを「みを」に掛けてみたものが下の写真です。

　最初の行には「松崎本酒寺は開基日生上人にして日蓮宗派なり、天ご参」、次の行には「の学室となる、妙泉寺は日像上人のひらき給ひし所」、3行目は「毎歳七月十六日堂のまへにて此里の老若男女うち」、4行目には「つけ声おかしく拍子とり踊り狂ふなり、足なん松衛」、5行目には「名に高し、其夜うしろの山に松いて妙法の二字を焼」、5行目には「会の送火とするなり」とあります。121文字中、6文字の誤りが含まれているので、正答率9割5分です。確かに版本ではかなり精度が上がる事は判りました。しかしながら、カタカナで書かれている箇所を平仮名にすることについては、もし文字を学びたいという場合には問題になりますし、ルビについては全くの無視状態です。内容理解の一助になるので、今後はルビも含めて認証してもらいたいと思いました。

　ソフトにおける文字の認証率の低さについてここまで触れてきましたが、古文書の判読については読めない人がほとんどなのだから、単純に2割から6割読めるだけでもいいじゃないか、という意見も出てくるかもしれません。今回の話は古文書の画像照合ですが、同様のことが医療の現場でも研究されています。例えば、がん細胞の画像診断をAIで行うということなどが例として挙げられるでしょう。最近の例としては、「Deep Learning Models for Gastric Signet Ring Cell Carcinoma Classification in Whole Slide Images」が挙げられます。もし医療の現場で、認証の確率が２割から6割であれば実戦投入されるかと言えば、恐らく実戦投入されないのではないでしょうか。人の命を預かるわけですから、あまりにも信頼に足る確率たり得ない、と判断されるように思えます。

　これは例えとして良いかどうかは判りませんが、2割の確率でがんですので手術しましょう、と言われれば、残りの8割の確率でがんではない、となるのにわざわざ手術を選ぶのか？と。少なくとも筆者なら二の足を踏むことは請け合いです。歴史学の論文では命は落としはしませんが、しかし、論文の基礎になる史料判読の精度が2割から6割であった場合には、立論そのものを左右しかねないでしょう。論文の命脈を断つには、充分な精度の低さといってもいいのではないでしょうか。また、これは一般の方が博物館などの展示に対して、読めない字があった時に使用するものだ、という論点もあるかと思います。しかし日本の博物館施設の大半は館内での撮影は禁止になっています。展示ケースのガラス越しにスマホを掲げてこれらのソフトを使用して、一旦写真にとってから判読するということは、館内撮影をして写真を自宅へ持ち帰ることも可能になってしまいます。現状ではソフトの機能として、撮影した画像を判読する仕組みなので、この点としては、館内撮影禁止の大半の博物館施設で迷惑行為になりかねない、という倫理的な観点も問題として挙げられると思います。何よりも、読めない人に使ってもらうということは、もし誤りが含まれていてもどこが誤りかどうかが判らないですし、正すことも出来ないので、やはり一般の方用だとしても、もっと高い確度で判読出来ていないと、きちんとした内容理解の一助にはならないでしょう。

　また、下記の京都大学の「バイオーム」というアプリも、ソフト構築の理屈はおそらく古文書判読AIと同じなのではないでしょうか。こちらは身近な動植物を撮影することによって、これらの名前は何かを判別するソフトで、ユーザーは写真を撮ることで、身近な動植物の名前を知ることが出来、また写真をコレクションすることが出来ます。このソフトは、より多くのユーザーが使用することで、多くの写真＝凡例が集まり、その凡例の集積によってどんどん判別精度が上るという代物です。またソフトメーカー側は、ユーザーが写真をどんどん集積していってくれることによって、日本国内に生息している動植物の生息範囲、分布についての情報収集が出来、より確度の高い分布情報が出来上がってくるといった仕組みになっています。筆者はプラログラムなどにはとんと詳しくはありませんが、こちらはゲーム、クエスト感覚で利用者に使用してもらえることで、より情報が収集しやすい状況を作っているということが刮目に値する仕組みを構築しているのではないかと思います。

　版本での認証についてはそれなりの成果はあるかとは思いますが、AIくずし字認証アプリと銘打って、くずし字の認証率が高い、ということをうたい文句にしている限りにおいては、機能面や倫理面、双方それぞれに、まだまだ問題があるといえるので、これらのAIくずし字認証アプリについては、今後の修正、発展を期待したいと思います。
　昔から科研費などで機械に史料を読ませるというプロジェクトがありますが、一向に実用に足るものが実現しないのは、これだけのデータを凡例として搭載をすることそのものが、かなり不可能に近いからなんでしょう。特段天才でも何でもない、筆者のような四流私大卒の研究者と比較しても、筆者とAI搭載の登録文字数の歴然とした差が見えてしまい、そりゃこれではまだ機械には読めないな、と妙に得心してしまいました。まだまだ熟練工の人の手を煩わさないといけない分野として、古文書の世界はしばらくは続きそうに思えました。

いただいたサポートは、史料調査、資料の収集に充てて、論文執筆などの形で出来るだけ皆さんへ還元していきたいと思っております。どうぞよろしくお願いいたします。