国会図書館OCRの現在

2022年3月9日 09:02

OCRとは、光学文字認識、紙に印刷された文字をデジタルテキストに変える技術だ。過去20年来いろいろな形で利用されている。その中、今年に入り、驚くような発表があった。国立国会図書館は「次世代デジタルライブラリー」と名乗り、著作権保護期間満了の33.6万件の資料に対するOCRファイルを公開し、それを対象とする検索を提供した。稼働開始は２月１日。調べてみると、2020年度補正予算の重要課題の一つだった。

時間を見つけて実際に試してみた。目指したのは、翻刻された黄表紙作品。代表作の題名「金々先生榮花夢」をサーチ欄に入れると、長いヒットリストが戻ってきた。200点近くもあった。

本文のあるものを選び、「日本名著全集江戸文芸之部第11巻(黄表紙廿五種)」を開いて。目次タブから48コマ以下だと分かった。ただ、このページをではそのテキストを読むことができない。画面の右下に「この資料の全文テキストデータ」のボタンがあり、クリックして全巻のテキストがZIPファイルとしてダウンロードした。

ZIPには、かなりの数のファイルが入り、それぞれに振られた番号を読み較べ、コマ数に対応することが分かり、その通りに目指すファイルを開いたら、そのページのOCR結果が収録されている。

国会図書館所蔵の『金々先生榮花夢』の出だしのページ。

このページを翻刻した『黄表紙廿五種』。

上記のページのOCR結果はつぎだ。そのままではとても読めるものではないので、ここでは改行をし、さらに「　/」を加えて掲げた。

今はむかし片田　　/今いむりすかいいるク
舍に金村屋金兵　　/夢華榮生先々金むしや
術【衛】といふ者あり　　/いま是うた日置道
けり生れつき　　/めくろくすつさん
心優にして浮世　　/し
の樂しみを盡さ　　/じてらさ世
んと思へども至　　/えをつくさんとhでまわりし
つて貧しくして　　/ミろまっちんよってからいいさく
心に任せず、よ
＊　　/いミやこへてわう世三明治三十七年
＊　　/もう〓ふまににきさののき、
＊　　/えんといちいちまづね
世に出で思ふ儘　　/乃くんとろろばけるろ
に浮世の樂しみ　　/またりき同ぐふふふとうそん{
を極めんと思ひ　　/골
立ち、まづ江戶　　/う人の休みんいく
の方へと志しけ　　/んらいーてうんのわと
るが名に高き目　　/
黒不動尊は運の
神なれば、これ　　/るろあらうお
へ參詣して運の
程を所【祈】らんと詣　　/リノマ
でけるが、早日
も夕方になり、
いと空腹になり
ければ名代の粟　　/ちや
餅を食はんと立　　/さ
ち寄りける

OCRは、ページにあるすべての文字を読み取ろうと取り掛かっているのが分かる。そこで、くずし字記述でも挑戦し、読み取れないと判断すると諦め、つぎの行に進む。その割には感心するぐらい一通り読み取れている。いうまでもなく間違いが多い。単純な読み間違い（術、所）もあれば、Unicodeベースなので日本語以外の文字（中国語の「戶」、韓国語文字の「골」）が混じり込む。ルビつきの行に当たるととつぜん崩れ、そこから四行目になってようやく立ち直った。まさに涙ぐましい努力ものだ。

ちょっと極端なページを選んだと反省している。それにしても、これで使い物になれるのか、なれないのか、利用者が目的に応じて判断しなければならないだろう。OCRの技術が近いうちに急速に発展するのだろうか。それとも「みんなで翻刻」のようなプロジェクトが生まれ、読者や利用者を巻き込んでの修正校正が必要になるのだろうか。あれこれと思いを巡らしている。

この記事が気に入ったらサポートをしてみませんか？