本稿では、「次世代デジタルライブラリー」で用いられたNDL古典籍OCRの精度について、検証します。
古典籍20本の可読状況を可読率順に確認し、可読状況について、若干の考察を行います。
はじめに
国立国会図書館の実見的な検索サービス、「次世代デジタルライブラリー」に6万点の古典籍資料が追加され、古典籍資料の全文検索が可能となりました。
「次世代デジタルライブラリー」は国立国会図書館デジタルコレクションで公開されている図書と古典籍資料約35万点を独自のOCRにかけ、全文検索を可能にしたサイトです。
これにより、今までくずし字で読めなかった資料についても、全文を検索することができるようになりました。しかも、OCRの結果を公開しており、ダウンロードもできるので、普通に翻刻資料としても利用することができます。
AIくずし字OCRとしては、人文学オープンデータ共同利用センターが公開しているKuroNrtや、スマホアプリのみを(miwo)があります。
昨年このサービスのOCRの精度を検証しました。
可読率が95%と言うことなのですが、実際には、資料によってバラつきがあり、読めない本は読めず、読める本は良く読めるというのが現状です。
くずし字OCRはまだまだ万全と言えるものではありませんでした。
みを(miwo)は2022年10月にRURI(瑠璃)にバージョンアップしていますし、来年三月には凸版印刷のAI-OCR「ふみのは」が正式リリース予定です。
これから益々発展していく分野だと言えます。
「次世代デジタルライブラリー」は全文検索というOCRの次の段階のサービスを展開しており、このサービスをいかに活用していくか、も大事なことなのですが、そもそもOCRの精度がどの程度なのかは重要な問題です。
全文検索に耐え得る精度のOCRなのか、これを確かめないではいられません。
国立国会図書館デジタルコレクションでは、あらゆるジャンルが取り揃っていますが、私は国文畑なので、国文関係の資料に絞って確認します。
取り上げたい作品は多いのですが、全て扱うとキャパオーバーなので、苦渋の選択で絞った20種類を紹介します。
国立国会図書館デジタルコレクションには古活字本や版本が多く、古写本は数が少ない印象があります。
作品自体は古くても、書写や出版が新しければ紙面の雰囲気も異なりますし、読みやすさにも違いが出ます。その辺りも考慮して、なるべく字形や紙面の異なるものを集めたつもりです。
また、11月1日に追加されたのは「古典籍資料」ということですが、影印など、近代以降の出版でも、古典籍同様に扱えるものがあるので、これも検討範囲に加えています。
活字を読むNDLOCRと、くずし字を読むNDL古典籍OCRがありますが、複製本のくずし字もちゃんと読んでいるので、おそらく精度に差はないでしょう。
動画では上代韻文から近世散文まで、一応時代順に紹介したのですが、noteでは可読率の高い順で紹介します。
古典籍20本の可読状況確認
99.3%平家物語 古活字版中院本
20本確認したなかで、最もよく読めていたのは、古活字本の中でも中院本の『平家物語』でした。
99.3%は驚異的な数字です。
バッチリ文字を捉えて認識しており、読み間違いも踊り字が「く」になっている一例のみです。
抜けているところもありますが、句読点も読んでいます。特に句読点は、他では抜けていることが多いので、ここまで認識しているのは凄いことです。
間違えているところがないと、特に指摘するところもないのですね。
94%宇津保物語
次は『宇津保物語』です。
近世に写された写本ですが、かなり綺麗に認識しています。
朱印が被っていますが、抜けはありません。
読み間違いも、朱印の所為ではなく、字形の近さが原因でしょう。
書入れは〈今はイ〉〈有けり〉〈うたイ〉の三つあります。
〈有けり〉の一つだけ認識していますが、〈酉けり〉になっていますね。
後ろから二行目の「めつらし」には虫食いがありますが、なぜかちゃんと読めています。
92.9%風葉和歌集 丹鶴叢書
丹鶴叢書は紀州藩付家老で新宮城 (丹鶴城) 主の水野忠央が中心となって編集した叢書です。今回はその内、『風葉和歌集』を取り上げます。
『風葉和歌集』は、平安時代から鎌倉時代初期にかけての、だいたい200作品ぐらいの作り物語から、そこで詠まれた和歌を集めた歌集です。現存物語は24しかありませんので、散佚物語の世界を垣間見ることができます。
版本で、紙面は綺麗ですね。とても読みやすそうです。
上に付箋があります。その付箋をペラっと捲った状態の写真なのですが、墨が透けて見えているので、文字と認識してしまっています。ただ、当然まったく読めないので、□□になっていました。
冒頭三行は丹鶴叢書のもので、風葉和歌集ではありませんが、確認してみましょう。
朱印が重なっていて上手く読めていないところが目立ちますが、全体としては読めている方ではないかと思います。
「故榊原芳埜納本」は認識していますが「榊原家蔵」は認識しないんですね。
『風葉和歌集』の序文はさらに良く読めています。
二文字抜けがありますが、読み間違えているところはなく、非常に惜しいです。
柱に「丹鶴叢書」とありますが、折り目なので半分になっており、正しく読めていません。
まぁこれは許容範囲でしょう。
92%万葉代匠記 初稿本
契沖の『万葉代匠記』は近世の注釈書ですが、現在も必ず参照される重要な注釈書です。
OCRは結構認識できています。
抜けているのは内題の「一上」の二文字と、末尾の虫に食われている「は」と、同じく末尾の訂正で朱書きされた〈都賦〉の三箇所だけでした。
冒頭の「此集」は「紫」の一文字になってしまっています。
末尾の「尓」は虫食いで削れていますが、しっかり読めていますね。
大方の旧字体は新字体に直されていますが、傳など、直されていない文字もあります。
88.8%小倉百人一首
続いて『小倉百人一首』です。
延宝8年の版本で、歌人絵と歌が書かれています。
歌も意匠的に書かれているので、どうでしょうか。
文字をしっかり捉えて、認識していますね。
少し抜けや間違いがありますが、全体としてはよく読めています。
第一首の第二句「かりほの」が「かりその」になっています。
「ほ」の字母「本」の最後の点が抜けているので、「曽」と判断したのでしょう。
もう1コマ見てみましょう。
これは、「柿本人丸」と赤人の「人」が認識されていません。
疊の縁と被っているのが原因でしょうか。
第三首、「あし曳の」の一文字目「あ」の字母は「阿」ですが、こざとへんが別に認識されてしまっています。
第四首、「田子のうらに」の「に」も、右側を別に読んでしまっている上に、「こ」とかなら分かるのですが、「ヲ」と読んでいます。
また、第二首では「白妙」をちゃんと読んでいましたが、第四首では「泉」になっています。
88.7%古今著聞集
説話集からは『古今著聞集』をもってきました。
せっかくなので、巻第四の文学を確認してみましょう。
礼記を引用しているところには、訓点が付されているため、かなり頑張って読んでいますが、正しくはありません。
訓点を含めると白文での検索では見つからなくなるので、難しいところですね。欲を言えば、白文と訓点アリの両方で検索できるといいのですが……。
漢字が並んでいるところに片仮名が小さく書かれていたら訓点と判断して処理するみたいな。
まぁ言うは易しですが、いずれにしても統一的な扱いができていると検索もしやすくなる気がします。
個人的に、読みにくいタイプの文字ではないかと思っていたのですが、訓点を除けば、かなりよく読めている方ではないでしょうか。
88.3%平家物語 古活字版下村本
古活字本『平家物語』は二つ目ですが、これは下村本です。
中院本『平家物語』と比べると読み間違いは増えていますが、これもしっかり認識していますね。
内題の下の汚れを読んでしまっている他、五つある送り仮名の内、トの一例のみ読んでいます。
良く見ると漢字に濁点が打ってあるのですが、これはどうしようもありませんね。
読み間違いを確認してみると、
「は」になっている文字は、「農」を崩したノや、ハの字母にもなっている「者」です。
「洗」になっている文字は、サンズイのある濃でした。
なんだか納得してしまう間違いですね。
86.7%河海抄
古典の本文は整備され、検索の便も多くありますが、注釈書はまだまだそこまで整備されていません。個人的には、古典の本文よりも、古注釈書の本文が検索できた方がありがたいです。
そこで、『源氏物語』の注釈書から、『河海抄』を確認してみたいと思います。
『河海抄』は室町初期に四辻善成が著したもので、非常に多くの文献を引用しており、「文献学者の参考とすべき宝典(源氏物語事典)」と言われています。この中身が検索できれば、言うことないですね。
みんな大好き若紫巻を見てみましょう。
確認してみると、かなり文字を捉えていますね。
抜けることの多かったルビも認識しています。
ついでに二重に認識しているところも6カ所あります。
読み間違いがまばらにありますが、まぁまぁ読めているのではないでしょうか。
ただ、流石に54帖もある『源氏物語』の注釈書ですから、もう少し精度が高いと嬉しいですね。
79.1%古事記伝
『古事記』の注釈書、本居宣長の『古事記伝』です。
これは美麗ですし、文字も整然と並んでいるのでかなり期待できますね。
序文の注から見ていきましょう。
予想通り綺麗に認識しています。
ただ、『古事記』の本文に付されている訓点は、全く読まれていません。
この版本にはくずし字に濁点が打ってありますが、これをしっかり反映していて凄いです。
句読点は、最初全く読んでいなかったのですが、最後の数行だけまばらに読んでいます。
77.1%萬葉集 清水濱臣本
清水濱臣の『萬葉集』を確認します。
漢字本文の横に小字で朱の訓と、墨の注が書かれています。
注の内容は濱臣のものではないらしいのですが、手書きで書かれているので、どこまで読めているかは気になるところです。
朱の書入れが抜けていますね。
これは次のページでも同じく抜けていたので、認識するのが難しいのでしょう。
この朱の書入れ訓さへ除けば、かなり読めているのではないでしょうか。
結句「𡢳嬬」の部分が複雑なためか、認識範囲には入っていますが、活字にはなっていません。
内題の「萬葉集」が「草」になっているのは、朱印の枠が重なって認識できなかったのでしょう。
76.7%土佐日記解 田中大秀草稿
『土左日記』の近世注釈書を取り上げます。
これには夥しい書き込みがあり、文字が小さすぎて拡大しないと読めません。
田中大秀が『土佐日記解』を著したときの草稿で、ここに書き入れられた修正の殆どを反映したものが、活字本になっています。
最初の1行を確認してみましょう。
「男のすといふ日記といふものを」という土佐日記の本文に対して、注が付いています。
注の本文は、もと「異本定本に従いて改べし」とあったのですが、書き入れたり、消したりして、「の字は、考証の傍に家卿注たる異本により、すといふは、抄本に従いて改つ」となっています。
OCRは書入れを悉く認識していないので、もとの文が活字になっています。
「改へし」の「へし」は、チョンチョンと点を打つことで、文字を消しています(見セ消チ)。
そのせいで、OCRでは「も」と読んでいます。
続きの文は、書入れさへ除けば、かなりよく読めています。
二行目末尾、「きこえず」とあるところ、ここも見セ消チにして「打あはず」としています。
癖があって読みにくいのではないかと思うのですが、両方綺麗に読めているのは却って奇妙な感じがします。
後半「女もしてこゝろみむとてするなり」以降の注も、認識はできていますし、抜けも殆どありませんが、読み間違いが増えています。
書入れさへ除けば、調子は良い方かもしれません。
頭注もよく認識しています。
後半は崩れていますね。「和名抄」ぐらいは読んで欲しいです。
55.7%古事記 真福寺本
国宝の真福寺本は『古事記』の現存最古写本ですが、南北朝期に写されたものです。
決して綺麗な文字とは言い難い書きぶりとなっています。
全体的に認識はできていますが、朱印が被っているせいか、三箇所抜けているところがあります。
また、認識できている範囲でも3文字抜けており、2文字は下駄になっています。
そして、かなりの文字が間違っています。
最初から「右事記」になっていますし、これでは読めませんね。
一行目末尾の「知其形」の三文字を「望秋」に誤るなど、面白い間違え方をしています。
48.6%後撰和歌集 片仮名本
勅撰集からは、片仮名本の『後撰和歌集』です。
片仮名にもくずし字がありますので、どの程度読めているのか気になるところです。
認識は、行の最初や最後に抜けているところがあります。
最初の、下に書き入れられている部分は、私も読めませんでした。
山田孝雄の解説でも、よくわからないとあったので、ご容赦願います。
また、小松茂美は「明応之時、不(一見)」と判じられるとしており、下の二字は「一見」ではないかとしています。ただし後の説明で
と述べているので、やはり決しがたいです。
読み間違えているところがかなりあります。
右下の書入れも、「開店して」になっていますね。ちょっと面白いです。
平仮名に複数の字母があり、崩し具合によっても様々なバリエーションがあるように、片仮名にも現在とは異なる文字があります。
歌の右側に小字で注がついていますが、その一行目に「フルユキノ」とあります。このユとキは見馴れない形をしています。
ユの字母は現在と同じ「由」ですが、横棒がありません。
キは現在と異なり「支」が字母だそうです。どの部分からこの斜めの棒を抜いてきたのかよくわかりませんが、キと読みます。
残念ながらOCRは伸ばし棒で読んでいますね。
ユもヒになっています。
その上の字もツになっていますね。
片仮名の学習データは、平仮名に比べても圧倒的に少ないのではないかと思われますので、OCRにはまだ難しいのかもしれません。
この写本は横への伸びが気持ちいいのですが、行を越えて食い込んでいるので、読みにくくなっています。
漢字では、藤原の雁垂れが細いせいか、泉になっています。
いずれにしてもこの状態では、第一句や第二句から歌を検索することすらできませんね。
47.6%後拾遺和歌集
勅撰集からもう一つ、『後拾遺和歌集』を取り上げます。
これは序文を書道作品として仕上げたもので、文字は大きくダイナミックに書かれているのでOCR的には厳しい作品です。
結構大きな字が見事に抜けています。
一行目「藤原通俊」の「俊」が抜けているほか、三行目には細長い「し(之)」があるのですが、薄すぎて見えませんし、認識されていません。
汚れもあるので、選別はかなり難しいです。
三行目の文字がOCRで「御座候三左衛門」になっているのは興味深いです。
試しに「御座候」の例を探してみました。
流石にピッタリのは見つかりませんでしたが、そう読めなくもないなという印象を得るぐらいには、雰囲気が似ています。
このレベルで「御座候」と読んでしまえるのは、学習サンプルが多いからでしょうか。
次の見開き二ページでは、結構文字を認識できていますが、やはり「し(之)」は薄すぎて見えません。
墨の汚れがあちこちにありますが、それを認識してしまっていますし、文字に含めてしまっています。
頑張って読んではいますが、文字が大きすぎるせいで、正しく一文字を判断することができていませんね。
41.6%萬葉集 西本願寺本
西本願寺本萬葉集です。
この本は現在一般に読まれる活字本の底本として用いられている、大変重要な写本です。
画像はその複製本ですので、国立国会図書館デジタルコレクションでは古典籍資料の扱いになってはいませんが、確認してみましょう。
あらかた主要な文字は認識していますが、流石にルビは少ししか認識できていませんね。
二重に読んでいる部分もあります。
部分的に読んでいたルビが謎の記号となってあちこちに散らばっていたので、最後にまとめてあります。
総文字数に対して正答率は41.6%でした。全然認識できていなかったルビを除いても、68.9%なので、可読率が高いとは言い難いです。
34.5%おくのほそ道
松尾芭蕉の誹諧紀行文『おくのほそ道』です。
画像は向井去来が元禄八年に書写したものの複製本です。
紙面も文字も綺麗に見えますが、OCRの認識は酷いものになっています。
朱印が被っているところを見事に避けているのはまだ理解できますが、それ以外の部分も抜けているのはどうしてなんでしょうか。
また、青色が他より少し濃いのは、二重に認識しているからです。
読み間違いも多く、これは全く読めていません。
読みにくい文字なのでしょうか。それとも、紙の色が悪いのでしょうか。
順集 群書類従本
私は性格が歪んでいるので、やはり読みやすそうな本を確認しても面白くありません。
順集には、面白い取り組みの歌があります。
詞書には「雙六盤の哥、これもありただが、よみはじめたるに、よみつく」とあり、雙六盤の形になるように歌が詠まれています。
縦にも横にも歌が置かれており、文字が寝ていたりひっくり返っていたりするので、OCRでは読めないだろうことは承知のうえで、確認してみましょう。
案の定横に寝ている歌は認識できていません。
そもそも人が見てもどうなっているのか分かり難いですね。
右にある縦一行の歌は、まだ何とか読んでいますが、横に寝ている歌の最後と最初がくっついており、文字も寝ているので上手く読めていません。
下段の歌は、実は上と下で寝ている歌の、文字が大きく書かれているところを含めて読むので、一層やっかいです。
右へ左へ縦横無尽なので、大変ですね。
まぁこれは無理そうな例を持ってきたので、しょうがないでしょう。
0%岷江入楚 飛鳥井雅章写
『岷江入楚』は中院通勝が著した『源氏物語』の注釈書で、それまでの注釈書をまとめているため、古註釈を調べる時に便利な本です。
若紫巻を見てみましょう。
実は一文字も認識していません。
確認したところ、最初から最後まで一文字も読んでいませんでした。
最初の6帖分を見たのですが、全文テキストデータをダウンロードすると、テキストファイルが全て0バイトになっていました。
「資料のタイトルや目次」から検索することができるので、この本を見つけることはできますが、『岷江入楚』の全文は検索できないということになります。
0%梁塵秘抄口伝集
『梁塵秘抄』は平安末期に後白河院が今様の歌謡を集めた歌謡集です。
本編10巻と、口伝集10巻の計20巻からなりますが、現在は一部しか残っておりません。
さらに、11巻から14巻が後から付け足されたと考えられています。
そのため、口伝集10巻までで残っている部分については校注がありますが、11巻以降については活字があるのやらないのやら、よくわかりません。
ここで活字が読める上に検索もできれば申し分ありませんね。
これは図が書かれていたり、表になっている部分があります。
残念なことに、認識していません。
ただ、これは全てではありませんでした。
13コマしかありませんので、全部確認してみました。
最初は行に沿って書かれているのでしっかり認識しています。
数字が並んでいて表になっている部分が認識できないのは、まだ分かるのですが、その他の部分も含めて一面全く認識していないところがあります。
しっかり全面が文章になっていると認識するのですが、図表が混じっていると全てダメになっているようです。
NDL古典籍OCRで認識できていなかった部分を、CODHのKuroNetに読ませてみました。
抜けている部分はありますが、あらかた読んでいますね。
KuroNet Text Editorを使えば、AIが一行をどのように判断したのかがわかります。
真っすぐ認識しているところは良いのですが、ジグザグになっているところがあります。
縦書きの中に横書きがあるという認識なのでしょうか。
0%偐紫田舎源氏
さて、最後は『偐紫田舎源氏』です。
絵入の娯楽本である草双紙の合巻で、『源氏物語』の翻案作品です。
江戸時代と言えば、絵の周りが文字で埋まっているこのタイプの印象が個人的には強いです。
これも0文字でした。
最初にある、本文に入るまでの7コマと、最後の綴じ紐だけで、大事な本文は抜けています。綴じ紐は完全に誤読です。
こういうのはKuroNetが得意な印象があります。
確認してみると、バッチリ読んでいます。
ただ、KuroNet Text Editorで、AIが判断した行見ると、上と下が繋がってしまっています。
こんなに間が開いているのに、一行だと認識したんですねぇ
また、最初の四行は、二行をジグザグに読んでいるので、テキストの文字列は上手くいっていません。
読みは間違ってないんですけどね。もったいないです。
KuroNetは文字列を自分で修正することができます。
手間ではありますが、手立てがあるのはありがたいですね。
可読状況について
一番読めているのが99%というのは驚きですが、0%があるのも衝撃です。
全ての画像を確認したわけではありませんので、一番読めていた中院本平家物語も、後々には全然読めていないページが出てくる可能性があります。
一応確認してみたのですが、最初の一冊は最後までしっかり読まれていました。
ところが、第二冊、第三冊を見ると、最初から最後までゼロ認識になっていました。
文字として認識することと、正しくくずし字を読むという少なくとも二段階が必要なので、どちらかがダメだと上手くいきませんね。
このグラフは確認した範囲の総文字数に対して、OCRが認識していた文字数の割合と、正答率です。100%を超えているのは、実際の文字数よりも多く認識してしまっているということです。
開きがあるところは、認識している割に正しく読めていないところです。
後拾遺和歌集は100%を超えて認識していますが、半分以上間違えていました。
逆に開きが小さいところは、認識した文字の殆どを間違えずに読んでいるということになります。
どちらも100%に近い程、過不足なく文字を認識し、正しく文字を読んでいるということです。
例えば、古事記伝と濱臣本万葉集は、割合文字を正しく読むことができているので、問題は抜けなく認識することにあります。
古事記伝はルビや返り点が抜けているので、それを除けば評価は高いです。
濱臣本万葉集は朱の書入れが一行抜けているので、そこさへ認識できていれば、改善されるでしょう。
対して、真福寺本古事記は、認識率が96.9%なのに、正答数は55.7%でした。文字の認識は概ね好調なものの、誤読が多いということです。
0%について
残念ながら0%だったものが三つもありました。
岷江入楚、梁塵秘抄口伝集、偐紫田舎源氏です。
正直、岷江入楚がなぜ全く認識していなかったのかはよくわかりませんが、傾向としては、『梁塵秘抄口伝集』の状況からすると、図や絵と判断されると認識されにくいのかもしれません。
『偐紫田舎源氏』は、あの密集がいけなかったのでしょうか。
流石にこれだけではよくわかりませんので、もう少し資料を足してみたいと思います。
鎌倉山百人一首
『鎌倉山百人一首』は草双紙の合巻です。
紙面は『偐紫田舎源氏』と同じく絵の周りを文字が埋め尽くしています。
これを確認してみると、なんと結構認識しています。
抜けているところもありますが、ゼロよりは可能性を感じます。
認識する能力はあったんですね。
河内名所図会
次は『河内名所図会』です。
これは河内の名所を絵で紹介しているものです。
これを確認してみると、しっかり文字を捉えていますね。
歩いている人も認識してしまっていますが、ゼロではありません。
よく読んでいると思ったのですが、絵が描かれていない、文字ばかりのページがゼロ認識になっていました。
地名の下に二段の割書で説明が書かれているため、体裁を認識できなかったのが原因でしょうか。
機巧図彙
もう一つ、別ジャンルで図と文字が交ざっているものとして、『機巧図彙』を見ておきましょう。
ここには茶運び人形の設計図がかかれて います。
最初読めているかと思ったのですが、次のページはゼロ文字でした。
因みにレイアウト認識モデルに使用された「NDL-DocLデータセット」を確認したところ、『機巧図彙』も入っていたので、学習データとしては正解を持っているはずなんですけどね。
図式的な配列などで、レイアウトがわからないと、認識できないということなのでしょうか。
今回紹介した作品は、文学史から適当に選び、デジタルコレクションにあるか探し、見つかった20本の可読率を確認したものです。
その中で、そもそも認識していないページがこれだけ見つかるというのは、正直びっくりです。
「全文検索」と聞くと、図書及び古典籍資料、約35万点の全てから検索した結果が表示されていると思うわけですし、NDLラボとしてもそのつもりだと思うのですが、実際にはかなりの量のページ(コマ)が検索から漏れていると思われます。
読み順の問題 全文検索について
認識如何の問題もありますが、順番にもかなりの問題があります。
今回の検討では比較しやすいように並べ替えや改行を行いましたが、実際に提供されているテキストはベタ打ちです。
例えば、『土佐日記解』の実際のテキストはこのようになっています。
実際の順序と照らすと、以下のようになっていました。
・前ページの本文と本ページの書入れが交互に交ざっている
・本文と頭注が交互になっている
・本文の順番が前後している
順番がめちゃくちゃですね。
これがベタ打ちになっているので、絶対にありえない文字列が作られてしまっています。
例えば上のテキストから、太字にしている「語男」を全文検索してみると、古典籍で64件ヒットし、この『土佐日記解』を見つけることができます。
本当は「異本の文字考証」と書かれている頭注の途中と、「男のすといふ」という本文なので、読み間違いと読み順誤りのダブルパンチです。
これは決して稀有な例ではなく、「こゝろけられて」や「あはれ」など、実際には書かれていない言葉から、この『土佐日記解』を見つけることができます。
OCRで古典を読む分にはいいんですが、全文検索をするには致命的です。
頭注、脚注、書入れ、割注など、古典籍のレイアウトは様々ですから、色々な古典が読めるようになるといいですね。
余談
余談ですが、私はデスクトップと、ノートPCと、スマホの三つを使って資料を作成しています。
OCRのテキスト表示が、それぞれ以下のようになっていました。
出入があります。文字数も違います。
これはどういうことなのでしょうか。
画面の縦横比に合わせて表示が変化するようになっているので、デスクトップのウィンドをできるだけ縦長にした状態で改めて表示させてみました。
案の定テキストが異なっています。
スマホに似たテキストになっていますね。
色々変更がありますが、特に末尾からどんどん削れているようです。
全文検索に影響がでるのか、そこまではもう立ち入りませんが、テキストを表示して確認したいときは、なるべく大きな画面を使った方がいいです。
ちなみに、画面サイズの違うスマホで試したところ、また少し異なったテキストが表示されました。
所見
次世代デジタルライブラリーを用いた分析結果が信用できるものかどうかは、OCRの精度にかかっていますが、現状のNDL古典籍OCRの精度では、正直、全文検索に耐え得るものとは言い難いです。
現状でも資料探しにはいくらか役立ってくれますが、古典籍資料に関しては、活字と違ってくずし字が読めないと検索結果が正しいか判断できませんし、結果を鵜呑みにしない態度が必要です。
良く読めている資料の一覧や、90%以上読めている資料だけの絞り込み検索ができると、全文検索を用いた分析でも、或程度の信用を得ることができるのですが、それを可能にするには人力になってしまいますかね。
逆に読めていない資料や、抜けている画像があったら、報告できるボタンがあってもいいですね。
毎月一回ででも読み直ししてくれれば、結構改善される気がします。
0バイトは明らかにおかしいので、自動で検知してやり直すとかできれば、速そうな気がします。
まぁ細かい事情も知らない素人の思い付きですが、できることは沢山ありそうです。
おわりに
以上、NDL古典籍OCRについて、二十本+αの写本や版本、影印本を確認しました。
全文検索の厳しい現状が見えてきましたが、OCRの可読率が99%という凄い数字も出て来ました。
個人的な希望を言えば、古典の本文よりも、書入れや注を読んでいて欲しいです。
本文のデータベースは幾つかありますが、書き入れられた注は活字もデータベースもありませんので、それが検索できると、意外な掘り出し物に出合えそうな気がします。
「古典籍資料のOCRテキスト化実験」の情報によると、
とあります。
一般に募れば、意外と資料が集まるのではないかと個人的には思っています。サービスには期待していますし、協力したいという人も多いのではないでしょうか。
どういうデータが必要か、詳細を明らかにしておいてくれれば、これから翻刻する際にも、所定のフォーマットで作成しておくことができます。
どうせくずし字を読むなら、汎用性のある翻刻にしたいです。
苦い評価をしてしまいましたが、実験的なサービスですし、これから益々発展していくと思っています。
現状でも、埋もれていた資料の発見につながるなど、その功は計り知れません。
サービスを展開してくださっているNDLラボには感謝しかありません。
これからどうなっていくのか、とても楽しみです。
出典・参考