くずし字判読ひとりまなび

2021年1月27日 13:03

独習用教材を公開します。
補足情報を随時下に追加します。
若干情報を補足します。（最新：20230618）

前口上

　2021年1月13日付、日経新聞に「東大など、東アジア最大の漢字字形データベース公開」という記事が出て、少し話題になりました。ニュース記事なのでいずれリンクが切れてしまうかも知れませんので、最初と最後だけ引用します。

木簡や版本などの歴史資料に書かれたくずし字をはじめとする漢字を「史的文字」という。中国では王朝の変遷とともに漢字の形が変化し、様々な異体字も存在する。東京大学史料編纂所など国内外の6つの研究機関はこうした多様な来歴のある漢字を一括検索できる「史的文字データベース連携システム」を開発、このほどインターネット上に公開した。

＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋

データベースは「IIIF」と呼ばれる国際規格に沿って制作した。史料編纂所の山田太造氏は「IIIFは世界中の美術館や博物館などで採用されている、デジタルアーカイブの共通規格だ。オープンにした対象がただの画像ではなく、文字画像なのも重要だ」と話す。文字画像を世界規格に準拠して公開したことで、工業デザインの領域やAI（人工知能）を使用した文字情報のディープラーニングなどに応用できる。豊富な資料を誰もが参照できる同システムは、これからの人文学のありかたを考える上での試金石となりそうだ。

　この引用、あるいは記事を読んでも、何に使うのか、どう使うのか、一般の人には関係ない世界？　と言う疑問もあるかも知れません。「一般」と言って片付けてしまうのは乱暴すぎますね。もっと沢山の可能性があるのだと思いますが、ここで紹介するのは、私たち日本文化史の研究に関わる分野の話です。
　東アジアの漢字文化圏の中で、日本はひらがな・カタカナを作り出した上で、漢字も放棄しなかったのでとても複雑な文字体系を持っています。しかも、かなを生み出した発想がそうであったように、漢字の部分を切り取ったり、簡略化したりすることで、現代の辞書にあるような、あるいは、PCで使えるコードが付された文字とは異なる様々なバリエーションが存在しています。このことが、国内外に現存する沢山の文化遺産に対して、専門外の人が触れることを難しくしているわけです。
　私の授業では、江戸時代の小説や浮世絵の文字や絵に描かれていることを読み、注釈をつけると言う作業をしています。それはわかりやすい例ですが、たとえば、地震や津波などの自然災害を研究をしている人たちは、過去に起こった災害の記録を読むためにやはりこの手の文字を判読しなければなりません。
　そこで、それらを人工知能の力で読み解くことが出来ないか、という、私が学生の頃には文字通り「夢」でしかなかったことが、実現しつつあります。冒頭のニュースも、その一環です。日本だけでなく、漢字文化圏が共同して作業を行っていることにも重要な意義がありますし、実は、すでに非漢字文化圏の研究者たちも積極的に取り組んでいます。漢字を生得的に使用していない人たちの発想は重要かも知れません。

　さて、このnoteは、こうした状況を受けて、2020年10月に作成した独習用教材の、入り口です。下にあるリンクをクリックして、htmlの教材ファイルをダウンロードした上で、ブラウザで開き、一つ一つのリンク先を開き、納得してから先に進んでいってください。解説の動画のリンクもあります。実際にインターネット上で行う作業について、「実演」もしています。
　勿論、ここで扱っている教材は、読みやすい物で、実際に皆さんが読んでみたい、読む必要がある資料とは違うと思います。直ぐには応用出来ないことも多くあると思いますが、基本的な作業手順はそう変わるものではありません。ここを入口に、楽しみながら独習して頂ければ幸いです。
　もし要望があれば、おいおい、授業で行っている注釈作業の手続きなども紹介しようと思っています。
　　　　　静岡大学人文社会科学部言語文化学科　教授　小二田誠二

重要な注意書き

＊上記のファイル及び動画教材は、勝手に再配布・加工せず、誰かに紹介する場合は、このnoteにリンクしてください。更新情報もここに書きます。
＊また、htmlの最後にアンケートがありますので、改善意見などもそちらにご記入ください。匿名で入力出来ます。
＊なお、このページを作成しているアカウントは、静岡大学人文社会科学部言語文化学科で私（小二田）が開講している授業用に作成しているもので、学生と共同作業も行っています。アカウント名は、2015年度から続けている錦絵の翻刻注釈演習の成果展示会名です。2019年度は感染症拡大を受けて開催できませんでした。20年度はweb公開を前提に準備中です。3月中には公開の予定です。ご期待ください。
　2015年度の告知、2016年度の告知、2017年度の告知は、それぞれ左のリンク先で御覧いただけます。

追加・補足訂正等

20210128
KuroNetくずし字認識サービス（AI OCR）について、私のhtml及び動画では、ウィンドウを二つ開いてドラッグアンドドロップする方法を紹介していますが、現在ではもっと簡単になっているようです。このリンクの2項目目にあるボックスに、IIIFマニフェストURLをコピペして「起動」を押すと直接ビューワが開きます。これは便利。
　このほか、ここの上の階層「AIくずし字OCRサービス」には背景説明や最新の情報が沢山ありますので、随時参照してください。

20210203
今日、ツイッターで告知してみました。
アンケートに、不要なスペースについての指摘がありました。有り難うございます。html冒頭にもそのことを書いていますが、SeaMonkeyの無料html作成ソフト（composer）を使用すると、所々これが発生するようです。今、検索して、解決方法のあるページを見つけました。次の更新の時に試してみます。当分これでご勘弁ください。

20210830

今日、みを（miwo） - AIくずし字認識アプリがリリースされました。うえで紹介している「KuroNetくずし字認識サービス（AI OCR）」と違い、スマホやタブレット用ですが、iiif準拠ではなく、いきなり任意の文書の写真を撮って判読させることが出来、テキスト化もてともスムーズなので、とりあえずの下読みにはとても便利に使えそうです。試してみた実例をツイッターに上げてみましたので、御笑覧ください。
とはいえ、最終的な解釈はまだまだ人間の判断が必要だし、苦手な物も当然あるので、これでもう自分が読める必要は無い、と言うわけでは無いですね。

20230618
ツイッターで「鼻毛しぼり」の話題に乗っかったところ、こちらに少し流れてくる人がいるようなので、久しぶりに情報を更新します。
このページにも書いてあるように、崩し字判読に関しては本当に進化の速度が速く、私の教材墓なり古い物になってしまいました。ただ、アナログ的に学ぶ方法や考え方は今も変わりはありません。AIの様々なツールの得手不得手を理解しながら、自分のスキルを高めていくのが良いと思っています。
高等学校までの日本史や古文では愉快な江戸戯作を読む機会が少ないし、「浮世絵を読む」と言う作業もなかなかないと思います。是非、ネット上にある様々な江戸の情報にアクセスしてください。「古典」とか「文学」とかを意識する必要は全くありません。

さて、前回更新のきっかけは「身を」のリリースでしたが、今月、凸版印刷が「古文書カメラ（ふみのは）」をリリースしました。
紹介記事：
凸版印刷、AI-OCRでくずし字を解読する　スマホアプリ「古文書（こもんじょ）カメラ™」を配信開始
 私も早速試しましたが、今のところ「みを」の方が正解率が高いように思います。くわえて「みを」は該当する文字をデータセットで調べる機能など、学習補助の機能があるとか、「ふみのは」は権利の譲渡が必要な規約になっているとか、企業が母体になっているためなのか、少し使い勝手が悪いように思います。現在の利用回数制限も、今後どうなるか。暫く終始していきたいところです。
それにしても、NDLデジタルの送信資料や検索機能によって、調査環境は激変していますね。ついて行かねば。

この記事が気に入ったらサポートをしてみませんか？