特殊な辞書の電子テキスト化に苦戦

2024年3月6日 18:57

電子データにしたいものってけっこうあり，そのひとつがかつてでた『全国アクセント辞典』（平山輝男，1960）です。

これは東京・京都・鹿児島のアクセントが一気に調べられるとても便利な辞書なんです。電子化して検索できるようにできたらとても便利ですよね。ただ10万語もあるので手入力は手間です。なのでスキャンしてOCRにかけて手間を省けないか考えました。

しかし、その表示がちょっと特殊でうまく行きません。

見出しのカタカナの上線が東京のアクセント（※最近のアクセント辞典だと下がり目の有無と位置だけですが）、右の丸数字が京都のアクセント、その右の丸の中のAとBが鹿児島のアクセントです。

やってみたこと

Macのプレビュー（Windowsのエクスプローラ相当）に付属のOCR機能を使うとこうなります。

スマホ（iPhone）のカメラによるテキスト認識もこうなります。

Google DriveにもOCRがついていて，PDFを読みDocsから開くと文字を認識します。

フォントの大きさは調整可能なので無視します。

ChatGPTも有料版についているAdvanced Data Analysis機能の中にOCR機能があります。これは日本語学習データで学習させることで日本語の認識も出来るようになるはずですが，何度やっても失敗しました。

Tesseractという多言語対応のOCRソフトがあります（無料）。上のChatGPTの中で動いているのもこれのようです。Python上でも使えてなかなか優秀なようなので思い試してみました。

そのまま使えるのはあまり期待していませんでしたが，だいぶ厳しそうです。

ただTesseractは学習データを用意すれば追加学習できるようです。

まだ試していませんが，もし数ページ分のデータで精度が改善されるならだいぶ助かります。こりゃお勉強が必要ですね。

やってみた

この記事が気に入ったらサポートをしてみませんか？