スマホのOCR機能で様々な方言テキストを読みとってみる

2024年2月5日 17:43

先日の研究会で年輩の先生が「だいぶ昔に刊行された原稿を本からPDFにしてあるのだけど，それをWordにコピーして修正しようとしたらだいぶ誤りが多くて，イチから打ち込んだ方が早そう」という話をしていました。スキャンしたPDFの画質がどの程度か分かりませんが，私にもけっこう関わる話です。

私の場合，いろんな資料を扱いますが，電子テキストにする場合はいくつかの方法を試します。思いつくところだと

複合機のOCR機能で透明テキスト作成
透明テキストなしのPDFがある場合，Googleドライブに読み込んでDocsで開く

の2つでしょうか。

ただ最近スマホのカメラに付属するOCR機能がけっこう使えるのでは？という印象も受けます。iPhoneなら付属のカメラでテキスト認識が付いていますし，AndroidでもGoogleレンズがあれば読み取れます。これらを使えば例えば学部生でも簡単にテキストデータとして手元に持っておけます。

というわけでスキャン精度を見てみます。ちなみにレシートをやったこともありましたが，そのときは数字だけでしたね。

手書きの本

有働駒雄『天草の方言』という本があります。2分冊（という呼び方でいいんだっけ？）の函入り本なのですが，私家版のせいか刊行年がちょっとややこしいです。

「地図」と書かれた方の奥付は昭和54年(1979)の12月，何も書かれてない辞書となっている方（「辞書」と呼びます）の奥付は昭和55年(1980)の1月刊行となっているのです。これだと言及するときには有働(1979-1980)とでも書くのがいいのでしょうか。せめて「辞書編」と名づけた方にも正式な名称があれば分けて言及できるのですが。

この辞書と地図から1ページずつ写真を撮ってみました。まず辞書の方です。元の写真の左段半分ぐらいを対象にしました。余談ですが，OCRにすると自動で左段と右段を分けてくれるのはすごいと思います。

写真と比べて分かるのが1行目のカタカナをだいぶ間違えています。これは本でピッチ（アクセント）の高い部分に上線を付けているのを誤って文字と認識したせいです。「ナニデン」を「チニデン」としているところによく表れています。

次に行の認定が少し甘いでしょうか。「グワッ・グワッ」のところは右に行って「犬の吠える声を表す」となってほしいのですが，すぐ下の「表す」からはじまりました。

他は「ゴ」と「ブ」，「茹」と「常」という文字単位の認識で，おおむね良い感じに読み取っていると思います。

次に「地図」から解説部分を読み取りました。これも左右に分かれていて，さらに字がかなり小さいです。

これを読み取った結果を見てみましょう。こちらは1行ずつ挙げて，誤字の類は赤字，読み取られなかったものは緑背景にしました。

だいぶ頑張っていると思いますが，ちょっと厳しそうです。もとの字が小さいこととページの右端が折れ目になったことで読み取りミスが増えました。これだと一次作業の結果として使うにももう一加工必要そうですね。

印字された本

方言の談話資料で印字されたものもあります。『九州方言の基礎的研究』という本には4つの方言のテキストがついています。ここから大分県長湯方言のテキストの一部を抜き出します。

けっこう字が小さかったのでどうかなと思いましたが，印字されているとやはり認識率は高いです。

本を持ち出せないときにはスマホで読み取るというのは十分に選択肢になりそうですね。もっともその場では写真にさえしちゃえば上の方法も試せますが，ワンデバイスの手軽さよ！ということで。

この記事が参加している募集

#国語がすき

4,053件

#おすすめアプリ

3,830件

この記事が気に入ったらサポートをしてみませんか？