記事一覧

OCRでGo! ~Linuxの章~

Linuxを使ってみよう Windows7は悪くないOSだったと思うが、サポートが切れた今となってはOSをWindows10にアップグレードして使い続けるか、PCがアップグレードに耐えられ…

あくつ
3年前

OCRでGo! 裁断器は必須か?

まず献体をひらきにする 理想はやはり無傷で献体をスキャンする非破壊自炊だが、残念ながらいまだに主流にはなっていない。ページめくりの自動化が望ましいが、機械的なカ…

あくつ
3年前

OCRでGo! 三つの工程

OCRの流れ OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。  大まかに分類すれば以下の三工程に分けられる…

あくつ
3年前

OCRでGo! ~こうして私はTesseractした~

スケッチ1 〜とある零細出版社の編集部〜「プロビー、よろこべ、仕事だ」 「なんです、プロビーって? 殿井さん」 「トニーって呼べよ。フランコ書房(仮)って憶えてる…

あくつ
3年前

OCRでGo! ~Linuxの章~

Linuxを使ってみよう Windows7は悪くないOSだったと思うが、サポートが切れた今となってはOSをWindows10にアップグレードして使い続けるか、PCがアップグレードに耐えられないスペックであれば使うのを諦めるしかない。裏を返せば、そういう行き場のない中古PCが格安で手に入ることでもあるので、無料な面ばかり強調されるが、自由なOSであるLinuxに手を出してみよう。

Linuxとは『

もっとみる

OCRでGo! 裁断器は必須か?

まず献体をひらきにする 理想はやはり無傷で献体をスキャンする非破壊自炊だが、残念ながらいまだに主流にはなっていない。ページめくりの自動化が望ましいが、機械的なカラクリでページを1枚ずつエラーなく高速でめくるという動作は、世界中の頭脳がいまだ挑戦しているが、生憎とべらぼうに難しい。従って、やはり背表紙を切り離し全ページをバラバラのペラにした献体を、紙幣計数機のごとくスキャナに食わせてガーッと一気にス

もっとみる

OCRでGo! 三つの工程

OCRの流れ OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。

 大まかに分類すれば以下の三工程に分けられる。

1.原稿となる文庫/新書をスキャナーにかけて画像データを得る
2.画像データをOCRプログラムにかけてテキストデータを得る
3.テキストデータを校正して完品に仕上げる

 とりあえず真釘くんたちを例に、それぞれの工程に必要な装

もっとみる

OCRでGo! ~こうして私はTesseractした~

スケッチ1 〜とある零細出版社の編集部〜「プロビー、よろこべ、仕事だ」
「なんです、プロビーって? 殿井さん」
「トニーって呼べよ。フランコ書房(仮)って憶えてるか?」
「ああ、大昔ありましたね。いにしえの富士見ロマン文庫全盛期に二匹目のドジョウ目当てで翻訳ポルノ小説に手を出してすぐ消えた版元」
「正解。そのフの字跡地から版権だか出版権を我が出版社が取得した」
「よくそんなことできましたね。原著者

もっとみる