最近の記事

OCRでGo! ~Linuxの章~

Linuxを使ってみよう Windows7は悪くないOSだったと思うが、サポートが切れた今となってはOSをWindows10にアップグレードして使い続けるか、PCがアップグレードに耐えられないスペックであれば使うのを諦めるしかない。裏を返せば、そういう行き場のない中古PCが格安で手に入ることでもあるので、無料な面ばかり強調されるが、自由なOSであるLinuxに手を出してみよう。 Linuxとは『真田の忍者、猿飛』なOSである 白土三平先生の漫画『サスケ』に、『真田の忍者・猿

    • OCRでGo! 裁断器は必須か?

      まず献体をひらきにする 理想はやはり無傷で献体をスキャンする非破壊自炊だが、残念ながらいまだに主流にはなっていない。ページめくりの自動化が望ましいが、機械的なカラクリでページを1枚ずつエラーなく高速でめくるという動作は、世界中の頭脳がいまだ挑戦しているが、生憎とべらぼうに難しい。従って、やはり背表紙を切り離し全ページをバラバラのペラにした献体を、紙幣計数機のごとくスキャナに食わせてガーッと一気にスキャンする破壊自炊が現実的な落としどころであろう。  文庫本の背表紙をバッサリ

      • OCRでGo! 三つの工程

        OCRの流れ OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。  大まかに分類すれば以下の三工程に分けられる。 1.原稿となる文庫/新書をスキャナーにかけて画像データを得る 2.画像データをOCRプログラムにかけてテキストデータを得る 3.テキストデータを校正して完品に仕上げる  とりあえず真釘くんたちを例に、それぞれの工程に必要な装備を並べてみよう。 1.原稿をスキャンするスキャナー オフィス用の複合機にはス

        • OCRでGo! ~こうして私はTesseractした~

          スケッチ1 〜とある零細出版社の編集部〜「プロビー、よろこべ、仕事だ」 「なんです、プロビーって? 殿井さん」 「トニーって呼べよ。フランコ書房(仮)って憶えてるか?」 「ああ、大昔ありましたね。いにしえの富士見ロマン文庫全盛期に二匹目のドジョウ目当てで翻訳ポルノ小説に手を出してすぐ消えた版元」 「正解。そのフの字跡地から版権だか出版権を我が出版社が取得した」 「よくそんなことできましたね。原著者の他に翻訳者からもOKが必要なのに。大抵偽名でしょ?」 「まあ蛇の道は何とかって

        OCRでGo! ~Linuxの章~