見出し画像

数式を含むスキャン画像のPDFをOCRしてマークダウン形式に変換できる。Nougatを試す

Meta社が公開した数式を含むPDFのOCRモデル、Nougat (Neural Optical Understanding for Academic Documents)を試してみました。
PDFを入力すると、いい感じにLaTeX埋め込みマークダウン形式で出力されるので、いろいろ捗りそうです。😄

なお、コードはMITライセンス、モデルウェイトはCC-BY-NCライセンスになっています。

https://facebookresearch.github.io/nougat/

Google Colabで実行してみます

GPUを有効にしてインストール

!pip install nougat-ocr

目的のPDFを入力

!nougat /content/Attention_Is_All_You_Need.pdf --out .

出力結果

いい感じにマークダウン形式で出力されました。

左: マークダウン形式、右: マークダウンのレンダリング結果

手軽に変換できるので、いいですね。

この記事が気に入ったらサポートをしてみませんか?