見出し画像

20230812 論文読みに必要なAI技術 ~論文PDFの解像度の問題

 昨日は時間が無くて送り火の予習が中途半端になったので今日は論文読むぞ!と思って論文を読み始めると…文字が読みにくい。・゜・(つД`)・゜・。
 これ,ほとんどの人が経験していると思いますが,論文のPDFってスキャンの解像度が低いものが多く,パソコン画面で読むとなんとか読めなくもないけど,印刷すると薄いしかすれてモザイクかかったようにみえたりして判読不可能になることが多いと思います。
 論文PDFの解像度が低い理由として考えられるのは以下の点でしょうか。
 
1.無料なんだから有料の冊子より品質下げないと
 
 これは日本の,かつ心理学の界隈だけかもしれませんが,基本的に日本の論文の場合,「会費を払っている会員のお金で雑誌が印刷され送付される」「会員以外がPDFで無償で読めるのは会員の善意からなるサービス」という感覚があると思います。
 そうした構図があるから「有料会員が持っている雑誌をコピーしたもの」よりPDFの印刷品質が高いことは望ましくないということで,わざとPDFの品質が落とされているのではと思ったりします。YouTubeで無料でほぼ全部聴ける音楽を提供するけど品質を下げたりすることで有料の配信やCD買ってね,という商売モデルに似た感じでしょうか。
 
2.ファイルの容量の問題
 
 上の様な「わざと」ではなくても,「高解像度で読み込むとPDFの容量が大きくなるから低解像度を選んだ」のは多いのではと思います。
 私が研究室で使っているスキャナのデフォルトの読み取り解像度は200dpiですが,それで読み込んだものはやはり薄くぼやけていて判読しづらいので,面倒ですが600dpiに手動で変更して読み取ることが多いです。しかし,やはり600dpiで読み込むとファイル容量が大きくなり,たまに数十Mバイトまでなることがあって「こりゃ容量大きくて無茶だなあ」と思うことも多いです。
 ストレージの問題や共有時のネットワークの太さなどを色々と考えると,「1論文で1Mバイト以内に抑えたい」という要求がでてくることは当然に思え,それならばPDFの解像度は低く抑えないといけないのもまた確かだと思います。
 
3.OCRがなされていないものも多い
 
 最近のものは問題ないものが多いですが,比較的初期にPDF化されたものは,単なる画像として読まれただけのものでOCRされた文字情報が存在していないものが結構あると思います。また,文字情報が存在していても,変なスペースとかが無限に入っていたりしてコピペしても全然文章が再現されないものも結構あると思います。
 こうした問題が「複製禁止」の視点で行われている可能性もありますが,そうではなくて,昔の技術で読み取られたファイルだから解像度の割にファイル容量が大きく,文字情報も埋め込まれていないという問題もあるのだと思います。
 
 こうした問題を改善していく方法の1つとしては「各学会がもう一度今の技術でスキャンしてもらうことでよいPDFを作り直して上げなおしてもらう」ということがあると思います。しかし,そんな面倒なことをするのはいやだろうし,外部委託している場合が大半だと思うのでそれだとまた費用がかかるのでまず無理だろうなあと。
 
 ただ,今のAI技術などで昔の荒い写真などをきれいにすることなどができているようなので,昔の荒いPDFを読みやすくしてくれて,かつ文字認識もしたうえでより容量を小さく保存できるようなAIの開発は可能なのではと思っています。
 そして,J-STAGE自体が,登録されいる各学会のPDFを自動で読み込んで,解像度等の問題があるものを自動でPDF改善AIに書けてより可読性を高めたものにして置き換えなおす,みたいなことをしてくれたらいいのになあと思ったりします。
 
 なんとなくすでに荒いPDFを読みやすくしてくれるAI自体は開発されているような気もするのでもしご存知の方がいらっしゃったら教えていただけると幸いです

この記事が気に入ったらサポートをしてみませんか?