資料の電子化に手に入る範囲で最善のOCRは何か?

2024/11/7

部屋が手狭になってしまって本を電子化したい場合や、図書館の本をスキャンして手元に置いておいた場合などで、せっかくならOCRして検索性能を高めたいというときに、手に入るOCRソフトで何が良いのかを実際に買ったり体験版を使ってみて、比較検討したので個人的な感想を書きます。
基本的に元のスキャンデータに透明文字を追加する目的で記述します。
画像劣化は目視したときの印象で記述しています。


1.ABBYY FineReader 15

買い切りソフト。ソースネクストで27500円
知名度はあまり高くないが、OCR専業メーカーの純正品。
公式サイトでは買い切り版はもう販売していない。
ちょっとお高いが、Acrobatのサブスクに比べれば全然安い。
OCR精度は高い。ノイズにも強い。OCR処理速度がかなり速い。
複数ファイルの一括処理はできないが、1個1個の変換処理が速いので苦にならない。
モノクロPDFのファイルサイズはOCRかけても変わらない。
グレーやカラーのPDFの場合は劣化なくファイルサイズが小さくなることがある。
見開きを自動で分割する機能があるが精度はマチマチ。
変換時のオプションで「MRC圧縮を使用する」にチェックが入っていると、元の画像の文字が劣化することがあるので外したほうが無難。
マニアックなソフトだが、OCRをヘビーユーズしてさっさと処理を終わらせたいならベストな選択肢になりえる。
おそらく買い切り版はもう出ないだろうから、とりあえず持っていて損はないと思う。

2.JUST PDF 6 データ変換

買い切りソフト。7000円~1万円くらい。国産でサポート厚い。
OCR精度は高い。エンジンはABBYYを使用とのこと。英語と日本語のみ対応。
ただ、OCR結果はABBYY純正とJUST PDFで若干異なる。
複数ファイルの一括処理ができる。
OCR速度がかなり遅い。複数ファイルを一括処理しようとすると、ものすごく処理速度が遅くなる。メモリもリークしているような気がする。ソフトのバグの可能性ありでアップデートに期待。これさえなければものすごく良いソフト。
モノクロPDFをOCRすると劣化なくファイルサイズが半分くらいまで減ることが多い。
グレーやカラーでも劣化なくファイルサイズは減少することが多い。

日本語を処理するならベストな製品……と言いたいのだが、処理速度がめちゃくちゃ遅くなることがよくあるのが玉に瑕。成果物は良いだけに残念。
認識設定の「画像補正」をオンにすると画像が加工されるので、自分はオフにしている。
JUST PDF 6 Proを購入すると、PDF/xの作成ができる。
マイナンバーカードでの電子署名にもデフォルトで対応もしているので持っていてもよい。
編集ソフトで透明PDFと画像を見比べて内容を訂正できたりするので、これもまあ便利。
ゆったりできるときは、モノクロスキャン画像をJUST PDFで変換してファイルサイズを小さくしている。

3.PDF Element Pro版 11

買い切りソフト。9000円くらい。アカデミック版で7500円くらい。
Pro版はOCRとOCRバッチ処理機能(複数ファイルの一括処理)がある。
OCR精度は良い。処理速度も悪くない。
しかし、モノクロPDFに非対応で、モノクロPDFをOCR処理するとグレースケールPDFに自動的に変換され、ファイルサイズが非常に大きくなる。
グレースケールやカラーのPDFもOCR処理するとファイルサイズは大きくなる傾向。
ただ、操作感や使い勝手はとても良いので、日常的なビュワーとして使う目的ならかなり良い。墨消しや、PDFへのフォーム作成などもとてもスムーズにできる。
ちなみにPDF/xの作成には非対応。
自分は普通のPDFビュワーはこれを使っている。

4.読取革命 16

買い切りソフト。8000~1万円くらい。パナソニック製。
細かい処理をしたいならアリなのかもしれないが、とにかく使いにくい。
本やドキュメントをスキャンして処理するのに向いてない(じゃあ何に向いているのだ)。
有名だから買ってみたが、個人的に必要無かったソフト。

5.いきなりPDF 12

体験版を利用したが、エラー(変換不能)が多発して使えなかった。
エンジンはABBYYを利用しているらしい。

6.Adobe Acrobat

サブスクしかないので検討対象外。だって1年間で2万円超だよ。
ただ、サブスク利用者から聞くに、日本語エンジンが最近更新されていないらしい。


ということで、ファイルサイズをあまり気にせず、ちょっとしたOCRくらいできればよいやであれば、PDF Elementがおそらくお手軽でガッカリ感は少ない。

しかし、PDF Elementはファイルサイズが大きくなるという難点があるので、大量に処理させたいならJUST PDFかFineReaderを使う余地が生まれてくる。

処理速度の問題さえ無いのならばJUST PDFが日本語限定で言えば(本来ならば)良い感じになってもよくないが、なんかメモリリークしているような気もするし、処理速度どうにかしてくれ~~~。

ということで、自分はJUST PDFを省電力ノートパソコンでゆっくり回すことにしている。
なんとなくであるけれど、高性能PCとノートパソコンでも処理速度はそこまで変わらない気がする。

なお、リーダーとしての性能はPDF Elementはかなり高い。

結論。Acrobatは高い。Adobeの殿様商売を許すな。

バナーリンク
全国児童養護施設総合寄付サイト

コメントを投稿

0 コメント