最近、会社の紙文書の電子化と文書管理(検索できるように)を画策しているのだが・・・。
EPSONなんかのスキャナーに付いている某OCRの新バージョンの案内メールが届いた。
低品質の原稿に対する誤読率の当社比27%低減を実現!!!
ちょっと期待して体験版をダウンロード(ISDNだと一晩かかる)。
まずは認識のお手並み拝見。ん~。これはちょっと・・・。カタカナ単語がキーワードとして重要なのだが、「ヘ」で始まるカタカナは「ヘ」(カタカナ)が「へ」(ひらがな)になっていたり。辞書を充実させているようなのだが、我々が使う単語はその辞書にないし・・・。
表組みの認識も良くない。読んでいない部分も多い。
これまでに試した中では、SmartOCRはなかなかの出来。しかも、Lite Editionは無料!Lite Editionでは全ページ通して認識させることは出来ないが。