標準OCRがいつも間違える漢字がある

DocuWorksには標準でOCR機能がついています。

しかし学習機能や漢字の補正機能などが無いため、毎回間違う漢字、名前が存在します。

OCRの文字を修正するのはかなり手間。書類を開き、OCRタブから手動で編集することは可能なのですが、なかなかの手間がかかります。

しかし、しっかりと修正しておかなければ、後日ファイル検索や文字検索をしてもみつかりません。

検索機能はDocuWorks®の中でも最重要の機能の一つです。検索機能のおかげで1年前、5年前、10年前の書類でもカンタンに見つけることができます。

私はある特定のFAXで「国中さん」が常に「田中」さんになってしまう現象がありました。
FAXが荒いことが問題ではあるのですが、これでは将来「国中さん」を探すことはできません。

なんとしてでもOCR結果はきれいに修正する必要がありました。

DocuWorks APIに存在しない機能

API(エーピーアイ)とは、DocuWorksを外部から操る機能の名前です。いろいろなプラグイン、補助ソフトはこのAPIを活用することにより実現しています。

しかし、OCRの結果はAPIでは取り出すことができないのです。

記録されたOCRの結果を読み込んで単語を修正し、それを設定すればいいだけの話なのですが、それができないのです。正確にはOCRの文字だけを取り出すことはできますが、文字がページ上のどこの位置にあるのか、という情報が取り出せません。

APIがサポートしなければ、そもそも機能を作ることはできません。

簡単なように見えて遠い道でした。

完成。OCR文字置換プラグイン

私はDocuWorks APIとOCR機能の動きを徹底的に調べ、文字位置を保存しながら、文字だけを変換することができるように作り上げました。

プラグインを使うとどのようになるか、見本のDocuWorks文書を用意いたしました。
ダウンロードして見てみてください。