こんにちは! 長年DocuWorksを使用しているコンソメチップス(兄)(@sono8932)です。
今回はDocuWorksの機能である「文字認識(OCR)の使い方」を紹介します。
○文字認識(OCR)とは
DocuWorksの文字認識(OCR)とは?
スキャナー等で読み取った“イメージ文書”を、読み取り“テキストデータ”を付加することです。
注意:DocuWorksでは、スキャナー等で読み取ってDocuWorks文章にした“イメージ文書”しか文字認識が出来ません。Excel、Word、PDFなどの電子データを、ドキュワークス文書にした“アプリケーション文書”では、文字認識を実施することが出来ません。
※OCR(=Optical character recognition)は“文字認識”のソフトですが、今では“OCR”のことを「文字認識」と言い換えられるほど言葉の浸透がされています。
■OCR可能[○]なDocuWorks文書:イメージ文書
■OCR不能[×]なDocuWorks文書:アプリケーション文書
■アプリケーション文書をOCRする方法
DocuWorksを使用していない人から、手書き文書をスキャナーしPDFに送られて来ることがあります。そのPDFを、DocuWorks文書にしてしまうと“アプリケーション文書”となってしまうのでOCRすることが出来ません。
どうしてもOCRした場合は・・・
- PDFを印刷
- 印刷した文章を、スキャナーしてDocuWorks文書“イメージ文書”に変換
- OCRする
と印刷作業が勿体ないと思いますが、この方法しかOCRする術がありません。
○DocuWorksの文字認識機能(OCR)
それでは、DocuWorksで文字認識する方法を紹介いたします。
①文字認識させたいDocuWorks文書を開き。上部タブ「ページ(P)」-「OCR(文字認識)(X)」をクリック。そうすると「別窓」が開きます。
②別窓で「OCR(文字認識)」が開きますので、項目を選択して「開始」をクリック。
- 処理するページ(1ページだけOCRするのか!すべてのページOCRするのか!の確認)
- イメージのノイズ除去(文書をスキャナーするので印刷汚れ(ノイズ)なども一緒に読込んでしまっている場合、使用しましょう。)
- カラーイメージに対する前処理(文字認識する際、認識率を優先させるか!認識時間を優先させるのか!の確認)
③OCR処理することで前のOCRデータが上書きされるので、その警告文です。初めてのOCR処理の際は、そのまま「はい」をクリック下さい。※出ないこともあります。
OCR処理済みのページが存在する場合、そのページのOCR結果は上書きされます。OCR処理を続行しますか?
④【完了】DocuWorks文書が文字認識されて“テキストデータ”が生成されています。
DocuWorksのOCR機能も、年々進化しておりますが「文字化け」「誤認識」と完璧ではありません。どうしてもスキャナーからイメージを読込んでいるので、少しの傾き、歪み、汚れなどで誤認してしまうのは致し方ないことだと思われます。
そんなOCR機能も付いた「DocuWorks」に興味がる方、1ライセンス購入してみてはどうでしょうか?
DocuWorks 9 ライセンス認証版/1ライセンス 基本パッケージ 新品価格 |