PC・スマホ PR

【DocuWorks】ドキュワークス文書を文字認識(OCR)させる

記事内に商品プロモーションを含む場合があります

こんにちは! 長年DocuWorksを使用しているコンソメチップス(兄)(@sono8932)です。

今回はDocuWorksの機能である「文字認識(OCR)の使い方」を紹介します。

○文字認識(OCR)とは

DocuWorksの文字認識(OCR)とは?

スキャナー等で読み取った“イメージ文書”を、読み取り“テキストデータ”を付加することです。

注意DocuWorksでは、スキャナー等で読み取ってDocuWorks文章にした“イメージ文書”しか文字認識が出来ません。Excel、Word、PDFなどの電子データを、ドキュワークス文書にした“アプリケーション文書”では、文字認識を実施することが出来ません。

 

※OCR(=Optical character recognition)は“文字認識”のソフトですが、今では“OCR”のことを「文字認識」と言い換えられるほど言葉の浸透がされています。

 

■OCR可能[○]なDocuWorks文書:イメージ文書
■OCR不能[×]なDocuWorks文書:アプリケーション文書

 

■アプリケーション文書をOCRする方法

DocuWorksを使用していない人から、手書き文書をスキャナーしPDFに送られて来ることがあります。そのPDFを、DocuWorks文書にしてしまうと“アプリケーション文書”となってしまうのでOCRすることが出来ません。

どうしてもOCRした場合は・・・

  1. PDFを印刷
  2. 印刷した文章を、スキャナーしてDocuWorks文書“イメージ文書”に変換
  3. OCRする

と印刷作業が勿体ないと思いますが、この方法しかOCRする術がありません。

○DocuWorksの文字認識機能(OCR)

それでは、DocuWorksで文字認識する方法を紹介いたします。

①文字認識させたいDocuWorks文書を開き。上部タブ「ページ(P)」-「OCR(文字認識)(X)」をクリック。そうすると「別窓」が開きます。

 

②別窓で「OCR(文字認識)」が開きますので、項目を選択して「開始」をクリック。

  • 処理するページ(1ページだけOCRするのか!すべてのページOCRするのか!の確認)
  • イメージのノイズ除去(文書をスキャナーするので印刷汚れ(ノイズ)なども一緒に読込んでしまっている場合、使用しましょう。)
  • カラーイメージに対する前処理(文字認識する際、認識率を優先させるか!認識時間を優先させるのか!の確認)

 

③OCR処理することで前のOCRデータが上書きされるので、その警告文です。初めてのOCR処理の際は、そのまま「はい」をクリック下さい。※出ないこともあります。

OCR処理済みのページが存在する場合、そのページのOCR結果は上書きされます。OCR処理を続行しますか?

④【完了】DocuWorks文書が文字認識されて“テキストデータ”が生成されています。

 

DocuWorksのOCR機能も、年々進化しておりますが「文字化け」「誤認識」と完璧ではありません。どうしてもスキャナーからイメージを読込んでいるので、少しの傾き、歪み、汚れなどで誤認してしまうのは致し方ないことだと思われます。

 

そんなOCR機能も付いた「DocuWorks」に興味がる方、1ライセンス購入してみてはどうでしょうか?

DocuWorks 9 ライセンス認証版/1ライセンス 基本パッケージ

新品価格
¥13,190から
(2018/12/6 11:42時点)