日本財団 図書館


1 OCRソフトによるデータの作成手法

 

データ入力手法のひとつであるOCR(光学的文字認識)変換システムは,スキャナーによって文字データをグラフィックデータとしてパーソナルコンピュータに読み込ませて,それをOCRソフトによってテキストデータへと変換する手法である。

10年程前までは,OCR変換システムには専用の機械が必要で,機械自体も大きく大変高価であった(約200万円程度)が,近年のパーソナルコンピュータの急激な性能向上等により,低廉化と低価格化が進み(数万円程度で購入可),文字認識専用の特殊な機器を用いなくても手軽に利用できるようになり,ある程度のレベルの認識・変換性能を発揮できるようになっている。

しかしながら,認識精度のレベルは未だ完全とはいえず,スキャナーにかける原稿の品質や文字認識技術の適用のし方にかなり依存する。現状の認識精度のレベルは,概ね9割程度とみなされる。そのため,OCRソフトにより認識させた後,引き続き,認識結果の自動校正機能と人手による校正を併用した補完作業をある程度必要とする。

この技術の有効性は,今後認識率のレベルがどの程度まで向上するかという点にかかっている。OCRシステムの文字認識・変換技術のレベルの向上とシステムの操作の自動化へのニーズは高い。ある程度の制約があっても,事前準備作業を人手を介して施した後,レイアウト調整,文字データの認識・変換処理の自動化・定型処理化をプログラムすることにより,データ入力作業が全体としてみると,大幅に省力化されることになる。

なお,OCR手法を活用する場合,基本的に紙媒体に印刷された文字を変換し,キャラクターイメージのテキスト(文字)データで保存することが目的だが,紙媒体の取込み過程で生成されるグラフィック(画像)イメージのデータ自体も有用なデジタルデータとなる。

 

030-1.gif

 

 

 

前ページ   目次へ   次ページ

 






日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION