スキャナで取り込んだ手書きや印字された文字を解析しデータに変換して再利用できるPC向けOCRソフトは、スキャナが一般ユーザーでも買える価格で出始めた1995年ごろから各社で販売されはじめた。当初はスキャナの解像度の低さやOCRの文字認識エンジンの未熟さなどから誤認識が目立ったが、現在では技術も成熟し各社が「認識率99%以上」とうたう製品も数多く発売されている。
さらにスキャナも高機能化と低価格化が進んでおり、現在ではプリンタやコピー機などに搭載されている複合機としてオフィスに導入されている場合も多い。日常業務において紙に出力された文章をデータとして入力するといった機会は多く、一から手入力していくよりもスキャナで取り込み、OCRソフトで読み込んだ方が素早くデータ化できる。
■ 用途を限定した富士通ミドルウェアのOCRソフト
|
富士通ミドルウェア パーソナルセールスグループ 内田晃太郎氏
|
富士通ミドルウェア株式会社は10年ほど前からPC向けOCRソフトを手がけてきたベンダーだ。同社パーソナルセールスグループの内田晃太郎氏は「他社では個人向けの汎用的なOCRソフトを多く出されているのに対して、当社では用途を限定し内容を濃くした製品を提供している」と同社製品の特徴を説明する。
「表OCR for Excel v5.0(以下、表OCR)」は、Excel上からスキャナを呼び出し、帳票類や伝票類、見積書などの紙原稿の文字やけい線を読み取り、そのままExcelに再現する。また「文書OCR for Word v5.0(以下、文書OCR)」は、Word上からスキャナを呼び出し、新聞や雑誌、レポートなど紙原稿の縦・横書き文章や表のけい線、図などのレイアウトを読み取り、そのままWordに再現する。また両製品ともPDFファイルの認識もサポートされており、内容をExcel/Wordに取り込み手を加えることが可能となる。
文字認識の精度高まり各ソフトウェア間での比較が難しくなった現在、次の一手として同社が取り組んだのが、けい線やレイアウトなど文字以外の認識と再現ということだ。現在では他社からも同様のソフトウェアが発売されているが「この機能を持った製品を最初に発売したのは当社。再現性に自信がある」という。
基本となる文字認識においても99.8%という精度を持つほか、紙原稿と認識結果を重ねて表示し、正しく認識されているか疑わしい文字が強調したり音声で読み上げることができるので、誤認識を修正を容易にする工夫がされている。修正した文字は辞書に登録することができ、次回以降の認識精度を上げたり同様の文字がある個所をまとめて修正することが可能だ。
|
|
|
文書OCRで紙文書をWordに再現
|
表OCRで紙原稿をExcel上に再現
|
重ね表示で修正効率を向上
|
|
名刺OCRの確認・修正画面
|
「名刺OCR」は、引き出しにたまりがちな名刺をスキャナで読み込み、名前や会社名、メールアドレスなどを管理できるソフト。A4サイズのフラットベットスキャナで最大8枚までの名刺を一度に読み取ることができる。
この種のソフトは他社からも比較的多く出ており、中には専用の小型スキャナを同梱した製品もある。小型スキャナは手元に置いて手軽に読み取らせることができるといったメリットもあるが内田氏は「1枚1枚読み取らせていては多量にたまった名刺を読み取らせるには非常に時間がかかり100枚程度が限界。15秒~20秒程度で8枚同時に読み取ることができるメリットは大きい」と優位性を説明する。
また、名刺には会社によってさまざまな書式があり、社名や部署などの誤認識による修正が面倒ではないかという懸念もあるが、名刺OCRでは約120万件の会社名辞書をはじめ郵便番号・住所・名前の辞書も搭載されているため、文脈から会社名・部署などへの振り分け精度が高い。修正が必要な場合も誤認識の疑いのある文字のピックアップされたり、修正中に名刺イメージを表示して確認しながら行える。さらに取り込んだデータはExcelやメールソフト、はがき印刷ソフトなどへのインポートも可能、サーバーにデータを置くことで部署内で共有することが可能だ。
なお、会社で管理されているPCにアプリケーションをインストールするには管理者の許可が必要な場合が多いので、あらかじめ確認しておきたい。また、名刺OCRなどでデータ化した個人情報の取り扱いにもご注意いただきたい。
■ URL
富士通ミドルウェア株式会社
http://www.fmw.co.jp/
( 朝夷 剛士 )
2004/09/17 11:26
|