株式会社富士通研究所は1月27日、カラー文書のJPEG圧縮による画像劣化や多様な色使いに対応したハイブリッド型テキスト領域抽出技術の開発に成功したと発表した。
今回発表されたハイブリッド型テキスト領域抽出技術は、テキストパターン抽出処理と図表パターン抽出処理を相補的に組み合わせることで、高精度なテキスト領域抽出を可能とする技術。従来JPEG圧縮による画質劣化や多様な色使いのため、紙のカラー文書に含まれるテキスト領域を高精度で抽出することが困難だったが、この技術を利用することで、テキスト領域の抽出エラーを約6割(同社従来技術比)まで削減、テキスト領域抽出率96%を実現したとしている。
テキストパターン抽出処理は、カラー画像での色変化の大きい箇所を検出し文字輪郭領域を推定することで文字色を適応的に判定してテキストパターンを抽出するというもの。これを利用することで、多様な色使いに対応し、文字輪郭領域以外からの色むらノイズの発生を防ぎテキスト領域を精密に抽出できるとしている。
図表パターン抽出処理は、罫線やレイアウト上の区切り線の連結性を考慮して抽出することで、従来とぎれとぎれになっていた罫線や区切り線を高精度に抽出し、この罫線や区切り線で囲まれたテキストパターンの含まれる領域候補を絞ることができるというもの。
同社では、今後同社スキャナ製品に同技術を搭載して提供する予定。
■ URL
株式会社富士通研究所
http://jp.fujitsu.com/group/labs/
プレスリリース
http://pr.fujitsu.com/jp/news/2006/01/27.html
( 福浦 一広 )
2006/01/27 14:06
|