富士通研、固有名詞抽出の規則を自動生成することで精度を高めた抽出技術


 株式会社富士通研究所は11月24日、文章中から固有名詞を高精度で抽出する技術を開発したと発表した。同社によると、従来の抽出手法と比べて、抽出ミスの数を60%近く減少するのに成功したとしている。

 今回開発されたのは、「固有名詞辞書の自動生成手法」と「生成した辞書を用いる抽出技術」。固有名詞辞書の自動生成手法は、固有名詞抽出時の学習フェーズで用いられる。もうひとつの抽出技術は、抽出フェーズで用いられる。

 学習フェーズでは、前後の単語から得られる文脈情報を用いる規則のほか、複数の固有名詞が辞書に登録されている場合に対処する規則を、正解事例をもとに生成。抽出フェーズでは、学習フェーズで作成した固有名詞抽出規則を用いて、文章から固有名詞を抽出する。

 大量の文章をキーワード検索する場合、人名・地名の区別がうまくできず無関係な検索結果が表示されることが多く、必要な情報を見つけられないという問題があった。今回開発された技術では、固有名詞の抽出時に規則を生成し、その規則に基づいた抽出を行うことで、精度を高めているのが特長。同社が行った人名抽出の実験では、新聞記事から約97%の精度で人名のみを正しく抽出したとしている。また、新聞記事1件あたり、平均0.1秒で固有名詞の抽出が行えたと説明している。

 今後、同技術を用いた新聞記事作成支援ソリューションを、2010年度後半に提供するとしている。



(福浦 一広)

2009/11/24 14:30