富士通、日本語の表記ゆれを補正する「Interstage Information Quality」
ミドルウェア事業本部 データマネジメント・ミドルウェア事業部 第五開発部長の押金章悟氏 |
富士通株式会社は9月9日、高精度データクレンジングソフト「Interstage Information Quality」を発表した。同日から販売開始する。
Interstage Information Qualityは、住所や氏名データの表記を統一するデータクレンジングソフト。独自開発の解析技術を搭載し、住所や氏名の表記方法の多様性(新旧字体の混在、市町村名の変更、地名の省略、番地の記載方法など)から生じる日本語特有の表記ゆれを、高精度にクレンジングする。
ミドルウェア事業本部 データマネジメント・ミドルウェア事業部 第五開発部長の押金章悟氏によれば、クレンジング解析では、「前方一致」が一般的だ。「東京都東新橋一丁目」と間の「港区」(区名)が抜けているケースを例にとると、「東京都」から順番に解析していく。この場合、「東京都」の後に区名がない時点で解析を完了してしまい、その後の解析は行われなくなる。
一方、Interstage Information Qualityの解析技術では、「東京都」「東新橋」「一丁目」と語句の各要素を一発で辞書と照合し、一致する割合の高い住所を選択する方式を採っている。これにより「従来は不可能だった省略や誤りも自動補正できるだけでなく、百数十万件を実際にクレンジングした結果、97%の成功率を達成している」(押金氏)。解析速度もウリの1つで、「目安として100万件で約350秒」という。
もう1つ特徴となるのが、過去40年の住所変遷を収録した最新辞書を搭載する点。日本語コンピュータが登場した1979年よりも古い1970年以降の住所をカバーしているため、過去の資産も十分再利用が可能という。「住所は特に表記ゆれが顕著に表れるところだ」(同氏)。例を挙げると、「竜ヶ崎市」と「龍ヶ崎市」といった文字の違い、「吾妻郡草津町」と「草津町」といった一部省略、さらには「埼玉県浦和市」→「埼玉県さいたま市浦和区」といった合併・政令市化による住所変更。中には新潟県の「新津市中沢町」→「新潟市中沢町」→「新潟市秋葉区中沢町」と3年間で2度も住所変更があった町もある。こうした状況に追随するため、毎月、最新の住所辞書データを送付するサービスも用意している。
表記ゆれの補正例 | 独自の解析技術で高精度なクレンジングを実現 | 過去40年の住所変遷を収録した辞書を搭載 |
価格は、250万円(税別)/2コアプロセッサ。住所辞書更新サービスが年額80万円(同)/サーバー。
なおInterstage Information Qualityは、「情報統合プラットフォーム」を構成する新製品となる。ほかには4月に販売開始したデータ収集ミドルウェア「Interstage Information Integrator」、データ蓄積ミドルウェア「Interstage Information Storage」などがラインアップされ、富士通では、データ品質を維持・向上する製品群として訴求する方針。
2009/9/9 14:09