富士通研、人間の声に迫る自然な音声合成技術を開発


 株式会社富士通研究所は7月27日、人間の声に迫る自然な音声合成技術を開発したと発表した。今回発表された音声合成技術では、独自の発話リズム制御モデルと音声波形データベースの2つの技術を採用しているのが特長。各種機能を強化しながら、2009年度上期中の実用化を目指す。

 独自の発話リズム制御モデルでは、人間らしい流ちょうな音声を実現するために、人間の発話リズムを解析するための新たな統計手法を開発。この手法に基づいて、独自の発話リズム制御モデルを構築している。これにより、各音の長さで肉声との差を従来の3分の2に抑え、流ちょうな読み上げ音声を実現したと説明。

 また、さまざまなイントネーションを網羅した数万個ものフレーズからなる大規模音声波形データベースを構築。このデータベースを用いることで、合成文章に適した音声波形を選択でき、機械的なひずみのない合成音声が生成できるようになったと説明する。

 今回開発した技術は、音声品質の評価方法であるCMOS評価で、プロのナレーションの品質に迫る高いスコアを達成。人間の声に迫る自然な音声合成技術を開発したことで、ナレーター音声の録音編集作業にかかる費用や時間を大幅に削減することができると同社は説明。放送や施設のアナウンス、e-Learningの教材用音声などでの利用が期待できるとしている。



(福浦 一広)

2009/7/27 16:25