マルチメディア処理

高品質音声合成技術

ヒューマンインタフェース技術紹介パンフレット2010

概要

任意の入力テキストを高品質な音声に変換するテキスト音声合成システム「ToSpeak™」を開発しました。「ToSpeak™」は、複数素片選択融合方式の合成器を利用し、高い肉声感とスケーラビリティを実現しています。また、代表パターンコードブックを用いて韻律制御を行い、話者の話し方の特徴や発話スタイルの特徴を再現する抑揚を生成しています。比較的少量の録音音声から韻律制御辞書と音声素片辞書の自動学習が可能で、新しい声の追加も容易、かつ多言語(日・米・英・独・仏・西・加仏・米西・中・広東)に対応しています。合成音声の多様性向上を目指し、話者や話し方の適応・変換技術を開発中です。

テキスト音声合成システム「ToSpeak™」の概要の図
テキスト音声合成システム「ToSpeak™」の概要