AI Technology

臨場感と理解を高める朗読エンジン

2011年10月

概要

当社は、電子ブックの朗読で臨場感と理解を高める朗読エンジンを開発しました。セリフ部分を感情豊かに読み分け、また本文の境界や箇条書きの間などで適切なポーズを挿入することで、ラジオ朗読のような聞きやすさと理解度の向上が可能となります。

朗読エンジン記者用資料図面

開発の背景

近年、電子ブックコンテンツを用いた読書が注目されています。当社は、電子ブックの朗読で臨場感を高め、音だけでも内容をよく理解できる朗読エンジンを目指す開発を行っています。読み上げ機能によってあらゆる書籍コンテンツを音声で聞くことができるという電子書籍の新しい使い方を提供するだけでなく、臨場感や情感を楽しみながら聞くことができ、内容をより深く理解できるような高いレベルの朗読を目指しています。

従来技術

従来の音声合成は文章を淡々と感情の無い声で読み上げるため、小説など聞いていると違和感を感じる点が課題でした。また、セリフを本文と同じ声で読み上げるため、セリフと本文の区別がつきにくいという問題もありました。そこで、今回、セリフ毎に「喜び」「悲しみ」「怒り」などの感情を自動的に推定し、感情毎に用意された声の辞書データに自動的に切り替えると同時に、本文とは別の声で読み分ける技術を開発しました。さらに、文書構造解析によりタイトルや本文、箇条書きなどの書式の区別や、文や段落、章などの構造を正確に解析し、それぞれの間で適切な長さのポーズを挿入することで、朗読の聞きやすさと理解度の向上を実現しました。

技術の特長

従来から感情を切り替えることが可能な音声合成はありましたが、人間が明示的にどの文章をどの感情で読み上げるかを指示する必要がありました。今回開発した技術では、セリフの文章毎に文脈に即した感情を業界で初めて自動的に付与できますので、手間なく任意の電子ブックコンテンツで感情豊かな朗読を楽しむことができます。本技術は、約1万文から抽出した統計データを基にセリフ一つ一つの「平静」「喜び」「悲しみ」「怒り」を推定し、プロの声優の発声から感情ごとに作成した声の辞書を選択して音声を合成します。その結果、ラジオ朗読のような臨場感と理解を高める朗読が楽しめます。

今後の展望

音声合成技術は、入力された任意のテキストを音声に変換する技術です。これまで、カーナビの音声案内やコールセンターの音声応答などで使われ、電子書籍の読み上げへの応用も始まっています。2、3年後をめどに、将来の電子ブック読み上げ機能に向けて研究開発を進めていきます。