DIGITAL T-SOUL

Vol.30 働き方の革新と豊かな暮らしをRECAIUSが実現 人とAIのつながりがもたらすデジタル社会

このページを印刷する

#03 音声合成ミドルウェア「ToSpeak Gx NEO」の活用事例 「本人性」を重視した自然で親しみのある合成音声 東芝デジタルソリューションズ株式会社 田村 正統

東芝デジタルソリューションズが取り組んでいるAIによる働き方の革新。AIが人を支援して、仕事やコミュニケーションの効率を上げることで時間の余裕を生み出し、そこで働く人々がより創造的な領域で活躍できる環境を提供しようというものです。こうした変革を支える技術のひとつが、カーナビやスマート家電、ロボット、ゲームなどでおなじみの「音声合成技術」です。さまざまな言葉や文を人工的につくりだした音声で読み上げる。この技術がさらに高度化し、人が実際に話している言葉と遜色のないほど自然な読み上げが実現すれば、生活や仕事のさまざまな場面において、親しみやすい合成音声による豊かなコミュニケーションが今以上に広がるはずです。ここでは、当社の音声合成ミドルウェアの中でも、より「本人性」に重きを置いた高品質モデル「ToSpeak Gx NEO」をご紹介。新たに開発した東芝独自の音声合成方式により、話者を選ばず、本人の声や話し方の特徴を精密に再現する画期的な音声合成技術の特長と最新の事例を解説します。

時を越え、ハクション大魔王の「声」がよみがえる

「呼ばれて飛び出てジャジャジャジャーン」。2019年5月2日午前0時、昭和の人気キャラクター「ハクション大魔王」が、ラジオから「令和元年」の時を告げました。しかし、時代を越えてよみがえった昔懐かしいその声は、故・大平透さん本人のものではありません。大平さんが過去に収録されていた音声を元に、違和感なく聴きやすいように人工的に再現された「音声合成による声」だったのです。そこで使用されたのは、東芝デジタルソリューションズの「RECAIUS 音声合成ミドルウェア ToSpeak Gx NEO(以下、ToSpeak Gx NEO)」。カーナビから始まり、35年以上もの歴史を持つ、東芝の音声合成技術を結集した「RECAIUS 音声合成ミドルウェア ToSpeak(以下、ToSpeakシリーズ)」の高品質モデルです。

ハクション大魔王のほかにも個性的なキャラクターを数多く演じてこられた大平さん。新たに音声を収録することができないため、長きにわたり多くの人に親しまれてきたその特徴的な口調を合成音声で再現することは、これまで不可能だと考えられてきました。従来の音声合成技術では、独特な口調のイントネーションを盛り込むと、その再現度合いにばらつきが出て全体として不自然になりやすく、ハクション大魔王のような特徴的な話し方の再現は難しいとされてきたからです。ToSpeak Gx NEOは、このような技術的な限界を乗り超え、大平さん演じるハクション大魔王の独特な声質や話法を精密に再現することに成功。令和元年の始まりを告げた時報は、音声合成の世界に新たなイノベーションが始まった合図でもありました。

※タツノコプロおよび一般社団法人デジタルボイスパレットの協力により実現しましたハクション大魔王のサンプルボイスはこちらでお聞きいただけます。

このページのトップへ

新方式で、声の「本人性」を徹底して追求

東芝では、元となる収録音声の音色や抑揚、リズムなどの特徴を最適に反映した合成音声を作成するため、長きにわたって音声合成技術の研究開発を進めてきました。音声合成技術の進歩は、これまで天気予報やカーナビの案内といった単調な読み上げに限定されてきた合成音声の舞台を、スマート家電やスマートフォンの対話システム、ゲームなど、生活と社会の多彩な場面へと急速に広げてきました。

ToSpeakシリーズは、こうした取り組みの結晶ともいえる製品です。日本語や英語など11言語に対応し、統計的な学習に基づいて滑らかなパラメーターを生成するコア技術を搭載。お客さまのシステムやデジタル機器などに組み込むことで、インターネット接続のない環境でも少ない消費リソースで声の特徴を短時間に収録して自動学習し、任意のテキストから自然な音質の合成音声をつくりだすことができます。

今回、大平さんによるハクション大魔王の声を忠実に再現したのは、「本人性」に重きを置いた高品質モデルのToSpeak Gx NEO。これまでに開発した東芝独自のさまざまな技術を継承し、融合させることで、音質や抑揚などを本人の発話により近づけ、再現性の高さと安定した滑らかさ、自然さを追求しました。

その技術的な特長は、人の声を精密に表現する独自の特徴パラメーターと、話者本人の声が持つさまざまな情報に応じてその特徴パラメーターを動的に選択する新しい音声合成方式。合成音声で違和感を抱きやすい言葉と言葉の細切れ感を抑え、人の声と聴き間違えるほど滑らかで流暢(りゅうちょう)な発話を実現し、特徴的なフレーズもリアルに再現できることです(図1)。

図1 ToSpeak Gx NEOの音声合成方式

さらに他の話者や、テンションの異なる声など、いくつかの声を補間した声を合成することや、話す速さ、声の大きさや高さ、太さなどのコントロールも自在です。話者によらず自然に合成できるため、たとえハクション大魔王のように特徴的な声でも、サンプルデータを用意できれば、まるで本人が話しているかのような音声をつくりだし、さまざまなシステムや機器に組み込むことが可能です。

このページのトップへ

多様な分野のコミュニケーションを支援

田村 正統

ToSpeak Gx NEOはリリース以来、その性能が高く評価され、既にさまざまな商品やサービスで活用されています。

そのひとつが、ソースネクスト株式会社様が開発された夢のAI翻訳機「POCKETALK(以下、ポケトーク)」の最新機種である「POCKETALK W(以下、ポケトークW)」での活用です。

ポケトークは、それに話しかけると、そこに通訳者がいるかのように瞬時に翻訳し、翻訳結果を音声とテキストで返してくれる、手のひらサイズで卵型の機器。お互いに対話の相手が使う言語を話せなくても、容易にコミュニケーションをとることが可能です。

ソースネクスト様ではポケトークWの開発にあたり、外国語から翻訳した日本語をより高い性能で発話させる音声合成エンジンを模索されていました。そんな中、同社は、ToSpeak Gx NEOが持つ日本語の滑らかさや流暢さといった性能の高さと、手元の機器(ポケトークW本体)に実装でき、遅滞なく応答できる点を高く評価。日本語の音声合成エンジンに採用し、人の声に忠実かつ自然な合成音声を実現されました。

特定の話者の声に似せた合成音声(カスタムボイス)を短期間で作成できるToSpeak Gx NEOの利点を生かし、声優や著名人などの声をさまざまな場面で活用した事例もあります。

例えば、株式会社ブックウォーカー様の「進化型おしゃべりアプリISEKAI」は、人気声優の高橋李依さんが演じる「この素晴らしい世界に祝福を!」の主要キャラクター「めぐみん」との会話を楽しめるアプリケーションです。ToSpeak Gx NEOは、めぐみんの声を合成音声で忠実に再現。アニメの世界観を損なわず、自然な声で流暢に台詞をしゃべっています。

このめぐみんの合成音声は、実際の声優さんに協力していただき、いくつかのフレーズを数日かけて録音し、声質や韻律を機械学習させて作成したものです。AIとの対話内容や日々変化するコンテンツ、ユーザーの名前など、あらかじめ用意できない内容にも、声優や著名人の方々本人の声さながらの音声を手軽に利用できる便利さは、声優やアナウンサーの仕事を拡張し、新たなユーザー体験を広げる合成音声の活用スタイルとして大きな期待を集めています。

東芝デジタルソリューションズでは今後、ToSpeak Gx NEOの多言語化を進めるとともに、エンターテインメント分野はもちろん、教育や介護、コールセンターといったさまざまな場面で音声合成技術の活用を促進。人とAIが共存する豊かな社会の実現に向けて、自然で親しみやすい合成音声によるコミュニケーションを、生活と仕事のすみずみにまで広げていきます。

このページのトップへ

※この記事に掲載の、社名、部署名、役職名などは、2019年8月現在のものです。

関連記事Vol.30:働き方の革新と豊かな暮らしをRECAIUSが実現 人とAIのつながりがもたらすデジタル社会

このページのトップへ