デジタルで豊かな社会の実現を目指す東芝デジタルソリューションズグループの
最新のデジタル技術とソリューションをお届けします。

家電やカーナビゲーションをはじめ、音声を用いてユーザーに情報を伝えるコンシューマー向けの機器には、多種多様なものがあります。例えば、電車やバスの車内アナウンスや、スマートフォンアプリやゲームに登場するキャラクターのセリフ。これまでは、人が話した言葉を録音してさまざまな機器で音声を再生していましたが、近年は進化した音声合成の技術によって、人工的に作られた合成音声が利用される場面が増えています。東芝は、この音声合成技術に長年にわたり取り組んできました。より自然で質の高い音声を作り出すために、多くの基本技術を開発しています。ここでは、音声合成に関連する社会動向や東芝の技術の特長、製品開発の最前線、今後の世の中へ向けた展望などについて、3回の連載で解説します。

第1回では、音声合成の利用シーンや基本となる技術、そして東芝の独自技術とその特長を解説しました。今回の第2回では、世の中のさまざまな機器やサービスへ音声による応答機能を提供している、音声合成ミドルウェア「ToSpeak」をはじめとする東芝の音声合成SDK製品を紹介します。


音声合成SDK製品とは何か?―その仕組みと活用方法


東芝の音声合成技術には、任意のテキストから自然で人間らしい滑らかな音質の合成音声を生成でき、かつ、その処理に必要なメモリサイズや計算量を小さく抑えている特長があることを、第1回の記事で説明しました。私たちは、この独自の音声合成技術を、世の中のさまざまな機器やサービスで手軽に利用できるように、音声合成SDK(Software Development Kit)製品(以下、SDK製品)として提供しています。

利用者は、自社の製品やサービスのアプリケーションプログラムからAPI(Application Programing Interface)を介して、入力テキストから音声データを生成したり、発音記号に変換したりするような音声合成機能を利用できます。このように、アプリケーションプログラムが利用するミドルウェアとして、言い換えれば、お客さまの製品やサービスのソフトウェア部品として、東芝の音声合成技術を利用することができるのです(図1)。

SDK製品は、「エンジン」と「辞書」で構成されています。エンジンは、音声合成に関するさまざまな機能を提供するAPIライブラリーです。また辞書には、各言語の語句の読み方や読み方を変化させる規則などを表現した「言語辞書」と、話者によって異なる音色や話し方などを表現した「韻律制御辞書」および「音声素片辞書」があります。

音声合成に関する各種機能は、APIライブラリーに含まれている関数の中から目的の機能を提供する関数を呼び出すことで利用できます。機能には、「入力された任意のテキストから、音声データや発音記号列を生成する」「音声データの話速や声の高さを変更する」といった基本的な機能をはじめ、「記号を読むのか、読まないのか」「数字の読み方は棒読みなのか、桁読みなのか」などを設定するといった副次的な機能、さらには指定した2つの声を基に、「それらの中間的な声を設定する」「徐々に声を変化させる」といった拡張的な機能もあります(SDK製品によって、利用できる機能は異なります)。

また、入力するテキストの言語は、言語辞書を切り替えることで指定でき、さらに合成音声の話者(音色と話し方)は、韻律制御辞書と音声素片辞書を切り替えることで変更できます。これら辞書の切り替えによって、音声合成の機能を搭載する製品やサービスに対し、それぞれふさわしい音色と話し方による音声応答を付加することができるのです。


歴代の音声合成SDK製品


東芝のSDK製品には、音声合成方式の異なるさまざまなものがあります。これらの製品は、その方式の違いによって、実行に必要なリソース量や、ターゲットとなる稼働環境(プラットフォーム)が異なります。いずれの製品も、提供を開始した当時の一般的な製品と比べて省リソースでありながら人間の声としての自然さ(肉声感や明瞭性など)に秀でています。

また音声合成は、一般の消費者が使用する製品やサービスの発話機能として導入されるケースも多く、応答の適時性の観点から、発話を開始するまでの時間が短いことも大切です。このため、入力テキストに対応する合成音声波形(合成音声データ)を指定された分量だけ逐次的に生成して(最初は先頭の合成音声データを生成し、以後は前回に続く箇所の合成音声データを生成して)、都度、アプリケーションプログラムに引き渡す仕組みがあります。これによって、アプリケーションプログラムは、入力テキストに対応する合成音声データ全体を生成するのにかかる時間を待たずに、合成音声データを再生し始めることが可能となります。

ここからは、東芝がこれまでに提供してきた歴代のSDK製品について紹介します(図2)。
ここで登場する各音声合成方式は、第1回で説明しています。

・CLT(Closed Loop Training)方式による音声合成ミドルウェア

閉ループ学習方式を用いた韻律と音声素片の学習により、それまでエンジニアが個別に行っていた不自然な韻律と音声素片の調整が不要なうえ、安定した品質の合成音声を生成できるようになった製品です。リソースが潤沢ではなかった1990年代後半の機器で十分に稼働したことから、音声合成技術の実用化を大きく進めました。車載機器などの組込み機器を中心に採用された製品です。

・ToSpeakG1、ToSpeakG2

音声波形を生成する音声信号生成部に、複数素片選択融合方式を採用した製品です。合成音声の明瞭性と、手本にした話者の声質の再現性が高い特長を持ちます。この方式は、あらかじめ複数個の音声素片を融合して格納した汎用性の高い音声素片の中から、コンテキストの近い音声素片を選択し、合成音声を生成する仕組みです。合成に必要な音声素片の量を減らせたことで、さまざまな組込み機器で活用されました。また、再現性の高い声質の実現により、特徴的な声を持つ有名人をまねた「似声」の活用の始まりに貢献した製品でもあります。

・ToSpeakG3

隠れマルコフモデル(Hidden Markov Model:HMM)という、統計モデルに基づく音声合成方式を採用した製品です。韻律や声質を、パラメーターの操作によって柔軟に変更できる特徴を持ちます。これにより、複数の声質や話し方の「中間の声」の生成ができ、また手本とする話者の声への適応を低コストで安定して行えるようになったことで、合成音声の多様性が向上しました。省リソースでありながら安定した声質を実現するとともに、多言語への対応も進みました。現在も、多くの組込み機器で利用されています。

・ToSpeakGx Neo

統計的学習による音響モデルに基づくパラメーター選択方式を採用した製品です。ToSpeakG3の特長である声質の安定性や再現性、可制御性を維持しながら、音質を大きく向上しました。これにより、従来の組込み製品への搭載に加えて、これまで人が担当していたアナウンスやガイダンスの代替として合成音声が活用されるケースも増えました。いまでは、合成音声を生成して音声ファイルを作成するアプリケーションでの利用も進んでいます。

・ToSpeakHx、ToSpeakHx Pro

深層学習(ディープラーニング)に基づく音声合成方式を採用した製品です。合成音声の品質が格段に向上し、「この人の声」というニーズにも応えられるほど、話者それぞれの声に対して高い再現性があります。東芝独自のDNN(深層ニューラルネットワーク)のコンパクト化技術を適用して省メモリ化を実現したことで、組込み製品への搭載も可能になりました。また、これまでの製品と同様に、合成音声の逐次的な生成も可能です。2025年現在における、東芝のSDK製品のハイエンドモデルです。

 

東芝のSDK製品は、音声データの生成を担うソフトウェア部品としてお客さまの製品やサービスに組み込む形態で活用されています。例えば、ハードウェア製品では、カーナビゲーションのような車載機器や家庭用の電化製品などに、またソフトウェア製品では、ビデオゲームソフトやスマートフォン用のアプリケーションなどに数多く採用されています。音声合成方式の世代交代を行いながら、約30年間にわたって、組み込む対象となる製品やサービスの稼働環境や、そこで使えるリソース、求められる性能などの要件を満たしつつ、SDK製品として進化を続けてきました。

 


辞書が拓(ひら)く音声合成の表現力


SDK製品の重要な構成要素である、「辞書」について説明します。辞書には、入力された任意のテキストを正しく読むために用いる「言語辞書」と、手本とした話者の声の特徴(音色や話し方)を再現するために用いる「韻律制御辞書」および「音声素片辞書」の3種類があります。

言語辞書には、各言語において一般的な語句の読み方や読み方を変化させる規則などを表現した「システム辞書」と、固有名詞や専門用語といった一般的ではないが特定の地域や領域において典型とされている読み方を優先させるために利用する「ユーザー辞書」があります。ユーザー辞書の整備には、各語句の典型的な読み方に関する知識が必要です。そのため、通常は、東芝から提供するツールを用いてSDK製品の利用者が整備します。ただし、地名や楽曲名といった需要の高い一部の領域に関する辞書は、東芝が整備したものを提供でき、さらにはサービスとして利用者からの要望に応じた辞書の整備作業も提供しています。

韻律制御辞書は、入力されたテキストに含まれる言語情報から、手本とした話者のアクセントやイントネーション、リズムなどのパターンを再現するために利用します。アクセントやイントネーション、リズムには、言語的な意味の違い(調音単位の境界や核の位置など)を表現する以外に、感情や意図、態度、くせといった話者の調子に関する情報も含まれています。

また、音声素片辞書は、入力されたテキストの音韻に関する情報と、韻律生成部で生成した韻律に関する情報から、手本とした話者の音色や調子といった声色を再現するために利用します。声色には、言語的な意味の違い(音韻など)を音声波形で表現する以外に、話者の調音特性(個々人の声の違い:音色)や、話者の調子による音色の変化などの情報も含まれています。

音声合成技術の進化とともに音声の精緻な表現ができるようになり、話者の調音特性や話し方のくせの再現性が高まりました。しかしそれでも、合成音声に込めたい感情や意図、態度を1つの文章のテキストから推定することは困難です。また、韻律制御辞書と音声素片辞書は、「話者Aさんの朗読調の辞書」といった特定の話者および想定する話し方を対象として開発されています。このため、お客さまは、目的と用途に相応しい合成音声の音色や話し方を検討したうえで、辞書の選択や使い分けが必要となります。また、お客さまの要望に応じた辞書の拡充も可能です。

各SDK製品で利用する韻律制御辞書と音声素片辞書(あわせて、「音声辞書」と呼称する)には、標準辞書、オプション辞書、そしてカスタム辞書という3つの種類があります。

まず標準辞書は、各SDK製品がターゲットとする用途において、汎用的に使用できる音声辞書です。男女各1名分の辞書を準備しています。落ち着いた印象を与える音色を持つナレーターに、ターゲットとする用途にふさわしい話し方で収録用の原稿を読んでもらい、その収録音声を用いることで話者(=ナレーター)の感情や意図、態度、くせといった特質も含めた音声辞書を作成します。

次のオプション辞書は、汎用的ではないものの、印象の異なる声色や話し方が求められる場合を想定し、準備している音声辞書です。特定の用途に向いている音色を持つナレーターや声優に、その用途にやや特化した話し方で読み上げてもらった収録音声を用いて開発します。SDK製品がターゲットとする用途において声(音色)のバリエーションを増やす目的で開発することが多く、より目的に合わせた特徴的な音色や話し方を志向する場合はカスタム辞書を準備します。

最後のカスタム辞書は、お客さまと共に開発する音声辞書です。聞き手に与えたい印象をお客さまと相談しながら話し方を調整したり、その話し方を保ちやすい原稿に変更したりして、お客さま指定のナレーターが読み上げた音声を収録して開発します。用途を明確にしてナレーター(音色)を決め、用途を踏まえた話し方で調子をそろえることで、お客さまの製品やサービスの目的に合致した印象を、より聞き手に与えられる合成音声を生成できるようになります。ただし、お客さまの製品を利用するユーザーの状況や場面に応じて感情や意図、態度を変更する必要がある場合(複数の設定を準備して、音色や話し方を使い分ける必要がある場合)には、必要な場面ごとに音声の収録と音声辞書の開発を行い、複数の音声辞書を使い分けます。これにより、それぞれの場面で適切な印象を与える音声応答を実現できるようになります。

このように、肉声感や明瞭性のような、話者や用途によらない合成音声の品質に関わる要素とは別に、お客さまの製品やサービスにふさわしい「声」への適合という観点においても音声辞書(韻律制御辞書や音声素片辞書)は重要な要素です。加えて、それらの辞書のデータサイズ、各辞書に格納されている各種データの内容とサイズ(各データに割り当てるビット数と格納数)などは、実行時に必要となるメモリ量や処理量を考慮して開発しています。

東芝は、長年にわたり音声合成技術の基本方式や新たな機能の開発、音声の品質の改善を続けながら、さまざまなハードウェアやソフトウェアに組み込んで利用できるSDK製品を提供しています。今回は、SDK製品の構成要素と共に、現在提供している音声合成ミドルウェア「ToSpeak」のラインアップ、そして歴代のSDK製品を説明しました。このように、東芝のSDK製品は、合成音声の“質”と“個性”の両立を支える仕組みを備えています。

次回は、音声合成技術を利用する際に考慮するべき話者や音源の権利関係について、世の中の動きや今後予想される動向も踏まえて解説します。ぜひご期待ください。

西山 修(NISHIYAMA Osamu)

東芝デジタルソリューションズ株式会社
デジタルエンジニアリングセンター リカイアスビジネス推進部
エキスパート


東芝に入社後、音声合成技術の研究開発に従事。2012年からは、音声認識や音声合成の技術を活用した製品およびサービスの拡販に携わる。現在は、音声技術の商品企画にも取り組んでいる。

  • この記事に掲載の、社名、部署名、役職名などは、2025年8月現在のものです。
  • この記事に記載されている社名および商品名、機能などの名称は、それぞれ各社が商標または登録商標として使用している場合があります。

>> 関連情報

関連記事