機器組み込みやオフライン利用で軽快に動作する高性能な音声ミドルウェア

このページでは JavaScript を使用している部分があります。お使いのブラウザーがこれらの機能をサポートしていない場合、もしくは設定が「有効」となっていない場合は正常に動作しないことがあります。

デジタルで豊かな社会の実現を目指す東芝デジタルソリューションズグループの
最新のデジタル技術とソリューションをお届けします。

DiGiTAL T-SOUL

トップ

技術解説

動画

バックナンバー

お問い合わせ

DiGiTAL T-SOUL

お問い合わせ

トップ

技術解説

動画

バックナンバー

トップ

技術解説

動画

バックナンバー

音声技術は、さまざまな応用分野やシーンで、ユーザーに便利さや快適さを提供するヒューマンインターフェースの構築に使われる技術です。長く研究開発が続けられてきた技術領域で、最近では特に実用性能の大幅な向上により、これまで手で操作していた機器を「音声」で操作したり、逆に、機器から「音声」で情報を受け取ったりする場面が増えてきています。その一方で、音声技術を実際に活用しようとすると、応答が返るまでの時間の長さや、実環境での音声の検出や合成音声での読み上げの性能、機器に組み込めるメモリサイズや計算量かなど、注意を払うべき課題がいくつもあります。東芝は、長年にわたり研究開発してきた高性能かつ省リソースという特長を持つ音声認識と音声合成の技術を、さまざまな機器やサービスに組み込んで利用できる機能部品としてのソフトウェア「RECAIUS 音声ミドルウェア」を提供しています。ここでは、RECAIUS音声ミドルウェアの特長と車載分野での取り組みをご紹介します。

アクセシビリティ―の向上に音声技術が注目される

近年、「音声」を使った機器やサービスが、人々の生活の中に増えてきています。ここ数年で身近になったスマートスピーカーは、「ウェイクアップワード」と呼ばれる決められたワードの発声の検出をトリガーに、音声を使ったさまざまな操作が行えるものです。具体的には、ウェイクアップワードに続けて音声で指示した内容により、音楽の再生や、情報の検索、さらには家の照明をつけたり消したりすることなどが可能となります。また、カーナビやスマートフォンの音声操作機能は、手軽に利用できるようになったことで人々の身近な存在になりました。ほかにも、認識した音声を翻訳し、合成音声で伝えるポータブル翻訳機器なども販売されています。このように、音声認識や音声合成の技術は、世の中のさまざまな機器やサービスにおいて、ヒューマンインターフェースの構築に活用されています。

また音声は、アクセシビリティー（利用のしやすさ・アクセスのしやすさ）の観点からも注目されています。例えば、自動車の運転中など手が離せない場面で、音声での機器操作や、音声を使って状況を把握するなどのアクセシビリティーの確保が求められています。このような音声への対応は、ユーザビリティー（使いやすさ・使い勝手）の向上だけでなく、視覚に障がいを持つ人などへのサービスの提供にも寄与しています。

スマートスピーカーなどの機器の多くは、ユーザーが自由に発話した言葉を受け付けるためにクラウド側での処理に重きを置いた音声認識を活用しています。そこで機器は、マイクから取り込んだ音声データを、インターネットを介してクラウドとやり取りできることが前提となっています。このような仕組みから、インターネットの接続状態によっては、ユーザーからの要求に応えるまでに時間を必要としたり、機能が制限されたりする問題があります。応答時間の遅延や機能に制限が生じる状況は、ユーザーが戸惑う要因になることはもちろん、機器の用途によっては安全性にかかわるため、これらのような状況の発生は極力避けたいものです。

そこで、音声認識や合成音声をユーザーがストレスなく便利にさまざまな場面で使えるように、東芝は、音声認識および音声合成の機能を持つ「RECAIUS音声ミドルウェア」を提供しています。

東芝のAI技術のノウハウと実績から生まれた利便性の高い音声ミドルウェア

当社の音声ミドルウェアは、ユーザーの手元にある機器に組み込み、クラウドにつながないオフラインの環境でも、単独で音声認識や音声合成の中核機能を提供するソフトウェア部品です。一般に音声認識や音声合成の機能は、ユーザーインターフェースに活用されることが多いため、応答が早く軽快に動作することはユーザーに大きな価値をもたらします。クラウドを活用するよりも圧倒的に早い応答スピードと、インターネットに接続できない環境でも使えることは、当社の音声ミドルウェアの特長と言えます。

実際に、ユーザーの手元の機器に音声認識や音声合成の機能を搭載する際には、音声を処理するために必要なプロセッサーの計算能力や、プログラムやデータを置くメモリの容量に余裕があることなどが求められます。

当社の音声ミドルウェアは、東芝の長年にわたる音声AI領域の研究開発で培われた技術を活用しています。これにより、音声認識や音声合成の処理に必要な計算量をコンパクトにし、また辞書や音響モデルなどのデータが必要とするメモリサイズを小さくすることができました。計算量が小さく中堅の汎用プロセッサーで動作できることから、すでに機器に搭載されているハードウェアリソースに音声認識や音声合成の機能を導入できます^※。ハードウェアのコストやその交換にかかる時間などを抑制できる効果があります。

※音声ミドルウェアを搭載する機器には、汎用プロセッサー上のソフトウェアが持つ機能を実行できる能力が必要です。

このような省リソースの実現により、音声認識や音声合成の主要な処理をクラウド側にゆだねることなく、ローカル側の機器単独で動作できる特長を持った、この音声ミドルウェアは、音声認識や音声合成のAPI（Application Programming Interface）として利用できます。

また、およそ30言語^※をサポートしているため、海外に向けて商品を開発する国内の企業はもちろん、文法や単語などの言語的な性質が西欧言語同士ほどには似ていない日本語における長年の音声技術の蓄積を背景にしたものであることから、日本市場に向けて商品を開発する海外の企業にとっても安心できる使いやすい音声ミドルウェアです。

※対応言語は、製品バージョンにより異なります。

当社では、このような機能の提供に加え、使いこなしに不安のあるお客さまに対して技術的なサポートも行っています。一般に、音声認識の性能は、それを使用する場面の周囲の音などを含む音響環境に大きく影響されます。また、音声合成を使ってテキストを音声化する際には、単語の読み方や間の取り方を調整するだけでも聞き取りやすさが変わります。当社の音声ミドルウェアには多くの導入実績があり、そこで蓄積してきたさまざまな機器への組み込みに関する知見やノウハウがあります。そのため、性能を引き出す「使いこなし」のサポートが可能です。

このような特長を持つ当社の音声ミドルウェアは、音声認識と音声合成のそれぞれの機能を提供する2種類を用意しています。

音声認識ミドルウェアは、マイクから取り込んだ周囲の音も含むその場の音の波形データから、あらかじめ設定したキーワードを発した音声（以下、キーワード音声）を検出する機能を持つ、「RECAIUS 音声認識ミドルウェアボイストリガー（以下、ボイストリガー）」です。また音声合成ミドルウェアは、テキストデータを合成音声に変換して読み上げる「RECAIUS 音声合成ミドルウェア ToSpeak（以下、ToSpeak）」です。

機器への組み込みに適した「ボイストリガー」と「ToSpeak」

ユーザーの発話からキーワード音声を検出するボイストリガーは、ディープラーニング技術による高い検出性能と省リソース（小さい計算量とメモリサイズ）に加え、速い応答性を実現しています。体感的には即応レベルで、キーワード音声を発話してすぐのタイミングで検出します。

また、ボイストリガーには複数のキーワードを設定できます。そのため、機器への操作要求に該当する言葉それぞれをキーワードとして設定すれば、ユーザーがその一言を発するだけで求めた動作が行われます。もしユーザーの発話が、キーワードの前後に別の言葉を連ねたフレーズの場合でも、ボイストリガーがキーワード音声を検出して求めた動作が行われるため、ユーザーにとって楽で便利な仕組みです（図1）。

さらに、ユーザーが自由に発話した言葉（自由文）を音声認識させたい場合には、クラウドサービスとの連携も可能です。音声認識の処理をボイストリガーからクラウドサービスに切り替えるために、ボイストリガーのキーワード音声検出を使います（ウェイクアップワードとしての活用）。

例えば、「はいリカイアス」をボイストリガーが検出したら、その後の自由な発話をもとにした情報の検索などはクラウドサービスで行うイメージです。これにより、ユーザビリティーを低下させずにお客さまのニーズに応えることが可能になります（図2）。

ボイストリガーは、パソコンやスマートフォンなどの典型的な動作環境に向けた基本機能を備える既製の標準製品と、車載用途向けとして基本機能に加えて車内の環境に特化して機能を強化した受注生産品の2種類を用意しています。車載用途向けでは、車への同乗者の声や車載のスピーカーから聴こえるラジオの音のような「重なる声」への誤反応を抑制する機能を備えるほか、走行音のような走行中に加わりやすい「背景音」により非常にノイズレベルが高くなる環境での音声認識の性能を強化した音響モデルを開発しました。

※ご提案する際の音響モデルの内容は、製品バージョンや言語により異なります。

このように、専用のボイストリガーを用意することで、ノイズレベルの高い環境でも高い性能を発揮します。車載用途向けのボイストリガーは、量産されているカーナビにも搭載されている実績があります。

また、音声合成の機能を提供するToSpeakには、カーナビなどの車載機器に搭載してきた20年以上の実績があります。最近では、ゲームなどのエンターテインメント領域で応用され、声優などのカスタムボイスとあわせて活用いただくケースも増えています。カーナビの機能を持つスマートフォンアプリやポータブル翻訳機にも採用されているため、ToSpeakによる合成音声をどこかで耳にしている方も多いと思います。

一般に、テキストから音声への変換に必要なメモリサイズの半分以上は、声の音色やリズム、イントネーションといった話者により異なる声の特徴を表現するための「声のデータ（声辞書）」が占めます。ToSpeakには、小さいサイズの声辞書と、非常に滑らかで良好な音質という、互いに性能が影響し合う2つを兼ね備えている特長があります。

ToSpeakには、安定した音質を少ないメモリサイズで実現して機器への組み込みに向いている「ToSpeakG3」と、より話者性を高めて自然な声質の合成音声を提供する「ToSpeakGx Neo」があります（図3）。お客さまの用途によって選ぶことができます。

「即応性」と「自律性」が車載の要

自動車業界ではいま、自動運転に向けた技術開発が急速に進んでいます。自動車には多くのセンサーが搭載され、センサーが得た自動車自体の状況変化や、天候や道路、事故といった周囲の状況、さらにはこれらを総合的に判断した内容や提案を車両からドライバーに素早く伝えるケースも増えていくでしょう。

音声によるやり取りは、運転中のドライバーに安全と安心を与えるものです。車両が、ドライバーに指示を求めたり、ドライバーから指示を受けたりする場面では、音声インターフェースが素早く応答する「即応性」とインターネット環境に依存せず単独で動作する「自律性」が、非常に重要になります。例えば、応答がワンテンポずれると走行中の車はそれだけ先に進むためドライバーの不安につながり、インターネットに接続されているかどうかで使える機能の範囲が変わるようでは運転への集中力が削がれるからです。

また、車両が提供する多くの機能の中からよく使う機能を簡単に呼び出せる、いわゆる「ショートカット」の機能に音声認識の活用が有効だと考えています。車両としての基本機能のほかに、今後、自動運転に向けてさまざまな機能がますます増えていきます。

このような状況において、適度によく使われる機能は、画面に表示されるメニューの中から選択するよりも、ボイストリガーを活用して音声による「ショートカット（キーワード）」で呼び出すほうが便利です。また車両からドライバーへの声掛けや、ドライバーからの指示に対する応答など、車両が発する音には、単純にテキストを音声化するだけでなく、状況に応じて声のトーンを変えることも有効でしょう。これは、ドライバーと車両とのやり取りが増えるにつれて重要性が増す要素のひとつであると考え、当社はさらに心地よい合成音声へとToSpeakを進化させていきます。

さまざまな業界において、音声を活用した機器やアプリケーションが、今後ますます増えていくでしょう。東芝は、時代のニーズを捉えるとともに、これまで培った音声技術の知見とノウハウを生かして開発したソリューションで、多くの企業や社会に貢献していきます。