“製・販・技”一体の態勢で顧客に迅速に対応
大ヒット商品「ポケトーク®」が採用した
音声合成ミドルウェア「ToSpeak™ Gx NEO」

 東芝デジタルソリューションズ(以下、東芝)のRECAIUS音声合成ミドルウェアToSpeakGx NEOがソースネクスト株式会社のAI翻訳機「POCKETALK(ポケトーク)W」に搭載され、大ヒットしている。ToSpeakGx NEOが採用されたきっかけは、製造・販売・技術が一体となった展開だった。

ToSpeakGx NEO搭載で、自然な日本語発話が可能に


 東芝は、ToSpeakGx NEOを開発。数々の課題を乗り越え、ToSpeakGx NEOを搭載した同社の「POCKETALK W」が2018年12月27日にリリースされた。ToSpeakGx NEOを採用したことによりポケトークの日本語は今までの機械的な音声から、人の音声に忠実かつ自然な発話ができるようになった。

 ポケトークはお互いに相手の言語を話せなくても、通訳がいるように対話できる手のひらサイズの音声翻訳機だ。翻訳はクラウド上のエンジンを使うためいつでも最新で、言語ごとに最適な翻訳エンジンを利用して、英語はもちろん、中国語、韓国語、ロシア語、タイ語、ベトナム語など74言語のうち、任意の2言語でコミュニケーションできる。

プロダクト&サービス事業推進部 プロダクト&サービスソリューション営業部 営業第四担当
竹内 潤

 2017年10月に発売された初代のポケトークは発表直後から量販店や同社のオンラインショップに予約が殺到、一時は入荷待ちの状態に陥った。インバウンド需要に対応する製品として、大きな注目を集めていた。

 これに着目したのが、音声合成ミドルウェアToSpeakのロボットなどへの組み込みを中心に営業活動を展開している東芝デジタルソリューションズ プロダクト&サービス事業推進部 プロダクト&サービスソリューション営業部 営業第四担当の竹内だった。「私は他の営業と違い、既存のお客さまの担当だけでなく、新規のお客さまの開拓もしています。世間でポケトークが話題になっていたことから、ソースネクスト様にコンタクトを取り、2018年6月に訪問の機会を得ることができました。その際に執行役員の方とお会いすることができ、次号機の開発にあたって、自然な日本語発話ができる東芝のToSpeakGx NEOを採用したいという話になったのです」。

新規開拓の中でコンタクト、要望に迅速対応


 クラウドやサーバーなどさまざまな利用方法がある東芝コミュニケーションAI「RECAIUS™」の製品群の1つである音声合成ミドルウェアToSpeakは、端末に組み込んで任意のテキストから対応する合成音声を生成するタイプのもの。サイズが小さく処理も軽いので、消費リソースが小さく、声質や抑揚など声の特徴を短時間の収録で学習できる点が特長だ。その中でもToSpeakGx NEOは最も新しい技術で、肉声に近く、自然で滑らかな声を実現する。

 今回、竹内とともに同社へToSpeakGx NEOの提案活動を行ったのがRECAIUS事業推進部 営業部 営業第二担当の西山である。西山は技術的な知識をもとに顧客に商品を紹介する役割を担っており、かつて研究開発センターにいた時には音声合成の研究に携わっていた。「私が担当しているのはRECAIUSの中の組み込み製品群全般なのですが、今回、竹内から状況を聞き、ToSpeakGx NEOをソースネクスト様に紹介しました」と西山は振り返る。

 2人が最初に紹介したのはToSpeakG3だったが、同社が高く評価したToSpeakGx NEOに提案内容を変え、さらに同社の要件に合うような形に変更を加えていった。「ToSpeak G3にはまだ合成音らしい部分が残っているのですが、ToSpeakGx NEOになると、ほとんど人の声と同じです。コミュニケーションツールとして使うので、ソースネクスト様からは人の声に近い、最高の音声品質の製品を求められました。ToSpeakGx NEOの音声をデモで流した時に、執行役員の方から『これって人の声じゃないのですか?』と間違えてもおかしくないくらいに良い意味でご評価していただき、採用が決まりました」(竹内)。

サポート環境外であることが判明、急きょ開発を依頼


 実は、ToSpeakGx NEOの採用が決定した2018年10月段階では、同社から提供されたハードウェア仕様は、当時ToSpeakGx NEOがサポートするものと合致していたが、11月になり、ハードウェア仕様に起因するソフトウェア上の制限仕様によって、現バージョンがサポートする稼動環境ではないことがわかった。

 「サポートする稼動環境の追加は、バージョンアップする機会でもなければ、すぐにできるものではありません。ところが、幸運なことに、ToSpeakGx NEOの一部処理を変更するサブバージョンアップの計画があったのです。そこで、ポケトークに搭載できるようにすべく商品企画の担当者にサポートする稼動環境を追加し、製品検証もあわせて実施してもらうことにしたのです」(西山)。

“製・販・技”の連携と、ユーザー目線での提案


 元々、ToSpeakGx NEOはPCやサーバー、タブレット上で動作する製品で、PCやタブレットのCPUの処理能力を前提に開発されている。それをポケトーク端末で動作させることにしたため、使い方の工夫も必要になる。製品化された時に不具合になる可能性があったため商品企画担当より、先行して実施された検証結果を分析してもらうことにした。事前に問題が起きるかどうかを確かめ、問題点を解消する使い方などの資料を作成したのである。

 「よかったのは“製・販・技”一体のチーム編成だったことでした。開発を依頼する時も、隣の席に座っているので気軽に話をすることができました。そんな中、『ちょうどサブバージョンアップという形で製品開発を進めているので、同社の仕様も考慮する事も、今決断してもらえれば不可能ではない』と聞いたのです。そしてまさに渡りに船とばかりに、開発部に依頼して今回の案件にも展開できるようにしてもらうことが出来ました」と西山は語る。

 竹内にとっても、コミュニケーションがとりやすい態勢になっていたのは大変都合がよかった。「技術担当社員を2人ほど連れて行きましたので、ソースネクスト様も本音で話をして下さいました。そのため私たちも色々なことを包み隠さず、ざっくばらんに会話をすることで、極めて短い期間で実装まで進むことができました。実際にポケトークを使うユーザーの目線に立って、最も人の声に近い自然な声を発話できるToSpeakGx NEOを選びました」(竹内)。

RECAIUS事業推進部 営業部 営業第二担当
西山 修

研究者の商品化まで意識した取り組みが、ToSpeakGx NEOを生み出す


 東芝がToSpeakG3からToSpeakGx NEOへといち早く進化させることができた理由は、研究開発センターにもあった。東芝では、商品化までを視野に入れて研究開発に携わっている研究者がいるのだ。端末に搭載するミドルウェアでは、処理量やメモリサイズを小さくする必要があるが、研究員は音声処理の方式を研究するだけではなく、例えば低ビットマイコンでの動作を可能にするなど適用する商品を意識した上で、サイズやパフォーマンスを見ながら、最高の品質の実現を考えている。

 加えて、ごく近い将来の製品化計画はなくても、先行して開発している技術を顧客に提示してヒントも得ようとする。研究者は営業部の技術担当や設計開発担当と一緒に客先に出向き、客先から直接意見を聞いたり、確認したりする風土が根付いていることも大きい。

 こうして、ToSpeakGx NEOを搭載した「POCKETALK W」は自然な日本語発話を実現、翻訳専用端末として性能・機能が充実し、使いやすさも増した。今では個人ユーザーだけでなく、飲食店、小売店などのサービス業や鉄道会社などの接客・コミュニケーションツールとしても活用されるようになっている。

同社では、2019年1月「2018年日経優秀製品・サービス賞」最優秀賞など数々の賞を受賞する結果となった。

日本語以外の言語対応や他の商品への展開を目指す


 今回、半年という短い期間でありながら、高い評価を得ることができたのは、同社のスピード感に東芝が対応したことも大きな要因だ。

 「お客さまがお急ぎでしたので、Face to Faceで先方の皆さんとコミュニケーションできたことがよかったと思います。技術的にいくら優れていても、お客さまのスピードについていけないと、商談としてはまとまりません。「POCKETALK W」という大ヒット商品を当社の技術が支えていると思うと、大変嬉しく思います」と竹内は言う。

 西山は「日本語以外の言語にも対応できるようにするとともに、他の商品への展開を図っていきたいですね」と今後について熱く語る。

 これからも東芝の確かな技術力と“製・販・技”一体の態勢は、人々の生活をより便利にし豊かな社会を実現していくことだろう。

  • 「ポケトーク®」はソースネクスト株式会社の登録商標です。

SOLUTION FOCUS

音声合成ミドルウェア「ToSpeak™ Gx NEO」

テキストを用意するだけで音声内容を手軽に入力。お客様の機器やシステム、スマートフォンやタブレット上のアプリケーションソフトウェアに組み込んで、自然な声の発話機能を付加できます。ナレーション収録で、声優やオリジナルの声から合成音を生成し、良質な音声を小さなメモリサイズで提供します。
ToSpeakGx NEOは、ほとんど人の声と同じに再現できる高品質モデル。自然で流暢な発話を実現します。

この記事内における数値データ、社名、組織名、役職などは2019年2月の取材時のものです。