音声合成技術で人が心地よいデジタルの世界へ

人間らしい自然な声をさまざまな場面で実現する音声合成技術の開発に携わる蛭田宜樹。学生の頃から一貫して、音声合成技術の研究に取り組んできた。未来のコミュニケーションの可能性を広げ、人が心地よいと感じるデジタルの世界を目指している。そんな蛭田にとっての“デジタル”について語ってもらった。


音声合成技術で自然な「声」を届ける


私は、研究者として、音声合成技術の調査や未来の社会に向けた研究開発に携わっています。世の中に今ある製品や技術が抱える課題を捉えて解決策の検討や評価を行ったり、未来の社会を想像して次に何が求められるのかを考察したりしています。実際に、今後の製品につながるアイデアを出してそれを洗練させ、世の中に発表する活動も行いました。

音声合成技術に興味を持ったきっかけは、高校生の頃に音声合成ソフトウェアに触れたことです。「自分が自由に考えた文章を、手軽に音声で読み上げさせられる」。この衝撃が頭から離れず、大学でも、会社に入ってからも、精力的に研究をし続けられています。

現在は、音声合成の機能をさまざまな機器やサービスで使えるように、それらに組み込むソフトウェア部品として提供している、音声合成ミドルウェア※1に向けた技術開発に携わっています。

通常、自然で安定した音声を生成するためには、そのクオリティーの高さを求めれば求めるほど、処理する計算量や辞書などのデータ量が増えていきます。しかし、カーナビのような機器では、音声合成に使用できるリソースが限られているため、その中で、いかにクオリティーを落とさずに軽快に動作できるのかが重要です。この要件は、数メガバイト程度の軽量なメモリ空間でも滑らかで良好な音声を実現する私たちの技術が解決します。私たちの技術は、長年にわたるカーナビ機器への搭載実績があり、また最近では、ゲームなどのエンターテインメント領域で活用されることも増えてきました。私は次の製品に向けてさらにクオリティーを高められるように、現行の音声合成技術の特長を伸ばす研究を、日々、積み重ねているところです。

技術開発は、何度も考え、検証し、よりよい効果を見つけ出す仕事です。設計上は問題がないにもかかわらず、ソフトウェアが想定した動作をしないことがあります。このような場合には、その原因や、どの段階まで正しかったのかを丁寧にひも解き、全体への影響範囲を冷静に考え、解決に向けた適切なアプローチを見極めなければなりません。試行錯誤を重ねた分、開発した技術には愛着がわきますし、人々の助けとなれるように活用の場を広げていきたいと強く想います。

現在、鉄道会社に当社の音声合成ミドルウェアを採用いただいている例があります※2。実際に、駅の構内や電車内のアナウンスで活用されているため、意識せずに私たちの技術に触れている人も多いと思います。また、最近では、多言語のAI通訳機にも採用いただきました※3。日本語翻訳の音声合成として、私たちが提供する、自然な音声を生成する技術と組み込み機器への実装性を評価いただけたことに、とても誇らしく思います。

音声合成に衝撃を受けたあの日の想いを胸に、一貫して技術開発に取り組み続けることができて良かったなと感じます。これからも多くの方々に私たちの音声合成技術を届けることができるように、努力を続けたいです。

※1(https://www.global.toshiba/jp/products-solutions/ai-iot/recaius/lineup/tospeak.html
※2(https://www.global.toshiba/jp/company/digitalsolution/news/2020/0715.html
※3(https://www.global.toshiba/jp/company/digitalsolution/news/2023/0314.html


AIが人の相棒となる未来へ


音声合成の技術開発に没頭する一方で、コミュニケーションの観点から見た音声の役割について、考えるようになりました。

コロナ禍により、電子メールやチャットを活用した文字ベースでのやり取りが増え、またオンラインで会議や会話を行うことが「当たり前」にもなりました。文字と音声には、それぞれのよさがあります。文字は正しく言葉を伝えますが、ニュアンスや雰囲気を伝えることが困難です。この文字だけでは得られない感情を、声によって感じることができ、また声が聞こえることで相手の存在や温度、いわゆる空気感を感じられ、円滑なコミュニケーションにつながっていくことを感じます。

音声合成技術が進化することで、人の声と同じような効果を与えられないか、さらに何か新しいことはできないだろうかと考えを巡らせています。

また世の中を見ていると、デジタル技術は、あらゆる場面に変化をもたらし、人の活動を大きく手助けしていることに気づきます。例えば、スマートフォンなどで「写真を盛る」という行為は、画像処理技術というデジタル技術が人を手助けすることで、誰でも手軽に行えるようになったと言っても過言ではありません。最近では、文章の作成やアイデア出しといった高度な知的作業を支援できる対話型AIが登場しました。ただし、現段階では、対話型AIの回答に不自然な点があるなどの課題が指摘されていることから、対話型AIを活用して高度化や効率化を図る一方で、回答の正確性や扱いは人による見極めが大切なことがわかっています。このように、人とデジタルが、それぞれの得意な分野と不得意な分野を補う関係性をつくることで、よりよいモノを得られる時代となっていく、また今後、新たなAIを活用したモノが次々と生み出されることで、人の活動の幅が大きく拡張されていくと考えています。

一方で、デジタル技術の進展により、AIに実体のようなものを持たせられる時代が到来するのではないかとも考えています。例えば、現在の対話型AIは、文字でのやりとりが主流なため、便利なツール以上の感覚を抱くのは難しいと感じています。しかし今後、ハードウェアの進化やメタバースの普及がさらに進んでいくことで、これらの技術の活用により、対話型AIに本当の人間と共同作業をしているかのような実在感を持たせられるのではないかと期待しています。

私は将来、音声合成技術の研究者として、このAIに実在感を与える開発に関わりたいと思っています。音声には「聞こえる」ことで何らかの存在を感じられる、確かな力があります。現在の音声合成技術でも、言葉を十分クリアに聞かせることはできますが、聞く人に、より人間らしい自然な声を感じてもらうためには、息づかいや笑い声といった人が持つ多様な要素が欠かせません。これらの要素を再現可能な音声合成技術でAIが話せるようになれば、AIは、身近な相棒のような、人にとって心地よい存在となり、私たちの困りごとにも人の声と遜色のない音声で応えてくれるようになると思います。今はまだ、SFのような話だとしても、研究者として変わらぬ熱意を持ち、新しいことや難しい技術に挑戦し続けていきたいです。

大切なことば

要素技術の開発に困難はつきもので、どんなに解決策を練っても、ことごとく上手くいかないことがあります。このような厳しい状況に直面したとき、無意識に思い出す大切な言葉があります。
それは、「為せば成る」です。これは、江戸時代に米沢藩主の上杉鷹山が家臣に伝えたとされている言葉で、私が子どもの頃に、空手の師匠が教えてくれました。今でも、さまざまな場面で自分の大きな支えになっているこの言葉を胸に、自身を奮い立たせ、突破口を開いてきました。これからも強い意志を持って、一つひとつの壁に立ち向かっていきたいです。

蛭田 宜樹(HIRUTA Yoshiki)

東芝デジタルソリューションズ株式会社
デジタルエンジニアリングセンター
AI・自動化技術サービス部 リカイアス技術開発担当


音声認識や音声合成などの音声技術を基にした商品をラインナップするコミュニケーションAI「RECAIUS」の中で、音声合成に関する要素技術の開発を担当。現在は、音声合成の機能を機器などに実装するために組み込むソフトウェア部品の、さらなる進化に取り組む。学生時代に触れて衝撃を受けた、音声合成への熱い想いを胸に、日々、研究開発に打ち込んでいる。

執筆:井上 猛雄

関連情報

東芝のCPS 株式会社 東芝:事例や最新動向など、東芝のCPSへの取り組みをご紹介しています
DiGiTAL T-SOUL では東芝デジタルソリューションズグループの最新テクノロジーをご紹介しています