高精度な音声認識・音声合成技術が現場作業を変える
産業用スマートグラスInfoLinker3に「RECAIUS™」音声ミドルウェアを採用

 産業向けウェアラブルデバイスのハードウェアとソフトウェアの企画・開発・製造を一貫して手掛けるウエストユニティス株式会社。同社では、高速携帯通信規格であるLTE搭載の産業用スマートグラス「InfoLinker3」でのハンズフリー操作を可能にする音声認識と、遠隔支援で指示内容を簡単に把握できる音声合成の仕組みに、東芝デジタルソリューションズ(以下、東芝)が提供するコミュニケーションAI 「RECAIUS™」の音声認識ミドルウェア ボイストリガーと、音声合成ミドルウェア ToSpeak™が採用されている。


Before

主力商品である産業用スマートグラス初代InfoLinkerでは音声機能は搭載されておらず、タッチパッドとボタンで操作する仕組みだったため、ハンズフリー化のために音声認識技術を用いてコマンド入力できる機能実装を検討。汎用的な音声認識技術では実用化できるレベルの認識精度には至らず、意図しない言葉も拾い上げてしまうなど、さまざまな課題に直面。合わせて、遠隔で作業者に対し音声で指示を伝えるための音声合成技術も求めていた。

After

RECAIUS音声認識ミドルウェア ボイストリガーと音声合成ミドルウェア ToSpeakを一括で導入。トリガーワードを設定し音声コマンドを発話することで、同社が目指した精度の高い音声認識を実現。同社のクラウド型ソフトウェアLinkerWorksと音声合成技術を連携させることで、遠隔作業支援や履歴管理も可能となり、遠隔支援で現場作業のDX(デジタルトランスフォーメーション)を加速させるソリューションづくりに貢献している。

現場作業を支援するスマートグラスで市場を開拓


 1984年にマニュアル制作会社として創業し、現場作業を支援するソリューションを提供し続けてきた同社。現在はウェアラブルコンピューティングのリーディングカンパニーとして、さまざまな現場の課題を安全、正確かつ効率的に解決することを目指している。
 「わが社はハードウェアからソフトウェアまで一貫して企画、開発、製造を行うことで、現場のニーズに柔軟に応えています。製品開発から導入後の支援までをワンストップで提供できることが大きな強みです」と説明するのは取締役 CFO 藤原 正英氏だ。

 同社の主力製品が、LTE搭載のスマートグラス「InfoLinker3」と、専用の遠隔支援、現場効率化ソフトウェア「LinkerWorks」だ。InfoLinker3は、大容量バッテリーを搭載し、無線LANが構築できない屋外現場等での使用を可能にしたLTE搭載スマートグラスだ。頭部に装着する軽量化したヘッドマウントと肩掛け型のネックバンドに分かれた構造となっており、データ処理とバッテリーをネックバンド部に集約することで、装着時の負担軽減とバッテリー交換のしやすさといった作業性を高めた製品となっている。InfoLinker3の開発にあたり、ハンズフリー操作の実現と、作業効率を上げるための音声認識と、音声合成機能の導入を検討することとなった。

取締役 CFO
藤原 正英氏

汎用的な音声認識では精度が上がらず、実用化が難しい


取締役 CPO 兼 SW開発責任者
鬼頭 和秀氏

 初代InfoLinkerが市場に投入された2015年当初は、小型のディスプレイに映し出される作業指示を実行するには、タッチパッドでコマンドを入力する必要があり、音声コマンドによるハンズフリー操作には未対応だった。その後、音声認識技術が広がるなかで、InfoLinkerにおいても発話によってコマンド入力できる技術の検討をはじめたという。「ハンズフリーでの操作が実現すれば、現場の作業をより効率的に支援できるようになるだろうと考えたのです」と取締役 CPO 兼 SW開発責任者 鬼頭 和秀氏は当時を振り返る。

 試作段階では、当初利用していた音声認識サービスでは思うような認識精度には至らなかった。「汎用的な会話全体を認識する音声認識のソフトウェアだったため、意図しない言葉も認識してしまったり、誤認識することが多かったのです」と鬼頭氏。そこで、スマートグラスへの音声コマンドに特化した認識技術であれば、十分な精度が達成できるのではと考えたという。

 当初は音声認識を中心に検討を進めていたが、これに加えて、事前に設定されたテキストを作業時に読み上げるための音声合成技術も求められていた。「テキストを音声に変換するだけなので、音声認識に比べて技術的な難易度はさほど高くはありません。変換された音声が識別しやすいか、聞き取りやすいかどうかが重要でした」とチーフデザイナー 西内 伸太郎氏は説明する。

高精度な音声認識、同じプラットフォームで音声合成も活用できる


チーフデザイナー
西内 伸太郎氏

 新たな環境づくりに向けて、なかでもまず日本語の認識の正確さが重要となるため、国内の会社が提供する製品を中心に検討していく中で注目したのが、東芝が提供するRECAIUS音声認識ミドルウェア ボイストリガー(以下、ボイストリガー)と、音声合成ミドルウェア ToSpeak(以下、ToSpeak)だった。「日本語には“録画”と“6番”などのように似た発音の言葉が多く、当初は東芝のボイストリガーでもまだ精度が十分とは言えませんでした」と鬼頭氏。

 そんな折、東芝から、開発中のボイストリガーのVer.2の話が出たという。「認識精度が上がったというベータ版で試したところ、期待する精度のレベルであることが分かったのです」と鬼頭氏。「まだ開発段階であっても、期待に応えたいという意思を感じました。何度も細かいチューニングと調整を重ね、最後まで親身になって取り組んでくれました。これ以上は無理だと言われたことは一度もありません。我々と一緒に製品を作りあげていくというその姿勢に好感を持ったことも、東芝をパートナーに選んだ理由のひとつです」と鬼頭氏は評価する。

 また、ボイストリガーそのものが、同社が実装したかった仕様にマッチしていたことも幸いした。「文章全体を認識してテキスト化するタイプの製品とは異なり、設定したトリガーワードを検出し、音声コマンドを単語として正確に認識してくれる。まさに我々の製品にマッチしていたのです」と西内氏。

 コストやサポートの面でも東芝であれば、音声認識と音声合成がそれぞれ同じRECAIUS製品として用意されており、東芝一社にお願いできるという安心感があった。

 当初からグローバルを意識した展開だったInfoLinkerには、日本語はもちろん、英語や中国語などへの対応も求められていた。「日本企業が海外に展開する工場で利用してもらうことをイメージしていたため、まずは日本語をしっかり認識できることが大前提です。その上で、英語や中国語にも対応できるという点も評価しました」と鬼頭氏。

 これらをふまえて、同社が新たにリリースするスマートグラス「InfoLinker3」に組み込むミドルウェアとして、東芝のRECAIUS音声認識ミドルウェア  ボイストリガーと、音声合成ミドルウェア ToSpeakが採用されることになる。

実運用に耐えうる音声認識技術の製品実装に成功


 2021年7月にリリースされたInfoLinker3は、すでに空港の給油施設のメンテナンス業務や農業分野での営農指導などに利用されている。主にビデオ通話を介して遠隔からの作業支援や、現場の写真や録画を、音声コマンドを利用して記録するといった用途に使われている。遠隔利用できることで、現場に赴くことなく作業指示が出せるようになるため、現場での必要人数の削減や、移動コストがなくなるメリットは大きいと言える。

 東芝の音声認識技術のレベルの高さを検証の段階で実感したことも。「試作機の防水カバーが原因で、実は音がほとんど聞き取れないような状態にあったにもかかわらず、音声コマンドとしてしっかりと認識されていたのです。驚くべき認識率であることを実感したエピソードです」と鬼頭氏は当時を振り返る。さらに、「展示会などでInfoLinker3を紹介すると、音声認識率の高さに驚かれます。他社の音声認識技術を導入している企業からも高い評価をいただきます」と藤原氏は胸を張る。

 InfoLinker3は、先進的なモバイルコンピューティングシステムの活用事例を表彰する「MCPC award 2021」のサービス&ソリューション部門で奨励賞を受賞するなど、現場作業のDXを実現するスマートグラスとして市場からも大きく期待されている。

言語対応の幅を広げながらデータ活用やAI技術への展開も視野に


 現在InfoLinker3は主に日本の現場で活用されているが、英語や中国語についてもチューニングを始め、グローバルに展開する準備を進めている。「外国語対応は、InfoLinker3を外国企業に販売するというよりも、日本企業の海外工場などの現場支援を目的に進めているところです」と鬼頭氏。

 将来的な展望として、まずRECAIUSの音声認識については、音が小さくても認識できる優位性を活かして、周囲の音を遮断して必要なコマンドのみを認識する機能や、2人以上で作業する場合に、隣の人の声を拾うことなく、人の声を聞き分けて正確に反応するといった新たな機能への対応への期待が挙げられた。

 また、InfoLinker3専用の遠隔支援・現場支援ソフトウェアLinkerWorks内に蓄積される現場のデータをどう活用するかが重要なポイントとなる。外部のWebサービスとAPI連携することも視野にデータ活用の方法を検討するなど、東芝が運用するクラウドサービスとの連携も含めて、東芝の技術や経験に期待を寄せている。「単なる音声認識や音声合成だけでなく、AIを含めたテクノロジーを使ってお客さまの課題解決につながるようなソリューションを作りたい。東芝にはその実現に向けた提案も期待しています」と鬼頭氏は熱く語る。

 産業用スマートグラスを通じて現場を変えるソリューションを進化させていく同社を、東芝はRECAIUSの技術強化とともに様々な形での連携を図っていく。

SOLUTION FOCUS

LTE搭載スマートグラス ソリューション (ウエストユニティス株式会社のサイトに遷移します)

ウエストユニティス株式会社の提供する産業用スマートグラスソリューション。
軽量化したLTE通信機能搭載のスマートグラスInfoLinker3と、遠隔作業支援ソフトウェアLinkerWorks。遠隔支援で現場作業のDXを加速します。

RECAIUS™音声認識ミドルウェア ボイストリガー

あらかじめ自由に設定した特定のキーワード(トリガーワード)を検出し、お客様の製品のトークスイッチレス・ハンズフリーでの操作を実現する、組み込み型ソフト(音声認識ミドルウェア)です。
小さなメモリサイズで動作も軽快、高精度な認識力を誇ります。多言語対応。

RECAIUS™音声合成ミドルウェア ToSpeak™

テキストから自然な声の発話に自動変換する組み込み型ソフト(音声合成ミドルウェア)です。
テキストを用意するだけで音声を手軽に出力でき、良好な音質を小さなメモリサイズで提供できるのが特徴です。
インターネットへの接続不要でユーザーのシステムの他、スマートフォンやタブレットなどの端末機器上で動作を可能とします。

この記事の内容は2021年11月に取材した内容を元に構成しています。
記事内における数値データ、社名、組織名、役職などは取材時のものです。

COMPANY PROFILE

会社名
ウエストユニティス株式会社

設立
1991年3月

代表者
代表取締役社長    吉村 洋一

本社所在地
大阪府大阪市北区大深町1-1 LINKS UMEDA 8階 WeWork内

事業概要
ウェアラブルデバイス、スマートグラスのハードウェアとソフトウェアの企画・開発・製造・販売等

URL
https://www.westunitis.co.jp/