このページでは JavaScript を使用している部分があります。お使いのブラウザーがこれらの機能をサポートしていない場合、もしくは設定が「有効」となっていない場合は正常に動作しないことがあります。

研究開発センター

AI Technology

前のページに戻る

複数の人が同時に話しても話者ごとに発言を聞き分ける分離集音技術を開発－事前に録音しておかなくても正確に聞き分け可能－

2016年10月

概要

当社は、複数の人^（注1）が同時に話しても、会話と同時に正確な聞き分けを行い、話者ごとに集音することができる分離集音技術を開発しました。

開発の背景

近年の音声認識性能の向上により、会議や接客の会話をテキスト化して業務の改善・効率化に役立てたいというニーズが高まっています。しかし、複数の人が同時に発言すると音声認識精度が低下する問題がありました。同時発言を分離する技術の開発も進められていますが、会話している場所の音響特性や話し手の位置といった録音環境に対して最適な分離性能を得るためには、数十分程度の録音を行う必要がありました。

本技術の特徴

そこで当社は、事前の録音を行うことなく、複数の人が同時に話した音声でも話者ごとに集音することができる分離集音技術を開発しました。本技術により、1つの音声入力機器の中に複数のマイクを搭載したマイクロホンアレーを用いて、高い精度で話者ごとの音声を認識しテキスト化することが可能となります。高い精度でテキスト化された音声データは、会議では人手による議事録作成の負担を軽減し、接客ではお客様の意見の分析やスタッフの応対マニュアルの改善に役立ちます。お客様が訪日外国人であれば自動翻訳にも適用可能です。
従来の音源分離技術では、音源（話者）ごとに分離するフィルタをシステムが学習するために、数十分程度録音した後でなければ十分な分離精度が得られないという課題がありました。そこで当社は、フィルタを直接学習するのではなく、マイクからみた話者の位置情報を表す空間特性を学習することで、環境にあわせて時々刻々とフィルタを更新させることで高精度に分離する新方式^（注2）を開発しました。分離の正確さは従来技術と比べて約2倍^（注3）に向上しています。また、話者からそれぞれのマイクまでの音の到達時間差などの音源方向に関する対応表とのマッチングにより、話者の相対的な位置関係を高速に判定します。これらの特長により、会話する場所で事前録音を行わなくても、同時に話された音声を話者ごとに分離集音することが可能となりました。

本技術の特徴　分離集音技術

今後の展望

当社は、音声や映像から人の意図や状況を理解し人にわかりやすく伝え、人々の様々な活動を支援する、当社のクラウドサービス「RECAIUS™(リカイアス)」に、本技術を2017年度中に搭載することを目指して研究開発を進めていきます。

＊本成果の一部は、国立情報学研究所小野順貴准教授との共同研究（2011年4月～2015年3月）に基づいています。（2016年11月4日追記）

（注1）マイクロホンアレーに内蔵されたマイク数以下の人数（3マイクであれば3人）の聞き分けが可能。

（注2）方式の基盤となるアルゴリズムは、2011年4月～2015年3月の期間で、国立情報学研究所の小野順貴准教授との共同研究により開発されました。（2016年11月4日追記）

（注3）話者2人が同時に発言した音声を分離した際、他方の話者の音声をどれだけ取り除けているかを表す抑圧量を測定し、従来の3dBから9dB（約2倍）に改善。

　RECAIUS™ (リカイアス)について

音声や映像から人の意図を理解し活動をサポートするクラウドAIサービスです。当社が長年にわたり研究開発してきた、音声認識、音声合成、翻訳、対話、意図理解、画像認識（顔・人物画像認識）などのメディア知識処理技術（メディアインテリジェンス技術）を融合し体系化しました。RECAIUS™は、新しいライフスタイルやビジネスの創出に貢献します（https://www.toshiba.co.jp/cl/pro/recaius/index_j.htm（東芝デジタルソリューションズ株式会社））。