AI Technology

多人数の会議音声を話者ごとに分類できる話者分類技術を開発

2014年8月

概要

当社は、10名程度の多人数の会議音声でも、話者を精度よく分類できる話者分類技術を開発しました。本技術は、事前に話者の数や話者の声を登録する必要がなく、少人数の会議から、多人数の会議まで広く利用できます。また、PCやタブレットなどのモバイル端末での動作が可能で、録音終了後、短時間で結果を確認することができます。本技術の詳細は、9月1日から北海道で開催される日本音響学会2014年秋季研究発表会で発表します。

開発の背景

現在、音声の録音は、ICレコーダだけではなく、PC、タブレットのモバイル端末でも手軽に行えるようになっています。それに伴い、録音だけではなく、話者を特定して発話を検索することができる機能や自動議事録生成など、会議を効率よく振り返るための機能へのニーズが高まっています。しかし、話者ごとに発話を分類する従来の話者分類技術では、話者の人数が増えると、声の特徴の種類が増え、区別が困難になるため、少人数の会議への適用にとどまっていました。現在、話者の位置の情報(方向情報)を用いた高精度化も検討されていますが、特殊な指向性のマイクを搭載したデバイスが必要であったり、方向情報の処理量が膨大で計算量コストがかかるなどの問題がありました。また、同じ方向にいる話者の区別が難しいため、結果的に声の特徴に追加する方向情報が話者分類性能に悪影響を及ぼすこともありました。

話者分類技術

そこで当社は、一般的なステレオマイクを使用して、高速・高精度に話者の位置を推定し、声の特徴に加え、必要に応じて方向情報を参照し、多人数の話者を分類することができる技術を開発しました。異なる方向にいる話者の発話は、推定した方向情報から分類し、同一方向にいる話者の発話は声の特徴から分類することで、少人数の会議はもちろん、10名程度の多人数の会議でも高精度に話者を分類することができます。


話者分類技術 概要図

今後の展望

当社はビジネスソリューションとしての展開を見据え、2014年度中に技術の完成を目指します。今後は、話者数がさらに多い、話者が移動した場合など、様々な録音環境下での検証を行うと共に、利便性の高いユーザーインターフェイスを検討、開発していきます。

*本技術は、dynabook Tab S90、S80、S68 に、「TruRecorder」として 搭載されています。(2015年2月追記)