東芝AI技術カタログ

メディア認識

大語彙音声認識

話し言葉音声を高精度で認識しつつ、フィラーや言いよどみなど意味理解に不要な語を検出します。

ニューラルネットワークを用いて、フィラーや言いよどみをひらがな１文字分に相当する短時間音声と同じ枠組みでモデル化しました。
検出されたフィラーや言いよどみを用途に応じて表示・除去します。

参照先：
Toshiba Clip「声が瞬時に文字になる! AIで変わる日本の働き方」

応用先

オンライン講義・講演の理解度向上支援
聴覚障がい者のための情報保障
会議の議事録作成支援

ベンチマーク・強み・実績

発言内容が理解できると言われる85%の音声認識率を達成

問い合わせ窓口

総合研究所（小向地区）へのお問い合わせ

問合せの際はタイトル[東芝AI技術カタログ:大語彙音声認識]やURLを文面に含めてください。
本技術は研究開発中のためご要望にすぐに対応できない可能性があります。

参考文献：

H. Fujimura, M. Nagao and T. Masuko, “Simultaneous Speech Recognition and Acoustic Event Detection using an LSTM-CTC Acoustic Model and a WFST Decoder”, ICASSP 2018.
オンライン授業向けのリアルタイム音声自動字幕システムToScLive™を開発

東芝AI技術カタログページへ戻る