東芝AI技術カタログ

  • メディア認識
  • メディアデータ分析
  • 音声対話

専門用語向け音声認識技術

従来の音声認識が苦手な専門用語や固有名詞の多い業務環境において、追加学習なしで音声認識の実用性を高めます。


  • 深層学習による音声認識技術(エンドツーエンド型音声認識技術)をベースとした高精度な音声認識を実現しています。
  • 専門用語や固有名詞などの表記と読みを記載したユーザー辞書をご準備いただくだけで、ドメイン固有の語彙に対応可能です。時間のかかる追加学習は不要です。
  • 音声キーワード検出技術により専門用語や固有名詞等のキーワードを抽出し、大規模言語モデル(LLM)により音声認識結果を事後訂正することで認識精度を向上させます。

応用先



  • 音声対話システム
  • 音声字幕システム
  • 放送システム

ベンチマーク・強み・実績



  • 専門用語を多く含む社内講演会(全8回分)の音声データにおいて、従来技術による認識結果と比較したところ、文字誤り率を維持しながら、ユーザー単語のF値が平均で3.05ポイント向上しました。最大では8.08ポイントの向上が確認されました。

問い合わせ窓口



総合研究所(小向地区)へのお問い合わせ

問合せの際はタイトル【東芝AI技術カタログ:専門用語向け音声認識技術】やURLを文面に含めてください。
本技術は研究開発中のためご要望にすぐに対応できない可能性があります。