マルチメディア処理

映像音響解析による効率視聴支援技術

ヒューマンインタフェース技術紹介パンフレット2010

概要

(1)顔クラスタリング・音楽区間検出・盛り上がり区間検出 ~見たい人や見どころを簡単に選択できます~
独自の高速な顔検出技術により検出された顔を同じ人物ごとにグルーピングし、登場人物一覧表を作成します。音楽区間検出では、事前に学習した音響モデルとマッチングを行い、演奏部分やBGM部分を見つけ出すことができます。また、歓声や拍手に特有の音響傾向を分析し、スポーツ中継等での観衆の盛り上がりを検出、見どころを選び出すきっかけを提供します(下図の棒グラフ)。

盛り上がり区間検出の概要の図
盛り上がり区間検出の概要

(2)テロップ検出と音響解析によるコーナー検出 ~番組コーナー単位の飛ばし見ができます~
バラエティ番組などでは、コーナーごとに画面隅にテロップが表示されています。これを検出し、コーナーの切り替わり目ごとに「飛ばし見」をすることが容易になります。また、コーナーごとに登場する話者や背景音などの「音の雰囲気」も変化しますので、音響傾向の分析により番組をコーナー構成に分割することも できます。

テロップ検出と音響解析によるコーナー検出の概要の図
テロップ検出と音響解析によるコーナー検出の概要