デジタルで豊かな社会の実現を目指す東芝デジタルソリューションズグループの
最新のデジタル技術とソリューションをお届けします。

報道番組やスポーツ中継で映し出される人物には、その人物の名前が視聴者にわかりやすいように、テロップが表示されています。決して特別なことではなく、当たり前のようにご覧になられている視聴者が多いと思いますが、その裏側では、映像を見ながら一人ひとりの人物を正確に特定し、意図した人物が映っているか、適切なテロップが表示されているかを確認する非常に重要な業務が存在しています。一度に10人以上が映る映像の被写体を確認したり、アマチュアスポーツの選手などたくさんの一般の方々の名前を即座に判断したりする必要があるなど、誰にでも容易にできる仕事ではありません。まさしく匠の技です。

昨今、放送局をはじめとするメディア業界では、さまざまなサービスを通してコンテンツ配信が行われるなど、業務が多様化・複雑化しており、より魅力的なコンテンツを多様なメディアを通じて視聴者に届けるためには、属人的な業務のままでは限界があります。このような現場で期待されているのが、AIの活用です。ここでは、放送局などのメディア業界における正確な映像コンテンツの制作とメタ情報の付与によるアーカイブ映像の高効率な利用の支援はもちろん、人々の日常に存在するさまざまな映像コンテンツにも応用が期待される、東芝の顔認識AI「カオメタ」をご紹介します。


世界でトップレベルの認識精度を達成した東芝の顔認識技術


近年、スマートフォンのログインや、オフィスやイベント会場の入退管理など、顔認証システムの利用が身近なものになってきました。顔認証は、指紋や瞳の虹彩などで認証する生体認証の一つで、事前に登録した本人の顔画像と、カメラを使ってリアルタイムに検出した顔を照合し、本人なのかどうかを識別するものです。コロナ禍により、非接触で安心、安全な行動が求められていることなどから、その活用が飛躍的に拡大しました。

東芝には50年以上にわたるAI研究の歴史があり、その研究の一つでもある顔認識技術は、米国国立標準技術研究所(NIST)が主催した顔認識のベンチマークテストにおいて世界でトップレベルの、また日本企業ではトップの順位を獲得しました(2021年10月時点)。マスクの装着時の顔認識においても高い精度を達成しています。


映像コンテンツに特化して開発した高度な顔認識技術


当社は、この世界トップレベルの技術をベースに、映像コンテンツに特化したより高度な顔認識技術の研究開発を行い、メディア向け顔認識AI「カオメタ」として提供しています。従来の生体認証などが利用されるケースでは、カメラを通して映し出される対象の人物一人に対して顔認証を行うのが一般的です。一方、映像コンテンツの被写体確認をしたり、効率的なシーンの抽出を目的として映像に人物のメタ情報を付与したりするケースでは、高精度な顔認識を高速に連続して処理し続けること、さらにそれと同時に複数の人物を特定することなど、高度な要件を満たす顔認識の技術が必要となります。

そこで当社は、日本テレビ放送網株式会社および東芝研究開発センターの協力のもと、映像コンテンツに特化した顔認識エンジンを開発しました。例えば、放送局における報道番組やスポーツ中継などの生放送番組では、映像に映る人物が意図した人物なのかどうかをリアルタイムに確認する必要があるため、高速かつ正確に人物を特定し続ける顔認識を実現しました。また、バラエティー番組のひな壇やチームスポーツの映像など、同時に10人以上の人物が映るシーンに向けては、たくさんの小さな顔をリアルタイムに処理し続けられる技術を開発しました。その他、複数の中継映像などを確認するマルチ画面に映る解像度の低い画像の顔認識や、人物の姿勢により顔が隠れても顔認識を継続する追従への対応、限られた時間で正確かつわかりやすいVTRの編集が求められる生放送番組に対する素材映像の顔認識の高速化など、映像コンテンツの活用に必要な要件一つひとつに対して顔認識エンジンの改良を行いました。


顔認識AI「カオメタ」とは


カオメタは、あらかじめ特定したい人物の顔画像を顔辞書に登録することで、映像に映る人物のリアルタイムな確認や、メタ情報の付与ができるソリューションです(図1)。

まず、顔認識を行うにあたり、あらかじめ特定したい人物の顔画像から特徴量を生成し、氏名などとともに顔辞書に登録します。一人の人物に対して1枚の顔画像を登録するだけで、表情やマスクの装着、暗いシーンなどの変動要因に適合し、高い精度で認識します。また、成人以降の顔写真を顔辞書に登録した場合には、経年変化にも対応可能です。

カオメタは、SDI(Serial Digital Interface)やHDMI(High-Definition Multimedia Interface)により取り込んだ映像を即時に処理するリアルタイム処理と、mp4形式の動画ファイルなどをオフラインで処理するファイル処理に対応しています。映像または画像をシステムに入力すると、顔認識AIが顔の場所を検出し、検出した顔の特徴量を生成して顔辞書に登録されている特徴量と照合を行い、類似度の高い人物を候補として出力します。

報道番組やスポーツ番組の制作では、顔辞書に登録するための顔写真を事前に準備することが難しい場合も想定されます。このような場合には、カオメタが映像から検出した顔を人物ごとにクラスタリングして生成した出演者のリストを使って、その場で新しい顔画像を顔辞書に登録できるため、使いながら顔辞書を充実させていくことも可能です。


「カオメタ」のユースケース


カオメタによる被写体確認では、意図した人物が映っているかどうかの確認に加えて、放送局でよく使われている9分割されたマルチ画面に映る小さく解像度の低い顔を認識し、カメラのスイッチング業務を支援します。映り込んだ人物を検出してプライバシーを確保したり、人が密集している中からVIPなど特定の人物を探索したり、さらには、名前や肩書きなどのテロップが正しいかどうかを確認したりする作業などにも有用です(図2)。

また、API(Application Programming Interface)の提供により、カオメタを現行の業務システムと連携することもできます。つまり、これまで使用していたシステムや運用体制を変えずに、AIによる顔認識の機能を付加することができるのです。例えば、カオメタを利用して細密なメタ情報をアーカイブシステムに蓄積されている映像に付与することで、必要な映像やシーンの検索を的確に行うことができ、アーカイブ映像の利用の促進が期待できます。

さらには、カオメタで検索したシーンの開始と終了の時間をノンリニア編集システムに引き渡すことで、即座に適切なシーンが抽出されて編集作業が行えるなど、作業の効率化が図れます。(図3)。


活用シーンに応じて選べる充実したラインアップ


カオメタには、扱う映像コンテンツや企業の規模、活用シーンなどに応じて選択できる、「カオメタライブ」「カオメタアーカイブ」「カオメタエントリー」という3つのラインアップを準備しています。

カオメタライブは、すべての機能が使える最上位のモデルです。生放送やライブ配信で重要となるリアルタイムな被写体確認に対応し、また、番組の編集やアーカイブ映像に必要なファイル処理などの機能を備えているため、多岐にわたって活用できます。

カオメタアーカイブは、映像コンテンツへのメタ情報の付与や、意図する人物が映っているシーンの抽出など、アーカイブ映像の処理に特化して機能を厳選したモデルです。

カオメタエントリーは、CM(Commercial Message)やSNS(Social Networking Service)で配信するような短時間の映像コンテンツでの利用に適したモデルです。顔認識エンジンは上位のモデルと同じため、高精度な顔認識による被写体確認が行えます。映り込んだ人物のプライバシーに配慮するための人物抽出にも役立ちます。

カオメタアーカイブとカオメタエントリーは、推奨環境を満たした汎用的なパソコンで利用できる特長を持っています。


リアルタイムな顔認識で、放送の現場や保育の現場に貢献


カオメタは、日本テレビ放送網株式会社と協業し、実際の放送の現場での実証実験をもとに開発したソリューションです。現在、株式会社日テレWandsが放送業界向けに販売している業務用アプリケーション「WhoFinder®」に採用されています。

映像コンテンツを活用する現場に向けて進化してきたカオメタが持つ、リアルタイムに対応できる高速性と、世界トップレベルの高精度な顔認識を生かし、当社はその活用の場を広げています。

その一つが、株式会社ChiCaRoの子育て支援ロボット「ChiCaRo」とのコラボレーションです。ChiCaRoは、育児の負担が一人に偏る「ワンオペ育児」の解消を目的とした、離れた場所から子どもとコミュニケーションが取れるロボットです。このロボットにカオメタを組み込むことで、多くの子どもたちの中から一人ひとりを認識したり特定したりできるようになります。保育園などの保育の現場では、保育士が不足している現状があります。そこで、カオメタとChiCaRoによる新しいサービスの提供で、子どもを見守る環境づくりと、取得したデータを解析して、保育の質の向上や、保護者の子ども理解の促進を支援する取り組みを進めています。

カオメタは、メディア業界におけるさまざまな業務はもちろん、多様なサービスを通した配信や海外展開といった映像コンテンツのマルチユースの促進を支援するとともに、映像コンテンツを活用するさまざまなシーンでご利用いただけるソリューションです。

プライバシーの保護への活用など、人々に安心と安全をもたらすソリューションとしても、大きな可能性を秘めています。東芝は、今後も先進の技術を生かし、社会への貢献を続けていきます。

  • 「WhoFinder」は日本テレビ放送網株式会社の登録商標です。
  • その他、本文章に記載されている社名および商品名はそれぞれ各社が商標または登録商標として使用している場合があります。
  • この記事は、東芝デジタルソリューションズ株式会社 ICTソリューション事業部 メディア・サービスソリューション営業技術部 営業担当 スペシャリスト 毛塚 正義(KEZUKA Masayoshi)と、東芝デジタルソリューションズ株式会社 ICTソリューション事業部 メディア・サービスソリューション営業技術部 技術第二担当 スペシャリスト 瀬古 顕子(SEKO Akiko)の共著により制作しました。
  • この記事に掲載の、社名、部署名、役職名などは、2023年3月現在のものです。

>> 関連情報