AI Technology

世界最高性能で集団の人数を計測できる技術を開発

2015年12月

概要

当社は、1台のカメラで広範囲を撮影した映像から、人や車の数を高精度に計測できる技術を開発しました(資料1)。

(資料1)

本技術は、人や物が重なって映っていたり、非常に小さく映っていたりしても対象を見つけ出すことができ、大学が公開している評価用画像データ (注1)における計測誤差で、世界最高性能を達成しました。本技術の成果を、サンティアゴ(チリ)で開催される世界最大のコンピュータビジョンの国際会議ICCV2015にて12月15日に発表します。

開発の背景

現在、防犯カメラは世界で約2800万台設置されていると言われており、重大事件の解決に貢献するなど、設置の必要性が高まっています。さらに、安全・安心な社会づくりに向けて、顔認証や人物検知等の画像解析技術を用いた、より高度な監視ソリューションサービスの一部として提供され始めています。当社は、監視の省力化および見える化による管理業務の平準化・効率化において、トラブルが発生する原因となり易い人や車の密集、交通渋滞などを発見し、その集団の人数や混雑状況を高精度に計測することが有効であると考えています。従来の集団を計測する技術は、密度マップ (注2)と呼ばれる計測指標をもとに集団の数の推定を行っていました。しかし、密度マップにおいては、人やものの存在確率を対象となる画像の全ての画素の輝度値をもとに推定する方式のため、計算量が膨大で、性能の向上には非常に多くのメモリを使用する必要がありました。

本技術の特徴

当社は、画像から直接的に集団の密度マップを推定する従来方式に対し、人やものの位置をベクトルで表す独自のCOUNT(CO-voting Uncertain Number of Targets)フォレスト方式を開発しました。まず、従来技術では各画素で人がいるかどうかを表す存在確率を学習していましたが、当社手法では、各画素に分解することなく、その画像における人数と位置のみを統計学習し、画像から人の位置を示すベクトルの情報を推定します。推定した位置を中心に、予め正規分布 (注3)で作成した一人の密度マップを重ね合わせて集団の密度マップを算出して、人数を計測します。従来方式と比べ、人数と位置に特化した学習を行うため、省メモリで高精度に人やものの数を推定することができます(資料2)。

(資料2)

これまで最も性能の高かった方式で平均絶対誤差(注4)が3.43人であった公開データ (注5)に対し、当社方式では平均絶対誤差2.50人で世界トップの性能を実現しました。また、従来方式の平均絶対誤差が2.10人であった別の公開データにおいても、約30分の1のメモリ使用量で、平均絶対誤差1.59人を達成しました。

今後の展望

当社は、人が見たり、聞いたり、話したりする感覚で、ITを活用できる当社のクラウドサービス「RECAIUS(リカイアス)」に本技術を2016年度中に搭載することを目指します。
本技術により、多くの人が滞留している場所を発見して通知することで監視の平準化・省力化が図れるほか、滞留する場所を可視化することにより混雑緩和対策の検討ができると考えています。また、歩行者と車が混在した交差点などの場所でも、歩行者と車の数を同時に集計できるように拡張することができるため、サービス拡充に繋げていきます。

(注1)大学が公開している評価用画像データとは、手法の評価を目的として各大学が公開している画像データであり、人数計測の評価に一般的に用いられるMallデータ、およびUCSDデータに対して評価した。

(注2)密度マップとは、処理の対象となる画像における人やものの存在確率を輝度値として対応付けた画像。輝度値が高いほど、密集していることを表す。

(注3)正規分布とは、最も一般的な確率分布の一つで、平均値付近の「起こりやすさ」が高くなるデータの分布。

(注4)平均絶対誤差とは、各評価用のフレーム内に存在する正解人数と推定人数の差の絶対値の平均値。

(注5)公開データ(Mallデータセット)は、合計2000フレームの動画像であり、1フレームあたりに平均31人(13~53人)存在するデータセット。平均絶対誤差は、800枚から学習し1200枚を評価する公開データの基準に基づき試算。