ディープラーニング技術 スポーツおよび接客作業の映像解析

ディープラーニング技術 スポーツおよび接客作業の映像解析

AIによる映像解析で、特定のプレーシーンや店員の行動を自動でタグ付け

 ICT技術の発展により、スポーツ界でもICTを活用した戦略分析の導入が進んでいます[1]。試合映像を用いた戦略分析もその一つですが、分析を担当するアナリストは試合映像を目視で確認し、シーンの内容を示すタグを手動で入力して戦略分析を行っており、大変な労力が必要となっています。

 そこで、ディープラーニング手法であるCNN(Convolutional Neural Network)と、時系列データを扱うLSTM(Long Short-Term Memory)を用いることで、試合映像から特定のプレーシーンを自動的にタグ付けする識別モデルを開発しました。試合映像から切り出された静止画の画像データを、時間順に1枚ずつCNNに入力して畳み込まれた特徴量データとし、全結合層を介してLSTMに入力し、出力結果と正解との差が小さくなるように学習を繰り返し行うことで、試合映像内の特定プレーを推定し自動でタグ付けを行うことが可能になりました(図1)(図1)。また、東芝研究開発センターで研究しているボール、選手、密集領域の検出技術、2次元フィールド座標系への変換技術などと組み合わせ、ラグビー映像解析システム(図2)(図2)を開発しました[2]。本技術は、第23回 画像センシングシンポジウム(SSII2017)にて、デモンストレーション賞を受賞いたしました。

 また、飲食店舗内のオペレーション分析にもディープラーニングの適用を進めています。飲食店での業績改善に向けては、店員の行動を定量化して分析することが必要となります。例えば、飲食店において店舗スタッフがお客様のテーブルに接客訪問した回数(テーブルタッチ回数)などを測定して「見える化」することで、店舗運営における業務改善施策の検討や意思決定をサポートすることができます。しかし、店舗内の状況を目視で確認して、手動で分析するには、多大な時間と労力がかかります。そこで、接客作業など店員の行動を、ディープラーニング技術を用いて店内映像から推定し、自動でタグ付けを行う実証実験を開始しました[3]。手動でタグ付けした映像でディープニューラルネットワークの学習を行い、店舗映像から店員の行動を推定するシステムを構築することで、テーブルタッチ回数の自動タグ付けおよび自動集計を実現します(図3)(図3)

 今後、製造現場の作業員やコンビニ・スーパーの店員のオペレーション分析など、飲食業界とは異なる業界への展開も期待できます。

LSTMを用いたプレーシーンの学習 時系列データを扱うためのディープラーニング手法の一つであるLSTMを用いて時系列情報を保持してプレーシーンを1セットとして学習を行う。プレーシーン推定時は、時系列情報を保持しながらフレーム毎に推定を行い、確率分布を出力する。

LSTMを用いたプレーシーンの学習のイメージ図

ラグビー映像解析システム 1台のカメラで撮影した試合映像からボールや選手の検出・追跡を行い、仮想2次元フィールド上にマッピングすることで選手とボールの動きを連続的に記録する。画像左下の数値は、現在のフレームをプレーシーン推定した結果の確率。

ラグビー映像解析システムのイメージ図

テーブルタッチ回数の自動集計とダッシュボード化のイメージ図 店舗映像からデータを測定し、「見える化」することで、店舗経営者・管理者による業務改善施策の検討・意思決定をサポート 店員行動の自動集計により、アナリストの業務を効率化。

テーブルタッチ回数の自動集計とダッシュボード化のイメージ図

LSTMを用いたプレーシーンの学習 時系列データを扱うためのディープラーニング手法の一つであるLSTMを用いて時系列情報を保持してプレーシーンを1セットとして学習を行う。プレーシーン推定時は、時系列情報を保持しながらフレーム毎に推定を行い、確率分布を出力する。

LSTMを用いたプレーシーンの学習のイメージ図

ラグビー映像解析システム 1台のカメラで撮影した試合映像からボールや選手の検出・追跡を行い、仮想2次元フィールド上にマッピングすることで選手とボールの動きを連続的に記録する。画像左下の数値は、現在のフレームをプレーシーン推定した結果の確率。

ラグビー映像解析システムのイメージ図

テーブルタッチ回数の自動集計とダッシュボード化のイメージ図 店舗映像からデータを測定し、「見える化」することで、店舗経営者・管理者による業務改善施策の検討・意思決定をサポート 店員行動の自動集計により、アナリストの業務を効率化。

テーブルタッチ回数の自動集計とダッシュボード化のイメージ図