Long-Term Feature Banks for Detailed Video Understanding

Publication
In CVPR 2019

概要

3DCNNでは4秒近くにおける時系列情報しか捉えられない。そこでよりLongTermな情報と組み合わせて考えることでVideoRecognitionの精度が上がりましたよという論文。

スクリーンショット 2020-03-06 12 52 25

手法

3DCNNの元論文では,何フレームごとかに得た特徴をROI Poolingによってある区間における平均特徴量としたのち,全結合層で分類問題を解く(下図)。しかしこれではShortTermな情報しか捉えられず,ビデオ全体から判断が必要な情報が抜け落ちてしまう。

スクリーンショット 2020-03-06 12 56 58

そこでFeatureBankOperationを導入し,ShortTermとは別に得たLongTermな情報も同時に捉えるようなネットワークを用意してあげて,そこから得た特徴量も用いて認識を行う。

スクリーンショット 2020-03-06 12 57 15

FeatureBankOperatorの構造は以下。

スクリーンショット 2020-03-06 12 59 27

実験

スクリーンショット 2020-03-06 13 02 12 スクリーンショット 2020-03-06 13 03 27

新規性

ShortTerm+LongTerm

コメント

単純な理論だが精度向上に結構寄与してる。