概要
3DCNNでは4秒近くにおける時系列情報しか捉えられない。そこでよりLongTermな情報と組み合わせて考えることでVideoRecognitionの精度が上がりましたよという論文。
手法
3DCNNの元論文では,何フレームごとかに得た特徴をROI Poolingによってある区間における平均特徴量としたのち,全結合層で分類問題を解く(下図)。しかしこれではShortTermな情報しか捉えられず,ビデオ全体から判断が必要な情報が抜け落ちてしまう。
そこでFeatureBankOperationを導入し,ShortTermとは別に得たLongTermな情報も同時に捉えるようなネットワークを用意してあげて,そこから得た特徴量も用いて認識を行う。
FeatureBankOperatorの構造は以下。
実験
新規性
ShortTerm+LongTerm
コメント
単純な理論だが精度向上に結構寄与してる。