Temporal-Relational CrossTransformers for Few-Shot Action Recognition

Publication
In CVPR 2021

概要

CrossTransformerを応用したFew-ShotのActionRecognition手法の提案。

image

各学習クラスのサンプルが少ない中で、Queryビデオがどのクラスであるかを認識する。 N-way、K-shotのFSLの時について考える。通常だとQueryビデオがNクラスのうちのどのクラスに属しているか、各クラスのSupportVideo一つずつと比較し、その最大値もしくは平均値を取って判断するが、Transformerのネットワーク構造を用いることですべてのSupportVideoをまとめて見たうえで判断することが可能になるよ、という話。

手法

image

各動画は等間隔でフレームサンプリングされたものを使う。QueryVideoからクエリ、SupportVideoからキーとバリューを作成し、CrossTransormerと同様の構造を用いたAttentionの計算を行う。 この際、上図にはPair representationsとTriple representationsがあるが、Pair representationsでは各動画の中から2フレーム(ペア)のみを用いて特徴量化し、Triple representations では3フレームのみを用いて特徴量化する。そのため、各動画の特徴量をあらわすために扱うのは実際には2~3フレームである(Ablationで4の場合についても検証している)。

実験

image
image
image

新規性