Temporal-Relational CrossTransformers for Few-Shot Action Recognition

August 2021

Publication

In CVPR 2021

`概要`

CrossTransformerを応用したFew-ShotのActionRecognition手法の提案。

各学習クラスのサンプルが少ない中で、Queryビデオがどのクラスであるかを認識する。 N-way、K-shotのFSLの時について考える。通常だとQueryビデオがNクラスのうちのどのクラスに属しているか、各クラスのSupportVideo一つずつと比較し、その最大値もしくは平均値を取って判断するが、Transformerのネットワーク構造を用いることですべてのSupportVideoをまとめて見たうえで判断することが可能になるよ、という話。

`手法`

各動画は等間隔でフレームサンプリングされたものを使う。QueryVideoからクエリ、SupportVideoからキーとバリューを作成し、CrossTransormerと同様の構造を用いたAttentionの計算を行う。この際、上図にはPair representationsとTriple representationsがあるが、Pair representationsでは各動画の中から2フレーム(ペア)のみを用いて特徴量化し、Triple representations では3フレームのみを用いて特徴量化する。そのため、各動画の特徴量をあらわすために扱うのは実際には2~3フレームである（Ablationで4の場合についても検証している）。

`実験`

Temporal-Relational CrossTransformers for Few-Shot Action Recognition

概要

手法

実験

新規性

`概要`

`手法`

`実験`

`新規性`