0

Elaborative Rehearsal for Zero-shot Action Recognition

シーングラフ生成のタスクで既存のVisualGenomeデータセットにおける実験考察をもとに，新たにLSTMを用いた手法を提案。

Shizhe Chen, Dong Huang

Elaborative Rehearsal for Zero-shot Action Recognition

Temporal-Relational CrossTransformers for Few-Shot Action Recognition

CrossTransformerを応用したFew-Shotの行動認識手法の提案。

Toby Perrett, Alessandro Masullo

Temporal-Relational CrossTransformers for Few-Shot Action Recognition

Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

Visual Genomeの動画版のデータセット。

Jingwei Ji

Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization

Predictive Codingで用いた手法を動画にも適用した論文。動画の次の潜在表現を回帰で予測させてあげて，相互情報量の最大化を目指す。

Daochang Liu

Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization

Graphical Contrastive Losses for Scene Graph Parsing

シーングラフの生成において従来モデルの課題点を指摘した上で，それを改善するための新たなロスを提案し，SoTAを達成。

Ji Zhang

Graphical Contrastive Losses for Scene Graph Parsing

Long-Term Feature Banks for Detailed Video Understanding

３DCNNでは4秒近くにおける時系列情報しか捉えられない。そこでよりLongTermな情報と組み合わせて考えることでVideoRecognitionの精度が上がりましたよという論文。

Chao-Yuan Wu

Long-Term Feature Banks for Detailed Video Understanding

MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

行動認識のタスクにおいて,Temporal Convolutional Networksを複数重ねるMulti-TCNの提案。

Yazan Abu Farha, Juergen Gall

MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

Temporal Cycle-Consistency Learning

異なる動画においても，同じ動作の場合特徴空間上で近くなるように学習させることで，似た動作の動画同士を同期できるようなマッチングを実現。

Debidatta Dwibedi

Temporal Cycle-Consistency Learning

VideoBERT: A Joint Model for Video and Language Representation Learning

多くのモデルでVisionとLanguageでネットワークをそれぞれ用意して同時に学習させていた部分を，Bertを応用することでマルチモーダルに事前学習させる方法。

Jacob Devlin, Ming-Wei Chang

Neural Motifs: Scene Graph Parsing with Global Context

シーングラフ生成のタスクで既存のVisualGenomeデータセットにおける実験考察をもとに，新たにLSTMを用いた手法を提案。

Rowan Zellers

Neural Motifs: Scene Graph Parsing with Global Context