Action Genome: Actions as Composition of Spatio-temporal Scene Graphs

Publication
In CVPR 2020

概要

Visual Genomeの動画版のデータセット。またFeature Banksを用いた手法の提案。

2019-02-22 16 19 00

手法

データセット

データセットのラベル内容としては動画中のActionの領域とそのCaption,またVisualGenomeのようなSceneGraphが与えられている。

スクリーンショット 2020-03-06 18 14 54

動画内の各Actionに関して,Actionを均等な時間間隔で分割した際の5フレームを抽出し,その5フレームにおけるシーングラフのラベルを作成。上記の例では1つの動画で4つのアクションが起きているため,4✖️5の合計20フレーム分のシーングラフが存在する。

他のデータセットとの比較としては以下の通り。

スクリーンショット 2020-03-06 18 15 20

動画から各Actionを抽出するAction Recognitionのタスクを考える。同グループの以前の研究であるFeature Banksをベースラインとして用いている。従来のように抽出した3DCNN特徴に加えて,今回のラベルによって得られるシーングラフを予測させてobjectとrelationshipsを捉えたfeatured map を同様にFeature bank として長期の時系列情報として保持することで,行動の分類を行っている。

スクリーンショット 2020-03-06 18 16 38

実験

提案手法の評価。シーングラフ の利用によって精度の向上を確認。

スクリーンショット 2020-03-07 19 23 06

既存のシーングラフ生成モデルをActionGenomeに適用した際の精度。既存の手法は画像ベースの手法のため精度も低く,動画用に改善の余地ありとのこと。

スクリーンショット 2020-03-07 19 22 53

新規性

動画用のシーングラフを提案。シーングラフを用いたActionRecognitionの手法。

コメント

公開されたら触ってみたい。