Time-Contrastive Networks: Self-Supervised Learning from Video

Publication
In ICRA 2018

概要

Action recognition におけるSelf-supervisedな事前学習方法の提案。異なる視点から撮った同じアクションにおける同フレームは同じアクションであるとみなせるため,同じフレーム同士は近づけて,ことなるフレームは遠ざけるといったトリプレットな学習方法ができる。

手法

概要図は以下の通り。

2019-02-22 16 19 00

異なる視点のビデオを比べたとき,同じタイムスタンプである青フレームはPositive 同士,それに対して赤フレームはNegativeであるといえる。このような設定で学習させることで,同じ行動でもで視点が変わった際の対応関係を学習可能,より頑健なFeature抽出が可能に。

ロス

トリプレットロスとして定義ができる。

スクリーンショット 2020-03-06 12 43 20 スクリーンショット 2020-03-06 12 43 46

データセット

スマートフォンによるマルチビューな撮影

スクリーンショット 2020-03-06 12 41 11

実験

Action Alignment のタスクで評価。

スクリーンショット 2020-03-06 12 46 13

新規性

同時フレームに注目したSelf-supervisedな事前学習方法を提案。