MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

Publication
In CVPR 2019

概要

行動認識のタスクにおいて,Temporal Convolutional Networksを複数重ねるMulti-TCNの提案。2個目以降のTCNには各クラスのPredictのSoftmax値を入力とすることで,OverSegmentation(予測結果の頻繁な変化)の抑止を実現。

手法

下図のようにTCNを複数ステージ重ねていき,最終ステージの出力を予測結果として用いる。特徴として,2ステージ目以降の入力は前のステージのSoftmax出力を使う。
イメージとしては,1ステージ目で大まかな行動の認識を行って,2ステージ目以降では時系列情報を考慮しながら細かい行動遷移の予測(主にOversegmentationの抑止)を行っている感じ?

スクリーンショット 2019-04-22 20 25 22

ロス

交差エントロピーに加え,以下のようにフレーム間での正解クラスの予測値の変化を罰している。クラスが本当に切り替わるところは考慮しないよう,閾値を設けている。

スクリーンショット 2019-04-22 20 33 21

実験

データセット

50salads

Single-TCNとの比較

スクリーンショット 2019-04-22 20 36 36

ロスの違いによる比較

スクリーンショット 2019-04-22 20 36 46

新規性

・クラス毎のsoftmax値を次のステージへの入力に用いている

・遷移に制限をかけたロスの提案