MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

August 2019

Publication

In CVPR 2019

`概要`

行動認識のタスクにおいて,Temporal Convolutional Networksを複数重ねるMulti-TCNの提案。２個目以降のTCNには各クラスのPredictのSoftmax値を入力とすることで，OverSegmentation（予測結果の頻繁な変化）の抑止を実現。

`手法`

下図のようにTCNを複数ステージ重ねていき，最終ステージの出力を予測結果として用いる。特徴として，２ステージ目以降の入力は前のステージのSoftmax出力を使う。
イメージとしては，１ステージ目で大まかな行動の認識を行って，２ステージ目以降では時系列情報を考慮しながら細かい行動遷移の予測（主にOversegmentationの抑止）を行っている感じ？

ロス

交差エントロピーに加え，以下のようにフレーム間での正解クラスの予測値の変化を罰している。クラスが本当に切り替わるところは考慮しないよう，閾値を設けている。

`実験`

データセット

50salads

Single-TCNとの比較

ロスの違いによる比較

`新規性`

・クラス毎のsoftmax値を次のステージへの入力に用いている

・遷移に制限をかけたロスの提案