概要
行動認識のタスクにおいて,Temporal Convolutional Networksを複数重ねるMulti-TCNの提案。2個目以降のTCNには各クラスのPredictのSoftmax値を入力とすることで,OverSegmentation(予測結果の頻繁な変化)の抑止を実現。
手法
下図のようにTCNを複数ステージ重ねていき,最終ステージの出力を予測結果として用いる。特徴として,2ステージ目以降の入力は前のステージのSoftmax出力を使う。
イメージとしては,1ステージ目で大まかな行動の認識を行って,2ステージ目以降では時系列情報を考慮しながら細かい行動遷移の予測(主にOversegmentationの抑止)を行っている感じ?
交差エントロピーに加え,以下のようにフレーム間での正解クラスの予測値の変化を罰している。クラスが本当に切り替わるところは考慮しないよう,閾値を設けている。
実験
新規性
・クラス毎のsoftmax値を次のステージへの入力に用いている
・遷移に制限をかけたロスの提案