Few-shot Learning においてTransormerを用いた局所の表現学習方法を提案。
CrossTransformerを応用したFew-Shotの行動認識手法の提案。
シーングラフ生成のタスクで既存のVisualGenomeデータセットにおける実験考察をもとに,新たにLSTMを用いた手法を提案。
Few-shot Learning においてTransormerを用いた局所の表現学習方法を提案。
多くのモデルでVisionとLanguageでネットワークをそれぞれ用意して同時に学習させていた部分を,Bertを応用することでマルチモーダルに事前学習させる方法。
Predictive Codingで用いた手法を動画にも適用した論文。動画の次の潜在表現を回帰で予測させてあげて,相互情報量の最大化を目指す。
異なる動画においても,同じ動作の場合特徴空間上で近くなるように学習させることで,似た動作の動画同士を同期できるようなマッチングを実現。
行動認識のタスクにおいて,Temporal Convolutional Networksを複数重ねるMulti-TCNの提案。
3DCNNでは4秒近くにおける時系列情報しか捉えられない。そこでよりLongTermな情報と組み合わせて考えることでVideoRecognitionの精度が上がりましたよという論文。
シーングラフの生成において従来モデルの課題点を指摘した上で,それを改善するための新たなロスを提案し,SoTAを達成。
Predictive Codingで用いた手法を動画にも適用した論文。動画の次の潜在表現を回帰で予測させてあげて,相互情報量の最大化を目指す。
Temporal action proposalのタスク。従来のような始点終点予測とは別に,Proposalの始点と長さを表すヒートマップを作成する。
言語の事前学習によって,自然言語分野の複数のタスクにおいてSoTAを達成。
Action Segmentation のタスクにおいてWeakly-supervisedな手法. 学習用の動画デートセットの正解として,動画内の行動ラベルの順番のみ与える(各フレームにおける正解ラベルはなし).
Action recognitionにおけるSelf-supervisedな事前学習方法の提案。
時空間方向のグラフ畳み込みを利用したSkeleton-basedな行動認識手法を提案。
画像や音声における新しい表現学習の方法を提案。エンコーダーとGRUを組み合わせてGRUが次のエンコーダの出力を予測して,その相互情報量の最大化によって良い特徴表現を獲得する。
クラスラベルの遷移順のみのWeaklyなラベルを用いたAction Segmentation. Viterbi algorism を用いた方法を提案。
シーングラフ生成のタスクで既存のVisualGenomeデータセットにおける実験考察をもとに,新たにLSTMを用いた手法を提案。
詳細な行動認識のタスクにおいて、長期的な時系列情報を考慮するように畳み込みを行って認識を行うネットワークであるTemporal Convolutional Networkの提案.
機械翻訳用のネットワークの提案。従来LSTMやGRUや畳み込みを主に用いていた自然言語の処理だが,アテンションのみを用いて単語間の関連性を考慮するような手法。
画像をもとにしたシーングラフやそれに関連したVQA等のラベルがついたVisual Genome データセットを作成。
空間情報(静止画)と時間情報( フレーム間の動き)をそれぞれ畳み込んだ結果を統合することによる行動認識の手法を提案.