Graph R-CNN for Scene Graph Generation

Jianwei Yang

August 2018

Type

Publication

In ECCV 2018

`概要`

GraphConvolutionを用いてSceneGraphの生成をより正確に行うための手法。SceneGraphとはVisualGenomeにおいて定義されているもので，{Subject,Relationship(Predicate),Object} (+Attribute) によるグラフ構造で表される。例として，A man is swinging a bat というような画像内の関係性があったとき， {man, swinging, bat} (+Attribute)というふうになる。これらの関係性を考えていき，最終的には(d)の関係性の出力を目指す。

`手法`

全体の概要図配下の通り。３つのパートに分かれている。

⓵ Object Region Proposal
⓶ Relationship Proposal
⓷ Graph Labeling

Object Region Proposal

Faster R-CNNを学習させて物体検出。出力としては物体の位置情報（BoundingBox），特徴量，クラスラベルの３つがある。

Relationship Proposal 　

物体検出したもののうち，全てを繋ぐようなグラフ構造はパラメータ数的にも，現実世界における物体の関係性的にも現実的ではないため，本当に重要なエッジのみ抽出する段階。

物体がObjectである場合とSubjectである場合（Relationship次第でどっちにもなり得るということ）は分けて考慮する必要があるため，構造は一緒だが異なるパラメータをもつ学習モデルを用意してあげて，それらのを通した行列積をエッジのスコアとして用いる。

最終的に，スコアの高い上位k個のエッジを次のフェーズの入力として用いる。

また，物体ペアに関するNMSもここで行う。通常と違って，物体ペアによるIoU値を用いてNMSを行う。

Graph Labeling

AttentionalGCNを用いて最終的に物体，関係性の分類。GraphConvによってobject，relationshipがまわりのグラフ構造を考慮した上でそれぞれの特徴量を更新していく。

A. Objectの更新について

大きく３つの関係性を踏まえて特徴量の更新　

⓵ 自分のまわりのObject(Message from other objects)

ただしObjectに関してはSkipconnectionを採用していて，離れたノード同士の関係性も考慮するようにしている。アテンションのαがskipとされているのもそのためである。特徴行列に掛け合わせる隣接行列のパラメータも学習させることで，隣接行列がノード同士の関係性を表すアテンションであるとみなすのがAttentionalGCN。そのため通常は同じノードを繋ぐ対角成分は１，エッジによってつながっていないノード同士は0となるようにし，残りの部分を学習させていくが，skipの場合は全ノード考慮するため，０成分で埋めずに対角成分以外をすべて更新していく。

⓶ Subjectからみたrelationship

⓷ Objectからみたrelationship

注意としては⓶，⓷を区別する必要あり