2020 CVPR oral
《Unbiased Scene Graph Generation from Biased Training》
作者博文:https://mp.weixin.qq.com/s/wLsVyyhP9jjBoj1FMgy3xg
文章目錄
-
-
- 《Unbiased Scene Graph Generation from Biased Training》
-
- 針對問題
- 本文創新
- SGG算法結構
- 實驗結果
- 實驗細節
-
針對問題
由于VG資料的長尾效應,大部分SGG方法中網絡更關注label資訊,而沒有很好的利用視覺資訊,這就相當于僅根據label盲猜(Motif裡的baseline)
導緻的結果就是,具體的visual feature不再重要,也就預測不出真正有意義的finegrain的relationships了。因為更finegrain的relation出現太少,而且很容易錯,是以幹脆把所有複雜的sitting on/standing on/riding全預測成on。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5iN4UGOxATMxYmNwEGMyQWNwQWOkhjNxI2MyEjYjBjMk9CX0JXZ252bj91Ztl2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
本文創新
提出了反因果事實的推斷方法causal inference(不是訓練方法),其借鑒了因果推理的思想,使用Total Direct Effect(TDE)來取代單純的網絡log-likelihood,簡單來說就是用 初始預測結果 減去 控制變量得到的預測結果(偏差) 得到 最終預測(無偏差預測)
本文中認為VG資料集的長尾效應會導緻網絡過于偏向label資訊而忽視了視覺具體資訊,是以認為 不輸入視覺特征時得到的預測為偏差(bias),使用初始的預測減去這個bias得到最終預測
SGG算法結構
SGG算法結構大多都可以概括為下圖的結構:
其中u表示圖像,x表示RoI feature(即目标特征,這裡x表示目标對),z表示目标label(由x預測得到),這三者再結合用于預測關系謂詞Y_x
Counterfactual
反事實推測
去除視覺特征輸入,使用平均特征或者0特征代替視覺特征,依據label + image預測關系謂詞,得到預測結果Y_x(—),z,被認為是bias
TDE結果:将上述兩者相減即可
實驗結果
可以看出長尾效應減弱了很多
可以看出添加了本文的方法後有很大的提升
其中Fusion表示在計算Y時X,Z,I三者的融合方式,作者提到了兩種:
評價名額 作者使用的是VCTree中提出的mean [email protected]
實驗細節
論文中使用了相當大的篇幅說明實驗細節等等,這部分後續看完再補
寫在最後:本文的思想其實很簡單,但是目前看起來很有效啊,并且方法也很容易遷移到其他方法上![]()
場景圖生成論文閱讀筆記 之 Unbiased Scene Graph Generation from Biased Training