Effective Use of Synthetic Data for Urban Scene Semantic Segmentation簡介

10 min readAug 12, 2018

ECCV 2018 paper

Fatemeh Sadat Saleh, Mohammad Sadegh Aliakbarian, Mathieu Salzmann, Lars Petersson, Jose M. Alvarez, “Effective Use of Synthetic Data for Urban Scene Semantic Segmentation”, arXiv:1807.06132v1

Github Code：沒找到，如果有的話歡迎留言，我會再做更新。

簡介

本篇論文在展示如何有效的使用合成（Synthetic）的圖片訓練語意分割模型(Semantic segmetation model)，

以往的語意分割模型若只使用合成的資料訓練再將其應用於實際場景的資料集時，

那個準確度會低很多，

因爲合成的資料集與現實世界的資料集還是會有差異性的，

兩者間有著 Domain shift 的問題，

為了解決上述的問題，

近年有個研究領域為 Domain adaptation，

但是 Domain adaptation 需要現實世界的資料集作輔助，

而這篇論文主打著不需要現實世界的資料集，

僅憑合成圖像訓練後，

直接應用於現實世界的資料集也能夠獲得相當高的準確度。

我們先來看看現實的資料集-Cityscapes 和合成的資料集-GTA5的差異，

可以看到前4個的背景其實是挺相似的，

但是後3個的前景其實只有形狀相似，圖片材質就差很多了。

本篇所給的概念是我們前景的 Segmentation 要利用形狀來學習，

因此提出使用 Detection-based 的方法 — Mask R-CNN

背景的部分因為形狀、材質都很相似，

因此使用常見的 Semantic segmentation model — Deeplab 來學就好。

下方這張圖也給出一個證明，使用 Detection-based 的方法在前景物品的偵測是較為準確的（除了motorcycle的類別。

備註：

下方的分數為mIOU，分數越高越好。

方法

下方會依序介紹這兩項：

Detection-based Semantic Segmentation

僅依靠合成的圖片做訓練

Leveraging unsupervised real images

利用真實的圖片做訓練，使用 Weakly-supervised 的概念。

方法 — Detection-based Semantic Segmentation 架構

先看步驟，讓你有個大方向。

Deeplab : 先透過 DeepLab 切出整張圖片的 Segmentation (會使此Segmentation當做基底)
Mask R-CNN : 再透過 Mask R-CNN 將前景的 Segmentation 切出來 (會使用這部分的前景)
Conbime : 將 Mask R-CNN 的前景預測直接蓋在 Deeplab 所預測的圖片上面

Step 1 — DeepLab

將圖片輸入進 VGG16-based DeepLab model，

並且使用 dilated convlution layer(這不多做介紹了，有興趣去看DeepLab系列)。

此 Model 的輸出會和 Ground truth label 做 Cross-entropy。

備註：

因為原始圖片的解析度很高，實際上訓練時會先 Resize 成一半的解析度。

Step 2 — Mask R-CNN

使用的是：Detectron Framework github

對 Mask R-CNN不清楚的可以看下面這篇Post，

關於影像辨識，所有你應該知道的深度學習模型
之所以推薦這篇是因為我認為要學好一件事情，要明白他的歷史演變，
上面這篇有從 R-CNN -> Fast R-CNN -> Faster R-CNN -> Mask R-CNN

將圖片輸入進 64 × 4d ResNeXt-101-FPN 的 Mask-RCNN 得出前景(Foreground 的 Semantic segmentation)，

如下圖：

備註：

單憑 GTA5 的資料集是無法訓練 Mask R-CNN的，
因此之後會介紹本篇論文的第 2 個貢獻 VEIS dataset，
Pretrained on ImageNet，並且會透 VEIS dataset做訓練。

Step 3 — Combine

這邊有對 Mask R-CNN 的方法做類似 Non-Maximum Suppression（NMS）的方法，

對 NMS 不清楚的可以去研究一下，這在 Semantic segmentation 很常見，這邊不贅述了。

最終將 Mask R-CNN 沒有輸出到的 pixel 都用 DeepLab所輸出的 Pixel 做填補，

此時的輸出就是 Mask R-CNN 的預測(著重前景) + DeepLab 的預測(負責整張圖片) 做結合。

方法 — Leveraging unsupervised real images

這邊的想法很簡單，

就像是 Domain adapatation ，

上面的方法只使用合成的圖片做訓練，

而這邊也會使用真實世界的圖片做訓練。

但是是有策略地做訓練，

基於一開始的結論，

合成圖片的背景部分和現實世界的背景圖片是相似的，

因此我們會使用 DeepLab 所預測的真實世界圖片label（僅限背景部分 — 馬路、人行道、建築等等）做 loss function。

此時我們的 Model 不只是對合成圖片的 Ground truth label 做 cross-entropy loss，

還會對我們預測出來的 label（僅使用背景部分）做 cross-entropy loss。

備註：

因前景的材質長得不一樣，
因此剛開始的 Mask R-CNN很爛，
還需要學習，
所以不使用它所預測的結果。
而使用 DeepLab 所預測出來結果當 label 是個險招，
這必須確保他一開始並不是太爛，才能夠慢慢的進步，不然只是找自己麻煩。
結果顯示：這招有用。

貢獻2 — VEIS

如果我們使用 Detection-based 的方法，

那我們就必須知道每個物件(Instanced level)的pixel在哪邊。

你可能會想說 Segmentation 的資料集不就有每個 pixel 的 label 了嗎？

我們來看看 GTA5-dataset 的圖片

Richter, S.R., Vineet, V., Roth, S., Koltun, V.: Playing for data: Ground truth from computer games. In: European Conference on Computer Vision. pp. 102–118. Springer (2016)