語義分割淺析

RaoMeng 發(fā)布于2019-06-26 18:54 / 1512人閱讀

摘要：是針對語義分割任務(wù)提出的模型，主要使用深度卷積網(wǎng)絡(luò)條件隨機(jī)場，空洞卷積做像素級預(yù)測。在語義分割中存在兩個主要問題下采樣帶來的分辨率下降，細(xì)節(jié)信息丟失平移不變性，限制了定位精度針對以上問題，采用空洞卷積擴(kuò)大感受野，獲取更多的上下文信息。

背景

對圖像而言，常見的任務(wù)是：

圖像分類：提取類別特征，如：VGG19網(wǎng)絡(luò)

目標(biāo)檢測：提取類別，位置特征，如：YOLO網(wǎng)絡(luò)

語義分割（實例分割）：提取類別，位置特征，針對每個像素，如：Deeplab網(wǎng)絡(luò)

我們知道，在做圖像分類的時候，一般會在模型的最后添加全連接層+softmax用于預(yù)測。但是，全連接層會把卷積學(xué)習(xí)到的類別，位置特征抽象成一維的概率信息，可以識別整個圖片的類別，不能標(biāo)識每個像素的類別。因此，為了保留圖像特征我們將全連接層替換為卷積層。

這樣，模型的輸出不再是一維，而是二維的圖。

由于特征圖經(jīng)過一系列的卷積和池化后（保持特征不變性，增大感受野，節(jié)省計算資源等）造成分辨率降低，丟失大量細(xì)節(jié)和邊緣信息，因此我們需要通過一定的手段還原原圖分辨率。

不同的模型會采取不同的還原方式，圖上以FCN為例，采用反卷積還原分辨率并使用加和的方式找回下采樣階段丟失的信息，直接把編碼階段的特征圖加到解碼階段中來。

基石FCN模型

FCN闡釋了如何將CNN應(yīng)用到語義分割問題上，是深度學(xué)習(xí)應(yīng)用此問題的基石。

文章開始，我們談到模型最后的全連接層不適用與分割任務(wù)，需要替換成卷積層，以此獲取二維的特征圖然后接softmax，對每個像素點(diǎn)進(jìn)行分類。

先通過卷積，池化下采樣，然后上采樣還原分辨率。上采樣一般有兩種方式：雙線性插值（Deeplab），反卷積（FCN）。

Google DeepLab v1

DeepLab是針對語義分割任務(wù)提出的模型，主要使用DCNN(深度卷積網(wǎng)絡(luò)),CRF(條件隨機(jī)場），空洞卷積做像素級預(yù)測。DCNN在語義分割中存在兩個主要問題：

下采樣帶來的分辨率下降，細(xì)節(jié)信息丟失

平移不變性，限制了定位精度

針對以上問題，Deeplab采用空洞卷積擴(kuò)大感受野，獲取更多的上下文信息。使用全連接條件隨機(jī)場（DenseCRF）提高模型捕獲細(xì)節(jié)的能力。
DCNN以VGG16模型為后端網(wǎng)絡(luò)，將FC層全部轉(zhuǎn)為卷積層，改成全卷積網(wǎng)絡(luò)形式。最后的兩個池化層不下采樣，通過2或4的采樣率空洞卷積對特征圖擴(kuò)大感受野，縮小步幅。
模型訓(xùn)練的時候講VGG16的權(quán)重做微調(diào)，損失函數(shù)取輸出特征圖ground truth下采樣8倍做交叉熵和；測試時取輸出圖雙線性上采樣得到的結(jié)果（DCNN預(yù)測物體的位置是粗略的，沒有確切的輪廓，針對此問題采用全連接的CRF提升分割精度）。

Google DeepLab v2

DeepLab v2相比DeepLab v1基礎(chǔ)層由VGG16改為ResNet，添加多尺度和ASPP模塊得到更好的分割結(jié)果。

空洞卷積作為密集預(yù)測的強(qiáng)大工具，可以擴(kuò)大感受野，在不增加參數(shù)量和計算量的同時獲取更多的上下文。

提出ASPP（空洞空間卷積池化金字塔），并行的采用多采樣率的空洞卷積進(jìn)行探測，以多個比例捕獲對象及圖像上下文。

組合DCNN和概率模型，改善分割邊界結(jié)果。

模型運(yùn)行步驟：

輸入經(jīng)過改進(jìn)的DCNN（帶空洞卷積和ASPP模塊）

通過雙線性插值恢復(fù)原圖大?。‵CN采用反卷積）

通過全連接的CRF細(xì)化預(yù)測結(jié)果，得到最終輸出

Google DeepLab v3

DeepLab v3相比DeepLab v2：

重新討論了空洞卷積的使用，讓我們在級聯(lián)模塊和空間金字塔池化的框架下，能夠獲取更大的感受野從而獲取多尺度信息。

改進(jìn)ASPP模塊，由不同采樣率的空洞卷積和BN層組成。

使用大采樣率的3x3空洞卷積，因為圖像邊界響應(yīng)無法捕獲遠(yuǎn)距離信息，會退化為1x1卷積，因此將圖像級特征融合到ASPP模塊。

沒有使用CRF做后期優(yōu)化處理

Google DeepLab v3+

DeepLab v3+采用編碼器，解碼器結(jié)構(gòu)，通過使用解碼器模塊改善物體邊緣的分割結(jié)果，還嘗試使用Xception作為編碼器。

如圖所示，空間金字塔池化可以池化不同分辨率的特征圖來捕獲上下文信息。編碼器解碼器結(jié)構(gòu)可以捕獲鋒利的邊界。先4倍上采樣，然后與編碼器中的特征圖合并，最后4倍上采樣恢復(fù)到原始圖像大小。
encoder就是DeepLab V3，通過修改ResNet101最后兩(一)個block的stride，使得output stride為8(16)。之后在block4后應(yīng)用改進(jìn)后的Atrous Spatial Pyramid Pooling，將所得的特征圖concatenate用1×1的卷積得到256個通道的特征圖。
在decoder中，特征圖首先上采樣4倍，然后與encoder中對應(yīng)分辨率低級特征concatenate。在concatenate之前，由于低級特征圖的通道數(shù)通常太多(256或512)，而從encoder中得到的富含語義信息的特征圖通道數(shù)只有256，這樣會淡化語義信息，因此在concatenate之前，需要將低級特征圖通過1×1的卷積減少通道數(shù)。在concatenate之后用3×3的卷積改善特征，最后上采樣4倍恢復(fù)到原始圖像大小。

U-Net網(wǎng)絡(luò)

U-Net網(wǎng)絡(luò)可以利用較少的數(shù)據(jù)集進(jìn)行端到端訓(xùn)練，醫(yī)學(xué)領(lǐng)域應(yīng)用較多（醫(yī)學(xué)領(lǐng)域的標(biāo)注數(shù)據(jù)獲取成本很高）。

為了更有效的利用標(biāo)注數(shù)據(jù)，采用數(shù)據(jù)增強(qiáng)的方法（訓(xùn)練樣本進(jìn)行隨機(jī)彈性形變）

網(wǎng)絡(luò)由收縮路徑獲取上下文信息以及一個對稱的擴(kuò)張路徑用以精確定位。

如圖所示，網(wǎng)絡(luò)結(jié)構(gòu)由contracting path和expansive path組成。
contracting：

含有重復(fù)結(jié)構(gòu)，每個都有2個3x3卷積層，relu層和2x2最大池化層

每一次下采樣都將特征通道數(shù)加倍

expansive path：

每一步都使用反卷積，每次反卷積后將通道數(shù)量減半，特征圖大小加倍。

反卷積后，將反卷積的結(jié)果與contracting path中對應(yīng)的步驟的特征圖拼接起來

對拼接后的map再進(jìn)行2次3*3卷積

最后一層卷積核大小為1x1，將64通道的特征圖轉(zhuǎn)為特定類別數(shù)量

云服務(wù)器 GPU云服務(wù)器源碼淺析 cdn淺析 jdbc連接mysql數(shù)據(jù)庫的方法淺析語義分析

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/19989.html

發(fā)表評論

登陸后可評論

0條評論

RaoMeng

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 1913·2023-04-26 02:51
手把手教你用echarts和SovitChart開發(fā)帶漸變色的柱狀圖

閱讀 2965·2021-09-10 10:50
Windows Server 2022 正式版發(fā)布(英文版、簡體中文版鏡像文件下載)

閱讀 3232·2021-09-01 10:48
CSS3中的box-sizing

閱讀 3750·2019-08-30 15:53
滑動穿透(鎖body)終極探索

閱讀 1915·2019-08-29 18:40
PWA 時代的移動端圖片優(yōu)化新思路

閱讀 469·2019-08-29 16:16
前端每周清單半年盤點(diǎn)之 CSS 篇

閱讀 2097·2019-08-29 13:21
惡心的兼容問題：完美解決IE(IE6/IE7/IE8)不兼容HTML5標(biāo)簽的問題

閱讀 1872·2019-08-29 11:07

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

語義分割淺析

相關(guān)文章

極驗驗證:淺析深度學(xué)習(xí)模型與應(yīng)用

淺析 Flink Table/SQL API

發(fā)表評論

0條評論

RaoMeng

男|高級講師

TA的文章

tensorflow

手把手教你用echarts和SovitChart開發(fā)帶漸變色的柱狀圖

Windows Server 2022 正式版發(fā)布(英文版、簡體中文版鏡像文件下載)

CSS3中的box-sizing

滑動穿透(鎖body)終極探索

PWA 時代的移動端圖片優(yōu)化新思路

前端每周清單半年盤點(diǎn)之 CSS 篇

惡心的兼容問題：完美解決IE(IE6/IE7/IE8)不兼容HTML5標(biāo)簽的問題

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

語義分割淺析

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！