摘要:是針對語義分割任務(wù)提出的模型,主要使用深度卷積網(wǎng)絡(luò)條件隨機(jī)場,空洞卷積做像素級預(yù)測。在語義分割中存在兩個主要問題下采樣帶來的分辨率下降,細(xì)節(jié)信息丟失平移不變性,限制了定位精度針對以上問題,采用空洞卷積擴(kuò)大感受野,獲取更多的上下文信息。
背景
對圖像而言,常見的任務(wù)是:
圖像分類:提取類別特征,如:VGG19網(wǎng)絡(luò)
目標(biāo)檢測:提取類別,位置特征,如:YOLO網(wǎng)絡(luò)
語義分割(實例分割):提取類別,位置特征,針對每個像素,如:Deeplab網(wǎng)絡(luò)
我們知道,在做圖像分類的時候,一般會在模型的最后添加全連接層+softmax用于預(yù)測。但是,全連接層會把卷積學(xué)習(xí)到的類別,位置特征抽象成一維的概率信息,可以識別整個圖片的類別,不能標(biāo)識每個像素的類別。因此,為了保留圖像特征我們將全連接層替換為卷積層。
這樣,模型的輸出不再是一維,而是二維的圖。
由于特征圖經(jīng)過一系列的卷積和池化后(保持特征不變性,增大感受野,節(jié)省計算資源等)造成分辨率降低,丟失大量細(xì)節(jié)和邊緣信息,因此我們需要通過一定的手段還原原圖分辨率。
不同的模型會采取不同的還原方式,圖上以FCN為例,采用反卷積還原分辨率并使用加和的方式找回下采樣階段丟失的信息,直接把編碼階段的特征圖加到解碼階段中來。
基石FCN模型FCN闡釋了如何將CNN應(yīng)用到語義分割問題上,是深度學(xué)習(xí)應(yīng)用此問題的基石。
文章開始,我們談到模型最后的全連接層不適用與分割任務(wù),需要替換成卷積層,以此獲取二維的特征圖然后接softmax,對每個像素點(diǎn)進(jìn)行分類。
先通過卷積,池化下采樣,然后上采樣還原分辨率。上采樣一般有兩種方式:雙線性插值(Deeplab),反卷積(FCN)。
DeepLab是針對語義分割任務(wù)提出的模型,主要使用DCNN(深度卷積網(wǎng)絡(luò)),CRF(條件隨機(jī)場),空洞卷積做像素級預(yù)測。DCNN在語義分割中存在兩個主要問題:
下采樣帶來的分辨率下降,細(xì)節(jié)信息丟失
平移不變性,限制了定位精度
針對以上問題,Deeplab采用空洞卷積擴(kuò)大感受野,獲取更多的上下文信息。使用全連接條件隨機(jī)場(DenseCRF)提高模型捕獲細(xì)節(jié)的能力。
DCNN以VGG16模型為后端網(wǎng)絡(luò),將FC層全部轉(zhuǎn)為卷積層,改成全卷積網(wǎng)絡(luò)形式。最后的兩個池化層不下采樣,通過2或4的采樣率空洞卷積對特征圖擴(kuò)大感受野,縮小步幅。
模型訓(xùn)練的時候講VGG16的權(quán)重做微調(diào),損失函數(shù)取輸出特征圖ground truth下采樣8倍做交叉熵和;測試時取輸出圖雙線性上采樣得到的結(jié)果(DCNN預(yù)測物體的位置是粗略的,沒有確切的輪廓,針對此問題采用全連接的CRF提升分割精度)。
DeepLab v2相比DeepLab v1基礎(chǔ)層由VGG16改為ResNet,添加多尺度和ASPP模塊得到更好的分割結(jié)果。
空洞卷積作為密集預(yù)測的強(qiáng)大工具,可以擴(kuò)大感受野,在不增加參數(shù)量和計算量的同時獲取更多的上下文。
提出ASPP(空洞空間卷積池化金字塔),并行的采用多采樣率的空洞卷積進(jìn)行探測,以多個比例捕獲對象及圖像上下文。
組合DCNN和概率模型,改善分割邊界結(jié)果。
模型運(yùn)行步驟:
輸入經(jīng)過改進(jìn)的DCNN(帶空洞卷積和ASPP模塊)
通過雙線性插值恢復(fù)原圖大?。‵CN采用反卷積)
通過全連接的CRF細(xì)化預(yù)測結(jié)果,得到最終輸出
Google DeepLab v3DeepLab v3相比DeepLab v2:
重新討論了空洞卷積的使用,讓我們在級聯(lián)模塊和空間金字塔池化的框架下,能夠獲取更大的感受野從而獲取多尺度信息。
改進(jìn)ASPP模塊,由不同采樣率的空洞卷積和BN層組成。
使用大采樣率的3x3空洞卷積,因為圖像邊界響應(yīng)無法捕獲遠(yuǎn)距離信息,會退化為1x1卷積,因此將圖像級特征融合到ASPP模塊。
沒有使用CRF做后期優(yōu)化處理
Google DeepLab v3+
DeepLab v3+采用編碼器,解碼器結(jié)構(gòu),通過使用解碼器模塊改善物體邊緣的分割結(jié)果,還嘗試使用Xception作為編碼器。
如圖所示,空間金字塔池化可以池化不同分辨率的特征圖來捕獲上下文信息。編碼器解碼器結(jié)構(gòu)可以捕獲鋒利的邊界。先4倍上采樣,然后與編碼器中的特征圖合并,最后4倍上采樣恢復(fù)到原始圖像大小。
encoder就是DeepLab V3,通過修改ResNet101最后兩(一)個block的stride,使得output stride為8(16)。之后在block4后應(yīng)用改進(jìn)后的Atrous Spatial Pyramid Pooling,將所得的特征圖concatenate用1×1的卷積得到256個通道的特征圖。
在decoder中,特征圖首先上采樣4倍,然后與encoder中對應(yīng)分辨率低級特征concatenate。在concatenate之前,由于低級特征圖的通道數(shù)通常太多(256或512),而從encoder中得到的富含語義信息的特征圖通道數(shù)只有256,這樣會淡化語義信息,因此在concatenate之前,需要將低級特征圖通過1×1的卷積減少通道數(shù)。在concatenate之后用3×3的卷積改善特征,最后上采樣4倍恢復(fù)到原始圖像大小。
U-Net網(wǎng)絡(luò)可以利用較少的數(shù)據(jù)集進(jìn)行端到端訓(xùn)練,醫(yī)學(xué)領(lǐng)域應(yīng)用較多(醫(yī)學(xué)領(lǐng)域的標(biāo)注數(shù)據(jù)獲取成本很高)。
為了更有效的利用標(biāo)注數(shù)據(jù),采用數(shù)據(jù)增強(qiáng)的方法(訓(xùn)練樣本進(jìn)行隨機(jī)彈性形變)
網(wǎng)絡(luò)由收縮路徑獲取上下文信息以及一個對稱的擴(kuò)張路徑用以精確定位。
如圖所示,網(wǎng)絡(luò)結(jié)構(gòu)由contracting path和expansive path組成。
contracting:
含有重復(fù)結(jié)構(gòu),每個都有2個3x3卷積層,relu層和2x2最大池化層
每一次下采樣都將特征通道數(shù)加倍
expansive path:
每一步都使用反卷積,每次反卷積后將通道數(shù)量減半,特征圖大小加倍。
反卷積后,將反卷積的結(jié)果與contracting path中對應(yīng)的步驟的特征圖拼接起來
對拼接后的map再進(jìn)行2次3*3卷積
最后一層卷積核大小為1x1,將64通道的特征圖轉(zhuǎn)為特定類別數(shù)量
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/19989.html
摘要:一時之間,深度學(xué)習(xí)備受追捧。百度等等公司紛紛開始大量的投入深度學(xué)習(xí)的應(yīng)用研究。極驗驗證就是將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全防御,通過深度學(xué)習(xí)建模學(xué)習(xí)人類與機(jī)器的行為特征,來區(qū)別人與機(jī)器,防止惡意程序?qū)W(wǎng)站進(jìn)行垃圾注冊,撞庫登錄等。 2006年Geoffery ?Hinton提出了深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò)),并在2012年的ImageNet競賽中有非凡的表現(xiàn),以15.3%的Top-5錯誤率奪魁,比利用傳...
摘要:對批處理表的查詢不支持,和很多中常見的標(biāo)量函數(shù)。此外,可以同時在靜態(tài)表和流表上進(jìn)行查詢,這和的愿景是一樣的,將批處理看做特殊的流處理批看作是有限的流。最后,使用標(biāo)準(zhǔn)進(jìn)行流處理意味著有很多成熟的工具支持。查詢結(jié)果直接顯示在中。 從何而來 關(guān)系型API有很多好處:是聲明式的,用戶只需要告訴需要什么,系統(tǒng)決定如何計算;用戶不必特地實現(xiàn);更方便優(yōu)化,可以執(zhí)行得更高效。本身Flink就是一個統(tǒng)一...
閱讀 1913·2023-04-26 02:51
閱讀 2965·2021-09-10 10:50
閱讀 3232·2021-09-01 10:48
閱讀 3750·2019-08-30 15:53
閱讀 1915·2019-08-29 18:40
閱讀 469·2019-08-29 16:16
閱讀 2097·2019-08-29 13:21
閱讀 1872·2019-08-29 11:07