[ResNet系] 002 ResNet-v2

JohnLui 發(fā)布于2019-06-26 18:15 / 1405人閱讀

摘要：大量實驗結(jié)果證明了恒等映射的重要性。本文實驗了不同形式的，發(fā)現(xiàn)使用恒等映射的網(wǎng)絡性能最好，誤差減小最快且訓練損失最低。為了使得是恒等映射，需要調(diào)整和帶權值層的位置。恒等映射形式的快捷連接和預激活對于信號在網(wǎng)絡中的順暢傳播至關重要。

ResNet-v2

Identity Mappings in Deep Residual Networks
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Caffe實現(xiàn)：https://github.com/binLearnin...

摘要

近期已經(jīng)涌現(xiàn)出很多以深度殘差網(wǎng)絡（deep residual network）為基礎的極深層的網(wǎng)絡架構(gòu)，在準確率和收斂性等方面的表現(xiàn)都非常引人注目。本文主要分析殘差網(wǎng)絡基本構(gòu)件（block）中的信號傳播，我們發(fā)現(xiàn)當使用恒等映射（identity mapping）作為快捷連接（skip connection）并且將激活函數(shù)移至加法操作后面時，前向-反向信號都可以在兩個block之間直接傳播而不受到任何變換操作的影響。大量實驗結(jié)果證明了恒等映射的重要性。本文根據(jù)這個發(fā)現(xiàn)重新設計了一種殘差網(wǎng)絡基本單元（unit），使得網(wǎng)絡更易于訓練并且泛化性能也得到提升。官方實現(xiàn)（Torch）的源碼地址：https://github.com/KaimingHe/... 。

1. Introduction

深度殘差網(wǎng)絡（ResNet）由“殘差單元（Residual Units）”堆疊而成，每個單元可以表示為：

其中F是殘差函數(shù)，在ResNet中，h(xl)=xl是恒等映射，f是ReLU激活函數(shù)。
在ImageNet數(shù)據(jù)集和COCO數(shù)據(jù)集上，超過1000層的殘差網(wǎng)絡都取得了最優(yōu)的準確率。殘差網(wǎng)絡的核心思想是在h(xl)的基礎上學習附加的殘差函數(shù)F，其中很重要的選擇就是使用恒等映射h(xl)=xl，這可以通過在網(wǎng)絡中添加恒等快捷連接（skip connection / shortcut）來實現(xiàn)。
本文中主要著眼于分析在深度殘差網(wǎng)絡中構(gòu)建一個信息“直接”傳播的路徑——不只是在殘差單元直接，而是在整個網(wǎng)絡中信息可以“直接”傳播。如果h(xl)和f(yl)都是恒等映射，那么信號可以在單元間直接進行前向-反向傳播。實驗證明基本滿足上述條件的網(wǎng)絡架構(gòu)一般更容易訓練。本文實驗了不同形式的h(xl)，發(fā)現(xiàn)使用恒等映射的網(wǎng)絡性能最好，誤差減小最快且訓練損失最低。這些實驗說明“干凈”的信息通道有助于優(yōu)化。各種不同形式的h(xl)見圖1,2,4中的灰色箭頭所示。

為了構(gòu)建f(yl)=yl成為恒等映射，我們將激活函數(shù)（ReLU和BN）移到權值層之前，形成一種“預激活（pre-activation）”的方式，而不是常規(guī)的“后激活（post-activation）”方式，這樣就設計出了一種新的殘差單元（見圖1(b)）?；谶@種新的單元我們在CIFAR-10/100數(shù)據(jù)集上使用1001層殘差網(wǎng)絡進行訓練，發(fā)現(xiàn)新的殘差網(wǎng)絡比之前的更容易訓練并且泛化性能更好。另外還考察了200層新殘差網(wǎng)絡在ImageNet上的表現(xiàn)，原先的殘差網(wǎng)絡在這個層數(shù)之后開始出現(xiàn)過擬合的現(xiàn)象。

2. Analysis of Deep Residual Networks

原先的殘差網(wǎng)絡中的殘差單元可以表示為：

如果h、f都是恒等映射，那么公式(1)(2)可以合并為：

那么任意深層的單元L與淺層單元l之間的關系為：

公式(4)有兩個特性：(i)深層單元的特征可以由淺層單元的特征和殘差函數(shù)相加得到；(ii)任意深層單元的特征都可以由起始特征x0與先前所有殘差函數(shù)相加得到，這與普通（plain）網(wǎng)絡不同，普通網(wǎng)絡的深層特征是由一系列的矩陣向量相乘得到。殘差網(wǎng)絡是連加，普通網(wǎng)絡是連乘。
反向傳播時的計算公式如下：

從公式(5)中可以看出，反向傳播也是兩條路徑，其中之一直接將信息回傳，另一條會經(jīng)過所有的帶權重層。另外可以注意到第二項的值在一個mini-batch中不可能一直是1，也就是說回傳的梯度不會消失，不論網(wǎng)絡中的權值的值再小都不會發(fā)生梯度消失現(xiàn)象。

3. On the Importance of Identity Skip Connections

首先考察恒等映射的重要性。假設將恒等映射簡單的改為h(xl)=λxl，即：

如公式(3)到(4)一樣遞歸調(diào)用公式(6)，得到：

那么這種情況下的反向傳播計算公式為：

假設模型是一個極深層的網(wǎng)絡，考察第一個連乘的項，如果所有的λ都大于1，那么這一項會指數(shù)級增大；如果所有λ都小于1，那么這一項會很小甚至消失，會阻礙信號直接傳播，而強制信號通過帶權值的層進行傳播。實驗表明這種方式會導致模型很難優(yōu)化。不同形式的變換映射都會妨礙信號的傳播，進而影響訓練進程。

3.1 Experiments on Skip Connections

考察使用不同形式映射（見圖2）的網(wǎng)絡的性能，具體結(jié)果見表1，在訓練過程中的誤差變化見圖3。

在使用exclusive gating時，偏置bg的初始值對于網(wǎng)絡性能的影響很大。

3.2 Discussions

快捷連接中的乘法操作（scaling, gating, 1×1 convolutions, and dropout）會妨礙信號傳播，導致優(yōu)化出現(xiàn)問題。
值得注意的是gating和1×1 convolutions快捷連接引進了更多的參數(shù)，增強了模型的表示能力，但是它們的訓練誤差反而比恒等映射更大，這說明是退化現(xiàn)象導致了這些模型的優(yōu)化問題。

4. On the Usage of Activation Functions

第3章討論了公式(1)中的h是恒等映射的重要性，現(xiàn)在討論公式(2)中的f，如果f也是恒等映射的話網(wǎng)絡性能會不會也有提升。為了使得f是恒等映射，需要調(diào)整ReLU、BN和帶權值層的位置。

4.1 Experiments on Activation

下面考察多種組織方式（見圖4），使用不同激活方式的網(wǎng)絡的性能表現(xiàn)見表2。

BN after addition
效果比基準差，BN層移到相加操作后面會阻礙信號傳播，一個明顯的現(xiàn)象就是訓練初期誤差下降緩慢。
ReLU before addition
這樣組合的話殘差函數(shù)分支的輸出就一直保持非負，這會影響到模型的表示能力，而實驗結(jié)果也表明這種組合比基準差。
Post-activation or pre-activation?
原來的設計中相加操作后面還有一個ReLU激活函數(shù)，這個激活函數(shù)會影響到殘差單元的兩個分支，現(xiàn)在將它移到殘差函數(shù)分支上，快捷連接分支不再受到影響。具體操作如圖5所示。

根據(jù)激活函數(shù)與相加操作的位置關系，我們稱之前的組合方式為“后激活（post-activation）”，現(xiàn)在新的組合方式稱之為“預激活（pre-activation）”。原來的設計與預激活殘差單元之間的性能對比見表3。預激活方式又可以分為兩種：只將ReLU放在前面，或者將ReLU和BN都放到前面，根據(jù)表2中的結(jié)果可以看出full pre-activation的效果要更好。

4.2 Analysis

使用預激活有兩個方面的優(yōu)點：1)f變?yōu)楹愕扔成?，使得網(wǎng)絡更易于優(yōu)化；2)使用BN作為預激活可以加強對模型的正則化。
Ease of optimization
這在訓練1001層殘差網(wǎng)絡時尤為明顯，具體見圖1。使用原來設計的網(wǎng)絡在起始階段誤差下降很慢，因為f是ReLU激活函數(shù)，當信號為負時會被截斷，使模型無法很好地逼近期望函數(shù)；而使用預激活的網(wǎng)絡中的f是恒等映射，信號可以在不同單元直接直接傳播。我們使用的1001層網(wǎng)絡優(yōu)化速度很快，并且得到了最低的誤差。

f為ReLU對淺層殘差網(wǎng)絡的影響并不大，如圖6-right所示。我們認為是當網(wǎng)絡經(jīng)過一段時間的訓練之后權值經(jīng)過適當?shù)恼{(diào)整，使得單元輸出基本都是非負，此時f不再對信號進行截斷。但是截斷現(xiàn)象在超過1000層的網(wǎng)絡中經(jīng)常發(fā)生。

Reducing overfitting
觀察圖6-right，使用了預激活的網(wǎng)絡的訓練誤差稍高，但卻得到更低的測試誤差，我們推測這是BN層的正則化效果所致。原來的設計中雖然也用到了BN，但歸一化后的信號很快與快捷連接通道中的相加了，而相加后的信號是沒有歸一化的。本文新設計的預激活的單元中的所有權值層的輸入都是歸一化的信號。

5. Results

表4、表5分別展示了不同網(wǎng)絡在不同數(shù)據(jù)集上的表現(xiàn)。使用的預激活單元的更深層的殘差網(wǎng)絡都取得了最好的成績。

Computational Cost
本文提出的模型的計算復雜度正比于網(wǎng)絡深度，在ImageNet數(shù)據(jù)集上，200層的殘差網(wǎng)絡使用8塊GPU耗時約3周完成訓練。

6. Conclusions

恒等映射形式的快捷連接和預激活對于信號在網(wǎng)絡中的順暢傳播至關重要。
另附件介紹了各種網(wǎng)絡的實現(xiàn)細節(jié)。

文章版權歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/19630.html

[ResNet系] 004 WRN

摘要：顯示了殘差連接可以加速深層網(wǎng)絡的收斂速度，考察了殘差網(wǎng)絡中激活函數(shù)的位置順序，顯示了恒等映射在殘差網(wǎng)絡中的重要性，并且利用新的架構(gòu)可以訓練極深層的網(wǎng)絡。包含恒等映射的殘差有助于訓練極深層網(wǎng)絡，但同時也是殘差網(wǎng)絡的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現(xiàn)：https://github...

hankkin 2019-06-26 18:15 評論0 收藏0
[ResNet系] 003 ResNeXt

摘要：本文提出的網(wǎng)絡名為，意為維度基數(shù)。在空間通道維度分解網(wǎng)絡，減少冗余，可以對網(wǎng)絡進行加速或精簡。復雜度不變的情況下，隨著基數(shù)的增大錯誤率持續(xù)減小?？疾煸黾由疃葘挾然鶖?shù)對網(wǎng)絡性能的提升。 ResNeXt Aggregated Residual Transformations for Deep Neural NetworksSaining Xie, Ross Girshick, Piotr ...

kidsamong 2019-06-26 18:15 評論0 收藏0
[ResNet系] 005 DenseNet

摘要：將這些需要保留的信息直接通過恒等映射進行傳輸，展示了中的很多層對最終的結(jié)果影響極小，可以在訓練時隨機丟棄部分層。得益于密集連接的方式，可以同時具有恒等映射深度監(jiān)督和深度多樣性的特性。 DenseNet Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens ...

CODING 2019-06-26 18:17 評論0 收藏0
[ResNet系] 006 DPN

摘要：和是兩個非常重要的網(wǎng)絡，它們顯示了深層卷積神經(jīng)網(wǎng)絡的能力，并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡的學習能力。也有工作考察與的關系，與其相似，本文考察了與的關系。與的網(wǎng)絡架構(gòu)配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

plus2047 2019-06-26 18:17 評論0 收藏0
[ResNet系] 007 SENet

摘要：前面層中的以類別無關的方式增強可共享的低層表示的質(zhì)量。通過調(diào)整網(wǎng)絡各層間的連接機制來提升深層網(wǎng)絡的學習和表示性能?；径际浅Ｒ?guī)處理和訓練設置。根據(jù)輸入動態(tài)調(diào)整各通道的特征，增強網(wǎng)絡的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要卷積神經(jīng)網(wǎng)絡顧名思義就是依賴卷積操作，使用局部感受區(qū)域（loc...

huashiou 2019-06-26 18:17 評論0 收藏0