亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

「自歸一化神經(jīng)網(wǎng)絡(luò)」提出新型激活函數(shù)SELU

馬忠志 / 1466人閱讀

摘要:循環(huán)神經(jīng)網(wǎng)絡(luò)令語音和自然語言處理達(dá)到了新階段。自歸一化神經(jīng)網(wǎng)絡(luò)對于擾動是具有魯棒性的,它在訓(xùn)練誤差上并沒有高方差見圖。構(gòu)建自歸一化神經(jīng)網(wǎng)絡(luò)我們通過調(diào)整函數(shù)的屬性以構(gòu)建自歸一化神經(jīng)網(wǎng)絡(luò)。

近日,arXiv 上公開的一篇 NIPS 投稿論文《Self-Normalizing Neural Networks》引起了圈內(nèi)極大的關(guān)注,它提出了縮放指數(shù)型線性單元(SELU)而引進(jìn)了自歸一化屬性,該單元主要使用一個函數(shù) g 映射前后兩層神經(jīng)網(wǎng)絡(luò)的均值和方差以達(dá)到歸一化的效果。該論文的作者為 Sepp Hochreiter,也就是當(dāng)年和 Jürgen Schmidhuber 一起發(fā)明 LSTM 的大牛,之前的 ELU 同樣來自于他們組。有趣的是,這篇 NIPS 投稿論文雖然只有 9 頁正文,卻有著如同下圖一樣的 93 頁證明附錄。

在這篇文章中,機(jī)器之心對該論文進(jìn)行了概要介紹。此外,Github 上已有人做出了論文中提出的 SELUs 與 ReLU 和 Leaky ReLU 的對比,我們也對此對比進(jìn)行了介紹。

論文地址:https://arxiv.org/pdf/1706.02515.pdf

摘要:深度學(xué)習(xí)不僅通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)變革了計算機(jī)視覺,同時還通過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)變革了自然語言處理。然而,帶有標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)(FNN)的深度學(xué)習(xí)很少有成功的案例。通常表現(xiàn)良好的 FNN 都只是淺層模型,因此不能挖掘多層的抽象表征。所以我們希望引入自歸一化神經(jīng)網(wǎng)絡(luò)(self-normalizing neural networks/SNNs)以幫助挖掘高層次的抽象表征。雖然批歸一化要求較精確的歸一化,但 SNN 的神經(jīng)元激勵值可以自動地收斂到零均值和單位方差。SNN 的激活函數(shù)即稱之為「可縮放指數(shù)型線性單元(scaled exponential linear units/SELUs)」,該單元引入了自歸一化的屬性。使用 Banach 的不動點(diǎn)定理(fixed-point theorem),我們證明了激勵值逼近于零均值和單位方差并且通過許多層的前向傳播還是將收斂到零均值和單位方差,即使是存在噪聲和擾動的情況下也是這樣。這種 SNN 收斂屬性就允許 (1) 訓(xùn)練許多層的深度神經(jīng)網(wǎng)絡(luò),同時 (2) 采用強(qiáng)正則化、(3) 令學(xué)習(xí)更具魯棒性。此外,對于不逼近單位方差的激勵值,我們證明了其方差存在上確界和下確界,因此梯度消失和梯度爆炸是不可能出現(xiàn)的。同時我們采取了 (a) 來自 UCI 機(jī)器學(xué)習(xí)庫的 121 個任務(wù),并比較了其在 (b) 新藥發(fā)現(xiàn)基準(zhǔn)和 (c) 天文學(xué)任務(wù)上采用標(biāo)準(zhǔn) FNN 和其他機(jī)器學(xué)習(xí)方法(如隨機(jī)森林、支持向量機(jī)等)的性能。SNN 在 121 個 UCI 任務(wù)上顯著地優(yōu)于所有競爭的 FNN 方法,并在 Tox21 數(shù)據(jù)集上超過了所有的競爭方法,同時 SNN 還在天文數(shù)據(jù)集上達(dá)到了新紀(jì)錄。該實(shí)現(xiàn)的 SNN 架構(gòu)通常比較深,實(shí)現(xiàn)可以在以下鏈接獲得:http://github.com/bioinf-jku/SNNs。

前言

深度學(xué)習(xí)在許多不同的基準(zhǔn)上都達(dá)到了新記錄,并促進(jìn)了各種商業(yè)應(yīng)用的發(fā)展 [25, 33]。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[18] 令語音和自然語言處理達(dá)到了新階段。而與其相對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[24] 則變革了計算機(jī)視覺和視頻任務(wù)。

然而,當(dāng)我們回顧 Kaggle 競賽時,通常很少有任務(wù)是和計算機(jī)視覺或序列任務(wù)相關(guān)的,梯度提升、隨機(jī)森林或支持向量機(jī)(SVM)通常在絕大多數(shù)任務(wù)上都能取得十分優(yōu)秀的表現(xiàn)。相反,深度學(xué)習(xí)卻表現(xiàn)并不優(yōu)異。

為了更魯棒地訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),批歸一化發(fā)展成了歸一化神經(jīng)元激勵值為 0 均值和單位方差 [20] 的標(biāo)準(zhǔn)方法。層級歸一化(Layer normalization)[2] 確保了 0 均值和單位方差,因?yàn)槿绻弦粚拥募钪涤?0 均值和單位方差,那么權(quán)值歸一化 [32] 就確保了 0 均值和單位方差。然而,歸一化技術(shù)在訓(xùn)練時通常會受到隨機(jī)梯度下降(SGD)、隨機(jī)正則化(如 dropout)和估計歸一化參數(shù)所擾動。

自歸一化神經(jīng)網(wǎng)絡(luò)(SNN)對于擾動是具有魯棒性的,它在訓(xùn)練誤差上并沒有高方差(見圖 1)。SNN 令神經(jīng)元激勵值達(dá)到 0 均值和單位方差,從而達(dá)到和批歸一化相類似的效果,而這種歸一化效果可以在許多層級的訓(xùn)練中都保持魯棒性。SNN 基于縮放指數(shù)型線性單元(SELU)而引進(jìn)了自歸一化屬性,因此方差穩(wěn)定化(variance stabilization)也就避免了梯度爆炸和梯度消失。

自歸一化神經(jīng)網(wǎng)絡(luò)(SNN)

歸一化和 SNN

圖 1:左邊圖表和右邊圖表的 y 軸展示了帶有批歸一化(BatchNorm)和自歸一化(SNN)的前饋神經(jīng)網(wǎng)絡(luò)(FNN)的訓(xùn)練損失,x 軸代表迭代次數(shù),該訓(xùn)練在 MNIST 數(shù)據(jù)集和 CIFAR10 數(shù)據(jù)集上完成。我們測試的神經(jīng)網(wǎng)絡(luò)有 8、16 和 32 層,且學(xué)習(xí)率為 1e-5。采用批歸一化的 FNN 由于擾動出現(xiàn)了較大的方差,但 SNN 并不會出現(xiàn)較大的方差,因此 SNN 對擾動會更加魯棒,同時學(xué)習(xí)的速度也會更加迅速。

構(gòu)建自歸一化神經(jīng)網(wǎng)絡(luò)

我們通過調(diào)整函數(shù) g 的屬性以構(gòu)建自歸一化神經(jīng)網(wǎng)絡(luò)。函數(shù) g 只有兩個可設(shè)計的選擇:(1) 激活函數(shù)和 (2) 權(quán)重的初始化。

通過映射函數(shù) g 派生均值和方差

我們假設(shè) xi 之間相互獨(dú)立,并且有相同的均值μ 和方差 ν,當(dāng)然獨(dú)立性假設(shè)通常得不到滿足。我們將在后面詳細(xì)描述獨(dú)立性假設(shè)。函數(shù) g 將前一層神經(jīng)網(wǎng)絡(luò)激勵值的均值和方差映射到下一層中激勵值 y 的均值μ? = E(y) 和方差ν? = Var(y) 中:

這些積分的解析解可以通過以下方程求出:

歸一化權(quán)值的穩(wěn)定和誘集不動點(diǎn)(Attracting Fixed Point)(0,1)

非歸一化權(quán)值的穩(wěn)定和誘集不動點(diǎn)(Attracting Fixed Point)

在學(xué)習(xí)中歸一化的權(quán)值向量 w 并得不到保證。

圖 2:對于ω = 0 和 τ = 1,上圖描述了將均值μ(x 軸)和方差 v(y 軸)映射到下一層的均值 μ?和方差ν?。箭頭展示了由 g : (μ, ν) → (?μ, ν?) 映射的 (μ, ν) 的方向。映射 g 的不動點(diǎn)為 (0, 1)。

定理一(穩(wěn)定和誘集不動點(diǎn))

該章節(jié)給出了定理證明的概要(附錄 Section A3 給出詳細(xì)的證明)。根據(jù) Banach 不動點(diǎn)定理(fixed point theorem),我們證明了存在的誘集和穩(wěn)定不動點(diǎn)。

定理二(降低 v)

該定理的詳細(xì)證明可以在附錄 Section A3 中找到。因此,當(dāng)映射經(jīng)過許多層級時,在區(qū)間 [3, 16] 內(nèi)的方差被映射到一個小于 3 的值。

定理三(提高 v)

該定理的證明可以在附錄 Section A3 找到。所有映射 g(Eq. (3)) 的不動點(diǎn) (μ, ν) 確保了 0.8 =< τ時ν ? >0.16,0.9 =< τ時ν ?> 0.24。

初始化

因?yàn)?SNN 有歸一化權(quán)值的 0 均值和單位方差不動點(diǎn),所以我們初始化 SNN 來滿足一些期望的約束條件。

新的 Dropout 技術(shù)

標(biāo)準(zhǔn)的 Dropout 隨機(jī)地設(shè)定一個激勵值 x 以 1-q 的概率等于 0,其中 0 < q < 1。為了保持均值,激勵值在訓(xùn)練中通過 1/q 進(jìn)行縮放。

中心極限定理和獨(dú)立性假設(shè)的適用性

實(shí)驗(yàn)(略)

結(jié)論

我們提出了自歸一化神經(jīng)網(wǎng)絡(luò),并且已經(jīng)證明了當(dāng)神經(jīng)元激勵在網(wǎng)絡(luò)中傳播時是在朝零均值(zero mean)和單位方差(unit variance)的趨勢發(fā)展的。而且,對于沒有接近單位方差的激勵,我們也證明了方差映射的上線和下限。于是 SNN 不會產(chǎn)梯度消失和梯度爆炸的問題。因此,SNN 非常適用于多層的結(jié)構(gòu),這使我們可以引入一個全新的正則化(regularization)機(jī)制,從而更穩(wěn)健地進(jìn)行學(xué)習(xí)。在 121UCI 基準(zhǔn)數(shù)據(jù)集中,SNN 已經(jīng)超過了其他一些包括或不包括歸一化方法的 FNN,比如批歸一化(batch)、層級歸一化(layer)、權(quán)值歸一化(weight normalization)或其它特殊結(jié)構(gòu)(Highway network 或 Residual network)。SNN 也在藥物研發(fā)和天文學(xué)任務(wù)中產(chǎn)生了完美的結(jié)果。和其他的 FNN 網(wǎng)絡(luò)相比,高性能的 SNN 結(jié)構(gòu)通常深度更深。

附錄(略)

SELU 與 Relu、Leaky Relu 的對比

昨日,Shao-Hua Sun 在 Github 上放出了 SELU 與 Relu、Leaky Relu 的對比,機(jī)器之心對比較結(jié)果進(jìn)行了翻譯介紹,具體的實(shí)現(xiàn)過程可參看以下項(xiàng)目地址。

項(xiàng)目地址:https://github.com/shaohua0116/Activation-Visualization-Histogram

描述

本實(shí)驗(yàn)包括《自歸一化神經(jīng)網(wǎng)絡(luò)》(Self-Normalizing Neural Networks)這篇論文提出的 SELUs(縮放指數(shù)型線性單元)的 Tensorflow 實(shí)現(xiàn)。也旨在對 SELUs,ReLU 和 Leaky-ReLU 等進(jìn)行對比。本實(shí)驗(yàn)的重點(diǎn)是在 Tensorboard 上對激勵進(jìn)行可視化。

SELUs(縮放指數(shù)型線性單元),ReLU 和 Leaky-ReLU 的可視化和直方圖對比

理論上,我們希望每一層的激勵的均值為 0(zero mean),方差為 1(unit variance),來使在各層之間傳播的張量收斂(均值為 0,方差為 1)。這樣一來就避免了梯度突然消失或爆炸性增長的問題,從而使學(xué)習(xí)過程更加穩(wěn)定。在本實(shí)驗(yàn)中,作者提出 SELUs(縮放指數(shù)型線性單元),旨在對神經(jīng)元激勵進(jìn)行自動地轉(zhuǎn)移(shift)和重縮放 (rescale),在沒有明確的歸一化的情況下去實(shí)現(xiàn)零均值和單位方差。

為了用實(shí)驗(yàn)證明所提出的激勵的有效性,一個包含三個卷積層的卷積神經(jīng)網(wǎng)絡(luò)(也包括三個完全連接層——fully connected layers)在 MNIST, SVHN 和 CIFAR10 數(shù)據(jù)集上進(jìn)行訓(xùn)練,來進(jìn)行圖像分類。為了克服 Tensorboard 顯示內(nèi)容的一些限制,我們引入了繪圖庫 Tensorflow Plot 來彌補(bǔ) Python 繪圖庫和 Tensorboard 間的差距。以下是一些例子。

在 Tensorboard 上的激勵值直方圖

在 Tensorboard 上的激勵值可視化

實(shí)現(xiàn)模型在三個公開的數(shù)據(jù)集上進(jìn)行的訓(xùn)練與測試:MNIST、SVHN 和 CIFAR-10。

結(jié)果

下面我們只選擇性展示了最后一個卷積層(第三層)和較早的全連接層(第四層)的直方圖和可視化激勵值圖。

SELU

卷積層

全連接層

ReLU

卷積層

全連接層

Leaky ReLU

卷積層

全連接層

相關(guān)工作

Self-Normalizing Neural Networks by Klambauer et. al

Rectified Linear Units Improve Restricted Boltzmann Machines by Nair et. al.

Empirical Evaluation of Rectified Activations in Convolutional Network by Xu et. al.

作者

Shao-Hua Sun / @shaohua0116 (https://shaohua0116.github.io/)。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4572.html

相關(guān)文章

  • 從ReLU到Sinc,26種神經(jīng)網(wǎng)絡(luò)激活函數(shù)可視化

    摘要:修正線性單元,是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)。顧名思義,值激活函數(shù)返回輸入的值。如同余弦函數(shù),或簡單正弦函數(shù)激活函數(shù)為神經(jīng)網(wǎng)絡(luò)引入了周期性。此外,激活函數(shù)為零點(diǎn)對稱的奇函數(shù)。 在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)決定來自給定輸入集的節(jié)點(diǎn)的輸出,其中非線性激活函數(shù)允許網(wǎng)絡(luò)復(fù)制復(fù)雜的非線性行為。正如絕大多數(shù)神經(jīng)網(wǎng)絡(luò)借助某種形式的梯度下降進(jìn)行優(yōu)化,激活函數(shù)需要是可微分(或者至少是幾乎完全可微分的)。此外,復(fù)雜的激...

    Jeff 評論0 收藏0
  • 【DL-CV】批量歸一化(BN算法)

    摘要:為了解決這個問題出現(xiàn)了批量歸一化的算法,他對每一層的輸入進(jìn)行歸一化,保證每層的輸入數(shù)據(jù)分布是穩(wěn)定的,從而加速訓(xùn)練批量歸一化歸一化批,一批樣本輸入,,個樣本與激活函數(shù)層卷積層全連接層池化層一樣,批量歸一化也屬于網(wǎng)絡(luò)的一層,簡稱。 【DL-CV】數(shù)據(jù)預(yù)處理&權(quán)重初始化【DL-CV】正則化,Dropout 先來交代一下背景:在網(wǎng)絡(luò)訓(xùn)練的過程中,參數(shù)的更新會導(dǎo)致網(wǎng)絡(luò)的各層輸入數(shù)據(jù)的分布不斷變化...

    miya 評論0 收藏0
  • 【DL-CV】批量歸一化(BN算法)

    摘要:為了解決這個問題出現(xiàn)了批量歸一化的算法,他對每一層的輸入進(jìn)行歸一化,保證每層的輸入數(shù)據(jù)分布是穩(wěn)定的,從而加速訓(xùn)練批量歸一化歸一化批,一批樣本輸入,,個樣本與激活函數(shù)層卷積層全連接層池化層一樣,批量歸一化也屬于網(wǎng)絡(luò)的一層,簡稱。 【DL-CV】數(shù)據(jù)預(yù)處理&權(quán)重初始化【DL-CV】正則化,Dropout 先來交代一下背景:在網(wǎng)絡(luò)訓(xùn)練的過程中,參數(shù)的更新會導(dǎo)致網(wǎng)絡(luò)的各層輸入數(shù)據(jù)的分布不斷變化...

    fantix 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<