亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

CNN--結(jié)構(gòu)上的思考

myshell / 2245人閱讀

摘要:前面我們通過幾個(gè)數(shù)值展示了幾個(gè)比較經(jīng)典的網(wǎng)絡(luò)的一些特性,下面我們就花一點(diǎn)時(shí)間來仔細(xì)觀察網(wǎng)絡(luò)的變化,首先是在網(wǎng)絡(luò)結(jié)構(gòu)上的一些思考,其次是對(duì)于單層網(wǎng)絡(luò)內(nèi)部的擴(kuò)展,最后我們?cè)賮砜纯磳?duì)于網(wǎng)絡(luò)計(jì)算的改變。和這類結(jié)構(gòu)主要看中的是模型在局部的擬合能力。

前面我們通過幾個(gè)數(shù)值展示了幾個(gè)比較經(jīng)典的網(wǎng)絡(luò)的一些特性,下面我們就花一點(diǎn)時(shí)間來仔細(xì)觀察CNN網(wǎng)絡(luò)的變化,首先是VGG在網(wǎng)絡(luò)結(jié)構(gòu)上的一些思考,其次是Inception Module對(duì)于單層網(wǎng)絡(luò)內(nèi)部的擴(kuò)展,最后我們?cè)賮砜纯碦esidualNet對(duì)于網(wǎng)絡(luò)計(jì)算的改變。當(dāng)然,我們?cè)诮榻B這些模型的同時(shí)還會(huì)聊一些同時(shí)代其他的模型。

VGG模型

介紹VGG模型的文章中自夸了VGG模型的幾個(gè)特點(diǎn),下面我們來仔細(xì)說說,

首先是卷積核變小。實(shí)際上在VGG之前已經(jīng)有一些模型開始嘗試小卷積核了,VGG模型只是成功案例之中的一個(gè)。

那么小卷積核有什么好處呢?文章中提出了兩個(gè)好處,首先是參數(shù)數(shù)量變少,過去一個(gè)7*7的卷積核需要49個(gè)參數(shù),而現(xiàn)在3個(gè)3*3的卷積核有27個(gè)參數(shù),看上去參數(shù)數(shù)量降低了不少;第二是非線性層的增加,過去7*7的卷積層只有1層非線性層與其相配,現(xiàn)在有3個(gè)3*3的卷積層有3個(gè)非線性層。非線性層的增加會(huì)使模型變得更加復(fù)雜,因此模型的表現(xiàn)力也有了提高。

同時(shí)在文章還提出了VGG的模型收斂速度比之前的AlexNet還要快些,從后來人的角度來看,參數(shù)訓(xùn)練的速度和本層參數(shù)的數(shù)量相關(guān)。之前我們分析過CNN模型參數(shù)的方差,我們假設(shè)對(duì)于某一層,這層的輸入維度為,輸出維度為那么該層網(wǎng)絡(luò)中每個(gè)參數(shù)的方差應(yīng)該控制在。如果輸入輸出層的維度比較大,那么參數(shù)的理想方差就需要限定的更小,所以參數(shù)可以取值的范圍就比較小,那么優(yōu)化起來就比較費(fèi)勁;如果輸入輸出維度比較小,那么每個(gè)參數(shù)的理想方差就會(huì)相對(duì)大一些,那么可以取值的范圍就比較大,優(yōu)化起來就相對(duì)容易些。從這個(gè)角度來看,減小每一層參數(shù)的數(shù)量對(duì)于優(yōu)化來說是有意義的。

其次就是卷積層參數(shù)的規(guī)律。首先卷積層的操作不會(huì)改變輸入數(shù)據(jù)的維度,這里的維度主要指feature map的長(zhǎng)和寬。對(duì)于3*3的kernel,卷積層都會(huì)配一個(gè)大小為1的pad。同時(shí)stride被設(shè)為1。這樣經(jīng)過卷積層變換,長(zhǎng)寬沒有發(fā)生變化。這和之前的卷積層設(shè)計(jì)有些不同。而且每做一次pooling,feature map的長(zhǎng)寬各縮小一倍,channel層就會(huì)增加一倍。這樣的設(shè)計(jì)對(duì)于不同的feature map維度來說適配起來都比較容易。對(duì)于一些通過卷積減小維度的模型來說,對(duì)于不同的輸入,卷積后的輸出各不一樣,所以適配起來有可能不太方便,而現(xiàn)在只有pooling層改變長(zhǎng)寬維度,整體模型的維度計(jì)算就方便了許多。于是在論文中有輸入為256和384等維度,模型不需要根據(jù)不同的輸入維度設(shè)計(jì)不同的卷積結(jié)構(gòu),使用同樣的結(jié)構(gòu)或者直接加深網(wǎng)絡(luò)深度就可以了。

此外,模型也提到了1*1的卷積核,這個(gè)卷積核我們?cè)诤竺孢€會(huì)提到。這種卷積核也不會(huì)改變feature map的長(zhǎng)寬,同時(shí)又可以進(jìn)一步地增加模型的非線性層,也就增加了模型的表現(xiàn)能力。

上面就是VGGNet在架構(gòu)上做的這些改變,這些改變也被后面一些的模型所接納。

豐富模型層的內(nèi)部結(jié)構(gòu)

提到模型的內(nèi)部結(jié)構(gòu),我們就來到了GoogLeNet模型(這個(gè)英文單詞是在致敬LeNet?),模型中最核心的地方就是它的Inception Module。在此之前還有一個(gè)研究模型層內(nèi)部結(jié)構(gòu)的文章,叫做Network In Network,其中的道理也比較相似。

Network in Network和Inception Module這類結(jié)構(gòu)主要看中的是模型在局部的擬合能力。有些模型在結(jié)構(gòu)上是采用“一字長(zhǎng)蛇陣”的方法,對(duì)于某一個(gè)特定的尺度,模型只采用一個(gè)特定尺度的卷積核進(jìn)行處理,而上面兩種模型卻認(rèn)為,采用一種尺度處理可能不太夠,一張圖象通常具有總體特征特征和細(xì)節(jié)特征這兩類特征,我們用小卷積核能夠更好地捕捉一些細(xì)節(jié)特征,而隨著小卷積不斷地卷下去,慢慢地一些總體特征也就被發(fā)現(xiàn)。

可是這里有一個(gè)問題,那就是我們?cè)诰W(wǎng)絡(luò)前段只有細(xì)節(jié)特征,后段才慢慢有一些總體特征,而有時(shí)候我們想讓兩方面的特征匯集在一起,同時(shí)出現(xiàn)發(fā)揮作用。那么采用單一的卷積核恐怕不太容易解決這樣的問題。

于是上面兩種模型開始考慮,與其把模型加深,不如把模型加厚(其實(shí)深度差不多),每一次feature map尺度的變化前后,我都盡可能地多做分析,把想得到的不同來源的信息都盡可能得到,這樣的特征應(yīng)該會(huì)更有價(jià)值吧!

從乘法模型到加法模型

ResNet的核心思路就是把曾經(jīng)CNN模型中的乘法關(guān)系轉(zhuǎn)變成加法關(guān)系,讓模型有了點(diǎn)“Additive”的味道。關(guān)于這個(gè)問題,文章中采用一個(gè)極端的例子作說明。

假設(shè)我們已經(jīng)有了一個(gè)較淺模型,我們的目標(biāo)是去訓(xùn)練一個(gè)更深的模型。理論上如果我們能夠找到一個(gè)靠譜的優(yōu)化算法和足夠的數(shù)據(jù),那么這個(gè)更深的模型理論上應(yīng)該比那個(gè)較淺的模型具有更好的表達(dá)能力。如果拋開優(yōu)化和可能的過擬合問題不管,這個(gè)道理還是可以成立的。

就算較深的模型不能夠超越較淺的模型,至少它是可以作到和具有較淺的模型同樣的表達(dá)能力。如果我們把較深模型分成兩部分——和較淺模型相同的部分,比較淺模型多出來的部分,那么我們保持和較淺模型相同的部分的參數(shù)完全相同,同時(shí)讓多出來的模型部分“失效”,只原樣傳遞數(shù)據(jù)而不做任何處理,那么較深模型就和較淺的模型完全一樣了。在論文中,這些多出來的模型部分變成了“Identity Mapping”,也就是輸入和輸出完全一樣。

好了,那么對(duì)于現(xiàn)在的架構(gòu)來說,我們?nèi)绾螌W(xué)習(xí)這些“Identity Mapping”呢?過去的學(xué)習(xí)方法就是按現(xiàn)在的乘法模式進(jìn)行學(xué)習(xí),我們一般的CNN模型都是一層套一層,層與層之間的關(guān)系是乘法,下一層的輸出是上一層輸入和卷積相乘得到的。學(xué)習(xí)這樣的“Identity Mapping”還是有一點(diǎn)困難的,因?yàn)橹灰窍雽W(xué)到一個(gè)具體數(shù)值,它就具有一定的難度,不論是“Identity Mapping”還是其他。

于是,ResNet對(duì)上面的問題做了一些改變。既然是要學(xué)習(xí)“Identity Mapping”,那么我們能不能把過去的乘法轉(zhuǎn)變?yōu)榧臃??我們假設(shè)多出來的層的函數(shù)形式是F(x),那么乘法關(guān)系學(xué)習(xí)“Identity Mapping”就變成了,由于學(xué)習(xí)的形式?jīng)]有變,對(duì)于乘法我們學(xué)習(xí)起來同過去一樣,但是對(duì)于加法就簡(jiǎn)單多了——,只要將參數(shù)學(xué)習(xí)成0就可以了,0和其他數(shù)值相比具有很大的優(yōu)勢(shì),這樣訓(xùn)練難度就大大降低了。于是,我們也見到即使非常深的網(wǎng)絡(luò)也可以訓(xùn)練,這也驗(yàn)證了將乘法關(guān)系改為加法關(guān)系后對(duì)模型訓(xùn)練帶來的顯著提升。

在ResNet之前,還有一些網(wǎng)絡(luò)已經(jīng)提出了類似的思想,比如Highway-Network。Highway-Network同樣具有加法的特點(diǎn),但是它并不是一個(gè)純粹的加法,所以在優(yōu)化過程總較ResNet弱一些。

這樣我們就回顧完了上次我們提到的幾個(gè)模型中的閃光點(diǎn),如果想進(jìn)一步地研究這些模型以及模型結(jié)構(gòu)中的精妙之處,多多做實(shí)驗(yàn)多多分析數(shù)據(jù)才是王道。

最后一點(diǎn)

為什么GoogLeNet和ResNet的層數(shù)很深且參數(shù)很少?因?yàn)樗麄兊娜B接層比較少。為什么呢?

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4406.html

相關(guān)文章

  • 極驗(yàn)驗(yàn)證:淺析深度學(xué)習(xí)模型與應(yīng)用

    摘要:一時(shí)之間,深度學(xué)習(xí)備受追捧。百度等等公司紛紛開始大量的投入深度學(xué)習(xí)的應(yīng)用研究。極驗(yàn)驗(yàn)證就是將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全防御,通過深度學(xué)習(xí)建模學(xué)習(xí)人類與機(jī)器的行為特征,來區(qū)別人與機(jī)器,防止惡意程序?qū)W(wǎng)站進(jìn)行垃圾注冊(cè),撞庫(kù)登錄等。 2006年Geoffery ?Hinton提出了深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò)),并在2012年的ImageNet競(jìng)賽中有非凡的表現(xiàn),以15.3%的Top-5錯(cuò)誤率奪魁,比利用傳...

    王巖威 評(píng)論0 收藏0
  • 「正經(jīng)字幕」太無聊?「神經(jīng)玩笑機(jī)」就可以生成逗你笑的趣味字幕

    摘要:最后,我們顯示了若干張圖像中所生成的趣味字幕。圖所提出的有趣字幕生成的體系結(jié)構(gòu)。我們將所提出的方法稱為神經(jīng)玩笑機(jī)器,它是與預(yù)訓(xùn)練模型相結(jié)合的。用戶對(duì)已發(fā)布的字幕的趣味性進(jìn)行評(píng)估,并為字幕指定一至三顆星。 可以毫不夸張地說,笑是一種特殊的高階功能,且只有人類才擁有。那么,是什么引起人類的笑聲表達(dá)呢?最近,日本東京電機(jī)大學(xué)(Tokyo Denki University)和日本國(guó)家先進(jìn)工業(yè)科學(xué)和技...

    lastSeries 評(píng)論0 收藏0
  • 卷積神經(jīng)網(wǎng)絡(luò)中十大拍案叫絕的操作!

    摘要:分組卷積的思想影響比較深遠(yuǎn),當(dāng)前一些輕量級(jí)的網(wǎng)絡(luò),都用到了分組卷積的操作,以節(jié)省計(jì)算量。得到新的通道之后,這時(shí)再對(duì)這批新的通道進(jìn)行標(biāo)準(zhǔn)的跨通道卷積操作。 CNN從2012年的AlexNet發(fā)展至今,科學(xué)家們發(fā)明出各種各樣的CNN模型,一個(gè)比一個(gè)深,一個(gè)比一個(gè)準(zhǔn)確,一個(gè)比一個(gè)輕量。作者對(duì)近幾年一些具有變革性的工作進(jìn)行簡(jiǎn)單盤點(diǎn),從這些充滿革新性的工作中探討日后的CNN變革方向。本文只介紹其中具有...

    xavier 評(píng)論0 收藏0
  • 自然語言理解-從規(guī)則到深度學(xué)習(xí)

    摘要:本文詳細(xì)討論了自然語言理解的難點(diǎn),并進(jìn)一步針對(duì)自然語言理解的兩個(gè)核心問題,詳細(xì)介紹了規(guī)則方法和深度學(xué)習(xí)的應(yīng)用。引言自然語言理解是人工智能的核心難題之一,也是目前智能語音交互和人機(jī)對(duì)話的核心難題。 摘要:自然語言理解是人工智能的核心難題之一,也是目前智能語音交互和人機(jī)對(duì)話的核心難題。之前寫過一篇文章自然語言理解,介紹了當(dāng)時(shí)NLU的系統(tǒng)方案,感興趣的可以再翻一番,里面介紹過的一些內(nèi)容不再贅...

    CntChen 評(píng)論0 收藏0
  • 淺析 Hinton 最近提出的 Capsule 計(jì)劃

    摘要:近幾年以卷積神經(jīng)網(wǎng)絡(luò)有什么問題為主題做了多場(chǎng)報(bào)道,提出了他的計(jì)劃。最初提出就成為了人工智能火熱的研究方向。展現(xiàn)了和玻爾茲曼分布間驚人的聯(lián)系其在論文中多次稱,其背后的內(nèi)涵引人遐想。 Hinton 以深度學(xué)習(xí)之父 和 神經(jīng)網(wǎng)絡(luò)先驅(qū) 聞名于世,其對(duì)深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的諸多核心算法和結(jié)構(gòu)(包括深度學(xué)習(xí)這個(gè)名稱本身,反向傳播算法,受限玻爾茲曼機(jī),深度置信網(wǎng)絡(luò),對(duì)比散度算法,ReLU激活單元,Dropo...

    Donald 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<