亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

LSTM 和遞歸網(wǎng)絡(luò)基礎(chǔ)教程

Barrior / 2875人閱讀

摘要:前饋網(wǎng)絡(luò)的反向傳播從最后的誤差開始,經(jīng)每個(gè)隱藏層的輸出權(quán)重和輸入反向移動,將一定比例的誤差分配給每個(gè)權(quán)重,方法是計(jì)算權(quán)重與誤差的偏導(dǎo)數(shù),即兩者變化速度的比例。隨后,梯度下降的學(xué)習(xí)算法會用這些偏導(dǎo)數(shù)對權(quán)重進(jìn)行上下調(diào)整以減少誤差。

目錄

前饋網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)

沿時(shí)間反向傳播

梯度消失與梯度膨脹

長短期記憶單元(LSTM)

涵蓋多種時(shí)間尺度

本文旨在幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)者了解遞歸網(wǎng)絡(luò)的運(yùn)作方式,以及一種主要的遞歸網(wǎng)絡(luò),即LSTM的功能和結(jié)構(gòu)。

遞歸網(wǎng)絡(luò)是一類人工神經(jīng)網(wǎng)絡(luò),用于識別諸如文本、基因組、手寫字跡、語音等序列數(shù)據(jù)的模式,或用于識別傳感器、股票市場、政府機(jī)構(gòu)產(chǎn)生的數(shù)值型時(shí)間序列數(shù)據(jù)。

遞歸網(wǎng)絡(luò)可以說是最強(qiáng)大的神經(jīng)網(wǎng)絡(luò),甚至可以將圖像分解為一系列圖像塊,作為序列加以處理。

由于遞歸網(wǎng)絡(luò)擁有一種特定的記憶模式,而記憶也是人類的基本能力之一,所以下文會時(shí)常將遞歸網(wǎng)絡(luò)與人腦的記憶活動進(jìn)行類比(注 1)。

前饋網(wǎng)絡(luò)回顧

要理解遞歸網(wǎng)絡(luò),首先需要了解前饋網(wǎng)絡(luò)的基礎(chǔ)知識。這兩種網(wǎng)絡(luò)的名字都來自于它們通過一系列網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)學(xué)運(yùn)算來傳遞信息的方式。前饋網(wǎng)絡(luò)將信息徑直向前遞送(從不返回已經(jīng)過的節(jié)點(diǎn)),而遞歸網(wǎng)絡(luò)則將信息循環(huán)傳遞。

在前饋網(wǎng)絡(luò)中,樣例輸入網(wǎng)絡(luò)后被轉(zhuǎn)換為一項(xiàng)輸出;在進(jìn)行有監(jiān)督學(xué)習(xí)時(shí),輸出為一個(gè)標(biāo)簽。也就是說,前饋網(wǎng)絡(luò)將原始數(shù)據(jù)映射到類別,識別出信號的模式,例如一張輸入圖像應(yīng)當(dāng)給予“貓”還是“大象”的標(biāo)簽。

我們用帶有標(biāo)簽的圖像定型一個(gè)前饋網(wǎng)絡(luò),直到網(wǎng)絡(luò)在猜測圖像類別時(shí)的錯(cuò)誤達(dá)到最少。將參數(shù),即權(quán)重定型后,網(wǎng)絡(luò)就可以對從未見過的數(shù)據(jù)進(jìn)行分類。已定型的前饋網(wǎng)絡(luò)可以接受任何隨機(jī)的圖片組合,而輸入的第一張照片并不會影響網(wǎng)絡(luò)對第二張照片的分類??吹揭粡堌埖恼掌粫?dǎo)致網(wǎng)絡(luò)預(yù)期下一張照片是大象。

這是因?yàn)榫W(wǎng)絡(luò)并沒有時(shí)間順序的概念,它所考慮的輸入是當(dāng)前所接受的樣例。前饋網(wǎng)絡(luò)仿佛患有短期失憶癥;它們只有早先被定型時(shí)的記憶。

遞歸網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)不同,其輸入不僅包括當(dāng)前所見的輸入樣例,還包括網(wǎng)絡(luò)在上一個(gè)時(shí)刻所感知到信息。以下是[由Elman提出的早期遞歸網(wǎng)絡(luò)]的示意圖(https://web.stanford.edu/group/pdplab/pdphandbook/handbookch8.html),圖中最下行的BTSXPE代表當(dāng)前的輸入樣例,而CONTEXT UNIT則表示前一時(shí)刻的輸出。

遞歸網(wǎng)絡(luò)在第t-1個(gè)時(shí)間步的判定會影響其在隨后第t個(gè)時(shí)間步的判定。所以遞歸網(wǎng)絡(luò)有來自當(dāng)下和不久之前的兩種輸入,此二者的結(jié)合決定了網(wǎng)絡(luò)對于新數(shù)據(jù)如何反應(yīng),與人類日常生活中的情形頗為相似。

遞歸網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)的區(qū)別便在于這種不斷將自身上一刻輸出當(dāng)作輸入的反饋循環(huán)。人們常說遞歸網(wǎng)絡(luò)是有記憶的。2 為神經(jīng)網(wǎng)絡(luò)添加記憶的目的在于:序列本身即帶有信息,而遞歸網(wǎng)絡(luò)能利用這種信息完成前饋網(wǎng)絡(luò)無法完成的任務(wù)。

這些順序信息保存在遞歸網(wǎng)絡(luò)隱藏狀態(tài)中,不斷向前層層傳遞,跨越許多個(gè)時(shí)間步,影響每一個(gè)新樣例的處理。

人類記憶會在體內(nèi)不斷進(jìn)行不可見的循環(huán),對我們的行為產(chǎn)生影響而不顯現(xiàn)出完整樣貌,而信息也同樣會在遞歸網(wǎng)絡(luò)的隱藏狀態(tài)中循環(huán)。英語中有許多描述記憶反饋循環(huán)的說法。例如,我們會說“一個(gè)人被往日所為之事糾纏”,這其實(shí)就是在講過去的輸出對當(dāng)前造成了影響。法國人稱之為“Le passé qui ne passe pas”,即“過去之事不曾過去”。

讓我們用數(shù)學(xué)語言來描述將記憶向前傳遞的過程:

第t個(gè)時(shí)間步的隱藏狀態(tài)是h_t。它是同一時(shí)間步的輸入x_t的函數(shù),由一個(gè)權(quán)重矩陣W(和我們在前饋網(wǎng)絡(luò)中使用的一樣)修正,加上前一時(shí)間步的隱藏狀態(tài)h_t-1乘以它自己的隱藏狀態(tài)-隱藏狀態(tài)矩陣的U(或稱過渡矩陣,與馬爾可夫鏈近似)。權(quán)重矩陣是決定賦予當(dāng)前輸入及過去隱藏狀態(tài)多少重要性的篩選器。它們所產(chǎn)生的誤差將會通過反向傳播返回,用于調(diào)整權(quán)重,直到誤差不能再降低為止。

權(quán)重輸入與隱藏狀態(tài)之和用函數(shù)??進(jìn)行擠壓-可能是邏輯S形函數(shù)(sigmoid函數(shù))或雙曲正切函數(shù),視具體情況而定-這是將很大或很小的值壓縮至一個(gè)邏輯空間內(nèi)的標(biāo)準(zhǔn)工具,同時(shí)也用于產(chǎn)生反向傳播所能接受的梯度。

由于這一反饋循環(huán)會在系列的每一個(gè)時(shí)間步發(fā)生,每一個(gè)隱藏狀態(tài)不僅僅跟蹤前一個(gè)隱藏狀態(tài),還包括了記憶能力范圍內(nèi)所有在h_t-1之前的狀態(tài)。

若輸入一系列字母,則遞歸網(wǎng)絡(luò)必定會根據(jù)第一個(gè)字符來決定對第二個(gè)字符的感知, 例如,第一個(gè)字母如果是q,網(wǎng)絡(luò)就可能推斷下一個(gè)字母是u,而第一個(gè)字母如果是t,則網(wǎng)絡(luò)可能推斷下一個(gè)字母是h。

由于遞歸網(wǎng)絡(luò)具有時(shí)間維度,所以可能用動畫示意更為清楚(最先出現(xiàn)的節(jié)點(diǎn)垂直線可被視為一個(gè)前饋網(wǎng)絡(luò),隨時(shí)間展開后變?yōu)檫f歸網(wǎng)絡(luò))。

在上圖中,每一個(gè)x都是一個(gè)輸入樣例,w是用于篩選輸入的權(quán)重,a是隱藏層的激活狀態(tài)(附加權(quán)重后的輸入與上一個(gè)隱藏狀態(tài)之和),而b則是隱藏層在轉(zhuǎn)換,或稱“擠壓”后的輸出,使用線性修正或sigmoid單位。

沿時(shí)間反向傳播(BPTT)

前文提到,遞歸網(wǎng)絡(luò)的目的是準(zhǔn)確地對序列輸入進(jìn)行分類。我們依靠誤差反向傳播和梯度下降來達(dá)成這一目標(biāo)。

前饋網(wǎng)絡(luò)的反向傳播從最后的誤差開始,經(jīng)每個(gè)隱藏層的輸出、權(quán)重和輸入反向移動,將一定比例的誤差分配給每個(gè)權(quán)重,方法是計(jì)算權(quán)重與誤差的偏導(dǎo)數(shù)-a??E/a??w,即兩者變化速度的比例。隨后,梯度下降的學(xué)習(xí)算法會用這些偏導(dǎo)數(shù)對權(quán)重進(jìn)行上下調(diào)整以減少誤差。

遞歸網(wǎng)絡(luò)則使用反向傳播的一種擴(kuò)展方法,名為沿時(shí)間反向傳播,或稱BPTT。在這里,時(shí)間其實(shí)就表示為一系列定義完備的有序計(jì)算,將時(shí)間步依次連接,而這些計(jì)算就是反向傳播的全部內(nèi)容。

無論遞歸與否,神經(jīng)網(wǎng)絡(luò)其實(shí)都只是形如f(g(h(x)))的嵌套復(fù)合函數(shù)。增加時(shí)間要素僅僅是擴(kuò)展了函數(shù)系列,我們用鏈?zhǔn)椒▌t計(jì)算這些函數(shù)的導(dǎo)數(shù)。

截?cái)嗍紹PTT

截?cái)嗍紹PTT 是完整BPTT的近似方法,也是處理較長序列時(shí)的優(yōu)先選擇,因?yàn)闀r(shí)間步數(shù)量較多時(shí),完整BPTT每次參數(shù)更新的正向/反向運(yùn)算量會變的非常高。該方法的缺點(diǎn)是,由于截?cái)嗖僮?,梯度反向移動的距離有限,因此網(wǎng)絡(luò)能夠?qū)W習(xí)的依賴長度要短于完整的BPTT。

梯度消失(與膨脹)

像大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,遞歸網(wǎng)絡(luò)并非新事物。在上世紀(jì)九十年代早期,梯度消失問題成為影響遞歸網(wǎng)絡(luò)表現(xiàn)的重大障礙。

正如直線表示x如何隨著y的變化而改變,梯度表示所有權(quán)重隨誤差變化而發(fā)生的改變。如果梯度未知,則無法朝減少誤差的方向調(diào)整權(quán)重,網(wǎng)絡(luò)就會停止學(xué)習(xí)。

遞歸網(wǎng)絡(luò)在尋找最終輸出與許多時(shí)間步以前的事件之間的聯(lián)系時(shí)遇到了重大障礙,因?yàn)楹茈y判斷應(yīng)當(dāng)為遠(yuǎn)距離的輸入賦予多少重要性。(這些輸入就像曾曾…曾祖父母一樣,不斷向前追溯時(shí)會迅速增多,而留下的印象通常很模糊。)

原因之一是, 神經(jīng)網(wǎng)絡(luò)中流動的信息會經(jīng)過許多級的乘法運(yùn)算。

凡是學(xué)過復(fù)合利率的人都知道,任何數(shù)值,只要頻繁乘以略大于一的數(shù),就會增大到無法衡量的地步(經(jīng)濟(jì)學(xué)中的網(wǎng)絡(luò)效應(yīng)和難以避免的社會不平等背后正是這一簡單的數(shù)學(xué)真理)。反之亦然:將一個(gè)數(shù)反復(fù)乘以小于一的數(shù),也就會有相反的效果。賭徒要是每下一美元注都輸?shù)?7美分,那片刻就會傾家蕩產(chǎn)。

由于深度神經(jīng)網(wǎng)絡(luò)的層和時(shí)間步通過乘法彼此聯(lián)系,導(dǎo)數(shù)有可能消失或膨脹。

梯度膨脹時(shí),每個(gè)權(quán)重就仿佛是一只諺語中提到的蝴蝶,所有的蝴蝶一齊扇動翅膀,就會在遙遠(yuǎn)的地方引發(fā)一場颶風(fēng)。這些權(quán)重的梯度增大至飽和,亦即它們的重要性被設(shè)得過高。但梯度膨脹的問題相對比較容易解決,因?yàn)榭梢詫⑵浣財(cái)嗷驍D壓。而消失的梯度則有可能變得過小,以至于計(jì)算機(jī)無法處理,網(wǎng)絡(luò)無法學(xué)習(xí)-這個(gè)問題更難解決。

反復(fù)應(yīng)用sigmoid函數(shù)的結(jié)果如下圖所示。數(shù)據(jù)曲線越來越平緩,直至在較長的距離上無法檢測到斜度。梯度在經(jīng)過許多個(gè)層后消失的情況與此相似。

長短期記憶單元(LSTM)

九十年代中期,德國學(xué)者Sepp Hochreiter和Juergen Schmidhuber提出了遞歸網(wǎng)絡(luò)的一種變體,帶有所謂長短期記憶單元,或稱LSTM,可以解決梯度消失的問題。

LSTM可保留誤差,用于沿時(shí)間和層進(jìn)行反向傳遞。LSTM將誤差保持在更為恒定的水平,讓遞歸網(wǎng)絡(luò)能夠進(jìn)行許多個(gè)時(shí)間步的學(xué)習(xí)(超過1000個(gè)時(shí)間步),從而打開了建立遠(yuǎn)距離因果聯(lián)系的通道。

LSTM將信息存放在遞歸網(wǎng)絡(luò)正常信息流之外的門控單元中。這些單元可以存儲、寫入或讀取信息,就像計(jì)算機(jī)內(nèi)存中的數(shù)據(jù)一樣。單元通過門的開關(guān)判定存儲哪些信息,以及何時(shí)允許讀取、寫入或清除信息。但與計(jì)算機(jī)中的數(shù)字式存儲器不同的是,這些門是模擬的,包含輸出范圍全部在0~1之間的sigmoid函數(shù)的逐元素相乘操作。相比數(shù)字式存儲,模擬值的優(yōu)點(diǎn)是可微分,因此適合反向傳播。

這些門依據(jù)接收到的信號而開關(guān),而且與神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)類似,它們會用自有的權(quán)重集對信息進(jìn)行篩選,根據(jù)其強(qiáng)度和導(dǎo)入內(nèi)容決定是否允許信息通過。這些權(quán)重就像調(diào)制輸入和隱藏狀態(tài)的權(quán)重一樣,會通過遞歸網(wǎng)絡(luò)的學(xué)習(xí)過程進(jìn)行調(diào)整。也就是說,記憶單元會通過猜測、誤差反向傳播、用梯度下降調(diào)整權(quán)重的迭代過程學(xué)習(xí)何時(shí)允許數(shù)據(jù)進(jìn)入、離開或被刪除。

下圖顯示了數(shù)據(jù)在記憶單元中如何流動,以及單元中的門如何控制數(shù)據(jù)流動。

上圖中的內(nèi)容很多,如果讀者剛開始學(xué)習(xí)LSTM,別急著向下閱讀-請先花一些時(shí)間思考一下這張圖。只要幾分鐘,你就會明白其中的秘密。

首先,最底部的三個(gè)箭頭表示信息從多個(gè)點(diǎn)流入記憶單元。當(dāng)前輸入與過去的單元狀態(tài)不只被送入記憶單元本身,同時(shí)也進(jìn)入單元的三個(gè)門,而這些門將決定如何處理輸入。

圖中的黑點(diǎn)即是門,分別決定何時(shí)允許新輸入進(jìn)入,何時(shí)清除當(dāng)前的單元狀態(tài),以及/或何時(shí)讓單元狀態(tài)對當(dāng)前時(shí)間步的網(wǎng)絡(luò)輸出產(chǎn)生影響。S_c是記憶單元的當(dāng)前狀態(tài),而g_y_in是當(dāng)前的輸入。記住,每個(gè)門都可開可關(guān),而且門在每個(gè)時(shí)間步都會重新組合開關(guān)狀態(tài)。記憶單元在每個(gè)時(shí)間步都可以決定是否遺忘其狀態(tài),是否允許寫入,是否允許讀取,相應(yīng)的信息流如圖所示。

圖中較大的黑體字母即是每項(xiàng)操作的結(jié)果。

下面是另一張圖,將簡單遞歸網(wǎng)絡(luò)(左)與LSTM單元(右)進(jìn)行對比。藍(lán)線可忽略;圖例有助理解。

應(yīng)當(dāng)注意的是,LSTM的記憶單元在輸入轉(zhuǎn)換中給予加法和乘法不同的角色。兩張圖中央的加號其實(shí)就是LSTM的秘密。雖然看起來異常簡單,這一基本的改變能幫助LSTM在必須進(jìn)行深度反向傳播時(shí)維持恒定的誤差。LSTM確定后續(xù)單元狀態(tài)的方式并非將當(dāng)前狀態(tài)與新輸入相乘,而是將兩者相加,這正是LSTM的特別之處。(當(dāng)然,遺忘門依舊使用乘法。)

不同的權(quán)重集對輸入信息進(jìn)行篩選,決定是否輸入、輸出或遺忘。遺忘門的形式是一個(gè)線性恒等函數(shù),因?yàn)槿绻T打開,則記憶單元的當(dāng)前狀態(tài)就只會與1相乘,正向傳播一個(gè)時(shí)間步。

此外,講到簡單的竅門,將每個(gè)LSTM單元遺忘門的偏差設(shè)定為1,經(jīng)證明可以提升網(wǎng)絡(luò)表現(xiàn)。(但Sutskever建議將偏差設(shè)定5。)

你可能會問,如果LSTM的目的是將遠(yuǎn)距離事件與最終的輸出聯(lián)系起來,那為什么需要有遺忘門?因?yàn)橛袝r(shí)候遺忘是件好事。以分析一個(gè)文本語料庫為例,在到達(dá)文檔的末尾時(shí),你可能會認(rèn)為下一個(gè)文檔與這個(gè)文檔肯定沒有任何聯(lián)系,所以記憶單元在開始吸收下一個(gè)文檔的第一項(xiàng)元素前應(yīng)當(dāng)先歸零。

在下圖中可以看到門的運(yùn)作方式,其中橫線代表關(guān)閉的門,而空心小圓圈則代表打開的門。在隱藏層下方水平一行的橫線和圓圈就是遺忘門。

應(yīng)當(dāng)注意的是,前饋網(wǎng)絡(luò)只能將一個(gè)輸入映射至一個(gè)輸出,而遞歸網(wǎng)絡(luò)則可以像上圖那樣將一個(gè)輸入映射至多個(gè)輸出(從一張圖像到標(biāo)題中的許多詞),也可以進(jìn)行多對多(翻譯)或多對一(語音分類)的映射。

涵蓋多種時(shí)間尺度和遠(yuǎn)距離依賴

你可能還會問,輸入門阻止新數(shù)據(jù)進(jìn)入記憶單元,輸出門阻止記憶單元影響RNN特定輸出,此時(shí)這兩種門確切的值如何呢?可以認(rèn)為LSTM相當(dāng)于允許一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)在不同時(shí)間尺度上運(yùn)行。

以一個(gè)人的人生為例,想象一下我們?nèi)绾我砸粋€(gè)時(shí)間序列的形式接收有關(guān)的這一人生不同數(shù)據(jù)流。就地理位置而言,每個(gè)時(shí)間步的位置對下一個(gè)時(shí)間步都相當(dāng)重要, 所以地理位置的時(shí)間尺度就是始終對的信息保持開放。

假設(shè)這個(gè)人是位模范公民,每隔幾年就會投票。就民主生活的時(shí)間尺度而言,我們希望特別注意這個(gè)人在選舉前后所做的事,關(guān)注這個(gè)人在擱下重大議題、回歸日常生活之前的所作所為。我們不希望我們的政治分析被持續(xù)更新的地理位置信息所干擾。

如果這人還是個(gè)模范女兒,那我們或許可以增加家庭生活的時(shí)間尺度,了解到她打電話的模式是每周日一次,而每年過節(jié)期間電話量會大幅增加。這與政治活動周期和地理位置無關(guān)。

其他數(shù)據(jù)也是如此。音樂有復(fù)合節(jié)拍。文本包含按不同間隔反復(fù)出現(xiàn)的主題。股票市場和經(jīng)濟(jì)體在長期波動之余還會經(jīng)歷短期震蕩。這些事件同時(shí)在不同的時(shí)間尺度上進(jìn)行,而LSTM可以涵蓋所有這些時(shí)間尺度。

門控遞歸單元(GRU)

門控遞歸單元(GRU)本質(zhì)上就是一個(gè)沒有輸出門的LSTM,因此它在每個(gè)時(shí)間步都會將記憶單元中的所有內(nèi)容寫入整體網(wǎng)絡(luò)。

LSTM超參數(shù)調(diào)試

以下是手動優(yōu)化RNN超參數(shù)時(shí)需要注意的一些事:

小心出現(xiàn)過擬合,這通常是因?yàn)樯窠?jīng)網(wǎng)絡(luò)在“死記”定型數(shù)據(jù)。過擬合意味著定型數(shù)據(jù)的表現(xiàn)會很好,但網(wǎng)絡(luò)的模型對于樣例以外的預(yù)測則完全無用。

正則化有好處:正則化的方法包括l1、l2和丟棄法等。

保留一個(gè)神經(jīng)網(wǎng)絡(luò)不作定型的多帶帶測試集。

網(wǎng)絡(luò)越大,功能越強(qiáng),但也更容易過擬合。不要嘗試用10,000個(gè)樣例來學(xué)習(xí)一百萬個(gè)參數(shù)參數(shù) > 樣例數(shù) = 問題。

數(shù)據(jù)基本上總是越多越好,因?yàn)橛兄诜乐惯^擬合。

定型應(yīng)當(dāng)包括多個(gè)epoch(使用整個(gè)數(shù)據(jù)集定型一次)。

每個(gè)epoch之后,評估測試集表現(xiàn),判斷何時(shí)停止(提前停止)。

學(xué)習(xí)速率是更為重要的超參數(shù)??捎胐eeplearning4j-ui調(diào)試;

總體而言,堆疊層是有好處的。

對于LSTM,可使用softsign(而非softmax)激活函數(shù)替代tanh(更快且更不容易出現(xiàn)飽和(約0梯度))。

更新器:RMSProp、AdaGrad或momentum(Nesterovs)通常都是較好的選擇。AdaGrad還能衰減學(xué)習(xí)速率,有時(shí)會有幫助。

最后,記住數(shù)據(jù)標(biāo)準(zhǔn)化、MSE損失函數(shù) + 恒等激活函數(shù)用于回歸、Xavier權(quán)重初始化

1) 雖然遞歸網(wǎng)絡(luò)可能距離通用人工智能還很遙遠(yuǎn),但我們相信,智能實(shí)際上比我們所想的要“笨”。也就是說,有了簡單的反饋循環(huán)作為記憶,我們就有了意識的基本元素之一-一項(xiàng)必要但不充分條件。上文沒有提到的其他條件可能包括表示網(wǎng)絡(luò)及其狀態(tài)的額外變量,以及基于數(shù)據(jù)解釋的決策邏輯框架。理想狀態(tài)下,后者會成為一個(gè)更大的問題解決循環(huán)的一部分,獎勵(lì)成功,懲罰失敗,與強(qiáng)化學(xué)習(xí)十分相似。話說,DeepMind已經(jīng)造出了這樣的框架……

2) 所有參數(shù)經(jīng)過優(yōu)化的神經(jīng)網(wǎng)絡(luò)在某種意義上都具有記憶,因?yàn)檫@些參數(shù)是過往數(shù)據(jù)的痕跡。但在前饋網(wǎng)絡(luò)中,這種記憶可能被凍結(jié)在了過去。也就是說,當(dāng)網(wǎng)絡(luò)定型后,它所學(xué)習(xí)的模型可能被應(yīng)用于更多數(shù)據(jù),而不再對自身進(jìn)行調(diào)整。此外,這類網(wǎng)絡(luò)也具有單體性,即將同樣的記憶(或權(quán)重集)應(yīng)用于所有輸入數(shù)據(jù)。遞歸網(wǎng)絡(luò)有時(shí)也稱為動態(tài)(意為:“不斷變化的”)神經(jīng)網(wǎng)絡(luò),它與前饋網(wǎng)絡(luò)的較大區(qū)別不在于擁有記憶,而是它能夠?qū)⑻囟?quán)重賦予以序列方式發(fā)生的多個(gè)事件。雖然這些事件不一定需要緊密相連,但網(wǎng)絡(luò)會假定它們都被同一根時(shí)間線聯(lián)系起來,不論距離多遠(yuǎn)。前饋網(wǎng)絡(luò)則不會進(jìn)行這樣的假設(shè)。它們將世界視為不具備時(shí)間次序的一堆對象。將這兩種神經(jīng)網(wǎng)絡(luò)與兩種人類知識做類比可能會有助于理解。小時(shí)候,我們學(xué)習(xí)辨認(rèn)顏色,然后我們這一輩子不論在何處都能認(rèn)出各種顏色,在差別極大的各類情景中都是如此,也不受時(shí)間影響。顏色我們只需要學(xué)習(xí)一次。這種知識就像是前饋網(wǎng)絡(luò)的記憶:它們依賴于一種沒有范圍、無限定的過往信息。它們不知道也不關(guān)心五分鐘之前輸入的是什么顏色。前饋網(wǎng)絡(luò)有短期失憶癥。而另一方面,我們小時(shí)候還會學(xué)習(xí)如何解讀名為語言的聲音信號流,我們從這些聲音中提取出的意義,比如“toe”、“roe”或“z”,始終高度依賴于在其前后出現(xiàn)的聲音信號。序列的每一步都建立在前一步的基礎(chǔ)上,而意義產(chǎn)生于它們的順序。的確,句子中每個(gè)音節(jié)的意義是由許多個(gè)整句所共同傳達(dá)的,而句子中的冗余信號則是抵抗環(huán)境噪聲的保護(hù)。遞歸網(wǎng)絡(luò)的記憶與此類似,它們依賴的是過往信息中的一個(gè)特定片段。兩種網(wǎng)絡(luò)以不同的方式讓不同的過往信息發(fā)揮作用。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4391.html

相關(guān)文章

  • 關(guān)于LSTM的一系列學(xué)習(xí)

    摘要:設(shè)計(jì)用于處理序列依賴性的強(qiáng)大類型的神經(jīng)網(wǎng)絡(luò)稱為復(fù)現(xiàn)神經(jīng)網(wǎng)絡(luò)。你會知道關(guān)于國際航空公司乘客時(shí)間序列預(yù)測問題。感謝所有指出這個(gè)問題的人和菲利普奧布萊恩幫助提出的解決方案。 段哥http://machinelearningmastery... Time Series Prediction with LSTM Recurrent Neural Networks in Python with K...

    lykops 評論0 收藏0
  • 首次超越LSTM : Facebook 門卷積網(wǎng)絡(luò)新模型能否取代遞歸模型?

    摘要:得到的結(jié)果如下上圖是門卷積神經(jīng)網(wǎng)絡(luò)模型與和模型在數(shù)據(jù)集基準(zhǔn)上進(jìn)行測試的結(jié)果。雖然在這一研究中卷積神經(jīng)網(wǎng)絡(luò)在性能上表現(xiàn)出了對遞歸神經(jīng)網(wǎng)絡(luò),尤其是的全面超越,但是,現(xiàn)在談取代還為時(shí)尚早。 語言模型對于語音識別系統(tǒng)來說,是一個(gè)關(guān)鍵的組成部分,在機(jī)器翻譯中也是如此。近年來,神經(jīng)網(wǎng)絡(luò)模型被認(rèn)為在性能上要優(yōu)于經(jīng)典的 n-gram 語言模型。經(jīng)典的語言模型會面臨數(shù)據(jù)稀疏的難題,使得模型很難表征大型的文本,...

    高勝山 評論0 收藏0
  • 遞歸的藝術(shù) - 深度遞歸網(wǎng)絡(luò)在序列式推薦的應(yīng)用

    摘要:因?yàn)樵诿恳粫r(shí)刻對過去的記憶信息和當(dāng)前的輸入處理策略都是一致的,這在其他領(lǐng)域如自然語言處理,語音識別等問題不大,但并不適用于個(gè)性化推薦,一個(gè)用戶的聽歌點(diǎn)擊序列,有正負(fù)向之分。 在內(nèi)容爆炸性增長的今天,個(gè)性化推薦發(fā)揮著越來越重要的作用,如何在海量的數(shù)據(jù)中幫助用戶找到感興趣的物品,成為大數(shù)據(jù)領(lǐng)域極具挑戰(zhàn)性的一項(xiàng)工作;另一方面,深度學(xué)習(xí)已經(jīng)被證明在圖像處理,計(jì)算機(jī)視覺,自然語言處理等領(lǐng)域都取得了不俗...

    ZweiZhao 評論0 收藏0
  • 難以置信!LSTMGRU的解析從未如此清晰

    摘要:作為解決方案的和和是解決短時(shí)記憶問題的解決方案,它們具有稱為門的內(nèi)部機(jī)制,可以調(diào)節(jié)信息流。隨后,它可以沿著長鏈序列傳遞相關(guān)信息以進(jìn)行預(yù)測,幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù)成果都是通過這兩個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)的。和采用門結(jié)構(gòu)來克服短時(shí)記憶的影響。 短時(shí)記憶RNN 會受到短時(shí)記憶的影響。如果一條序列足夠長,那它們將很難將信息從較早的時(shí)間步傳送到后面的時(shí)間步。 因此,如果你正在嘗試處理一段文本進(jìn)行預(yù)測,RNN...

    MrZONT 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<