難以置信！LSTM和GRU的解析從未如此清晰

MrZONT 發(fā)布于2019-04-25 18:30 / 1040人閱讀

摘要：作為解決方案的和和是解決短時記憶問題的解決方案，它們具有稱為門的內(nèi)部機制，可以調(diào)節(jié)信息流。隨后，它可以沿著長鏈序列傳遞相關(guān)信息以進行預測，幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù)成果都是通過這兩個網(wǎng)絡(luò)實現(xiàn)的。和采用門結(jié)構(gòu)來克服短時記憶的影響。

短時記憶

RNN 會受到短時記憶的影響。如果一條序列足夠長，那它們將很難將信息從較早的時間步傳送到后面的時間步。因此，如果你正在嘗試處理一段文本進行預測，RNN 可能從一開始就會遺漏重要信息。

在反向傳播期間，RNN 會面臨梯度消失的問題。梯度是用于更新神經(jīng)網(wǎng)絡(luò)的權(quán)重值，消失的梯度問題是當梯度隨著時間的推移傳播時梯度下降，如果梯度值變得非常小，就不會繼續(xù)學習。

梯度更新規(guī)則

因此，在遞歸神經(jīng)網(wǎng)絡(luò)中，獲得小梯度更新的層會停止學習—— 那些通常是較早的層。由于這些層不學習，RNN 可以忘記它在較長序列中看到的內(nèi)容，因此具有短時記憶。

作為解決方案的 LSTM 和 GRU

LSTM 和 GRU 是解決短時記憶問題的解決方案，它們具有稱為“門”的內(nèi)部機制，可以調(diào)節(jié)信息流。

這些“門”可以知道序列中哪些重要的數(shù)據(jù)是需要保留，而哪些是要刪除的。隨后，它可以沿著長鏈序列傳遞相關(guān)信息以進行預測，幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù)成果都是通過這兩個網(wǎng)絡(luò)實現(xiàn)的。

LSTM 和 GRU 可以在語音識別、語音合成和文本生成中找到，你甚至可以用它們?yōu)橐曨l生成字幕。對 LSTM 和 GRU 擅長處理長序列的原因，到這篇文章結(jié)束時你應該會有充分了解。?

下面我將通過直觀解釋和插圖進行闡述，并避免盡可能多的數(shù)學運算。

本質(zhì)

讓我們從一個有趣的小實驗開始吧。當你想在網(wǎng)上購買生活用品時，一般都會查看一下此前已購買該商品用戶的評價。

當你瀏覽評論時，你的大腦下意識地只會記住重要的關(guān)鍵詞，比如“amazing”和“awsome”這樣的詞匯，而不太會關(guān)心“this”、“give”、“all”、“should”等字樣。如果朋友第二天問你用戶評價都說了什么，那你可能不會一字不漏地記住它，而是會說出但大腦里記得的主要觀點，比如“下次肯定還會來買”，那其他一些無關(guān)緊要的內(nèi)容自然會從記憶中逐漸消失。

而這基本上就像是 LSTM 或 GRU 所做的那樣，它們可以學習只保留相關(guān)信息來進行預測，并忘記不相關(guān)的數(shù)據(jù)。

RNN 述評

為了了解 LSTM 或 GRU 如何實現(xiàn)這一點，讓我們回顧一下遞歸神經(jīng)網(wǎng)絡(luò)。 RNN 的工作原理如下；第一個詞被轉(zhuǎn)換成了機器可讀的向量，然后 RNN 逐個處理向量序列。

?逐一處理矢量序列

處理時，RNN 將先前隱藏狀態(tài)傳遞給序列的下一步。而隱藏狀態(tài)充當了神經(jīng)網(wǎng)絡(luò)記憶，它包含相關(guān)網(wǎng)絡(luò)之前所見過的數(shù)據(jù)的信息。

將隱藏狀態(tài)傳遞給下一個時間步

讓我們看看 RNN 的一個細胞，了解一下它如何計算隱藏狀態(tài)。首先，將輸入和先前隱藏狀態(tài)組合成向量，該向量包含當前輸入和先前輸入的信息。向量經(jīng)過激活函數(shù) tanh之后，輸出的是新的隱藏狀態(tài)或網(wǎng)絡(luò)記憶。

? ? ? ?

RNN 細胞

激活函數(shù) Tanh

激活函數(shù) Tanh 用于幫助調(diào)節(jié)流經(jīng)網(wǎng)絡(luò)的值。 tanh 函數(shù)將數(shù)值始終限制在 -1 和 1 之間。

當向量流經(jīng)神經(jīng)網(wǎng)絡(luò)時，由于有各種數(shù)學運算的緣故，它經(jīng)歷了許多變換。因此想象讓一個值繼續(xù)乘以 3，你可以想到一些值是如何變成天文數(shù)字的，這讓其他值看起來微不足道。

沒有 tanh 函數(shù)的向量轉(zhuǎn)換

tanh 函數(shù)確保值保持在 -1~1 之間，從而調(diào)節(jié)了神經(jīng)網(wǎng)絡(luò)的輸出。你可以看到上面的相同值是如何保持在 tanh 函數(shù)所允許的邊界之間的。

有 tanh 函數(shù)的向量轉(zhuǎn)換

這是一個 RNN。它內(nèi)部的操作很少，但在適當?shù)那樾蜗拢ㄈ缍绦蛄校┻\作的很好。 RNN 使用的計算資源比它的演化變體 LSTM 和 GRU 要少得多。

LSTM

LSTM 的控制流程與 RNN 相似，它們都是在前向傳播的過程中處理流經(jīng)細胞的數(shù)據(jù)，不同之處在于 LSTM 中細胞的結(jié)構(gòu)和運算有所變化。

LSTM 的細胞結(jié)構(gòu)和運算

這一系列運算操作使得 LSTM具有能選擇保存信息或遺忘信息的功能。咋一看這些運算操作時可能有點復雜，但沒關(guān)系下面將帶你一步步了解這些運算操作。

核心概念

LSTM 的核心概念在于細胞狀態(tài)以及“門”結(jié)構(gòu)。細胞狀態(tài)相當于信息傳輸?shù)穆窂剑屝畔⒛茉谛蛄羞B中傳遞下去。你可以將其看作網(wǎng)絡(luò)的“記憶”。理論上講，細胞狀態(tài)能夠?qū)⑿蛄刑幚磉^程中的相關(guān)信息一直傳遞下去。

因此，即使是較早時間步長的信息也能攜帶到較后時間步長的細胞中來，這克服了短時記憶的影響。信息的添加和移除我們通過“門”結(jié)構(gòu)來實現(xiàn)，“門”結(jié)構(gòu)在訓練過程中會去學習該保存或遺忘哪些信息。

Sigmoid

門結(jié)構(gòu)中包含著 sigmoid 激活函數(shù)。Sigmoid 激活函數(shù)與 tanh 函數(shù)類似，不同之處在于 sigmoid 是把值壓縮到 0~1 之間而不是 -1~1 之間。這樣的設(shè)置有助于更新或忘記信息，因為任何數(shù)乘以 0 都得 0，這部分信息就會剔除掉。同樣的，任何數(shù)乘以 1 都得到它本身，這部分信息就會完美地保存下來。這樣網(wǎng)絡(luò)就能了解哪些數(shù)據(jù)是需要遺忘，哪些數(shù)據(jù)是需要保存。

Sigmoid 將值壓縮到 0~1 之間

接下來了解一下門結(jié)構(gòu)的功能。LSTM 有三種類型的門結(jié)構(gòu)：遺忘門、輸入門和輸出門。

遺忘門

遺忘門的功能是決定應丟棄或保留哪些信息。來自前一個隱藏狀態(tài)的信息和當前輸入的信息同時傳遞到 sigmoid 函數(shù)中去，輸出值介于 0 和 1 之間，越接近 0 意味著越應該丟棄，越接近 1 意味著越應該保留。

遺忘門的運算過程

輸入門

輸入門用于更新細胞狀態(tài)。首先將前一層隱藏狀態(tài)的信息和當前輸入的信息傳遞到 sigmoid 函數(shù)中去。將值調(diào)整到 0~1 之間來決定要更新哪些信息。0 表示不重要，1 表示重要。

其次還要將前一層隱藏狀態(tài)的信息和當前輸入的信息傳遞到 tanh 函數(shù)中去，創(chuàng)造一個新的侯選值向量。最后將 sigmoid 的輸出值與 tanh 的輸出值相乘，sigmoid 的輸出值將決定 tanh 的輸出值中哪些信息是重要且需要保留下來的。

輸入門的運算過程

細胞狀態(tài)

下一步，就是計算細胞狀態(tài)。首先前一層的細胞狀態(tài)與遺忘向量逐點相乘。如果它乘以接近 0 的值，意味著在新的細胞狀態(tài)中，這些信息是需要丟棄掉的。然后再將該值與輸入門的輸出值逐點相加，將神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)的新信息更新到細胞狀態(tài)中去。至此，就得到了更新后的細胞狀態(tài)。

細胞狀態(tài)的計算

輸出門

輸出門用來確定下一個隱藏狀態(tài)的值，隱藏狀態(tài)包含了先前輸入的信息。首先，我們將前一個隱藏狀態(tài)和當前輸入傳遞到 sigmoid 函數(shù)中，然后將新得到的細胞狀態(tài)傳遞給 tanh 函數(shù)。

最后將 tanh 的輸出與 sigmoid 的輸出相乘，以確定隱藏狀態(tài)應攜帶的信息。再將隱藏狀態(tài)作為當前細胞的輸出，把新的細胞狀態(tài)和新的隱藏狀態(tài)傳遞到下一個時間步長中去。

?輸出門的運算過程

讓我們再梳理一下。遺忘門確定前一個步長中哪些相關(guān)的信息需要被保留；輸入門確定當前輸入中哪些信息是重要的，需要被添加的；輸出門確定下一個隱藏狀態(tài)應該是什么。

代碼示例

對于那些懶得看文字的人來說，代碼也許更好理解，下面給出一個用 python 寫的示例。

python 寫的偽代碼

1.首先，我們將先前的隱藏狀態(tài)和當前的輸入連接起來，這里將它稱為 combine；

2.其次將 combine 丟到遺忘層中，用于刪除不相關(guān)的數(shù)據(jù)；

3.再用 combine 創(chuàng)建一個候選層，候選層中包含著可能要添加到細胞狀態(tài)中的值；

4.combine 同樣要丟到輸入層中，該層決定了候選層中哪些數(shù)據(jù)需要添加到新的細胞狀態(tài)中；

5.接下來細胞狀態(tài)再根據(jù)遺忘層、候選層、輸入層以及先前細胞狀態(tài)的向量來計算；

6.再計算當前細胞的輸出；

7.最后將輸出與新的細胞狀態(tài)逐點相乘以得到新的隱藏狀態(tài)。

是的，LSTM 網(wǎng)絡(luò)的控制流程就是幾個張量和一個 for 循環(huán)。你還可以使用隱藏狀態(tài)進行預測。結(jié)合這些機制，LSTM 能夠在序列處理中確定哪些信息需要記憶，哪些信息需要遺忘。

GRU

知道了 LSTM 的工作原理之后，來了解一下 GRU。GRU 是新一代的循環(huán)神經(jīng)網(wǎng)絡(luò)，與 LSTM 非常相似。與 LSTM 相比，GRU 去除掉了細胞狀態(tài)，使用隱藏狀態(tài)來進行信息的傳遞。它只包含兩個門：更新門和重置門。

GRU 的細胞結(jié)構(gòu)和門結(jié)構(gòu)

更新門

更新門的作用類似于 LSTM 中的遺忘門和輸入門。它決定了要忘記哪些信息以及哪些新信息需要被添加。

重置門

重置門用于決定遺忘先前信息的程度。

這就是 GRU。GRU 的張量運算較少，因此它比 LSTM 的訓練更快一下。很難去判定這兩者到底誰更好，研究人員通常會兩者都試一下，然后選擇最合適的。

結(jié)語

總而言之，RNN 適用于處理序列數(shù)據(jù)用于預測，但卻受到短時記憶的制約。LSTM 和 GRU 采用門結(jié)構(gòu)來克服短時記憶的影響。門結(jié)構(gòu)可以調(diào)節(jié)流經(jīng)序列鏈的信息流。LSTM 和 GRU 被廣泛地應用到語音識別、語音合成和自然語言處理等。

原文鏈接：https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

聲明：文章收集于網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系小編及時處理，謝謝！

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務器云服務器如此好用的云主機 webrtc的清晰度 GRU 建站主機和域名云解析的區(qū)別

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/4821.html

發(fā)表評論

登陸后可評論

0條評論

MrZONT

男|高級講師

我要關(guān)注我要私信

TA的文章

imagenet

閱讀 1760·2023-04-26 02:43
自己畫一塊ESP32-C3 的開發(fā)板（第一次使用立創(chuàng)EDA）（更新中...）

閱讀 3265·2021-11-11 16:54
PacificRack中秋閃購：2核2G內(nèi)存25G SSD硬盤3.5T月流量@1Gbps帶寬$13.

閱讀 1428·2021-09-23 11:54
前端技術(shù)棧月刊 ???? 2021-08

閱讀 1248·2021-09-23 11:22
Vultr機房測評 - Vultr歐洲荷蘭Amsterdam機房綜合速度和線路去程回程測試

閱讀 2438·2021-08-23 09:45
CSS魔法堂：更豐富的前端動效by CSS Animation

閱讀 911·2019-08-30 15:54
常用跨域方法總結(jié)（2）——CORS

閱讀 3153·2019-08-30 15:53
細說opacity和層疊上下文

閱讀 3245·2019-08-30 15:53

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

難以置信！LSTM和GRU的解析從未如此清晰

相關(guān)文章

LSTM 和遞歸網(wǎng)絡(luò)基礎(chǔ)教程

**如果你還沒搞懂LSTM 網(wǎng)絡(luò)，那本文絕對值得一看**

GRU網(wǎng)絡(luò)生成莎士比亞小說

發(fā)表評論

0條評論

MrZONT

男|高級講師

TA的文章

imagenet

自己畫一塊ESP32-C3 的開發(fā)板（第一次使用立創(chuàng)EDA）（更新中...）

PacificRack中秋閃購：2核2G內(nèi)存25G SSD硬盤3.5T月流量@1Gbps帶寬$13.

前端技術(shù)棧月刊 ???? 2021-08

Vultr機房測評 - Vultr歐洲荷蘭Amsterdam機房綜合速度和線路去程回程測試

CSS魔法堂：更豐富的前端動效by CSS Animation

常用跨域方法總結(jié)（2）——CORS

細說opacity和層疊上下文

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

難以置信！LSTM和GRU的解析從未如此清晰

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

難以置信！LSTM和GRU的解析從未如此清晰