亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

Transformer-XL: Unleashing the Potential of Attent

dingding199389 / 3055人閱讀

摘要:序列截斷后,造成段落邊界破碎,從而造成低效優(yōu)化,即使是短序列這也是嚴重問題。此外,這種重復機制還解決了上下文碎片問題。

簡介

現(xiàn)實遠程依賴問題,比如要正確理解文章內(nèi)容,有時需要閱讀多處段落,這對人來說輕松自如。但是,對神經(jīng)網(wǎng)絡(luò)來說,遠程依賴問題依然是一個挑戰(zhàn)。雖然基于門控的RNN(LSTM,GRU等)和梯度裁剪等技術(shù)提高了對遠程依賴建模的能力,但仍不足以解決問題。
其中一個解決方法就是使用Transformers,Transformers允許數(shù)據(jù)單元直接連接,可以更好的捕獲遠距離的數(shù)據(jù)關(guān)系。但是,在語音模型中,Transformers一般使用固定長度context實現(xiàn),即:把文本序列截斷為幾個固定長度的序列,然后分別多帶帶處理。

這存在兩個問題:

無法計算超過固定長度的依賴關(guān)系。

序列截斷后,造成段落邊界破碎,從而造成低效優(yōu)化,即使是短序列這也是嚴重問題。

為了解決這些問題,可以嘗試使用Transformers-XL模型。Transformers-XL由兩種技術(shù)構(gòu)成:Segment-level RecurrenceRelative Positional Encodings。

Segment-level Recurrence

在訓練期間,當模型處理下一個新段落時,將前一個段落的計算表示固定并且緩存以作為重用擴展上下文。此附加連接將最大可能的將依賴性長度增加N倍,其中N是網(wǎng)絡(luò)的深度,因為上下文信息現(xiàn)在能夠跨越段落邊界流動。此外,這種重復機制還解決了上下文碎片問題。

Relative Positional Encodings

在標準的Transformer中,序列順序的信息,都是由一組位置編碼提供,每一個位置都有絕對的位置信息。但將這個邏輯應(yīng)用到重用機制中時,會導致性能損失。這個問題的解決思路是,對隱藏狀態(tài)中的相對位置信息進行編碼。從概念上講,位置編碼為模型提供了關(guān)于應(yīng)如何收集信息的時間線索,即應(yīng)該在哪里介入處理。以相對的方式定義時間線索,將相同的信息注入每層的注意分數(shù),更加直觀,也更通用。基于這個思路,可以創(chuàng)建一組相對位置編碼,使得重用機制變得可行,也不會丟失任何的時間信息。將相對位置嵌入Transformer之中,并配合重用機制,就得到了Transformer-XL的架構(gòu)。基于這些改進,Transformer-XL在相關(guān)的數(shù)據(jù)集上都取得了很好的成績。論文中表示,這是第一個在字符級和單詞級建模方面比RNN結(jié)果更好的自注意力模型。

總結(jié)

Transformer-XL 在幾種不同的數(shù)據(jù)集(大 / 小,字符級別 / 單詞級別等)均實現(xiàn)了最先進的語言建模結(jié)果。它結(jié)合了深度學習的兩個重要概念——循環(huán)機制和注意力機制,允許模型學習長期依賴性,且可能可以擴展到需要該能力的其他深度學習領(lǐng)域,例如音頻分析(如每秒 16k 樣本的語音數(shù)據(jù))等。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/19937.html

相關(guān)文章

  • Python-Socket-Programming(1)

    摘要: Abstract Sockets are used nearly everywhere, but are one of the most severely misunderstood technologies around. This is a 10,000 foot overview of sockets. It’s not really a tutorial - you’ll s...

    animabear 評論0 收藏0
  • 企業(yè)對敏捷、數(shù)據(jù)的需求

    摘要:企業(yè)對敏捷以數(shù)據(jù)為中心的架構(gòu)的需求根據(jù)拉丁美洲國家統(tǒng)計局的數(shù)據(jù),下一波大數(shù)據(jù)和分析浪潮中,增強分析持續(xù)智能和可解釋的人工智能是未來三到五年內(nèi)具有重大破壞潛力的大數(shù)據(jù)和分析的主要趨勢之一。企業(yè)對敏捷、以數(shù)據(jù)為中心的架構(gòu)的需求:根據(jù)拉丁美洲國家統(tǒng)計局的數(shù)據(jù),下一波大數(shù)據(jù)和分析浪潮中,增強分析、持續(xù)智能和可解釋的人工智能(AI)是未來三到五年內(nèi)具有重大破壞潛力的大數(shù)據(jù)和分析的主要趨勢之一。Gart...

    Nekron 評論0 收藏0

發(fā)表評論

0條評論

dingding199389

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<