亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

attention is all you need 的預(yù)測過程

zhouzhou / 1633人閱讀

摘要:一預(yù)測流程及輸入內(nèi)容我們的的是輸入測試集編碼也就是和訓(xùn)練階段輸入一樣,但的是向量維度和訓(xùn)練時的輸入相同。在預(yù)測時,的會傳遞到這邊的個作為其,隨機(jī)向量在第一步的時候作為傳入。

好,閑話少說。關(guān)于self-attention的訓(xùn)練階段http://jalammar.github.io/ill...,這篇文章寫的已經(jīng)很清楚,而且確實驗證有效。那么今天扯一下該模型的預(yù)測是怎么做的。
一.預(yù)測流程及輸入內(nèi)容
1.我們的encode的input是輸入測試集編碼(也就是和訓(xùn)練階段輸入一樣),但decode的input是0向量(維度和訓(xùn)練時的輸入相同)。
2.在預(yù)測時,encode的output會傳遞到decode這邊的6個layer作為其k,v,隨機(jī)0向量在第一步的時候作為q傳入。(只在第一步作為input傳入,然后開心訓(xùn)練)
二.但為什么傳入的q為0矩陣,模型卻能進(jìn)行很好的預(yù)測呢。
以我是中國人對應(yīng)i am a chinese舉例。
1.當(dāng)encode訓(xùn)練好后,相對來說我是中國人對應(yīng)的矩陣也就確定了,然后經(jīng)過encode編碼得到最終輸入想decode的output,也就是k,v,而在論文中decode這邊一共有6層網(wǎng)絡(luò)層(每層3個sub-layer),這里的kv會輸入到這6層的每一層,好,關(guān)鍵來了。模型怎么能夠預(yù)測出我對應(yīng)i,這是最重要的一步也是最難理解的一步。在decode層,我們要弄清訓(xùn)練的什么,當(dāng)我們訓(xùn)練好后的這些參數(shù),其作用又是什么,實際上就是當(dāng)我們傳過來kv時,因為kv已知,是全局變量,我們能夠看到,所以在decode中,i的向量可以理解為當(dāng)指定kv后,又知道訓(xùn)練好的參數(shù)矩陣,經(jīng)過一系列編號,我們第一個的輸出很大概率就是對應(yīng)的i的向量,當(dāng)輸出為i向量時,即預(yù)測對了,然后預(yù)測am,會把第一次i向量作為額外的input加到q上,繼續(xù)進(jìn)行預(yù)測。直到遇到結(jié)束向量。
三.問題思考
1.論文里的multi-head為什么要這么做,事實上論文提出說因為發(fā)現(xiàn)多頭效果更好,筆者認(rèn)為因為每個頭的參數(shù)是隨機(jī)初始化,所以其學(xué)到的關(guān)于一句話關(guān)注的點就會不同,這樣會加深對原句的學(xué)習(xí)能力,同時,8頭并行減少了訓(xùn)練時間。
2.為什么position embedding是cos和sin,論文解釋可以學(xué)到更長的序列關(guān)系,這點我還沒弄懂。
3.mask是做什么用,使decode只考慮前面的,不考慮后面的,這點隨意百度一下就可以了。
該文不保證完全正確,只做參考。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/43063.html

相關(guān)文章

  • 如何使用注意力模型生成圖像描述?

    摘要:本教程中用到了基于注意力的模型,它使我們很直觀地看到當(dāng)文字生成時模型會關(guān)注哪些部分。運行的時候,它會自動下載數(shù)據(jù)集,使用模型訓(xùn)練一個編碼解碼器,然后用模型對新圖像進(jìn)行文字描述。 圖像描述類任務(wù)就是給圖像生成一個標(biāo)題。 給定一個圖像:圖片出處, 許可證:公共領(lǐng)域我們的目標(biāo)是用一句話來描述圖片, 比如「一個沖浪者正在沖浪」。 本教程中用到了基于注意力的模型,它使我們很直觀地看到當(dāng)文字生成時模型會...

    zhouzhou 評論0 收藏0
  • 深度學(xué)習(xí)實現(xiàn)自動生成圖片字幕

    摘要:介紹本次項目使用深度學(xué)習(xí)自動生成圖像字幕。本次,我們利用遷移學(xué)習(xí)使用模型實現(xiàn)此功能。使用對損失修正。至于文本預(yù)測部分與使用注意力機(jī)制實現(xiàn)機(jī)器翻譯大體一致。 介紹 showImg(https://segmentfault.com/img/bVbkSso?w=2048&h=1358); 本次項目使用深度學(xué)習(xí)自動生成圖像字幕。如上圖,模型自動生成The person is riding a ...

    Eastboat 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<