摘要:在本任務(wù)中為,即歷史對(duì)話決策為,即下一步的對(duì)話。則是一個(gè)使得訓(xùn)練穩(wěn)定的平衡項(xiàng)。判別器只告訴機(jī)器對(duì)或錯(cuò),卻不告知哪部分對(duì)和哪部分錯(cuò),這對(duì)訓(xùn)練帶來(lái)了很大隱患。實(shí)驗(yàn)實(shí)驗(yàn)的結(jié)果以及部分可以一定程度上體現(xiàn)對(duì)抗訓(xùn)練的模型起到了預(yù)期的效果。
1、導(dǎo)讀
這篇文章的主要工作在于應(yīng)用了對(duì)抗訓(xùn)練(adversarial training)的思路來(lái)解決開(kāi)放式對(duì)話生成(open-domain dialogue generation)這樣一個(gè)無(wú)監(jiān)督的問(wèn)題。其主體思想就是將整體任務(wù)劃分到兩個(gè)子系統(tǒng)上,一個(gè)是生成器(generative model),利用seq2seq式的模型以上文的句子作為輸入,輸出對(duì)應(yīng)的對(duì)話語(yǔ)句;另一個(gè)則是一個(gè)判別器(discriminator),用以區(qū)分在前文條件下當(dāng)前的問(wèn)答是否是和人類行為接近,這里可以近似地看作是一個(gè)二分類分類器。兩者結(jié)合的工作機(jī)理也很直觀,生成器不斷根據(jù)前文生成答句,判別器則不斷用生成器的生成作為負(fù)例,原文的標(biāo)準(zhǔn)回答作為正例來(lái)強(qiáng)化分類。在兩者訓(xùn)練的過(guò)程中,生成器需要不斷改良答案來(lái)欺騙生成器,判別器則需要不斷提高自身的判別能力從而區(qū)分機(jī)造和人造答案直至最后兩者收斂達(dá)到某種均衡。以往的模型受限于訓(xùn)練目標(biāo)以及訓(xùn)練方式,其生成的結(jié)果往往是遲鈍籠統(tǒng)的甚至都很簡(jiǎn)短(如果可以的話,所有的對(duì)話我都可以回答“呵呵”,很明顯這樣的回答是不符合常識(shí)的)。所以這樣一種博弈式的訓(xùn)練方式來(lái)取代以往相對(duì)簡(jiǎn)單固定的概率似然來(lái)優(yōu)化這樣一種無(wú)監(jiān)督的開(kāi)放任務(wù)顯然是很有意義的想法。不過(guò)這樣的方法遇到困難也很明顯,GAN和NLP一直八字不合,很難很好的融合。和之前的工作SeqGAN類似,這篇工作也采取了增強(qiáng)學(xué)習(xí)來(lái)規(guī)避GAN在NLP中使用的難點(diǎn),并作出了更多的嘗試。
2、模型
Generative model & Discriminativemodel:
生成器G就是一個(gè)seq2seq模型,輸入是歷史對(duì)話x,通過(guò)RNN來(lái)對(duì)語(yǔ)義進(jìn)行向量表示再逐一生成回答的每個(gè)詞,從而形成回答y,由于該種模型已經(jīng)有很大的人群認(rèn)知,就不過(guò)多贅述。判別器D是一個(gè)輸入為歷史對(duì)話x和回答y二元組的一個(gè)二分類器,使用了hierarchicalencoder,其中機(jī)造回答組合為負(fù)例Q?({x,y}),人造回答組合為正例Q+({x, y})。
Policy Gradient Training:
文中模型采用了policy gradient的方法(增強(qiáng)學(xué)習(xí)的方式之一)來(lái)進(jìn)行增強(qiáng)學(xué)習(xí)的訓(xùn)練,其優(yōu)化目標(biāo)為:
優(yōu)化目標(biāo)的導(dǎo)數(shù)可化為:
Q是判別器D的結(jié)果,換句話說(shuō)判別器的鑒定結(jié)果可以看作是增強(qiáng)學(xué)習(xí)中的reward,policy gradient整體的優(yōu)化目標(biāo)其實(shí)就是希望回報(bào)高的決策其概率越高。在本任務(wù)中state為x,即歷史對(duì)話;決策為y,即下一步的對(duì)話。x生成y的概率等于逐詞生成的概率,如(2)所示,這里也可以很好的和seq2seq的工作機(jī)理對(duì)應(yīng)上。b({x,y})則是一個(gè)使得訓(xùn)練穩(wěn)定的平衡項(xiàng)。
Reward for EveryGeneration Step (REGS) :
在本任務(wù)中增強(qiáng)學(xué)習(xí)的一個(gè)很大的問(wèn)題在于我們的估價(jià)都是針對(duì)一整個(gè)回答的,判別器只會(huì)給出一個(gè)近似于對(duì)或者不對(duì)的反饋。這樣的模式存在一個(gè)很大的問(wèn)題是,即使是很多被判斷為有問(wèn)題的句子,其中有很大一部分語(yǔ)言成分是有效的,如文中的例子“what’s yourname”,人類回答“I am John”,機(jī)器回答“I don’t know”。判別器會(huì)給出“I don’t know”是有問(wèn)題的,但無(wú)法給出I是對(duì)的而后面的don’t know是錯(cuò)的,事實(shí)上機(jī)器沒(méi)有回答he/she/you/they而是I本質(zhì)上是需要一個(gè)肯定的正反饋的。判別器只告訴機(jī)器對(duì)或錯(cuò),卻不告知哪部分對(duì)和哪部分錯(cuò),這對(duì)訓(xùn)練帶來(lái)了很大隱患。所以文中采用了兩種方式,第一種是Monte Carlo,第二種則是使用局部序列來(lái)評(píng)估。第一種和之前的一些增強(qiáng)學(xué)習(xí)引入的工作類似就不做贅述,我們主要關(guān)注第二種方法。
主要思想就是將二式變?yōu)槿剑ㄋc(diǎn)講就是把序列評(píng)分拆開(kāi)來(lái)算,這樣就能算到前綴的評(píng)分,做到局部評(píng)價(jià)的反饋。為了防止訓(xùn)練過(guò)擬合,每次只是從正例和負(fù)例的子序列中隨機(jī)選取一個(gè)來(lái)訓(xùn)練。不過(guò)有一絲遺憾的是,這個(gè)方法快速也符合常識(shí)但會(huì)使得判別器變?nèi)?,?shí)際效果不如Monte Carlo準(zhǔn)確。
Teacher Forcing :
在以往的工作中,D效果非常好而G的效果非常糟糕會(huì)帶來(lái)訓(xùn)練效果的下降。試想一下一個(gè)G所有產(chǎn)生的答案都被D駁回了,在這段時(shí)間內(nèi)G的所有反饋都是負(fù)反饋,G就會(huì)迷失從而不知道向什么方向優(yōu)化會(huì)得到正反饋,所以理想的情況下G和D是交替訓(xùn)練上升的。在控制D和G訓(xùn)練節(jié)奏的同時(shí),這篇工作中又采用了一種類似強(qiáng)制學(xué)習(xí)的方式來(lái)嘗試解決這個(gè)問(wèn)題。每次在正常的增加學(xué)習(xí)后會(huì)讓生成器強(qiáng)行生成正確答案并從D得到正向的反饋,從而每次都能有一個(gè)正向優(yōu)化方向的指示。這樣的行為類似于學(xué)校老師強(qiáng)行灌輸知識(shí),也很類似于之前的professor-forcing算法。所以到此整體的模型結(jié)構(gòu)為:
訓(xùn)練頻率的設(shè)定在圖中的解釋中有提到。無(wú)論是GAN還是RL都是出了名的難訓(xùn),Training Details大家還是看源碼和論文仔細(xì)體會(huì)吧,在此也就不鋪開(kāi)了。
3、實(shí)驗(yàn)
實(shí)驗(yàn)的結(jié)果以及部分case study可以一定程度上體現(xiàn)對(duì)抗訓(xùn)練的模型起到了預(yù)期的效果。
4、總結(jié)
雖然在手法上和之前的SeqGAN類似,采用了增強(qiáng)學(xué)習(xí)的方法來(lái)在NLP任務(wù)上進(jìn)行對(duì)抗訓(xùn)練,并且提出了一些新的針對(duì)于NLP本身特征的方法改進(jìn),盡管還存在很大問(wèn)題需要解決,但也算是不錯(cuò)的嘗試。引入對(duì)抗訓(xùn)練這樣的方式可以解決以往模型,尤其是無(wú)監(jiān)督生成式任務(wù)模型的許多問(wèn)題,但受限于技術(shù)細(xì)節(jié),現(xiàn)在的模型還處于探索階段,模型繁冗復(fù)雜,訓(xùn)練過(guò)程需要摻入大量工程實(shí)現(xiàn)手法,方法無(wú)法在相似任務(wù)上靈活轉(zhuǎn)移。作者在這篇工作的結(jié)論里也提到了自己的模型在其他任務(wù)諸如machine translation和summarization效果并不是很好,并給出了自己認(rèn)為可能的一些解釋。這些都需要我們進(jìn)一步的去探索挖掘文本本身特有的性質(zhì)來(lái)改造發(fā)展模型,并進(jìn)一步嘗試。
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4495.html
摘要:在圖像上的應(yīng)用從目前的文獻(xiàn)來(lái)看,在圖像上的應(yīng)用主要是往圖像修改方向發(fā)展。涉及的圖像修改包括單圖像超分辨率交互式圖像生成圖像編輯圖像到圖像的翻譯等。單圖像超分辨率單圖像超分辨率任務(wù)就是給定單張低分辨率圖像,生成它的高分辨率圖像。 今天我們來(lái)聊一個(gè)輕松一些的話題——GAN的應(yīng)用。在此之前呢,先推薦大家去讀一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。這個(gè)文章比WGA...
摘要:直接把應(yīng)用到領(lǐng)域主要是生成序列,有兩方面的問(wèn)題最開(kāi)始是設(shè)計(jì)用于生成連續(xù)數(shù)據(jù),但是自然語(yǔ)言處理中我們要用來(lái)生成離散的序列。如圖,針對(duì)第一個(gè)問(wèn)題,首先是將的輸出作為,然后用來(lái)訓(xùn)練。 我來(lái)答一答自然語(yǔ)言處理方面GAN的應(yīng)用。直接把GAN應(yīng)用到NLP領(lǐng)域(主要是生成序列),有兩方面的問(wèn)題:1. GAN最開(kāi)始是設(shè)計(jì)用于生成連續(xù)數(shù)據(jù),但是自然語(yǔ)言處理中我們要用來(lái)生成離散tokens的序列。因?yàn)樯善?G...
摘要:許多的頂尖研究人員都會(huì)積極的在現(xiàn)場(chǎng)回答問(wèn)題。雖然有許多主題的常見(jiàn)問(wèn)題頁(yè)面比如,這是一個(gè)機(jī)器學(xué)習(xí)的,但是這些都是非常不全面的,或者不夠精致。在這篇文章中,我試圖做一個(gè)更加全面的有關(guān)機(jī)器學(xué)習(xí)和問(wèn)題的。 作者:chen_h微信號(hào) & QQ:862251340微信公眾號(hào):coderpai簡(jiǎn)書(shū)地址:http://www.jianshu.com/p/ac18... showImg(https:/...
摘要:在這里匯總了一個(gè)現(xiàn)在和經(jīng)常使用的論文,所有文章都鏈接到了上面。如果你對(duì)感興趣,可以訪問(wèn)這個(gè)專題。作者微信號(hào)簡(jiǎn)書(shū)地址是一個(gè)專注于算法實(shí)戰(zhàn)的平臺(tái),從基礎(chǔ)的算法到人工智能算法都有設(shè)計(jì)。加入實(shí)戰(zhàn)微信群,實(shí)戰(zhàn)群,算法微信群,算法群。 作者:chen_h微信號(hào) & QQ:862251340微信公眾號(hào):coderpai簡(jiǎn)書(shū)地址:https://www.jianshu.com/p/b7f... sh...
摘要:作者微信號(hào)微信公眾號(hào)簡(jiǎn)書(shū)地址我把這篇文章分為四個(gè)部分機(jī)器學(xué)習(xí),,和數(shù)學(xué)。在這篇文章中,我把每個(gè)主題的教程數(shù)量都是控制在五到六個(gè),這些精選出來(lái)的教程都是非常重要的。每一個(gè)鏈接都會(huì)鏈接到別的鏈接,從而導(dǎo)致很多新的教程。 作者:chen_h微信號(hào) & QQ:862251340微信公眾號(hào):coderpai簡(jiǎn)書(shū)地址:http://www.jianshu.com/p/2be3... showIm...
閱讀 2071·2021-11-24 10:45
閱讀 1919·2021-10-09 09:43
閱讀 1365·2021-09-22 15:38
閱讀 1314·2021-08-18 10:19
閱讀 2891·2019-08-30 15:55
閱讀 3117·2019-08-30 12:45
閱讀 3047·2019-08-30 11:25
閱讀 431·2019-08-29 11:30