摘要:生成式對(duì)抗網(wǎng)絡(luò)簡(jiǎn)稱將成為深度學(xué)習(xí)的下一個(gè)熱點(diǎn),它將改變我們認(rèn)知世界的方式。配圖針對(duì)三年級(jí)學(xué)生的對(duì)抗式訓(xùn)練屬于你的最嚴(yán)厲的批評(píng)家五年前,我在哥倫比亞大學(xué)舉行的一場(chǎng)橄欖球比賽中傷到了自己的頭部,導(dǎo)致我右半身腰部以上癱瘓。
本文作者 Nikolai Yakovenko 畢業(yè)于哥倫比亞大學(xué),目前是 Google 的工程師,致力于構(gòu)建人工智能系統(tǒng),專注于語言處理、文本分類、解析與生成。
生成式對(duì)抗網(wǎng)絡(luò)—簡(jiǎn)稱GANs—將成為深度學(xué)習(xí)的下一個(gè)熱點(diǎn),它將改變我們認(rèn)知世界的方式。
準(zhǔn)確來講,對(duì)抗式訓(xùn)練為指導(dǎo)人工智能完成復(fù)雜任務(wù)提供了一個(gè)全新的思路,某種意義上他們(人工智能)將學(xué)習(xí)如何成為一個(gè)專家。
舉個(gè)對(duì)抗式訓(xùn)練的例子,當(dāng)你試圖通過模仿別人完成某項(xiàng)工作時(shí),如果專家都無法分辨這項(xiàng)工作是你完成的還是你的模仿對(duì)象完成的,說明你已經(jīng)完全掌握了該工作的所需的技巧。對(duì)于像寫論文這樣復(fù)雜的工作,這個(gè)例子可能不適用,畢竟每個(gè)人的最終成果多少有些不同,但對(duì)于中等難度的任務(wù),比如造句或?qū)懸欢卧?,?duì)抗式訓(xùn)練大有用武之地,事實(shí)上它現(xiàn)在已經(jīng)是計(jì)算機(jī)生成真實(shí)圖像的關(guān)鍵所在了。
GANs解決問題的方式是用不同的目標(biāo)分別訓(xùn)練兩種不同的網(wǎng)絡(luò)。
? ? 一種網(wǎng)絡(luò)創(chuàng)造答案(生成方)
? ?另一種網(wǎng)絡(luò)分辨前者創(chuàng)造的答案與真實(shí)答案的區(qū)別(對(duì)抗方)
GANs的訣竅是這樣的:訓(xùn)練兩種網(wǎng)絡(luò)進(jìn)行競(jìng)爭(zhēng),一段時(shí)間后,兩種網(wǎng)絡(luò)都無法在對(duì)抗中取得進(jìn)步,或者生成方變得非常厲害以至于即使給定足夠的線索和時(shí)間,其對(duì)抗網(wǎng)絡(luò)也無法分辨它給的答案是真實(shí)的還是合成的。
這其中有很多有趣的細(xì)節(jié),但我們暫時(shí)先忽略這些細(xì)節(jié)。GANs 可以在給定繪制圖像類別和隨機(jī)種子(random seed)的條件下,自主完成圖像的繪制:
“給我畫一只啄木鳥,并且它不能是我之前給你看過的那些啄木鳥?!?/p>
配圖:StackGAN繪制的合成鳥。
在數(shù)學(xué)方面, 谷歌研究中心的科學(xué)家們用GANs創(chuàng)造了一種編碼協(xié)議。GANs的生成方 Alice向Bob傳遞通過卷積神經(jīng)網(wǎng)絡(luò)編碼的信息以及密鑰。Eve則扮演對(duì)抗方,即可以拿到編碼的信息,但沒有密鑰。Eve訓(xùn)練網(wǎng)絡(luò)來分辨信息中的噪音和有價(jià)值的部分,然而對(duì)抗方失敗了,無法將上述兩個(gè)部分區(qū)分開來。
在這一網(wǎng)絡(luò)結(jié)構(gòu)興起的早期,以及現(xiàn)在,我還從未聽說哪個(gè)基于GAN的公開demo(演示程序)可以在完成某句話這一任務(wù)上媲美前饋LSTM。雖然前饋LSTM(比如Karpathy特征循環(huán)神經(jīng)網(wǎng)絡(luò))僅僅是一個(gè)基準(zhǔn)(baseline),但可以想象遲早有一天,有人會(huì)創(chuàng)造出一個(gè)可以根據(jù)亞馬遜購(gòu)物網(wǎng)站的商品打分來撰寫評(píng)論的GAN 來。
人類通過直接反饋來學(xué)習(xí)
對(duì)我來說,相比強(qiáng)化學(xué)習(xí)(RL)而言,對(duì)抗式學(xué)習(xí)更接近人類的學(xué)習(xí)方式。也許因?yàn)槲沂且粋€(gè)喜歡自己找自己麻煩的人吧。
RL通過較大化(平均)最終獎(jiǎng)勵(lì)來達(dá)到訓(xùn)練目的。當(dāng)前的狀態(tài)也許與獎(jiǎng)勵(lì)無關(guān),但最終的結(jié)局一定會(huì)由“獎(jiǎng)勵(lì)函數(shù)”給出。我已經(jīng)做過RL領(lǐng)域的一些工作,并且它也極大地促進(jìn)了我們研究領(lǐng)域的發(fā)展,但是除非你是在玩游戲,否則很難寫出一個(gè)獎(jiǎng)勵(lì)函數(shù)來較精確衡量來自周邊環(huán)境的反饋。
二十世紀(jì)90年代,強(qiáng)化學(xué)習(xí)在十五子棋游戲中取得巨大突破,它是DeepMind創(chuàng)造的AlphaGo的一個(gè)重要組成部分,DeepMind團(tuán)隊(duì)甚至用RL來節(jié)省谷歌的數(shù)據(jù)中心的冷卻費(fèi)用。
可以想象RL能在谷歌數(shù)據(jù)中心這一環(huán)境中,算得到一個(gè)最優(yōu)結(jié)果,因?yàn)楠?jiǎng)勵(lì)函數(shù)(在防止溫度高于限定值的條件下盡可能省錢)可以很好地定義。這是真實(shí)世界可以像游戲一樣被參數(shù)化的例子,這樣的例子通常只能在好萊塢電影中見到。
對(duì)于那些更實(shí)際的問題,獎(jiǎng)勵(lì)函數(shù)是什么呢?即使是類似游戲中的任務(wù)如駕駛,其目標(biāo)既不是盡快達(dá)到目的地,也并非始終待在道路邊界線內(nèi)。我們可以很容易地找到一個(gè)負(fù)獎(jiǎng)勵(lì)(比如撞壞車輛,使乘客受傷,不合理地加速)但卻很難找到一個(gè)可以規(guī)范駕駛行為的正獎(jiǎng)勵(lì)。
邊觀察,邊學(xué)習(xí)
我們是如何學(xué)習(xí)寫字的?除非你念的是要求很嚴(yán)格的小學(xué),否則學(xué)習(xí)寫字的過程很難說是較大化某個(gè)與書寫字母有關(guān)的函數(shù)。最可能的情況是你模仿老師在黑板上的書寫筆順,然后內(nèi)化這一過程 。
你的生成網(wǎng)絡(luò)書寫字母,而你的識(shí)別網(wǎng)絡(luò)(對(duì)抗方)觀察你的字體和教科書中理想字體的區(qū)別。?
配圖:針對(duì)三年級(jí)學(xué)生的對(duì)抗式訓(xùn)練
屬于你的最嚴(yán)厲的批評(píng)家
五年前,我在哥倫比亞大學(xué)舉行的一場(chǎng)橄欖球比賽中傷到了自己的頭部,導(dǎo)致我右半身腰部以上癱瘓。受傷兩周后我出了重癥監(jiān)護(hù)病房,開始教自己學(xué)習(xí)如何寫字。那時(shí)我住在布魯克林的公寓里。
配圖:再次學(xué)習(xí)如何寫字, 五月
我的左腦受到了嚴(yán)重的創(chuàng)傷,因此我失去了控制我右胳膊的能力。然而,我大腦的其余部分完好無損,因此我仍能夠識(shí)別正確的書寫方式。換句話說,我的文字生成網(wǎng)絡(luò)壞了,而識(shí)別網(wǎng)絡(luò)功能正常。
?
說句玩笑話,我很有可能因?yàn)檫@一過程學(xué)會(huì)一種新的(或更好的)書寫方式。然而結(jié)果是雖然我很快地教會(huì)了我自己如何書寫,但書寫筆跡和我受傷前的沒什么兩樣
?
我不知道我們的大腦是如何使用“行為人-批評(píng)家”的模式來學(xué)習(xí)的,我也不知道這種說法是事實(shí)還是僅僅是一個(gè)生動(dòng)的比喻,但是可以確定的是在有一個(gè)專家即時(shí)反饋的條件下,我們可以更有效率地學(xué)習(xí)新東西。
?
當(dāng)學(xué)習(xí)編程或攀巖時(shí),如果你一直接收某個(gè)專家的“beta(反饋建議)”,則可以進(jìn)步得更快。在你獲得足夠的經(jīng)驗(yàn)?zāi)軌蜃晕曳答伵u(píng)之前,有一個(gè)外部的批評(píng)家來糾正你每一小步的錯(cuò)誤可以更容易訓(xùn)練你大腦的生成網(wǎng)絡(luò)。即使有一個(gè)內(nèi)部批評(píng)家在監(jiān)督你,學(xué)習(xí)一個(gè)有效的生成網(wǎng)絡(luò)仍然需要認(rèn)真的練習(xí)。我們總不能把我們大腦的生成器換成亞馬遜推出的GPU實(shí)例吧。
擺脫糾結(jié),勇往直前?
實(shí)際中,GANs 被用于解決這樣一些問題:為生成器生成的圖片添加一些真實(shí)的效果如銳化邊緣。盡管在這樣的圖片中,不一定每個(gè)動(dòng)物都只有一個(gè)腦袋。
讓生成網(wǎng)絡(luò)與合適的對(duì)抗方競(jìng)爭(zhēng)能迫使其做出取舍。正如我的一位同事所說,你面臨一個(gè)選擇,既可以畫一只綠色的鸚鵡,也可以畫一只藍(lán)色的鸚鵡,但是你畫的必須是其中之一。一個(gè)沒有對(duì)抗方的監(jiān)督網(wǎng)絡(luò)接受了真實(shí)鸚鵡的識(shí)別訓(xùn)練,會(huì)傾向于畫出某種摻雜藍(lán)色或綠色的平均色,導(dǎo)致其線條模糊不清。而一個(gè)對(duì)抗式網(wǎng)絡(luò)則可以畫出藍(lán)色或綠色的鸚鵡,也可以在利用鸚鵡的{藍(lán),綠}概率分布隨機(jī)地選擇一種顏色。但它絕不會(huì)畫出某種自然鸚鵡不存在的中間色,當(dāng)然這種顏色也可能存在于已經(jīng)滅絕的鸚鵡上。
?
我的同事最近理清了關(guān)于GANs的思路,其中包括對(duì)GANs的收斂性和可推廣性的悲觀態(tài)度。
?
某種程度上,這是由于這種蹺蹺板式的訓(xùn)練方法——一會(huì)兒訓(xùn)練生成方,一會(huì)兒訓(xùn)練識(shí)別方,如此反復(fù)——并不能保證收斂于一個(gè)穩(wěn)定解,更別提一個(gè)最優(yōu)解了。如下圖Alex J Champandard的一則Twitter 所示:
配圖在twitter上是一個(gè)GIF圖片,通常情況生成方和對(duì)抗方在玩一個(gè)極限博弈游戲,但只要再走一步,其將陷入震蕩
但是讓我們忽略這些細(xì)節(jié),做一些美好的想象吧。若LSTM模型能寫出調(diào)理清楚的產(chǎn)品評(píng)論、圖片標(biāo)題、或者在唐納德競(jìng)選總統(tǒng)時(shí)代替他在twitter上發(fā)聲(反正競(jìng)選前夜他會(huì)保持沉默),那稍微聰明一點(diǎn)的識(shí)別器應(yīng)該都能提高這些任務(wù)的表現(xiàn)吧。
?
假設(shè)LSTM是隨機(jī)生成這些結(jié)果的,我們可以利用既有的生成器生成相應(yīng)的結(jié)果,再讓識(shí)別器從生成結(jié)果中較好的20個(gè)中選出最合適的。這不正是DeepDrumpf背后的運(yùn)營(yíng)團(tuán)隊(duì)所做的事情嗎?
twitter中文字:對(duì)于facebook和twitter而言,我一直是一個(gè)完全的災(zāi)難,而且現(xiàn)在比以往更加嚴(yán)重了
生成器和識(shí)別器,誰更聰明?
一個(gè)問題自然而然地出現(xiàn)了——到底哪種網(wǎng)絡(luò)能夠真正理解所面臨問題,是生成器還是識(shí)別器?或者說究竟誰更會(huì)寫字,是寫字的學(xué)生,還是教寫字的老師?
?
現(xiàn)實(shí)世界通常是老師更會(huì)寫字,但在之前的例子中,我想應(yīng)該是學(xué)生更會(huì)寫字。因?yàn)橐粋€(gè)用于識(shí)別產(chǎn)品評(píng)論的識(shí)別器只需知道一些常見的語法錯(cuò)誤,就能投入使用。正如一個(gè)人像米開朗基羅一樣畫畫,一個(gè)人僅僅是抬頭看看西斯廷大教堂的天花板(上面有米開朗基羅的畫),誰需要更多的技巧呢?
?
正如我所理解的,手機(jī)圖像軟件Prisma在有對(duì)抗方的框架下,訓(xùn)練生成網(wǎng)絡(luò),進(jìn)行不同風(fēng)格的創(chuàng)作。大多數(shù)風(fēng)格正是通過這種方式生成了那些曲折的線條。我希望他們能增加訓(xùn)練GAN的時(shí)間,這樣GAN不僅能認(rèn)出照片中的陰影,并給其涂上不同的顏色,還可能以一個(gè)印象派藝術(shù)家的風(fēng)格完成這些任務(wù)。當(dāng)它偶爾可以正確地區(qū)分光線和陰影的時(shí)候,那么它就是令人驚嘆的。
順著這條思路想下去可以得出一個(gè)很自然的結(jié)論,生成式對(duì)抗方法,可以讓人工智能有能力做實(shí)驗(yàn)和A/B測(cè)試。一個(gè)人工智能模型給出了一個(gè)很好的解決方案,然后它搜集反饋來了解這個(gè)生成方案和標(biāo)準(zhǔn)答案是否相符,或與其他它正在學(xué)習(xí)或已經(jīng)內(nèi)化的人工智能模型比較,觀察得出的結(jié)果是否相符。在這一過程中,你沒必要去設(shè)計(jì)一個(gè)損失函數(shù),因?yàn)殡m然可能會(huì)花上一點(diǎn)時(shí)間,但這個(gè)人工智能模型終將找到自己的評(píng)判標(biāo)準(zhǔn)。
適可而止,見好就收
我寫了這整篇文章,卻還沒有親身嘗試一下對(duì)抗式網(wǎng)絡(luò)。本著模仿的心態(tài),我期望其他人能夠在GANs上取得進(jìn)步,較好是在文字生成領(lǐng)域取得突破。我預(yù)計(jì)很快就會(huì)有合適的技術(shù),能夠良好運(yùn)行并得到令人信服的結(jié)果。我們這個(gè)領(lǐng)域正是這樣,通過積累前人的經(jīng)驗(yàn)而進(jìn)步的。
?
與其去預(yù)測(cè)我沒有參與過的事,我更應(yīng)該花時(shí)間去優(yōu)化我的“撲克牌卷積神經(jīng)網(wǎng)絡(luò)”(PokerCNN)無限額德州撲克AI,為今年的年度計(jì)算機(jī)撲克大賽作準(zhǔn)備。其代碼將在2017年1月13日前完成。
?
在明年的比賽中我計(jì)劃添加一些對(duì)抗式訓(xùn)練。不難想象對(duì)抗式訓(xùn)練能夠幫助AI學(xué)習(xí)更好的撲克技巧。特別是當(dāng)對(duì)手也是很強(qiáng)大的黑箱AI時(shí),這個(gè)方法更為有用。
?
既然是科學(xué)為目的,并且我的撲克牌AI代碼已經(jīng)開源了(在你看到這里時(shí),我應(yīng)該已經(jīng)清理了代碼倉(cāng)庫(kù),并且添加了一個(gè)的readme幫助文檔,所以應(yīng)該可以更容易著手),所以請(qǐng)隨意拿去嘗試吧。
鏈接:向后看,向先看
如果沒有點(diǎn)出2016年深度學(xué)習(xí)領(lǐng)域中我最喜歡的幾大進(jìn)步,那我就太怠惰了。以下列出了幾個(gè)我最愛的進(jìn)步:
?
? ?2016年深度學(xué)習(xí)的主要進(jìn)步: GANs, 非監(jiān)督學(xué)習(xí)領(lǐng)域的進(jìn)步, 超分辨率,以及其他種種突破
? ?“我在神經(jīng)信息處理大會(huì)上學(xué)到的50樣?xùn)|西” 作者Andreas Stuhlmller
?
? ?以上幾條中我最喜歡的想法是:用不同的時(shí)期間隔來訓(xùn)練LSTM記憶單元,這樣可以迫使某些記憶單元記住長(zhǎng)期信息,而其它的記憶單元可以更加關(guān)注短期記憶。這種方法更符合直覺,也避免了過多的超參數(shù)調(diào)優(yōu)
?
? ?大公司和有足夠資金的創(chuàng)業(yè)公司是否都在貪婪地尋找優(yōu)質(zhì)的深度學(xué)習(xí)數(shù)據(jù)?也許有專利的數(shù)據(jù)庫(kù)并不是所有人工智能的關(guān)鍵問題所在。并且維基百科也列出了一大堆免費(fèi)的數(shù)據(jù)庫(kù),包括前文提到的亞馬遜的商品評(píng)論。隨著很多公司繼續(xù)提供其擁有的大部分?jǐn)?shù)據(jù)用于研究,以后將會(huì)涌現(xiàn)更多的數(shù)據(jù)。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4444.html
摘要:自年提出生成對(duì)抗網(wǎng)絡(luò)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),更是稱之為過去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。 自2014年Ian Goodfellow提出生成對(duì)抗網(wǎng)絡(luò)(GAN)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),Yann LeCun更是稱之為過去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。生成對(duì)抗網(wǎng)絡(luò)的簡(jiǎn)單介紹如下,訓(xùn)練一個(gè)生成器(Generator,簡(jiǎn)稱G...
摘要:但年在機(jī)器學(xué)習(xí)的較高級(jí)大會(huì)上,蘋果團(tuán)隊(duì)的負(fù)責(zé)人宣布,公司已經(jīng)允許自己的研發(fā)人員對(duì)外公布論文成果。蘋果第一篇論文一經(jīng)投放,便在年月日,斬獲較佳論文。這項(xiàng)技術(shù)由的和開發(fā),使用了生成對(duì)抗網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。 GANs「對(duì)抗生成網(wǎng)絡(luò)之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對(duì)抗網(wǎng)絡(luò)(GAN/Generative Adversarial ...
摘要:我仍然用了一些時(shí)間才從神經(jīng)科學(xué)轉(zhuǎn)向機(jī)器學(xué)習(xí)。當(dāng)我到了該讀博的時(shí)候,我很難在的神經(jīng)科學(xué)和的機(jī)器學(xué)習(xí)之間做出選擇。 1.你學(xué)習(xí)機(jī)器學(xué)習(xí)的歷程是什么?在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)你最喜歡的書是什么?你遇到過什么死胡同嗎?我學(xué)習(xí)機(jī)器學(xué)習(xí)的道路是漫長(zhǎng)而曲折的。讀高中時(shí),我興趣廣泛,大部分和數(shù)學(xué)或科學(xué)沒有太多關(guān)系。我用語音字母表編造了我自己的語言,我參加了很多創(chuàng)意寫作和文學(xué)課程。高中畢業(yè)后,我進(jìn)了大學(xué),盡管我不想去...
摘要:實(shí)現(xiàn)這一應(yīng)用的基本思想方法是將圖像的每一列用向量來表示,計(jì)算每一個(gè)的平均值,從而得到一個(gè)向量。標(biāo)準(zhǔn)加強(qiáng)學(xué)習(xí)模型通常要求建立一個(gè)獎(jiǎng)勵(lì)函數(shù),用于向代理機(jī)器反饋符合預(yù)期的行為。來源更多信息自學(xué)成才讓好奇驅(qū)動(dòng)計(jì)算機(jī)學(xué)習(xí)在很多 還記得《射雕英雄傳》中老頑童發(fā)明的左右互搏術(shù)嗎??表面上看,左手與右手互為敵手,斗得不可開交。實(shí)際上,老頑童卻憑借此練就了一門絕世武功。?這樣的故事似乎只能發(fā)生在小說中。然而,...
摘要:但是在傳統(tǒng)的機(jī)器學(xué)習(xí)中,特征和算法都是人工定義的。傳統(tǒng)的深度學(xué)習(xí)中,是由人來決定要解決什么問題,人來決定用什么目標(biāo)函數(shù)做評(píng)估。 隨著柯潔與AlphaGo結(jié)束以后,大家是不是對(duì)人工智能的底層奧秘越來越有興趣?深度學(xué)習(xí)已經(jīng)在圖像分類、檢測(cè)等諸多領(lǐng)域取得了突破性的成績(jī)。但是它也存在一些問題。首先,它與傳統(tǒng)的機(jī)器學(xué)習(xí)方法一樣,通常假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從同樣的分布,或者是在訓(xùn)練數(shù)據(jù)上的預(yù)測(cè)結(jié)果與在...
閱讀 2058·2021-09-26 10:19
閱讀 3316·2021-09-24 10:25
閱讀 1781·2019-12-27 11:39
閱讀 2032·2019-08-30 15:43
閱讀 761·2019-08-29 16:08
閱讀 3577·2019-08-29 16:07
閱讀 972·2019-08-26 11:30
閱讀 1330·2019-08-26 10:41