摘要:的兩位研究者近日融合了兩種非對(duì)抗方法的優(yōu)勢(shì),并提出了一種名為的新方法。的缺陷讓研究者開(kāi)始探索用非對(duì)抗式方案來(lái)訓(xùn)練生成模型,和就是兩種這類方法。不幸的是,目前仍然在圖像生成方面顯著優(yōu)于這些替代方法。
生成對(duì)抗網(wǎng)絡(luò)(GAN)在圖像生成方面已經(jīng)得到了廣泛的應(yīng)用,目前基本上是 GAN 一家獨(dú)大,其它如 VAE 和流模型等在應(yīng)用上都有一些差距。盡管 wasserstein 距離極大地提升了 GAN 的效果,但其仍在理論上存在訓(xùn)練不穩(wěn)定和模式丟失的問(wèn)題。Facebook 的兩位研究者近日融合了兩種非對(duì)抗方法的優(yōu)勢(shì),并提出了一種名為 GLANN 的新方法。
這種新方法在圖像生成上能與 GAN 相媲美,也許除了 VAE、Glow 和 Pixcel CNN,這種新模型也能加入到無(wú)監(jiān)督生成的大家庭中。當(dāng)然在即將到來(lái)的 2019 年中,我們也希望 GAN 之外的更多生成模型會(huì)得到更多的成長(zhǎng),也希望生成模型能有更多的新想法。
生成式圖像建模是計(jì)算機(jī)視覺(jué)長(zhǎng)期以來(lái)的一大研究方向。無(wú)條件生成模型的目標(biāo)是通過(guò)給定的有限數(shù)量的訓(xùn)練樣本學(xué)習(xí)得到能生成整個(gè)圖像分布的函數(shù)。生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種新的圖像生成建模技術(shù),在圖像生成任務(wù)上有廣泛的應(yīng)用,原因在于:1)能訓(xùn)練有效的無(wú)條件圖像生成器;2)幾乎是一種能用于不同域之間無(wú)監(jiān)督圖像轉(zhuǎn)換的方法(但還有 NAM 也能做圖像轉(zhuǎn)換);3)是一種有效的感知式圖像損失函數(shù)(例如 Pix2Pix)。
?
GAN 有明顯的優(yōu)勢(shì),但也有一些關(guān)鍵的缺點(diǎn):1)GAN 很難訓(xùn)練,具體表現(xiàn)包括訓(xùn)練過(guò)程非常不穩(wěn)定、訓(xùn)練突然崩潰和對(duì)超參數(shù)極其敏感。2)GAN 有模式丟失(mode-dropping)問(wèn)題——只能建模目標(biāo)分布的某些模式而非所有模式。例如如果我們用 GAN 生成 0 到 9 十個(gè)數(shù)字,那么很可能 GAN 只關(guān)注生成「1」這個(gè)數(shù)字,而很少生成其它 9 個(gè)數(shù)字。
一般我們可以使用生日悖論(birthday paradox)來(lái)衡量模式丟失的程度:生成器成功建模的模式數(shù)量可以通過(guò)生成固定數(shù)量的圖像,并統(tǒng)計(jì)重復(fù)圖像的數(shù)量來(lái)估計(jì)。對(duì) GAN 的實(shí)驗(yàn)評(píng)估發(fā)現(xiàn):學(xué)習(xí)到的模式數(shù)量顯著低于訓(xùn)練分布中的數(shù)量。
?
GAN 的缺陷讓研究者開(kāi)始探索用非對(duì)抗式方案來(lái)訓(xùn)練生成模型,GLO 和 IMLE 就是兩種這類方法。Bojanowski et al. 提出的 GLO 是將訓(xùn)練圖像嵌入到一個(gè)低維空間中,并在該嵌入向量輸入到一個(gè)聯(lián)合訓(xùn)練的深度生成器時(shí)重建它們。GLO 的優(yōu)勢(shì)有:1)無(wú)模式丟失地編碼整個(gè)分布;2)學(xué)習(xí)得到的隱含空間能與圖像的形義屬性相對(duì)應(yīng),即隱含編碼之間的歐幾里德距離對(duì)應(yīng)于形義方面的含義差異。但 GLO 有一個(gè)關(guān)鍵缺點(diǎn),即沒(méi)有一種從嵌入空間采樣新圖像的原則性方法。盡管 GLO 的提出者建議用一個(gè)高斯分布來(lái)擬合訓(xùn)練圖像的隱編碼,但這會(huì)導(dǎo)致圖像合成質(zhì)量不高。
IMLE 則由 Li and Malik 提出,其訓(xùn)練生成模型的方式是:從一個(gè)任意分布采樣大量隱含編碼,使用一個(gè)訓(xùn)練后的生成器將每個(gè)編碼映射到圖像域中并確保對(duì)于每張訓(xùn)練圖像都存在一張相近的生成圖像。IMLE 的采樣很簡(jiǎn)單,而且沒(méi)有模式丟失問(wèn)題。類似于其它最近鄰方法,具體所用的指標(biāo)對(duì) IMLE 影響很大,尤其是當(dāng)訓(xùn)練集大小有限時(shí)。回想一下,盡管經(jīng)典的 Cover-Hart 結(jié)果告訴我們最近鄰分類器的誤差率漸進(jìn)地處于貝葉斯風(fēng)險(xiǎn)的二分之一范圍內(nèi),但當(dāng)我們使用有限大小的示例樣本集時(shí),選擇更好的指標(biāo)能讓分類器的表現(xiàn)更好。當(dāng)使用 L2 損失直接在圖像像素上訓(xùn)練時(shí),IMLE 合成的圖像是模糊不清的。
?
在本研究中,我們提出了一種名為「生成式隱含最近鄰(GLANN:Generative Latent Nearest Neighbors)」的新技術(shù),能夠訓(xùn)練出與 GAN 質(zhì)量相當(dāng)或更優(yōu)的生成模型。我們的方法首次使用了 GLO 來(lái)嵌入訓(xùn)練圖像,從而克服了 IMLE 的指標(biāo)問(wèn)題。由 GLO 為隱含空間引入的迷人的線性特性能讓歐幾里德度量在隱含空間 Z 中具有形義含義。我們訓(xùn)練了一個(gè)基于 IMLE 的模型來(lái)實(shí)現(xiàn)任意噪聲分布 E 和 GLO 隱含空間 Z 之間的映射。然后,GLO 生成器可以將生成得到的隱含編碼映射到像素空間,由此生成圖像。我們的 GLANN 方法集中了 IMLE 和 GLO 的雙重優(yōu)勢(shì):易采樣、能建模整個(gè)分布、訓(xùn)練穩(wěn)定且能合成銳利的圖像。圖 1 給出了我們的方法的一種方案。
圖 1:我們的架構(gòu)的示意圖:采樣一個(gè)隨機(jī)噪聲向量 e 并將其映射到隱含空間,得到隱含編碼 z = T(e)。該隱含編碼再由生成器投射到像素空間,得到圖像 I = G(z)
?
我們使用已確立的指標(biāo)評(píng)估了我們的方法,發(fā)現(xiàn)其顯著優(yōu)于其它的非對(duì)抗式方法,同時(shí)其表現(xiàn)也比當(dāng)前的基于 GAN 的模型更優(yōu)或表現(xiàn)相當(dāng)。GLANN 也在高分辨率圖像生成和 3D 生成上得到了出色的結(jié)果。最后,我們表明 GLANN 訓(xùn)練的模型是最早的能真正執(zhí)行非對(duì)抗式無(wú)監(jiān)督圖像轉(zhuǎn)換的模型。
?
論文:使用生成式隱含最近鄰的非對(duì)抗式圖像合成
論文鏈接:https://arxiv.org/pdf/1812.08985v1.pdf
生成對(duì)抗網(wǎng)絡(luò)(GAN)近來(lái)已經(jīng)主導(dǎo)了無(wú)條件圖像生成領(lǐng)域。GAN 方法會(huì)訓(xùn)練一個(gè)生成器和一個(gè)判別器,其中生成器根據(jù)隨機(jī)噪聲向量對(duì)圖像進(jìn)行回歸操作,判別器則會(huì)試圖分辨生成的圖像和訓(xùn)練集中的真實(shí)圖像。GAN 已經(jīng)在生成看似真實(shí)的圖像上取得了出色的表現(xiàn)。GAN 盡管很成功,但也有一些關(guān)鍵性缺陷:訓(xùn)練不穩(wěn)定和模式丟失。GAN 的缺陷正促使研究者研究替代方法,其中包括變分自編碼器(VAE)、隱含嵌入學(xué)習(xí)方法(比如 GLO)和基于最近鄰的隱式較大似然估計(jì)(IMLE)。不幸的是,目前 GAN 仍然在圖像生成方面顯著優(yōu)于這些替代方法。在本研究中,我們提出了一種名為「生成式隱含最近鄰(GLANN)」的全新方法,可不使用對(duì)抗訓(xùn)練來(lái)訓(xùn)練生成模型。GLANN 結(jié)合了 IMLE 和 GLO 兩者之長(zhǎng),克服了兩種方法各自的主要缺點(diǎn)。結(jié)果就是 GLANN 能生成比 IMLE 和 GLO 遠(yuǎn)遠(yuǎn)更好的圖像。我們的方法沒(méi)有困擾 GAN 訓(xùn)練的模式崩潰問(wèn)題,而且要穩(wěn)定得多。定性結(jié)果表明 GLANN 在常用數(shù)據(jù)集上優(yōu)于 800 個(gè) GAN 和 VAE 構(gòu)成的基線水平。研究還表明我們的模型可以有效地用于訓(xùn)練真正的非對(duì)抗式無(wú)監(jiān)督圖像轉(zhuǎn)換。
方法
我們提出的 GLANN(生成式隱含最近鄰)方法克服了 GLO 和 IMLE 兩者的缺點(diǎn)。GLANN 由兩個(gè)階段構(gòu)成:1)使用 GLO 將高維的圖像空間嵌入到一個(gè)「行為良好的」隱含空間;2)使用 IMLE 在一個(gè)任意分布(通常是一個(gè)多維正態(tài)分布)和該低維隱含空間之間執(zhí)行映射。
?
實(shí)驗(yàn)
為了評(píng)估我們提出的方法的表現(xiàn),我們執(zhí)行了定量和定性實(shí)驗(yàn)來(lái)比較我們的方法與已確立的基線水平。
表 1:生成質(zhì)量(FID/ Frechet Inception Distance)
?
圖 2:在 4 個(gè)數(shù)據(jù)集上根據(jù)衡量的精度-召回率情況。這些圖表來(lái)自 [31]。我們用星標(biāo)在相關(guān)圖表上標(biāo)出了我們的模型在每個(gè)數(shù)據(jù)集上的結(jié)果。
?
圖 3:IMLE [24]、GLO [5]、GAN [25] 與我們的方法的合成結(jié)果比較。第一排:MNIST。第二排:Fashion。第三排:CIFAR10。最后一排:CelebA64。IMLE 下面空缺的部分在 [24] 中沒(méi)有給出。GAN 的結(jié)果來(lái)自 [25],對(duì)應(yīng)于根據(jù)精度-召回率指標(biāo)評(píng)估的 800 個(gè)生成模型中較好的一個(gè)。
?
圖 4:在 CelebA-HQ 上以 256×256 的分辨率得到的插值實(shí)驗(yàn)結(jié)果。最左邊和最右邊的圖像是根據(jù)隨機(jī)噪聲隨機(jī)采樣得到的。中間的插值圖像很平滑而且視覺(jué)質(zhì)量很高。
?
圖 5:在 CelebA-HQ 上以 1024×1024 的分辨率得到的插值實(shí)驗(yàn)結(jié)果
?
圖 6:GLANN 生成的 3D 椅子圖像示例
討論
損失函數(shù):在這項(xiàng)研究中,我們用一種感知損失(perceptual loss)代替了標(biāo)準(zhǔn)的對(duì)抗損失函數(shù)。在實(shí)踐中我們使用了 ImageNet 訓(xùn)練后的 VGG 特征。Zhang et al. [40] 宣稱自監(jiān)督的感知損失的效果并不比 ImageNet 訓(xùn)練的特征差。因此,我們的方法很可能與自監(jiān)督感知損失有相似的表現(xiàn)。
?
更高的分辨率:分辨率從 64×64 到 256×256 或 1024×1024 的增長(zhǎng)是通過(guò)對(duì)損失函數(shù)進(jìn)行簡(jiǎn)單修改而實(shí)現(xiàn)的:感知損失是在原始圖像以及該圖像的一個(gè)雙線性下采樣版本上同時(shí)計(jì)算的。提升到更高的分辨率只簡(jiǎn)單地需要更多下采樣層級(jí)。研究更復(fù)雜精細(xì)的感知損失也許還能進(jìn)一步提升合成質(zhì)量。
?
其它模態(tài):我們這項(xiàng)研究關(guān)注的重點(diǎn)是圖像合成。我們相信我們的方法也可以擴(kuò)展到很多其它模態(tài),尤其是 3D 和視頻。我們的方法流程簡(jiǎn)單,對(duì)超參數(shù)穩(wěn)健,這些優(yōu)點(diǎn)使其可比 GAN 遠(yuǎn)遠(yuǎn)更簡(jiǎn)單地應(yīng)用于其它模態(tài)。我們?cè)?4.4 節(jié)給出了一些說(shuō)明這一點(diǎn)的證據(jù)。未來(lái)的一大研究任務(wù)尋找可用于 2D 圖像之外的其它域的感知損失函數(shù)。
聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系小編及時(shí)處理,謝謝!歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4830.html
摘要:是世界上最重要的研究者之一,他在谷歌大腦的競(jìng)爭(zhēng)對(duì)手,由和創(chuàng)立工作過(guò)不長(zhǎng)的一段時(shí)間,今年月重返,建立了一個(gè)探索生成模型的新研究團(tuán)隊(duì)。機(jī)器學(xué)習(xí)系統(tǒng)可以在這些假的而非真實(shí)的醫(yī)療記錄進(jìn)行訓(xùn)練。今年月在推特上表示是的,我在月底離開(kāi),并回到谷歌大腦。 理查德·費(fèi)曼去世后,他教室的黑板上留下這樣一句話:我不能創(chuàng)造的東西,我就不理解。(What I cannot create, I do not under...
摘要:文本谷歌神經(jīng)機(jī)器翻譯去年,谷歌宣布上線的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過(guò)了人類。在該技術(shù)的發(fā)展過(guò)程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫(huà)畫(huà)。 1. 文本1.1 谷歌神經(jīng)機(jī)器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。關(guān)鍵結(jié)果:與...
摘要:自年提出生成對(duì)抗網(wǎng)絡(luò)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),更是稱之為過(guò)去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。 自2014年Ian Goodfellow提出生成對(duì)抗網(wǎng)絡(luò)(GAN)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),Yann LeCun更是稱之為過(guò)去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。生成對(duì)抗網(wǎng)絡(luò)的簡(jiǎn)單介紹如下,訓(xùn)練一個(gè)生成器(Generator,簡(jiǎn)稱G...
摘要:我仍然用了一些時(shí)間才從神經(jīng)科學(xué)轉(zhuǎn)向機(jī)器學(xué)習(xí)。當(dāng)我到了該讀博的時(shí)候,我很難在的神經(jīng)科學(xué)和的機(jī)器學(xué)習(xí)之間做出選擇。 1.你學(xué)習(xí)機(jī)器學(xué)習(xí)的歷程是什么?在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)你最喜歡的書(shū)是什么?你遇到過(guò)什么死胡同嗎?我學(xué)習(xí)機(jī)器學(xué)習(xí)的道路是漫長(zhǎng)而曲折的。讀高中時(shí),我興趣廣泛,大部分和數(shù)學(xué)或科學(xué)沒(méi)有太多關(guān)系。我用語(yǔ)音字母表編造了我自己的語(yǔ)言,我參加了很多創(chuàng)意寫(xiě)作和文學(xué)課程。高中畢業(yè)后,我進(jìn)了大學(xué),盡管我不想去...
摘要:引用格式王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍生成對(duì)抗網(wǎng)絡(luò)的研究與展望自動(dòng)化學(xué)報(bào),論文作者王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍摘要生成式對(duì)抗網(wǎng)絡(luò)目前已經(jīng)成為人工智能學(xué)界一個(gè)熱門(mén)的研究方向。本文概括了的研究進(jìn)展并進(jìn)行展望。 3月27日的新智元 2017 年技術(shù)峰會(huì)上,王飛躍教授作為特邀嘉賓將參加本次峰會(huì)的 Panel 環(huán)節(jié),就如何看待中國(guó) AI學(xué)術(shù)界論文數(shù)量多,但大師級(jí)人物少的現(xiàn)...
閱讀 2670·2021-11-18 10:02
閱讀 1774·2021-09-30 10:00
閱讀 5432·2021-09-22 15:27
閱讀 1273·2019-08-30 15:54
閱讀 3738·2019-08-29 11:13
閱讀 3013·2019-08-29 11:05
閱讀 3386·2019-08-29 11:01
閱讀 629·2019-08-26 13:52