MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀(jì)錄

marser 發(fā)布于2019-04-25 18:33 / 3580人閱讀

摘要：最近，來自浙江大學(xué)悉尼大學(xué)等高校的研究人員，提出一種新穎的全局局部注意和語義保持的文本圖像文本框架來解決這個(gè)問題，這種框架稱為。目前，論文已被接收。喬婷婷，浙江大學(xué)計(jì)算機(jī)學(xué)院博士研究生，目前在悉尼大學(xué)陶大程教授研究小組工作。

GAN又開辟了新疆界。

去年英偉達(dá)的StyleGAN在生成高質(zhì)量和視覺逼真的圖像，騙過了無數(shù)雙眼睛，隨后一大批假臉、假貓、假房源隨之興起，可見GAN的威力。

StyleGAN生成假臉

雖然GAN在圖像方面已經(jīng)取得了重大進(jìn)展，但是保證文本描述和視覺內(nèi)容之間的語義一致性上仍然是非常具有挑戰(zhàn)性的。

最近，來自浙江大學(xué)、悉尼大學(xué)等高校的研究人員，提出一種新穎的全局-局部注意和語義保持的文本-圖像-文本(text-to-image-to-text)框架來解決這個(gè)問題，這種框架稱為MirrorGAN。

MirrorGAN有多強(qiáng)？

在目前較為主流的數(shù)據(jù)集COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集上，MirrorGAN都取得了較好成績(jī)。

目前，論文已被CVPR2019接收。

MirrorGAN：解決文本和視覺之間語義一致性

文本生成圖像（T2I）在許多應(yīng)用領(lǐng)域具有巨大的潛力，已經(jīng)成為自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)活躍的研究領(lǐng)域。

與基本圖像生成問題相反，T2I生成以文本描述為條件，而不是僅從噪聲開始。利用GAN的強(qiáng)大功能，業(yè)界已經(jīng)提出了不同的T2I方法來生成視覺上逼真的和文本相關(guān)的圖像。這些方法都利用鑒別器來區(qū)分生成的圖像和相應(yīng)的文本對(duì)以及ground-truth圖像和相應(yīng)的文本對(duì)。

然而，由于文本和圖像之間的區(qū)域差異，當(dāng)僅依賴于這樣的鑒別器時(shí)，對(duì)每對(duì)內(nèi)的基礎(chǔ)語義一致性進(jìn)行建模是困難且低效的。

近年來，針對(duì)這一問題，人們利用注意機(jī)制來引導(dǎo)生成器在生成不同的圖像區(qū)域時(shí)關(guān)注不同的單詞。然而，由于文本和圖像模式的多樣性，僅使用單詞級(jí)的注意并不能確保全局語義的一致性。如圖1(b)所示：

圖1 ?(a)鏡像結(jié)構(gòu)的說明，體現(xiàn)了通過重新描述學(xué)習(xí)文本到圖像生成的思想；(b)-(c)前人的研究成果與本文提出的MirrorGAN分別生成的語義不一致和一致的圖像/重新描述。

T2I生成可以看作是圖像標(biāo)題(或圖像到文本生成，I2T)的逆問題，它生成給定圖像的文本描述?？紤]到處理每個(gè)任務(wù)都需要對(duì)這兩個(gè)領(lǐng)域的底層語義進(jìn)行建模和對(duì)齊，因此在統(tǒng)一的框架中對(duì)這兩個(gè)任務(wù)進(jìn)行建模以利用底層的雙重規(guī)則是自然和合理的。

如圖1 (a)和(c)所示，如果T2I生成的圖像在語義上與給定的文本描述一致，則I2T對(duì)其重新描述應(yīng)該與給定的文本描述具有完全相同的語義。換句話說，生成的圖像應(yīng)該像一面鏡子，準(zhǔn)確地反映底層文本語義。

基于這一觀察結(jié)果，論文提出了一個(gè)新的文本-圖像-文本的框架——MirrorGAN來改進(jìn)T2I生成，它利用了通過重新描述學(xué)習(xí)T2I生成的思想。

解剖MirrorGAN三大核心模塊

對(duì)于T2I這一任務(wù)來說，主要的目標(biāo)有兩個(gè)：

視覺真實(shí)性；

語義

且二者需要保持一致性。

MirrorGAN利用了“文本到圖像的重新描述學(xué)習(xí)生成”的思想，主要由三個(gè)模塊組成：

語義文本嵌入模塊(STEM)；

級(jí)聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊(GLAM);

語義文本再生與對(duì)齊模塊(STREAM)。

STEM生成單詞級(jí)和句子級(jí)的嵌入；GLAM有一個(gè)級(jí)聯(lián)的架構(gòu)，用于從粗尺度到細(xì)尺度生成目標(biāo)圖像，利用局部詞注意和全局句子注意，逐步增強(qiáng)生成圖像的多樣性和語義一致性；STREAM試圖從生成的圖像中重新生成文本描述，該圖像在語義上與給定的文本描述保持一致。

圖2 ?MirrorGAN原理圖

如圖2所示，MirrorGAN通過集成T2I和I2T來體現(xiàn)鏡像結(jié)構(gòu)。

它利用了通過重新描述來學(xué)習(xí)T2I生成的想法。生成圖像后，MirrorGAN會(huì)重新生成其描述，該描述將其基礎(chǔ)語義與給定的文本描述對(duì)齊。

以下是MirrorGAN三個(gè)模塊組成：STEM，GLAM和STREAM。

STEM：語義文本嵌入模塊

首先，引入語義文本嵌入模塊，將給定的文本描述嵌入到局部詞級(jí)特征和全局句級(jí)特征中。

如圖2最左邊所示(即上圖)，使用一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)從給定的文本描述中提取語義嵌入T，包括一個(gè)嵌入w的單詞和一個(gè)嵌入s的句子。

GLAM：級(jí)聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊

接下來，通過連續(xù)疊加三個(gè)圖像生成網(wǎng)絡(luò)，構(gòu)造了一個(gè)多級(jí)級(jí)聯(lián)發(fā)生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本結(jié)構(gòu)，因?yàn)樗谏杀普娴膱D像方面有很好的性能。

使用{F0，F(xiàn)1，…，F(xiàn)m-1}來表示m個(gè)視覺特征變換器，并使用{G0，G1，…，Gm-1}來表示m個(gè)圖像生成器。每個(gè)階段中的視覺特征Fi和生成的圖像Ii可以表示為：

STREAM：語義文本再生與對(duì)齊模塊

如上所述，MirrorGAN包括語義文本再生和對(duì)齊模塊（STREAM），以從生成的圖像重新生成文本描述，其在語義上與給定的文本描述對(duì)齊。

具體來說，采用了廣泛使用的基于編碼器解碼器的圖像標(biāo)題框架作為基本的STREAM架構(gòu)。

圖像編碼器是在ImageNet上預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)，解碼器是RNN。由末級(jí)生成器生成的圖像Im-1輸入CNN編碼器和RNN解碼器如下：

實(shí)驗(yàn)結(jié)果：COCO數(shù)據(jù)集上成績(jī)較佳

那么，MirrorGAN的性能有多強(qiáng)呢？

首先來看一下MirrorGAN與其它較先進(jìn)的T2I方法的比較，包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的數(shù)據(jù)集是目前較為主流的數(shù)據(jù)集，分別是COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集：

CUB鳥類數(shù)據(jù)集包含8,855個(gè)訓(xùn)練圖像和2,933個(gè)屬于200個(gè)類別的測(cè)試圖像，每個(gè)鳥類圖像有10個(gè)文本描述；

OCO數(shù)據(jù)集包含82,783個(gè)訓(xùn)練圖像和40,504個(gè)驗(yàn)證圖像，每個(gè)圖像有5個(gè)文本描述。?

結(jié)果如表1所示：

表1 ?在CUB和COCO數(shù)據(jù)集上，MirrorGAN和其它先進(jìn)方法的結(jié)果比較

表2展示了AttnGAN和MirrorGAN在CUB和COCO數(shù)據(jù)集上的R精度得分。

表2 ?在CUB和COCO數(shù)據(jù)集上，MirrorGAN和AttnGAN的R精度得分。

在所有實(shí)驗(yàn)比較中，MirrorGAN都表現(xiàn)出了更大的優(yōu)勢(shì)，這表明了本文提出的文本到圖像到文本的框架和全局到本地的協(xié)作關(guān)注模塊的優(yōu)越性，因?yàn)镸irrorGAN生成的高質(zhì)量圖像具有與輸入文本描述一致的語義。

作者介紹

最后再介紹一下論文的四位作者。

Tingting Qiao（喬婷婷），浙江大學(xué)計(jì)算機(jī)學(xué)院博士研究生，目前在悉尼大學(xué)陶大程教授研究小組工作。

喬婷婷（圖據(jù)LinkedIn）

Jing Zhang，博士，杭州電子科技大學(xué)講師，悉尼大學(xué)訪問學(xué)者。

Jing Zhang

許端清，浙江大學(xué)計(jì)算機(jī)與技術(shù)學(xué)院教授、博士生導(dǎo)師。

許端清

陶大程，悉尼大學(xué)工程及信息技術(shù)學(xué)院教授，優(yōu)必選悉尼大學(xué)AI中心主任。

陶大程

目前，喬婷婷和Jing Zhang都在參與陶大程教授的工作。

值得注意的是，許端清教授曾承擔(dān)國家社科基金重大項(xiàng)目（子課題）“敦煌遺書數(shù)據(jù)庫關(guān)鍵技術(shù)研究及軟件系統(tǒng)開發(fā)”，建立敦煌藏文基本信息庫系統(tǒng)，喬婷婷也是當(dāng)時(shí)的參與者之一。

兩年之后的2017年，“石窟寺文物數(shù)字化保護(hù)國家文物局重點(diǎn)科研基地”在浙大揭牌，聚焦“石窟寺文物數(shù)字化保護(hù)“。這篇MirrorGAN的論文，在文本和圖像的轉(zhuǎn)換中加入了對(duì)語義的研究，使得這項(xiàng)任務(wù)的精度再次提高。

AI技術(shù)在文物數(shù)字化相關(guān)工作中，讓古老的文字再添新生的活力，我們離歷史更近，離文化更近。

論文地址：

https://arxiv.org/abs/1903.05854

聲明：本文版權(quán)歸原作者所有，文章收集于網(wǎng)絡(luò)，為傳播信息而發(fā)，如有侵權(quán)，請(qǐng)聯(lián)系小編及時(shí)處理，謝謝！

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器刷新紀(jì)錄浙大網(wǎng)新機(jī)柜出租價(jià)格 ddos 攻擊新紀(jì)錄:每秒 1720 萬次 http 請(qǐng)求! 下拉刷新框架

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/4873.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

marser

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3022·2023-04-25 22:16
寶塔面板安裝獨(dú)角數(shù)卡2.x版本(dujiaoka)

閱讀 2357·2021-10-11 11:11
小程序開發(fā)總結(jié)（一）

閱讀 3298·2019-08-29 13:26
前端JQ實(shí)現(xiàn)偽分頁

閱讀 656·2019-08-29 12:32
一道題看透函數(shù)柯里化

閱讀 3467·2019-08-26 11:49
利用VUE異步組件、動(dòng)態(tài)加載組件，實(shí)現(xiàn)自定義組件順序、動(dòng)態(tài)綁定傳入子組件的props、動(dòng)態(tài)綁定監(jiān)聽子

閱讀 3093·2019-08-26 10:30
history和hash詳解

閱讀 2011·2019-08-23 17:59
結(jié)合源碼徹底理解 react事件機(jī)制原理 04 - 事件執(zhí)行

閱讀 1579·2019-08-23 17:57

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀(jì)錄

相關(guān)文章

「正經(jīng)字幕」太無聊？「神經(jīng)玩笑機(jī)」就可以生成逗你笑的趣味字幕

Facebook何愷明等大神最新論文提出非局部神經(jīng)網(wǎng)絡(luò)

ECCV 2018 | CornerNet：目標(biāo)檢測(cè)算法新思路

[ResNet系] 001 ResNet

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)引用量最高的20篇論文（2014-2017）

發(fā)表評(píng)論

0條評(píng)論

marser

男|高級(jí)講師

TA的文章

tensorflow

寶塔面板安裝獨(dú)角數(shù)卡2.x版本(dujiaoka)

小程序開發(fā)總結(jié)（一）

前端JQ實(shí)現(xiàn)偽分頁

一道題看透函數(shù)柯里化

利用VUE異步組件、動(dòng)態(tài)加載組件，實(shí)現(xiàn)自定義組件順序、動(dòng)態(tài)綁定傳入子組件的props、動(dòng)態(tài)綁定監(jiān)聽子

history和hash詳解

結(jié)合源碼徹底理解 react事件機(jī)制原理 04 - 事件執(zhí)行

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀(jì)錄

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀(jì)錄