摘要:針對(duì)圖像樣式轉(zhuǎn)換產(chǎn)生的圖像質(zhì)量不高的問(wèn)題,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的高質(zhì)量圖像樣式轉(zhuǎn)換方法。借鑒循環(huán)GAN網(wǎng)絡(luò)結(jié)構(gòu)上的發(fā)電網(wǎng)絡(luò)相結(jié)合的方法采用跳層結(jié)構(gòu)和UNet網(wǎng)絡(luò)中的殘差網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)的多尺度不變性;其次,在判別網(wǎng)絡(luò)方面,提出一種多尺度擴(kuò)展卷積判別器,以改善圖像樣式的空間幾何變換。實(shí)驗(yàn)證明,與CycleGAN算法相比,該算法在圖像樣式轉(zhuǎn)換中的效果有很大提升,圖像樣式轉(zhuǎn)換的質(zhì)量也得到了提高。
關(guān)鍵詞:圖像風(fēng)格轉(zhuǎn)換;GAN;CydeGAN;UNet殘差網(wǎng)絡(luò)
李權(quán)學(xué);牛夢(mèng)晨;陳睿麟;陳伊婷;杜帥;徐梓欣成都信息工程大學(xué)學(xué)報(bào)2021-12-13
0引言
隨著圖像技術(shù)的發(fā)展,改變圖像樣式已成為圖像處理領(lǐng)域的一個(gè)分支。圖像遷移技術(shù)是將一幅圖像的內(nèi)容與一幅或多幅圖像的內(nèi)容進(jìn)行融合,得到一幅新圖像的技術(shù)。在神經(jīng)網(wǎng)絡(luò)出現(xiàn)前,為使一幅圖像具有另一幅圖像的特征,通過(guò)建立數(shù)學(xué)模型進(jìn)行分析,不斷調(diào)整偏移模型,然后將圖像輸人到模型輸出結(jié)果中,完成圖像風(fēng)格的偏移。直到2015年,Gayts等提出利用深度學(xué)習(xí)提取圖像紋理,通過(guò)梯度下降算法,不斷優(yōu)化模型參數(shù),對(duì)遷移后的圖像進(jìn)行建模,最終生成另一幅符合預(yù)期的圖像。其原理是在用深度神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練圖像的過(guò)程中,靠近輸人層的特征映射包含更多的圖像紋理信息,而靠近輸出層的特征映射包含更多的內(nèi)容信息。這種CNN訓(xùn)練圖像的性質(zhì)已經(jīng)成為最早的圖像風(fēng)格轉(zhuǎn)換技術(shù)。在基于深度學(xué)習(xí)的圖像風(fēng)格轉(zhuǎn)換處理技術(shù)中,目前應(yīng)用最廣泛的是基于生成對(duì)抗網(wǎng)絡(luò)的圖像風(fēng)格轉(zhuǎn)換處理技術(shù)。生成性對(duì)抗網(wǎng)絡(luò)GAN(Generative),是從數(shù)學(xué)中的博弈論中衍生的一種對(duì)抗性學(xué)習(xí)方法。一般的理論是通過(guò)對(duì)數(shù)據(jù)的不斷訓(xùn)練和迭代,網(wǎng)絡(luò)可以學(xué)習(xí)到圖像的特征。根據(jù)這一特性,可以生成接近原始數(shù)據(jù)的新數(shù)據(jù)。該方法具有很強(qiáng)的性能,目前已廣泛應(yīng)用于各個(gè)領(lǐng)域。文獻(xiàn)[1]提出一種基于生成對(duì)抗網(wǎng)絡(luò)的固定物體步態(tài)識(shí)別方法;文獻(xiàn)[2]提出一種基于條件生成對(duì)抗網(wǎng)絡(luò)的焊接圖像修復(fù)方法;文獻(xiàn)[3]使用生成對(duì)抗網(wǎng)絡(luò)對(duì)自動(dòng)視覺檢測(cè)進(jìn)行建模和分析;文獻(xiàn)[4]研究具有圖像放大的超分辨率生成對(duì)抗網(wǎng)絡(luò)的降噪性能;文獻(xiàn)[5]提出一種基于一維卷積神經(jīng)網(wǎng)絡(luò)和條件生成對(duì)抗網(wǎng)絡(luò)的模型。該模型可以利用苗木的早期電信號(hào)快速有效地識(shí)別苗木的耐鹽期。生成性對(duì)抗網(wǎng)絡(luò)在圖像上也有很好的效果。文獻(xiàn)[6]提出一種使用生成對(duì)抗網(wǎng)絡(luò)生成人類胚胎細(xì)胞合成圖像的方法。文獻(xiàn)[7]使用生成對(duì)抗網(wǎng)絡(luò)對(duì)高光譜遙感圖像進(jìn)行分類,并提出一種多鑒別器生成對(duì)抗網(wǎng)絡(luò)來(lái)研究鑒別器數(shù)目對(duì)分類結(jié)果的影響。
目前,應(yīng)用最成熟的圖像風(fēng)格轉(zhuǎn)換技術(shù)是商用產(chǎn)品Prisma,原理是通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)某幅圖像的風(fēng)格,然后將這種風(fēng)格應(yīng)用到其他圖像中。深度神經(jīng)網(wǎng)絡(luò)中應(yīng)用最廣泛的技術(shù)是循環(huán)GAN(cydegan)。循環(huán)GAN相當(dāng)于兩個(gè)傳統(tǒng)GAN。每個(gè)GAN發(fā)生器通過(guò)最小化損耗學(xué)習(xí)相應(yīng)的變換函數(shù)。測(cè)量生成的數(shù)據(jù)和目標(biāo)數(shù)據(jù)的差異,以計(jì)算發(fā)電機(jī)損耗,差值越大,生成器受到的懲罰將越高。雖然圖像樣式轉(zhuǎn)換技術(shù)在很多情況下都采用循環(huán)生成對(duì)抗網(wǎng)絡(luò),但在生成的圖像中容易忽略一些細(xì)節(jié),且存在噪聲等問(wèn)題[4]。參照循環(huán)生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu),提出一種高質(zhì)量的圖像樣式轉(zhuǎn)換網(wǎng)絡(luò)。首先,在生成網(wǎng)絡(luò)方面,將跳層結(jié)構(gòu)與U網(wǎng)絡(luò)中的殘差網(wǎng)絡(luò)結(jié)合,可以增加網(wǎng)絡(luò)的多尺度不變性;其次,在判別網(wǎng)絡(luò)方面,多尺度擴(kuò)展卷積判別器可以提高圖像樣式轉(zhuǎn)換的空間幾何變換效率,并能生成高分辨率的圖像。將目標(biāo)域數(shù)據(jù)和源域數(shù)據(jù)的數(shù)據(jù)特征經(jīng)過(guò)兩次處理后視為一個(gè)雙代對(duì)抗網(wǎng)絡(luò)。
1相關(guān)理論
1.1生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個(gè)子網(wǎng)絡(luò)組成。采用數(shù)學(xué)傳弈的思想。生成網(wǎng)絡(luò)用于生成處實(shí)的圖像,而判別網(wǎng)絡(luò)則試圖將生成的圖像與真實(shí)勝圖像區(qū)分開。各網(wǎng)絡(luò)不斷對(duì)抗和優(yōu)化,最終達(dá)到預(yù)期效果。
蟲成對(duì)抗柯絡(luò)雜結(jié)構(gòu)如圖1所示。它由曳成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)£>組成。將隨機(jī)變營(yíng)^輸人生成網(wǎng)絡(luò)G,然后判別網(wǎng)絡(luò)fl判別輸人目標(biāo),并確定其基生成圖像3:是?圖像,生成網(wǎng)絡(luò)的結(jié)果是GU)生成網(wǎng)絡(luò)G使G⑴與真實(shí)圍像保持接近,直到判別網(wǎng)絡(luò)不能區(qū)分生成的內(nèi)睿與_實(shí)內(nèi)睿為止。此時(shí),生成的網(wǎng)難和判別網(wǎng)絡(luò)之苘形成納什均衡。
在生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)不斷地進(jìn)行迭代博弈,.最終對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。從圖2可以看出,:代表輸人數(shù)據(jù)^生成網(wǎng)絡(luò)C金成的結(jié)果為CU),然后判別網(wǎng)絡(luò)£?識(shí)別G⑴和真實(shí)圖鐔J,真實(shí)圖像的概率表示為Z),當(dāng)訓(xùn)練達(dá)到納什均衡時(shí),D(Z)=1/2。
在網(wǎng)絡(luò)優(yōu)化過(guò)程中,首先是對(duì)判別網(wǎng)絡(luò)進(jìn)行優(yōu)化,目的是吏好地區(qū)分生成的圖像和真實(shí)圖像,即使判別網(wǎng)絡(luò)更加敏感,即使5U)最大化;其次,對(duì)于生成的圖像,需要最小化判別網(wǎng)絡(luò)處理后的iKCU))。因此,第一步的目標(biāo)定義為maxr(G,D)=Ex_P^Jx)[%(DC*))]+E^IZ)[k(l-D(G{z)))](1)在優(yōu)化生成網(wǎng)絡(luò)的過(guò)程中生成的圖像可以藎可能接近真實(shí)圖像,因此5(e(2))必須最大化,因此第二步的目標(biāo)暈.immF(G,D)=Ez^t\s(l-D(D(z)))](2)難成對(duì)抗網(wǎng)絡(luò)的總體目梅是:mnipmsIObj(D,G)=Ex^pm4x)[lg(I)(2))]+A-P你[%(1-£K只4))]I(3)
其中是真輿數(shù)據(jù)的概率分布,h:基生成數(shù)據(jù)的概率分布6GAN的訓(xùn)練過(guò)程如圖2所示。它實(shí)際上是一個(gè)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)相互對(duì)抗以實(shí)現(xiàn)最優(yōu)解的過(guò)程。在這個(gè)過(guò)程中,需粟對(duì)兩個(gè)網(wǎng)絡(luò)進(jìn)行優(yōu)化,直到達(dá)到納什均衡。
1.2循環(huán)生成對(duì)抗網(wǎng)絡(luò)
衝壞生咸蹲抗網(wǎng)銀(GycltJ-Geraaatiw?antiparial:Netw?k,Gycte-GAN)是基于思想,在輝域和目標(biāo)域之間沒有對(duì)應(yīng)關(guān)系齒情況下進(jìn)行學(xué)每,然后變換圖像樣式。循環(huán)GAN可以先從源域轉(zhuǎn)換到目標(biāo)域,再?gòu)哪繕?biāo)域轉(zhuǎn)換到源域,利用這種方法實(shí)現(xiàn)圖像配對(duì)》。與GAN模型不同的是t生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)在對(duì)抗中相互博弈,優(yōu)化模謹(jǐn),使生成的圖像更接近,標(biāo)圖像。猶環(huán)生:成對(duì)抗柯絡(luò)_結(jié)構(gòu)如圖3所示。
在圖像樣式轉(zhuǎn)換中,利用循環(huán)一致性解決菌像轉(zhuǎn)換問(wèn)題。在模型的判斷網(wǎng)絡(luò)部分,輸人原始圖像和生成的興像,判斷網(wǎng)絡(luò)對(duì)兩幅厲像進(jìn)行判斷分同時(shí),生成的圖像也會(huì)隨著目標(biāo)圖像的不斷逼近,而不斷進(jìn)行優(yōu)化迭代。基于CyrleGAN的圖像樣式轉(zhuǎn)換可以將一幅圖像轉(zhuǎn)換為另一幅圖像,但生成的圖像質(zhì)量不翕。■屬此,提出一神基于頓環(huán)生,成對(duì)ft網(wǎng)絡(luò)生成高屬^像的_畫像。圖像樣式轉(zhuǎn)換方法s
2高質(zhì)量圖像樣式轉(zhuǎn)換算法2,1建立網(wǎng)絡(luò)
循環(huán)GAN結(jié)構(gòu)僅利用殘差網(wǎng)絡(luò)迸行單尺度學(xué)習(xí),提高訓(xùn)練性能,限制網(wǎng)絡(luò)的學(xué)習(xí)功能。在U-Net網(wǎng)絡(luò)中,,采用跳層結(jié)構(gòu)和殘差網(wǎng)絡(luò)相結(jié)合的方法。增加網(wǎng)絡(luò)的多尺度不變性4U-Net網(wǎng)絡(luò)模型采用完全卷積網(wǎng)絡(luò)結(jié)構(gòu),增加一個(gè)跳躍層結(jié)構(gòu),它可以將解碼前的特征映射和解碼后的特征映射按信道進(jìn)行組合,也可以與傳統(tǒng)編碼相結(jié)合,有不同的結(jié)構(gòu)。傳統(tǒng)的編碼結(jié)構(gòu)是先下采樣,冉上采#到原始分辨率DU-Net以不同酌分辨率保存僙息^與傳統(tǒng)的編解碼結(jié)構(gòu)相比,U-Net融合了網(wǎng)絡(luò)的高羅和低層結(jié)構(gòu)信息,模型的分割精虔大大.高。U-Pfet分割模型中沒有使用全連接層,弁且網(wǎng)絡(luò)模型的輸入與輸出都是虜像,通常在卷積神12網(wǎng)絡(luò)的淺層的特征圖中包含圖像很多的位置信息、紋理信息等,在網(wǎng)絡(luò)深層的卷積特征囷包含的是.分割的抽象特征有利于像素分類。具有對(duì)稱結(jié)構(gòu)的U-Net分割模感很好的繼承全卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì),網(wǎng)絡(luò)模型的輸人圖像大小沒有局釀性,并麗具有M義分割獏型的端對(duì)瑞特點(diǎn)19]。因此IT-Net可以生成更食質(zhì)量的圖像,改進(jìn)效果_嘗明顯圖4暈傳統(tǒng):的編碼結(jié)構(gòu),圖5犛U-Efct結(jié)構(gòu)。
目前.,神婪網(wǎng)絡(luò)的層次越來(lái)越深,模型越來(lái)趙復(fù)雜,訓(xùn)練和優(yōu)化的難度越來(lái)越大。一般來(lái)說(shuō),深度模型越深,訓(xùn)練效巣越好。但是,也會(huì)帶來(lái)很多問(wèn)題,如訓(xùn)練難度增加、模型梯度爆炸、梯度消失尋^在這些問(wèn)題下,向網(wǎng)絡(luò)中掭加剩余塊可以防止這些問(wèn)題的發(fā)產(chǎn).。剩佘塊是具有跳轉(zhuǎn)結(jié)構(gòu)的網(wǎng)絡(luò),如圖6所示。
從圖6可K看隹是殘_塊的第一層的輸入值。在第一層線性變化和激活函數(shù)rdu后,輸出F(*),然后在線性變化而不是激活函數(shù)后,)將該層的輸入值*枏加,然后激活并輸出s添加*的路徑稱為快捷連接。殘差網(wǎng)絡(luò)是T-種跳轉(zhuǎn)結(jié)構(gòu),茍以將前“個(gè)網(wǎng)絡(luò)的信息跳到下^個(gè)網(wǎng)絡(luò),然啟傳遞給下一個(gè)網(wǎng)絡(luò)。確實(shí),后面的網(wǎng)絡(luò)可?學(xué)習(xí)前面的信息,這種結(jié)構(gòu)可以保護(hù)細(xì)綠整性。在U-Net網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的基礎(chǔ)上,提出一種綜合兩者優(yōu)點(diǎn)的生.成結(jié)構(gòu)網(wǎng)絡(luò)。與GAN標(biāo)準(zhǔn)的編解碼結(jié)構(gòu)相比,這種生成網(wǎng)絡(luò)能夠保留更多的信息,生成的圖慘分鱗率更局。在U-Net網(wǎng)絡(luò)中,加人殘差塊,使網(wǎng)絡(luò)的信息容量更大,荸習(xí)能力更強(qiáng),網(wǎng)絡(luò)可以在較低和較高的范圍內(nèi)學(xué)習(xí)。改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
2.2判別網(wǎng)絡(luò)構(gòu)造
擴(kuò)展卷積是it卷積核的數(shù)目保持不變,感受野的大小隨看擴(kuò)展速率的增大而增大。擴(kuò)張卷積圖如圖8所示。
展開卷積運(yùn)箕仍然是很好的理解。圖8(0是:基本卷積核,而擴(kuò)展卷積就是在這個(gè)基本卷積核上加一個(gè)區(qū)間5圖8(b)是圖S(a)3x3膨脹率為2的卷積,但間嗝為1,相當(dāng)于7對(duì)應(yīng)的圖像塊乘7。可以理解,內(nèi)核大小B替變成7x7,但只;有9個(gè)點(diǎn)有參數(shù),其佘位黧參數(shù)為〇,通過(guò)卷積計(jì)算輸入特怔?對(duì)應(yīng)位:置的像素3跳過(guò)其條位置f圖8(c)和團(tuán):s(:b》相似,只是:tr張率為4,相當(dāng)于變成15x15卷積核。當(dāng)卷積核變大時(shí),感受也自然會(huì)變大;RF^RF^+ik-^xs(4)其中,是上層的感.受野^是卷積核的大小,s是歩長(zhǎng)S具有大感受野.的判別網(wǎng)絡(luò)具有較高的分辨率,能夠準(zhǔn)確地區(qū)分輸人數(shù)琚是生成數(shù)據(jù)坯是冥實(shí)數(shù)塘。為提高分辨率,一種方法是使用較深的網(wǎng)絡(luò),另一種方法魯.倭角較太的卷積核,但這兩種方法容易過(guò)擬合,占用較多的內(nèi)存。為解決遂一狗題,采用不同的K度訓(xùn)練多個(gè)鑒別器來(lái)判斷圖像?真實(shí)性a多尺度JI理圖如圖9所示。
提出的判別網(wǎng)絡(luò)在多尺度:上實(shí)現(xiàn)了擴(kuò)張卷積,即在不同尺庋上便用不同的擴(kuò)張系數(shù)來(lái)獲取更多的信息9這種網(wǎng)絡(luò)可以預(yù)測(cè)更大范圍的數(shù)據(jù),生成高分辨率的固像,具有更好的效果。改進(jìn)的鑒別器網(wǎng)絡(luò)錯(cuò)構(gòu)如圖10所示。轉(zhuǎn)文提出的:纖性_集生成實(shí)驗(yàn)中,選取1800張圖片作為訓(xùn)練集,200張圖片作為測(cè)試集,圖片大小為1024x768,設(shè)置了100個(gè)歷元,弁對(duì)圖像進(jìn)行訓(xùn)練^
3結(jié)果3.1實(shí)驗(yàn)結(jié)果
圖11(?)是原始圖像,圖11(b)羞性別轉(zhuǎn)換后的圖像。從圍屮可以看出,使用本文設(shè)計(jì)的生成對(duì)抗網(wǎng)絡(luò)后生成的圖像具有明顯的性別轉(zhuǎn)換。
3.2實(shí)驗(yàn)比較
為對(duì)提出的模灌方法進(jìn)行評(píng)價(jià),采用初始得分(?Jiephet初始距蘺(;FID)和AMT知覺研究XA獅-ztai-MeAiiniciil-m知覺研究)測(cè)試進(jìn)彳才歲量評(píng)價(jià)。初始分?jǐn)?shù)暴一f評(píng)價(jià)指標(biāo),它與生成圖片的質(zhì)量和多樣性吏相關(guān),但分?jǐn)?shù)較_的圖片實(shí)扉上是銳利多樣的圖片,而不是生成圖片與真實(shí)圖片的關(guān)系。分?jǐn)?shù)越高,生成畫像的細(xì)節(jié)越多,質(zhì)量越好。FID值是生成數(shù)據(jù)和實(shí)際:數(shù)掘德更接'近分布。AMTperpeptiQij:鄉(xiāng)eawh是在Amaz加費(fèi)務(wù)平臺(tái)上發(fā)布《辨別_片真實(shí)性;’任務(wù),對(duì)輸出圖片的真實(shí)性進(jìn)行評(píng)估。任務(wù)參與者將查看配對(duì)的真實(shí)圖片,然后單擊以選擇認(rèn)為是真實(shí)圖片的圖片^最后,對(duì)大家進(jìn)行總結(jié)。實(shí)驗(yàn)結(jié)果表明,這基評(píng)價(jià)圖像焉實(shí)性的金科玉律4數(shù)據(jù)評(píng)價(jià)結(jié)果見表1。
3.3訓(xùn)練過(guò)程
圖12是本文提出的生成對(duì)抗網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的發(fā)虛器和判別損失變化曲線。生成器和鑒別器.的目的是相反的,即兩個(gè)生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)最相對(duì)的,一個(gè)互相交互。可見鑒別器的損耗曲線在下降,發(fā)電機(jī)的損耗曲線在上升,兩人一直_博弈。
4結(jié)束語(yǔ)
參照循環(huán)生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu),設(shè)計(jì)一個(gè)貢質(zhì)曇的圖像樣式轉(zhuǎn)換網(wǎng)絡(luò)。棊于U網(wǎng)的跳層結(jié)構(gòu)和殘差分塊原理,發(fā)電網(wǎng)絡(luò)利用跳層和殘差網(wǎng)絡(luò)增加多R廣差。判別網(wǎng)絡(luò)采用多尺度展開卷稅,提高空間幾何變換和高分辨率圖像ft成效果9實(shí)驗(yàn)緒杲裹煙,該算法在圖像風(fēng)格轉(zhuǎn)換方兩有較理想的效果,并能保證圖像風(fēng)格轉(zhuǎn)換的質(zhì)量。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問(wèn)題 >
SCI常見問(wèn)題 >