張?jiān)品?,易堯華,湯梓偉,王新宇
(武漢大學(xué) 印刷與包裝系,武漢 430079)
文本生成圖像任務(wù)[1]是圖像生成領(lǐng)域的重難點(diǎn)之一,旨在根據(jù)輸入的文本描述生成相應(yīng)的自然場(chǎng)景圖像,其包括計(jì)算機(jī)視覺和自然語(yǔ)言處理兩方面,是一個(gè)多模態(tài)的交叉型任務(wù)。文本生成圖像可應(yīng)用于計(jì)算機(jī)輔助設(shè)計(jì)、智能美工、醫(yī)療圖像生成[2]等多個(gè)技術(shù)領(lǐng)域。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,生成對(duì)抗網(wǎng)絡(luò)(Generation Adversarial Network,GAN)[3]及其各種變體[4]成為文本生成圖像的主流方法。在早期有MIRZA等[5]提出的CGAN 和REED 等[6]提出的GAN-INT-CLS,但是這些方法生成的圖像分辨率都較低。為了解決生成圖像分辨率低問題,文獻(xiàn)[7]提出了Stack-GAN,主要是將生成高分辨率圖像的問題分成不同階段,在低分辨率圖像生成階段側(cè)重圖像對(duì)象的布局和結(jié)構(gòu)生成,在圖像精煉階段則糾正了低分辨率階段生成圖像的一些錯(cuò)誤,然后對(duì)圖像中的紋理細(xì)節(jié)[8]進(jìn)行繪制。
多階段生成圖像的方法解決了生成圖像分辨率低的問題,但是依然存在生成圖像與文本條件不符及兩者語(yǔ)義一致性較低的問題。為了進(jìn)一步提高生成圖像與文本條件之間的語(yǔ)義一致性,文獻(xiàn)[9]在Attn-GAN中引入注意力機(jī)制,通過注意力模塊將語(yǔ)義特征向量和生成圖像中與之最相關(guān)的區(qū)域?qū)?yīng)起來(lái)。文獻(xiàn)[10]通過局部和全局特征相結(jié)合,設(shè)計(jì)了針對(duì)圖像邊框和圖像對(duì)象的級(jí)聯(lián)生成網(wǎng)絡(luò),提高了生成圖像的邏輯性,使圖像生成更加準(zhǔn)確。文獻(xiàn)[11]在圖像生成任務(wù)中結(jié)合了空間注意力機(jī)制,實(shí)現(xiàn)了可控的圖像生成,提高了生成圖像的準(zhǔn)確性。文獻(xiàn)[12]提出了動(dòng)態(tài)注意力生成對(duì)抗網(wǎng)絡(luò)模型(DM-GAN),在每個(gè)生成階段計(jì)算出每個(gè)單詞與圖像子區(qū)域之間的相關(guān)性,提高了生成圖像與文本條件之間的語(yǔ)義一致性,但是依然存在生成圖像細(xì)節(jié)缺失、低分辨率階段生成圖像存在結(jié)構(gòu)性錯(cuò)誤的問題。
針對(duì)上述問題,本文提出一種基于通道注意力的文本生成圖像方法。在特征圖上采樣過程中,引入基于內(nèi)容感知的上采樣模塊,提高特征圖和輸入文本之間的語(yǔ)義一致性,使生成圖像更準(zhǔn)確。同時(shí)在卷積層中使用通道注意力機(jī)制,對(duì)特征圖進(jìn)行加權(quán),增加不同通道間的信息交互,以使生成圖像的細(xì)節(jié)更豐富。
近年來(lái),通道注意力被廣泛地應(yīng)用于視覺處理任務(wù)[13],可以對(duì)每一個(gè)特征通道進(jìn)行加權(quán),實(shí)現(xiàn)突出重要信息及抑制無(wú)用信息的效果。典型代表是HU等[14]提出的SENet,實(shí)現(xiàn)了通過全局損失函數(shù)自適應(yīng)地調(diào)整每個(gè)特征通道的權(quán)重,SENet 在圖像分類任務(wù)中取得了顯著效果。文獻(xiàn)[15]在SENet 的基礎(chǔ)上提出了ECANet,相比上述方法,ECANet 對(duì)特征通道加權(quán)時(shí)只需要計(jì)算與其相鄰的k個(gè)通道,降低了參數(shù)量,同時(shí)保證了性能提升。
上采樣是圖像處理中常用的一種操作,其原理是根據(jù)圖像原有的像素生成新的像素點(diǎn),常用方法有插值法和反卷積[16]。文獻(xiàn)[17]在目標(biāo)檢測(cè)任務(wù)中結(jié)合反卷積實(shí)現(xiàn)對(duì)小目標(biāo)的有效檢測(cè)。文獻(xiàn)[18]提出了基于特征圖語(yǔ)義的上采樣方法,通過輸入特征圖得到重組卷積核,充分利用了語(yǔ)義信息,同時(shí)參數(shù)量較少,在圖像增強(qiáng)和圖像超分辨率重建任務(wù)中取得了較好的效果。
文本生成圖像主流方法是使用堆疊式的生成對(duì)抗網(wǎng)絡(luò)生成高質(zhì)量圖像。文獻(xiàn)[19]通過設(shè)計(jì)不同分辨率的特征融合模塊,提高了訓(xùn)練的穩(wěn)定性,網(wǎng)絡(luò)收斂更快。文獻(xiàn)[20]提出了鏡像生成對(duì)抗網(wǎng)絡(luò)(Mirror-GAN)模型,通過集成兩個(gè)網(wǎng)絡(luò)構(gòu)建鏡像結(jié)構(gòu),對(duì)生成圖像進(jìn)行重新描述[21],將得到的結(jié)果和給定文本條件進(jìn)行對(duì)齊,由此提高生成圖像和文本條件的語(yǔ)義一致性。但是低分辨率階段生成的圖像結(jié)構(gòu)嚴(yán)重不合理,會(huì)導(dǎo)致后續(xù)的生成圖像質(zhì)量較差。如圖1 所示,從上到下為DM-GAN 從低分辨率到高分辨的圖像生成結(jié)果,可以看到在低分辨率階段生成的圖像存在結(jié)構(gòu)不合理的錯(cuò)誤,如生成了兩個(gè)“頭部”,缺少“爪子”等,后續(xù)精煉過程難以修正。所以,在低分辨率階段設(shè)計(jì)更合理的生成器,保證低分辨率階段生成的圖像準(zhǔn)確合理,是保證生成高質(zhì)量圖像的關(guān)鍵。
圖1 DMGAN 各階段生成圖像Fig.1 Result at each stage of DMGAN
圖2 所示為本文提出一種基于通道注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)模型(ECAGAN)。網(wǎng)絡(luò)結(jié)構(gòu)可以分為低分辨率圖像生成階段和圖像精煉階段,低分辨率圖像生成階段的生成器生成64×64 像素的低分辨率圖像,圖像精煉階段的生成器生成128×128 像素和256×256像素的圖像。判別網(wǎng)絡(luò)有多個(gè)判別器{D0,D1,D2},在低分辨率階段(k=0),判別器D0只對(duì)低分辨率圖像和真實(shí)圖像進(jìn)行真假判定,在精煉階段(k=1,2)有相應(yīng)的判別器Dk對(duì)生成圖像進(jìn)行真假判定。
圖2 ECAGAN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of ECAGAN
在低分辨率圖像生成階段,將給定的文本描述輸入文本編碼器得到語(yǔ)義特征向量s和詞向量V,本文使用的文本編碼器為預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。語(yǔ)義特征向量s是一個(gè)包含文本語(yǔ)義特征的向量,用于低分辨率圖像生成。詞向量V是一個(gè)包含了18 個(gè)單詞語(yǔ)義的向量,用于精煉階段的圖像生成。編碼得到語(yǔ)義特征向量s需要進(jìn)行條件增強(qiáng),具體方法是從語(yǔ)義特征向量s的高斯分布N(μ(s),∑(s))中得到平均協(xié)方差矩陣μ(s)和對(duì)角協(xié)方差矩陣ν(s),然后計(jì)算得到特征向量c0,(c0=μ(s)+ν(s)⊙ε,⊙代表點(diǎn)乘操 作,ε~N(0,1)),最后c0和一個(gè)從正態(tài)分布中取樣的隨機(jī)噪聲Z拼接得到。將進(jìn)行一次全連接操作后輸入內(nèi)容感知上采樣模塊,上采樣之后得到特征圖R0,特征圖輸入通道注意力卷積模塊之后得到低分辨率圖像。
2.1.1 內(nèi)容感知上采樣模塊
在低分辨率圖像生成之前需要對(duì)特征圖進(jìn)行上采樣操作,目前通用的上采樣方式包括最鄰近插值和反卷積。但是最鄰近插值的感受野太小,而且未利用語(yǔ)義信息,反卷積則計(jì)算量太大。本文的內(nèi)容感知上采樣模塊利用原始特征圖得到重組卷積核,使用重組卷積核對(duì)輸入特征圖進(jìn)行上采樣,考慮到了每個(gè)像素和周圍區(qū)域的關(guān)系,同時(shí)避免了參數(shù)過多、計(jì)算量太大的問題。內(nèi)容感知上采樣模塊由自適應(yīng)卷積核預(yù)測(cè)模塊和內(nèi)容感知特征重組模塊組成[18],結(jié)構(gòu)如圖3 所示,特征圖輸入內(nèi)容感知上采樣模塊之后共重復(fù)4 次上采樣操作,假設(shè)輸入特征圖R的尺寸為C×W×H,上采樣的倍率設(shè)置為S(本文中設(shè)置為2)。經(jīng)過內(nèi)容感知上采樣模塊之后輸出上采樣之后的新特征圖R′,其尺寸為C×SH×SW,輸出特征圖R′中的區(qū)域l′=(i′,j′),對(duì)應(yīng)于輸入特征圖R中的l=(i,j),對(duì)應(yīng)關(guān)系為
圖3 內(nèi)容感知上采樣模塊Fig.3 Content-aware upsampling module
特征圖R輸入之后在自適應(yīng)卷積核預(yù)測(cè)模塊ψ中對(duì)輸出特征圖R′的每一個(gè)區(qū)域l′預(yù)測(cè)出卷積核γl′,如式(1)所示,原特征圖在內(nèi)容感知特征重組模塊ξ中和預(yù)測(cè)得到的卷積核進(jìn)行點(diǎn)乘得到結(jié)果,如式(2)所示:
其中:Z(Rl,kup)代表特征圖R中點(diǎn)l周圍kup×kup大小的子區(qū)域;kencoder表示內(nèi)容編碼器的大小。
在自適應(yīng)卷積核預(yù)測(cè)模塊中,特征圖首先經(jīng)過一個(gè)1×1 的卷積層將通道數(shù)從C壓縮到Cm,然后通過內(nèi)容編碼器對(duì)卷積核進(jìn)行預(yù)測(cè),輸入通道數(shù)為Cm,輸出通道數(shù)為,將通道維在空間維展開,得到大小為的重組卷積核,最后利用softmax 函數(shù)進(jìn)行歸一化,使得重組卷積核權(quán)重和為1。
內(nèi)容感知特征重組模塊對(duì)于輸出特征圖中的每個(gè)位置l′,將其映射回輸入特征圖,取出以l=(i,j)為中心的kup×kup大小的區(qū)域,和以該點(diǎn)預(yù)測(cè)出的重組卷積核作點(diǎn)積,得到輸出值,如式(3)所示,相同位置的不同通道共享同一個(gè)重組卷積核。
其中:l=(i,j)為輸出特征圖在輸入特征圖上的對(duì)應(yīng)位置的點(diǎn);r=為l的鄰域。
2.1.2 通道注意力卷積模塊
經(jīng)過上采樣之后得到特征圖輸入生成器,經(jīng)過卷積運(yùn)算生成圖像。通過通道注意力對(duì)特征圖進(jìn)行加權(quán),使生成圖像細(xì)節(jié)更豐富。此外,跨通道交互可以在顯著降低模型復(fù)雜度的同時(shí)保持性能。通道注意力[15]模塊結(jié)構(gòu)如圖4 所示。
圖4 通道注意力卷積模塊Fig.4 Channel attention convolution module
在通道注意力卷積模塊中,通道注意力權(quán)重ω的計(jì)算如式(4)所示:
其中:y=GGAP(R),由輸入特征圖經(jīng)過全局平均池化得到;Q是權(quán)重矩陣;σ則是Sigmoid 函數(shù)。假設(shè)接受的特征圖R∈RW×H×C,W、H、C分別代表特征圖的寬度、高度和通道維度。全局平均池化公式如(5)所示:
權(quán)重矩陣Q大小為k×C,對(duì)于每一個(gè)通道yi,對(duì)應(yīng)的權(quán)重ωi計(jì)算只需要考慮相鄰的k個(gè)通道(本文中設(shè)置為5),如式(6)所示:
在低分辨率圖像生成階段完成后,需要對(duì)生成圖像進(jìn)行進(jìn)一步精煉,如圖2 所示精煉次數(shù)設(shè)置為2(k=1,2)。具體的精煉算法步驟如算法1 所示,當(dāng)兩次精煉完成,可以得到高分辨率特征圖,生成高質(zhì)量圖像。
算法1圖像精煉算法
輸入上一階段生成的特征圖Rk-1,詞向量V
輸出高分辨率特征圖Rk
步驟1將特征圖Rk-1和詞向量V輸入動(dòng)態(tài)注意力計(jì)算層,表示為:
步驟2在動(dòng)態(tài)注意力層中首先計(jì)算詞向量中每一個(gè)單詞νi與圖像子區(qū)域ri之間的相關(guān)性mi:
步驟5將特征圖進(jìn)行上采樣操作,上采樣倍率為2
步驟6將特征圖輸入一個(gè)兩層殘差網(wǎng)絡(luò),得到高分辨率特征圖Rk
重復(fù)步驟1~步驟6,得到符合要求的特征圖,結(jié)束精煉過程,將特征圖輸入通道注意力卷積模塊得到高質(zhì)量圖像。
本文提出的模型ECAGAN 屬于生成對(duì)抗網(wǎng)絡(luò),根據(jù)生成對(duì)抗網(wǎng)絡(luò)的特點(diǎn),網(wǎng)絡(luò)損失函數(shù)分為生成器損失函數(shù)和判別器損失,其中生成器損失函數(shù)形式如式(7)所示:
各級(jí)生成器損失函數(shù)如式(8)所示:
同時(shí)判別器的損失函數(shù)和生成器損失函數(shù)相似,也包括條件損失和非條件損失兩部分,如式(9)所示:
在式(7)~式(9)中:Gi和Di分別代表第i階段的生成器和判別器;xi來(lái)自第i階段的真實(shí)圖像分布則是來(lái)自模型分布是經(jīng)過編碼器編碼后的語(yǔ)義特征向量。
DAMSM 模塊通過計(jì)算文本語(yǔ)義特征向量和生成圖像特征向量之間的相似度,來(lái)衡量生成圖像和文本條件之間的語(yǔ)義一致性。圖像特征向量使用Inception-V3[22]進(jìn)行提取,DAMSM 損失函數(shù)可以提高生成圖像和文本條件的語(yǔ)義一致性,條件增強(qiáng)損失則是通過從高斯分布中重新采樣輸入語(yǔ)句向量來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),避免模型過擬合,如式(10)所示:
其中:N(0,I)代表高斯分布;μ(s)代表語(yǔ)義特征向量的平均協(xié)方差矩陣;Σ(s)是對(duì)角協(xié)方差矩陣。感知損失可以讓生成圖像的高層信息和真實(shí)圖像更接近,如式(11)所示:
其中:I和I′代表真實(shí)圖像和生成器生成的生成圖像;?是對(duì)圖像進(jìn)行特征提取操作,本文使用一個(gè)在ImagNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-16 網(wǎng)絡(luò)來(lái)對(duì)圖像進(jìn)行特征提??;C、H、W分別代表特征圖的通道數(shù)、高度和寬度。
在訓(xùn)練過程中,通過生成器損失和判別器損失交替迭代來(lái)優(yōu)化更新參數(shù),在訓(xùn)練生成器時(shí)判別器參數(shù)固定,在訓(xùn)練判別器時(shí)生成器參數(shù)固定。最終得到能夠生成高質(zhì)量圖像的生成模型。
本文實(shí)驗(yàn)環(huán)境如下:Ubuntu 16.04,CPU 為i7-4790k,GPU 為GeForce GTX 1080Ti,實(shí)驗(yàn)代碼使用了Pytorch 深度學(xué)習(xí)框架,在GPU 上運(yùn)行。
本文使用的數(shù)據(jù)集為公開數(shù)據(jù)集CUB-200-2011(Caltech-UCSD Birds-200-2011)[23],CUB 數(shù) 據(jù)集中包含200 種不同的鳥類圖像,共計(jì)11 788 張圖像,其中包含訓(xùn)練集8 855 張圖像和測(cè)試集2 933 張圖像。訓(xùn)練中設(shè)置batch size 為10,生成器和判別器的學(xué)習(xí)率均為0.000 2,訓(xùn)練輪數(shù)設(shè)置為900,優(yōu)化器使用Adam,β1設(shè)置為0.5,β2設(shè)置為0.999。
為驗(yàn)證本文方法的有效性,本文采用3 種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)生成圖像的質(zhì)量與多樣性和語(yǔ)義一致性進(jìn)行評(píng)價(jià):
1)R-值精度(R-precision)。由XU 等提出用來(lái)評(píng)估生成的圖像與輸入文本條件之間的語(yǔ)義一致性。對(duì)于每個(gè)生成的圖像,使用其真實(shí)的文本條件和從測(cè)試集中隨機(jī)選擇的99 個(gè)不匹配描述來(lái)形成文本條件池,然后提取生成圖像和給定文本描述的全局特征向量,最后計(jì)算全局圖像向量和全局文本向量之間的余弦相似度。R值越高代表生成的圖像與輸入文本條件之間的語(yǔ)義一致性越高。
2)初始分?jǐn)?shù)(Inception Score,IS)。由文獻(xiàn)[24]提出,用于衡量生成圖像的清晰度和多樣性,具體方法是通過計(jì)算邊緣分布和條件分布的相對(duì)熵?fù)p失,衡量生成圖像的質(zhì)量,如式(12)所示:
其中:x表示由生成器生成的樣本;p(y)表示邊緣分布;p(y|x)表示x輸入圖像分類網(wǎng)絡(luò)得到的分布;DKL(A||B)表示A、B兩者之間的KL 散度,用來(lái)衡量?jī)蓚€(gè)分布之間的相似度,IS 值越大,表示生成圖像質(zhì)量越高。
3)Frechet Inception 距離得分(Frechet Inception Distance score,F(xiàn)ID)。由文獻(xiàn)[25]提出,具體方法是計(jì)算生成圖像和真實(shí)圖像分布之間的距離,如式(13)所示:
本節(jié)將定量和定性地與其他方法進(jìn)行比較,從評(píng)價(jià)指標(biāo)和視覺效果兩個(gè)方面來(lái)評(píng)估實(shí)驗(yàn)結(jié)果。首先是評(píng)價(jià)指標(biāo)的量化對(duì)比分析,使用R值、Inception Score 和FID 3 個(gè)評(píng)價(jià)指標(biāo)對(duì)本文方法和經(jīng)典文本生成圖像網(wǎng)絡(luò)在CUB 數(shù)據(jù)集上進(jìn)行對(duì)比。然后對(duì)本文方法和之前的方法進(jìn)行主觀視覺對(duì)比,驗(yàn)證本文方法的有效性。
3.3.1 定量結(jié)果分析
為了得到式(7)中超參數(shù)λ1的最優(yōu)值,在保證其他參數(shù)不變的情況下將λ1分別設(shè)置為0、0.1、1、5、10進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示,粗體表示值最優(yōu)??梢钥吹剑寒?dāng)λ1=1 時(shí)模型的評(píng)價(jià)指標(biāo)值最好,分析可知,將式(7)超參數(shù)λ1的值設(shè)置為1 時(shí)模型的性能最佳。
表1 不同參數(shù)設(shè)置下ECAGAN 方法R、IS和FID的最優(yōu)值Table 1 Optimal values of R,IS and FID for ECAGAN methods under different parameter settings
與主流方法的對(duì)比結(jié)果如表2 所示,其中,“—”表示沒有數(shù)據(jù),加粗字體為每列最優(yōu)值。
表2 不同方法在CUB 數(shù)據(jù)集上的對(duì)比Table 2 Comparison of different methods on CUB dataset
通過對(duì)比發(fā)現(xiàn),本文提出的方法(ECAGAN)在CUB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與目前主流網(wǎng)絡(luò)相比均有一定提升。相比AttnGAN 和DMGAN,R值分別提高了11.5%和4.6%,Inception Score 分別提高了10.7%和1.6%,F(xiàn)ID也有一定的降低。實(shí)驗(yàn)結(jié)果表明,ECAGAN 模型生成的圖像質(zhì)量更好。
3.3.2 定性結(jié)果分析
在視覺效果方面,圖5 為4 種GAN 模型在CUB 數(shù)據(jù)集上的可視化結(jié)果。在圖5(a)~圖5(d)中,第1、2、3、4、5 列輸入的文本條件和圖1 一致,結(jié)果表明本文方法有效提高了生成圖像的質(zhì)量??梢钥吹綀D5(a)~圖5(d)中第1、2 列中本文方法生成的圖像在大面積的紋理特征上比較清晰,頭部細(xì)節(jié)豐富合理,每個(gè)部位之間紋理過渡合適,其他模型生成的圖像缺乏細(xì)節(jié),不同部位如頭部、軀干差異較大,導(dǎo)致圖像缺乏真實(shí)感。在圖5(a)~圖5(d)第3、4 列圖像中,本文方法生成的鳥類對(duì)象完整,每個(gè)部分細(xì)節(jié)合理且與背景相符。其他模型生成的圖像鳥類結(jié)構(gòu)缺失,細(xì)節(jié)不足,在背景中顯得十分突兀,導(dǎo)致圖像真實(shí)感不夠。在圖5(a)~圖5(d)第5、6、7 列則能明顯看出,相比其他3 種方法,本文算法生成的圖像具有完整的結(jié)構(gòu)和豐富的細(xì)節(jié)。StackGAN、AttnGAN、DMGAN 3 種方法生成的圖像存在結(jié)構(gòu)不合理,缺少喙、爪子、眼睛等部位,或者出現(xiàn)了2 個(gè)頭部、3 個(gè)爪子等情況,明顯存在語(yǔ)義一致性較差、無(wú)法按文本條件生成圖像、圖像存在結(jié)構(gòu)性錯(cuò)誤等問題。
圖5 4 種GAN 方法在CUB 數(shù)據(jù)集上的生成結(jié)果Fig.5 Generation results of four GAN methods on CUB dataset
本文方法使用內(nèi)容感知上采樣模塊,提高了生成圖像和文本條件之間的語(yǔ)義一致性,使生成圖像更準(zhǔn)確。結(jié)合通道注意力卷積模塊,使生成圖像邊緣細(xì)節(jié)平滑過渡,生成對(duì)象各個(gè)部位的紋理特征準(zhǔn)確,區(qū)別明顯,生成圖像的質(zhì)量更高,更接近真實(shí)圖像。
為了驗(yàn)證本文提出的內(nèi)容感知上采樣模塊和通道注意力卷積模塊的有效性,分別設(shè)置DMGAN、DMGAN+CAU、DMGAN+ECA 和DMGAN+CAU+ECA 4 組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。本文的基礎(chǔ)網(wǎng)絡(luò)為DMGAN,CAU 表示內(nèi)容感知上采樣模塊,ECA 表示通道注意力卷積模塊。從表3 可以看出,兩個(gè)模塊對(duì)生成結(jié)果均有正向調(diào)節(jié)作用,最終結(jié)合兩個(gè)模塊可得到本文方法的最佳效果,證明了本文方法的有效性。
表3 消融實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of ablation experiment results
本文基于動(dòng)態(tài)注意力生成對(duì)抗網(wǎng)絡(luò)模型,針對(duì)生成圖像細(xì)節(jié)缺失、低分辨率階段生成圖像存在結(jié)構(gòu)性錯(cuò)誤的問題,提出一種基于通道注意力的文本生成圖像方法。通過引入內(nèi)容感知上采樣模塊,提高生成圖像和文本條件之間的語(yǔ)義一致性,改善低分辨率階段生成圖像的結(jié)構(gòu)性錯(cuò)誤。在卷積層加入通道注意力機(jī)制,使生成圖像細(xì)節(jié)更加清晰,在訓(xùn)練過程中結(jié)合感知損失使訓(xùn)練更加穩(wěn)定。實(shí)驗(yàn)結(jié)果表明,本文模型生成的圖像質(zhì)量更高,更加接近真實(shí)圖像。本文方法雖然在生成圖像上取得了較好的效果,但仍然存在網(wǎng)絡(luò)模型較大、訓(xùn)練時(shí)間長(zhǎng)等問題,下一步將對(duì)網(wǎng)絡(luò)模型進(jìn)行精簡(jiǎn)優(yōu)化,在保證性能的基礎(chǔ)上達(dá)到提高訓(xùn)練速度的目標(biāo)。