摘 要:針對(duì)現(xiàn)有視頻彩色化方法難以同時(shí)保證著色質(zhì)量和時(shí)間一致性的問題,提出一種結(jié)合注意力機(jī)制和多尺度特征融合的視頻彩色化方法AMVC-GAN。首先,提出以GAN為主體的視頻彩色化網(wǎng)絡(luò)模型,通過在GAN的生成器中設(shè)計(jì)以循環(huán)時(shí)間網(wǎng)絡(luò)為主體的多尺度特征融合模塊,來獲取不同時(shí)間頻率的信息;其次,為了有效地考慮相鄰幀之間的關(guān)系,將不同時(shí)間頻率提取的特征進(jìn)行融合,加強(qiáng)幀與幀之間的聯(lián)系,以此增強(qiáng)彩色化的時(shí)間一致性;最后,為了獲取更多的有效信息, 在主網(wǎng)絡(luò)的上采樣部分引入了注意力模塊,并通過使用PatchGAN來對(duì)結(jié)果進(jìn)行優(yōu)化訓(xùn)練,以增強(qiáng)最終的著色效果。在DAVIS和VIDEVO 數(shù)據(jù)集上與先進(jìn)的全自動(dòng)視頻彩色化方法進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,AMVC-GAN在多項(xiàng)指標(biāo)上排名第一,具有更好的時(shí)間一致性和著色效果。相比于其他方法,AMVC-GAN能夠有效地減少時(shí)間閃爍,同時(shí)保證著色效果更為真實(shí)、自然。
關(guān)鍵詞: 生成對(duì)抗網(wǎng)絡(luò);多尺度融合;注意力機(jī)制;彩色化
中圖分類號(hào): TP391文獻(xiàn)標(biāo)志碼:A 文章編號(hào): 1001-3695(2024)04-037-1214-07
doi: 10.19734/j.issn.1001-3695.2023.07.0351
Video colorization method combining attention mechanism and multi-scale feature fusion
Zhou Keming Kong Guangqian Deng Zhouhui1c,1d,2
Abstract:To address the issue that existing video colorization methods are complicated to guarantee both coloring quality and temporal consistency, this paper proposed a video colorization method AMVC-GAN combining attention mechanism and multi-scale feature fusion. Firstly, it proposed a GAN-based video colorization network model. It designed a multi-scale feature fusion module in the generator of GAN with a cyclic time network as the main body to obtain information of different time frequencies. Secondly, to effectively consider the relationship between adjacent frames, it used the features extracted from diffe-rent time frequencies to strengthen the connection between frames as a way to enhance the temporal consistency of colorization. Finally, to obtain more helpful information, it introduced an attention module in the upsampling part, and optimally trained the results by utilizing PatchGAN to enhance the final colorization effect. Comparing with the state-of-the-art automatic video colo-rization methods on DAVIS and VIDEVO datasets, the results show that AMVC-GAN ranks first in multiple indicators, with better time consistency and colorization effect. Compared with other methods, AMVC-GAN can effectively reduce time flicker, while ensuring more real and natural colorization effect. Key words:generating adversarial networks; multiscale fusion; attention mechanisms; colorization
0 引言灰度視頻彩色化旨在將黑白視頻轉(zhuǎn)換為彩色視頻,是一項(xiàng)非常有價(jià)值的技術(shù),它可以在歷史數(shù)據(jù)恢復(fù)、舊視頻著色等方面發(fā)揮重要作用,并為這些產(chǎn)品增加額外的視覺信息。自19世紀(jì)末黑白電影問世以來,這種電影類型一度成為主流,大量的黑白電影上映了。隨著時(shí)代的變遷,彩色電影也逐漸走進(jìn)人們的視野,并漸漸取代了黑白電影的地位,這表明人們更喜歡彩色電影。雖然黑白影像有著獨(dú)特的意義,但將其彩色化也能增添另一抹色彩。 將灰度視頻彩色化是一個(gè)極具挑戰(zhàn)性的問題,這是因?yàn)橐曨l著色不僅面臨著圖像方面的挑戰(zhàn),同時(shí)還面臨時(shí)間一致性等全新的挑戰(zhàn)。在視頻著色的過程中,時(shí)間如果不一致就會(huì)導(dǎo)致時(shí)間閃爍情況的發(fā)生。時(shí)間閃爍指視頻中相鄰幀之間顏色不連續(xù)或不一致的現(xiàn)象,例如,相同的物體在同一視頻中會(huì)展現(xiàn)出不同的顏色,影響人們對(duì)視頻內(nèi)容的理解,降低了人們的觀看體驗(yàn)。因此,視頻著色需要采用一些不同于圖像著色的方法來使生成的視頻幀更自然也更真實(shí)。
通常來說,為灰度視頻幀上色是非常昂貴且耗時(shí)的過程,需要專家對(duì)每個(gè)幀單獨(dú)著色,所以早期僅在大型項(xiàng)目里才會(huì)見到對(duì)灰度視頻進(jìn)行彩色化處理。近年來,隨著人工智能的高速發(fā)展,使用計(jì)算機(jī)來指導(dǎo)著色已逐漸成為了主流?,F(xiàn)在主流視頻的著色方法主要可分為基于示例的著色[ 2]、基于任務(wù)獨(dú)立的著色[3,4]與全自動(dòng)著色[5~7]三大類。早期的視頻著色方法主要依賴于用戶手工涂鴉[8],通過在視頻幀上涂鴉標(biāo)注顏色來指導(dǎo)整個(gè)視頻序列的著色風(fēng)格,然而,這種方法存在很大的局限性。一方面,用戶需要花費(fèi)大量的時(shí)間和精力來完成涂鴉標(biāo)注;另一方面,如果涂鴉不夠充分或者不夠準(zhǔn)確,就會(huì)導(dǎo)致著色效果不理想。為了解決這些問題,近年來,以深度學(xué)習(xí)為基礎(chǔ)的基于示例的著色逐漸走進(jìn)了人們的視野并受到廣泛關(guān)注。這些方法利用參考幀提供信息,就可以實(shí)現(xiàn)高質(zhì)量的視頻著色。Zhang等人[1]提出一個(gè)框架,將語義對(duì)應(yīng)和顏色傳播的步驟統(tǒng)一起來,通過所提供的參考圖像引導(dǎo)每幀的著色,匹配了輸入幀與參考圖像之間的相似性,減少了累積的傳播誤差。但是當(dāng)場(chǎng)景切換時(shí),用戶并不能提供足夠的“提示”,導(dǎo)致上色的位置也不夠精準(zhǔn)。為了解決該問題,Endo等人[9]提出一種視頻傳播技術(shù),該技術(shù)指定一個(gè)視頻幀為關(guān)鍵幀,通過關(guān)鍵幀將信息傳播到目標(biāo)幀,該方法可以減少對(duì)視頻進(jìn)行著色所需的提示信息量。然而,即使使用該技術(shù)也難以對(duì)較長(zhǎng)的視頻進(jìn)行著色,因?yàn)椴煌年P(guān)鍵幀會(huì)存在顏色差異,在切換關(guān)鍵幀時(shí)會(huì)出現(xiàn)顏色不一致。為了減輕選擇適當(dāng)例子的工作,出現(xiàn)了基于任務(wù)獨(dú)立的著色,該方法旨在對(duì)著色的結(jié)果進(jìn)行后處理,對(duì)輸出的結(jié)果增加時(shí)間相干性。Lai等人[4]提出了一個(gè)增強(qiáng)生成視頻時(shí)間一致性的框架,通過最小化短期和長(zhǎng)期時(shí)間損失以及感知損失來訓(xùn)練所提網(wǎng)絡(luò),并使用光流網(wǎng)絡(luò),縮小了相鄰幀之間的顏色差異。但是這些方法大多數(shù)適用于圖像,且連續(xù)效果并不好。因此,Lei等人[5]提出了一種能同時(shí)生成四種不同顏色結(jié)果的多模態(tài)全自動(dòng)彩色化方法,通過K最近鄰算法(KNN)在特征空間中搜索或使用光流來增強(qiáng)相鄰幀的相似性,提高了時(shí)間的一致性,但由于主要關(guān)注的是時(shí)間一致性,所以著色效果難以達(dá)到令人滿意的效果。Liu等人[10]提出了一種新的時(shí)間一致性框架,該框架使用雙向傳播的方式,通過雙向特征傳播生成連續(xù)的相鄰特征,并且通過正則化減少不同時(shí)間步長(zhǎng)下的預(yù)測(cè)差異,在保證時(shí)間一致性的同時(shí)提高了著色質(zhì)量。然而,當(dāng)該方法遇到場(chǎng)景變化較大時(shí),著色效果也不是很理想。為了解決時(shí)間閃爍和著色質(zhì)量不佳的問題,本文提出一種新的視頻彩色化方法(AMVC-GAN)。首先,現(xiàn)有視頻彩色化方法對(duì)于視頻幀中復(fù)雜的色彩變化特征難以有效地捕捉,在這種情況下,本文使用GAN為主體的訓(xùn)練方式同時(shí)訓(xùn)練生成器與鑒別器,通過相互競(jìng)爭(zhēng)的方式提高著色質(zhì)量。其次,由于訓(xùn)練數(shù)據(jù)前后幀的差異較大,且?guī)c幀之間的聯(lián)系過少,現(xiàn)有模型對(duì)這種變化較為敏感,導(dǎo)致生成結(jié)果產(chǎn)生時(shí)間閃爍。因此,本文提出一種新的多尺度特征融合模塊,通過融合不同時(shí)間頻率的信息與占位特征提取器保留的前一幀特征,加強(qiáng)幀與幀之間的聯(lián)系,在保證時(shí)間一致性的同時(shí)提高視頻的著色質(zhì)量。最后,由于模型提取的信息不全,不能提取足夠關(guān)鍵的信息,導(dǎo)致著色質(zhì)量不理想。本文在U-Net[11]的上采樣階段引入注意力模塊CBAM[12],以獲取更為有效的信息,從而進(jìn)一步提高著色的質(zhì)量。AMVC-GAN的結(jié)構(gòu)由生成器與鑒別器組成。生成器是一個(gè)以U-Net為主體的編碼器,其中包含全局特征提取器、占位特征提取器和多尺度特征融合模塊。鑒別器則使用的是PatchGAN。在DAVIS[13]和VIDEVO[4]等視頻數(shù)據(jù)集上對(duì)AMVC-GAN進(jìn)行訓(xùn)練和評(píng)估。大量的實(shí)驗(yàn)結(jié)果表明, AMVC-GAN在減少時(shí)間閃爍的同時(shí)提高了著色質(zhì)量,相較于現(xiàn)有的一些視頻著色方法,AMVC-GAN生成的彩色視頻更為自然,效果也更優(yōu)。
本文的主要貢獻(xiàn)如下:a)提出了一個(gè)全新的視頻彩色化方法(AMVC-GAN),通過兩階段的訓(xùn)練,其中第一階段訓(xùn)練提取特征的能力,第二階段減少時(shí)間閃爍,能有效地為灰度視頻進(jìn)行著色;
b)提出了一個(gè)新的多尺度特征融合模塊,融合不同時(shí)間頻率的信息,能有效減少時(shí)間閃爍, 并引入注意力機(jī)制,提高了著色質(zhì)量;c)實(shí)驗(yàn)表明,AMVC-GAN在DAVIS與VIDEVO 數(shù)據(jù)集上擁有更好的時(shí)間一致性與著色效果,在定量與定性方面都優(yōu)于目前的研究成果。
1 相關(guān)工作
1)視頻彩色化
在早些時(shí)期,人們就試圖利用當(dāng)時(shí)的技術(shù)對(duì)灰度圖像進(jìn)行上色,由于技術(shù)條件的限制,往往需要依靠大量的人工標(biāo)注來輔助處理,灰度圖像彩色化[13,14]也就隨之誕生。早期的彩色化方法,主要是通過用戶給定的著色樣本信息來引導(dǎo)著色,基于涂鴉的著色就是其中之一。Levin等人[8]提出了一種交互式的彩色化技術(shù),將顏色從涂鴉傳播到相鄰的相似像素。隨著深度學(xué)習(xí)的發(fā)展,CNN類著色方法[15~17]通過從輸入圖像中提取特征,有效地提高了圖像著色質(zhì)量。將以上方法應(yīng)用于視頻中,雖然在單個(gè)圖像上會(huì)取得令人滿意的結(jié)果,但在視頻上測(cè)試時(shí)會(huì)出現(xiàn)較嚴(yán)重的時(shí)間閃爍。為了解決此問題,出現(xiàn)了適用視頻的彩色化方法。例如,Zhang等人[15]運(yùn)用參考圖像與輸入幀之間的特征進(jìn)行匹配,從而引導(dǎo)視頻上色。Jampani等人[2]使用少量的彩色幀作為參考,然后將其傳播到整個(gè)視頻中。當(dāng)彩色樣本幀和灰度幀的場(chǎng)景差異可以被忽略時(shí),圖像著色算法才能獲得良好的著色質(zhì)量;然而,將它們獨(dú)立地使用到每一個(gè)視頻幀時(shí)往往會(huì)出現(xiàn)時(shí)間不一致的現(xiàn)象。因此,研究者提出了任務(wù)獨(dú)立的方法來解決編碼獨(dú)立著色幀的時(shí)間一致性問題。Bonneel等人[3]通過最小化扭曲幀和下一幀的差異來解決這個(gè)問題。然而,由于圖像著色和用于時(shí)間一致性的細(xì)化網(wǎng)絡(luò)是分別訓(xùn)練的,導(dǎo)致所產(chǎn)生的視頻幀仍然不夠連續(xù)。為了解決此問題,出現(xiàn)了全自動(dòng)視頻彩色化。Kouzouglidis等人[6]通過三維卷積,考慮框架高度、寬度和時(shí)間維度,聚合每一幀的多個(gè)色度,并將可用信息與亮度相結(jié)合,生成一個(gè)新的彩色序列。為了進(jìn)一步自動(dòng)化視頻著色管道,Thasarathan等人[7]提出了基于生成對(duì)抗性網(wǎng)絡(luò)的視頻著色方法,通過改進(jìn)現(xiàn)有圖像到圖像的轉(zhuǎn)換方法,在生成器與和鑒別器中添加一個(gè)額外的條件,創(chuàng)建時(shí)間相干性以生成連續(xù)的視頻序列。但是,以上方法在時(shí)間一致性上并沒有表現(xiàn)出令人滿意的結(jié)果。
2)注意力機(jī)制
在計(jì)算機(jī)視覺中,注意力機(jī)制的主要思想是:關(guān)注相關(guān)的信息而忽略不相關(guān)的信息,從而提高效率。倘若模型擁有自注意力,它就能直接建立輸入與輸出之間的關(guān)聯(lián),提高并行化程度。在計(jì)算機(jī)視覺方面,2015年Jaderberg等人[18]提出了基于圖像方面的空間注意力。2018年Hu等人[19]提出了SENet,該模塊主要通過學(xué)習(xí)通道之間的相關(guān)性,從而達(dá)到篩選出針對(duì)通道的注意力,將該模塊加入主網(wǎng)絡(luò)中可以保證在不提高模型復(fù)雜度的情況下有效提高任務(wù)的性能。隨后,Woo等人[12]提出了CBAM模塊,該模塊通過串聯(lián)通道注意力與空間注意力,以獲得更多更高層次的特征。在視頻彩色化方面,Yang等人[20]也將兩個(gè)CBAM模塊并聯(lián)在了編碼器子網(wǎng)絡(luò)中,通過聯(lián)合CNN與注意力模塊,使得著色效果更為豐滿。3)彩色化的生成對(duì)抗網(wǎng)絡(luò)
GAN最初由Goodfellow等人[21]提出,以無監(jiān)督的方式來生成數(shù)據(jù)。該結(jié)構(gòu)主要包括生成器、判別器。通過生成器與判別器之間的不斷對(duì)抗進(jìn)行訓(xùn)練,最終生成器生成的數(shù)據(jù)使判別器難以分辨。Isola等人[22]提出了一個(gè)用于幀與幀轉(zhuǎn)換的通用pix2pix框架。實(shí)驗(yàn)分析表明,對(duì)抗性訓(xùn)練策略有助于保留細(xì)節(jié)和提高感知質(zhì)量。文獻(xiàn)[23]提出了pix2pix增強(qiáng)框架pix2pixHD,用于高分辨率圖像。在彩色化方面,對(duì)比于CNN,GAN的優(yōu)勢(shì)在于能生成更為生動(dòng)、真實(shí)的圖片或者視頻幀。Cao等人[24]首次通過生成對(duì)抗網(wǎng)絡(luò)來進(jìn)行無監(jiān)督的多樣化著色,并將噪聲通道連接到生成器的前半部分卷積層,以在彩色圖像生成過程中獲得更多的多樣性。Zhao等人[25]通過使用GAN來縮小生成圖像和真實(shí)圖像之間的各種差異,提高彩色化的質(zhì)量。Wang等人[26]通過對(duì)GAN框架中每個(gè)像素的分配進(jìn)行不確定性建模,使損失最小,生成的圖像看起來更真實(shí)。
2 本文工作視頻彩色化的難點(diǎn)在于,如何生成與真實(shí)場(chǎng)景顏色相近的彩色視頻幀,同時(shí)減少時(shí)間閃爍。生成的彩色視頻幀與真實(shí)場(chǎng)景不相似的原因主要是在復(fù)雜場(chǎng)景或者邊緣部分,模型難以獲取更為準(zhǔn)確的信息;而造成時(shí)間閃爍的主要原因是視頻由一系列連續(xù)的幀組成,每幀都與前后幀有關(guān)聯(lián)。如果在彩色化過程中沒有考慮到這種關(guān)聯(lián)性,可能導(dǎo)致不同幀之間的顏色不一致。并且當(dāng)視頻中的場(chǎng)景在不同幀之間發(fā)生較大變化時(shí),如光照變化、物體移動(dòng)等,這些變化也會(huì)導(dǎo)致顏色一致性結(jié)果不佳?;诖?,本文設(shè)計(jì)了一個(gè)新的視頻彩色化方法AMVC-GAN,通過以GAN為主體的訓(xùn)練方式,訓(xùn)練一個(gè)生成器網(wǎng)絡(luò)和一個(gè)鑒別器網(wǎng)絡(luò)進(jìn)行對(duì)抗性訓(xùn)練,可以有效提高模型提取復(fù)雜場(chǎng)景和邊緣信息的能力,生成的視頻幀在外觀、結(jié)構(gòu)上都與真實(shí)場(chǎng)景相似;除此之外,本文還提出一個(gè)多尺度特征融合模塊,該模塊可以融合不同時(shí)間頻率的信息,增強(qiáng)幀與幀之幀之間的關(guān)聯(lián)性,從而減少時(shí)間閃爍。綜上,AMVC-GAN通過探索更多的空間信息與時(shí)間信息,能夠在提高視頻著色質(zhì)量的同時(shí),更有效地減少時(shí)間閃爍。本章詳細(xì)闡述所提方法的思想。首先,本文構(gòu)造了一個(gè)用于視頻彩色化的著色網(wǎng)絡(luò),通過使用多尺度特征融合模塊來獲取不同維度的時(shí)間信息與空間信息,用于加強(qiáng)時(shí)間與空間聯(lián)系,得到時(shí)間閃爍更少的視頻幀;其次,本文還使用占位特征提取器儲(chǔ)存上一幀的信息,進(jìn)一步加強(qiáng)幀與幀之間的聯(lián)系;最后引入注意力機(jī)制,并在不消耗大量計(jì)算和存儲(chǔ)成本的情況下作出更準(zhǔn)確的預(yù)測(cè),使生成的視頻幀顏色更為自然和生動(dòng),從而有效提高視頻彩色化的效果。1)網(wǎng)絡(luò)結(jié)構(gòu)
AMVC-GAN的框架整體結(jié)構(gòu)由生成器與鑒別器組成,生成器如圖1所示。該網(wǎng)絡(luò)主要由全局特征提取器、占位特征提取器、多尺度特征融合模塊、主流編碼器-解碼器和鑒別器五個(gè)部分組成。前四個(gè)部分構(gòu)成生成器。其中,主流編碼器使用U-Net,在每個(gè)編碼器層i和解碼器層n-i之間具有相同分辨率的跳躍連接,其中n是層的總數(shù)。通過這種長(zhǎng)短的跳躍鏈接,可以在保存低級(jí)信息的同時(shí)減少梯度消失,加快網(wǎng)絡(luò)收斂速度,使網(wǎng)絡(luò)擁有更好的性能。全局特征提取器、占位特征提取器與多尺度遞歸網(wǎng)絡(luò)模塊都使用在ImageNet[27]數(shù)據(jù)集上預(yù)訓(xùn)練好的ResNet-50框架。全局特征提取器主要提取全局特征;占位符特征提取器則保留了最后一幀的信息與多尺度特征融合模塊,其共同作用來保證時(shí)間的一致性,然后再分別將提取器與多尺度特征融合模塊的特征輸入主流的編碼器進(jìn)行特征融合。假定輸入的灰度視頻幀序列表示為X={X X2,…,Xn}。彩色化的視頻幀為G={G G2,…,Gn}。真實(shí)的彩色視頻幀為T={T T2,…,Tn}。以X1為例,X1分別輸入U(xiǎn)-Net、全局特征提取器、占位特征提取器與多尺度特征融合模塊,經(jīng)過U-Net的下采樣部分提取淺層信息。由于彩色化高度依賴全局特征[16],本文通過全局特征提取器能高效地獲取信息。占位特征提取器用于保存前一幀的信息,確保幀與幀之間的聯(lián)系,當(dāng)主流網(wǎng)絡(luò)的輸入ngt;1時(shí),占位特征提取器的輸入轉(zhuǎn)變?yōu)榛叶鹊模é腉n-1)。多尺度特征融合模塊用于融合不同時(shí)間頻率的信息,加強(qiáng)幀與幀之間的聯(lián)系,提高時(shí)間一致性。通過融合以上四個(gè)部分的特征,使深層和淺層的信息有效融合,隨后經(jīng)過U-Net上采樣部分獲得彩色的視頻幀。最后,將真實(shí)圖片T1與生成的彩色視頻幀G1輸入鑒別器,利用GAN相互競(jìng)爭(zhēng)的特性,使生成的視頻幀更真實(shí)、生動(dòng)。
鑒別器則使用的是PatchGAN[22],相關(guān)網(wǎng)絡(luò)如圖2所示,對(duì)輸出的通道數(shù)為1的矩陣判別是否真實(shí),同時(shí)相較于PixelGAN,擁有更少的參數(shù)。PatchGAN的輸出維度為×N,將其中的每一個(gè)元素x[i][j]看成一個(gè)patch,而一個(gè)patch對(duì)應(yīng)一個(gè)圖像的感受野,通過取每個(gè)部位patch的均值進(jìn)行求和,并將其看成真實(shí)圖片的概率進(jìn)行輸出,有利于關(guān)注圖像的細(xì)節(jié)。
一般來說,每個(gè)特征圖的不同位置擁有不同的特征信息。然而,大部分特征信息都是低頻的特征信息,其細(xì)節(jié)或顏色變化緩慢,無須分配大量計(jì)算資源來學(xué)習(xí)。然而,在圖像中,往往需要重點(diǎn)計(jì)算少量重要的高頻細(xì)節(jié),如邊緣信息和紋理特征,不加區(qū)分地計(jì)算高頻和低頻信息不僅會(huì)嚴(yán)重浪費(fèi)計(jì)算資源,且不能很好地保留有用的高頻信息,從而降低模型的著色能力。因此,本文引入了注意力機(jī)制?,F(xiàn)有的注意力機(jī)制大致可分為空間注意力與通道注意力兩類。具體來說,空間注意力被設(shè)計(jì)用來探索位置間的依賴關(guān)系,它將每個(gè)位置信息視為獨(dú)立的。通道注意力旨在探索通道間的依賴關(guān)系,即將所有的位置信息作為一個(gè)整體來處理。而本文使用注意力模塊旨在提高模型的特征提取和關(guān)鍵區(qū)域的感知能力。在模型的上采樣階段使用該操作,能自適應(yīng)地提取更為重要的特征,因此彩色化結(jié)果將具有準(zhǔn)確的顏色與更為清晰的邊界。該模塊的結(jié)構(gòu)如圖3所示。本文將輸入的特征圖定義為F∈
其中:Fn代表最終的特征圖;F代表輸入的特征;AC代表注意力模塊的一維卷積;AS代表空間注意力的二維卷積。該模塊與下文提到的多尺度特征融合模塊結(jié)合,本文模型在時(shí)間一致性方面表現(xiàn)出良好的性能,并產(chǎn)生高質(zhì)量的著色結(jié)果。
2)兩階段的訓(xùn)練
為了使網(wǎng)絡(luò)擁有更好的性能,本文將訓(xùn)練分為了兩個(gè)階段。在第一個(gè)階段,主要目標(biāo)是訓(xùn)練ResNet-50,使其擁有更好的特征提取能力,因此,將其在大型的ImageNet數(shù)據(jù)集上進(jìn)行訓(xùn)練。相較于別的數(shù)據(jù)集,該數(shù)據(jù)集類別更多、樣本更豐富,可以有效提高模型的泛化能力。并且在該階段,本文使用的損失函數(shù)是L1損失和感知損失[27],它們可以衡量圖像之間的相似性,更有利于生成高質(zhì)量的圖像。在第二個(gè)階段,本文交互式地訓(xùn)練GAN的生成器和鑒別器,并將其訓(xùn)練為馬爾可夫鏈,目的是為了獲取更為連續(xù)的視頻幀。具體做法是:將長(zhǎng)度為N的連續(xù)視頻幀序列定義為X={X X2,…,XN},并從數(shù)據(jù)集中隨機(jī)抽取連續(xù)的五幀視頻幀作為模型輸入。由于本文模型是一種遞歸的模型,并非線性的,前一幀會(huì)影響到下一幀的結(jié)果,所以對(duì)于一些特殊的模塊,輸入也會(huì)有所不同。對(duì)于第一幀的輸入,全局特征提取器、占位特征提取器與多尺度特征融合模塊皆為X 但從第二幀開始就會(huì)有所不同,全局特征提取器與多尺度特征融合模塊的輸入為Xn,占位特征提取器輸入為灰度的(δGn-1)。
3)多尺度特征融合模塊(multi-scale feature fusionmodule)
為了減少時(shí)間閃爍,本文設(shè)計(jì)了一個(gè)多尺度特征融合模塊。該模塊的主要目的是對(duì)一個(gè)時(shí)間維度進(jìn)行下采樣,并且對(duì)當(dāng)前時(shí)間維度下的每一視頻幀進(jìn)行特征集成。為了實(shí)現(xiàn)此目標(biāo),使用以下分配方法來構(gòu)建不同時(shí)間步的序列:首先將計(jì)算得到的特征向量 T 作為特征序列的第一個(gè)元素,并將其重命名為H0;然后,將H0中的N個(gè)特征向量分別表示為{ J0,J …,J N},如式(2)所示。
其中:| · |表示為均勻降采樣操作。通過重復(fù)x次降采樣操作,將得到的特征向量表示為 J ={Jn,n=0, …,N}。與以往針對(duì)時(shí)間頻率的多尺度特征融合工作不同,本文設(shè)計(jì)的MFF模塊是為了充分利用不同時(shí)間頻率的運(yùn)動(dòng)信息,以增強(qiáng)相鄰幀之間的聯(lián)系。具體的實(shí)現(xiàn)方式是通過嵌套的方式建立起不同時(shí)間頻率之間的周期性鏈接,構(gòu)建一個(gè)逐漸加深的層次結(jié)構(gòu),并通過跳躍連接恢復(fù)丟失的信息,克服降采樣過程會(huì)導(dǎo)致信息丟失的問題。通過該模塊將更深與更淺層的層次結(jié)合,以學(xué)習(xí)更多特征層次結(jié)構(gòu)的組合,增強(qiáng)幀與幀之間的關(guān)系。多尺度特征融合模塊結(jié)構(gòu)如圖4所示,本文采用的插幀方法將連續(xù)的五幀視頻幀輸入最上層的平臺(tái),記作{X X2,X3,X4,X5},第二個(gè)平臺(tái)則以跨幀(間隔一幀)的方式輸入,記作{X X3,X5},最下層的輸入則與主流網(wǎng)絡(luò)保持一致。此外,本文方法使用ConvGRU來對(duì)特征進(jìn)行整合。利用GRU能有效解決普通RNN易出現(xiàn)梯度爆炸和梯度消失問題的優(yōu)勢(shì),并且相較于LSTM網(wǎng)絡(luò),在保持相同精度的前提下,GRU訓(xùn)練參數(shù)更少、訓(xùn)練速度更快。除此之外,使用ConvGRU還能獲取更多的空間信息,能更好地處理視頻幀的局部特征,獲得更多的邊緣特征,減少著色時(shí)的滲色現(xiàn)象。將當(dāng)前的時(shí)間Ht初始化為H0,然后輸入當(dāng)前的時(shí)間狀態(tài)Ht與之前的隱藏狀態(tài)Ht- 計(jì)算得到當(dāng)前隱藏狀態(tài)的HT。
隨后將得到的結(jié)果送入下一個(gè)平臺(tái)作為輸入。通過循環(huán)連接來得到不同時(shí)間頻率的信息,能有效獲取視頻幀序列中的運(yùn)動(dòng)信息,其中較高時(shí)間頻率下的信息通過循環(huán)連接接受較低頻率下的信息進(jìn)行完善。最后將得到的特征向量聚合為R,并將其輸入到特征提取器再次提取特征。
其中:T是視頻幀的長(zhǎng)度;N是VGG-16的conv4-3層特征;G(i)t代表t時(shí)刻生成的彩色化幀;G(i)t-1是G(i)t被光流扭曲的幀。通過Mt→t-1=exp(-αFt-Ft-122)[4]計(jì)算光流之間的可見性掩模,M(i)t→t-1表示Ft和Ft-1之間由輸入幀和扭曲的輸入幀的扭曲誤差計(jì)算的逐像素非遮擋區(qū)域,光流Pt→t-1是Ft和Ft-1的正向流。通過調(diào)整比例因子α來調(diào)整遮擋區(qū)域與非遮擋區(qū)域數(shù)值上的差異。短期損失主要用來學(xué)習(xí)相鄰幀之間顏色的相關(guān)性,增強(qiáng)時(shí)間一致性。但是當(dāng)連續(xù)輸入的幀數(shù)大于5幀時(shí),性能就得不到保證。因此,本文通過長(zhǎng)期損失來建立生成幀之間的長(zhǎng)期聯(lián)系,進(jìn)一步提高性能。對(duì)于訓(xùn)練GAN中生成器和鑒別器的損失分別定義為
3 實(shí)驗(yàn)
1)數(shù)據(jù)集
在訓(xùn)練AMVC-GAN的第一個(gè)階段,本文使用的數(shù)據(jù)集是整個(gè)ImageNet,該數(shù)據(jù)集總共包括1 000個(gè)類別、1 281 167張圖像。在訓(xùn)練過程中,本文將圖片的大小調(diào)整為256×256。在訓(xùn)練的第二個(gè)階段,使用的數(shù)據(jù)集是DAVIS和VIDEVO的混合數(shù)據(jù)集,該數(shù)據(jù)集總共包括156個(gè)短視頻,有29 620張視頻幀。其中DAVIS數(shù)據(jù)集由90個(gè)視頻組成,包括各種移動(dòng)對(duì)象與運(yùn)動(dòng)類型,訓(xùn)練集為60個(gè)、測(cè)試集30個(gè);VIDEVO則由100 個(gè)視頻組成,其中80個(gè)訓(xùn)練集、20個(gè)測(cè)試集。與ImageNet數(shù)據(jù)集一樣, 本文在訓(xùn)練過程中將視頻幀的大小調(diào)整為256×256。
2)網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于網(wǎng)絡(luò)結(jié)構(gòu),本文在第一個(gè)階段訓(xùn)練三個(gè)特征提取器ResNet-50,直至收斂,精度達(dá)到最高且穩(wěn)定。并且,為了獲取更多的特征,本文將ResNet-50的池化層用步長(zhǎng)為2的卷積替代。然后在第二個(gè)階段,將訓(xùn)練好的模型權(quán)重加載到全局特征提取器、占位特征提取器和多尺度特征融合模塊中。此外,本文的生成器和鑒別器使用的激活函數(shù)均是LeakyReLU[29],該激活函數(shù)擴(kuò)大了ReLU的范圍,解決了負(fù)輸入狀態(tài)下梯度為0的情況,擁有比ReLU函數(shù)更好的效果,非常適合用于視頻彩色化方法中。
3)評(píng)價(jià)指標(biāo)
在視頻著色質(zhì)量方面,本文使用PSNR(峰值信噪比)與SSIM(結(jié)構(gòu)相似性指數(shù))[29]來進(jìn)行評(píng)估。PSNR是一種使用較為廣泛的評(píng)價(jià)圖像質(zhì)量的指標(biāo),通過計(jì)算對(duì)應(yīng)像素點(diǎn)之間的誤差(分別計(jì)算RGB三個(gè)通道的PSNR,隨后取平均值)來評(píng)價(jià)生成的視頻幀的質(zhì)量。SSIM則是通過分別計(jì)算圖像的亮度、對(duì)比度、結(jié)構(gòu)來計(jì)算圖像的相似度。 在時(shí)間一致性方面,本文使用WarpError[30]通過計(jì)算前后幀之間的視差來進(jìn)行評(píng)價(jià)。除此之外,本文使用CTBI[31]來評(píng)價(jià)時(shí)間一致性與著色質(zhì)量之間的平衡關(guān)系。具體定義為
其中:N(·)代表著歸一化處理。首先對(duì)PSNR與WarpError分別按照(0,30)(0,0.1)進(jìn)行歸一化。 由于PSNR與SSIM代表著色質(zhì)量,WarpError代表時(shí)間一致性,本文將歸一化的公式定義為μ1+μ2+μ3= 并且μ1、μ2、μ3分別取0.2、0.3、0.5。
4)實(shí)驗(yàn)細(xì)節(jié)
第一個(gè)階段,總共訓(xùn)練20個(gè)周期,初始學(xué)習(xí)率設(shè)置為E-4,衰減周期為10,衰減為原來的一半。在第二個(gè)階段,加載第一階段訓(xùn)練模型的權(quán)重,然后總共訓(xùn)練500個(gè)周期,生成器和判別器的初始學(xué)習(xí)率分別設(shè)置為E-5和4E-5,學(xué)習(xí)率每經(jīng)過100個(gè)周期減半。對(duì)于優(yōu)化器,在兩個(gè)階段中均使用Adam進(jìn)行優(yōu)化。對(duì)于系數(shù)L1、Lp、Lst、Llt、LG分別設(shè)置為10、10、3、5、1。實(shí)驗(yàn)是在配備兩張DGX-A100GPUS的服務(wù)器上進(jìn)行的,其中第一階段訓(xùn)練240 h,第二階段訓(xùn)練72 h。
5)對(duì)比于別的先進(jìn)視頻彩色化方法
在基于視頻的方法中,本文選擇與近幾年較為先進(jìn)的視頻彩色化方法VCGAN[30]、FAVC[5]、CRVC-GAN[31]進(jìn)行對(duì)比。在基于圖像的方法中,本文則與近幾年較為經(jīng)典的圖像彩色化方法CIC[17]和ChromaGAN[32]搭配,用于指導(dǎo)時(shí)間一致性的算法BTC[4]來進(jìn)行對(duì)比。在對(duì)比實(shí)驗(yàn)中,保證了相同的實(shí)驗(yàn)環(huán)境,即相同的設(shè)備、訓(xùn)練集與測(cè)試集。
6)定量比較
定量結(jié)果如表1所示,紅色代表第一,藍(lán)色代表第二,綠色代表第三(參見電子版)。基于圖像的方法CIC與Chroma-GAN可以獲得相對(duì)不錯(cuò)的PSNR和SSIM,但在時(shí)間一致性方面卻不能達(dá)到令人滿意的結(jié)果。這主要是因?yàn)榛趫D像的訓(xùn)練方法中,時(shí)間一致性與彩色化是兩個(gè)獨(dú)立的訓(xùn)練過程,所以并不能使生成視頻幀具有較好的連續(xù)性?;谝曨l的方法FAVC能獲得相較于圖像方面更高的性能,時(shí)間一致性也能達(dá)到不錯(cuò)的結(jié)果。對(duì)于CRVC-GAN,雖在時(shí)間一致性方面取得了較為不錯(cuò)的結(jié)果,但在著色質(zhì)量方面未取得令人滿意的結(jié)果。而VCGAN在保證時(shí)間一致性的前提下獲得了較好的視頻著色質(zhì)量,但時(shí)間一致性仍有較大的可提升空間。雖然CRVC-GAN、FAVC與VCGAN都能取得不錯(cuò)的性能,但是相比之下,本文方法的著色效果與時(shí)間一致性指標(biāo)都取得了更好的結(jié)果。除此之外,對(duì)于衡量時(shí)間一致性與著色質(zhì)量的評(píng)價(jià)指標(biāo)CTBI,也取得了較為優(yōu)秀的結(jié)果。
7)定性比較
在VIDEVO和DAVIS兩個(gè)測(cè)試集上對(duì)本文方法和其他基于視頻和圖像的彩色法方法進(jìn)行了定性比較,如圖5~7所示。對(duì)于基于圖像的方法,CIC+BTC可以很明顯地看出在圖5、7中顏色偏黃,并且出現(xiàn)了奇怪的紅色(見電子版)。而ChromaGAN+BTC雖然在著色方面相較于CIC+BTC有了較大的改善,但是圖7也出現(xiàn)了較為奇怪的紅色。對(duì)基于視頻的方法,F(xiàn)AVC在圖6并沒有很好地進(jìn)行著色,而在圖7也出現(xiàn)了略微的紅色。圖5(f)中的飛機(jī)被涂成了不應(yīng)該有的黃色。VCGAN雖然整體較為出色,但是從圖6可以明顯看出著色效果也不如本文方法飽和、自然。
通過以上分析,從評(píng)價(jià)指標(biāo)來看,在時(shí)間一致性方面,本文通過使用多尺度特征融合模塊融合不同時(shí)間頻率的特征,以及在光流網(wǎng)絡(luò)的共同作用下,更能充分利用相鄰幀之間的關(guān)系。而在著色方面,本文使用的注意模塊能更有效地利用多尺度特征融合模塊與全局的特征,提取更為重要的信息,并且使用GAN的相互博弈特性生成更為真實(shí)的視頻幀。通過數(shù)據(jù)能很明顯地看出,本文方法在DAVIS與VIDEVO數(shù)據(jù)集上都取得了較好的效果。
8)消融實(shí)驗(yàn)
為了更好地證明本文所使用的多尺度特征融合模塊與注意力模塊帶來的影響,本文在DAVIS與VIDEVO數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。在本文實(shí)驗(yàn)中分別去除了多尺度特征融合模塊與注意力模塊,結(jié)果如表2所示。
從表2可以看出,在加入
多尺度特征融合模塊(MMFM)后,時(shí)間一致性得到了較為顯著的提升,WarpError在DAVIS數(shù)據(jù)集上從0.075 943提升到了0.073 106,且在VIDEVO數(shù)據(jù)集上從0.037 683提升至0.036 436。這證明本文設(shè)計(jì)的多尺度特征融合模塊,通過集成不同時(shí)間維度的信息達(dá)到提高時(shí)間一致性、減少時(shí)間閃爍的目的是有效的。同時(shí),PSNR與SSIM在DAVIS與VIDEVO數(shù)據(jù)集上也有了略微的提升,進(jìn)一步證明了多尺度特征融合模塊的有效性。除此之外,從表2可以看到,加入的注意力機(jī)制在DAVIS與VIDEVO數(shù)據(jù)集中都帶來了較為明顯的性能提升,PSNR與SSIM也得到較大的改善。圖8為不同模塊的消融對(duì)比,圖8(a)為輸入的灰度視頻幀,圖8(b)為沒有任何模塊生成的彩色視頻幀,圖8(c)為只加入多尺度特征融合模塊生成的彩色視頻幀,圖8(d)為只加入注意力模塊生成的彩色視頻幀,圖8(e)是本文完整模型生成的彩色視頻幀??梢钥闯?,在僅加入多尺度特征融合模塊時(shí),生成的彩色視頻幀更為真實(shí),看起來也更加連續(xù);在僅加入注意力模塊時(shí),較多尺度特征融合模塊,彩色幀的色彩進(jìn)一步飽和,但也出現(xiàn)了較為奇怪的顏色,當(dāng)使用完整的模型時(shí),可以很明顯地看出有著更好的時(shí)間一致性與著色性能。
4 結(jié)束語
本文提出了一個(gè)全新的具有注意力機(jī)制和多尺度特征融合的視頻彩色化方法AMVC- GAN。該方法結(jié)合了多尺度融合和注意力模塊。其中,多尺度特征融合模塊通過低頻率的信息來豐富高頻率的信息,再加以光流進(jìn)行輔助,保證了視頻的連續(xù)性,從而提高了時(shí)間一致性。另外,在上采樣部分引入注意力機(jī)制,篩選出更為重要的信息提高了著色質(zhì)量。實(shí)驗(yàn)結(jié)果表明,與近幾年先進(jìn)的圖像和視頻彩色化方法相比較,本文方法在DAVIS和VIDEVO數(shù)據(jù)集上都獲得了卓越的性能,比其他方法具有更好的時(shí)間一致性與著色效果。
參考文獻(xiàn):
[1]Zhang Bo,He Mingming,Liao Jing,et al. Deep exemplar-based video colorization [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 8044-8053.
[2]Jampani V,Gadde R,Gehler P V. Video propagation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 451-461.
[3]Bonneel N,Tompkin J,Sunkavalli K,et al. Blind video temporal consistency[J].ACM Trans on Graphics ,2015, 34 (6): article No. 196.
[4]Lai Weisheng,Huang Jiabin,Wang O,et al. Learning blind video temporal consistency[C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 170-185.
[5]Lei Chenyang,Chen Qifeng. Fully automatic video colorization with self-regularization and diversity[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3748-3756.
[6]Kouzouglidis P,Sfikas G,Nikou C. Automatic video colorization using 3D conditional generative adversarial networks[M]// George B,Richard B,Bahram P,et al. Advances in Visual Computing. Cham: Springer,2019: 209-218.
[7]Thasarathan H,Nazeri K,Ebrahimi M. Automatic temporally coherent video colorization[C]// Proc of the 16th Conference on Computer and Robot Vision. Piscataway,NJ: IEEE Press,2019: 189-194.
[8]Levin A,Lischinski D,Weiss Y. Colorization using optimization[J].ACM Trans on Graphics ,2004, 23 (3): 689-694.
[9]Endo R,Kawai Y,Mchizuki T. A practical monochrome video colorization framework for broadcast program production[J].IEEE Trans on Broadcasting ,2020, 67 (1): 225-237.
[10]Liu Yihao,Zhao Hengyuan,Kevin C K,et al. Temporally consistent video colorization with deep feature propagation and self-regularization learning[J].Computational Visual Media ,2024, 10 : 375-395.
[11]Ronneberger O,F(xiàn)ischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation[M]// Navab N,Hornegger J,Wells W,et al. Medical Image Computing and Computer-Assisted Intervention. Cham: Springer,2015: 234-241.
[12]Woo S,Park J,Lee J Y,et al. CBAM: convolutional block attention module[C]// Proc of European Conference on
Computer Vision. Cham: Springer,2018: 3-19.
[13]萬園園,王雨青,張曉寧,等. 結(jié)合全局語義優(yōu)化的對(duì)抗性灰度圖像彩色化[J]. 液晶與顯示,202 36 (9): 1305-1313. (Wan Yuanyuan,Wang Yuqing,Zhang Xiaoning,et al. Adversarial grayscale image colorization combined with global semantic optimization[J].Chinese Journal of Liquid Crystals and Displays ,202 36 (9): 1305-1313.)
[14]歐博,劉曉倩,林怡彤,等. 基于生成對(duì)抗網(wǎng)絡(luò)的漸進(jìn)式夜視圖像彩色化算法[J]. 湖南大學(xué)學(xué)報(bào): 自然科學(xué)版,2023, 50 (8): 23-31. (Ou Bo,Liu Xiaoqian,Lin Yitong,et al. Progressive colorization algorithm of night vision images based on generative adversarial network[J].Journal of Hunan University: Natural Sciences ,2023, 50 (8): 23-31.)
[15]Zhang R,Zhu Junyan,Isola P,et al. Real-time user-guided image colorizationwith learned deep priors [J].ACM Trans on Graphics, 2017, 36 (4):1-11.
[16]Larsson G,Maire M,Shakhnarovich G. Learning representations for automatic colorization[C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer,2016: 577-593.
[17]Zhang R,Isola P,Efros A A. Colorful image colorization[C]// Proc of the14th European Conference on Computer Vision.Cham:Springer,2016: 649-666.
[18]Jaderberg M,Simonyan K,Zisserman A. Spatial transformer networks[J].Advances in Neural Information Processing Systems ,2015, 28 (2): 2017-2025.
[19]Hu Jie,Shen Li,Sun Gang. Squeeze-and-excitation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 7132-7141.
[20]Yang Ye,Liu Yao,Yuan Hui,et al. Deep colorization: a channel attention-basedCNN for video colorization[C]// Proc the 5thInternational Conference on Image and Graphics Processing. New York: ACM Press,2022: 275-280.
[21]Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks[J].Communications of the ACM ,2020, 63 (11): 139-144.
[22]Isola P,Zhu Junyan,Zhou Tinghui,et al. Image-to-image translation with conditional adversarial networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 1125-1134.
[23]Wang Tingchun,Liu Mingyu,Zhu Junyan,et al. High-resolution imagesynthesis and semantic manipulation with conditional GANs[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 8798-8807.
[24]Cao Yun,Zhou Zhiming,Zhang Weinan,et al. Unsupervised diverse colorization via generative adversarial networks[C]// Proc of Euro-pean Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer,2017: 151-166.
[25]Zhao Yuzhi,Po L M,Cheung K W,et al. SCGAN: saliency map-guided colorization with generative adversarial network[J].IEEE Trans on Circuits and Systems for Video Technology ,2020, 31 (8): 3062-3077.
[26]Wang Yi,Xia Menghan,Qi Lu,et al. PalGAN: image colorization with palette generative adversarial networks[C]// Proc of the 17th European Conference on Computer Vision. Cham: Springer,2022: 271-288.
[27]Johnson J,Alahi A,Li Feifei. Perceptual losses for real-time style transfer and super-resolution[C]// Proc of the 14th European Confe-rence on Computer Vision. Cham: Springer,2016: 694-711.
[28]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[29]Maas A L,Hannun A Y,Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]// Proc of the 30th International Conference on Machine Learning. 2013: 3-8.
[30]Zhao Yuzhi,Po L M,Yu W Y,et al. VCGAN: video colorization with hybrid generative adversarial network [J].IEEE Trans on Multimedia ,2023, 25 : 3017-3032.
[31]Xiang Lingjie,Kong Guangqian,Duan Xun,et al. CRVC-GAN: combining cross-scale fusion and recursion for video colorization adversarial generative networks[J].Journal of Electronic Imaging ,2022, 31 (6): 063049.
[32]Vitoria P,Raad L,Ballester C. ChromaGAN: adversarial picture colorization with semantic class distribution [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2020: 2434-2443.
[33]Perazzi F,Pont-Tuset J,McWilliams B,et al. A benchmark dataset and evaluation methodology for video object segmentation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 724-732.
[34]Russakovsky O,Deng J,Su H,et al. ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision ,2015, 115 : 211-252.
收稿日期:2023-07-19;修回日期:2023-09-04 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62266011);貴州省基礎(chǔ)研究計(jì)劃資助項(xiàng)目(黔科合基礎(chǔ)-ZK[2022]一般119)
作者簡(jiǎn)介:周柯明(1998—),男,貴州銅仁人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)和視頻彩色化;孔廣黔(1974—),男(通信作者),四川遂寧人,副教授,碩導(dǎo),博士,CCF會(huì)員,主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、多媒體通信、深度學(xué)習(xí)及其應(yīng)用(gq_kong@163.com);鄧周灰(1978—),男,貴州貴陽人,碩士研究生,主要研究方向?yàn)閼?yīng)用數(shù)學(xué)、超級(jí)計(jì)算.