趙利軍,曹聰穎,張晉京,趙 杰,陳彬濤,王安紅
1.太原科技大學(xué) 電子信息工程學(xué)院,太原 030024
2.中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030051
在圖像采集、壓縮、通信等過程中,由于各種客觀因素的影響往往會導(dǎo)致圖像質(zhì)量變差,比如圖像信息丟失、圖像模糊、壓縮偽影等問題,因此,非常有必要對低質(zhì)量圖像進(jìn)行增強(qiáng),使其可以滿足人類視覺的要求,同時有助于計算機(jī)系統(tǒng)通過增強(qiáng)后的圖像達(dá)到高精度的目標(biāo)檢測和識別。圖像增強(qiáng)技術(shù)是指利用某種圖像處理方法對不滿足人類視覺需要或不宜被計算機(jī)識別處理的低質(zhì)量圖像進(jìn)行處理,該技術(shù)致力于提高圖像的清晰度,加強(qiáng)某些重點(diǎn)區(qū)域圖像特征,削弱某些不重點(diǎn)區(qū)域的特征,進(jìn)而達(dá)到圖像增強(qiáng)的目的。
圖像增強(qiáng)處理方法現(xiàn)在已經(jīng)應(yīng)用到生活的方方面面,人們已不滿足于追求更高質(zhì)量的圖像,而是將圖像增強(qiáng)處理應(yīng)用于各個領(lǐng)域。例如,在航空航天領(lǐng)域,由于受到成像設(shè)備硬件、氣候條件以及圖像傳輸過程中遭到極端惡劣因素的影響,地面端所接收到的圖像的質(zhì)量往往較差,因此,需要對接受到的圖像進(jìn)行增強(qiáng)。在車聯(lián)網(wǎng)系統(tǒng)中,需要利用采集到的圖像進(jìn)行檢測、分類、識別、定位等處理,以滿足人們對于車輛行駛過程中路況的了解。在生物醫(yī)學(xué)領(lǐng)域中,由于受到醫(yī)學(xué)設(shè)備的影響,采集到的圖像往往有較大的噪聲,不利于醫(yī)生對醫(yī)學(xué)影像的觀察并根據(jù)圖像作出正確的診斷,因此,需要對圖像進(jìn)行去噪處理,以及對器官、組織和病灶的檢測、識別和分割。在古籍修復(fù)方面,由于一些客觀原因造成的古畫破損以及還原古物原本面貌等方面都需要使用圖像增強(qiáng)技術(shù)。在工業(yè)方面,圖像增強(qiáng)技術(shù)主要用于產(chǎn)品質(zhì)量的檢測、機(jī)器零部件的識別,以及零部件尺寸的測量等方面。由此可見,圖像增強(qiáng)方法已經(jīng)關(guān)系到人們生活的方方面面,與人們的生產(chǎn)生活緊緊相關(guān)。受到計算機(jī)等硬件設(shè)備的限制,早期的圖像增強(qiáng)技術(shù)主要是利用信號處理的方法對圖像的時域或頻域信息進(jìn)行處理。時域方法主要是針對圖像像素級別的信息進(jìn)行處理的方法,即直接對圖像中各個像素進(jìn)行處理,如濾波方法[1-4]、非凸低秩優(yōu)化方法[5]、字典學(xué)習(xí)稀疏表示方法[6]、非局部均值濾波方法(non-local means,NLM)[7]等。頻域方法利用傅里葉變換[8-9]、小波變換[10]、離散余弦變換[11]等方法將圖像信息轉(zhuǎn)換到頻率域進(jìn)行處理,針對圖像的高頻和低頻信息進(jìn)行有目的的增強(qiáng)。然而,這一時期的圖像增強(qiáng)技術(shù)也僅僅只是追求圖像高質(zhì)量的視覺效果,它們無法滿足計算機(jī)視覺的目標(biāo)識別和檢測等任務(wù)需求。
不同于傳統(tǒng)的圖像增強(qiáng)技術(shù),隨著計算機(jī)硬件設(shè)備性能的提升以及5G 通信技術(shù)的成熟,基于深度學(xué)習(xí)的圖像增強(qiáng)技術(shù)近年來得到廣泛的應(yīng)用和發(fā)展。值得注意的是,壓縮圖像增強(qiáng)是圖像增強(qiáng)領(lǐng)域的一個非常重要的分支研究。然而,在圖像壓縮過程存在的量化以及變換過程會帶來嚴(yán)重的壓縮偽影,比如細(xì)節(jié)丟失、振鈴效應(yīng)、模糊偽影和塊偽影等,因此有必要對壓縮后的圖像進(jìn)行質(zhì)量增強(qiáng)。
一般來說,壓縮圖像增強(qiáng)方法可以分為兩個大類:傳統(tǒng)的圖像增強(qiáng)方法和基于深度學(xué)習(xí)的圖像增強(qiáng)方法。
傳統(tǒng)的壓縮圖像增強(qiáng)方法主要專注于解決圖像噪聲去除問題,同時提升圖像的清晰度,增強(qiáng)人的視覺感觀。傳統(tǒng)的壓縮圖像增強(qiáng)的處理方法主要有空域法和頻域法,如表1介紹了傳統(tǒng)的圖像增強(qiáng)方法的特點(diǎn)及優(yōu)缺點(diǎn)。空域法是對空間域中的像素特征進(jìn)行處理,其原理是:在一定大小的窗口內(nèi),分析中心像素與其相鄰像素的關(guān)系來得到新的中心像素值的方法。典型的空域算法包括基于濾波的圖像增強(qiáng)方法、非凸低秩模型[5]、字典學(xué)習(xí)方法[6]、非局部均值濾波方法[7]等。接下來,將依次介紹這些方法。
表1 傳統(tǒng)的圖像增強(qiáng)方法對比Table 1 Comparison of traditional image enhancement methods
濾波方法包括均值濾波[1]、中值濾波[3]、高斯濾波[2]和雙邊濾波[4]等。在均值濾波器中[1],中心像素值是鄰域的平均灰度值。高斯濾波方法[2]的原理是隨著鄰域像素與中心像素距離的增大,濾波權(quán)值呈現(xiàn)高斯衰減的特性。這樣做的優(yōu)點(diǎn)是距離中心較遠(yuǎn)的像素點(diǎn)的作用小,而缺點(diǎn)是高斯濾波模糊了圖像的邊界信息。中值濾波對孤立噪聲的處理效果比均值濾波要好,而且它能保留更多的邊界信息,但是對局部細(xì)節(jié)如細(xì)線和小塊的目標(biāo)區(qū)域不友好。中值濾波[3]是將窗口中心點(diǎn)的灰度值用窗口內(nèi)所有像素值的中值替代。雙邊濾波[4]是通過自適應(yīng)的空域和值域卷積核來有效地保護(hù)圖像的邊緣信息,從而提高圖像的信噪比。CONCOLOR 方法[5]利用非凸低秩優(yōu)化模型來實現(xiàn)壓縮圖像的塊效應(yīng)去除,并且在不改變現(xiàn)有編解碼器情況下就能將量化約束變換到可行解空間。K-SVD方法[12]利用K均值(K-means)和奇異值分解(singular value decomposition,SVD)相結(jié)合的方法,解決了在固定變換矩陣基底下圖像不能自適應(yīng)處理紋理信息的問題,但該方法的缺點(diǎn)是更新字典時所需的計算量較大。Chang等人[6]利用稀疏表示和冗余字典學(xué)習(xí)的方法來有效降低JPEG(joint photographic experts group)壓縮偽影,但是經(jīng)過該方法增強(qiáng)圖像的高頻信息恢復(fù)效果不好??紤]到基于圖像濾波的增強(qiáng)方法只關(guān)注有限窗口范圍內(nèi)的像素信息,NLM算法[7]使用整幅圖像的信息進(jìn)濾波,該方法以圖像塊為單位遍歷整幅圖像,尋找與該塊相似區(qū)域,再對這些相似的區(qū)域進(jìn)行加權(quán)求和,這樣就能獲得濾波輸出。
雖然空域增強(qiáng)方法對壓縮圖像的增強(qiáng)起到一定的作用,但是這種方法的計算復(fù)雜度高,噪聲去除不徹底,圖像增強(qiáng)質(zhì)量不高,并且沒有充分考慮圖像信號和噪聲信號的特點(diǎn)。于是一些學(xué)者開始利用圖像信號和噪聲信號的頻率變換研究圖像增強(qiáng)問題。頻域增強(qiáng)是通過某一種或多種頻率變換,將圖像信號從空間域轉(zhuǎn)換到頻率域,然后利用頻率特性將不同頻率的噪聲去除,之后再通過反變換將圖像信號從頻率域轉(zhuǎn)換到空間域,以達(dá)到圖像增強(qiáng)的目的。頻域變換的方法主要有傅里葉變換(discrete Fourier transformation,DFT)[8-9]、小波變換(discrete wavelet transform,DWT)[10]和離散余弦變換(discrete cosine transform,DCT)[11]等。傅里葉變換的頻譜圖上的點(diǎn)表示某一點(diǎn)與鄰域的梯度大小。因為傅里葉變換需要用到整個頻域的信息,所以不能刻畫信號的局部特征。由于傅里葉變換只能分析出一段信號的整體特征而無法確定成分出現(xiàn)的時刻,同時不能在時域進(jìn)行分析,因此,對于突變和非平穩(wěn)信號來說傅里葉變換的處理效果并不理想。DFT變換公式可以表示為:
其中,u=0,1,…,M-1;v=0,1,…,N-1。傅里葉反變換(IDFT)可以表示為:
DCT 變換是通過將多個不同的余弦函數(shù)求和來近似原始圖像信號的方法,這里每個余弦函數(shù)的頻率和幅值不同。由于DCT變換具有將空間域的信號轉(zhuǎn)換到頻率域的能力并且它能夠很好地去除信號的相關(guān)性,因此,它非常適用于圖像壓縮。例如國際壓縮標(biāo)準(zhǔn)JPEG就采用DCT變換。DCT變換可以表示為:
為了充分利用空域方法與頻域方法的優(yōu)點(diǎn),Dabov等人[13]提出了BM3D(block-matching and 3D filtering)方法,這種方法利用NLM 計算塊間相關(guān)性并且利用小波變換計算塊內(nèi)相關(guān)性,通過相似判定尋找與參考塊相似的圖像塊,然后將其與相似塊組合成形成三維數(shù)組,再對該三維數(shù)組進(jìn)行協(xié)同濾波處理,最后將其聚合到原圖像塊的位置。
不同于傳統(tǒng)的壓縮圖像增強(qiáng)方法,深度學(xué)習(xí)壓縮圖像增強(qiáng)已經(jīng)獲得學(xué)者們的廣泛關(guān)注。早期研究者關(guān)注如何設(shè)計復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來提升壓縮圖像增強(qiáng)模型的性能。然而,很難進(jìn)一步提升這些模型性能,同時這些模型缺乏可解釋性。近來,可解釋的壓縮圖像增強(qiáng)網(wǎng)絡(luò)模型充分地利用傳統(tǒng)優(yōu)化模型的可解釋性和神經(jīng)網(wǎng)絡(luò)模型的高性能優(yōu)點(diǎn)。接下來,將依次介紹這兩種模型,再介紹網(wǎng)絡(luò)優(yōu)化方法。
近年來,隨著深度學(xué)習(xí)技術(shù)的深入研究和計算機(jī)設(shè)備性能的不斷提升,基于深度學(xué)習(xí)的壓縮圖像增強(qiáng)方法得到廣泛的研究,如圖1。早期的深度學(xué)習(xí)壓縮圖像增強(qiáng)方法一般使用單域的網(wǎng)絡(luò)結(jié)構(gòu)加跳躍連接的方式提升神經(jīng)網(wǎng)絡(luò)的性能,進(jìn)而提高圖像的清晰度,如圖1(a)所示。Dong 等人[14]開創(chuàng)性地將CNN 應(yīng)用于JPEG 壓縮偽影去除,并提出了具有三層網(wǎng)絡(luò)結(jié)構(gòu)的壓縮圖像增強(qiáng)方法ARCNN。但是,考慮到深層ARCNN 的訓(xùn)練比較困難,Zhang 等人[15]提出了DnCNN 網(wǎng)絡(luò),利用批歸一化層和殘差學(xué)習(xí)大大地提高了網(wǎng)絡(luò)的訓(xùn)練速度。隨后,Jin等人[16]利用圖像的高低頻特性將圖像分解為低頻圖像和高頻圖像,然后將這兩個圖像分別輸入到兩個增強(qiáng)網(wǎng)絡(luò)中,最后將兩個增強(qiáng)后的特征圖融合起來,得到一幅高質(zhì)量的圖像。然而,這些方法的網(wǎng)絡(luò)架構(gòu)相對簡單,對壓縮圖像質(zhì)量的提高效果不高。一些學(xué)者開始研究對抗生成網(wǎng)絡(luò)模型或者Transformer模型來解決壓縮圖像質(zhì)量增強(qiáng)問題[17-18]。例如,Rippel等人[19]首次利用對抗生成網(wǎng)絡(luò)解決壓縮圖像的增強(qiáng)問題,提出一種面向低比特率壓縮的自適應(yīng)圖像增強(qiáng)算法。Wang 等人[20]將U-Net 與Swin Transformer 相結(jié)合,構(gòu)建了一種圖像增強(qiáng)架構(gòu),即Uformer,該架構(gòu)在Transformer 層中使用非重疊窗口自注意力來減少各種圖像增強(qiáng)任務(wù)的計算量。Liang 等人[21]將Swin Transformer 和殘差學(xué)習(xí)結(jié)合起來,開發(fā)了一種SwinIR 基線模型方法,致力于解決JPEG壓縮偽影的去除問題。
圖1 面向圖像增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)模型對比Fig.1 Comparison of convolutional neural network models for image Enhancement
如圖1(b)所示,不同于單域壓縮圖像增強(qiáng)算法只進(jìn)行圖像域特征提取,多域圖像增強(qiáng)算法從多個域同時使用兩個或者三個網(wǎng)絡(luò)去提高圖像的質(zhì)量。一些學(xué)者將頻域和深度學(xué)習(xí)算法相結(jié)合來研究壓縮圖像增強(qiáng)問題。例如,Wang等人[22]首次將DCT域引入到JPEG偽影去除的工作,并且該方法結(jié)合深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來實現(xiàn)JPEG 壓縮偽影去除。Liu 等人[23]將小波變換引入到CNN 中,以更好地權(quán)衡感受野的大小和計算效率。Chen等人[24]提出一種用于JPEG壓縮圖像軟解碼的像素域和小波域神經(jīng)網(wǎng)絡(luò)。另一些學(xué)者使用兩個深度學(xué)習(xí)網(wǎng)絡(luò)恢復(fù)圖像。例如,Kirmemis等人[25]提出了一種挑選最優(yōu)網(wǎng)絡(luò)的方法,該方法從三個壓縮偽影去除網(wǎng)絡(luò)中挑選性能最好的網(wǎng)絡(luò)。DMCNN 網(wǎng)絡(luò)[26]集成了雙域網(wǎng)絡(luò)與自編碼器網(wǎng)絡(luò)的特點(diǎn),有效地去除了全局的壓縮偽影。Zhang等人[27]提出一種隱式雙域卷積網(wǎng)絡(luò)IDCN,該網(wǎng)絡(luò)將量化表作為一種先驗信息輸入到網(wǎng)絡(luò)的各個對偶域關(guān)聯(lián)單元。值得注意的是,IDCN 的擴(kuò)展版本IDCN-f 能夠處理經(jīng)過不同量化參數(shù)壓縮的失真圖像。不同于以上方法,Zhang 等人[28]提出了一種具有維度擴(kuò)展策略的通用模型,解決了低分辨率輸入圖像的模糊核和噪聲水平之間的維度失配問題,并且解決了多重圖像退化的增強(qiáng)問題。
雖然上述方法可以很好地實現(xiàn)圖像增強(qiáng)任務(wù),但是在現(xiàn)實的生活中不僅僅需要得到高質(zhì)量的圖像,也需要利用這些圖像完成一定的任務(wù),如自動駕駛車輛中需要利用這些圖像進(jìn)行道路的識別,信號燈的檢測等等。很顯然,單任務(wù)網(wǎng)絡(luò)已不能滿足實際應(yīng)用的需要,這就需要利用一個網(wǎng)絡(luò)實現(xiàn)兩個甚至多個任務(wù),如圖1(c)所示。例如,Bai 等人[29]將圖像壓縮任務(wù)與圖像分類任務(wù)聯(lián)合訓(xùn)練,將部分網(wǎng)絡(luò)共享,減少了網(wǎng)絡(luò)訓(xùn)練的時間,降低了模型參數(shù)量的大小。此外,為了利用一個網(wǎng)絡(luò)得到一系列增強(qiáng)圖像以滿足人類主觀視覺的需要,于是Guo等人[30]提出了一種一對多的網(wǎng)絡(luò),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只能輸出一種增強(qiáng)效果圖像的問題。
盡管基于多任務(wù)學(xué)習(xí)的增強(qiáng)方法可以實現(xiàn)多個目標(biāo)的輸出,但其只是對多個網(wǎng)絡(luò)的簡單堆砌,這無疑增大了模型的計算復(fù)雜度,占用了較多的計算空間。對壓縮圖像增強(qiáng)任務(wù)而言,當(dāng)使用不同的量化參數(shù)壓縮圖像時,多任務(wù)方法需要構(gòu)建多個支路訓(xùn)練不同量化參數(shù)下的壓縮圖像增強(qiáng)網(wǎng)絡(luò)。與之相比,單任務(wù)方法則需要重復(fù)多次訓(xùn)練來達(dá)到壓縮圖像增強(qiáng)的目的。由此可見,非常有必要訓(xùn)練一個網(wǎng)絡(luò)來完成多個任務(wù),如圖1(d)所示。近年來,一些研究人員引入?yún)?shù)化網(wǎng)絡(luò)來解決這個問題。例如,F(xiàn)an等人[31]提出了一種解耦學(xué)習(xí)算法,聯(lián)合地訓(xùn)練該算法的權(quán)重學(xué)習(xí)網(wǎng)絡(luò)和基礎(chǔ)網(wǎng)絡(luò),權(quán)重學(xué)習(xí)網(wǎng)絡(luò)可以向基礎(chǔ)網(wǎng)絡(luò)分配相應(yīng)的權(quán)重,以實現(xiàn)不同任務(wù)的圖像增強(qiáng)。類似地,He等人[32]提出了一個單一深度學(xué)習(xí)模型,通過使用基礎(chǔ)CNN模型和AdaFM的自適應(yīng)特征修改層來解決任何退化的圖像增強(qiáng)問題。AdaFM層只需調(diào)整插值系數(shù)即可實現(xiàn)平滑、連續(xù)和無偽影的恢復(fù)。此外,Wang等人[33]提出一種CFSNet網(wǎng)絡(luò)來自適應(yīng)地學(xué)習(xí)主模塊和調(diào)諧模塊之間不同層和通道的耦合系數(shù),以更好地控制恢復(fù)圖像的質(zhì)量。
由于深度神經(jīng)網(wǎng)絡(luò)模型通常比較復(fù)雜、網(wǎng)絡(luò)層數(shù)較深,因此,常常會導(dǎo)致網(wǎng)絡(luò)模型的參數(shù)量過多、復(fù)雜度過高、不利于梯度的反向傳播等問題,這種高度復(fù)雜的模型使得模型的作用及各層之間的關(guān)系較難解釋??山忉屇P偷某霈F(xiàn)解決了這一問題,提高了模型的性能和魯棒性。一般來說,可解釋的圖像增強(qiáng)網(wǎng)絡(luò)模型按照優(yōu)化算法展開方式可分為動量梯度下降法、半二次分裂法、近端梯度下降法和交替優(yōu)化算法,如表2 所示。表2 總結(jié)了這些算法的典型方法和各自的優(yōu)缺點(diǎn)。例如,DUMRN[34]在變換域進(jìn)行圖像稀疏表示,這樣就能在去噪過程中保留重要的圖像特征,使用多尺度方法來捕獲不同級別的細(xì)節(jié)信息,并通過數(shù)據(jù)驅(qū)動的參數(shù)化正則化器自適應(yīng)地處理不同水平的噪聲。MoG-DUN[35]使用非局部自回歸的圖像先驗?zāi)P蛠碇笇?dǎo)網(wǎng)絡(luò)設(shè)計,解決了帶有正則化的最小二乘問題,使用半二次分裂法將帶有等式約束優(yōu)化問題轉(zhuǎn)化為不帶等式約束優(yōu)化的問題。MMNet[36]提出了一種記憶增強(qiáng)模型驅(qū)動的深度展開算法,該算法將全局和局部隱式先驗作為最大后驗概率模型來探索跨模態(tài)的多光譜和全色圖像關(guān)系,并利用交替最小化算法來求解最大后驗概率模型。MGDUN[37]提出了一種基于模型的多對比度深度展開網(wǎng)絡(luò),該算法將網(wǎng)絡(luò)建模為最小化數(shù)據(jù)擬合誤差和結(jié)構(gòu)先驗的優(yōu)化問題,該方法可以在保持結(jié)構(gòu)細(xì)節(jié)的同時有效地提高圖像的分辨率。
表2 可解釋的壓縮圖像增強(qiáng)網(wǎng)絡(luò)模型總結(jié)Table 2 Model summary of interpretable compressed-image enhancement networks
如表2所示,一些研究者還使用近端梯度下降法來展開算法,并依據(jù)展開算法來設(shè)計可解釋網(wǎng)絡(luò)模型。例如,F(xiàn)u 等人[38]提出了一種模型驅(qū)動的JPEG 壓縮偽影去除深度展開算法,該算法使用卷積字典建立了一個用于去塊偽影的最大后驗?zāi)P?,該算法還繼承了數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法的強(qiáng)大建模能力和傳統(tǒng)模型驅(qū)動方法的可解釋性,該方法可以自動地探索JPEG 偽影和圖像內(nèi)容的表征。ISTA-Net++[39]通過制定一種動態(tài)展開策略來處理具有不同觀測率的壓縮感知重建問題,該方法能夠顯著提高壓縮感知的恢復(fù)質(zhì)量。MADUN[40]提出了一種記憶增強(qiáng)深度展開算法,該算法設(shè)計了一種包含高通量短期存儲器和跨級長期存儲器記憶增強(qiáng)的近端映射模塊來減少相鄰級之間的信息丟失,這樣就能增強(qiáng)網(wǎng)絡(luò)表達(dá)能力。COAST[41]提出了一種投影增強(qiáng)策略,該策略可以實現(xiàn)在采樣空間中任意采樣,此外還提出一種可控近端映射模塊來動態(tài)調(diào)整網(wǎng)絡(luò),從而有效地消除偽影。OPINE-Net[42]使用可學(xué)習(xí)的采樣矩陣,并將正交約束和二元約束同時納入到采樣矩陣的構(gòu)建中,同時通過圖像塊聯(lián)合重建策略來有效地去除圖像塊偽影。DGUNet[43]在不損失網(wǎng)絡(luò)可解釋性的情況下,將梯度估計策略集成到近端梯度下降算法的梯度中,使其能夠解決真實退化圖像的增強(qiáng)問題。DGUNet 還設(shè)計了一種跨階段的近端映射信息傳遞路徑來解決大多數(shù)深度展開網(wǎng)絡(luò)所存在的信息丟失問題。InDuDoNet+[44]聯(lián)合了空間域和Radon域進(jìn)行圖像重建,并利用近端梯度技術(shù)來優(yōu)化算法,該算法僅由簡單的計算(如逐點(diǎn)乘法)組成,極大地促進(jìn)了網(wǎng)絡(luò)體系結(jié)構(gòu)的展開。
除了以上方法,另外一些研究者使用交替優(yōu)化算法對復(fù)雜的優(yōu)化問題進(jìn)行優(yōu)化求解,并依據(jù)對應(yīng)展開的迭代求解公式來設(shè)計可解釋網(wǎng)絡(luò)模型,如表2 所示。例如,UTVNet[45]通過學(xué)習(xí)基于模型的全變差正則化去噪方法中的平衡參數(shù),同時通過展開相應(yīng)的最小化過程來進(jìn)行推斷,這樣就能恢復(fù)更精細(xì)的細(xì)節(jié)信息。DAN[46]設(shè)計了一種基于卷積神經(jīng)的恢復(fù)器模塊和基于卷積神經(jīng)網(wǎng)絡(luò)的估計器模塊,通過反復(fù)交替展開形成了一種端到端可訓(xùn)練網(wǎng)絡(luò)。URetinex-Net[47]通過數(shù)據(jù)驅(qū)動的方式擬合隱式先驗,并將其分為四個子問題的求解來實現(xiàn)噪聲抑制和細(xì)節(jié)保存。此外,一些學(xué)者還提出了其他算法。例如Ren 等人[48]將保真度問題轉(zhuǎn)化為壓縮圖像恢復(fù)問題,再通過改進(jìn)的布雷格曼迭代法解決壓縮圖像恢復(fù)問題,實現(xiàn)了良好的去塊效果。受傳統(tǒng)迭代閾值重建算法的啟發(fā),Aghabiglou 等人[49]在每次迭代時使用網(wǎng)絡(luò)輸出和初始零填充估計之間的誤差來計算噪聲水平參數(shù),將自適應(yīng)噪聲水平參數(shù)引入到展開結(jié)構(gòu)中。在展開算法的迭代過程中,噪聲水平參數(shù)充當(dāng)網(wǎng)絡(luò)的圖像操作強(qiáng)度的演化正則化器,從而提高了圖像重建質(zhì)量。根據(jù)上述分析可知,可解釋的深度學(xué)習(xí)模型[50-51]能夠極大提升圖像增強(qiáng)模型的性能。
深度學(xué)習(xí)通常需要模型優(yōu)化使其能夠有效地提取特征。一般來說,深度學(xué)習(xí)模型優(yōu)化包括兩個部分:數(shù)據(jù)項優(yōu)化和正則化項優(yōu)化。數(shù)據(jù)項優(yōu)化是通過最小化損失函數(shù)來優(yōu)化模型的參數(shù),使其能夠更好地預(yù)測訓(xùn)練數(shù)據(jù)。數(shù)據(jù)項通常包括均方誤差、交叉熵等。數(shù)據(jù)項優(yōu)化依賴于大量的數(shù)據(jù)集來訓(xùn)練模型。這些模型可用于解決去噪、超分辨率、去霧等問題。例如,Zhang 等人[15]提出了一種基于殘差學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)來去除圖像噪聲。正則化項優(yōu)化是通過添加額外的約束條件來優(yōu)化模型的參數(shù),以減少過擬合現(xiàn)象。正則化項通常使用先驗知識或模型約束來提高圖像增強(qiáng)結(jié)果的魯棒性和穩(wěn)健性。例如,Zhang等人[52]提出了一種基于CNN的圖像恢復(fù)方法,通過在優(yōu)化目標(biāo)函數(shù)中增加一個TV 正則化項來保持圖像的邊緣結(jié)構(gòu)。Wang等人[53]提出了一種基于結(jié)構(gòu)相似性的圖像質(zhì)量評價方法,該方法使用一個正則化項來對圖像質(zhì)量進(jìn)行修正。在實際應(yīng)用中通常將數(shù)據(jù)項和正則化項進(jìn)行加權(quán)組合,得到總的損失函數(shù),并使用梯度下降等方法對該函數(shù)進(jìn)行優(yōu)化,以獲得最佳的模型參數(shù)。
為了消除壓縮圖像像素間的冗余,一般采用對神經(jīng)網(wǎng)絡(luò)模型優(yōu)化技術(shù)來解決壓縮圖像像素間的冗余消除問題。另外,還可以通過低秩優(yōu)化、字典學(xué)習(xí)和主成分分析(principal component analysis,PCA)方法來解決該問題。低秩優(yōu)化方法將數(shù)據(jù)進(jìn)行矩陣分解,通過將高維數(shù)據(jù)映射到較低維空間來減少計算復(fù)雜度和存儲需求,有效地提高數(shù)據(jù)處理和分析的效率。Candes等人[54]利用了矩陣的低秩性和觀測數(shù)據(jù)的稀疏性,通過求解凸優(yōu)化問題來填充缺失的矩陣元素證明了最優(yōu)的復(fù)雜度的問題。字典學(xué)習(xí)是一種稀疏表示方法,它通過構(gòu)建基向量集合或字典,尋找數(shù)據(jù)的最優(yōu)稀疏表示。與低秩優(yōu)化不同的是,字典學(xué)習(xí)更關(guān)注數(shù)據(jù)的稀疏性和表達(dá)能力,它可以用來提取數(shù)據(jù)的特征并進(jìn)行分類、聚類等任務(wù)。Michal等人[12]提出了一種K-SVD字典學(xué)習(xí)算法,該算法通過迭代更新字典中的基向量和系數(shù)來訓(xùn)練字典。PCA是一種線性的降維技術(shù),它通過尋找數(shù)據(jù)的主成分來將高維數(shù)據(jù)轉(zhuǎn)換為低維空間。PCA 通常被用來降低數(shù)據(jù)的維度、提取數(shù)據(jù)的主要特征等。與字典學(xué)習(xí)不同的是,PCA 是一種無監(jiān)督學(xué)習(xí)方法,不需要人工標(biāo)注的訓(xùn)練數(shù)據(jù)。Pearson 等人[55]提出了一種基于最小平方誤差原則的多元統(tǒng)計分析方法,用于分析數(shù)據(jù)中變量之間的線性關(guān)系成為現(xiàn)代統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)中一個重要的數(shù)據(jù)降維技術(shù)。邸云霞等人[56]在投影域和圖像域進(jìn)行主成分分析來提高圖像的彩色表征能力,從而獲取清晰的圖像。
除上述方法外,一些學(xué)者從計算機(jī)硬件方向提高圖像的處理速度,如肖漢等人[57]提出一種基于GPU 平臺的直方圖統(tǒng)計圖像增強(qiáng)算法,大大提升了處理大幅面數(shù)字圖像的處理速度。與CPU 串行算法相比,該算法有兩個數(shù)量級的提高。對于深度學(xué)習(xí)解決計算機(jī)視覺問題需要海量的數(shù)據(jù)作為支撐的問題,研究了如何在少量或者低質(zhì)量的訓(xùn)練數(shù)據(jù)中進(jìn)行數(shù)據(jù)增廣也是一項具有重大意義的工作,對于深度學(xué)習(xí)解決計算機(jī)視覺問題需要海量的數(shù)據(jù)作為支撐的問題,林成創(chuàng)等人[58]研究了如何在少量或者低質(zhì)量的訓(xùn)練數(shù)據(jù)中進(jìn)行數(shù)據(jù)增廣的問題。
隨著深度學(xué)習(xí)模型的快速發(fā)展,學(xué)者們不再只是關(guān)注于復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)設(shè)計,而是將更多的工作重心放在深度學(xué)習(xí)關(guān)鍵技術(shù)如對比學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、課程學(xué)習(xí)、知識蒸餾、對抗學(xué)習(xí)和網(wǎng)絡(luò)架構(gòu)搜索,如圖2。接下來,將依次介紹這些關(guān)鍵技術(shù)。
圖2 圖像增強(qiáng)的關(guān)鍵技術(shù)Fig.2 Key techniques for image enhancement
對比學(xué)習(xí)[59]是指在沒有標(biāo)簽的情況下,直接利用數(shù)據(jù)本身學(xué)習(xí)得到一個模型使得正樣本與預(yù)測樣本的相似度遠(yuǎn)遠(yuǎn)大于負(fù)樣本與預(yù)測樣本的相似度,如圖2(a)所示。對比學(xué)習(xí)是一種無監(jiān)督或自監(jiān)督的學(xué)習(xí)方法。對比學(xué)習(xí)包括兩種方法:生成式方法和對比式方法。其中,生成式方法以變分自編碼器(variational auto-encoder,VAE)[60]和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)為代表,這類方法關(guān)注的是像素級重構(gòu),也就是說,將網(wǎng)絡(luò)中的數(shù)據(jù)編碼成特征再進(jìn)行重構(gòu),重構(gòu)的效果是通過像素級損失來進(jìn)行定量化的衡量。對比式方法也稱判別式方法[61],這類方法是將數(shù)據(jù)分別與正樣本和負(fù)樣本在特征空間進(jìn)行對比,進(jìn)而學(xué)習(xí)樣本的特征表示。對比學(xué)習(xí)的難點(diǎn)在于如何構(gòu)造正負(fù)樣本、如何設(shè)計模型結(jié)構(gòu)以及如何防止模型坍塌。為了解決這些問題,He等人[62]提出了將隊列和動量編碼器歸結(jié)為一個大的字典,從而幫助對比學(xué)習(xí)。Grill等人[63]提出一種引導(dǎo)自身潛力的自監(jiān)督學(xué)習(xí)方法,該方法使用在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)來實現(xiàn)相互作用并相互學(xué)習(xí),這里沒有使用負(fù)樣本,僅僅使用正樣本學(xué)習(xí)。類似地,SimSiam[64]解決了沒有負(fù)樣本的問題,并且不需要動量編碼器和批大小。Ji等人[65]將對比學(xué)習(xí)應(yīng)用于低級視覺的圖像超分辨率任務(wù)中,將低質(zhì)量的圖像作為負(fù)樣本,將真實圖像作為正樣本,并且沒有使用預(yù)訓(xùn)練的網(wǎng)絡(luò)就可用于解決圖像增強(qiáng)任務(wù)。Wu等人[66]將對比學(xué)習(xí)從三個視圖將圖像分解為噪聲部分和背景部分來構(gòu)造負(fù)樣本用于圖像恢復(fù)任務(wù)中。Li 等人[67]將對比正則化與自編碼器結(jié)合用于圖像去模糊,對比正則化確?;謴?fù)后的圖像更接近真實圖像。Li 等人[68]引入了一種類內(nèi)對比正則化方法構(gòu)造類內(nèi)負(fù)樣本,將其作為圖像恢復(fù)網(wǎng)絡(luò)解空間的約束。Kaelbling 等人[69]提出了一種由基于對比學(xué)習(xí)的退化編碼器和退化引導(dǎo)恢復(fù)網(wǎng)絡(luò)構(gòu)成的圖像恢復(fù)網(wǎng)絡(luò),該碼器和退化引導(dǎo)恢復(fù)網(wǎng)絡(luò)構(gòu)成的圖像恢復(fù)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以在一個網(wǎng)絡(luò)中恢復(fù)各種退化的圖像。根據(jù)上述討論可知,通過構(gòu)造正負(fù)樣本的方式,對比學(xué)習(xí)技術(shù)使得增強(qiáng)圖像更接近于真實圖像,從而極大地提升了圖像增強(qiáng)任務(wù)的性能。
在智能體與環(huán)境的交互過程中,強(qiáng)化學(xué)習(xí)[70]通過學(xué)習(xí)策略以實現(xiàn)特定目標(biāo)的方法。智能體要通過不斷試錯的方式來獲得最佳策略,而不是像有監(jiān)督學(xué)習(xí)直接告訴智能體在什么環(huán)境下應(yīng)該做出什么動作。強(qiáng)化學(xué)習(xí)就是通過學(xué)習(xí)一序列最優(yōu)動作得到最大的長期獎勵。對于強(qiáng)化學(xué)習(xí)而言,任一狀態(tài)下做出的動作對當(dāng)前狀態(tài)和下一個狀態(tài)都是有影響的,從而對整個執(zhí)行過程的獎勵造成一定影響,這一問題是具有挑戰(zhàn)的。如圖2(b)所示,從當(dāng)前的狀態(tài)St出發(fā),在做出一個行為At之后,對環(huán)境產(chǎn)生了一些影響,它首先給智能體反饋了一個獎勵信號Rt,接下來智能體更新環(huán)境狀態(tài)智能體St+1,進(jìn)而進(jìn)入一個新的狀態(tài),再做出新的行為,形成一個循環(huán)。DQN[70]解決了強(qiáng)化學(xué)習(xí)存在高維狀態(tài)空間的問題,但對于連續(xù)動作空間的效果不好。于是,DDPG[71]引入了actor-critic 架構(gòu)來解決這一問題的。在訓(xùn)練過程中,Lillicrap等人[72]利用獎勵函數(shù)單調(diào)遞增來解決DDPG網(wǎng)絡(luò)參數(shù)更新步長不易確定的問題。
除了機(jī)器人控制、交通、能源、金融、游戲等領(lǐng)域外,強(qiáng)化學(xué)習(xí)能夠用于解決圖像增強(qiáng)問題。例如,Yu等人[73]構(gòu)建了一個功能強(qiáng)大且輕量級的工具箱,首先代理從該工具箱中選擇一個工具并且使用它來恢復(fù)圖像,然后代理根據(jù)之前的結(jié)果選擇另一個工具重復(fù)恢復(fù)直到代理決定停止為止,這樣就解決了現(xiàn)有網(wǎng)絡(luò)只能完成單一任務(wù)的問題。Zhang等人[74]提出了一種將多個傳統(tǒng)的去噪器集成為一個強(qiáng)的去噪器的深度強(qiáng)化學(xué)習(xí)方法,該方法將圖像恢復(fù)問題轉(zhuǎn)化為馬爾可夫決策過程,該方法可以恢復(fù)具有多重組合失真的圖像。Yu 等人[75]使用具有難度調(diào)節(jié)獎勵的強(qiáng)化學(xué)習(xí)來選擇最優(yōu)路徑進(jìn)行圖像恢復(fù)。Furuta等人[76]將深度強(qiáng)化學(xué)習(xí)擴(kuò)展到像素級強(qiáng)化學(xué)習(xí),該方法不僅考慮到了自身像素未來的狀態(tài),而且考慮到了相鄰像素未來的狀態(tài),對圖像壓縮偽影去除、圖像去噪、圖像恢復(fù)等任務(wù)效果顯著。由此可見,強(qiáng)化學(xué)習(xí)是進(jìn)一步提升壓縮圖像增強(qiáng)任務(wù)的關(guān)鍵技術(shù)之一。
類似于人類學(xué)習(xí)的過程,課程學(xué)習(xí)首先給簡單的樣本較高的權(quán)重,隨著訓(xùn)練的進(jìn)行,艱難的樣本權(quán)重被逐步提高,將從容易的樣本開始學(xué)習(xí)再進(jìn)階到復(fù)雜樣本的訓(xùn)練過程稱之為課程學(xué)習(xí)[77],如圖2(c)所示。課程學(xué)習(xí)可以加速網(wǎng)絡(luò)模型的訓(xùn)練,減少網(wǎng)絡(luò)訓(xùn)練的迭代次數(shù),提高網(wǎng)絡(luò)模型的泛化能力,可以讓網(wǎng)絡(luò)訓(xùn)練到更好的局部最優(yōu)狀態(tài)。早期的課程學(xué)習(xí)主要依靠人工干預(yù),不使用數(shù)據(jù)驅(qū)動的方法。例如,Kocmi等人[78]利用課程學(xué)習(xí)翻譯生僻的單詞和句子,這是一種比較困難的任務(wù)。自動的課程學(xué)習(xí)的出現(xiàn)很好地解決了人工學(xué)習(xí)的弊端,如Kumar等人[79]提出一種自步學(xué)習(xí),根據(jù)樣本的難易程度來實現(xiàn)由易到難的學(xué)習(xí)。Chang等人[80]將雨紋去除問題納入到課程學(xué)習(xí)范式中,以一種從粗到細(xì)、從易到難的引導(dǎo)方式逐步學(xué)習(xí)雨紋信息預(yù)測。Shu等人[81]提出了一種局部到全局、容易到困難的課程學(xué)習(xí)策略,以確保神經(jīng)網(wǎng)絡(luò)首先關(guān)注噪聲抑制,然后消除模糊,以實現(xiàn)退化圖像的重建。很顯然,課程學(xué)習(xí)也能夠用于解決壓縮圖像的增強(qiáng)問題。
知識蒸餾[82]使用的是“教師-學(xué)生網(wǎng)絡(luò)”的訓(xùn)練方法進(jìn)行模型的壓縮。教師網(wǎng)絡(luò)可以看作是“知識”的輸出者,其模型相對復(fù)雜,可以有多個模型集合而成,可以完整地學(xué)習(xí)真實數(shù)據(jù)內(nèi)容,學(xué)生網(wǎng)絡(luò)可以看作“知識”的接受者,可以學(xué)習(xí)教師網(wǎng)絡(luò)的分布和真實數(shù)據(jù)內(nèi)容,其模型相對簡單、參數(shù)量較少,最后將學(xué)生網(wǎng)絡(luò)應(yīng)用于實際應(yīng)用部署中,而不是教師網(wǎng)絡(luò),如圖2(d)所示。Huang等人[83]認(rèn)為神經(jīng)元是具有選擇性的,從而提出讓教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)選擇性遷移。Passalis 等人[84]利用匹配空間的概率分布進(jìn)行特征的遷移。Lee等人[85]利用特征圖之間的相關(guān)性進(jìn)行蒸餾,并通過奇異值分解來提取特征。Zhu等人[86]提出了一種針對單圖像超分辨率任務(wù)的與模型無關(guān)的元知識精餾方法,該方法通過具有可學(xué)習(xí)參數(shù)的知識表示網(wǎng)絡(luò),提供了一種更靈活和更準(zhǔn)確的方法,幫助教師根據(jù)學(xué)生的能力傳遞知識。Xia 等人[87]提出一種基于知識蒸餾的盲超分網(wǎng)絡(luò),該網(wǎng)絡(luò)的教師網(wǎng)絡(luò)將成對的高分辨率圖和低分辨率圖作為輸入,學(xué)生網(wǎng)絡(luò)只輸入低分辨率圖,實現(xiàn)了任意退化圖像超分辨率的提高。Li等人[88]提出兩種異構(gòu)蒸餾策略,能夠提高輕量級模型和高噪聲模型的圖像增強(qiáng)性能。Cui等人[89]利用知識蒸餾的方法實現(xiàn)了從合成圖像和真實雨圖像中提取的雨條紋特征分布的一致性,可以緩解真實雨圖中雨條紋過度去除或者去除不干凈的問題。很顯然,知識蒸餾技術(shù)能夠被用于解決壓縮圖像增強(qiáng)問題,并且該研究具有很大發(fā)展空間。
在神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中,加入對抗損失能夠減少數(shù)據(jù)標(biāo)注的需求量,讓有標(biāo)簽的圖像與無標(biāo)簽的圖像同時優(yōu)化模型。對抗損失分為一般對抗損失、隨機(jī)對抗損失和虛擬對抗損失。一般對抗損失對數(shù)據(jù)進(jìn)行兩次損失計算,依次是對輸入數(shù)據(jù)進(jìn)行損失計算以及噪聲圖與輸入向量的和的損失,這兩次損失計算可以加強(qiáng)模型的魯棒性。隨機(jī)對抗損失隨機(jī)生成一個形狀與嵌入相同的向量,接著進(jìn)行掩碼操作,然后使用L2損失進(jìn)行正則化處理生成噪聲,最后將生成的噪聲與輸入向量相加進(jìn)行損失計算。虛擬對抗與隨機(jī)損失有點(diǎn)相似,但是引入了KL散度。對抗損失的計算流程及結(jié)構(gòu)如圖2(e)所示。
對抗損失的計算公式為:
其中,公式的第一部分為判別器的損失函數(shù),lnD(x)表示判別器將真實數(shù)據(jù)判定為真的概率,ln(1 -D(G(z)))為判別器將虛假數(shù)據(jù)仍判定為假的概率。大多數(shù)的壓縮偽影去除方法一般使用均方誤差損失,經(jīng)過僅僅使用該損失函數(shù)訓(xùn)練的網(wǎng)絡(luò)增強(qiáng)之后的圖像往往會出現(xiàn)圖像過平滑效果。為了解決該問題,Galteri等人[90]提出利用GAN損失來訓(xùn)練JPEG壓縮圖像增強(qiáng)網(wǎng)絡(luò),該方法通過交叉訓(xùn)練全分辨率圖像與小尺寸的子圖像來更好地優(yōu)化壓縮偽影去除模型。為了實現(xiàn)高感知質(zhì)量的圖像壓縮,張雪峰等人[91]根據(jù)比特率-失真-感知優(yōu)化理論來設(shè)計損失函數(shù),總損失包括三個部分:均方誤差損失、VGG損失和對抗損失。在基于WGAN的圖像恢復(fù)任務(wù)中,Ma等人[92]引入了一個額外的約束,用于校正生成器的訓(xùn)練梯度,提高了圖像恢復(fù)任務(wù)的視覺質(zhì)量。Zhang等人[93]發(fā)現(xiàn)在合成高分辨率圖像的過程中總是存在塊偽影,于是引入了小波鑒別器在頻譜域進(jìn)行判別來有效地減少圖像偽影的出現(xiàn)。Yu 等人[94]提出了一種用于視頻壓縮偽影去除的對抗生成網(wǎng)絡(luò),該網(wǎng)絡(luò)包含一個具有遞歸框架的生成器和一個相對論判別器。這里,生成器用于提升增強(qiáng)視頻的一致性,而相對論判別器用于度量原始高質(zhì)量視頻幀和生成幀之間的關(guān)系。根據(jù)上述可知,對抗損失不僅用于解決壓縮圖像的增強(qiáng)問題,而且用于解決壓縮視頻的增強(qiáng)問題。由此可見,對抗損失約束學(xué)習(xí)是壓縮圖像增強(qiáng)網(wǎng)絡(luò)性能提升的關(guān)鍵技術(shù)之一。
在網(wǎng)絡(luò)模型訓(xùn)練的過程中,網(wǎng)絡(luò)模型的參數(shù)嚴(yán)重影響著其性能的好壞。網(wǎng)絡(luò)參數(shù)主要有兩類:一類是訓(xùn)練的參數(shù)(如批大小,學(xué)習(xí)率,延遲因子等),另一類是網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)(如網(wǎng)絡(luò)的層數(shù),卷積的數(shù)量,卷積核的大小等)。然而,這些參數(shù)的設(shè)置往往需要經(jīng)過大量的實驗驗證或者依靠人工經(jīng)驗的設(shè)置,這個工作量無疑是巨大而繁重的。因此,網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search,NAS)[95-97]技術(shù)解決了這一難題,它將這一任務(wù)交給機(jī)器,讓機(jī)器學(xué)習(xí)一個最優(yōu)的架構(gòu)。NAS的搜索過程為:首先確定搜索的空間,然后通過一定的搜索策略找出較優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),并對其評估,根據(jù)評估結(jié)果進(jìn)行下一輪的搜索。
Lee等人[97]提出了一種包含外部學(xué)習(xí)和內(nèi)部學(xué)習(xí)的神經(jīng)結(jié)構(gòu)搜索算法,外部學(xué)習(xí)通過初始化網(wǎng)絡(luò),使其能夠適應(yīng)圖像的內(nèi)部特征,而內(nèi)部學(xué)習(xí)過程為測試圖像找到一個有效的網(wǎng)絡(luò)架構(gòu),并訓(xùn)練網(wǎng)絡(luò)權(quán)值。Cheng 等人[98]提出了一種即插即用的神經(jīng)結(jié)構(gòu)搜索方法來研究單圖像超分辨率任務(wù),該算法不僅搜索了網(wǎng)絡(luò)架構(gòu),還搜索了網(wǎng)絡(luò)結(jié)構(gòu)中的每個節(jié)點(diǎn)的激活函數(shù)、從節(jié)點(diǎn)和跳躍連接節(jié)點(diǎn),隱式地控制網(wǎng)絡(luò)結(jié)構(gòu)中的節(jié)點(diǎn)數(shù)量,避免大量跳躍連接的出現(xiàn)。Wu等人[99]提出了一種編譯器感知的NAS 圖像超分辨率算法,該算法使用自適應(yīng)超分辨率塊進(jìn)行深度搜索和每層寬度搜索,大大提高了收斂速度,滿足了小型移動設(shè)備的需求。Cai 等人[100]將多尺度架構(gòu)搜索和注意力搜索納入統(tǒng)一的神經(jīng)架構(gòu)搜索框架中實現(xiàn)圖像去雨任務(wù),該任務(wù)通過基于梯度的搜索算法自動搜索網(wǎng)絡(luò)的內(nèi)部多尺度注意架構(gòu),同時聯(lián)合優(yōu)化外部損失、內(nèi)部損失、架構(gòu)損失、正則化損失和模型復(fù)雜度損失,實現(xiàn)魯棒去雨性能和可控復(fù)雜度的模型。Ning等人[101]提出了一種結(jié)合模型引導(dǎo)設(shè)計與NAS 的算法,該算法采用高度可重用的寬度搜索策略和密集連接的搜索塊,通過梯度下降自動選擇各層的操作以及網(wǎng)絡(luò)的寬度和深度,有效地增強(qiáng)圖像去噪和壓縮偽影減少的效果。Zhang 等人[102]提出了一種有效的硬件感知神經(jīng)結(jié)構(gòu)搜索的圖像超分辨率算法,該算法支持在一個大的網(wǎng)絡(luò)體系結(jié)構(gòu)空間中進(jìn)行搜索,包括網(wǎng)絡(luò)的宏拓?fù)浣Y(jié)構(gòu)(例如,塊的數(shù)量)和微觀結(jié)構(gòu)(例如,卷積核類型、通道維度和激活類型),能夠適應(yīng)多種小型移動設(shè)備的應(yīng)用。不同于前面介紹的六種技術(shù),網(wǎng)絡(luò)架構(gòu)搜索不僅能夠極大地減少研究者設(shè)計網(wǎng)絡(luò)所需要的時間,而且減少了研究者的模型調(diào)參工作量。
如今壓縮圖像增強(qiáng)已廣泛應(yīng)用于自動駕駛、安防監(jiān)控和數(shù)字媒體、醫(yī)學(xué)圖像處理等眾多領(lǐng)域。壓縮圖像增強(qiáng)未來還面臨一些挑戰(zhàn):
(1)隨著5G時代的到來,圖像視頻的數(shù)據(jù)量也飛速提升,僅僅提高計算機(jī)存儲量以及網(wǎng)絡(luò)帶寬并不是解決數(shù)據(jù)量大的唯一方法,消除圖像像素間的冗余信息,提高壓縮效率并提升重建圖像的質(zhì)量可以更好地減少計算機(jī)存儲空間,占用較少的網(wǎng)絡(luò)帶寬。因此,如何消除圖像間的像素冗余,如何在低比特率的情況下實現(xiàn)壓縮效率的增強(qiáng)以及如何提升壓縮圖像的質(zhì)量成為未來研究的課題之一。
(2)壓縮圖像增強(qiáng)旨在處理經(jīng)過壓縮編碼的圖像,然而這些圖像在不同壓縮質(zhì)量下的失真程度是不同的,而且不同的壓縮算法對不同類型的圖像也會產(chǎn)生不同的影響。此外,現(xiàn)存的壓縮圖像增強(qiáng)算法還存在參數(shù)量大,模型復(fù)雜度高的特點(diǎn)。因此,需要研究不同類型壓縮失真圖像的增強(qiáng)問題、輕量化的小模型和低復(fù)雜度的深度學(xué)習(xí)模型。
(3)現(xiàn)有的大部分壓縮圖像增強(qiáng)模型常常根據(jù)實踐經(jīng)驗來設(shè)計神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),使得這些網(wǎng)絡(luò)成為一種黑盒模型。很明顯,這些模型往往缺乏數(shù)學(xué)模型支撐,并且缺乏合理的可解釋性,這將極大地限制面向壓縮圖像增強(qiáng)的深度學(xué)習(xí)模型性能。盡管目前少數(shù)專家已經(jīng)開始研究可解釋的壓縮圖像增強(qiáng)模型并且取得一些初步的成果,但是這些方法還不能滿足需求。由此可見,需要深入研究可解釋的壓縮圖像增強(qiáng)模型。
(4)隨著深度學(xué)習(xí)的發(fā)展,學(xué)者們研究的課題不僅僅只是為了提升壓縮圖像的質(zhì)量,而更多的是用于實際場景,如檢測、識別、定位和圖像修復(fù)等方面,因此,如何將壓縮后的圖像應(yīng)用于實際場景也是未來的研究課題之一。
面對以上問題和挑戰(zhàn),不僅需要科研工作者從計算機(jī)硬件方向著手研究計算速度更快、內(nèi)存更大、價格更加低廉的硬件設(shè)備,而且還需要研究高效的壓縮算法使其更好地應(yīng)用于小型的移動端設(shè)備和各種復(fù)雜多變的場景。此外,對于深度學(xué)習(xí)解決計算機(jī)視覺問題需要海量的數(shù)據(jù)作為支撐的問題,研究如何進(jìn)行訓(xùn)練數(shù)據(jù)增廣也是一項具有重大意義的工作。綜上所述,壓縮圖像增強(qiáng)的研究還面臨著諸多挑戰(zhàn),需要充分利用現(xiàn)有的算法和技術(shù)手段,并且需要結(jié)合實際應(yīng)用場景和需求,才能實現(xiàn)高效和高質(zhì)量的壓縮圖像增強(qiáng)處理。
本文主要從傳統(tǒng)的壓縮圖像增強(qiáng)方法和深度學(xué)習(xí)的壓縮圖像增強(qiáng)的方法兩類方法入手介紹圖像增強(qiáng)技術(shù)的發(fā)展與分類,并比較它們的優(yōu)缺點(diǎn)。其次,介紹并分析了壓縮圖像增強(qiáng)的幾種關(guān)鍵性技術(shù)。這些關(guān)鍵技術(shù)的深入研究能夠推動壓縮圖像增強(qiáng)技術(shù)的深入發(fā)展,從而使圖像增強(qiáng)技術(shù)在各個領(lǐng)域發(fā)揮重要作用。隨著網(wǎng)絡(luò)技術(shù)和硬件技術(shù)的不斷快速發(fā)展,圖像增強(qiáng)不僅追求圖像質(zhì)量的提高,而且追求將其應(yīng)用于各種場所并且方便人類生產(chǎn)和生活。