摘 要:針對現(xiàn)有方法存在合成灰度圖像視覺質(zhì)量欠佳、重建彩色圖像還原度不足的問題,提出一種基于顏色編碼和圖像隱寫術(shù)的可逆灰度方法。其利用可逆神經(jīng)網(wǎng)絡(luò)構(gòu)建更高效的顏色編解碼器,并引入密集卷積塊和通道注意力機(jī)制進(jìn)一步提升網(wǎng)絡(luò)模型的性能,綜合減少編解碼過程中的顏色信息丟失。之后,為使灰度圖像負(fù)載編碼信息以及減小嵌入過程導(dǎo)致的圖像失真,設(shè)計(jì)了一種基于修改方向的圖像隱寫算法,通過自適應(yīng)權(quán)值參數(shù)選擇,以接近最優(yōu)的方式滿足不同的嵌入容量需求,減少對灰度圖像的修改。在Kodak和McMaster數(shù)據(jù)集上的實(shí)驗(yàn)表明,與現(xiàn)有代表性可逆灰度方法相比較,該方法能夠生成質(zhì)量更高的可逆灰度圖像以及重建更加還原的彩色圖像,在圖像可視化時具有更好的視覺效果,在標(biāo)準(zhǔn)參考圖像的相似性評價指標(biāo)方面也取得了更優(yōu)的性能。
關(guān)鍵詞:可逆灰度方法; 顏色編碼; 圖像隱寫術(shù); 可逆神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼: A文章編號:1001-3695(2024)04-047-1275-06
doi:10.19734/j.issn.1001-3695.2023.06.0384
Invertible grayscale method based on color coding and image steganography
Lin Huanran1 Zhu Shanshan2, Peng Lingxi1b, Peng Shaohu1 Lin Yutong1 Xie Xiang1a
Abstract: To address the problems of poor visual quality of synthesized grayscale and insufficient restoration of reconstructed color image in existing methods, this paper proposed an invertible grayscale method based on color coding and image steganography(IG-CCIS). The proposed method utilized an invertible neural network(INN) to construct an efficient color codec, and introduced dense convolutional blocks and channel attention mechanisms to further improve the performance of the network model, comprehensively reducing the loss of color information. In addition, in order to load encoded information into grayscale images and reduce image distortion caused by the embedding processed, it designed an image steganography algorithm based on exploiting modification direction(EMD). Through adaptive weight parameter selection, it could meet different embedding capacity requirements in a near-optimal manner and reduce the modification of grayscale images. Experimental tested on Kodak and McMaster datasets show that compared with existing representative reversible grayscale methods, the proposed method can generate better-quality reversible grayscale images and reconstruct more realistic color images, with better visual effects in image visualization. It also achieves better performance in terms of similarity evaluation metrics with standard reference images.
Key words:invertible grayscale; color coding; image steganography; invertible neural network
0 引言
彩色圖像和灰度圖像作為不同的圖像表示形式,兩者都有其獨(dú)特的應(yīng)用場景。在一些實(shí)際應(yīng)用中,彩色圖像被轉(zhuǎn)換成灰度圖像形式進(jìn)行傳遞或呈現(xiàn),之后又需要能夠恢復(fù)其色彩。經(jīng)典的彩色圖像灰度化方法[1]可以根據(jù)全局[2]或局部[3]映射函數(shù),將每個像素點(diǎn)的顏色值映射到單獨(dú)的灰度值,達(dá)到減少圖像維度并保留顯著特征信息的目的,但顏色信息丟失過程是不可逆的。雖然有許多基于深度學(xué)習(xí)的彩色化方法[4~6]能對灰度圖像進(jìn)行上色,但這些方法主要用于豐富圖像的內(nèi)容,通常不能恢復(fù)出真實(shí)的顏色情況,圖1展現(xiàn)了彩色圖像灰度化后重新上色的問題。因此,提出可逆灰度方法以解決上述需求,其主要思想是將圖像脫色和上色兩種過程進(jìn)行聯(lián)合,在保證圖像轉(zhuǎn)換過程具有良好的可逆特性的前提下,兼顧所生成的灰度圖像和重建的彩色圖像兩者的視覺特征質(zhì)量,并盡可能與原始參考圖像對應(yīng)相似。圖2呈現(xiàn)了可逆灰度方法的整體實(shí)現(xiàn)效果。目前,學(xué)者們提出的可逆灰度方法主要分為基于邊信息嵌入(subband embedding based,SE-based)[7]方法、基于調(diào)色板重構(gòu)(palette-based reconstruction,Palette-based)[8]方法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks based,CNN-based)[9]方法三大類。
SE-based方法是通過顏色空間轉(zhuǎn)換分離原始圖像的色度和灰度,然后用處理后的色度分量替換灰度分量的高頻部分,以灰度圖像細(xì)節(jié)信息的丟失為代價保留圖像的顏色信息,之后其逆向過程可重構(gòu)出彩色圖像。de Queiroz等人[10,11]通過小波變換將原始圖像進(jìn)行紋理處理,將色度分量下采樣并替換灰度分量多個高頻子帶,而低頻子帶保留亮度信息。Ko等人[12]提出基于子帶能量最小嵌入的可逆灰度方法,通過分析每個子帶的總能量,顏色分量嵌入總能量低的子帶中,并且通過顏色補(bǔ)償機(jī)制,改善了恢復(fù)的彩色圖像的顏色飽和度。Horiuchi等人[13]通過設(shè)計(jì)顏色嵌入技術(shù),把顏色信息有效地分布在一級小波子帶中,該算法可以恢復(fù)出更高精度的彩色圖像。Horiuchi等人[14]還提出一種基于DCT變換的可逆灰度方法,通過將Cb、Cr分量的低頻系數(shù)嵌入到Y(jié)分量的高頻系數(shù)中,從而抵抗JPEG編碼。然而,現(xiàn)有的SE-based方法對顏色信息的處理方式都較為低效,導(dǎo)致原始彩色圖像的信息丟失嚴(yán)重,所實(shí)現(xiàn)的性能不佳。
Palette-based方法在生成可逆灰度圖像的過程中,首先將原始彩色圖像的顏色進(jìn)行量化處理,并設(shè)計(jì)出合適的調(diào)色板將量化后的彩色圖像映射成索引圖,索引圖的不同像素灰度值分別對應(yīng)調(diào)色板上一種不同的顏色,最后把調(diào)色板嵌入到索引圖中得到包含亮度信息和色度信息的灰度圖像。重建彩色圖像時,先從灰度圖中提取出調(diào)色板,再以灰度圖像的像素值為檢索值在調(diào)色板上對應(yīng)取色,即可完成圖像的上色。在這些研究中,Chaumont等人[15]設(shè)計(jì)了具有更多顏色的調(diào)色板,有效提高了重建彩色圖的質(zhì)量,但灰度圖像的質(zhì)量下降。Tanaka等人[16]使用基于亮度約束的K-means聚類生成調(diào)色板,并根據(jù)聚類結(jié)果進(jìn)行顏色量化。Xu等人[17]利用誤差擴(kuò)散將量化噪聲轉(zhuǎn)移到高頻區(qū)域,從而使噪聲對人眼的可見性更?。挥滞ㄟ^低通濾波去除其高頻量化噪聲,保證彩色圖像的客觀質(zhì)量。Chan等人[18]進(jìn)一步設(shè)計(jì)了基于凸包的方法生成調(diào)色板,顯著提高了灰度圖和彩色圖的質(zhì)量。Palette-based方法由于最關(guān)鍵的調(diào)色板顏色種類受限于灰度值范圍,通常只能保留至多256種顏色的彩色圖像,這對許多復(fù)雜的圖像來說是遠(yuǎn)遠(yuǎn)不足的,所以其彩色圖像結(jié)果容易出現(xiàn)輪廓失真和顏色偏移的問題。
最近,深度學(xué)習(xí)在許多領(lǐng)域得到了廣泛和成功的應(yīng)用,在可逆灰度方法領(lǐng)域中也不例外。CNN-based方法通過端到端的解碼網(wǎng)絡(luò)學(xué)習(xí)圖像顏色與紋理的相關(guān)性,進(jìn)而能夠根據(jù)輸入圖像自動轉(zhuǎn)換出所需的圖像結(jié)果。Ye等人[19]提出了雙特征融合網(wǎng)絡(luò)(DFENet),使圖像結(jié)果在相似性方面得到了提升。Du等人[20]通過網(wǎng)絡(luò)對顏色信息進(jìn)行編碼生成稀疏圖,該圖與灰度圖像相結(jié)合,可實(shí)現(xiàn)顏色恢復(fù)。Liu等人[21]通過對抗性訓(xùn)練,使得網(wǎng)絡(luò)輸出的圖像視覺效果更好;同時,利用JPEG模擬器在訓(xùn)練過程中模擬真實(shí)的JPEG壓縮,使方法對JPEG壓縮更具有魯棒性?,F(xiàn)有的CNN-based方法,基本都實(shí)現(xiàn)了較好的彩色圖像還原效果。但即使目前此類方法較先進(jìn)[22],其合成的灰度圖像結(jié)果仍無法令人滿意,細(xì)節(jié)上仍存在可見的額外編碼紋理。
綜合對現(xiàn)有三種類型可逆灰度方法分析可知:SE-based方法能將彩色圖像的色度信息和灰度信息進(jìn)行解耦,但現(xiàn)有方法對解耦之后的色度分量處理存在較大局限;Palette-based方法則根據(jù)具體圖像生成特定的調(diào)色板和灰度索引圖,存在泛化能力不佳的問題,但其在圖像空域嵌入信息的有效方法值得借鑒;CNN-based方法表現(xiàn)出卷積神經(jīng)網(wǎng)絡(luò)優(yōu)異的圖像編解碼能力,但單純依靠網(wǎng)絡(luò)的實(shí)現(xiàn)方式容易導(dǎo)致圖像結(jié)果在細(xì)節(jié)上存在異常,整體仍有改進(jìn)的空間。
針對上述方法的一些不足之處,本文提出了一種基于顏色編碼和圖像隱寫術(shù)的可逆灰度方法,采用色度和灰度解耦處理的思想,顏色信息通過可逆卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,并由圖像空域隱寫算法保存在灰度圖像中。實(shí)驗(yàn)結(jié)果表明,本文方法能夠更有效地完成彩色圖像與灰度圖像的可逆轉(zhuǎn)換,所實(shí)現(xiàn)的圖像質(zhì)量優(yōu)于其他可逆灰度方法。本文的主要貢獻(xiàn)如下:
a)提出了新的可逆灰度方法實(shí)現(xiàn)方案,通過分離原始彩色圖像的色度和亮度,再結(jié)合顏色編碼器和圖像隱寫術(shù),使顏色信息壓縮和灰度信息處理的效率都得到提升。與現(xiàn)有先進(jìn)方法相比,該方法實(shí)現(xiàn)的圖像結(jié)果在主觀效果和客觀指標(biāo)上都更優(yōu)。
b)基于可逆神經(jīng)網(wǎng)絡(luò)搭建顏色編碼器主體框架,并在其基礎(chǔ)上引入密集卷積模塊和通道注意力機(jī)制模塊,實(shí)現(xiàn)對色度平面的高效率編碼,減少顏色信息的丟失,進(jìn)而提升了可逆灰度方法重建彩色圖像的還原度。
c)設(shè)計(jì)了一種基于修改方向的圖像隱寫術(shù),實(shí)現(xiàn)在灰度平面上低代價地嵌入編碼后的顏色信息,避免生成的灰度圖像出現(xiàn)可見的失真紋理,保證了更良好的圖像視覺效果。
1 本文方法
針對需要對彩色圖像進(jìn)行灰度化的場景,圖3描繪了本文方法生成灰度圖像的流程,該過程旨在生成一個與原始彩色圖像亮度平面相似的可逆灰度圖像,同時需要在該可逆灰度圖像中隱藏盡可能多的顏色信息,從而有利于后續(xù)對彩色圖像的重建。對于輸入的彩色圖像I,它通常以RGB的形式表示,首先將圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間,去除三種顏色分量的相關(guān)性,分離為亮度平面Y和色度平面Ca,Cb并進(jìn)行獨(dú)立處理。然后通過神經(jīng)網(wǎng)絡(luò)編碼器對色度平面進(jìn)行高效的編碼,得到表示顏色信息的二進(jìn)制碼流B。最后利用圖像隱寫術(shù),將該顏色信息嵌入到亮度平面Y中,生成帶有編碼顏色信息的可逆灰度圖像G,且該圖像與常規(guī)的灰度圖像在維度和數(shù)值等表示形式上均保持一致。在需要對上述可逆灰度圖像進(jìn)行彩色化時,本文方法的彩色圖像重建流程如圖4所示。此過程的主要目的是利用可逆灰度圖G重建出與原始彩色圖像I盡可能相似的彩色圖。首先根據(jù)圖像隱寫術(shù)嵌入的方式從合成灰度圖G中準(zhǔn)確提取出顏色信息B;再通過神經(jīng)網(wǎng)絡(luò)顏色解碼器將該顏色信息解碼,得到兩個經(jīng)過編碼后再解碼的色度平面C ^ a、C ^ b;最后結(jié)合兩個色度平面和灰度圖像,進(jìn)行圖像逆顏色空間轉(zhuǎn)換,還原到RGB空間的彩色圖像。
1.1 基于可逆卷積神經(jīng)網(wǎng)絡(luò)的顏色編碼
如上所述,本文在提出的可逆灰度方法中利用卷積神經(jīng)網(wǎng)絡(luò),將顏色分量編碼成緊湊的表示形式。為增強(qiáng)對圖像特征空間的變換能力,模型使用可逆神經(jīng)網(wǎng)絡(luò)(INN)結(jié)構(gòu)來改進(jìn)端到端圖像編碼方法[23]中常用的自編碼器結(jié)構(gòu)。此外,INN中還引入密集卷積模塊,以加強(qiáng)網(wǎng)絡(luò)的特征傳遞能力,以及利用通道注意力機(jī)制進(jìn)一步提升編碼器的壓縮效果。
1.1.1 顏色編碼網(wǎng)絡(luò)
顏色編解碼器網(wǎng)絡(luò)整體框架如圖5所示,該網(wǎng)絡(luò)模型由主編碼網(wǎng)絡(luò)和超先驗(yàn)參數(shù)網(wǎng)絡(luò)構(gòu)成。其中,主編解碼網(wǎng)絡(luò)中的可逆神經(jīng)網(wǎng)絡(luò)由小波變換和仿射耦合兩種基本的層組成,兩者都具有可逆特性。然后由一個小波變換層和兩個反射耦合層構(gòu)成一個可逆模塊,可逆神經(jīng)網(wǎng)絡(luò)的整體則是由四個相同結(jié)構(gòu)的可逆模塊堆疊組成,編碼過程將輸入圖像的分辨率逐漸縮小到1/16(解碼過程則是逐漸放大至16倍)。這樣做,一方面是為了減少網(wǎng)絡(luò)的計(jì)算量以及增加感受野,另一方面能夠?qū)斎雸D像進(jìn)行降維,以在后續(xù)實(shí)現(xiàn)壓縮編碼。網(wǎng)絡(luò)工作流程如下:
1.1.2 小波變換層
可逆神經(jīng)網(wǎng)絡(luò)的一個重要特性是變換過程具有可逆性,能有效防止特征變換過程信息的丟失。卷積神經(jīng)網(wǎng)絡(luò)在處理圖像等高維數(shù)據(jù)時,通常會采用卷積層或池化層進(jìn)行下采樣,而這樣的方式是不可逆的,因此在可逆神經(jīng)網(wǎng)絡(luò)中不能用這樣的方式來對特征圖進(jìn)行維度調(diào)整。但如果在網(wǎng)絡(luò)編解碼過程保持特征圖的空間分辨率不變,隨著神經(jīng)網(wǎng)絡(luò)深度的增加,無疑會顯著增加計(jì)算復(fù)雜度和內(nèi)存消耗。作為代替,小波變換則是一種很有效的方式,能夠保留信息的同時對特征圖維度進(jìn)行調(diào)整。假設(shè)輸入小波變換層的特征矩陣為 S
在網(wǎng)絡(luò)模型中,小波變換等效于將每個特征圖通道分離為一個平均池化通道和三個高頻通道,同時有利于后續(xù)的仿射耦合層在通道相互作用時保存結(jié)構(gòu)信息。滿足上述要求的離散小波變換有多種選擇,本文的可逆神經(jīng)網(wǎng)絡(luò)中采用了Haar小波[24],來實(shí)現(xiàn)對特征圖的空間維度進(jìn)行調(diào)整。在每個小波變換層中,對輸入的特征進(jìn)行單級小波變換,將特征的空間維度降低2倍(或在小波反變換中提高2倍)。
1.1.3 仿射耦合層
除了小波變換層之外,可逆神經(jīng)網(wǎng)絡(luò)的另一關(guān)鍵是仿射耦合層,它包含了可逆神經(jīng)網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),并且同樣具備可逆特性。仿射耦合層的正向過程如圖6所示。
其中:⊙表示Hadamard乘積,即矩陣按元素做乘積運(yùn)算;sigmoid(x)=1/(1+e-x)為激活函數(shù),將輸入值映射到[0,1]內(nèi)的實(shí)數(shù),exp(x)=ex為指數(shù)函數(shù),兩種函數(shù)在線性仿射運(yùn)算的基礎(chǔ)上增加了非線性轉(zhuǎn)換;h1、h2、g1、g2表示任意的前饋函數(shù),這些函數(shù)不需要是可逆的,可以用任意的神經(jīng)網(wǎng)絡(luò)表示。
其中:/表示矩陣按元素做除法運(yùn)算。值的注意的是,逆向過程的h1、h2、g1、g2函數(shù)與同一仿射耦合層正向過程相同,而不同仿射耦合層中的函數(shù)參數(shù)是獨(dú)立存在的。
其中:H()表示conv-BN-LeakyReLU組成的連續(xù)網(wǎng)絡(luò)層運(yùn)算。conv表示普通卷積層。BN(batch normalization)層[25]是一種神經(jīng)網(wǎng)絡(luò)的正則化運(yùn)算,在訓(xùn)練過程中,它可以使得網(wǎng)絡(luò)層的輸入具有零均值和單位方差,從而加速模型的訓(xùn)練和提高模型的準(zhǔn)確性。LeakyReLU[26]是一種非線性激活層,它與ReLU函數(shù)類似,但在輸入為負(fù)數(shù)時,會返回一個小的梯度,以解決ReLU函數(shù)的一些缺陷,能夠提高模型的泛化能力以及改善神經(jīng)網(wǎng)絡(luò)的收斂速度。Cat表示將特征的通道進(jìn)行拼接操作。
1.1.4 通道注意力機(jī)制
由于可逆神經(jīng)網(wǎng)絡(luò)中的所有變換方式都不能改變輸入特征的像素總數(shù),但其輸出的特征圖包含了許多可壓縮的冗余像素。所以,在可逆神經(jīng)網(wǎng)絡(luò)之后,引入了通道注意力機(jī)制來降低輸出特征的通道數(shù),以減少特征的較為不重要的部分信息。通道注意力模塊的結(jié)構(gòu)如圖9所示。該模塊通過兩條額外的通道對輸入特征進(jìn)行權(quán)值計(jì)算和權(quán)重分配,并在加權(quán)之后以殘差的形式與輸入特征進(jìn)行疊加。權(quán)值通道和權(quán)重通道都包含三個殘差卷積塊,每個殘差卷積塊都由三個卷積層和殘差連接構(gòu)成,權(quán)重通道還在最后加入一層1×1卷積和sigmoid函數(shù)對數(shù)值進(jìn)行約束,以防止網(wǎng)絡(luò)的數(shù)值爆炸。
該注意力模塊通過學(xué)習(xí)每個通道在卷積層中的重要性來動態(tài)地調(diào)整輸入特征圖的每個通道的權(quán)重。通道注意力計(jì)算可以幫助卷積神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)特征,因?yàn)樗梢跃劢褂趯θ蝿?wù)更加關(guān)鍵的特征。通過加強(qiáng)一些通道并抑制一些不重要的通道,從而提高模型的準(zhǔn)確性。
1.1.5 損失函數(shù)設(shè)計(jì)
本文沿用文獻(xiàn)[23]中的超先驗(yàn)參數(shù)網(wǎng)絡(luò)設(shè)計(jì),因此可以通過參數(shù)分析網(wǎng)絡(luò)獲取潛在表示y的邊信息并編碼量化成超先驗(yàn) 。 經(jīng)過超先驗(yàn)解碼器可以生成y的高斯分布模型參數(shù),從而對離散的潛在表示 中的每個變量yi都建模成服從均值為μ、方差為σ2的高斯分布,對應(yīng)所建立的概率模型P ∣ ( )的形式如式(10)所示。超先驗(yàn) 的熵模型Pz( )則采用完全分解的概率分布。
其中:等式第一項(xiàng)為轉(zhuǎn)換前的顏色分量ca、cb與轉(zhuǎn)換后的顏色分量 a、 b之間的均方誤差值;第二、三項(xiàng)分別為量化后潛在特征 、超先驗(yàn) 的信息熵,與編碼后對應(yīng)的二進(jìn)制碼流長度正相關(guān);λ是超參數(shù),用于誤差和信息熵之間的權(quán)衡。
1.2 基于EMD的圖像隱寫算法
為將編碼后的二進(jìn)制比特流嵌入到亮度分量中獲得帶有顏色信息的可逆灰度圖像,本文設(shè)計(jì)了一種改進(jìn)的圖像空域隱寫術(shù)來實(shí)現(xiàn)在灰度圖像上嵌入秘密數(shù)據(jù)。圖像隱寫術(shù)在滿足顏色信息的嵌入需求之外,還應(yīng)盡可能減少對載體圖像的修改。一方面是為了保證灰度圖像結(jié)果具有更好的視覺效果,另一方面是保留更多灰度分量的信息有利于對彩色圖像的還原。本文所提出的圖像隱寫術(shù),是基于充分利用像素修改方向(EMD)[27]的思想,實(shí)現(xiàn)了更高的信息嵌入容量及保持低失真的特性。
1.2.1 信息嵌入過程
假設(shè)待嵌入的二進(jìn)制比特流表示為B=(b b2,…,bi- bi),b∈[0,1],對載體灰度圖像的像素進(jìn)行掃描,按照一維排序后表示為G=(g g2,…,gj- gj),g∈[0,…,255]。在確定了待嵌入數(shù)據(jù)量及載體像素的數(shù)量后,首先可以得出所需實(shí)現(xiàn)的最低圖像容量為b/n bpp(bits per pixel)。而本文所提出的圖像隱寫術(shù)的主要思想是通過每兩個像素嵌入一個N進(jìn)制符號,因此該隱寫方法最高嵌入容量為log2N/2 bpp。為了實(shí)現(xiàn)最低失真的結(jié)果,該方法中的N=min 5≤N {N∈z+:log2N>b/n},也就是取最小滿足所需嵌入容量的N值。值得注意的是,N為正整數(shù)且大于等于5。
在確定N值后,需要將二進(jìn)制比特流B轉(zhuǎn)換為N進(jìn)制的表示形式,即BN=(n n2,…,ni2),n∈[0,…,N-1],其中i2=「i·logN2表示轉(zhuǎn)換為N進(jìn)制的碼字長度。接著按照連續(xù)不重疊的原則,以每兩個載體圖像像素為一對進(jìn)行劃分,實(shí)現(xiàn)每對像素順序嵌入一個BN中的碼字n。嵌入方式如下:
假設(shè)載體像素對為(g2k- g2k),待嵌入的N進(jìn)制碼字為nk。通過以下函數(shù)計(jì)算像素對的加權(quán)取模結(jié)果。
1.2.2 信息提取過程
對已帶有信息的載體灰度圖像的像素進(jìn)行掃描,按照一維排序后表示為G′=(g′ g′2,…,g′j-1 ,g′j),g′∈[0,…,255]。接著按照連續(xù)不重疊的原則,以每兩個載體圖像像素為一對進(jìn)行劃分,順序從每對像素中提取一個BN中的碼字n。提取方式為:假設(shè)帶有信息的載體像素對為(g′2k- g′2k),待提取的N進(jìn)制碼字為nk。通過函數(shù)計(jì)算像素對的加權(quán)取模結(jié)果為nk=(g2k-1+g2k×(2N+1)/5」)mod N,即完成對信息的提取。
2 實(shí)驗(yàn)
本文實(shí)驗(yàn)基于PyTorch的深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)搭建,編程語言為Python,計(jì)算機(jī)配置如下:CPU Intel Xeon Gold 6226,顯卡 NVIDIA GeForce RTX 2080Ti,內(nèi)存16 GB,操作系統(tǒng)Ubuntu 18.04 LTS。
2.1 網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)
網(wǎng)絡(luò)模型根據(jù)式(11)計(jì)算出損失值,并通過Adam優(yōu)化器對整體參數(shù)進(jìn)行訓(xùn)練優(yōu)化。訓(xùn)練集為Pascal VOC2012公開數(shù)據(jù)集,從中隨機(jī)抽取10 000張圖像且裁剪分辨率大小為512×512,并設(shè)置了隨機(jī)旋轉(zhuǎn)和對稱翻轉(zhuǎn), 以增強(qiáng)模型的泛化性能。再額外抽取不重復(fù)的100張圖像作為測試集。訓(xùn)練的批次設(shè)置為16,初始學(xué)習(xí)率設(shè)置為1×10-4,迭代2×106次后學(xué)習(xí)率衰減至1×10-5,繼續(xù)迭代5×105次。
2.2 數(shù)據(jù)集與評價指標(biāo)
實(shí)驗(yàn)所使用的測試圖像來自Kodak和McMaster數(shù)據(jù)集。Kodak數(shù)據(jù)集包含了24張不同主題的彩色圖像,包括風(fēng)景、人像、靜物等,每張圖像的分辨率為768×512。McMaster數(shù)據(jù)集包含18幅500×500的不同場景彩色圖像。初始的每張彩色圖像及其亮度平面圖像作為標(biāo)準(zhǔn)參考圖像,用于評估可逆灰度方法圖像結(jié)果的主客觀性能。本文使用的客觀圖像質(zhì)量評價指標(biāo)為峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似度(structural similarity index,SSIM)和特征相似性(feature similarity index measure,F(xiàn)SIM)。PSNR代表了圖像蘊(yùn)涵的原始信息量的豐富程度,其數(shù)值越大代表圖像質(zhì)量越高,更接近原始圖像;SSIM、FSIM用于評判生成圖像與標(biāo)準(zhǔn)參考圖像的相關(guān)性,其值越接近 說明與參考圖像越相似。這些指標(biāo)可以通過對比原始參考圖像和處理后的圖像的差異程度來量化圖像的質(zhì)量,并給出一個客觀數(shù)值化的評價結(jié)果。
2.3 實(shí)驗(yàn)對比與結(jié)果分析
為證明本文方法的有效性,將其與其他可逆灰度方法的圖像結(jié)果與標(biāo)準(zhǔn)參考圖像進(jìn)行客觀相似度指標(biāo)對比。實(shí)驗(yàn)結(jié)果如表1所示,無論是Kodak還是McMaster數(shù)據(jù)集,本文方法在各評價指標(biāo)上都取得了比其他可逆灰度方法更優(yōu)的性能。其中,本文方法的灰度圖像結(jié)果平均PSNR值遠(yuǎn)高于其他方法,說明所合成的可逆灰度圖像與參考圖像保持了更一致的灰度值結(jié)果,因此也保留了較多的原始圖像亮度信息。在平均SSIM值上,所測試的灰度圖像結(jié)果與參考灰度圖像也更為接近。對于彩色圖像結(jié)果,本文方法具有更高的還原精度和更好的圖像質(zhì)量。重建的彩色圖像恢復(fù)了更多的色彩信息和細(xì)節(jié)信息,實(shí)現(xiàn)了更令人信服的結(jié)果。
此外,圖10展示了本文方法與其他四種可逆灰度方法在視覺質(zhì)量上的比較。從左到右,第二列和第四列的圖像分別是第一列灰度圖、第三列彩色圖的局部細(xì)節(jié)放大圖。
觀察圖10(f)中的圖像結(jié)果,文獻(xiàn)[11]無論是灰度圖像還是彩色圖像都存在明顯的缺陷,如圖像整體失真、細(xì)節(jié)模糊。其視覺效果較差的主要原因在于,該類方法對色度分量和亮度分量的低效處理方式。圖10(e)為文獻(xiàn)[9]的圖像結(jié)果,其灰度圖像結(jié)果帶有較明顯編碼紋理,彩色圖像的顏色則基本得到還原,但是在圖像細(xì)節(jié)上的還原程度仍有待提高。圖10(d)為文獻(xiàn)[18]的圖像結(jié)果,該方法的灰度圖像結(jié)果視覺效果良好,但其還原的彩色圖像的顏色出現(xiàn)明顯的偏移,如重建彩色圖像上右側(cè)的窗簾出現(xiàn)了一定程度的變色。圖10(c)為文獻(xiàn)[22]的圖像結(jié)果,是現(xiàn)有其他方法中彩色圖像重建效果最優(yōu)的,對彩色圖像的還原效果基本能達(dá)到肉眼難以區(qū)分的程度,但美中不足的是,其對應(yīng)的合成灰度圖像細(xì)節(jié)上依舊存在編碼紋理問題,還存在提升的空間。圖10(b)為本文方法的圖像結(jié)果,該結(jié)果無論是在灰度圖像還是彩色圖像方面,都比其他方法與原始參考圖像更加一致,肉眼所見幾乎沒有異常之處。因此,與現(xiàn)有其他方法相比,本文方法能夠在灰度圖像中保留更豐富的原始信息,從而能夠?qū)Σ噬珗D像的紋理、色彩等各方面細(xì)節(jié)進(jìn)行有效還原,具有較強(qiáng)的可靠性。并且載體灰度圖像能與標(biāo)準(zhǔn)參考圖像保持較高的相似度,不會出現(xiàn)明顯可見的缺陷,如編碼紋理和圖像模糊等圖像失真的現(xiàn)象,所以原始彩色圖像的亮度信息也得以較好的保存,同樣有利于提升彩色圖像的重建效果。
2.4 有效性分析
為了驗(yàn)證方法中模塊的有效性,對本文方法中的兩個模塊,即可逆神經(jīng)網(wǎng)絡(luò)(INN)顏色編碼網(wǎng)絡(luò)、基于EMD的圖像隱寫術(shù),與變分自編碼器(variational autoencoder,VAE)編碼網(wǎng)絡(luò)[23]、低失真圖像隱寫術(shù)(low distortion image steganography,LDIS)[29]進(jìn)行實(shí)驗(yàn)對比,其中VAE網(wǎng)絡(luò)根據(jù)編碼需求的不同進(jìn)行重新適配。實(shí)驗(yàn)將方法中對應(yīng)的模塊進(jìn)行替換,并對組合后的方法進(jìn)行性能測試,其結(jié)果如表2所示。
由兩個數(shù)據(jù)集測試結(jié)果的客觀相似度指標(biāo)可以看出,INN編碼網(wǎng)絡(luò)對比VAE編碼網(wǎng)絡(luò)在重建彩色圖像上更優(yōu),這得益于對色度平面編碼的性能提升,在不增加輸出的二進(jìn)制碼流長度的情況下,能夠保留更多的顏色信息,從而提升對原始彩色圖像的還原度。此外,改進(jìn)的EMD圖像隱寫算法有效地提升了信息的嵌入效率,在對灰度圖像嵌入相同信息的情況下,有效地減少對載體圖像的修改,減少亮度信息的損失,使合成的灰度圖像更接近標(biāo)準(zhǔn)參考圖像。因此,整體方法在所提出的框架基礎(chǔ)上結(jié)合兩種模塊的改進(jìn),綜合提升了灰度圖像和彩色圖像結(jié)果的圖像質(zhì)量,實(shí)現(xiàn)了更優(yōu)的綜合性能。此實(shí)驗(yàn)結(jié)果也進(jìn)一步證明了本文方案的結(jié)構(gòu)框架的可行性,能夠分別通過提升亮度分量和色度分量的處理效率,從而進(jìn)一步提高方法的性能上限,為可逆灰度方法提供了更多的可能性。
3 結(jié)束語
可逆灰度方法是一種將彩色圖像轉(zhuǎn)換為灰度圖像后再還原為彩色圖像的技術(shù),對圖像存儲、傳輸?shù)葢?yīng)用有重要作用。為解決現(xiàn)有可逆灰度方法存在的一些缺陷,本文提出的可逆灰度方法通過INN構(gòu)建了顏色編解碼器,能對彩色圖像的色度分量進(jìn)行高效壓縮,以較小的占用空間保留住了盡可能多的顏色信息。之后,所設(shè)計(jì)的圖像隱寫算法在較少修改像素值的條件下,在灰度圖像載體上完整地嵌入和提取編碼后的顏色信息。實(shí)驗(yàn)結(jié)果表明,本文方法與其他的可逆灰度方法相比,一方面所合成的灰度圖像保持更高的相似度,避免出現(xiàn)圖像失真或者視覺特征不一致的情況,另一方面重建的彩色圖像能有更高的還原度,改善了圖像細(xì)節(jié)和顏色偏差等問題。
目前,大多數(shù)可逆灰度方法在魯棒性方面都較為不佳。在對帶有信息的灰度圖像載體進(jìn)行壓縮、裁剪等修改后,都會導(dǎo)致彩色圖像無法正?;謴?fù)。本文方法也不例外,主要有以下兩個原因:a)灰度圖像中隱藏的顏色信息經(jīng)過高度的編碼處理,其編碼后的內(nèi)容被盡可能地消除了冗余,經(jīng)過修改后很難較好地進(jìn)行恢復(fù);b)所提出的圖像隱寫算法是在圖像空域修改其像素的低位數(shù)值實(shí)現(xiàn),比較有利于保證載體圖像質(zhì)量,但容易在遭受干擾后失效。為了能夠適配更多復(fù)雜的應(yīng)用場景,之后的工作將對方法的魯棒性作進(jìn)一步的改進(jìn)。
參考文獻(xiàn):
[1]顧梅花, 蘇彬彬, 王苗苗,等. 彩色圖像灰度化算法綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36 (5): 1286-1292. (Gu Meihu Su Binbin, Wang Miaomiao, et al. Survey on decolorization methods[J].Application Research of Computers , 2019, 36 (5): 1286-1292.)
[2]陳廣秋, 王冰雪, 劉美,等. 基于結(jié)構(gòu)信息相似度的線性投影灰度化算法[J]. 吉林大學(xué)學(xué)報: 理學(xué)版, 2020, 58 (4): 877-884. (Chen Guangqiu, Wang Bingxue, Liu Mei, et al. Linear projection decolorization algorithm based on structural information similarity[J].Journal of Jilin University: Science Edition , 2020, 58 (4): 877-884.)
[3]張俊康, 金正猛, 馮燦. 基于原始對偶方法的圖像去色算法[J]. 南京郵電大學(xué)學(xué)報: 自然科學(xué)版, 202 41 (4): 51-58. (Zhang Junkang, Jin Zhengmeng, Feng Can. Image decolorization algorithm based on primal-dual method[J].Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition , 202 41 (4): 51-58.)
[4]張美玉, 劉躍輝, 侯向輝,等. 基于卷積網(wǎng)絡(luò)的灰度圖像自動上色方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58 (7): 229-236. (Zhang Meiyu, Liu Yuehui, Hou Xianghui, et al. Automatic coloring method for gray image based on convolutional network[J].Computer Engineering and Applications , 2022, 58 (7): 229-236.)
[5]張毅, 韋文聞, 龔致遠(yuǎn). 基于深層聚合結(jié)構(gòu)網(wǎng)絡(luò)的灰度圖像彩色化方法[J]. 計(jì)算機(jī)應(yīng)用研究, 202 38 (3): 923-927. (Zhang Yi, Wei Wenwen, Gong Zhiyuan. Gray image colorization method based on deep layer aggregation[J].Application Research of Computers , 202 38 (3): 923-927.)
[6]Fang Faming, Wang Tingting, Zeng Tieyong, et al. A superpixel-based variational model for image colorization[J].IEEE Trans on Visualization and Computer Graphics , 2019, 26 (10): 2931-2943.
[7]Campisi P, Kundur D, Hatzinakos D, et al. Compressive data hi-ding: an unconventional approach for improved color image coding[J].EURASIP Journal on Advances in Signal Processing , 2002, 2002 (2): 1-12.
[8]Chaumont M, Puech W. A grey-level image embedding its color palette[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2007: I-389-I-392.
[9]Xia Menghan, Liu Xueting, Wong T T. Invertible grayscale[J].ACM Trans on Graphics , 2018, 37 (6): 1-10.
[10]de Queiroz R L, Braun K M. Color to gray and back: color embedding into textured gray images[J].IEEE Trans on Image Proces-sing , 2006, 15 (6): 1464-1470.
[11]de Queiroz R L. Invertible color-to-gray mapping using subband domain texturization[J].Pattern Recognition Letters , 2010, 31 (4): 269-276.
[12]Ko K W, Kim D C, Kyung W J, et al. Color embedding and recovery using wavelet packet transform with pseudorandomized saturation code[J].Journal of Imaging Science and Technology , 201 55 (3): 30501.
[13]Horiuchi T, Nohara F, Tominaga S. Accurate invertible color-to-gray mapping algorithm without distortion conditions[J].Pattern Recognition Letters,2010, 31 (15): 2405-2414.
[14]Horiuchi T, Xu Wen, Hirai K. Reversible color-to-gray mapping with resistance to jpeg encoding[C]//Proc of IEEE Southwest Symposium on Image Analysis and Interpretation. Piscataway, NJ: IEEE Press, 2018: 13-16.
[15]Chaumont M, Puech W, Lahanier C. Securing color information of an image by concealing the color palette[J].Journal of Systems and Software , 2013, 86 (3): 809-825.
[16]Tanaka G, Suetake N, Uchino E. Invertible color-to-monochrome transformation based on clustering with lightness constraint[C]//Proc of IEEE International Conference on Systems, Man and Cybernetics. Piscataway, NJ: IEEE Press, 2010: 2151-2154.
[17]Xu Zixin, Chan Y H. Improving invertible color-to-grayscale conversion with halftoning[J].Signal Processing: Image Communication , 2017, 52 : 111-123.
[18]Chan Y H, Xu Zixin, Lun D P K. A framework of invertible color-to-grayscale conversion with watermarking feature[J].IEEE Trans on Image Processing , 2019, 29 : 859-870.
[19]Ye Taizhong, Du Yong, Deng Junjie, et al. Invertible grayscale via dual features ensemble[J].IEEE Access , 2020,8 : 89670-89679.
[20]Du Yong, Xu Yangyang, Ye Taizhong, et al. Invertible grayscale with sparsity enforcing priors[J].ACM Trans on Multimedia Computing, Communications, and Applications , 202 17 (3): 1-17.
[21]Liu Kunlin, Chen Dongdong, Liao Jing, et al. JPEG robust invertible grayscale[J].IEEE Trans on Visualization and Computer Graphics , 2022,28 (12): 4403-4417.
[22]Zhao Rui, Liu Taishan, Xiao Jun, et al. Invertible image decolorization[J].IEEE Trans on Image Processing , 202 30 : 6081-6095.
[23]Ballé J, Minnen D, Singh S, et al. Variational image compression with a scale hyperprior[EB/OL]. (2018-05-01). https://arxiv.org/abs/1802.01436.
[24]Haar A.Zur theorie der orthogonalen funktionensysteme[J]. Mathematische Annalen , 191 71 (1): 38-53.
[25]Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proc of the 32nd International Conference on International Conference on Machine Lear-ning .[S.l.]:JMLR. org, 2015:448-456.
[26]Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[EB/OL].(2013). https://api.semanticscholar.org/CorpusID:16489696.
[27]Zhang Xinpeng, Wang Shuozhong. Efficient steganographic embedding by exploiting modification direction[J].IEEE Communications Letters , 2006, 10 (11): 781-783.
[28]Liang Qiaoyi, Hu Ruiwen, Xiang Shijun. Invertible color-to-grayscale conversion by using clustering and reversible watermarking[C]//Proc of IEEE International Conference on Multimedia and Expo. Pisca-taway, NJ: IEEE Press, 2021: 1-6.
[29]Wu N I, Hwang M S. A novel LSB data hiding scheme with the lowest distortion[J].The Imaging Science Journal , 2017, 65 (6): 371-378.
收稿日期:2023-06-28;修回日期:2023-08-16基金項(xiàng)目:廣州市教育局高??蒲匈Y助項(xiàng)目(202235165)
作者簡介: 林煥然(1997—),男,廣東揭陽人,碩士研究生,主要研究方向?yàn)閳D像處理、機(jī)器視覺;朱姍姍(1980—),女,講師,碩士,主要研究方向?yàn)閳D像處理、人工智能;彭凌西(1978—),男(通信作者),湖南岳陽人,教授,博導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄芗夹g(shù)及應(yīng)用、網(wǎng)絡(luò)安全(penglx@gzhu.edu.cn);彭紹湖(1981—),男,廣東潮州人,講師,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器視覺、目標(biāo)檢測;林煜桐(1997—),男,廣東潮州人,碩士研究生,主要研究方向?yàn)闄C(jī)器視覺、模板匹配;謝翔(1997—),男,江西贛州人,碩士研究生,主要研究方向?yàn)闄C(jī)器視覺、缺陷檢測.