周 旭, 楊 靜, 張秀華, 溥 江
(1.貴州大學(xué),a.機(jī)械工程學(xué)院; b.現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng) 550000; 2.貴州民族大學(xué)機(jī)械電子工程學(xué)院,貴陽(yáng) 550000)
圖像采集時(shí)容易產(chǎn)生噪聲,帶有噪聲的圖像會(huì)降低原有圖像質(zhì)量,影響后續(xù)圖像處理結(jié)果。為去除圖像噪聲,研究者們提出了濾波[1-2]、稀疏[3-4]、低秩[5]等傳統(tǒng)降噪方法和DnCNN[6],U-net[7-8]等深度學(xué)習(xí)降噪方法,盡管這些降噪方法在某種程度上解決了圖像降噪問(wèn)題,但噪聲類別需專業(yè)人員識(shí)別或提前設(shè)定或用傳統(tǒng)低效分類方法的缺陷也是顯而易見(jiàn)的,這降低了整個(gè)圖像處理過(guò)程的效率,因此有必要改善噪聲圖像分類現(xiàn)狀。
為了對(duì)噪聲圖像進(jìn)行分類,楊冰等[9]采用總間隔v最小類內(nèi)方差支持向量機(jī)(TM-v-MCV-SVMs)用于人臉噪聲圖像分類,盡管該算法對(duì)于人臉噪聲圖像的分類效果要好于最小類內(nèi)方差支持向量機(jī)(MCVSVMs)和總間隔v-支持向量機(jī)(TM-v-SVM),但SVM固有的依賴參數(shù)和核函數(shù)選擇的缺點(diǎn)使其自適應(yīng)能力不強(qiáng),無(wú)法企及深度學(xué)習(xí)強(qiáng)大的數(shù)據(jù)擬合和參數(shù)自適應(yīng)能力。SIMONYAN等[10]采用深層小卷積核(3×3)的思想搭建圖像特征提取網(wǎng)絡(luò)用于圖像分類,深層小卷積核的引入提高了網(wǎng)絡(luò)特征提取精度,該網(wǎng)絡(luò)在2014年ImageNet比賽中獲得分類第二名,但網(wǎng)絡(luò)訓(xùn)練時(shí)由于網(wǎng)絡(luò)深度加深反向傳播權(quán)值更新時(shí)梯度容易消失。文獻(xiàn)[11]采用殘差學(xué)習(xí)思想,將卷積層的輸入和輸出信息跳躍連接構(gòu)成一個(gè)殘差塊,這種方式可在網(wǎng)絡(luò)反向傳播時(shí)直接將梯度值通過(guò)殘差網(wǎng)絡(luò)傳遞到卷積層輸入位置而跳過(guò)殘差塊內(nèi)的卷積層,有效避免了網(wǎng)絡(luò)反向傳播時(shí)梯度消失情況,因而能夠把圖像分類網(wǎng)絡(luò)深度增加至152層,網(wǎng)絡(luò)能夠提取到深層特征信息,該網(wǎng)絡(luò)在2015年的ILSVRC-2015分類競(jìng)賽中贏得第一名,雖然殘差學(xué)習(xí)解決了深層卷積神經(jīng)網(wǎng)絡(luò)梯度消失問(wèn)題,使得構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的想法得以實(shí)現(xiàn),網(wǎng)絡(luò)也能提取到深層特征信息,但是網(wǎng)絡(luò)加深后也隨之丟失了淺層特征信息。文獻(xiàn)[12]在圖像分類網(wǎng)絡(luò)中引入passthrough層將網(wǎng)絡(luò)提取的淺層特征信息與深層特征信息融合,避免淺層特征信息丟失,從而提高了圖像分類準(zhǔn)確率。
傳統(tǒng)SVM噪聲圖像分類方法依賴于參數(shù)和核函數(shù)選擇,網(wǎng)絡(luò)自適應(yīng)能力不強(qiáng)。卷積網(wǎng)絡(luò)雖然自適應(yīng)能力強(qiáng),且經(jīng)逐步優(yōu)化后網(wǎng)絡(luò)分類準(zhǔn)確率已達(dá)到應(yīng)用程度,但以往的卷積神經(jīng)網(wǎng)絡(luò)都未用于噪聲圖像分類。本文結(jié)合以上各深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)優(yōu)點(diǎn)提出利用殘差學(xué)習(xí)、Dropout[13]和正則化改進(jìn)的Darknet噪聲圖像分類網(wǎng)絡(luò),實(shí)現(xiàn)噪聲圖像自動(dòng)分類,解決傳統(tǒng)噪聲圖像分類方法性能不足的問(wèn)題。
用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)眾多,需要選擇一種最優(yōu)的分類網(wǎng)絡(luò)作為噪聲圖像分類的原始網(wǎng)絡(luò)。對(duì)LeNet,AlexNet,VGG以及原始Darknet19這4個(gè)分類網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比后得出,在不改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的情況下,Darknet19網(wǎng)絡(luò)對(duì)于噪聲圖像分類的準(zhǔn)確率最高。
Darknet19為YOLOv2的主干網(wǎng)絡(luò),主要用于圖像識(shí)別。去掉網(wǎng)絡(luò)1×1卷積輸出層,將第19層卷積核數(shù)量改為4,同時(shí)在網(wǎng)絡(luò)最后加上Softmax層,可實(shí)現(xiàn)圖像分類功能。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 Darknet19 分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Diagram of Darknet19 classification network注:Conv為卷積層;Pool為最大池化層;Shortcut為數(shù)據(jù)引出層;Concat為特征融合層;Global為全局池化層;Softmax表示將輸出轉(zhuǎn)化為概率。
Darknet19由19層卷積層組成,前面2個(gè)卷積層后分別接有最大池化層,中間6個(gè)卷積層中每3個(gè)卷積層后接1個(gè)最大池化層,最后11個(gè)卷積層里前5個(gè)卷積層后接1個(gè)卷積層,池化層可避免網(wǎng)絡(luò)過(guò)擬合同時(shí)也可對(duì)特征圖進(jìn)行降維,后6個(gè)卷積層后接1個(gè)全局池化層和1個(gè)Softmax層,Softmax層主要將輸出值轉(zhuǎn)換為0~1之間的概率值。網(wǎng)絡(luò)卷積層的卷積核數(shù)量由32開(kāi)始,按倍數(shù)依次增加至1024個(gè),可使網(wǎng)絡(luò)提取到的特征信息變多。同時(shí),將網(wǎng)絡(luò)的第13層輸出和第18層輸出通過(guò)passthrough層相連,使得網(wǎng)絡(luò)在提取深層特征信息時(shí)不會(huì)丟失淺層特征圖信息。
由于原始Darknet19網(wǎng)絡(luò)對(duì)噪聲圖像的分類效果不佳,因此對(duì)Darknet19網(wǎng)絡(luò)進(jìn)行了改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要改進(jìn)點(diǎn)在以下兩個(gè)方面。
圖2 改進(jìn)Darknet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Diagram of the improved Darknet network
1) 增加了Dropout層(即丟棄層)。Darknet19網(wǎng)絡(luò)的passthrough層輸出特征圖維度為8×8×3072,網(wǎng)絡(luò)參數(shù)過(guò)多,為此,在此passthrough層和第19層卷積層間增加了1個(gè)丟棄率為0.5的Dropout層,其次分別在第6,7,8層卷積層后增加了1個(gè)丟棄率為0.5的Dropout層,避免網(wǎng)絡(luò)過(guò)擬合。另外,為避免網(wǎng)絡(luò)過(guò)擬合,卷積層中也加入了L2正則化。
Dropout[13]丟棄機(jī)制是在網(wǎng)絡(luò)每個(gè)循環(huán)訓(xùn)練時(shí)隨機(jī)丟棄卷積神經(jīng)網(wǎng)絡(luò)的部分神經(jīng)元,使其不參與網(wǎng)絡(luò)訓(xùn)練和權(quán)值更新,而在網(wǎng)絡(luò)訓(xùn)練結(jié)束后參與網(wǎng)絡(luò)預(yù)測(cè)的一種方法。由于網(wǎng)絡(luò)訓(xùn)練時(shí)每個(gè)循環(huán)丟棄的神經(jīng)元不同,故網(wǎng)絡(luò)實(shí)際上可以訓(xùn)練多個(gè)結(jié)構(gòu)類似而神經(jīng)元不同的網(wǎng)絡(luò)以抑制網(wǎng)絡(luò)過(guò)擬合。Dropout原理結(jié)構(gòu)如圖3所示。
圖3 Dropout原理結(jié)構(gòu)圖Fig.3 Schematic diagram of Dropout
2) 增加了殘差網(wǎng)絡(luò)。Darknet19網(wǎng)絡(luò)共有19層卷積層,網(wǎng)絡(luò)相對(duì)較深,為避免反向傳播權(quán)值更新時(shí)梯度消失,引入殘差網(wǎng)絡(luò),將第10層和第11層、第12層和第13層、第15層和第16層、第17層和第18層分別作為殘差塊。
殘差網(wǎng)絡(luò)[11]就是用一條通道將卷積層輸入和輸出直接相連,通道和被連接卷積層共同構(gòu)成殘差塊如圖4所示。
圖4 殘差網(wǎng)絡(luò) Fig.4 Residual network
注:x為卷積層輸入;F(x)為卷積層替代函數(shù);H(x)為殘差塊輸出。
殘差網(wǎng)絡(luò)輸出可表示為
xk+1=xk+F(xk,wk)
(1)
式中:xk為卷積層輸入;F(xk,wk)為卷積層;wk為卷積層中的權(quán)值。
對(duì)式(1)迭代后有
(2)
反向傳播[14]時(shí)對(duì)式(2)求導(dǎo)可得
(3)
為了驗(yàn)證改進(jìn)Darknet19網(wǎng)絡(luò)噪聲圖像分類準(zhǔn)確性,本文在Cifar-10公開(kāi)數(shù)據(jù)集[15]上人為添加噪聲后進(jìn)行了噪聲圖像分類實(shí)驗(yàn)。結(jié)果表明,在Cifar-10數(shù)據(jù)集上改進(jìn)的Darknet19網(wǎng)絡(luò)對(duì)彩色噪聲圖像和黑白噪聲圖像分類準(zhǔn)確率均可達(dá)到0.904,其對(duì)彩色噪聲圖像分類準(zhǔn)確率較原始Darknet19網(wǎng)絡(luò)提高了近3%,黑白噪聲圖像分類準(zhǔn)確率較原始Darknet19網(wǎng)絡(luò)提高了5%。改進(jìn)的Darknet19網(wǎng)絡(luò)噪聲圖像分類效果優(yōu)異。
用改進(jìn)的Darknet19網(wǎng)絡(luò)對(duì)噪聲圖像分類采用有監(jiān)督學(xué)習(xí)方式。在有監(jiān)督學(xué)習(xí)中,網(wǎng)絡(luò)首先對(duì)一張訓(xùn)練集圖片預(yù)測(cè)一個(gè)輸出分類,再將這個(gè)輸出分類與訓(xùn)練集標(biāo)簽對(duì)比,得到預(yù)測(cè)值與真實(shí)標(biāo)簽值差異,然后通過(guò)反向求導(dǎo)逐步更新網(wǎng)絡(luò)權(quán)值,使網(wǎng)絡(luò)預(yù)測(cè)輸出與訓(xùn)練集標(biāo)簽無(wú)限接近。因此,Darknet網(wǎng)絡(luò)需定義網(wǎng)絡(luò)輸出預(yù)測(cè)值與訓(xùn)練集標(biāo)簽真實(shí)值的差異關(guān)系函數(shù)即損失函數(shù),同時(shí)也要選擇反向求導(dǎo)時(shí)權(quán)值更新方法即優(yōu)化方法。本文選用均方差(MSE)函數(shù)[16]計(jì)算網(wǎng)絡(luò)預(yù)測(cè)值與訓(xùn)練集標(biāo)簽值差異,反向求導(dǎo)權(quán)值更新方法采用一般梯度下降優(yōu)化方法。
本文實(shí)驗(yàn)詳細(xì)程序運(yùn)行環(huán)境如表1所示。
表1 程序運(yùn)行環(huán)境Table 1 Program running environment
本文從Cifar-10數(shù)據(jù)集取20 000張36像素×36像素大小的彩色圖像,經(jīng)128×128維尺寸變換后均分成4組圖片存儲(chǔ),再對(duì)4組圖片分別添加高斯噪聲、泊松噪聲、鹽噪聲和斑點(diǎn)噪聲如圖5所示,接著從每組取出100張圖片地址并打亂,然后從地址里提取圖片并按噪聲類別對(duì)每張圖片進(jìn)行One-hot編碼以作為測(cè)試集,同理,每組取100張圖片經(jīng)編碼后作為驗(yàn)證集,剩下的圖片經(jīng)One-hot編碼后作為訓(xùn)練集,最后將訓(xùn)練集、驗(yàn)證集和測(cè)試集制作成一個(gè)npz文件,用于網(wǎng)絡(luò)訓(xùn)練、驗(yàn)證和測(cè)試。另外,對(duì)BSD100數(shù)據(jù)集分別添加高斯噪聲、泊松噪聲、鹽噪聲和斑點(diǎn)噪聲,如圖6所示,接著進(jìn)行One-hot編碼后制作成BSD100測(cè)試集,用于網(wǎng)絡(luò)圖像分類準(zhǔn)確率測(cè)試?;叶葓D像測(cè)試集的制作也與彩色圖像測(cè)試集類似。
圖5 Cifar-10圖片噪聲類型Fig.5 Cifar-10 image noise types
圖6 BSD100圖片噪聲類型Fig.6 BSD100 image noise types
此外,用4組相同圖片的BSD100數(shù)據(jù)集按組分別添加高斯噪聲、泊松噪聲、鹽噪聲、斑點(diǎn)噪聲后制作成4個(gè)彩色圖像測(cè)試集,同理制作4個(gè)BSD100灰度圖像測(cè)試集、4個(gè)100張相同圖片的Cifar-10彩色圖像測(cè)試集和灰度圖像測(cè)試集,共16個(gè)用于測(cè)試噪聲對(duì)網(wǎng)絡(luò)分類準(zhǔn)確率影響的單噪聲圖片測(cè)試集。
本文共設(shè)置了6組對(duì)比實(shí)驗(yàn),分別對(duì)LeNet,AlexNet,VGG以及原始Darknet19,加Dropout的Darknet,加Dropout和殘差的Darknet網(wǎng)絡(luò)進(jìn)行了網(wǎng)絡(luò)訓(xùn)練、驗(yàn)證和測(cè)試,以比較不同模型在不同數(shù)據(jù)集上的彩色和灰度圖像分類準(zhǔn)確率。
從訓(xùn)練完后的網(wǎng)絡(luò)在Cifar-10和BSD100測(cè)試集上的測(cè)試準(zhǔn)確率可知,在LeNet,AlexNet,VGG和原始Darknet19這4個(gè)網(wǎng)絡(luò)模型中,Darknet19網(wǎng)絡(luò)在兩種數(shù)據(jù)集上對(duì)彩色和灰度圖像的分類準(zhǔn)確率最高,在Cifar-10測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率分別為0.878和0.854,在BSD100測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率分別為0.68和0.56。LeNet網(wǎng)絡(luò)在兩種數(shù)據(jù)集上的分類準(zhǔn)確率最低,在Cifar-10測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率分別低于Darknet19網(wǎng)絡(luò)0.476和0.44,在BSD100測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率更是分別低至0.31和0.25。在Cifar-10和BSD100測(cè)試集上的分類準(zhǔn)確率如表2所示。
表2 Cifar-10/BSD100測(cè)試集上的噪聲圖像分類準(zhǔn)確率Table 2 Classification accuracy of noise image onCifar-10/BSD100 test sets
Darknet19和LeNet兩種網(wǎng)絡(luò)的分類準(zhǔn)確率差異較大,造成這種現(xiàn)象的原因,一方面是LeNet網(wǎng)絡(luò)卷積層少無(wú)法學(xué)習(xí)噪聲圖像深層特征信息,另一方面是卷積層的卷積核數(shù)量少無(wú)法提取更多的圖像特征。此外,同種網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)集的分類準(zhǔn)確率差距同樣較明顯,這主要是因?yàn)椴捎肅ifar-10數(shù)據(jù)集制作的測(cè)試集圖片數(shù)量多達(dá)1000張,而采用BSD100制作的測(cè)試集圖片只有100張,測(cè)試集樣本少發(fā)生分類不準(zhǔn)確的偶然情況增多。
由于4個(gè)網(wǎng)絡(luò)中Darknet19分類準(zhǔn)確率最高,因此,本文選擇Darknet19網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),分別對(duì)網(wǎng)絡(luò)增加Dropout和殘差塊。相對(duì)于原始網(wǎng)絡(luò),在增加Dropout后網(wǎng)絡(luò)在Cifar-10測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率分別提高了0.01和0.032。在增加Dropout的基礎(chǔ)上再增加殘差網(wǎng)絡(luò)后在Cifar-10測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率均增加至0.904,在BSD100測(cè)試集上的彩色和灰度圖像分類準(zhǔn)確率分別改善了5%和6%。由測(cè)試集上的分類準(zhǔn)確率可以看出, Darknet19網(wǎng)絡(luò)加入Dropout和殘差網(wǎng)絡(luò)后分類準(zhǔn)確率改善較為明顯。網(wǎng)絡(luò)在Cifar-10和BSD100測(cè)試集上的分類準(zhǔn)確率如表3所示。
表3 改進(jìn)網(wǎng)絡(luò)在Cifar-10/BSD100測(cè)試集上的噪聲圖像分類準(zhǔn)確率Table 3 Classification accuracy of noise image on Cifar-10/BSD100 test sets by the improved networks
為分析彩色和灰度圖像的不同類型噪聲對(duì)網(wǎng)絡(luò)分類準(zhǔn)確率的影響,用制作的16個(gè)單噪聲圖片測(cè)試集對(duì)4種網(wǎng)絡(luò)分類準(zhǔn)確率做64組對(duì)比實(shí)驗(yàn),其結(jié)果見(jiàn)表4、表5。
由表4可知,LeNet和改進(jìn)Darknet19網(wǎng)絡(luò)在對(duì)BSD100彩色噪聲圖像分類時(shí)泊松噪聲對(duì)網(wǎng)絡(luò)分類準(zhǔn)確率影響最大,高斯噪聲影響最小。AlexNet和VGG網(wǎng)絡(luò)對(duì)BSD100彩色噪聲圖像分類時(shí)鹽噪聲對(duì)分類準(zhǔn)確率影響最大,高斯噪聲影響最小。對(duì)于Cifar-10彩色圖像數(shù)據(jù)集,鹽噪聲對(duì)LeNet,AlexNet,VGG網(wǎng)絡(luò)的分類準(zhǔn)確率影響最大,泊松噪聲對(duì)改進(jìn)Darknet19網(wǎng)絡(luò)分類準(zhǔn)確率影響最大,高斯噪聲對(duì)AlexNet和VGG網(wǎng)絡(luò)分類準(zhǔn)確率影響最小,泊松噪聲對(duì)LeNet網(wǎng)絡(luò)分類準(zhǔn)確率影響最小,鹽噪聲對(duì)改進(jìn)Darknet19網(wǎng)絡(luò)分類準(zhǔn)確率影響最小。對(duì)比表4、表5可知,兩種數(shù)據(jù)集的不同噪聲類型灰度圖像對(duì)4種網(wǎng)絡(luò)分類準(zhǔn)確率的最大和最小影響與彩色數(shù)據(jù)集類似。
表4 4種網(wǎng)絡(luò)對(duì)Cifar-10/BSD100彩色噪聲圖像的分類準(zhǔn)確率Table 4 Classification accuracy of Cifar-10/BSD100color noise images by four networks
表5 4種網(wǎng)絡(luò)對(duì)Cifar-10/BSD100灰度噪聲圖像的分類準(zhǔn)確率Table 5 Classification accuracy of Cifar-10/BSD100 grey noise images by four networks
本文研究了將卷積神經(jīng)網(wǎng)絡(luò)用于噪聲圖像分類的問(wèn)題,并將Dropout和殘差網(wǎng)絡(luò)用于Darknet19網(wǎng)絡(luò)優(yōu)化改進(jìn)。對(duì)4種深度學(xué)習(xí)分類算法經(jīng)Cifar-10數(shù)據(jù)集訓(xùn)練后,并用Cifar-10和BSD100測(cè)試集測(cè)試得出,改進(jìn)的Darknet19網(wǎng)絡(luò)分類準(zhǔn)確率最高,該噪聲圖像分類網(wǎng)絡(luò)能有效改善現(xiàn)有依靠專業(yè)人員手工分類和傳統(tǒng)SVM分類算法效率低的問(wèn)題。同時(shí),通過(guò)64組對(duì)比實(shí)驗(yàn)分析了不同噪聲類型對(duì)網(wǎng)絡(luò)分類準(zhǔn)確率的影響問(wèn)題。由于現(xiàn)有噪聲圖像訓(xùn)練集都是依靠算法人為增加高斯噪聲、泊松噪聲、鹽噪聲和斑點(diǎn)噪聲,未能采集生活場(chǎng)景中的真實(shí)噪聲圖像用于網(wǎng)絡(luò)訓(xùn)練和測(cè)試。因此,接下來(lái)的研究任務(wù)主要集中于解決生活場(chǎng)景中的噪聲圖像分類問(wèn)題,用噪聲圖像分類網(wǎng)絡(luò)解決現(xiàn)實(shí)問(wèn)題。