陳思敏,王培珍,余 晨
(安徽工業(yè)大學(xué)電氣與信息工程學(xué)院,安徽馬鞍山243000)
高爐瓦斯灰[1]是工業(yè)冶煉中產(chǎn)生的副產(chǎn)物,其密度細小,顆粒狀,是嚴重污染環(huán)境的固體廢棄物,會對人身體造成傷害.但其含有大量的金屬氧化物及含碳化合物,屬于可利用的二次資源,如果不加以回收利用,是對金屬氧化物資源的一種浪費. 因此對于瓦斯灰顯微圖像的分類識別研究具有重要的意義. 目前有許多學(xué)者對瓦斯灰顯微圖像做了研究,如Guo[2]等人提出使用最大類間方差方法提取瓦斯灰圖像目標(biāo)區(qū)域,雖然有一定的效果但是需要手動去除背景雜志,無法實現(xiàn)自動識別效果. 利用計算機視覺對瓦斯灰顯微圖像識別的應(yīng)用,可以實現(xiàn)快速準(zhǔn)確的識別效果,如唐艷艷[3]等人根據(jù)瓦斯灰顯微圖像的顏色,紋理特征的差異提出基于MeanShift算法進行聚類識別. 近年來,隨著計算機視覺的快速發(fā)展,深度學(xué)習(xí)技術(shù)被廣泛運用于各個領(lǐng)域,尤其是在圖像識別方面取得了巨大的進步.卷積神經(jīng)網(wǎng)絡(luò)[4]是深度學(xué)習(xí)的經(jīng)典網(wǎng)絡(luò)之一,可以實現(xiàn)多特征目標(biāo)識別分類.隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,AlexNet、VggNet、GoogLeNet、ResNet 等[5]模型被提出. 隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,圖像的識別率也相應(yīng)提高. 因此,本文提出基于ResNet50 網(wǎng)絡(luò)的瓦斯灰顯微圖像的自動分類模型,通過深層卷積殘差網(wǎng)絡(luò)對瓦斯灰顯微圖像進行多層次卷積運算,提取圖像的深層隱含特征,從而提高圖像識別率.
卷積網(wǎng)絡(luò)分類器以端到端的多層方式進行集成,通過網(wǎng)絡(luò)層數(shù)量的疊加豐富圖像的特征. 第一代經(jīng)典的LeNet網(wǎng)絡(luò)模型集成了5層卷積層,后來學(xué)者在此基礎(chǔ)上疊加網(wǎng)絡(luò)層數(shù),逐漸發(fā)展為8 層的AlexNet 模型、19 層的VggNet 模型、以及22 層的GoogLeNet模型.大量實驗表明,卷積層數(shù)的加深可以增強網(wǎng)絡(luò)的學(xué)習(xí)能力,提高圖像的分類準(zhǔn)確率.但是同時網(wǎng)絡(luò)層數(shù)的加深會帶來隨機梯度消失[6]問題,當(dāng)網(wǎng)絡(luò)準(zhǔn)確率達到飽和狀態(tài)時會出現(xiàn)迅速下降,導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)最高不能超過20層.2015年何凱明提出的ResNet模型[7]通過殘差網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)提高到152 層,并將錯誤率降低了3.75%.殘差網(wǎng)絡(luò)的出現(xiàn)大大提高了圖像的識別率.
ResNet 網(wǎng)絡(luò)不僅可以大大的加深卷積神經(jīng)網(wǎng)絡(luò)的層數(shù),而且有效地解決了因?qū)訑?shù)疊加導(dǎo)致的訓(xùn)練誤差增大的問題.ResNet的關(guān)鍵在于在網(wǎng)絡(luò)結(jié)構(gòu)上加入了恒等映射[6(]Identity Mapping).恒等映射不會加深網(wǎng)絡(luò)的參數(shù),相當(dāng)于一個退化的淺層網(wǎng)絡(luò).如圖1所示,其中x代表輸入圖像,F(xiàn)(x)為經(jīng)過卷積操作的輸出,H(x)為理想映射輸出,H(x)=F(x)+x,F(xiàn)(x)=( ω3δ( ω2δ(ω1x) )),其中ω 代表卷積操作,δ代表激活函數(shù).為解決網(wǎng)絡(luò)層數(shù)增加而導(dǎo)致誤差增大的問題,只需將F(x)趨近于0就構(gòu)成了恒等映射關(guān)系H(x)=x,通過擬合殘差函數(shù)F(x)代替擬合輸出H(x)函數(shù),使得網(wǎng)絡(luò)的輸出對輸入x之間微小變動變得更加敏感.
圖1 殘差網(wǎng)絡(luò)單元[6]
本文模型在Vgg19基礎(chǔ)上將網(wǎng)絡(luò)層數(shù)增加到50層,為了解決卷積網(wǎng)絡(luò)層數(shù)的加深出現(xiàn)梯度消失的問題,在每一卷積層后加入了BN(BatchNorm)層[6],即對數(shù)據(jù)進行正則化. BN 層的加入解決了梯度消失的問題,但是沒能解決網(wǎng)絡(luò)的退化問題.基于此,在50層普通網(wǎng)絡(luò)上加入兩層殘差學(xué)習(xí)單元,即每兩層卷積層之間加入跳躍連接,構(gòu)成一個殘差塊[6],如圖2 所示. 雖然殘差網(wǎng)絡(luò)每兩層卷積層之間多了一個連接模塊,但是不影響網(wǎng)絡(luò)的參數(shù),如果輸入的通道數(shù)相同可以直接相加,如果輸入的通道不同,需要通過卷積操作來調(diào)整維數(shù).為了防止出現(xiàn)過擬合現(xiàn)象,本文模型在卷積層的最后加入了Dropout層[8]和全連接層. Dropout 層的作用是減少中間層的特征數(shù)量,減少數(shù)據(jù)冗余,增加每層數(shù)據(jù)的正交性.全連接層通過1×1 的卷積核將特征圖映射到一維向量,增強網(wǎng)絡(luò)輸出特征的表達能力.
圖2 殘差塊圖
ResNet50 模型由49 層卷積層和1 層全連接層構(gòu)成,如圖3 所示,網(wǎng)絡(luò)可以分為七個部分,第一部分為不加殘差塊的卷積層,包含卷積、正則化、激活、最大池化操作. 第二部分到第五部分加入了殘差塊,其中CONV BLOCK 代表添加維度的殘差塊,CONV BLOCK X2代表兩個維度不變的殘差塊.每個殘差塊包含三個卷積層,所以有1+3×(3+4+6+3)=49 塊. 輸入的圖像大小為224×224×3,經(jīng)過49 層卷積操作后輸出的特征圖為7×7×2048,最后輸入全連接層FC 中,將數(shù)據(jù)特征映射到一維向量中,經(jīng)softmax分類器輸出每個圖像對于類別的概率.
Softmax 適用于多目標(biāo)分類[9],因此本文使用softmax分類器對圖像進行分類.softmax分類器接收的是全連接層輸出的特征向量,輸出的是每個向量對應(yīng)類別的概率,每個類別概率相加為1. 假設(shè)有N個樣本,每個樣本對應(yīng)的目標(biāo)記為yi={1,2,3…,k|k >=2},k 代表類別的個數(shù),本文的k取5. 每個樣本對應(yīng)的類別概率記為P(yi=j|xi),用假設(shè)函數(shù)fθ(xi)估計每個類別的概率:
其中θ為分類器的參數(shù).
圖3 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)圖
瓦斯灰的樣本來源于安徽省馬鞍山市鋼鐵廠.瓦斯灰顯微圖像是由制備規(guī)范的瓦斯灰樣本在偏光顯微鏡下采集得到的,主要成分為含碳物質(zhì)、灰渣及其他礦物質(zhì)[10-11].本文研究的是含碳物質(zhì)的組分,共有6種不同的成分結(jié)構(gòu)[12],如圖4所示.
圖4 瓦斯灰顯微圖像
由圖4 可見,塊狀結(jié)構(gòu)呈桃紅色,表面光滑,鑲嵌結(jié)構(gòu)和流動結(jié)構(gòu)具有顆粒感,由不同成分鑲嵌而成,類似炭亮度較小,無規(guī)則形狀,微變原煤與塊狀列橫差異較小,塊狀列橫表面具有列橫狀,紋路較明顯. 實驗中對所有圖片采取相同的預(yù)處理操作,并將圖片裁剪為224×224 大小. 每類圖片挑選350張作為訓(xùn)練集,150張作為測試集.
實驗采用Caffe 作為深度學(xué)習(xí)框架,在64 位Windows 10 操作系統(tǒng)環(huán)境下搭建ResNet50 網(wǎng)絡(luò)模型. 硬件采用Intel i5-8300H 處理器和NVIDIA GTX1060 顯卡加速網(wǎng)絡(luò)訓(xùn)練. 軟件采用Visual Studio 2013作為開發(fā)平臺,使用C++語言編寫程序.網(wǎng)絡(luò)訓(xùn)練參數(shù)為:迭代步數(shù)3000,初始學(xué)習(xí)率權(quán)值0.001,動量0.9,權(quán)值衰減0.0001.
實驗采用正確率ACC作為評價模型的指標(biāo)[6]:
其中Nall為所有類別的數(shù)目,Nr為被正確分類的數(shù)目.ACC值越大,代表分類準(zhǔn)確率越高,模型性能越好. 實驗總共迭代300 次,每100 次測試一次準(zhǔn)確率,如圖5 所示,隨著迭代次數(shù)的增多,正確率在逐步上升,當(dāng)?shù)_到1000步時,網(wǎng)絡(luò)開始收斂,正確率趨于穩(wěn)定. 其中訓(xùn)練正確率最高值為99.78%,測試正確率最高值為98.75%.
圖5 正確率曲線圖
為了增加實驗的對比性,使用AlexNet、Vgg19、ResNet34三種模型分別進行實驗,結(jié)果如表1所示.
表1 實驗結(jié)果對比
由表1 數(shù)據(jù)可以看出用,本文網(wǎng)絡(luò)模型識別圖像的正確率要高于其余三種網(wǎng)絡(luò),說明網(wǎng)絡(luò)層數(shù)的加深能夠更加抽象地提取圖像的深層特征,對圖像的分類識別能力具有較大的提升作用.從表中數(shù)據(jù)還可以看出,使用softmax分類器對圖像進行分類相比于SVM 分類器訓(xùn)練正確率提升1.27%,測試正確率提升1.52%,說明對于多分類模型,softmax分類器要優(yōu)于SVM.
本文針對瓦斯灰顯微圖像的特點,提出了基于深度卷積殘差網(wǎng)絡(luò)的分類方法,對瓦斯灰顯微圖像進行自動分類識別.模型中殘差網(wǎng)絡(luò)有效的克服了因卷積層加深而帶來的梯度消失問題,解決了網(wǎng)絡(luò)性能退化的問題. 為了避免訓(xùn)練出現(xiàn)過擬合現(xiàn)象,在網(wǎng)絡(luò)最后加入了Dropout 層和全連接層. 最后使用softmax 分類器對圖像進行分類. 實驗結(jié)果表明,ResNet50模型具有較高的分類精度,有效的實現(xiàn)了對瓦斯灰顯微圖像的分類識別.