梁秀滿,安金銘,曹曉華,曾凱,王福斌,劉賀飛
(華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210)
優(yōu)質(zhì)的鐵礦石不僅能節(jié)約能源、降低生產(chǎn)成本,而且能減少對環(huán)境的污染,燒結(jié)作為煉鐵過程中的一個重要環(huán)節(jié),工藝過程十分復(fù)雜,包括焦炭燃料破碎、礦物配料、加水制粒、燒結(jié)及篩分等多個環(huán)節(jié)[1]。燒結(jié)終點是評價燒結(jié)成品品質(zhì)的重要依據(jù),是與燒結(jié)礦的產(chǎn)量、成本和能源消耗相關(guān)的重要工藝參數(shù)。燒結(jié)終點的判斷依據(jù),主要分為兩類:1)分析燒結(jié)工藝影響燒結(jié)終點的相關(guān)參數(shù),包括燒結(jié)機(jī)臺車速度、點火溫度、煤氣壓力、煤氣流量、負(fù)壓、終點溫度等,由于工藝的復(fù)雜性、計算的偏差,因此通用性不強(qiáng);2)基于機(jī)器視覺的燒結(jié)火焰圖像狀態(tài)分類,通過圖像處理分析料層與燒結(jié)終點的位置關(guān)系,該方法具有節(jié)省看火工人力資源、自動化程度高等優(yōu)點。燒結(jié)斷面火焰圖像的燃燒狀態(tài)能有效判斷燒結(jié)終點的位置,從而提高優(yōu)質(zhì)鐵礦的產(chǎn)出率[2]。因此,準(zhǔn)確識別燒結(jié)火焰的不同燃燒狀態(tài)對優(yōu)化鋼鐵產(chǎn)業(yè)及提高能源利用率都具有重要意義。
卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域占據(jù)著重要的地位,以強(qiáng)大的圖像特征提取能力被廣泛應(yīng)用于各種圖像分類任務(wù),取得了十分顯著的效果。近幾年,深度學(xué)習(xí)已逐步應(yīng)用在鋼鐵產(chǎn)業(yè),包括:應(yīng)用圖像分類技術(shù)的燒結(jié)看火、應(yīng)用目標(biāo)檢測技術(shù)的板坯表面質(zhì)量檢測、應(yīng)用圖像分割技術(shù)的帶式運輸機(jī)皮帶跑偏檢測以及鐵水包扒渣識別等[3]。2012年,AlexNet 網(wǎng)絡(luò)[4]的出現(xiàn)標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)逐步走向深度學(xué)習(xí)。ResNet 網(wǎng)絡(luò)[5]解決了卷積網(wǎng)絡(luò)隨著卷積層的加深出現(xiàn)的梯度消失、梯度爆炸等網(wǎng)絡(luò)退化問題,但由于參數(shù)過多導(dǎo)致模型訓(xùn)練速度不理想。MobileNet 網(wǎng)絡(luò)[6]中的深度可分離網(wǎng)絡(luò)能夠在不影響識別準(zhǔn)確率的情況下提升模型運行速度。卷積神經(jīng)網(wǎng)絡(luò)善于提取局部信息,然而,燒結(jié)火焰圖像的大面積火焰區(qū)域依賴于全局特征信息,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類,使得火焰識別任務(wù)的效率低,準(zhǔn)確率難以提升。近年來,Transformer 在自然語言處理取得了重大的研究進(jìn)展,其在圖像分類也得到了廣泛的應(yīng)用。ViT網(wǎng)絡(luò)[7]將Transformer 應(yīng)用在圖像分類任務(wù)上,但無法建模一張圖片的局部信息。
通過上述分析,本研究結(jié)合CNN 網(wǎng)絡(luò)善于提取局部特征和Transformer 更加聚焦于全局特征信息的特點,構(gòu)建了一種基于CNN-Transformer 雙流網(wǎng)絡(luò)分類模型,以解決燒結(jié)火焰利用單流網(wǎng)絡(luò)結(jié)構(gòu)提取特征信息不全面的問題,從而提高燒結(jié)火焰圖像分類識別精度。
卷積神經(jīng)網(wǎng)絡(luò)利用卷積核對圖像的像素進(jìn)行卷積運算,然后得到特征映射矩陣,提取相應(yīng)位置的局部特征,雖然可以通過擴(kuò)大感受野捕捉全局特征,但這可能需要更密集但具有破壞性的池化操作,例如RseNet-18[5]由于中間池化層缺乏細(xì)粒度的全局上下文建模,難以獲取燒結(jié)火焰全局圖像信息,從而影響分類識別精度。Transformer 將圖像分成固定大小的patch,然后通過線性變換得到patch embedding,最后使用注意力機(jī)制,編碼圖像特征矩陣的任意兩個位置反映了復(fù)雜的空間變換和長距離特征依賴性,構(gòu)成了全局表示,但受限于計算復(fù)雜度,Transformer 需要減小輸入分辨率、增大下采樣步長,這造成切分patch 階段損失圖像細(xì)節(jié)信息,忽略了局部特征細(xì)節(jié),降低了背景和前景之間的可辨別性。因此,本文為了提高火焰識別的準(zhǔn)確率,在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)引入Transformer結(jié)構(gòu),構(gòu)建Transformer 全局特征流,與CNN 流局部特征流進(jìn)行特征融合建模雙流網(wǎng)絡(luò)。
根據(jù)燒結(jié)斷面火焰圖像的特點,RGB(redgreen-blue)彩色火焰圖像具有更加細(xì)粒度的局部特征信息,利用CNN 流提取彩色圖像中更多顏色通道的細(xì)粒度局部信息,能夠增強(qiáng)與全局信息的交互性。燒結(jié)火焰狀態(tài)分類同時依賴于火焰的全局表觀特征,利用Transorformer 流提取灰度火焰圖像中的全局特征信息,在滿足全局表觀特征信息的需求下,加快了模型運行速度。然后,利用級聯(lián)交互特征融合模塊,將CNN 流提取的局部特征與Transformer 流提取的全局特征進(jìn)行融合,得到具有全局性且細(xì)粒度的燒結(jié)火焰特征信息。整體網(wǎng)絡(luò)模型如圖1 所示,該網(wǎng)絡(luò)模型包括:基于ResNet-18 的CNN 模塊、基于ViT 的Transformer 模塊、特征融合和softmax 損失函數(shù)。
圖1 CNN-Transformer 雙流網(wǎng)絡(luò)模型Fig.1 CNN-Transformer two-stream network model
充分利用卷積神經(jīng)網(wǎng)絡(luò)局部感知的特點,可以有效地提取燒結(jié)斷面火焰空間局部信息,因此雙流網(wǎng)絡(luò)基于卷積神經(jīng)網(wǎng)絡(luò)設(shè)計了CNN 流。綜合考慮燒結(jié)斷面火焰圖像的小數(shù)據(jù)集和網(wǎng)絡(luò)模型訓(xùn)練效率的問題,選取ResNet-18 作為CNN 流的骨干網(wǎng)絡(luò)結(jié)構(gòu),并改變網(wǎng)絡(luò)殘差結(jié)構(gòu)為深度可分離卷積結(jié)構(gòu)。
深度可分離卷積包含兩種卷積結(jié)構(gòu):深度卷積(DW)和逐點卷積(PW),如圖2 所示。首先,深度卷積對輸入特征圖的每個通道利用3×3 卷積層獨立進(jìn)行卷積運算,得到相同數(shù)量的特征;然后,將輸出的特征圖經(jīng)過1×1 卷積核進(jìn)行通道數(shù)的加權(quán)組合。采用深度可分離卷積能夠使網(wǎng)絡(luò)在不影響準(zhǔn)確率的前提下明顯降低網(wǎng)絡(luò)計算量,獲得更高效的輕量化網(wǎng)絡(luò)[8]。
圖2 深度可分離卷積結(jié)構(gòu)Fig.2 Structure diagram of depth separable convolution
雖然CNN 流利用深度可分離卷積的ResNet-18 網(wǎng)絡(luò)提取了局部特征信息,但未能根據(jù)燒結(jié)火焰圖像大面積火焰區(qū)域很好地提取全局特征信息。因此,為了更好地保留燒結(jié)斷面火焰圖像的空間信息,引入Transformer 流對燒結(jié)火焰圖像特征提取進(jìn)行補充。
Transformer 結(jié)構(gòu)對圖像進(jìn)行全局self-attention,得到較好的全局信息特征,適用于有大面積火焰區(qū)域的燒結(jié)圖像,由于燒結(jié)火焰圖像以位置信息、火焰區(qū)面積等特征進(jìn)行火焰狀態(tài)的分類,因此將RGB 彩色圖像轉(zhuǎn)化為灰度圖輸入Transformer 流中,減少參數(shù)量提升模型訓(xùn)練速度,同時不損失全局特征信息。Transformer 是以MSA(mutil-head attention)多頭注意力為基礎(chǔ)的模塊,注意力根據(jù)輸入特征的重要程度進(jìn)行權(quán)重匹配。
該結(jié)構(gòu)為多個單頭注意力并行,但由于自注意力計算方式的特點,架構(gòu)推理速度被嚴(yán)重限制。EdgeNeXt[9]的分割深度轉(zhuǎn)置注意編碼器(SDTA)中自注意力計算模塊使以往查詢矩陣Q(HW×C)、鍵矩陣QT(C×HW)之間的空間維度計算轉(zhuǎn)變?yōu)橥ǖ谰S度上的注意力計算,僅對查詢矩陣進(jìn)行轉(zhuǎn)置,得到C×C矩陣,可以更加有效地編碼全局上下文。計算公式如式(1)所示,對圖像特征矩陣進(jìn)行線性變換。
式中:Q為查詢矩陣;K為鍵矩陣;V為值矩陣;SAc為通道self-attention 計算;Wo為特征融合矩陣。
CNN-Transformer 雙流網(wǎng)絡(luò)將卷積結(jié)構(gòu)與Transformer 結(jié)構(gòu)的優(yōu)點有效結(jié)合,提高燒結(jié)火焰圖像的分類識別精度。ZADEH A 提出的TFN(tensor fusion network)[10]特征融合方式將提取的特征進(jìn)行維度擴(kuò)增,然后對不同特征求笛卡爾積,不僅計算了兩個特征空間的相關(guān)性,而且保留了各自的特定特征信息。但該方法增加了特征維度,導(dǎo)致模型參數(shù)量增大,模型容易過擬合。低秩多模態(tài)融合(LMF,low-rank multimodal fusion)[11]利用低秩權(quán)重張量和輸入張量的并行分解來計算基于張量的融合,解決了TFN 維度增加的問題,降低了時間復(fù)雜度。但CNN 流和Transformer 流的特征維度不同,上述特征融合方式無法將全局特征與局部特征精準(zhǔn)地相互嵌入,使得識別精度不高。
為了更好地融合CNN 流提取的局部特征與Transformer 流提取的全局特征,加入特征耦合單元(FCU)[12]和級聯(lián)的融合策略。FCU 為一種交互性的方式將兩路網(wǎng)絡(luò)獲取的特征融合,逐步融合特征圖和patch embedding。這種交互特征融合方式的優(yōu)點是特征信息交互共享,但兩路網(wǎng)絡(luò)信息交互過程中也會不可避免地?fù)p失較多信息。為了解決這個問題,本文提出了一種新的基于級聯(lián)特征耦合單元(cascading feature coupling units,C-FCU)的特征融合模塊,可以獲取更全局且具體的特征表達(dá)。
所提出的特征融合模塊如圖3 所示。由于CNN 和Transformer 的特征維度不一致,因此利用1×1 卷積和上下采樣來實現(xiàn)維度和通道的對齊。當(dāng)饋送到Transformer 分支時,特征圖首先需要通過1×1 卷積來對齊patch embedding 的通道數(shù),然后使用下采樣模塊完成空間維度對齊。FCU 下采樣僅采用平均池化來壓縮信息,受到文獻(xiàn)[13]啟發(fā),本文將最大池化與平均池化結(jié)合,最大池化能夠編碼目標(biāo)的顯著性信息,可以更加精準(zhǔn)地將CNN流的分辨性較強(qiáng)的特征信息交互到Transformer流。當(dāng)從Transformer branch 反饋到CNN 分支時,patch embedding 需要雙線性插值上采樣以對齊空間尺度,然后通過1×1 卷積將通道維度與CNN 特征圖的維度對齊,最后將兩路網(wǎng)絡(luò)輸出的特征進(jìn)行級聯(lián)操作,即得到了級聯(lián)交互特征融合圖。整體運算過程如下:
圖3 級聯(lián)特征耦合單元Fig.3 Cascading feature coupling units
式中:hC表示CNN 流局部特征圖;hT表示Transformer 流全局特征圖;hC-T表示CNN 流交互到Transformer流的特征圖;hT-C表示Transformer 流交互到CNN 流的特征圖;hFF表示融合后的特征圖;kn×n表示n×n卷積核;σ1表示GELU 激活函數(shù);σ2表示ReLU 激活函數(shù);AvgPool 表示平均池化運算;MaxPool表示最大池化運算,Interpolate 表示雙線性插值;[*]表示級聯(lián)(cascading)操作。
最后,將融合后的特征輸入到softmax 損失函數(shù)層中,預(yù)測3 種火焰燃燒狀態(tài)的概率,進(jìn)而實現(xiàn)燒結(jié)火焰圖像正常燃燒、過燒以及欠燒狀態(tài)的分類。
本研究試驗自建火焰數(shù)據(jù)集,采集的圖像來源于唐鋼320 m2燒結(jié)機(jī)的燒結(jié)機(jī)尾斷面火焰圖像,數(shù)據(jù)集中的類別可分為正常燒結(jié)、欠燒和過燒3 種狀態(tài),如圖4 所示,正常燃燒火焰能量的剖面分布成正態(tài)分布,火焰面積大,燒結(jié)過程中礦粉利用率高,煉鐵成品率高;而欠燒圖像和過燒圖像能量剖面分布成非正太分布,火焰面積均減少,浪費燃料并且不符合生產(chǎn)要求。
圖4 燒結(jié)斷面3 種火焰狀態(tài)圖像Fig.4 Three flame state images of sintered section
火焰圖像數(shù)據(jù)預(yù)處理是為了提高網(wǎng)絡(luò)的泛化性能,抑制網(wǎng)絡(luò)模型過擬合,并提高網(wǎng)絡(luò)模型訓(xùn)練速度,本研究實驗采用3 種方法:
1)對獲得的燒結(jié)結(jié)尾斷面火焰圖像進(jìn)行數(shù)據(jù)擴(kuò)增,包括隨機(jī)旋轉(zhuǎn)、水平和垂直翻轉(zhuǎn)、調(diào)整圖像的亮度飽和度、對比度等方式;
2)采集到的圖像受燒結(jié)環(huán)境中煙氣、粉塵的影響,導(dǎo)致火焰圖像模糊、噪聲退化,選取部分原始數(shù)據(jù)集中的燒結(jié)火焰圖像進(jìn)行圖像復(fù)原并劃入數(shù)據(jù)集中;
3)燒結(jié)斷面火焰圖像有大面積的背景區(qū)域,火焰圖像背景區(qū)域具有大量的冗余信息,其特征對斷面火焰圖像的識別分類影響不大,為了減少網(wǎng)絡(luò)背景區(qū)域的特征學(xué)習(xí)所消耗的時間,對部分?jǐn)?shù)據(jù)集中的圖像進(jìn)行火焰目標(biāo)區(qū)域分割與背景區(qū)域的分割。
圖像預(yù)處理后的數(shù)據(jù)集數(shù)量為原來的10倍,共13 116 張圖像,包括正?;鹧鎴D像6 447張,過燒圖像4 305張,欠燒圖像2 364 張。
本次實驗環(huán)境硬件訓(xùn)練平臺為:32 G Intel(R)Xeon(R)E7 CPU,12 G 顯存NVIDIA-RTX3060Ti GPU;軟件平臺為:操作系統(tǒng)Ubuntu20.04,深度學(xué)習(xí)框架PyTorch1.8.0 實現(xiàn)網(wǎng)絡(luò)模型訓(xùn)練,編程語言Anaconda3,并行計算架構(gòu)CUDA11 和GPU 加速庫CUDNN8.2.1 等。
為了比較不同訓(xùn)練參數(shù)在訓(xùn)練過程中對CNNTransformer 雙流網(wǎng)絡(luò)模型的影響,本實驗分別選用了隨機(jī)梯度下降(SGD)優(yōu)化器和自適應(yīng)矩估計(Adam)優(yōu)化器,設(shè)置學(xué)習(xí)率為0.01、0.001 和0.000 1,批大小選取8、16、32 進(jìn)行對比試驗。學(xué)習(xí)率控制了基于損失梯度調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)值的速度。如果學(xué)習(xí)率較小,梯度下降就會很慢;如果學(xué)習(xí)率較大,則梯度下降步長超過最優(yōu)值。經(jīng)過多次試驗調(diào)參后,最后選擇隨機(jī)梯度下降法(SGD),當(dāng)學(xué)習(xí)率為0.001、動量參數(shù)為0.937、批大小為32、權(quán)重衰減率為0.000 5時,測試集準(zhǔn)確率可達(dá)96.20%,實驗效果對比如表1 所示。
表1 CNN-Transformer 網(wǎng)絡(luò)模型在不同參數(shù)下學(xué)習(xí)效果對比Table 1 Comparison of learning effects of CNN-Transformer network models under different parameters
針對如何將局部特征和全局表示精確地相互嵌入的問題,本研究實驗在燒結(jié)斷面火焰圖像數(shù)據(jù)集上對比了不同的特征融合方法對網(wǎng)絡(luò)的影響,包括TFN、LMF、FCU 和本文提出的級聯(lián)特征耦合單元(C-FCU)的特征融合方式,如表2 所示。實驗結(jié)果表明,F(xiàn)CU 特征融合對比TFN、LMF 特征融合方法火焰識別準(zhǔn)確率有較為明顯的提升,這是由于FCU 可實現(xiàn)CNN 流和Transformer 流的精準(zhǔn)特征交互。然而,由于特征在交互過程中導(dǎo)致部分信息丟失,因此C-FCU 特征融合方法對CNN-Transformer 雙流網(wǎng)絡(luò)分類火焰狀態(tài)準(zhǔn)確率效果較好,網(wǎng)絡(luò)模型準(zhǔn)確率可達(dá)96.20%,相較于FCU 方法提升了1.06 個百分點。
表2 不同特征融合方法結(jié)果對比Table 2 Comparison of results of different feature fusion methods
此外為進(jìn)一步驗證所提雙流網(wǎng)絡(luò)中CNN 流和Transformer 流的有效性,在燒結(jié)斷面火焰圖像數(shù)據(jù)集上進(jìn)行了詳細(xì)的消融實驗。表3 為所提方法的消融實驗結(jié)果,其中CNN 流為ResNet18 框架基礎(chǔ)上將殘差結(jié)構(gòu)替換為深度可分離卷積結(jié)構(gòu),Transformer 流的骨干網(wǎng)絡(luò)為ViT,自注意力計算由空間轉(zhuǎn)換到通道維度上。實驗結(jié)果表明,本文所提的CNN-Transformer 算法的分類精度要高于CNN流和Transformer流,在火焰圖像數(shù)據(jù)集上的準(zhǔn)確率分別提高3.69%和2.2%,這表明CNN-Transformer 算法能夠有效地提取并融合燒結(jié)斷面火焰像中的局部信息和全局信息,使得特征表達(dá)更加具有鑒別力,進(jìn)一步提高火焰分類的精度。
表3 CNN-Transformer 算法的消融實驗Table 3 Ablation experiment of CNN-Transformer algorithm
為了驗證本文算法的有效性和先進(jìn)性,在燒結(jié)火焰圖像數(shù)據(jù)集上,將本文算法與現(xiàn)有的主流圖像分類方法進(jìn)行比較,如表4 所示。需要說明的是,所有算法均采用相同的實驗條件。從對比實驗結(jié)果可以看出,本文提出的雙流網(wǎng)絡(luò)模型的性能均優(yōu)于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)ResNet18 和InceptionV3;相較于輕量化卷積神經(jīng)網(wǎng)絡(luò)模型MobileNet-V2,本文模型分類精度提高8.85 個百分點;對比Transformer結(jié)構(gòu)的ViT 網(wǎng)絡(luò)模型,只有其近23%的模型復(fù)雜度,本文模型分類精度提高5.71 個百分點。這表明雙流網(wǎng)絡(luò)模型火焰分類效果優(yōu)于單流網(wǎng)絡(luò)模型。同時對比主流的特征融合網(wǎng)絡(luò),包括Conformer[12]和CMT[16],同樣融合了基于CNN 和Transformer 兩個分支提取的特征,Conformer 網(wǎng)絡(luò)模型采用FCU特征交互方式進(jìn)行融合,CMT 網(wǎng)絡(luò)模型將CNN 層插入Transformer 結(jié)構(gòu)以提取特征。實驗結(jié)果表明,相較于Conformer 和CMT 模型,本文模型參數(shù)量減少幾乎近一半,分類準(zhǔn)確率分別提升了1.85和1.2 個百分點,模型訓(xùn)練時間減少12.6 min 和15.04 min,網(wǎng)絡(luò)運行速度為25.78 f/s,能夠滿足快速識別燒結(jié)火焰狀態(tài)的要求。這表明深度可分離卷積和通道維度的注意力使得網(wǎng)絡(luò)模型更加輕量化,同時采用C-FCU 特征融合方法取得了與目前主流方法更優(yōu)的分類準(zhǔn)確率。
表4 CNN-Transformer 雙流網(wǎng)絡(luò)模型與其他模型學(xué)習(xí)效果對比Table 4 Comparison of learning effects between CNNTransformer dual-stream network model and other models
傳統(tǒng)的CNN 算法使用局部感受野來進(jìn)行特征捕獲,無法直接對燒結(jié)斷面火焰圖像全局環(huán)境進(jìn)行建模。因此,本文提出面向燒結(jié)機(jī)尾斷面火焰圖像的CNN-Transformer 雙流網(wǎng)絡(luò)。該算法包含兩個組成部分:CNN 流和Transformer 流。CNN 流將深度可分離卷積的ResNet-18 模型提取的特征作為火焰場景的局部表達(dá);Transformer 流基于自注意力獲取上下文信息來提取火焰圖像的全局表達(dá)。CNN-Transformer 網(wǎng)絡(luò)模型有效融合了這兩種特征,相較于一些現(xiàn)有的方法對火焰圖像進(jìn)行分類,分類精度取得了令人滿意的結(jié)果。本研究用圖像識別在線判斷燒結(jié)終點,對減輕工人勞動強(qiáng)度、提高系統(tǒng)自動化程度、實現(xiàn)鋼鐵工業(yè)智能制造等具有重大工業(yè)應(yīng)用價值,強(qiáng)化深度學(xué)習(xí)在鋼鐵工業(yè)的實際應(yīng)用。