王國(guó)新, 王珂碩
(黑龍江科技大學(xué) 電氣與控制工程學(xué)院, 哈爾濱 150022)
我國(guó)作為一個(gè)能源大國(guó),煤礦作為一個(gè)高危產(chǎn)業(yè),各煤炭企業(yè)在井下各個(gè)關(guān)鍵的位置裝有大量的監(jiān)控?cái)z像頭,由于礦井下環(huán)境復(fù)雜、光線暗淡、噪聲干擾大。攝像頭大多被安裝在高處,因此,監(jiān)控視頻中的行人可能會(huì)存在尺寸偏小、尺度變化以及行人重疊的問題[1]。為使大量的監(jiān)控視頻能夠得到更好地利用,及時(shí)發(fā)現(xiàn)井下行人的異常,保障其安全,對(duì)井下行人檢測(cè)具有較高的價(jià)值及實(shí)際意義。
近些年,隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,井下行人檢測(cè)算法也迅速發(fā)展。張應(yīng)團(tuán)等[2]提出基于DCNN的井下行人監(jiān)測(cè)方法是對(duì)YOLO網(wǎng)絡(luò)中的第8層進(jìn)行改進(jìn)及優(yōu)化,并應(yīng)用到井下的行人檢測(cè)中。蔡麗梅[3]等為解決視頻中目標(biāo)由于被遮擋或者產(chǎn)生形變而不能判斷其是否為礦工的情況,提出利用安全帽特征對(duì)其目標(biāo)進(jìn)行檢測(cè)的算法。呂建中[4]等針對(duì)圖像質(zhì)量問題,提出一種改進(jìn)的基于模糊集理論的圖像增強(qiáng)方法,通過加入基于顏色與邊緣信息進(jìn)行目標(biāo)檢測(cè)。王琳等[5]提出的井下行人檢測(cè)方法以YOLO系統(tǒng)為基礎(chǔ),引入結(jié)合了金字塔池化模塊。李偉山等[6]利用深度學(xué)習(xí)目標(biāo)檢測(cè)的方法,基于金字塔RPN的Faster R-CNN算法實(shí)現(xiàn)了井下行人檢測(cè)。李現(xiàn)國(guó)等[7]提出的井下行人檢測(cè)的方法是以DenseNet輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)作為SSD神經(jīng)網(wǎng)絡(luò)的主干部分實(shí)現(xiàn)的。韓江洪等[8]提出通過Faster R-CNN網(wǎng)絡(luò)來實(shí)現(xiàn)井下行人定位。但各種深度學(xué)習(xí)檢測(cè)模型權(quán)重體積較大,不能很好支撐實(shí)時(shí)行人檢測(cè)。而YOLO系列的簡(jiǎn)化版本對(duì)硬件要求低、速度快,在小型設(shè)備平臺(tái)上使用更廣泛[9]。因此,改進(jìn)YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu),引入注意力機(jī)制,在更快訓(xùn)練檢測(cè)速度及更小的模型下,提高檢測(cè)精度,使其更加適合實(shí)時(shí)井下行人檢測(cè)。
YOLOv4-tiny[10]是Alexey等提出的 YOLOv4 的簡(jiǎn)化版模型。相比于 YOLOv4和YOLOv4-tiny的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單,不僅降低了對(duì)硬件的要求,減小了訓(xùn)練的計(jì)算量,提高了檢測(cè)的速度,但是其檢測(cè)精度有所下降。YOLOv4-tiny的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。YOLOv4-tiny網(wǎng)絡(luò)主要由三部分組成,包括主干特征提取網(wǎng)絡(luò)、特征金字塔和YLOLHead。其中,以CSPDarknet53-tiny網(wǎng)絡(luò)結(jié)構(gòu)作為YOLOv4-tiny的主干網(wǎng)絡(luò),并將激活函數(shù)修改為L(zhǎng)eakyReLU。通過主干特征提取網(wǎng)絡(luò),可以獲得兩個(gè)不同尺寸的特征層,即13×13和26×26的有效特征層,提取FPN的兩個(gè)特征層的加強(qiáng)特征。
圖1 YOLOv4-tiny 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 YOLOv4-tiny network structure
特征金字塔FPN主要是對(duì)經(jīng)過Backbone所獲得的兩個(gè)特征層進(jìn)行特征融合。FPN會(huì)將對(duì)尺寸為13×13的有效特征層先進(jìn)行卷積,然后進(jìn)行上采樣,與尺寸為26×26的有效特征層進(jìn)行堆疊并卷積,提高特征提取能力,最后分別生成兩個(gè)輸出通道。
研究者們將注意力機(jī)制引入到神經(jīng)網(wǎng)絡(luò)中,僅增加少量計(jì)算量,就能大大提高的原網(wǎng)絡(luò)模型的性能。ECA注意力機(jī)制[11]主要改進(jìn)了SENet,通過一種不降維的局部跨信道交互策略和自適應(yīng)選擇一維卷積核大小的方法,實(shí)現(xiàn)性能的提升。具體來說,就是在給定輸入特征的情況下,SE模塊[12]如圖2所示。
圖2 SE模塊結(jié)構(gòu)Fig. 2 SE module structure
在對(duì)每個(gè)通道全局平均池化(GAP)后,通過兩個(gè)非線性的全連接層,選擇Sigmoid函數(shù)作為其激活函數(shù)。由圖2可見,SE模塊里的兩個(gè)非線性全連接層用來捕捉非線性跨通道交互,通過降維的方式降低了模型的復(fù)雜性。深度CNN的高效通道注意(ECA)模塊不需要進(jìn)行降維就可以有效捕獲跨通道交互信息。ECA模塊的結(jié)構(gòu)如圖3所示。
圖3 ECA模塊結(jié)構(gòu)Fig. 3 ECA module structure
與SE 不同,ECA模塊也用到了全局平均池化,但是不會(huì)降低通道維數(shù)。ECA模塊捕獲局部跨通道的交互信息是通過每個(gè)通道以及通道的k個(gè)鄰居來實(shí)現(xiàn)的。值得注意的是,ECA模塊采用的是卷積核大小為k的一維快速卷積。k不僅是卷積核的大小,也代表了局部跨信道交互的覆蓋率。也就是說每個(gè)通道附近都有k個(gè)鄰居參與了注意力預(yù)測(cè)。這種注意力機(jī)制在保證了模型效率的同時(shí),也保證了計(jì)算的效果。為了避免交叉驗(yàn)證,需要對(duì)k的值進(jìn)行優(yōu)化選擇。k值可以通過總通道數(shù)C的函數(shù)自適應(yīng)地確定,計(jì)算公式為
式中:k——每個(gè)通道鄰數(shù);
C——總通道數(shù);
|x|odd——離x最近的奇數(shù)。
在 YOLOv4-tiny 中CSP結(jié)構(gòu)的尾部添加 ECA 注意力機(jī)制模塊,通過ECA計(jì)算特征圖在通道位置上的權(quán)重信息,根據(jù)計(jì)算得到的權(quán)重分配,使網(wǎng)絡(luò)能夠更多關(guān)注到特征圖中有利于檢測(cè)的行人特征信息,還可以抑制無關(guān)背景及其他非行人的次要信息,從而有效提升網(wǎng)絡(luò)模型的性能,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)YOLOv4-tiny 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Improved YOLOv4-tiny network structure
實(shí)驗(yàn)所使用的操作系統(tǒng)為 Windows10 LTSC 2019,處理器為Intel Xeon Gold 6240×2,內(nèi)存大小為 128 G,GPU 為 NVIDIA GeForce RTX2080TI×4,學(xué)習(xí)框架采用Pytorch1.8.1,編譯環(huán)境為Python 語言,運(yùn)行環(huán)境為Anaconda3。
834 Research status and application prospect of artificial intelligence technology in lung tumors
在目標(biāo)檢測(cè)任務(wù)中,常通過交并比判斷目標(biāo)檢測(cè)的效果。交并比ηIoU是一個(gè)用來評(píng)價(jià)預(yù)測(cè)精度的重要指標(biāo)。它通常用來表示標(biāo)注框與預(yù)測(cè)框的重合程度,如圖5所示。通過ηIoU的大小判斷預(yù)測(cè)框是否接近標(biāo)注框,當(dāng)ηIoU的值越接近 1 時(shí),說明預(yù)測(cè)效果越佳。
圖5 預(yù)測(cè)框與標(biāo)注框的相互交疊Fig. 5 Overlapping between prediction box and annotation box
交并比的計(jì)算公式為
(1)
式中:D——預(yù)測(cè)值;
G——標(biāo)注值。
由式(1)可知,當(dāng)預(yù)測(cè)值和標(biāo)注值交叉范圍較小時(shí),即預(yù)測(cè)值與標(biāo)注值偏差過大時(shí),ηIoU的數(shù)值會(huì)比較小,當(dāng)預(yù)測(cè)值與標(biāo)注值接近時(shí),ηIoU的數(shù)值比較大,當(dāng)預(yù)測(cè)完全正確,即預(yù)測(cè)值就是實(shí)際標(biāo)注值時(shí)ηIoU=1。
在實(shí)驗(yàn)中,使用αmAP作為評(píng)價(jià)指標(biāo)。αmAP為多類檢測(cè)模型中所有類別平均準(zhǔn)確率的平均值,αmAP的值越大越接近于1,表示模型識(shí)別定位的準(zhǔn)確率越高,αmAP的計(jì)算公式為
式中:αmAP——所有類別平均準(zhǔn)確率的平均值;
C——類別數(shù);
Pek——平均準(zhǔn)確度;
Pek的值由P-R曲線下的面積計(jì)算而得。P-R曲線是指準(zhǔn)確率P和召回率R的代數(shù)關(guān)系曲線。準(zhǔn)確率P為檢測(cè)模型預(yù)測(cè)正確的部分占所有預(yù)測(cè)結(jié)果為正樣本的比例。召回率R是檢測(cè)模型預(yù)測(cè)判斷正確的部分占所有正樣本中的比例。準(zhǔn)確率和召回率的計(jì)算公式為
式中:P——準(zhǔn)確率;
R——召回率;
TP——檢測(cè)模型檢測(cè)正確的樣本數(shù);
FP——檢測(cè)模型誤檢的樣本數(shù);
FN——檢測(cè)模型漏檢的樣本數(shù)。
為更加符合井下實(shí)際環(huán)境,實(shí)驗(yàn)所用的部分?jǐn)?shù)據(jù)集為井下真實(shí)監(jiān)控視頻中截取的圖像,如圖6所示。但由于監(jiān)控視頻資源有限,為保證數(shù)據(jù)集足夠大,滿足神經(jīng)網(wǎng)絡(luò)訓(xùn)練大量數(shù)據(jù)集的要求,在上述數(shù)據(jù)集中補(bǔ)充公共數(shù)據(jù)集VOC2012中含有行人的部分,共有11 755張圖片,其中,井下行人圖像有1 791張。
圖6 礦井下視頻截取圖像Fig. 6 Underground video capture image
為了進(jìn)行充分對(duì)比實(shí)驗(yàn),分別對(duì)加入 ECA的YOLOv4-tiny、YOLOv4-tiny、SSD300和YOLOv3模型進(jìn)行訓(xùn)練對(duì)比。將實(shí)驗(yàn)中訓(xùn)練井下行人檢測(cè)網(wǎng)絡(luò)模型的學(xué)習(xí)率為0.001,EPOCH為20,根據(jù)顯存大小,將Batch Size設(shè)為64。實(shí)驗(yàn)結(jié)果如表1所示。其中,αmAP為所有類別平均準(zhǔn)確率的平均值,P為模型參數(shù)量,vtu為訓(xùn)練速度,vte為測(cè)試速度。實(shí)驗(yàn)選取了一些井下圖像進(jìn)行對(duì)比,不同模型的檢測(cè)結(jié)果,如圖 7所示。
由表 1 可知,與模型參數(shù)量相差不大的 YOLOv4-tiny 網(wǎng)絡(luò)模型相比,文中所提的YOLOv4-tiny+ECA 模型在整個(gè)數(shù)據(jù)集中的αmAP提高了2.69%。其主要原因是加入ECA注意力機(jī)制,能夠更好關(guān)注特征圖中通道位置上的關(guān)鍵信息,更好提取圖像特征,加強(qiáng)對(duì)提取出來的特征的利用率,提高井下行人檢測(cè)的準(zhǔn)確率。盡管YOLOv3的準(zhǔn)確率高于文中所提出的模型,但其訓(xùn)練速度及測(cè)試速度慢于文中所提的模型。且YOLOv4-tiny及文中所提的YOLOv4-tiny+ECA模型的參數(shù)量遠(yuǎn)小于SSD模型和YOLOv3模型的參數(shù)量,對(duì)硬件條件相對(duì)就更低,能夠更好將模型移植到硬件當(dāng)中,各網(wǎng)絡(luò)模型訓(xùn)練時(shí)準(zhǔn)確率的迭代曲線如圖8所示。
圖7 不同模型預(yù)測(cè)結(jié)果Fig. 7 Prediction results of different models
表1 各模型訓(xùn)練結(jié)果對(duì)比
圖8 各網(wǎng)絡(luò)模型訓(xùn)練時(shí)準(zhǔn)確率的迭代曲線Fig. 8 Iterative curve of accuracy during training of each network model
由圖7和8可以看出,SSD網(wǎng)絡(luò)出現(xiàn)了漏檢的錯(cuò)誤,YOLOv3網(wǎng)絡(luò)的準(zhǔn)確率最高。對(duì)比圖7c、d,YOLOv4-tiny網(wǎng)絡(luò)的平均準(zhǔn)確率要低于YOLOv4-tiny+ECA網(wǎng)絡(luò)的平均準(zhǔn)確率,YOLOv4-tiny+ECA網(wǎng)絡(luò)的魯棒性強(qiáng)于YOLOv4-tiny網(wǎng)絡(luò)。
(1)將注意力機(jī)制融入到 YOLOv4-tiny 網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)能夠更多關(guān)注到特征圖中有利于檢測(cè)的行人特征信息,還可以抑制無關(guān)背景及其他非行人的次要信息,有效提升了網(wǎng)絡(luò)模型的性能。
(2)實(shí)驗(yàn)結(jié)果表明,在公共數(shù)據(jù)集與自制的數(shù)據(jù)集中,網(wǎng)絡(luò)的參數(shù)量和檢測(cè)速度與原網(wǎng)絡(luò)相當(dāng),但檢測(cè)準(zhǔn)確度有了明顯提高,相比于其他網(wǎng)絡(luò),準(zhǔn)確度不及YOLOv3,但文中網(wǎng)絡(luò)遠(yuǎn)快于YOLOv3,且模型參數(shù)量遠(yuǎn)小于其他網(wǎng)絡(luò),更適用于小型設(shè)備的實(shí)時(shí)井下行人檢測(cè)任務(wù)。