邱 芳,李玉峰,孔才華
(1.沈陽(yáng)地鐵集團(tuán)有限公司運(yùn)營(yíng)分公司,沈陽(yáng) 110011;2.沈陽(yáng)航空航天大學(xué)電子信息工程學(xué)院,沈陽(yáng) 110136)
近年來(lái),城市軌道交通快速發(fā)展,地鐵已成為市民出行的主要交通工具。地鐵車廂乘客密度大,客流復(fù)雜,科學(xué)合理地實(shí)時(shí)檢測(cè)車廂乘客,可指導(dǎo)乘客安全出行,保障安全運(yùn)營(yíng)[1]。國(guó)內(nèi)外學(xué)者針對(duì)目標(biāo)檢測(cè)在地鐵領(lǐng)域的應(yīng)用做了大量研究。例如方晨晨等人[2]提出基于BP神經(jīng)網(wǎng)絡(luò)的地鐵車廂下車人數(shù)短時(shí)預(yù)測(cè)方法;楊譜等人[3]利用紋理分析和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)地鐵人群密度進(jìn)行預(yù)測(cè);勞超勇等人[4]利用Wi-Fi探針實(shí)現(xiàn)對(duì)地鐵站內(nèi)擁擠點(diǎn)客流量的統(tǒng)計(jì)。各方法在客流預(yù)測(cè)中取得一定效果,但對(duì)車廂乘客目標(biāo)檢測(cè)涉及不多。談世磊等人[5]利用YOLOv5模型對(duì)人員口罩佩戴進(jìn)行實(shí)時(shí)檢測(cè),實(shí)驗(yàn)階段具有一定優(yōu)勢(shì),但實(shí)用性有待驗(yàn)證。YOLOv5算法是基于回歸思想的目標(biāo)檢測(cè)[6-8],將檢測(cè)與類別區(qū)分開[9],按照其深度和寬度的不同,分為YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5算法速度快,可快速部署,相比傳統(tǒng)檢測(cè)方法,精度和速度都有所提升,但是對(duì)小目標(biāo)和密集目標(biāo)檢測(cè)性能仍然較弱。針對(duì)以上方法目標(biāo)檢測(cè)性能差、檢測(cè)方法單一等問(wèn)題,在此提出注意力模塊(CBAM)與YOLO v5m主干網(wǎng)絡(luò)層進(jìn)行融合改進(jìn),在通道和空間維度提高檢測(cè)目標(biāo)的特征提取能力,從而提高目標(biāo)檢測(cè)性能。該模型權(quán)重小、速度快,可滿足對(duì)地鐵車廂乘客實(shí)時(shí)檢測(cè)的要求。
YOLOv5算法網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。按照?qǐng)?zhí)行順序,處理過(guò)程可分為四個(gè)層次:輸入端(Input)、骨干網(wǎng)絡(luò)層(Backbone)、中間層(Neck)網(wǎng)絡(luò),以及預(yù)測(cè)層(Prediction)[10]。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
輸入端主要完成Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放等基本圖像處理任務(wù)。骨干網(wǎng)絡(luò)層作為主干網(wǎng)絡(luò),增加了Focus結(jié)構(gòu)和CSP結(jié)構(gòu),主要是通過(guò)深度卷積操作提取輸入圖像不同層次特征,其中Focus結(jié)構(gòu)主要是對(duì)輸入端的圖像進(jìn)行壓縮、整合得到圖像特征圖,Bottle net CSP結(jié)構(gòu)通過(guò)減輕網(wǎng)絡(luò)模型參數(shù)量,來(lái)提高模型精度和速度。Neck層使用特征圖金字塔網(wǎng)絡(luò)(FPN)及路徑聚合結(jié)構(gòu)(PAN),進(jìn)一步加強(qiáng)Backbone層提取的不同層次圖像特征的特征融合,提升目標(biāo)檢測(cè)性能。Prediction層做預(yù)測(cè),利用加權(quán)NMS對(duì)多目標(biāo)框進(jìn)行篩選,獲得最優(yōu)目標(biāo)框,主要預(yù)測(cè)不同層次特征圖的不同尺寸目標(biāo)[11]。
注意力學(xué)習(xí)機(jī)制在深度學(xué)習(xí)領(lǐng)域已成為重要的實(shí)用工具,原理上可提升模型的性能,并在細(xì)粒度分類和目標(biāo)檢測(cè)方面效果顯著,可以在有限的資源環(huán)境下,從無(wú)關(guān)背景下篩選出重要的目標(biāo)區(qū)域[12]。注意力機(jī)制是對(duì)特征圖進(jìn)行注意力重構(gòu),突出特征圖中的重要信息,抑制一般信息,其中主要包括通道注意力、空間注意力、混合注意力、自注意力和類別注意力等。
混合注意力機(jī)制CBAM是在原有的通道注意力(CAM)的基礎(chǔ)上,銜接了一個(gè)空間注意力(SAM)模塊的綜合特征注意力方法,使得檢測(cè)性能在通道維度和空間維度得到提升。CBAM作為一個(gè)輕量型的通用模型模塊,可集成到任何CNN框架上,計(jì)算量可忽略不計(jì),其結(jié)構(gòu)圖如圖2所示[13]。
圖2 CBAM結(jié)構(gòu)圖
對(duì)于輸入的三維特征F∈RC×H×W,通過(guò)將通道注意力和空間注意力級(jí)聯(lián)使用,對(duì)輸入的特征圖進(jìn)行平均池化和最大池化操作壓縮,得到平均池化特征Fsavgfavg和最大池化特征Fcavgfmax,減少單一池化操作對(duì)特征信息的影響,再將兩個(gè)特征傳送到由多層感知器和隱含層共同構(gòu)成的共享網(wǎng)絡(luò),生成通道注意力特征Mc(F)∈RC×1×1,利用特征間的空間關(guān)系,生成空間注意力模塊所需的特征。與通道注意力不同,空間注意力通過(guò)通道上的平均和最大池化操作,生成平均池化特征Fsavgfavg∈R1×H×W和最大池化特征Fcavgfmax∈R1×H×W,將兩個(gè)特征拼接串聯(lián)。通過(guò)7×7卷積操作行降維和使用Sigmoid函數(shù)進(jìn)行歸一化,生成空間注意力特征Ms(F)∈RC×1×1,將空間注意力所需模塊與空間注意力特征做乘法,便可得到最終特征圖。
YOLOv5采用卷積和池化對(duì)圖像特征進(jìn)行提取,在模型的快速部署上具有很強(qiáng)的優(yōu)勢(shì)。但是隨著不斷加深加寬網(wǎng)絡(luò),性能雖有提升但檢測(cè)速度卻急劇增加。為進(jìn)一步提升網(wǎng)絡(luò)性能,解決YOLOv5對(duì)地鐵車廂乘客目標(biāo)檢測(cè)精度低、檢測(cè)正確性差的問(wèn)題,將計(jì)算量較小的CBAM模塊進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)融合,模型命名為YOLOv5-C,在通道和空間維度方面加以改良,提高網(wǎng)絡(luò)對(duì)檢測(cè)目標(biāo)的提取能力,提高檢測(cè)性能。YOLOv5-C主干網(wǎng)絡(luò)模塊結(jié)構(gòu)如圖3。
圖3 YOLOv5-C主干網(wǎng)絡(luò)模塊結(jié)構(gòu)圖
融合后網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入的三維特征圖進(jìn)行通道注意力和空間注意力的池化、卷積降維、Sigmoid函數(shù)歸一化處理等操作,獲得新的空間特征。經(jīng)處理后特征圖中的重要信息更加突出,一般信息得到抑制,目標(biāo)特征信息得到更好的全局把握。
實(shí)驗(yàn)研究的是空間狹小、密閉和環(huán)境更為復(fù)雜的地鐵車廂內(nèi)乘客的目標(biāo)檢測(cè)。車廂內(nèi)攝像機(jī)實(shí)際是按照俯視角度進(jìn)行車廂內(nèi)乘客拍攝,因此進(jìn)行目標(biāo)檢測(cè)時(shí)只考慮乘客的頭部即可。通過(guò)比較和進(jìn)行大量的測(cè)試最終選擇了部分?jǐn)?shù)據(jù)集進(jìn)行YOLOv5網(wǎng)絡(luò)模型訓(xùn)練,各選中數(shù)據(jù)集的描述見表1。數(shù)據(jù)集的標(biāo)注格式遵循PascalVOC標(biāo)準(zhǔn)。
表1 實(shí)驗(yàn)選用數(shù)據(jù)集描述
為更好比較數(shù)據(jù)集的檢測(cè)效果,將實(shí)驗(yàn)?zāi)繕?biāo)檢測(cè)網(wǎng)絡(luò)模型輸入均調(diào)整為640×640像素大小,超參數(shù)也設(shè)置成相同數(shù)值。實(shí)驗(yàn)在谷歌云服務(wù)器下進(jìn)行,其中深度學(xué)習(xí)框架為Pytorch;使用型號(hào)Tesla K80 GPU進(jìn)行運(yùn)算;顯卡CUDA版本為10.1。實(shí)驗(yàn)設(shè)計(jì)的YOLOv5網(wǎng)絡(luò)模型超參數(shù)如表2所示。
表2 YOLOv5網(wǎng)絡(luò)模型超參數(shù)設(shè)置
4.2.1 YOLOv5模型訓(xùn)練
按照模型設(shè)計(jì)和實(shí)驗(yàn)平臺(tái)設(shè)置進(jìn)行YOLOv5模型訓(xùn)練,并利用目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)精準(zhǔn)率(Precision)、召回率(Recall)、類平均精度(mAP)和GIOU_Loss損失函數(shù)等進(jìn)行模型性能評(píng)估,得到的實(shí)驗(yàn)結(jié)果曲線如圖4所示。
圖4 實(shí)驗(yàn)數(shù)據(jù)集訓(xùn)練性能評(píng)估結(jié)果
圖 中,exp1、exp2、exp3、exp4對(duì) 應(yīng) 數(shù) 據(jù) 集Ⅰ;exp5對(duì)應(yīng)數(shù)據(jù)集Ⅱ;exp6對(duì)應(yīng)數(shù)據(jù)集Ⅲ;exp7、exp8、exp9、exp10對(duì)應(yīng)數(shù)據(jù)集Ⅳ。
實(shí)驗(yàn)配置環(huán)境數(shù)據(jù)集的訓(xùn)練及驗(yàn)證得出的最優(yōu)結(jié)果整理為表3??梢钥吹?,Metro數(shù)據(jù)集中,數(shù)據(jù)集Ⅰ的類平均精度、精準(zhǔn)率和召回率的數(shù)值接近于80%,損失函數(shù)數(shù)值在1.4%~2.1%之間;數(shù)據(jù)集Ⅳ的幾項(xiàng)指標(biāo)數(shù)值則在90%以上,損失函數(shù)數(shù)值在1.1%~1.9%之間。SCUT-HEAD數(shù)據(jù)集中,數(shù)據(jù)集Ⅱ和Ⅲ類平均精度、精準(zhǔn)率和召回率的數(shù)值也均在90%以上;其中數(shù)據(jù)集Ⅲ類平均精度和精準(zhǔn)率數(shù)值接近于100%,損失函數(shù)的數(shù)值在3.2%以上。由此,通過(guò)數(shù)據(jù)性能指標(biāo)數(shù)值可以看出,YOLOv5網(wǎng)絡(luò)模型對(duì)于頭部特征數(shù)據(jù)集的檢測(cè)效果是理想的。
表3 YOLOv5四種模型訓(xùn)練結(jié)果對(duì)比單位:%
4.2.2 實(shí)驗(yàn)測(cè)試
將地鐵車廂內(nèi)測(cè)試視頻的數(shù)據(jù)輸入到訓(xùn)練模型中進(jìn)行實(shí)驗(yàn),視頻分為視頻1和視頻2,分別得到測(cè)試結(jié)果如圖5、圖6所示。
圖5 各數(shù)據(jù)集在視頻1模型測(cè)試結(jié)果
圖6 各數(shù)據(jù)集在視頻2模型測(cè)試結(jié)果
目標(biāo)框上的數(shù)值代表類別標(biāo)簽的置信度。實(shí)驗(yàn)通過(guò)模型正確檢測(cè)該幀視頻人數(shù)占該幀視頻總?cè)藬?shù)比例得到模型的檢測(cè)效果。對(duì)地鐵車廂內(nèi)測(cè)試視頻進(jìn)行人工統(tǒng)計(jì)總?cè)藬?shù),并將YOLOv5的四個(gè)模型分別進(jìn)行性能檢測(cè),詳細(xì)對(duì)比結(jié)果如表4所示。
表4 YOLOv5網(wǎng)絡(luò)模型性能比較
可見,SCUT-HEAD數(shù)據(jù)集中數(shù)據(jù)集Ⅱ、Ⅲ的測(cè)試正確檢測(cè)率分別為16.7%,20.4%,正確率較低;數(shù)據(jù)集Ⅱ、Ⅲ訓(xùn)練的模型無(wú)法準(zhǔn)確檢測(cè)該幀視頻中人數(shù),因此不適合對(duì)于特定車廂內(nèi)的乘客頭部特征檢測(cè)。從模型的測(cè)試性能結(jié)果看,數(shù)據(jù)集Ⅳ中YOLOv5m模型的正確檢測(cè)率最優(yōu),分別達(dá)到83.3%和80%,比數(shù)據(jù)集Ⅰ中YOLOv5m模型的正確檢測(cè)率分別高12.5%和3.3%,可清晰顯示該幀視頻下數(shù)據(jù)集Ⅳ比數(shù)據(jù)集Ⅰ檢測(cè)更多目標(biāo)。比較表3中訓(xùn)練模型各性能數(shù)值,也可看到數(shù)據(jù)集Ⅳ的各項(xiàng)指標(biāo)數(shù)值都優(yōu)于數(shù)據(jù)集Ⅰ。綜合訓(xùn)練模型性能指標(biāo)和測(cè)試正確率情況,選擇自制的Metro數(shù)據(jù)集(Ⅳ)訓(xùn)練的YOLOv5m模型作為地鐵車廂乘客實(shí)時(shí)檢測(cè)器。
4.2.3 YOLOv5m-C模型實(shí)驗(yàn)結(jié)果分析
針對(duì)特定環(huán)境的地鐵車廂乘客目標(biāo)實(shí)時(shí)檢測(cè),Metro數(shù)據(jù)集訓(xùn)練的YOLOv5m模型在正確檢測(cè)率方面優(yōu)于其他模型,因此在該模型上融合CBAM注意力機(jī)制進(jìn)行改進(jìn),模型命名為YOLOv5m-C,對(duì)特征圖重構(gòu),突出重要的乘客頭部特征,抑制一般特征信息,進(jìn)一步提升目標(biāo)檢測(cè)的效果。使用Metro數(shù)據(jù)集進(jìn)行YOLOv5m-C模型訓(xùn)練,并將訓(xùn)練的模型進(jìn)行視頻測(cè)試,實(shí)驗(yàn)中網(wǎng)絡(luò)模型超參數(shù)按上述表2設(shè)置,得到實(shí)際測(cè)試效果如圖7,與其他文獻(xiàn)數(shù)據(jù)的詳細(xì)對(duì)比如表5所示。
圖7 實(shí)際測(cè)試前后效果對(duì)比
表5 算法性能比較
從表中數(shù)據(jù)可見,YOLOv5系列算法性能指標(biāo)正確檢測(cè)率、平均精度和召回率都高于文獻(xiàn)中提到的其它算法。改進(jìn)后的YOLOv5m-C在精準(zhǔn)率和正確檢測(cè)率上都有明顯的提升,且精準(zhǔn)率的指標(biāo)達(dá)到92.3%,比原始網(wǎng)絡(luò)提升了5%;測(cè)試后的正確檢測(cè)率達(dá)到87%,比原方法提升了4.4%。
綜述所述,YOLOv5系列算法檢測(cè)性能指標(biāo)更加全面,且性能普遍優(yōu)于當(dāng)前大多數(shù)算法,能夠很好地滿足實(shí)時(shí)性檢測(cè)需求。
注意力模塊CBAM與YOLOv5m模型主干網(wǎng)絡(luò)融合后,網(wǎng)絡(luò)特征提取能力得以提升,也改善了檢測(cè)器識(shí)別效果。針對(duì)地鐵車廂這種特定環(huán)境的目標(biāo)檢測(cè),本模型訓(xùn)練精準(zhǔn)率和測(cè)試正確檢測(cè)率均得到一定提升,每幀視頻預(yù)處理時(shí)間僅為0.5ms,推理時(shí)間為61.7ms,檢測(cè)性能與速度表現(xiàn)均優(yōu)于當(dāng)前大多數(shù)其他算法,能夠勝任地鐵車廂乘客的實(shí)時(shí)檢測(cè)工作。