張 磊,康進(jìn)實(shí),楊勁濤
(甘肅公航旅信息科技有限公司,蘭州 730000)
超限超載運(yùn)輸損壞公路路面、路基和橋梁,對(duì)交通安全、國(guó)家道路、運(yùn)輸市場(chǎng)秩序等造成了極大危害。為加強(qiáng)對(duì)非法超限運(yùn)輸治理,保障公路設(shè)施和人民生命財(cái)產(chǎn)安全,發(fā)展與完善智能治超系統(tǒng)[1]具有重大的現(xiàn)實(shí)意義。
在智能治超場(chǎng)景下,貨車(chē)在高速出入口經(jīng)過(guò)不停車(chē)稱(chēng)重檢測(cè),攝像頭拍攝貨車(chē)側(cè)方圖輸入給模型,模型實(shí)時(shí)識(shí)別出貨車(chē)車(chē)型繼而確定貨車(chē)限重,結(jié)合稱(chēng)重與限重來(lái)判斷貨車(chē)是否存在超載運(yùn)輸。因此,貨車(chē)車(chē)型的限重識(shí)別是智能治超中的重要技術(shù)環(huán)節(jié)。我國(guó)交通運(yùn)輸部根據(jù)貨車(chē)車(chē)軸數(shù)量和聯(lián)結(jié)方式,確定了不同貨車(chē)進(jìn)入高速公路的重量限額,表1展示了部分不同貨車(chē)類(lèi)型及其重量限制。但由于確定貨車(chē)限重比較復(fù)雜,目前的工作主要是由收費(fèi)站工作人員在高速公路入口處人工完成,存在識(shí)別速度慢,識(shí)別結(jié)果不準(zhǔn)確等問(wèn)題。
表1 貨車(chē)類(lèi)型和重量限制
為了實(shí)現(xiàn)車(chē)型識(shí)別的自動(dòng)化,傳統(tǒng)進(jìn)行車(chē)型識(shí)別的方法主要有地感線(xiàn)圈法[2]、激光紅外線(xiàn)識(shí)別[3]以及動(dòng)態(tài)壓電檢測(cè)法[4]。地感線(xiàn)圈法和動(dòng)態(tài)壓電檢測(cè)法通過(guò)在路段下埋設(shè)電感線(xiàn)圈或壓電開(kāi)關(guān),不同類(lèi)型的車(chē)輛經(jīng)過(guò)產(chǎn)生不同的電感信號(hào)波形來(lái)區(qū)分不同的車(chē)型。這樣的方法不容易區(qū)分相似車(chē)型,在車(chē)速較快時(shí)準(zhǔn)確率不高,且安裝成本高,需要破壞路面,不易維護(hù)。激光紅外線(xiàn)識(shí)別通過(guò)在檢測(cè)道路的旁邊設(shè)立紅外線(xiàn)發(fā)射裝置和接收裝置。發(fā)射裝置發(fā)射紅外線(xiàn)到車(chē)體,接收裝置接收從車(chē)體反射回去的光線(xiàn),根據(jù)車(chē)輛不同部位的反射信息不同來(lái)設(shè)別出不同的車(chē)型。這樣的方法都存在施工復(fù)雜且維護(hù)成本較高等缺點(diǎn)。傳統(tǒng)的識(shí)別方式已經(jīng)無(wú)法滿(mǎn)足信息化、智能化交通系統(tǒng)的建設(shè)需求了。
近年來(lái),機(jī)器學(xué)習(xí)以及計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展成功應(yīng)用在了車(chē)型識(shí)別領(lǐng)域。劉衛(wèi)東等[5]提出將機(jī)器視覺(jué)技術(shù)用于高速收費(fèi)車(chē)型的判別。桑軍等人[6]使用Faster R-CNN來(lái)實(shí)現(xiàn)實(shí)時(shí)的車(chē)型識(shí)別。賀甜[7]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)公路貨車(chē)常見(jiàn)的九種車(chē)型進(jìn)行了識(shí)別與分類(lèi)。盡管這些方法能在一定程度上實(shí)現(xiàn)貨車(chē)的分類(lèi),但其依賴(lài)車(chē)輛外形特征進(jìn)行車(chē)型識(shí)別,未充分利用貨車(chē)軸數(shù)作為貨車(chē)車(chē)型判別的首要特征。Mo等人[8]分析建立了車(chē)軸數(shù)量與位置分布和貨車(chē)限重之間的關(guān)系,提出了一種以改進(jìn)的霍夫和聚類(lèi)算法為核心的圓檢測(cè)方法來(lái)識(shí)別貨車(chē)輪軸。張念等人[9]提出了一種改進(jìn)的YOLOv3模型,該模型首先對(duì)圖像中貨車(chē)及其輪軸的位置進(jìn)行檢測(cè)和識(shí)別分類(lèi),然后,提取輪軸預(yù)測(cè)框中心點(diǎn)位置及貨車(chē)預(yù)測(cè)框位置,最后,通過(guò)計(jì)算輪軸中心點(diǎn)與貨車(chē)預(yù)測(cè)框位置信息的相對(duì)關(guān)系來(lái)判定貨車(chē)與輪軸的隸屬關(guān)系,進(jìn)而由輪軸數(shù)實(shí)現(xiàn)貨車(chē)車(chē)型識(shí)別。盡管這些方法對(duì)感興趣目標(biāo)識(shí)別的算法不同,但由于進(jìn)一步考慮了貨車(chē)與輪軸的位置關(guān)系,均實(shí)現(xiàn)了更精準(zhǔn)的貨車(chē)車(chē)型識(shí)別。
與上述工作不同,本文從3個(gè)方面對(duì)貨車(chē)車(chē)型識(shí)別模型提出改進(jìn)。從數(shù)據(jù)方面,考慮到現(xiàn)實(shí)中更加復(fù)雜的場(chǎng)景,本文通過(guò)模擬惡劣天氣、圖像噪聲和數(shù)據(jù)損壞來(lái)對(duì)原始數(shù)據(jù)進(jìn)行增強(qiáng),豐富訓(xùn)練數(shù)據(jù)多樣性,從而提高模型在自然場(chǎng)景中的魯棒性。從模型方面,本文改進(jìn)了現(xiàn)有YOLOv5s模型,通過(guò)添加注意力機(jī)制來(lái)增強(qiáng)模型對(duì)位置信息的編碼從而提高模型識(shí)別準(zhǔn)確性。在貨車(chē)與輪軸隸屬關(guān)系判別算法方面,本文提出了一種通用的判別算法能適用于更加豐富的場(chǎng)景,彌補(bǔ)了現(xiàn)有算法的不足。
YOLO[10-12](You Only Look Once)以其高效、高精度、重量輕等優(yōu)點(diǎn)成為目前最著名的目標(biāo)檢測(cè)算法之一,YOLOv5[13]作為YOLO的檢測(cè)網(wǎng)絡(luò)系列之一,在實(shí)時(shí)目標(biāo)檢測(cè)任務(wù)中應(yīng)用廣泛。本文在YOLOv5的基礎(chǔ)上進(jìn)行改進(jìn),用于貨車(chē)及其車(chē)軸的實(shí)時(shí)識(shí)別。本文首先介紹了YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)。如圖1所示,YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)由輸入、主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和預(yù)測(cè)四部分組成。
輸入:輸入是對(duì)輸入圖像進(jìn)行圖像預(yù)處理的階段。預(yù)處理包括數(shù)據(jù)增強(qiáng)、自適應(yīng)圖像縮放和錨幀計(jì)算。YOLOv5采用馬賽克數(shù)據(jù)增強(qiáng)方法,通過(guò)隨機(jī)布局、裁剪和縮放,將四幅圖像拼接成一張新照片,極大地豐富了檢測(cè)內(nèi)容。并且在批歸一化計(jì)算中可以直接計(jì)算四幅圖像的數(shù)據(jù),提高了訓(xùn)練效率。YOLOv5將錨框計(jì)算嵌入到訓(xùn)練中,在初始錨框上輸出預(yù)測(cè)框,然后與真值進(jìn)行比較,計(jì)算損失,從而不斷更新錨框尺寸,自適應(yīng)計(jì)算最優(yōu)錨框值。
主干網(wǎng)絡(luò):主干網(wǎng)絡(luò)實(shí)現(xiàn)圖像特征提取,它包括Focus、CBL、CSP1、CSP2和SPP五個(gè)模塊。Focus的關(guān)鍵作用是對(duì)輸入圖像進(jìn)行切片,使特征圖像變小,減少層數(shù)和參數(shù),提高卷積運(yùn)算速度。CBL由卷積層(Conv)、批量歸一化層(BN)和激活函數(shù)(Leaky ReLU)組成。它的功能是對(duì)切片圖像進(jìn)行卷積、歸一化和激活操作。CSP網(wǎng)絡(luò)有CSP1和CSP2兩種結(jié)構(gòu),在特征提取中使用了具有殘差結(jié)構(gòu)的CSP來(lái)優(yōu)化網(wǎng)絡(luò)中的梯度,使得層與層反向傳播時(shí)梯度值得到增強(qiáng),從而可以有效避免由于網(wǎng)絡(luò)加深而導(dǎo)致的梯度消失。 SPP由CBL和MaxPool組成 SPP模塊最重要的功能是擴(kuò)大感受野。SPP使用不同大小的卷積核輸入不同大小的特征圖進(jìn)行最大池化,然后將不同的結(jié)果與沒(méi)有池化操作的數(shù)據(jù)拼接,使得輸出的特征向量維數(shù)保持一致。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
頸部網(wǎng)絡(luò):頸部網(wǎng)絡(luò)實(shí)現(xiàn)多尺度特征信息融合,它采用特征金字塔網(wǎng)絡(luò) (FPN,feature pyramid network)和金字塔注意網(wǎng)絡(luò) (PAN,pyramid attention network)的結(jié)構(gòu),由若干自下而上的路徑和若干自上而下的路徑組成。FPN自上而下對(duì)特征圖進(jìn)行上采樣,并將提取的特征與主干網(wǎng)絡(luò)提取的特征融。PAN用于自下而上對(duì)特征圖進(jìn)行下采樣,提取的特征與FPN層提取的特征進(jìn)行融合。通過(guò)FPN+PAN,可以聚合主干網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)提取的特征,提高網(wǎng)絡(luò)的特征融合能力。提取的特征通過(guò)CSP2模塊進(jìn)行融合。
預(yù)測(cè):YOLOv5考慮到邊界幀中心點(diǎn)的距離信息,在IOU[14](intersection over union)損失函數(shù)的基礎(chǔ)上使用新的損失函數(shù)CIOU[15](complete intersection over union)。在此過(guò)程中還使用了DIOU_NMS[16](distance intersection over union based non-maximum suppression)來(lái)代替?zhèn)鹘y(tǒng)的NMS操作,目的是更好地抑制冗余幀,從而進(jìn)一步提高算法的檢測(cè)精度。
在實(shí)際檢測(cè)中常常遇到光線(xiàn)弱、雨雪天氣等復(fù)雜場(chǎng)景[17],由于傳統(tǒng)的識(shí)別算法容易受到上述復(fù)雜場(chǎng)景的影響,因此,無(wú)法滿(mǎn)足真實(shí)場(chǎng)景的應(yīng)用。一個(gè)簡(jiǎn)單有效的方式是盡可能使訓(xùn)練數(shù)據(jù)覆蓋更多的場(chǎng)景,然而對(duì)應(yīng)復(fù)雜場(chǎng)景下的數(shù)據(jù)難以收集。為了克服這一局限性,本文使用ImageNet-C[18]中的數(shù)據(jù)增強(qiáng)技術(shù)來(lái)模擬惡劣天氣、圖像噪聲和數(shù)據(jù)損壞等復(fù)雜場(chǎng)景,以增強(qiáng)數(shù)據(jù)集的多樣性,從而提高模型的魯棒性[19]。
ImageNet-C是評(píng)估視覺(jué)模型在損壞情況下的魯棒性的一個(gè)眾所周知的基準(zhǔn),它總共包含19種數(shù)據(jù)增強(qiáng),分為四類(lèi)即天氣、模糊、噪聲和數(shù)字(如圖2所示)。天氣模擬惡劣天氣,如霧,雪,霜和濺。模糊使用不同的技術(shù)平滑圖像像素的強(qiáng)度,如高斯,玻璃,運(yùn)動(dòng),散焦和變焦。噪聲使用不同的函數(shù)隨機(jī)擾動(dòng)像素值,如射擊,脈沖,高斯和散斑。數(shù)字由修改圖像分辨率(即JPEG壓縮,像素化,彈性)或像素強(qiáng)度(即飽和度,亮度和對(duì)比度)引起的各種數(shù)據(jù)損壞構(gòu)成。本文在每一次迭代之前隨機(jī)選擇對(duì)原始數(shù)據(jù)進(jìn)行增強(qiáng),以豐富數(shù)據(jù)的多樣性,提高模型的魯棒性與泛化能力[20]。
圖2 不同數(shù)據(jù)增強(qiáng)示例
YOLOv5頸部結(jié)構(gòu)為FPN + PAN模型,如圖3所示。FPN是一個(gè)自頂向下的特征金字塔,通過(guò)上采樣和卷積傳遞高級(jí)語(yǔ)義特征。但FPN只增強(qiáng)了語(yǔ)義信息,沒(méi)有傳遞位置信息。PAN結(jié)構(gòu)通過(guò)在FPN之后添加一個(gè)自底向上的特征金字塔很好地補(bǔ)償了這一點(diǎn)。PAN對(duì)3種不同尺寸的圖像分別使用8次、16次和32次下采樣和卷積來(lái)完成特征提取和轉(zhuǎn)移,在此過(guò)程中,會(huì)丟失大量的位置信息,使得模型在檢測(cè)小目標(biāo)時(shí)精度降低。
圖3 FPN+PAN模型
近年來(lái),注意機(jī)制[21]被廣泛用于提高現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的性能,為了解決上述問(wèn)題,本文在通道注意力機(jī)制[22](SE-Net Squeeze-and-Excitation Networks)的基礎(chǔ)上引入了一種新的注意力機(jī)制。SE模塊關(guān)注通道之間的關(guān)系,允許模型自動(dòng)識(shí)別不同通道特征的重要性,但忽略了位置信息。位置信息在捕獲目標(biāo)結(jié)構(gòu)的視覺(jué)任務(wù)中非常重要,而PAN會(huì)產(chǎn)生大量的通道和位置信息,本文將位置信息嵌入到通道注意中,形成一種新的注意機(jī)制Local-SE。Local-SE在YOLOv5中的實(shí)現(xiàn)如圖4所示。它將被添加到PAN結(jié)構(gòu)的下采樣過(guò)程中。
圖4 Local-SE注意力機(jī)制
為了更好地解釋Local-SE,首先簡(jiǎn)要介紹SE模塊。標(biāo)準(zhǔn)卷積本身很難獲得通道關(guān)系,但這些通道關(guān)系信息對(duì)模型的最終分類(lèi)決策具有重要意義。SE模塊通過(guò)使模型更多的關(guān)注最具信息量的通道特征并抑制不重要的通道特征來(lái)實(shí)現(xiàn)更好的特征提取。其工作原理是:首先對(duì)卷積得到的特征圖進(jìn)行擠壓得到通道的全局特征,然后對(duì)全局特征進(jìn)行激勵(lì),學(xué)習(xí)各通道之間的關(guān)系,得到各通道的權(quán)重,最后與原始特征圖相乘得到最終特征。給定輸入f,第c個(gè)通道的擠壓方程如下:
(1)
其中:zc是第c個(gè)通道的全局特征,它是通過(guò)用特征編碼通道上的整個(gè)空間而獲得的。H和W分別表示特征圖的高度和寬度。Gsq表示集合中特征映射壓縮后的全局平均。
通過(guò)擠壓得到特征的全局描述后,需要通過(guò)激勵(lì)操作得到通道之間的關(guān)系。傳統(tǒng)的SE模塊使用sigmoid形式的門(mén)控機(jī)制:
s=Fex(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))
(2)
其中:Fex表示激勵(lì)操作,W1和W2表示兩個(gè)線(xiàn)性變換,每個(gè)通道的權(quán)值通過(guò)學(xué)習(xí)得到。σ為非線(xiàn)性激活函數(shù),它歸一化以獲得通道的重要性。
式(1)只壓縮了全局空間信息,沒(méi)有保留位置信息,本文提出的Local-SE旨在彌補(bǔ)這一缺失。將式(1)分解為垂直V和水平L的兩個(gè)方向,希望在不同方向?qū)γ總€(gè)通道進(jìn)行成對(duì)的一維特征編碼。垂直方向高度為v的第c個(gè)通道的輸出為:
(3)
同樣,水平方向上寬度為l的第c個(gè)通道的輸出為:
(4)
式(3)和式(4)將沿著水平和垂直兩個(gè)空間方向收集特征,并將最終在相應(yīng)的方向上生成一對(duì)感知特征圖。與SE模塊的不同之處在于,Local-SE可以在一個(gè)空間方向上學(xué)習(xí)各個(gè)通道之間的關(guān)系權(quán)重,同時(shí)在另一個(gè)空間方向上收集精確的位置信息。這種方法有助于YOLOv5更精確地定位感興趣的目標(biāo)。
為了充分利用收集到的位置信息,本文提出了一種新的計(jì)算權(quán)重的方法。創(chuàng)建一個(gè)共享的1×1卷積變換函數(shù)F,由式(3)和式(4)生成的聚集特征的子集將被送到該函數(shù)中,激勵(lì)操作為:
f′=σ(F(zv,zl))
(5)
(6)
(7)
其中:Fv和FL為兩個(gè)1×1的卷積操作,σ為sigmoid函數(shù),wv和wl為不同通道的注意力權(quán)重。把得到的權(quán)重與原始特征圖相乘,得到最終的特征。Local-SE模塊輸出特征X為:
(8)
綜上所述,Local-SE模塊不僅考慮不同通道的重要性,還關(guān)注編碼的位置信息。本文將兩個(gè)不同方向的注意同時(shí)應(yīng)用到輸入張量上,得到的注意圖可以確定對(duì)應(yīng)的方向是否存儲(chǔ)了感興趣的目標(biāo)。此外還可以在編碼過(guò)程中調(diào)整注意力,使感興趣目標(biāo)位置的定位更加準(zhǔn)確,從而提高模型的目標(biāo)檢測(cè)能力。
貨車(chē)車(chē)型的判斷方法應(yīng)當(dāng)適應(yīng)多種場(chǎng)景,當(dāng)一幀圖像中僅包含單輛貨車(chē)時(shí)(如圖5(a)所示),只需要對(duì)輪軸進(jìn)行計(jì)數(shù)便可識(shí)別出單輛貨車(chē)車(chē)型。當(dāng)一幀圖像中包含非完整的多輛貨車(chē)時(shí)(如圖5(b)所示),需要先去除非法目標(biāo),才能正確識(shí)別貨車(chē)車(chē)型。當(dāng)一幀圖像中包含完整的多輛貨車(chē)時(shí)(如圖5(c)所示),需要判斷輪軸與不同貨車(chē)之間的隸屬關(guān)系才能進(jìn)行正確識(shí)別。
圖5 一幀圖像中的不同情況
本文針對(duì)上述不同情況,提出了一種通用的基于目標(biāo)位置信息的判別算法。該算法利用貨車(chē)與輪軸的位置信息,通過(guò)分析輪軸與貨車(chē)分布位置關(guān)系來(lái)判斷貨車(chē)與輪軸的隸屬關(guān)系。
圖6 貨車(chē)與輪軸隸屬關(guān)系判定算法
貨車(chē)與輪軸隸屬關(guān)系判定算法流程如圖6所示。首先,利用優(yōu)化后的YOLOv5網(wǎng)絡(luò)識(shí)別貨車(chē)側(cè)方圖像,得到貨車(chē)及輪軸的預(yù)測(cè)框坐標(biāo)。在此基礎(chǔ)上,提取輪軸預(yù)測(cè)框中心點(diǎn)位置信息和貨車(chē)預(yù)測(cè)框邊緣點(diǎn)信息,如果輪軸中心點(diǎn)落在邊緣框內(nèi)則記錄進(jìn)行下一步處理。然后,提取貨車(chē)預(yù)測(cè)框中心點(diǎn)位置信息,計(jì)算貨車(chē)預(yù)測(cè)框中心點(diǎn)與輪軸中心點(diǎn)的位置關(guān)系,根據(jù)輪軸位于貨車(chē)中心點(diǎn)下方的先驗(yàn)知識(shí)判定貨車(chē)與輪軸的隸屬關(guān)系。最后,篩選出輪軸數(shù)量大于1的目標(biāo),得到貨車(chē)類(lèi)型的識(shí)別結(jié)果。
本文實(shí)驗(yàn)所使用的操作系統(tǒng)為Ubuntu 20.04.5,處理器為Intel-Xeon CPU E5-2630 v4,顯卡為Nvidia GeForce TITAN XP,編程語(yǔ)言為Python 3.7.13,深度學(xué)習(xí)框架為Pytorch 1.12.0。
本文使用的數(shù)據(jù)集為自主采集的貨車(chē)車(chē)輛行駛數(shù)據(jù)圖像及網(wǎng)絡(luò)上收集的圖像,共3 000張,如圖7(a)所示。其中,2 400張用于訓(xùn)練,600張用于測(cè)試。數(shù)據(jù)集使用labelimg標(biāo)注圖像軟件工具對(duì)原始圖像數(shù)據(jù)集進(jìn)行標(biāo)注,如圖7(b)所示。
圖7 數(shù)據(jù)集處理
所有實(shí)驗(yàn)均使用YOLOv5s模型,并加載在COCO(Common Object Context)數(shù)據(jù)集上訓(xùn)練好的模型作為預(yù)訓(xùn)練權(quán)重。模型總共訓(xùn)練600個(gè)世代,其中前50個(gè)世代固定模型的主干網(wǎng)絡(luò)。設(shè)置批大小為16,使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.01。
實(shí)驗(yàn)采用的評(píng)估指標(biāo)包括:精確率(Precision)、召回率(Recall)、平均精度(AP,Average Precision)和F1分?jǐn)?shù),具體定義如下:
Precision=TP/(TP+FP)
(9)
Recall=TP/(TP+FN)
(10)
(11)
(12)
其中:TP為真實(shí)值是正樣本,模型預(yù)測(cè)得出的結(jié)果為正樣本,F(xiàn)N為真實(shí)值是正樣本,模型預(yù)測(cè)得出的結(jié)果為負(fù)樣本,F(xiàn)P是真實(shí)值為負(fù)樣本,模型預(yù)測(cè)得出的結(jié)果為正樣本,TN是真實(shí)值為負(fù)樣本,模型預(yù)測(cè)得出的結(jié)果為負(fù)樣本。
完成數(shù)據(jù)集收集與標(biāo)注之后,將提出的數(shù)據(jù)增強(qiáng)添加到數(shù)據(jù)預(yù)處理模塊中,搭建基于Local-SE注意力機(jī)制的YOLOv5s模型。修改數(shù)據(jù)配置文件和模型配置文件,使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練好的模型來(lái)初始化模型參數(shù),使用經(jīng)典YOLOv5s的損失函數(shù),設(shè)置好優(yōu)化器參數(shù)。
完成上述設(shè)置后,模型開(kāi)始訓(xùn)練,隨著迭代次數(shù)的增加,模型的每一次預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果進(jìn)行比對(duì),計(jì)算損失利用梯度來(lái)更新模型參數(shù)。模型訓(xùn)練過(guò)程中訓(xùn)練集與驗(yàn)證集損失如圖8所示,識(shí)別平均準(zhǔn)確率如圖9所示,經(jīng)過(guò)300次迭代之后,各項(xiàng)數(shù)值變化基本趨于平穩(wěn)狀態(tài),模型完成訓(xùn)練。訓(xùn)練結(jié)束后,輸入一張貨車(chē)形式側(cè)方位圖片,模型可以準(zhǔn)確的識(shí)別出圖片中貨車(chē)和輪軸所在區(qū)域,模型輸出的形式為目標(biāo)類(lèi)別,錨框的中心點(diǎn)坐標(biāo)、錨框的寬高以及識(shí)別目標(biāo)的置信度。根據(jù)模型輸出,送入到本文提出的貨車(chē)與輪軸隸屬關(guān)系的判別算法中,即可得到最終貨車(chē)車(chē)型識(shí)別結(jié)果。
圖8 訓(xùn)練集及驗(yàn)證集損失曲線(xiàn)
圖10 測(cè)試集各參數(shù)指標(biāo)
圖9 訓(xùn)練集平均準(zhǔn)確率曲線(xiàn)
本文在添加數(shù)據(jù)增強(qiáng)和注意力機(jī)制的基礎(chǔ)上對(duì)模型的實(shí)驗(yàn)結(jié)果進(jìn)行分析。圖10展示了模型在不同分?jǐn)?shù)閾值下貨車(chē)和輪軸的精確率、召回率和F1分?jǐn)?shù),實(shí)驗(yàn)結(jié)果選取的分?jǐn)?shù)閾值為0.5。貨車(chē)車(chē)型識(shí)別在測(cè)試集上的表現(xiàn)如表2所示,檢測(cè)模型對(duì)貨車(chē)和輪軸的識(shí)別精度分別達(dá)到了99.34%和99.22%。通過(guò)判斷輪軸與貨車(chē)的隸屬關(guān)系,模型最終在測(cè)試集上對(duì)貨車(chē)車(chē)型識(shí)別的準(zhǔn)確率為98.71%??偟膩?lái)說(shuō),該模型能夠?qū)ω涇?chē)車(chē)型及其輪軸進(jìn)行較為準(zhǔn)確的識(shí)別。
表2 貨車(chē)車(chē)型識(shí)別模型測(cè)試結(jié)果
表3展示了在YOLOv5s模型基礎(chǔ)上添加數(shù)據(jù)增強(qiáng)和注意力機(jī)制對(duì)實(shí)驗(yàn)結(jié)果的影響。從表中可以看到,添加數(shù)據(jù)增強(qiáng)和注意力機(jī)制都在不同程度上提高了模型對(duì)貨車(chē)和輪軸的識(shí)別準(zhǔn)確率,從而提高了貨車(chē)車(chē)型的識(shí)別準(zhǔn)確率。數(shù)據(jù)增強(qiáng)是從訓(xùn)練數(shù)據(jù)層面擴(kuò)展了訓(xùn)練域的覆蓋范圍,在一些光照條件弱,模糊的場(chǎng)景下提高了模型的識(shí)別能力。注意力機(jī)制的引入是在特征方面增強(qiáng)了模型對(duì)上下文信息的編碼,提高了模型對(duì)小目標(biāo)的定位與識(shí)別能力。綜上,本文提出的兩種方法在不同的層面上對(duì)模型的識(shí)別起到了促進(jìn)作用。
表3 貨車(chē)車(chē)型識(shí)別模型消融實(shí)驗(yàn)
為了更加直觀地展示本文所提出模型的改進(jìn)效果,圖11為部分改進(jìn)前后模型預(yù)測(cè)結(jié)果對(duì)比。圖11(a)從左往右分別展示了3種經(jīng)典YOLOv5s模型預(yù)測(cè)失敗的示例:左圖由于輪軸分布密集,光線(xiàn)強(qiáng)度弱,數(shù)據(jù)集中對(duì)于6軸以上的貨車(chē)側(cè)方圖片占比較少,從而導(dǎo)致原始的模型預(yù)測(cè)失敗;中間圖因?yàn)楣庹蘸洼嗇S形變的因素,導(dǎo)致原始模型漏檢;右邊圖主要是光照因素導(dǎo)致模型僅定位了貨車(chē)而未能檢測(cè)出其對(duì)應(yīng)輪軸位置。圖11(b)展示了改進(jìn)后的模型對(duì)預(yù)測(cè)結(jié)果的改善,由于數(shù)據(jù)增強(qiáng)的引入,讓模型對(duì)光照、噪聲、模糊等因素的干擾具有了一定的魯棒性,此外注意力機(jī)制的加入也提高了模型對(duì)密集輪軸的預(yù)測(cè)的性能。
總的來(lái)說(shuō),從定量與定性結(jié)果上都展示出了所提出方法的有效性。優(yōu)化后的模型對(duì)貨車(chē)和輪軸的識(shí)別準(zhǔn)確率高達(dá)99%,在此基礎(chǔ)上使用本文提出的貨車(chē)與輪軸隸屬關(guān)系判定算法能夠?qū)ω涇?chē)車(chē)型進(jìn)行準(zhǔn)確的識(shí)別。本文提出的方法能幫助貨車(chē)超載判斷實(shí)現(xiàn)無(wú)人化、自動(dòng)化,對(duì)智能治超的應(yīng)用具有一定的參考價(jià)值。
針對(duì)智能治超場(chǎng)景下的貨車(chē)車(chē)型識(shí)別問(wèn)題,本文從數(shù)據(jù)集處理、模型設(shè)計(jì)和貨車(chē)車(chē)型判別算法3個(gè)方面提出改進(jìn)。本文建立了貨車(chē)側(cè)方圖像數(shù)據(jù)集,并對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)模擬不同的復(fù)雜場(chǎng)景,豐富了訓(xùn)練數(shù)據(jù)的多樣性,提高了模型的魯棒性與泛化性。通過(guò)加入Local-SE這一注意力機(jī)制來(lái)優(yōu)化YOLOv5網(wǎng)絡(luò)加強(qiáng)了其對(duì)位置信息的編碼能力,提高了模型的檢測(cè)精度。最后,本文提出了一種通用的基于目標(biāo)位置信息的判別算法來(lái)判定貨車(chē)及其輪軸隸屬關(guān)系,彌補(bǔ)了現(xiàn)有判別算法的不足。總的來(lái)說(shuō),本文提出的方法實(shí)現(xiàn)了對(duì)貨車(chē)車(chē)型自動(dòng)、快速和準(zhǔn)確的識(shí)別,為智能治超的應(yīng)用提供了一定參考意義。
本研究存在的不足是數(shù)據(jù)集中貨車(chē)圖像主要為側(cè)方位,下一步研究需要擴(kuò)充更多的數(shù)據(jù)樣本,甚至是更多的數(shù)據(jù)形式(如:視頻數(shù)據(jù),三維點(diǎn)云數(shù)據(jù)等),進(jìn)一步提高貨車(chē)車(chē)型識(shí)別模型的應(yīng)用范圍。