楊永波,李 棟
內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院 內(nèi)蒙古自治區(qū)感知技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,呼和浩特010051
隨著社會(huì)信息化水平的不斷提升,智能應(yīng)用在不同行業(yè)領(lǐng)域得到廣泛應(yīng)用。如人臉識(shí)別、交通燈識(shí)別等。在建筑和礦產(chǎn)等行業(yè),為保證工人生產(chǎn)安全,要求工人生產(chǎn)期間必須佩戴安全帽,安全帽的佩戴檢查成了生產(chǎn)安全管理的一項(xiàng)重要的工作[1]。由于工地上作業(yè)環(huán)境危險(xiǎn),不適合用人力在現(xiàn)場(chǎng)進(jìn)行實(shí)時(shí)監(jiān)控,安全帽的正確佩戴情況的實(shí)時(shí)監(jiān)測(cè),成為了智能化嵌入式設(shè)備應(yīng)用開發(fā)研究的一個(gè)重要應(yīng)用場(chǎng)景。
國內(nèi)有少部分學(xué)者提出基于深度學(xué)習(xí)的安全帽檢測(cè)方法。施輝等[2]在YOLOv3中添加特征金字塔進(jìn)行多尺度的特征提取,獲得不同尺度的特征圖,以此實(shí)現(xiàn)安全帽的檢測(cè)。肖體剛等[3]在YOLOv3 算法的基礎(chǔ)上,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),增大輸入圖像的尺度,使用深度可分離卷積結(jié)構(gòu)替換Darknet-53 傳統(tǒng)卷積,使用多尺度特征檢測(cè),增加淺層檢測(cè)尺度,添加4倍上采樣特征融合結(jié)構(gòu),縮減模型參數(shù),提高安全帽佩戴檢測(cè)準(zhǔn)確率。張錦等[4]在YOLOv5 的基礎(chǔ)上使用K-means++算法重新設(shè)計(jì)先驗(yàn)框尺寸并將其匹配到相應(yīng)的特征層;在特征提取網(wǎng)絡(luò)中引入多光譜通道注意力模塊,使網(wǎng)絡(luò)能夠自主學(xué)習(xí)每個(gè)通道的權(quán)重,增強(qiáng)特征間的信息傳播,從而加強(qiáng)網(wǎng)絡(luò)對(duì)前景和背景的辨別能力,并在訓(xùn)練迭代過程中隨機(jī)輸入不同尺寸的圖像,以此增強(qiáng)模型的泛化能力。
上述方法雖然對(duì)算法進(jìn)行了優(yōu)化改進(jìn),但其參數(shù)量和計(jì)算量較大,不利于終端設(shè)備的部署,且對(duì)遮擋目標(biāo)辨別度差,針對(duì)現(xiàn)有技術(shù)的缺點(diǎn)、不足之處,本文提出了一種輕量級(jí)的安全帽佩戴檢測(cè)模型YOLO-M3,將YOLOv5s 主干網(wǎng)絡(luò)替換為MobileNetV3 來進(jìn)行特征提取,由深度可分離卷積代替原始卷積層提取特征,大幅度減少網(wǎng)絡(luò)計(jì)算量;其次,使用DIoU-NMS 替換NMS,改善目標(biāo)遮擋時(shí)的漏檢問題,為了在減少參數(shù)量和計(jì)算量的同時(shí)保持較高的檢測(cè)精度,添加CBAM 注意力機(jī)制加強(qiáng)對(duì)檢測(cè)目標(biāo)的關(guān)注,再對(duì)模型進(jìn)行知識(shí)蒸餾,使輕量級(jí)的模型具有復(fù)雜網(wǎng)絡(luò)模型的學(xué)習(xí)能力,來增加模型檢測(cè)的召回率和準(zhǔn)確度。通過實(shí)驗(yàn)驗(yàn)證了YOLO-M3模型的有效性,提高了對(duì)遮擋目標(biāo)的辨識(shí)度,降低了硬件成本,滿足在低算力平臺(tái)上部署的需求。
MobileNet 系列網(wǎng)絡(luò)作為輕量級(jí)網(wǎng)絡(luò)的代表,被廣泛應(yīng)用到嵌入式端和移動(dòng)端,MobileNetv3[5]作為MobileNet系列的最新版,它綜合了以下四個(gè)特點(diǎn)。
1.1.1 MobileNetV1的深度可分離卷積
引入深度可分離卷積,將普通卷積替換為深度卷積和點(diǎn)卷積,深度卷積針對(duì)每個(gè)輸入通道采用不同的卷積核,即網(wǎng)絡(luò)的分組數(shù)與網(wǎng)絡(luò)的channel數(shù)量相等,使網(wǎng)絡(luò)的計(jì)算量減到最低,再使用點(diǎn)卷積進(jìn)行channel 之間的融合[6]。標(biāo)準(zhǔn)卷積分解為深度卷積與逐點(diǎn)卷積的過程如圖1所示。
圖1 標(biāo)準(zhǔn)卷積分解過程Fig.1 Standard convolution decomposition process
假設(shè)Dk×Dk為卷積核的尺寸,M為輸入通道數(shù),N為輸出通道數(shù),DF×DF為輸出特征圖的尺寸,那么普通卷積的計(jì)算量如式(1)所示:
深度可分離卷積的計(jì)算量如式(2)所示:
如式(3)所示,通過深度可分離卷積,相當(dāng)于將普通卷積的計(jì)算量壓縮為:
通過深度可分離卷積,在保持較好的精度的同時(shí),計(jì)算量大幅度降低[7]。
1.1.2 MobileNetV2具有的線性瓶頸的逆殘差結(jié)構(gòu)
MobileNetV2[8]的線性瓶頸的逆殘差結(jié)構(gòu)與原始的殘差結(jié)構(gòu)不同,原始的殘差結(jié)構(gòu)采用先降維、再升維的方法,深度卷積因其參數(shù)少,提取的特征相對(duì)較少,先進(jìn)行壓縮,提取的特征會(huì)更少,因此先擴(kuò)張來進(jìn)行特征提取再壓縮,此外,深度可分離卷積得到的特征對(duì)應(yīng)于低維空間,如果后續(xù)接線性映射則能夠保留大部分特征,而如果接非線性映射則會(huì)破壞特征,使得模型效果變差。因此把每一個(gè)Block 中最后的ReLU6 層換成了線性映射Linear,來減少特征的損耗,獲得更好的檢測(cè)效果。如圖2所示。
圖2 反向殘差模塊結(jié)構(gòu)Fig.2 Reverse residual module structure
1.1.3 輕量級(jí)的注意力模型
引入輕量級(jí)注意力機(jī)制SENet[9]網(wǎng)絡(luò),注意力網(wǎng)絡(luò)SENet是通過對(duì)每個(gè)通道進(jìn)行全局平均池化,使其具有全局的感受野,進(jìn)而使淺層網(wǎng)絡(luò)也具有了全局信息;再通過FC→Relu→FC→h-swish 為每個(gè)通道生成相應(yīng)的權(quán)重,來提升重要的特征并抑制不重要的特征,SENet注意力機(jī)制結(jié)構(gòu)如圖3所示。
圖3 SENet注意力機(jī)制結(jié)構(gòu)Fig.3 SENet attention mechanism structure
其中輸入X的大小為H×W×C,GAP 表示全局平均池化,F(xiàn)C表示全連接層,ReLU和h-swish為激活函數(shù),Scale 將生成的各個(gè)通道的權(quán)重系數(shù)與對(duì)應(yīng)通道所有元素相乘實(shí)現(xiàn)重要的特征增強(qiáng),不重要的特征減弱,從而讓提取的特征指向性更強(qiáng)。
1.1.4 利用h-swish代替swish函數(shù)
h-swish是基于swish[10]的改進(jìn),swish函數(shù)具有無上界、有下界、平滑和非單調(diào)的特點(diǎn),并且在深層模型上的效果優(yōu)于ReLU,但其sigmoid 函數(shù)σ(x)在移動(dòng)端非常消耗計(jì)算資源,為了能夠在移動(dòng)設(shè)備上應(yīng)用swish 并降低它的計(jì)算資源的消耗,h-swish改用sigmoid函數(shù)σ(x)的近似函數(shù)ReLU6來逼近Swish,使用ReLU6在量化模式下能提高大約15%的效率,且ReLU6函數(shù)在許多軟硬件框架中都已實(shí)現(xiàn),易于量化部署,計(jì)算推理速度快。swish和h-swish函數(shù)的公式分別如式(4)、(5)所示:
YOLOv5s的結(jié)構(gòu)由四部分組成,輸入端、Backbone主干網(wǎng)絡(luò)、Neck 網(wǎng)絡(luò)、Prediction 輸出端,如圖4 所示。YOLOv5s 在數(shù)據(jù)輸入部分加入了自適應(yīng)圖像填充、自適應(yīng)錨框計(jì)算、Mosaic 數(shù)據(jù)增強(qiáng)來對(duì)數(shù)據(jù)進(jìn)行處理,增加了檢測(cè)的辨識(shí)度和準(zhǔn)確度;在Backbone 中主要采用Focus結(jié)構(gòu)和CSP1_X結(jié)構(gòu),F(xiàn)ocus結(jié)構(gòu)主要用來進(jìn)行切片操作,在不損失任何信息的情況下通過增加特征圖的維度來縮小特征圖的尺寸,得到二倍下采樣特征圖,CSP1_X中加入殘差結(jié)構(gòu)使得層和層之間進(jìn)行反向傳播時(shí),梯度值得到增強(qiáng),有效防止網(wǎng)絡(luò)加深時(shí)所引起的梯度消失,得到的特征粒度更細(xì)。Neck中采用CSP2_X結(jié)構(gòu),降低計(jì)算量的同時(shí)使網(wǎng)絡(luò)對(duì)特征的融合能力得到加強(qiáng),保留了更豐富的特征信息。Neck 層還設(shè)計(jì)了特征金字塔在網(wǎng)絡(luò)中從上向下的傳遞語義信息和路徑聚合結(jié)構(gòu)來傳遞定位信息。Prediction中將邊界錨框的損失函數(shù)CIOU_Loss改為GIOU_Loss,采用加權(quán)nms運(yùn)算對(duì)多個(gè)目標(biāo)錨框進(jìn)行篩選來提高對(duì)目標(biāo)識(shí)別的準(zhǔn)確度。
圖4 YOLOv5s結(jié)構(gòu)圖Fig.4 YOLOv5s structure diagram
將YOLOv5s 的Backbone 主干網(wǎng)絡(luò)替換為Mobilenetv3的主干網(wǎng)絡(luò),來進(jìn)行特征提取,Mobilenetv3是一種輕量神經(jīng)網(wǎng)絡(luò),特點(diǎn)是參數(shù)少、速度快、占用顯存低,由深度可分離卷積代替原始卷積層提取特征,在減少參數(shù)量的同時(shí),提高了運(yùn)算速度,也大幅度降低了對(duì)算力的需求。YOLO-M3提取網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 YOLO-M3提取網(wǎng)絡(luò)結(jié)構(gòu)Table 1 YOLO-M3 extract network structure
表1 中From 列的-1 表示輸入來自上一層輸出,Con3BN后Arguments列的值分別表示該模塊的輸入通道數(shù)、輸出通道數(shù)和步長信息,Invertedresidual 后Arguments 列的值分別表示該模塊的輸入通道數(shù)、輸出通道數(shù)、1×1 卷積升維后的通道數(shù)、卷積核大小、步長、是否加入SE注意力機(jī)制和是否使用h-swish激活函數(shù),經(jīng)計(jì)算,提取網(wǎng)絡(luò)替換后的模型共計(jì)5 102 109 個(gè)parameters,計(jì)算量為1.0×1010,YOLOv5s模型共計(jì)7 056 607個(gè)parameters,計(jì)算量為1.6×1010,由此得知,優(yōu)化后模型參數(shù)量減少了27.6%,計(jì)算量減少了38%,實(shí)現(xiàn)了對(duì)模型的初步壓縮。
在網(wǎng)絡(luò)模型中用CBAM[11]注意力機(jī)制替換SENet模塊來優(yōu)化目標(biāo)檢測(cè)精度,加強(qiáng)對(duì)檢測(cè)目標(biāo)的關(guān)注,從而降低由于環(huán)境復(fù)雜造成的檢測(cè)精度下降的問題。
CBAM 包含2 個(gè)獨(dú)立的子模塊,通道注意力模塊和空間注意力模塊,分別在通道和空間維度上進(jìn)行Attention,給定一個(gè)特征圖,CBAM 模塊會(huì)沿著兩個(gè)獨(dú)立的維度(通道和空間)依次推斷注意力圖,然后將注意力圖與輸入特征圖相乘以進(jìn)行自適應(yīng)特征優(yōu)化。引入CBAM 后,特征覆蓋到了待識(shí)別物體的更多部位,而且最終判別物體的幾率也更高。CBAM 注意力機(jī)制結(jié)構(gòu)如圖5所示。
圖5 CBAM注意力機(jī)制結(jié)構(gòu)Fig.5 CBAM attention mechanism structure
具體方法:先通過通道注意力機(jī)制,在空間維度上分別進(jìn)行最大值池化與平均值池化,得到兩個(gè)只有通道維度的向量,然后將這兩個(gè)向量分別通過一個(gè)共享全連接層,兩特征相加后經(jīng)過sigmoid 函數(shù)。得到通道注意力向量,通道注意力機(jī)制表達(dá)式如式(6)所示:
通道注意力機(jī)制如圖6所示。
圖6 通道注意力機(jī)制Fig.6 Channel attention mechanism
再通過空間注意力機(jī)制,在通道維度上進(jìn)行最大值池化和平均值池化,然后將這兩個(gè)結(jié)果基于通道做連接操作。然后經(jīng)過一個(gè)卷積操作,降維為1個(gè)通道。再經(jīng)過sigmoid生成空間注意力向量??臻g注意力機(jī)制表達(dá)式如式(7)所示:
空間注意力機(jī)制如圖7所示。
圖7 空間注意力機(jī)制Fig.7 Spatial attention mechanism
使用DIoU-NMS[12]替換NMS,改善目標(biāo)擁擠時(shí)的漏檢問題,增加檢測(cè)的召回率和準(zhǔn)確率。在使用NMS 移除多余的檢測(cè)框時(shí),評(píng)判的標(biāo)準(zhǔn)是某個(gè)檢測(cè)框與預(yù)測(cè)得分最高的檢測(cè)框的交并比IoU,當(dāng)IoU 大于設(shè)定的閾值時(shí),預(yù)測(cè)的檢測(cè)框?qū)⒈灰瞥?。但在目?biāo)密集的情況下,由于目標(biāo)的相互遮擋檢測(cè)框的重疊面積較大,經(jīng)常會(huì)被NMS 錯(cuò)誤的移除,造成目標(biāo)漏檢??紤]到工作場(chǎng)地人員的密集性,使用DIOU 和NMS 相結(jié)合的方法來改善漏檢情況,DIoU-NMS 不僅考慮了交并比IoU 的值,還考慮了預(yù)測(cè)邊界框和真實(shí)邊界框兩個(gè)Box 中心點(diǎn)之間的距離,DIoU-NMS公式如式(8)所示:
其中,M表示預(yù)測(cè)分?jǐn)?shù)最高的一個(gè)預(yù)測(cè)框,Bi用來判斷預(yù)測(cè)框是否需要被移除,Si表示分類分?jǐn)?shù),ε表示NMS 的閾值,RDIOU是兩個(gè)Box 中心點(diǎn)之間的距離,公式如式(9)所示:
其中,ρ2(·)是歐式距離,b和bgt是預(yù)測(cè)邊界框和真實(shí)邊界框的中心點(diǎn),c表示兩個(gè)Box的最小包圍框的最短對(duì)角線長度。
DIoU-NMS的與NMS的最大不同之處在于當(dāng)兩個(gè)中心點(diǎn)較遠(yuǎn)的box,DIoU-NMS 認(rèn)為可能位于不同的對(duì)象上,不應(yīng)將其刪除,從而改善漏檢情況。
針對(duì)上述問題,建筑企業(yè)需在公司內(nèi)部建立起相關(guān)規(guī)章制度,嚴(yán)格規(guī)范整個(gè)核算過程,讓整個(gè)環(huán)節(jié)更加嚴(yán)謹(jǐn)[4-6]。同時(shí),在企業(yè)內(nèi)部可以建立起專門的監(jiān)督部門,對(duì)會(huì)計(jì)核算人員和工作進(jìn)行實(shí)時(shí)動(dòng)態(tài)監(jiān)督,還要加強(qiáng)外部監(jiān)督。除此之外,還要培養(yǎng)一批專業(yè)的會(huì)計(jì)核算工作人員,樹立起他們的規(guī)范意識(shí),提高專業(yè)素養(yǎng),從而更好地進(jìn)行建筑企業(yè)項(xiàng)目管理的會(huì)計(jì)核算工作,促進(jìn)企業(yè)的發(fā)展。
知識(shí)蒸餾(knowledge distillation)是模型壓縮的一種常用的方法[13],不同于模型壓縮中的剪枝和量化,知識(shí)蒸餾的主要思想是訓(xùn)練一個(gè)小的網(wǎng)絡(luò)模型來模仿一個(gè)預(yù)先訓(xùn)練好的大型網(wǎng)絡(luò)。這種訓(xùn)練模式又被稱為“teacher-student”,大型的網(wǎng)絡(luò)是“教師網(wǎng)絡(luò)”,小型的網(wǎng)絡(luò)是“學(xué)生網(wǎng)絡(luò)”。知識(shí)蒸餾期望讓學(xué)生網(wǎng)絡(luò)在擁有更少參數(shù)量,更小規(guī)模的情況下,達(dá)到與教師網(wǎng)絡(luò)相似甚至超越教師網(wǎng)絡(luò)的精度。因此,對(duì)模型進(jìn)行蒸餾,解決了速度較慢,占用顯存高的問題,并且增加了模型的準(zhǔn)確度。蒸餾過程如圖8所示。
圖8 蒸餾過程Fig.8 Distillation process
首先利用數(shù)據(jù)訓(xùn)練一個(gè)層數(shù)更深,提取能力更強(qiáng)的教師網(wǎng)絡(luò),得到logits,然后,將教師網(wǎng)絡(luò)輸出logits進(jìn)行溫度為T的蒸餾,經(jīng)過softmax層得到類別預(yù)測(cè)概率分布作為soft targets,同時(shí),學(xué)生網(wǎng)絡(luò)輸出logits經(jīng)過相同溫度T進(jìn)行蒸餾,經(jīng)過softmax層之后得到類別預(yù)測(cè)概率,作為soft predictions,進(jìn)一步得到損失函數(shù)Lsoft,Lsoft公式如式(10)所示:
教師網(wǎng)絡(luò)也有一定的錯(cuò)誤率,使用真實(shí)標(biāo)簽作為hard targets,和學(xué)生網(wǎng)絡(luò)原始softmax 進(jìn)一步得出損失函數(shù)Lhard,Lhard的公式如式(11)所示:cj為第j類真實(shí)標(biāo)簽值。
損失函數(shù)Lhard和Lsoft加權(quán)相加作為最終的損失函數(shù)L。使得學(xué)生模型學(xué)習(xí)教師模型的同時(shí),也在和真實(shí)標(biāo)簽進(jìn)行比對(duì)學(xué)習(xí),可有效阻止教師網(wǎng)絡(luò)中的錯(cuò)誤信息被蒸餾到學(xué)生網(wǎng)絡(luò)中。本文采用YOLOv5m 模型作為教師模型,以經(jīng)過以上步驟改進(jìn)的YOLOv5s 作為學(xué)生模型進(jìn)行蒸餾,提高學(xué)生模型的性能。
本實(shí)驗(yàn)是在Windows 10 操作系統(tǒng),NVIDIARTX A5000 顯卡下,通過Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn)的模型的搭建、訓(xùn)練和驗(yàn)證,使用CUDA 11.1 計(jì)算架構(gòu),同時(shí)將cudnn 添加到環(huán)境中加速計(jì)算機(jī)的計(jì)算能力。所用的數(shù)據(jù)集是Safety Helmet Wearing[14],并對(duì)其中不符合本實(shí)驗(yàn)的圖片進(jìn)行剔除,同時(shí)又從互聯(lián)網(wǎng)上篩選一些具有復(fù)雜的施工環(huán)境和目標(biāo)密集的圖片來做補(bǔ)充,進(jìn)而提高檢驗(yàn)難度,來滿足在移動(dòng)端或嵌入式端的實(shí)際應(yīng)用,用PASCALVOC 對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。實(shí)驗(yàn)數(shù)據(jù)集包含7 851張圖片,以8∶2 的比例劃分?jǐn)?shù)據(jù)集和驗(yàn)證集,并將格式從XML轉(zhuǎn)換為txt格式,圖片分辨率大小為640×640,訓(xùn)練批次設(shè)置為16,初始學(xué)習(xí)率為0.003,IoU閾值設(shè)置為0.5,mixup 為0.5,所有參照模型均按照此參數(shù)訓(xùn)練300個(gè)epoch。
TP是指人佩戴了安全帽同時(shí)檢測(cè)正確的數(shù)量,F(xiàn)N是指人佩戴了安全帽但是檢測(cè)錯(cuò)誤的數(shù)量,AP是平均準(zhǔn)確度,是指在所有召回率的可能取值情況下,得到的所有準(zhǔn)確度的平均值,平均精度(mAP)是指AP 值在所有類別下取的平均。平均準(zhǔn)確度AP的計(jì)算公式如式(14)所示:
TN是指人未佩戴安全帽同時(shí)檢測(cè)正確的數(shù)量,F(xiàn)P是指人未佩戴安全帽但檢測(cè)錯(cuò)誤的數(shù)量。具體實(shí)驗(yàn)結(jié)果如表2所示。
由表2 可以看出,YOLOv5s 的模型大小13.7 MB,計(jì)算量為1.6×1010,特征提取網(wǎng)絡(luò)換深度可分離卷積后模型大小下降為10.2 MB,計(jì)算量為1.0×1010,添加CBAM注意力機(jī)制和DIoU-NMS替換NMS進(jìn)行優(yōu)化后模型大小為8.4 MB,計(jì)算量為9.6×109,模型大小為YOLOv5s的60%,計(jì)算量為YOLOv5s的58%,mAP僅下降了1個(gè)百分點(diǎn),僅通過跟教師模型學(xué)習(xí)mAP和YOLOv5s相差0.5 個(gè)百分點(diǎn),但再加上和真實(shí)標(biāo)簽比對(duì)學(xué)習(xí)后獲得的最終模型YOLO-M3 的mAP 僅比YOLOv5s 相差了0.1個(gè)百分點(diǎn),召回率和YOLOv5s 相等,由此可知,通過改進(jìn),在大幅度減少計(jì)算量、參數(shù)量和模型大小的情況下也保證了較高的mAP。
表2 改進(jìn)過程的對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparative experimental results of improvement process
YOLO-M3 和YOLOv5s 對(duì)安全帽數(shù)據(jù)集訓(xùn)練結(jié)果的平均精度和召回率的曲線圖如圖9所示。
圖9 YOLO-M3和YOLOv5s的訓(xùn)練結(jié)果Fig.9 Training results of YOLO-M3 and YOLOv5s
另外,為了更直觀地感受改進(jìn)算法和YOLOv5s 的檢測(cè)區(qū)別,選取了密集目標(biāo)和光線不好的情況圖像來進(jìn)行檢測(cè)對(duì)比,結(jié)果如圖10和圖11所示。
圖10 YOLO-M3檢測(cè)結(jié)果Fig.10 YOLO-M3 test results
圖11 YOLOv5s檢測(cè)結(jié)果Fig.11 YOLOv5s test results
由檢測(cè)結(jié)果可知,YOLO-M3 對(duì)于遮擋目標(biāo)有較好的檢測(cè)精度,且多數(shù)目標(biāo)識(shí)別的準(zhǔn)確度高于YOLOv5s,且在光線不佳的情況下,YOLO-M 的識(shí)別精度優(yōu)于YOLOv5s,由此可知,本文改進(jìn)的YOLO-M算法在大幅度降低參數(shù)量和計(jì)算量的同時(shí),保持了較高的精度,且對(duì)遮擋目標(biāo)有較高的辨別度,達(dá)到了需要的效果。
將YOLO-M3與其他主流算法相比較,來對(duì)YOLOM3 的性能進(jìn)行分析,進(jìn)一步證明檢驗(yàn)YOLO-M3 的優(yōu)越性和可行性,實(shí)驗(yàn)結(jié)果如表3所示。
表3 YOLO-M3與其他算法對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparitive experimental results between YOLO-M3 and other algorithms
由實(shí)驗(yàn)結(jié)果知,與Mobile SSDLite[15]相比,YOLOM3大幅度降低模型大小的情況下,平均精度提升了47.7個(gè)百分點(diǎn);相較于ShuffleNetV2-YOLOv5s 和GhostNet-YOLOv5s,YOLO-M3 模型大小和參數(shù)量稍大,但平均精度分別提高了24.3 個(gè)百分點(diǎn)和0.6 個(gè)百分點(diǎn);與主流檢測(cè)網(wǎng)絡(luò)模型SSD 和YOLOv3 相比,YOLO-M3 的模型大小和參數(shù)量都有大幅度的降低,平均精度顯著提高,相較于現(xiàn)階段基于輕量級(jí)改進(jìn)算法和主流檢測(cè)算法,YOLO-M3 具有較好的性能,達(dá)到了減小參數(shù)量和模型大小的同時(shí),保持較好的平均精度的效果。
由于現(xiàn)有的對(duì)安全帽佩戴檢測(cè)算法的參數(shù)量和計(jì)算量較大,不利于在嵌入式等設(shè)備進(jìn)行部署,且對(duì)遮擋目標(biāo)辨別度差,針對(duì)現(xiàn)有技術(shù)的缺點(diǎn)、不足之處,本文對(duì)YOLOv5 網(wǎng)絡(luò)進(jìn)行了輕量化的改進(jìn),首次將Mobile-NetV3 和YOLOv5s 相結(jié)合進(jìn)行輕量化的方法運(yùn)用到安全帽佩戴的檢測(cè),且添加CBAM 注意力機(jī)制和DIoUNMS 來優(yōu)化提取效果和提高對(duì)遮擋目標(biāo)的辨識(shí)度,并在對(duì)模型知識(shí)蒸餾的過程中,除了與復(fù)雜教師網(wǎng)絡(luò)模型學(xué)習(xí)外,還與真實(shí)標(biāo)簽做對(duì)比,有效阻止了教師網(wǎng)絡(luò)中的錯(cuò)誤信息被蒸餾到輕量級(jí)網(wǎng)絡(luò)中,使輕量級(jí)模型具有更強(qiáng)的學(xué)習(xí)能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型提高了對(duì)遮擋目標(biāo)的辨識(shí)度,且在保持了較高的平均精度的同時(shí),模型大小、參數(shù)量和計(jì)算量大幅度的降低,滿足了在嵌入式端等設(shè)備部署的要求。