曹 選,郝萬(wàn)君
(1.蘇州科技大學(xué) 物理科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009)
行人檢測(cè)在輔助駕駛系統(tǒng)、車(chē)輛監(jiān)控系統(tǒng)和預(yù)警防護(hù)系統(tǒng)等多個(gè)領(lǐng)域扮演著重要角色,是目標(biāo)檢測(cè)領(lǐng)域中的一個(gè)重要的基礎(chǔ)研究課題[1],可以為商場(chǎng)和景區(qū)等人流密度較大的公共場(chǎng)所以及智能安防領(lǐng)域提供有效的信息支撐[2]。
隨著人工智能產(chǎn)業(yè)的高速發(fā)展與計(jì)算機(jī)硬件計(jì)算能力的提升,國(guó)內(nèi)外學(xué)者已經(jīng)開(kāi)展了基于深度學(xué)習(xí)的研究行人檢測(cè)方案,并且取得了一些的效果[3]。而目前的行人檢測(cè)算法在實(shí)際大規(guī)模擁擠場(chǎng)景應(yīng)用過(guò)程中,始終存在著由于行人交疊、遮擋而導(dǎo)致的漏檢率較高的問(wèn)題,此類(lèi)問(wèn)題依然困擾著很多研究者,也是目前行人檢測(cè)面臨的巨大挑戰(zhàn)[4]。
許多學(xué)者基于深度學(xué)習(xí)理論提出了不同措施以提高算法的性能。2019年,Wojke等人[5]提出了Deep Sort算法,運(yùn)用一個(gè)殘差網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取目標(biāo)的外觀信息,用匈牙利算法將外觀特征向量的余弦距離與運(yùn)動(dòng)信息關(guān)聯(lián)起來(lái),然而其跟蹤效果依賴目標(biāo)檢測(cè)器的精確度和特征區(qū)分程度,跟蹤速度與目標(biāo)檢測(cè)速度密切相關(guān)。2019年,徐誠(chéng)極等人[6]使用注意力機(jī)制改進(jìn)了YOLO V3,提出了Attention-YOLO算法,有效提高了檢測(cè)準(zhǔn)確率,但是其短板在于對(duì)小范圍的不連續(xù)的信息上的表現(xiàn)并不準(zhǔn)確。2021年,周大可等人[7]以RetinaNet作為基礎(chǔ)框架,在回歸和分類(lèi)支路分別添加空間注意力和通道注意力子網(wǎng)絡(luò),提出一種結(jié)合雙重注意力機(jī)制的遮擋感知行人檢測(cè)算法,有效提高了行人檢測(cè)算法在嚴(yán)重遮擋情況下的性能,降低遮擋對(duì)檢測(cè)造成的影響,但由于雙重注意力機(jī)制子網(wǎng)絡(luò)帶來(lái)了附加的計(jì)算量,因此檢測(cè)幀率只有11.8 fps。沈軍宇等人[8]基于YOLO算法進(jìn)行端到端訓(xùn)練,快速檢測(cè)實(shí)時(shí)視頻中目標(biāo)的數(shù)量,根據(jù)預(yù)先設(shè)置的閾值觸發(fā)截圖與保存視頻功能,實(shí)現(xiàn)魚(yú)群高效地檢測(cè)與跟蹤,系統(tǒng)魯棒性強(qiáng),對(duì)數(shù)據(jù)處理與存儲(chǔ)效率較高,但是并未針對(duì)視頻中的魚(yú)群由于數(shù)量較多,處于密集狀態(tài)的這一特殊情況進(jìn)行考慮,在進(jìn)行密集魚(yú)群的檢測(cè)計(jì)數(shù)時(shí)會(huì)有較高的漏檢率。
SENet(通道注意力機(jī)制,Squeeze-and-Excitation Networks)是一種將各個(gè)通道之間的特征進(jìn)行通道卷積來(lái)改善模型的表達(dá)能力,注重各類(lèi)通道特征關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)。將SENet應(yīng)用在公共大規(guī)模場(chǎng)景擁擠情況下的行人檢測(cè)上,可以增強(qiáng)重要特征的通道權(quán)重,從而提高檢測(cè)的效果。
針對(duì)上述學(xué)者研究中的問(wèn)題與不足,筆者在文獻(xiàn)[6-8]研究的基礎(chǔ)上提出一種融合注意力機(jī)制的改進(jìn)YOLO V5的密集行人檢測(cè)算法。該算法利用SENet融合網(wǎng)絡(luò)特征對(duì)融合的特征圖采用自適應(yīng)調(diào)整的方式更新不同特征通道的權(quán)重,提高網(wǎng)絡(luò)特征提取和特征融合的能力,并通過(guò)數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑的方式提高模型的泛化能力,豐富行人的樣本特征,以及利用CIoU、DIoU_NMS參數(shù)對(duì)YOLO V5原有的損失函數(shù)進(jìn)行改進(jìn),提升算法的檢測(cè)準(zhǔn)確率和降低漏檢率。
YOLO V5由Ultralytics LLC公司于2020年5月提出,按照網(wǎng)絡(luò)深度和特征圖寬度大小分為YOLO V5s、YOLO V5m、YOLO V5l、YOLO V5x。文中采用了YOLO V5s作為使用模型,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。從網(wǎng)絡(luò)結(jié)構(gòu)圖中可看出,YOLO V5s模型主要分為4個(gè)部分,分別為Input、Backbone、Neck和Prediction。
圖1 YOLO V5s網(wǎng)絡(luò)模型結(jié)構(gòu)
SENet(通道注意力機(jī)制)最早見(jiàn)于2017年,由國(guó)內(nèi)自動(dòng)駕駛公司Momenta的胡杰團(tuán)隊(duì)[9]在《Squeezeand-Excitation Networks》一文中提出。通道注意力機(jī)制通過(guò)研究特征圖的各個(gè)通道之間的相關(guān)性,計(jì)算了各個(gè)通道的重要性得分,并且作為分配給各個(gè)通道的不同權(quán)重,以此凸顯出包含重要特征信息的相關(guān)通道表達(dá)[10]。
SENet主要由壓縮(Squeeze)和激勵(lì)(Excitation)兩部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示[11]。
圖2 SELayer示意圖
在大多數(shù)應(yīng)用場(chǎng)景中,訓(xùn)練模型使用的原始數(shù)據(jù)集并不能滿足理想的訓(xùn)練需要,而獲取更多的數(shù)據(jù)集也會(huì)增加訓(xùn)練的成本和帶來(lái)更多的工作量,所以更好的處理方式是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)增強(qiáng)和標(biāo)簽平滑處理兩個(gè)部分。
應(yīng)用數(shù)據(jù)增強(qiáng)進(jìn)行數(shù)據(jù)預(yù)處理的主要目的是:通過(guò)數(shù)據(jù)增強(qiáng)的方式擴(kuò)充訓(xùn)練集圖片,可以讓用于訓(xùn)練的數(shù)據(jù)集樣本更加多樣,降低各方面的額外因素對(duì)識(shí)別的影響。而圖像中添加隨機(jī)噪聲,也可以有效提高模型的泛化能力和魯棒性[12]。在實(shí)際應(yīng)用過(guò)程中使用次數(shù)較多的單樣本數(shù)據(jù)增強(qiáng)方法包括對(duì)圖像進(jìn)行縮放并進(jìn)行長(zhǎng)和寬的扭曲、對(duì)圖像進(jìn)行翻轉(zhuǎn)的幾何變換類(lèi)數(shù)據(jù)增強(qiáng),以及在圖像上添加噪聲和修改對(duì)比度、亮度等的顏色變換類(lèi)數(shù)據(jù)增強(qiáng)。文中實(shí)驗(yàn)過(guò)程中所采用的數(shù)據(jù)增強(qiáng)方法在原有的傳統(tǒng)增強(qiáng)方法基礎(chǔ)上增加了噪聲圖片隨機(jī)裁剪-拼接法,即將多個(gè)待檢測(cè)圖像添加噪聲后,再?gòu)拿恳粡垐D片中截取一部分,合成一張圖片進(jìn)行整體檢測(cè)。這種方式能夠同時(shí)有效提升微小擾動(dòng)和大量擾動(dòng)條件下模型的檢測(cè)準(zhǔn)確性。標(biāo)簽平滑處理(label smooth)其本質(zhì)是一種正則化處理,能夠減少過(guò)擬合訓(xùn)練的可能性,使得模型對(duì)測(cè)試集預(yù)測(cè)的概率分布更接近真實(shí)的分布情況,從而提升分類(lèi)器性能[13]。文中實(shí)驗(yàn)過(guò)程中采用的標(biāo)簽平滑方法為隨機(jī)增加訓(xùn)練集中的錯(cuò)誤標(biāo)注,并在訓(xùn)練過(guò)程中使其擁有負(fù)的學(xué)習(xí)率,由此促使模型的分類(lèi)結(jié)果更快地向正確的分類(lèi)結(jié)果靠近。
為了進(jìn)一步提升密集場(chǎng)景的行人檢測(cè)效果,文中提出了一種改進(jìn)的YOLO V5算法,引入通道注意力機(jī)制SELayer改進(jìn)YOLO V5的骨干網(wǎng)絡(luò),提升特征圖不同通道間目標(biāo)信息的相關(guān)性表述。將SELayer加入后的YOLO V5網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示(圖中黑色方框?yàn)榧尤氲腟ENet結(jié)構(gòu))。
圖3 改進(jìn)后的YOLO V5網(wǎng)絡(luò)結(jié)構(gòu)
從文中擴(kuò)充后的擁擠行人數(shù)據(jù)集中隨機(jī)抽取了如圖4(a)、圖4(d)2張圖片。利用原始YOLO V5算法與增加了SENet后的YOLO V5算法進(jìn)行檢測(cè),檢測(cè)結(jié)果分別如圖4(b)、圖4(e)與圖4(c)、圖4(f)所示。
“星星急救”教學(xué)方式多樣化,采用情景再現(xiàn)、模擬演示、應(yīng)急演練、健康講座等多種方式相結(jié)合的形式,為社會(huì)公眾提供培訓(xùn)服務(wù)。太和醫(yī)院提供的資料顯示,小分隊(duì)以情景劇開(kāi)展急救知識(shí)的科普宣傳活動(dòng),獲得了國(guó)家知識(shí)產(chǎn)權(quán)保護(hù)。
圖4 SENet加入前后的檢測(cè)效果
在圖4(a)與背景差別不大的被遮擋目標(biāo)和中間部分的由于距離較遠(yuǎn)的小尺度目標(biāo)檢測(cè)中,僅增加了SENet后的改進(jìn)算法對(duì)其進(jìn)行了正確標(biāo)注,如圖4(c)的白色箭頭指向所示,而傳統(tǒng)YOLO V5算法的檢測(cè)結(jié)果圖4(b)中并未對(duì)其標(biāo)注,如圖4(b)中白色箭頭指向所示;對(duì)于圖4(d)存在相似物體的行人檢測(cè),原始YOLO V5算法的檢測(cè)結(jié)果圖4(e)出現(xiàn)了錯(cuò)誤標(biāo)注的情況,而增加了SENet的YOLO V5算法并未受到相似物體的干擾,其檢測(cè)結(jié)果如圖4(f)所示。從圖4的實(shí)驗(yàn)結(jié)果可以看出,SENet模塊的引入,有效地濾除了密集行人檢測(cè)中的背景干擾,降低了誤檢率,提高了檢測(cè)精度。
3.3.1 使用CIoU
在對(duì)畫(huà)面中的目標(biāo)進(jìn)行檢測(cè)時(shí),因視場(chǎng)內(nèi)存在不止一個(gè)目標(biāo),算法將生成不止一個(gè)預(yù)測(cè)框,因此需要使用非極大值抑制方法刪除多余的預(yù)測(cè)框,選擇最接近真實(shí)框的預(yù)測(cè)框[14]。在YOLO V5中采用GIoU_Loss作為損失函數(shù),其原理見(jiàn)公式(1)[15]。GIoU加了相交尺度的衡量方式,有效解決了邊界框不重合時(shí)問(wèn)題。但當(dāng)預(yù)測(cè)框和目標(biāo)框出現(xiàn)互相包含關(guān)系,或者寬和高對(duì)齊的情況時(shí),GIoU就會(huì)在回歸的過(guò)程中,逐漸退化為IoU,從而無(wú)法評(píng)估相對(duì)位置,容易出現(xiàn)迭代次數(shù)增加和檢測(cè)速度減慢的情況,且存在發(fā)散的風(fēng)險(xiǎn)[16]。
針對(duì)上述問(wèn)題,Zheng等人[16]將不同目標(biāo)框中心點(diǎn)之間的中心距離一同考慮進(jìn)去,提出了回歸更加穩(wěn)定、收斂更快更難發(fā)散的Distance-IoU(DIoU)Loss。但是在進(jìn)行實(shí)際目標(biāo)檢測(cè)時(shí),還需要將邊框的高寬比的一致性列入考慮范圍。為此,文中在文獻(xiàn)[16]的基礎(chǔ)上,將邊框的高寬比的一致性列入考慮范圍,引入CIoU_Loss作為損失函數(shù)對(duì)YOLO V5算法進(jìn)行改進(jìn)。相比于DIoU,CIoU_Loss的收斂速度更快,回歸的效果也更好。
CIoU_Loss的懲罰項(xiàng)定義如下
CIoU_Loss的最終定義如下
如圖5所示,利用Opencv+numpy繪制了不同尺寸和長(zhǎng)寬比的兩個(gè)矩形框模擬算法的預(yù)測(cè)框和實(shí)際框之間的交并情況,并利用公式(1)得到GIoU,利用公式(2)-(5)計(jì)算得到CIoU,計(jì)算結(jié)果如圖5(b)、圖5(a)所示。從圖5中CIoU與GIoU的計(jì)算結(jié)果可以看出,由于此時(shí)GIoU損失退化,導(dǎo)致在預(yù)測(cè)框bbox和ground truth bbox包含的時(shí)候優(yōu)化變得非常困難,特別是在水平和垂直方向收斂難,而CIoU仍可以使回歸更快。
圖5 當(dāng)預(yù)測(cè)框與目標(biāo)框存在交疊情況時(shí)的CIoU與GIoU對(duì)比
因此,文中利用CIoU來(lái)代替原始YOLO V5算法中的GIoU進(jìn)行anchor的回歸,實(shí)現(xiàn)真實(shí)框和預(yù)測(cè)框無(wú)重合時(shí)的梯度回傳,提高模型收斂能力。當(dāng)邊界框與真實(shí)框上下或左右相鄰時(shí),CIoU能夠優(yōu)化不相交的邊界框,保留位置更準(zhǔn)確的邊界框,提高模型對(duì)目標(biāo)位置預(yù)測(cè)的精確度,使其通過(guò)非極大值抑制篩選得到的結(jié)果更加合理。同時(shí),使用CIoU能夠降低模型的訓(xùn)練難度,提高檢測(cè)的準(zhǔn)確率。
3.3.2 非極大值抑制改進(jìn)
在原始YOLO V5算法目標(biāo)檢測(cè)預(yù)測(cè)結(jié)果處理階段,針對(duì)出現(xiàn)的眾多目標(biāo)框的篩選,采用加權(quán)NMS操作,獲得最優(yōu)目標(biāo)框。但是加權(quán)NMS只考慮兩個(gè)目標(biāo)框的重疊區(qū)域面積,容易出現(xiàn)定位與得分不一致的問(wèn)題[16]。在抑制準(zhǔn)則中,不僅應(yīng)考慮重疊區(qū)域,還應(yīng)該考慮兩個(gè)box之間的中心點(diǎn)間距,DIoU_NMS則同時(shí)考慮了這兩點(diǎn)。因此,文中使用DIoU_NMS進(jìn)行評(píng)判,使得效果更符合實(shí)際。對(duì)于score最高的預(yù)測(cè)box M,可以將DIoU_NMS的si更新公式正式定義為
其中通過(guò)同時(shí)考慮IoU和兩個(gè)box的中心點(diǎn)之間的距離來(lái)刪除box Bi,M為當(dāng)前得分最高預(yù)測(cè)框,Bi表示與M相交的第i個(gè)預(yù)測(cè)框,si是分類(lèi)得分,ε是NMS閾值。
如圖6所示,分別利用LCIoU+加權(quán)NMS與LCIoU+DIoU_NMS同時(shí)對(duì)圖6(a)的行人進(jìn)行檢測(cè),CIoU+加權(quán)NMS的檢測(cè)結(jié)果如圖6(b)所示,出現(xiàn)了由于目標(biāo)框重疊導(dǎo)致的漏檢率增大,而在LCIoU+DIoU_NMS的檢測(cè)結(jié)果圖6(c)中,圖6(b)中未能框選出的目標(biāo)得到了正確的標(biāo)注,檢測(cè)率高于圖6(b),如圖6(b)與圖6(c)中的白色箭頭指向所示。實(shí)驗(yàn)表明,利用DIoU_NMS來(lái)代替原始YOLO V5的加權(quán)NMS,有效提升了由于行人密集導(dǎo)致的遮擋情況的檢測(cè)率。
圖6 不同NMS時(shí)的檢測(cè)結(jié)果
文中進(jìn)行模型訓(xùn)練與驗(yàn)證測(cè)試的硬件平臺(tái)CPU為Core(TM)i5-10400F CPU@2.90 GHz,內(nèi)存16 GB,選用的GPU是RTX 2060S 8 GB,在Windows 10操作系統(tǒng)上運(yùn)行。
根據(jù)YOLO系列算法訓(xùn)練集格式要求,筆者從野外密集行人檢測(cè)的WiderPerson數(shù)據(jù)集與曠世發(fā)布的CrowdHuman數(shù)據(jù)集中各隨機(jī)選擇了8 000張與5 000張圖片,并將數(shù)據(jù)集標(biāo)注格式全部轉(zhuǎn)化為VOC格式,同時(shí)使用上文中提到的數(shù)據(jù)增強(qiáng)的方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)容,最終得到數(shù)據(jù)集共20 000張,按照8∶2的比例區(qū)分訓(xùn)練集、測(cè)試集。
文中利用Python語(yǔ)言應(yīng)用Pytorch深度學(xué)習(xí)框架對(duì)YOLO V5網(wǎng)絡(luò)模型進(jìn)行結(jié)構(gòu)搭建與編寫(xiě)程序,并且在訓(xùn)練過(guò)程中應(yīng)用隨機(jī)梯度下降算法(stochastic gradient descent,SGD[17])作為優(yōu)化算法,對(duì)訓(xùn)練過(guò)程中的參數(shù)進(jìn)行優(yōu)化[18]。訓(xùn)練過(guò)程中設(shè)置動(dòng)量為0.7,權(quán)重衰減0.000 2,初始學(xué)習(xí)率設(shè)定為0.01,每訓(xùn)練10次后學(xué)習(xí)率衰減0.01,總的訓(xùn)練次數(shù)為300次。
文中在進(jìn)行模型訓(xùn)練時(shí),將準(zhǔn)確率、召回率、平均精度均值以及調(diào)和均值作為評(píng)估指標(biāo)[19]。利用準(zhǔn)確率和召回率作為判別行人檢測(cè)識(shí)別效果的標(biāo)準(zhǔn),但兩者為負(fù)相關(guān)關(guān)系[20]。平均精度均值與調(diào)和均值是同時(shí)考慮準(zhǔn)確率和召回率的量化指標(biāo),它們的數(shù)值越大,則識(shí)別效果越好[21]。
為了驗(yàn)證修改后網(wǎng)絡(luò)的有效性,文中比較了原始YOLO V5網(wǎng)絡(luò)與改進(jìn)后的YOLO V5網(wǎng)絡(luò)在同一數(shù)據(jù)集中訓(xùn)練時(shí)間及實(shí)際檢測(cè)效果。在同一數(shù)據(jù)集中分別訓(xùn)練300次,訓(xùn)練中的損失值與mAP的收斂曲線對(duì)比如圖7所示,準(zhǔn)確率變化與召回率曲線如圖8所示。迭代完成后損失值大約為0.021 76,mAP最終的收斂值在0.976 4,繪制Loss、mAP曲線后對(duì)參數(shù)的收斂情況進(jìn)行對(duì)比分析可得,文中提出的基于YOLO V5的改進(jìn)模型訓(xùn)練結(jié)果相比于原始YOLO V5模型準(zhǔn)確率更高、Loss更低。
圖7 原始YOLO V5與文中算法損失值與平均精度值對(duì)比
圖8 文中算法的準(zhǔn)確率與召回率曲線
訓(xùn)練結(jié)束后利用得到的權(quán)重參數(shù)模型對(duì)待檢測(cè)目標(biāo)樣本進(jìn)行檢測(cè),同時(shí)標(biāo)出檢測(cè)的對(duì)象位置,結(jié)果如圖9所示,左中右三幅圖依次為原圖、文中改進(jìn)算法檢測(cè)圖與原始YOLO V5檢測(cè)圖。
在光線明亮、遮擋較少的正常情況的圖9(a)的檢測(cè)對(duì)比實(shí)驗(yàn)中,原始YOLO V5能框選出圖9(a)中的大部分行人目標(biāo),但仍然是出現(xiàn)了漏檢率較高的情況,如圖9(c)所示;在光線正常、不同目標(biāo)之間存在相互遮擋的圖9(d)檢測(cè)對(duì)比中,原始YOLO V5的漏檢率與文中算法均存在漏檢情況,但從圖9(e)、圖9(f)中的框選結(jié)果可以看出,原始YOLO V5算法的漏檢率更高;在對(duì)比度較低情況下的圖9(g)檢測(cè)對(duì)比實(shí)驗(yàn)中,由于拍攝圖片角度與距離原因,行人與陰影部分的重疊區(qū)域較大,且行人目標(biāo)也較前兩個(gè)實(shí)驗(yàn)的目標(biāo)更小,原始YOLO V5的在該次實(shí)驗(yàn)中的漏檢率進(jìn)一步增加,如圖9(i)所示,而文中的改進(jìn)算法依舊能夠?qū)D片中的行人框選出來(lái),如圖9(h)所示,雖然也出現(xiàn)了漏檢情況,但從檢測(cè)結(jié)果可以看出,文中算法的魯棒性比原始YOLO V5算法更好。
圖9 正常情況、存在遮擋、對(duì)比度較低情況下的對(duì)比實(shí)驗(yàn)結(jié)果
為統(tǒng)計(jì)分析各種算法的性能,在上文提到的軟硬件環(huán)境下利用文中擴(kuò)充后的擁擠行人數(shù)據(jù)集將SSD、原始YOLO V5以及文中改進(jìn)算法進(jìn)行訓(xùn)練和測(cè)試。IoU設(shè)定為0.5,它是VOC數(shù)據(jù)集的測(cè)試標(biāo)準(zhǔn),也是常用指標(biāo)[22]。文中以這一指標(biāo)進(jìn)行準(zhǔn)確率對(duì)比,各算法的實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 各算法的性能對(duì)比
實(shí)驗(yàn)表明,相比原始YOLO V5算法,文中改進(jìn)算法mAP提升了10.5%,精準(zhǔn)率提升接近16%,漏檢率降低了接近10%,同時(shí)保持了原始YOLO V5算法的高幀率。改進(jìn)后的模型對(duì)行人檢測(cè)較為精準(zhǔn),在多目標(biāo)、行人相互遮擋的情況下也可以很好地進(jìn)行檢測(cè),有效地避免了漏檢的問(wèn)題,整體表現(xiàn)良好,目標(biāo)定位準(zhǔn)確,識(shí)別率較高。
筆者針對(duì)公共場(chǎng)景下的行人檢測(cè)問(wèn)題,研究了當(dāng)下主流的YOLO V5算法,并在原始YOLO V5算法的基礎(chǔ)上進(jìn)行了以下改進(jìn):(1)引入SENet對(duì)原始YOLO V5網(wǎng)絡(luò)進(jìn)行改進(jìn),對(duì)融合的特征圖進(jìn)行自適應(yīng)的調(diào)整;(2)通過(guò)引入數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑的方式對(duì)原有數(shù)據(jù)集數(shù)據(jù)進(jìn)行拓展得到大量新的訓(xùn)練數(shù)據(jù),有效提升模型訓(xùn)練集大小,快速提升目標(biāo)檢測(cè)效果;(3)引入CIoU、DIoU_NMS參數(shù),提高網(wǎng)絡(luò)特征提取和特征融合的能力,同時(shí)提升算法的檢測(cè)準(zhǔn)確率和檢測(cè)速度。與原算法相比,在文中擴(kuò)充后的擁擠行人數(shù)據(jù)集上,筆者提出基于YOLO V5的改進(jìn)算法檢測(cè)的準(zhǔn)確率和漏檢率明顯優(yōu)于原始YOLO V5算法,同時(shí)保持了原有算法的實(shí)時(shí)性,mAP達(dá)到了0.976 4,幀率達(dá)到了140 fps,滿足公共大規(guī)模擁擠場(chǎng)景下進(jìn)行行人檢測(cè)時(shí)的速度與精度的要求。