• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向復(fù)雜交通場景的目標(biāo)檢測模型YOLO-T

      2024-01-01 00:00:00劉宇高尚兵張秦濤張瑩瑩
      山東科學(xué) 2024年6期
      關(guān)鍵詞:智能交通目標(biāo)檢測深度學(xué)習(xí)

      摘要:針對(duì)復(fù)雜交通場景下,特別是擁堵道路中,經(jīng)常出現(xiàn)的交通目標(biāo)密集、互相遮擋,小尺度目標(biāo)檢測精度低的問題,提出了一種面向復(fù)雜交通場景的目標(biāo)檢測模型YOLO-T(You Only Look Once-Transformer)。首先提出CTNet主干網(wǎng)絡(luò),相較于CSPDarknet53,該主干擁有更深的網(wǎng)絡(luò)結(jié)構(gòu)和多尺度特征提取模塊,不僅能夠更好地學(xué)習(xí)密集目標(biāo)的多級(jí)特征,還可以提高模型對(duì)復(fù)雜交通場景的應(yīng)對(duì)能力,進(jìn)而引導(dǎo)模型更加關(guān)注小目標(biāo)的特征信息,提升小目標(biāo)的檢測性能;其次引入Vit-Block,采用卷積和Transformer并行的方式融合更多的特征,兼顧局部和上下文信息的關(guān)聯(lián)性,從而提升檢測精度;最后在頸部網(wǎng)絡(luò)Neck后增加Reasonable模塊,引入注意力機(jī)制,進(jìn)一步提高目標(biāo)檢測算法對(duì)復(fù)雜場景和遮擋目標(biāo)的魯棒性。實(shí)驗(yàn)結(jié)果表明,相比基準(zhǔn)算法,YOLO-T在KITTI數(shù)據(jù)集和BDD100K數(shù)據(jù)集的檢測精度分別提高了1.92%和12.78%,能有效提升復(fù)雜交通場景下的檢測性能,更好地輔助駕駛員對(duì)其他車輛行駛行為的判斷,減少交通事故的發(fā)生。

      關(guān)鍵詞:智能交通;深度學(xué)習(xí);目標(biāo)檢測;YOLO;復(fù)雜交通場景

      中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1002-4026(2024)06-0104-12

      目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)基礎(chǔ)任務(wù),廣泛應(yīng)用于各個(gè)領(lǐng)域。特別是在自動(dòng)駕駛技術(shù)中,環(huán)境感知模塊是自動(dòng)駕駛系統(tǒng)中不可或缺的一部分,而目標(biāo)檢測則是環(huán)境感知模塊中最為關(guān)鍵的部分之一[1]。自動(dòng)駕駛需要實(shí)時(shí)地、快速地感知周圍的行人、車輛、交通標(biāo)志等信息,并根據(jù)這些信息,輔助駕駛員對(duì)復(fù)雜路況以及其他車輛行駛行為做出相應(yīng)的決策和行動(dòng)。道路擁擠是交通場景中一個(gè)非常重要的問題,對(duì)交通管理、交通安全和交通效率都具有重要影響。例如道路擁擠會(huì)增加交通事故的風(fēng)險(xiǎn),車輛密度增加,車輛之間的距離縮小,容易發(fā)生追尾和碰撞事故[2]。因此,及時(shí)為駕駛員提供較為準(zhǔn)確的道路信息,可以有助于提前采取交通安全措施,減少交通事故的發(fā)生。

      目前,目標(biāo)檢測在道路擁擠中面臨的挑戰(zhàn)主要包括以下幾個(gè)方面:

      (1)在道路擁擠中,車輛、行人和其他目標(biāo)之間可能存在相互遮擋的情況。這會(huì)導(dǎo)致目標(biāo)的一部分或全部被其他物體遮擋,從而使目標(biāo)檢測更加困難。

      (2)道路上的目標(biāo)可能具有不同的尺度,例如遠(yuǎn)處的車輛比近處的車輛更小。這種尺度變化給目標(biāo)檢測帶來了挑戰(zhàn),因?yàn)樗惴ㄐ枰軌蜻m應(yīng)不同尺度的目標(biāo)。

      (3)在擁擠的道路場景中,目標(biāo)之間的距離非常接近,可能出現(xiàn)重疊和相互交叉的情況。這會(huì)增加目標(biāo)檢測算法的困難度,因?yàn)樾枰獪?zhǔn)確地分割和識(shí)別目標(biāo)。

      近年來,計(jì)算機(jī)視覺領(lǐng)域相關(guān)技術(shù)取得了突破性創(chuàng)新,目標(biāo)檢測算法也不斷地得到改進(jìn)和優(yōu)化,基于深度學(xué)習(xí)的目標(biāo)檢測算法在準(zhǔn)確性和實(shí)時(shí)性上都有了很大的提升[3]。深度學(xué)習(xí)檢測方法可分為兩階段檢測算法和一階段檢測算法。兩階段檢測算法如R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]等包括兩個(gè)關(guān)鍵步驟:生成候選區(qū)域的過程和對(duì)候選區(qū)域進(jìn)行分類的過程。盡管這類算法識(shí)別準(zhǔn)確度高,漏識(shí)別率也相對(duì)較低,但識(shí)別速度較慢,無法滿足實(shí)時(shí)場景檢測的需求。一階段檢測算法如YOLO[7]、SSD[8]、Retina-Net[9]等則直接生成目標(biāo)的類別概率和坐標(biāo),通過一次檢測就能直接得到最終的檢測結(jié)果。這種方式避免了兩階段檢測算法中候選區(qū)域生成的額外計(jì)算開銷,從而提高了檢測速度。

      除此之外,Transformer作為文本領(lǐng)域的研究方法在目標(biāo)檢測中也逐漸嶄露頭角。Transformer作為一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),具有獲取全局信息、靈活的輸入形式和可并行化處理等優(yōu)勢,在目標(biāo)檢測領(lǐng)域也得到了廣泛的應(yīng)用。DOSOVITSKIY等[10]提出了Vision Transformer(ViT)模型,首次將Transformer應(yīng)用到圖像識(shí)別任務(wù)中,并取得了意想不到的優(yōu)異表現(xiàn)。

      但無論是YOLO模型還是ViT模型,在面對(duì)復(fù)雜交通場景時(shí)都各自存在一些弊端,YOLO對(duì)目標(biāo)的檢測是通過將圖像劃分為網(wǎng)格并預(yù)測每個(gè)網(wǎng)格中目標(biāo)的邊界框來實(shí)現(xiàn)的。在復(fù)雜交通場景中,目標(biāo)的邊界可能模糊或相互遮擋,這可能導(dǎo)致YOLO的邊界框預(yù)測不夠精確,無法準(zhǔn)確地覆蓋目標(biāo)的真實(shí)邊界。同時(shí),面對(duì)較小的目標(biāo)檢測可能效果不佳。而ViT對(duì)目標(biāo)的檢測是基于全局特征的,更加注重圖像塊之間的關(guān)系,往往會(huì)忽視局部細(xì)節(jié)特征,這可能導(dǎo)致ViT在復(fù)雜場景下檢測目標(biāo)的表現(xiàn)不佳。因此,將兩者有效結(jié)合,構(gòu)建YOLO-T模型,以此克服復(fù)雜交通場景下檢測性能低的困難。

      1研究方法

      目前越來越多的學(xué)者將卷積與Transformer相結(jié)合以提升道路目標(biāo)的檢測精度。李麗芬等[11]提出引入Transformer的道路小目標(biāo)檢測方法,在原YOLOv4算法基礎(chǔ)上,設(shè)計(jì)ICvT模塊捕獲特征內(nèi)部的相關(guān)性,獲得上下文信息,提取更加全面豐富的特征,增加特征圖的感受野。龐玉東等[12]提出基于改進(jìn)實(shí)時(shí)檢測Transformer的塔機(jī)上俯視場景小目標(biāo)檢測模型,以DETR為基準(zhǔn)算法,設(shè)計(jì)FastNet-Block中的卷積模塊,替換原始BackBone之中的BasicBlock提升檢測模型性能。羅漫等[13]提出基于CNN技術(shù)和DETR的智能汽車自動(dòng)駕駛道路智能識(shí)別的研究,在DETR加入了Swin Transformer模塊,提高了道路目標(biāo)檢測性能,同時(shí)采用基于多頭自注意力機(jī)制,實(shí)現(xiàn)了道路多目標(biāo)的高精度識(shí)別,達(dá)到了模型優(yōu)化的目的。

      YOLOv5模型分為Backbone、Neck、Head三大部分,模型規(guī)模由小到大有YOLOv5s、YOLOv5m、YOLOv5l多個(gè)版本。YOLOv5所使用的主干特征提取網(wǎng)絡(luò)為CSPDarknet53,由Focus、Conv、C3、空間金字塔池化結(jié)構(gòu)(spatial pyramid pooling,SPP)等模塊組成。Neck的主要結(jié)構(gòu)為特征金字塔(feature pyramid networks,F(xiàn)PN)[14]和路徑聚合網(wǎng)絡(luò)(path aggregation networks,PAN)[15]結(jié)構(gòu),能對(duì)高層級(jí)特征圖中豐富的語義信息以及低層級(jí)特征圖中豐富的位置信息進(jìn)行有效融合。Head為YOLOv5的檢測結(jié)構(gòu),將3種不同大小的特征輸入Detect模塊,分別針對(duì)大、中、小體型的目標(biāo)識(shí)別,克服頂端特征的局限性。

      2YOLO-T網(wǎng)絡(luò)

      本文基于YOLOv5提出了改進(jìn)網(wǎng)絡(luò)YOLO-T,使用CTNet作為主干網(wǎng)絡(luò),增加網(wǎng)絡(luò)深度,擴(kuò)大FPN結(jié)構(gòu),采用Vit-Block模塊來提升網(wǎng)絡(luò)的特征提取能力,進(jìn)一步加強(qiáng)網(wǎng)絡(luò)道路擁擠時(shí),對(duì)復(fù)雜情況的處理能力以及小目標(biāo)的識(shí)別能力,引入深度可分離卷積,降低模型的復(fù)雜度,最后在Neck與Head之間增加Reasonable模塊,更好地關(guān)聯(lián)上下文語義信息。YOLO-T算法框架如圖1所示。

      2.1CTNet主干網(wǎng)絡(luò)

      CTNet是YOLO-T的主干網(wǎng)絡(luò),其由Focus模塊、CBS模塊以及改進(jìn)的Vit-Block模塊構(gòu)成。Focus模塊將輸入的圖像進(jìn)行分塊切片,然后對(duì)切片后的結(jié)果拼接,從而增加特征通道并減小特征尺寸。CBS模塊是由一個(gè)3×3和一個(gè)1×1卷積組成,用于提取圖像特征,并擴(kuò)充通道數(shù)。Vit-Block模塊則是多尺度特征提取模塊,整體思路是將卷積與Transformer[16]相結(jié)合提高網(wǎng)絡(luò)特征提取能力,主干網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

      本文使用了5個(gè)不同尺度特征層,以此獲取更加細(xì)膩的低層語義信息,從而提升模型對(duì)小目標(biāo)的關(guān)注度,改善在車輛擁擠時(shí),駕駛員視線受阻的情況?;鶞?zhǔn)算法的主干CSPDarknet53僅用4層特征提取模塊,最高下采樣到20×20,但是在實(shí)際道路圖像中,小尺度汽車或行人目標(biāo)尺度往往會(huì)小于20×20像素,因此在此基礎(chǔ)上再增加一個(gè)下采樣至10×10的特征層,有效地解決了小尺度特征提取不充分的問題,如圖2所示是改進(jìn)后主干結(jié)構(gòu)圖。

      2.2ViT-Block模塊

      在道路擁擠中,車輛、行人和其他目標(biāo)之間經(jīng)常存在相互遮擋的情況。目標(biāo)可能被其他車輛或物體部分或完全遮擋,導(dǎo)致目標(biāo)的檢測困難。Vit-Block作為CTNet主干網(wǎng)絡(luò)中最主要的特征提取模塊,其任務(wù)是獲取盡可能多的特征信息,它是由卷積模塊G-CSP和Transformer模塊SA-Transformer并聯(lián)組成。利用卷積關(guān)注更多局交通目標(biāo)的局部信息,而Transformer則善于捕獲目標(biāo)的整體特征。

      因此,本文構(gòu)造的Vit-Block模塊是將G-CSP(Ghost-CSPlaye)與SA-Transformer(Self Attention-Transformer)并行融合,達(dá)到同時(shí)關(guān)注局部與全局特征的目的,并且用超參數(shù)R對(duì)其分配到的通道數(shù)進(jìn)行控制,考慮到Vit-Block-1至Vit-Block-5特征尺度的不斷減小,充分發(fā)揮兩者的優(yōu)點(diǎn),R的初始值依次是0.8、0.6、0.5、0.4、0.2。淺層檢測層Vit-Block-1包含了各種尺度的目標(biāo)特征信息,利用SA-Transformer能夠更好地獲取全局特征,而深層檢測層Vit-Block-5更多地利用G-CSP可以提取小尺度目標(biāo)的特征,Vit-Block結(jié)構(gòu)如圖3所示。

      2.2.1G-CSP模塊

      G-CSP(Ghost-CSPlayer)是一種用于卷積特征提取的模塊,它的設(shè)計(jì)旨在通過局部特征提取來獲取更多有效的特征,并在保持高精度的同時(shí)兼顧檢測速度。這種模塊能夠很好地彌補(bǔ)Transformer運(yùn)算量大的缺陷,使得整個(gè)模型在處理圖像數(shù)據(jù)時(shí)更加高效。G-CSP模塊主干由一個(gè)3×3卷積、Bottleneck結(jié)構(gòu)和1×1卷積構(gòu)成,而分支構(gòu)建含有深度可分離卷積的GSBlock,G-CSP結(jié)構(gòu)如圖4所示。

      GSBlock引入了深度可分離卷積。相較于簡單地、大量地堆疊常規(guī)卷積來提高模型性能,深度可分離卷積(depthwise separable convolution,DW)的設(shè)計(jì)可以有效地緩解大參數(shù)量模型所帶來的高計(jì)算成本問題,提高檢測速度。然而DW也有自身的缺陷,若整個(gè)網(wǎng)絡(luò)模型只使用深度可分離卷積進(jìn)行提取特征,可能會(huì)導(dǎo)致網(wǎng)絡(luò)無法在訓(xùn)練中學(xué)習(xí)到有效特征。因此,為了使DW的輸出盡可能接近常規(guī)卷積,引入新結(jié)構(gòu)GSBlock,將常規(guī)卷積與DW結(jié)合在一起,僅用通道Shuffle將兩者生成的信息相互滲透,從而盡可能地減少DW缺陷對(duì)模型的消極影響,并有效利用DW的優(yōu)勢,GSBlock結(jié)構(gòu)如圖5所示。

      2.2.2SA-Transformer模塊

      SA-Transformer(Self Attention-Transformer)作為Transformer提取特征的分支,它的主體結(jié)構(gòu)是多頭自注意力模塊(Multi-head Self-attention)。SA-Transformer模塊具有全局感受野的顯著特點(diǎn),能夠獲取圖像中的上下文信息,從而提高模型的檢測精度。在檢測擁擠路況的車輛目標(biāo)時(shí),SA-Transformer模塊能夠發(fā)揮重要作用,對(duì)車輛的各種特征進(jìn)行識(shí)別,例如車輛的大小、形狀、顏色等。這些特征都需要通過全局感受野來獲取,因此SA-Transformer模塊的多頭自注意力結(jié)構(gòu)非常適合這種應(yīng)用場景。SA-Transformer的結(jié)構(gòu)如圖6所示。

      自注意力是基于Query、Key、Value獲取信息,Q是查詢向量、K是鍵向量、V是值向量。Query在序列中的單個(gè)網(wǎng)格單元格會(huì)搜索潛在的關(guān)系,并試圖通過Key將單元格與序列中其他單元格進(jìn)行相關(guān)聯(lián)。通過Query點(diǎn)積Key獲得序列每個(gè)部分的重要程度,再將其結(jié)果與Value點(diǎn)積運(yùn)算,將序列每個(gè)部分的重要程度重新施加到序列的值上去,最后用一個(gè)Softmax函數(shù)得到每一個(gè)Value的權(quán)重,這樣就可以獲取到全局的重要特征信息。X為輸入序列,WQ、WK、WV分別為Query、Key、Value隨機(jī)初始化的權(quán)重矩陣,dk是Value向量的維度,使用縮放的點(diǎn)積注意力機(jī)制進(jìn)行計(jì)算,公式如下:

      多頭自注意力機(jī)制則是單頭自注意力機(jī)制的進(jìn)化版,把每次縮放點(diǎn)積運(yùn)算分組(head)進(jìn)行,能夠從多個(gè)維度提煉特征信息。每個(gè)head都有一個(gè)獨(dú)立的Query、Key、Value矩陣,并隨機(jī)初始化,然后使用權(quán)重矩陣WO對(duì)注意力進(jìn)行連接和變換,具體表示如下:

      hi=Attention(QWQi,KWKi,VWVi),(3)

      MultiHead(Q,K,V)=Concat(h1,…,hn)WO。(4)

      2.3Reasonable模塊

      考慮到在擁擠的道路場景中,目標(biāo)之間的距離非常接近,可能出現(xiàn)重疊和相互交叉的情況。本文提出的Reasonable模塊是一種基于多頭注意力(Muti-Head Attention)結(jié)構(gòu)的模塊,通過將多頭注意力整合到Neck與Head之間,使模型能夠自動(dòng)關(guān)注密集的車輛區(qū)域。該模塊的結(jié)構(gòu)包括5個(gè)部分,包括展平(Flatten)、多頭注意力(Muti-Head Attention)、全局平均池化(Global Average Pooling,GAP)、歸一化(Normalization)以及維度轉(zhuǎn)換(Reshape)。

      在Reasonable模塊中,首先進(jìn)行展平操作,將輸入的目標(biāo)特征圖展平成一個(gè)序列,以便多頭注意力層可以接收序列作為輸入。接著,進(jìn)行多頭注意力操作,該操作利用Query、Key以及Value向量進(jìn)行特征搜尋,并能夠獲取不同圖像區(qū)域之間的語義信息。與SA-Transformer模塊類似,多頭注意力具有全局感受野,能夠獲取圖像中的上下文信息,從而使得模型更加關(guān)注車輛區(qū)域。在多頭注意力之后,進(jìn)行全局平均池化操作。相較于全連接層,全局平均池化可以更加直觀地匯總空間信息,避免了過擬合的問題,并且能夠使多頭注意力機(jī)制所獲取特征的聯(lián)系更加直觀。同時(shí),全局平均池化也能夠使輸入圖像對(duì)空間轉(zhuǎn)變更加魯棒,從而提高模型的穩(wěn)定性。接下來,進(jìn)行歸一化操作,使用LayerNorm方法對(duì)特征進(jìn)行處理,保留更多的上下文語義特征,同時(shí)還能夠避免梯度消失的問題。最后,進(jìn)行維度轉(zhuǎn)換操作,將展平的序列轉(zhuǎn)換回原來特征的尺寸,從而能夠關(guān)聯(lián)更多全局信息。Reasonable結(jié)構(gòu)如圖7所示。

      3實(shí)驗(yàn)結(jié)果與分析

      3.1實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)訓(xùn)練

      實(shí)驗(yàn)過程在pytorch框架下進(jìn)行,訓(xùn)練及測試的計(jì)算機(jī)硬件配置GPU為NVIDIA Quadro RTX 4000,操作系統(tǒng)為Windows 10專業(yè)版,python版本為3.8。

      本文選擇隨機(jī)梯度下降法來更新模型網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率為0.01,SGD優(yōu)化器動(dòng)量系數(shù)為0.9,訓(xùn)練迭代(epoch)次數(shù)為300,批量處理大?。╞atch size)為16。

      3.2實(shí)驗(yàn)數(shù)據(jù)集

      本文選用了KITTI[17]和BDD100K[18]數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,涵蓋眾多交通擁堵、目標(biāo)密集的情景。KITTI數(shù)據(jù)集包括了城市、鄉(xiāng)村、高速等交通場景,包含了8個(gè)類別。BDD100K包括了Bus、Light、Sign、Person等10個(gè)交通場景較為常見的類別,并涉及了晴天、多云、陰天、下雨等6種天氣狀況。

      從KITTI數(shù)據(jù)集的8個(gè)類別選擇試驗(yàn)所需要的6個(gè)類,共7 500張圖片作為實(shí)驗(yàn)數(shù)據(jù),其中6 000張作為訓(xùn)練集,750張作為驗(yàn)證集,750張作為測試集。

      從BDD100K數(shù)據(jù)集的10個(gè)類別選擇試驗(yàn)所需要的8個(gè)類別,共10 000張圖片作為實(shí)驗(yàn)數(shù)據(jù),其中8 100張作為訓(xùn)練集,900張作為驗(yàn)證集,1 000張作為測試集。部分?jǐn)?shù)據(jù)樣例圖如圖8所示。

      3.3評(píng)價(jià)標(biāo)準(zhǔn)

      平均精確率均值(mean average precision, PmA)作為目標(biāo)檢測中衡量檢測精度的指標(biāo)。精確率P表達(dá)了所檢查出的目標(biāo)中檢測準(zhǔn)確的機(jī)率,它表示所有檢測出的目標(biāo)中被正確檢測的概率。P的定義如下:

      召回率R,表示所有正樣本識(shí)別正確的概率,R的定義可表示為:

      其中,PT、PF、FN分別表示真正例、假正例和真反例。

      以R為橫坐標(biāo),以P為縱坐標(biāo)繪制曲線,就可以得到平均精確率(average precision, PA)表示曲線與坐標(biāo)軸之間面積,平均精確率均值PmA則代表各項(xiàng)PA的平均數(shù)。PA的概念可以表達(dá)為如下:

      因此,平均精確率均值PmA公式為:

      其中k為類別數(shù)。

      本文使用PA、PmA@0.5(IoU=0.5)以及FPS(每秒傳輸幀數(shù)),這3個(gè)評(píng)價(jià)指標(biāo)來衡量模型性能。

      3.4對(duì)比實(shí)驗(yàn)及分析

      為了進(jìn)一步證明改進(jìn)的YOLO-T算法的優(yōu)越性能,將目前性能較好的SSD、Centernet[19]、YOLOv5s、YOLOv7[20]等4種算法與改進(jìn)的算法分別在KITTI數(shù)據(jù)集和BDD100K數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),以檢測精度、速度以及模型大?。╯ize)作為評(píng)價(jià)指標(biāo),5次實(shí)驗(yàn)取平均值作為結(jié)果,對(duì)比實(shí)驗(yàn)結(jié)果如表2~4所示。

      由表2~4可知,本文方法通過CTNet結(jié)合Vit-Block,以及融入Reasonable模塊,提高了模型的車輛目標(biāo)檢測精度,在KITTI數(shù)據(jù)集和BDD100K數(shù)據(jù)集上的PmA分別達(dá)到93.34%和64.18%,基本優(yōu)于表中檢測模型。SSD模型檢測效果較差,特別是BDD 100K中motor類和traffic light類以及KITTI中cyclist類,主要原因是主干網(wǎng)絡(luò)VGG16的低級(jí)特征卷積層數(shù)少,特征提取不充分,并未對(duì)不同尺度特征進(jìn)行融合,并且motor類標(biāo)簽較少,traffic light類和cyclist類目標(biāo)較小。Centernet模型的主干網(wǎng)絡(luò)為Resnet50,雖然具備良好的特征提取能力,但其簡單的殘差結(jié)構(gòu)無法充分發(fā)揮網(wǎng)絡(luò)的潛力,整體檢測效果也不盡如人意。YOLOv5s通過使用CSPDarknet53作為主干網(wǎng)絡(luò),其加深了網(wǎng)絡(luò)層數(shù),提取的特征信息豐富,并在Neck中將不同尺度的特征加以融合。最新的YOLOv7則使用E-ELAN作為主干,多分支堆疊可以獲取大量有效特征信息,各類別檢測精度都稍高于YOLOv5s。

      在檢測速度方面,SSD模型的VGG16主干,由于其參數(shù)量過多,模型大小為100.28 MB,其檢測速度在兩個(gè)數(shù)據(jù)集上分別為62.05幀/s和35.77幀/s。Centernet主干則使用Resnet50,檢測速度分別為62.05幀/s和35.77幀/s。YOLOv5s對(duì)主干網(wǎng)絡(luò)進(jìn)行深度和寬度壓縮,并使用focus結(jié)構(gòu)處理特征,極大降低了網(wǎng)絡(luò)參數(shù)量,模型僅有27.24 MB,檢測速度分別達(dá)到了79.20幀/s和49.45幀/s。而最新的模型YOLOv7使用E-ELEN作為主干,并且使用重參數(shù)化的方法,在訓(xùn)練時(shí)使用卷積多分支堆疊的方法提取特征,因此參數(shù)量巨大,模型大小為142.38 MB,檢測速度分別是41.50幀/s和31.91幀/s。本文方法在YOLOv5s的基礎(chǔ)上添加了網(wǎng)絡(luò)結(jié)構(gòu)層數(shù),并且融入了Transformer注意力機(jī)制,導(dǎo)致參數(shù)量有所增加,檢測速度降低,分別為70.05幀/s和40.18幀/s,但仍能達(dá)到實(shí)時(shí)檢測的要求。

      綜上所述,本文方法不僅在檢測精度方面表現(xiàn)優(yōu)異,而且在檢測速度上也達(dá)到了實(shí)時(shí)檢測的標(biāo)準(zhǔn)。采用了卷積與Transformer注意力機(jī)制相融合的方法,充分利用了卷積與多頭注意力機(jī)制的優(yōu)勢,使得模型具有更好的局部特征提取能力和上下文感受野,從而大幅提升了復(fù)雜路況下,特別是在道路擁堵時(shí)的交通目標(biāo)檢測精度。

      3.5消融實(shí)驗(yàn)及分析

      為了驗(yàn)證CTNet主干網(wǎng)絡(luò)結(jié)構(gòu)、Vit-Block以及Reasonable模塊在復(fù)雜交通場景下各目標(biāo)檢測的有效性,在兩個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),以YOLOv5為基準(zhǔn)算法, PmA為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表5、表6所示。

      消融實(shí)驗(yàn)結(jié)果表明,本文提出的3種方法在車輛目標(biāo)檢測任務(wù)中均能有效提高檢測精度。具體來說,將CTNet主干網(wǎng)絡(luò)擴(kuò)展至FPN結(jié)構(gòu)中,雖然對(duì)于KITTI數(shù)據(jù)集的精確率PmA提升較小,僅為0.3%,但對(duì)于車輛數(shù)目較多、復(fù)雜交通場景下的BDD100K數(shù)據(jù)集,精確率提升了1.8%,說明加深網(wǎng)絡(luò)可以在一定程度上改善小尺度特征提取的能力,但僅使用卷積提升不大。在CSPDarknet53使用Vit-Block作為主要特征提取模塊時(shí),KITTI數(shù)據(jù)集的PmA提升0.91%,BDD100K提升了5.8%,證明使用卷積和Transformer融合構(gòu)建的方法可以更多地獲取各層有效特征信息,在合理分配兩者特征通道數(shù)后,較大限度的發(fā)揮卷積在局部細(xì)節(jié)特征的提取,同時(shí)也可以提高transformer對(duì)于特征塊之間的信息,對(duì)于小目標(biāo)以及密集目標(biāo)的識(shí)別有很大提升。

      將Vit-Block特征提取模塊融入主干網(wǎng)絡(luò)中,KITTI數(shù)據(jù)集的精確度提升了1.63%,BDD100K數(shù)據(jù)集更是提升了9.95%。這一結(jié)果表明,CTNet結(jié)合了Vit-Block能夠有效抑制復(fù)雜背景圖片中的無關(guān)信息干擾,增強(qiáng)關(guān)鍵特征信息的表征能力,特別是在復(fù)雜場景的BDD100K數(shù)據(jù)集中,檢測精度有較大提升,在面對(duì)小目標(biāo)的檢測以及密集分布時(shí),獲取到的更細(xì)粒度的局部信息與圖像塊之間的全局特征,由此說明更深的網(wǎng)絡(luò)結(jié)構(gòu)搭配Vit-Block能夠更好地適應(yīng)真實(shí)交通場景下的復(fù)雜狀況。

      在基準(zhǔn)算法上加入Reasonable模塊,KITTI數(shù)據(jù)集的精確度提升了0.73%,BDD100K數(shù)據(jù)集提升了4%,說明Reasonable模塊對(duì)于圖像的整體語義分析,即使是被遮擋的目標(biāo)也可以通過學(xué)習(xí)交通目標(biāo)的重要性和上下文信息,可以在道路擁擠中更好地區(qū)分和定位目標(biāo)。

      相對(duì)于基準(zhǔn)算法,同時(shí)采用本文提出的3種方法,KITTI數(shù)據(jù)集的精確度提升了1.92%,BDD100K數(shù)據(jù)集精確度提升了12.78%。這一結(jié)果表明,將以上方法相結(jié)合,可以大大提高基準(zhǔn)算法的檢測能力,尤其是在處理密集遮擋、小目標(biāo)較多等復(fù)雜交通場景下的檢測任務(wù)方面具有顯著的優(yōu)勢。

      如圖9可知,從YOLOv5s的效果圖來看,面對(duì)復(fù)雜多變的交通場景,特別是道路擁擠時(shí),雖也可以將大部分的車輛或行人目標(biāo)做出定位識(shí)別,但是出現(xiàn)了較多漏檢誤檢的情況,為駕駛員輔助駕駛時(shí)埋下了安全隱患。與此對(duì)比的YOLO-T算法,可以在YOLOv5s的檢測效果上更進(jìn)一步,同樣地從效果圖上可以看出,不僅對(duì)各類目標(biāo)的檢測精度有所提升,還可以對(duì)遮擋目標(biāo)、小目標(biāo)以及密集目標(biāo)進(jìn)行較好地識(shí)別,由此可以看出,YOLO-T在復(fù)雜交通場景下對(duì)于駕駛員的輔助幫助是至關(guān)重要的,能夠更好地提醒駕駛員注意潛在的道路狀況。

      4結(jié)束語

      針對(duì)現(xiàn)有的自動(dòng)駕駛目標(biāo)檢測算法,應(yīng)用在復(fù)雜交通場景下時(shí),對(duì)于密集目標(biāo)遮擋和小目標(biāo)存在檢測精度低,易出現(xiàn)漏檢誤檢的問題,提出了一種基于YOLO-T的復(fù)雜交通場景下目標(biāo)檢測算法。以YOLOv5算法為基礎(chǔ)框架,提出CTNet作為主干網(wǎng)絡(luò),增加網(wǎng)絡(luò)深度,引入Vit-Block,進(jìn)一步加強(qiáng)網(wǎng)絡(luò)對(duì)復(fù)雜情況的處理能力以及小目標(biāo)的檢測能力。其次,在Neck與Head之間提出Reasonable模塊,使得模型在特征融合之后能夠進(jìn)一步提升全局邏輯性,更好地關(guān)聯(lián)上下文全局語義信息。實(shí)驗(yàn)表明,相較于現(xiàn)有算法,本文方法能夠很好的應(yīng)對(duì)復(fù)雜場景的目標(biāo)檢測。在未來的工作中可以考慮如何在將Transformer融入到卷積的同時(shí),減小模型參數(shù)量,對(duì)模型實(shí)現(xiàn)進(jìn)一步的輕量化改進(jìn),便于進(jìn)行移動(dòng)端的部署。

      參考文獻(xiàn):

      [1]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778. DOI: 10.1109/CVPR.2016.90.

      [2]張新鈺, 高洪波, 趙建輝, 等. 基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)綜述[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 58(4): 438-444. DOI: 10.16511/j.cnki.qhdxxb.2018.21.010.

      [3]邵將, 顏克彤, 姚君, 等. 頭戴式AR界面目標(biāo)符號(hào)的視覺搜索實(shí)驗(yàn)研究[J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 50(1): 20-25. DOI: 10.3969/j.issn.1001-0505.2020.01.003.

      [4]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 580-587. DOI: 10.1109/CVPR.2014.81.

      [5]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 1440-1448. DOI: 10.1109/ICCV.2015.169.

      [6]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(6): 1137-1149. DOI: 10.1109/TPAMI.2016.2577031.

      [7]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 779-788. DOI: 10.1109/CVPR.2016.91.

      [8]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.10.1007/978-3-319-46448-0_2.

      [9]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI: 10.1109/TPAMI.2018.2858826.

      [10]DOSOVTSKIY A, BEYER L, KOLESNKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. [2024-03-26]. https://doi.org/10.48550/arXiv.2010.11929.

      [11]李麗芬, 黃如. 引入Transformer的道路小目標(biāo)檢測[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2024, 45(1): 95-101. DOI: 10.16208/j.issn1000-7024.2024.01.013.

      [12]龐玉東,李志星,劉偉杰,等.基于改進(jìn)實(shí)時(shí)檢測Transformer的塔機(jī)上俯視場景小目標(biāo)檢測模型[J/OL].計(jì)算機(jī)應(yīng)用,2024:1-10[2024-03-26]. https://link.cnki.net/urlid/51.1307.TP.20240402.2133.013.

      [13]羅漫, 李軍. 基于CNN技術(shù)和DETR的智能汽車自動(dòng)駕駛道路智能識(shí)別的研究[J]. 長江信息通信, 2023(11): 32-34.

      [14]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 936-944. DOI: 10.1109/CVPR.2017.106.

      [15]LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 8759-8768. DOI: 10.1109/CVPR.2018.00913.

      [16]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,California, USA: ACM, 2017: 6000-6010. DOI: 10.5555/3295222.3295349.

      [17]GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 3354-3361. DOI: 10.1109/CVPR.2012.6248074.

      [18]SEITA D. BDD100k: a large-scale diverse driving video database[EB/OL]. [2024-03-26]. http://bdd-data.berkeley.edu.

      [19]ZHOU X Y, WANG D Q, KRAHENBUHL P. Objects as points[EB/OL]. [2024-03-26]. https://doi.org/10.48550/arXiv.1904.07850.

      [20]WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [EB/OL]. [2024-03-26]. http://arxiv.org/abs/2207.02696.

      猜你喜歡
      智能交通目標(biāo)檢測深度學(xué)習(xí)
      視頻中目標(biāo)檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測方法
      基于物聯(lián)網(wǎng)的智能交通系統(tǒng)架構(gòu)
      基于物聯(lián)網(wǎng)的智能交通系統(tǒng)中的車輛通信網(wǎng)絡(luò)
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      基于支持向量機(jī)的車牌字符識(shí)別方法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      盐边县| 罗甸县| 乌兰浩特市| 鲁甸县| 盐亭县| 南漳县| 泰来县| 朝阳区| 横山县| 呈贡县| 垫江县| 镇江市| 武强县| 东源县| 辽阳县| 皮山县| 涡阳县| 扶沟县| 孟连| 平远县| 保德县| 延津县| 麻栗坡县| 宝清县| 根河市| 津市市| 团风县| 邯郸市| 沂源县| 航空| 麻城市| 宁蒗| 寿阳县| 花莲县| 泾源县| 龙游县| 梁平县| 江北区| 城市| 松原市| 本溪市|