陳暄,吳吉義
研究與開(kāi)發(fā)
基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛特征識(shí)別算法研究
陳暄1,吳吉義2,3
(1.浙江工業(yè)職業(yè)技術(shù)學(xué)院,浙江 紹興 312000;2.浙江省人工智能學(xué)會(huì),浙江 杭州 310027;3.浙江大學(xué)智能教育研究中心,浙江 杭州 310027)
針對(duì)道路場(chǎng)景圖像中不同距離目標(biāo)車(chē)輛特征存在識(shí)別效果弱、精度低的問(wèn)題,提出一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛特征識(shí)別算法。首先,采用基于PAN模型的多尺度輸入獲取不同距離的目標(biāo)車(chē)輛特征;其次,在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中加入多池化、BN層和Leaky ReLU激活函數(shù)改進(jìn)網(wǎng)絡(luò)模型的性能,通過(guò)引入混合注意力機(jī)制,集中關(guān)注車(chē)輛圖像中的重要特征和區(qū)域,從而增強(qiáng)了網(wǎng)絡(luò)模型的泛化能力;最后,通過(guò)構(gòu)建多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)完成對(duì)車(chē)輛的特征效果識(shí)別。仿真實(shí)驗(yàn)結(jié)果表明,在單一場(chǎng)景的BIT-Vehicle數(shù)據(jù)庫(kù)中,本文算法相比CNN、R-CNN、ABC-CNN、Faster R-CNN、AlexNet、VGG16和YOLOV8在單一目標(biāo)和多目標(biāo)識(shí)別率方面分別提高了16.75%、10.9%、4%、3.7%、2.46%、1.3%、1%和17.8%、10.5%、2.5%、3.8%、2.7%、1.1%、1.3%,在復(fù)雜場(chǎng)景的UA-DETRAC數(shù)據(jù)庫(kù)中,本文算法相比其他算法在不同距離目標(biāo)車(chē)輛識(shí)別中獲得了更加精確的效果。
車(chē)輛識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);多尺度輸入
隨著信息技術(shù)和車(chē)聯(lián)網(wǎng)技術(shù)的快速發(fā)展,車(chē)輛自動(dòng)駕駛系統(tǒng)和交通管理系統(tǒng)都需要高效準(zhǔn)確全天候的車(chē)輛識(shí)別系統(tǒng)進(jìn)行輔助和管理。而卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)憑借出色的性能在車(chē)輛特征圖像識(shí)別領(lǐng)域獲得巨大的成功[1-2]。學(xué)者以CNN為主要技術(shù)手段在車(chē)輛識(shí)別方面展開(kāi)深入的研究。有的學(xué)者關(guān)注CNN應(yīng)用結(jié)果方面的研究,如文獻(xiàn)[3]提出基于背景分割法卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛識(shí)別方法,它將輸入視頻分割成與前景或背景相對(duì)應(yīng)的區(qū)域降低CNN的計(jì)算量并提高識(shí)別精度;文獻(xiàn)[4]提出基于CNN的車(chē)牌識(shí)別系統(tǒng),該系統(tǒng)在多行、傾斜和多字體車(chē)牌方面識(shí)別率達(dá)到了98.13%;文獻(xiàn)[5]提出基于CNN 的自動(dòng)駕駛車(chē)輛的多模態(tài)融合識(shí)別系統(tǒng),在高精度和適應(yīng)性方面具有不錯(cuò)的效果;文獻(xiàn)[6]提出無(wú)須標(biāo)注車(chē)輛樣本的CNN車(chē)輛檢測(cè)和分類(lèi)方法,該類(lèi)方法的檢測(cè)準(zhǔn)確率約為98.5%。以上方法獲得了較好的識(shí)別率,但是如何降低識(shí)別模型的復(fù)雜度,優(yōu)化識(shí)別時(shí)間依然是當(dāng)前應(yīng)用領(lǐng)域的主要問(wèn)題。有的學(xué)者針對(duì)CNN自身性能提升開(kāi)展研究,如采用粒子群算法[7-8]、人工蜂群算法[9]、鯨魚(yú)優(yōu)化算法[10]等對(duì)CNN的參數(shù)進(jìn)行優(yōu)化,雖然能夠提高網(wǎng)絡(luò)性能,但這些元啟發(fā)式算法自身性能有限,增加了模型計(jì)算量。還有的學(xué)者針對(duì)快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)開(kāi)展研究,如文獻(xiàn)[11]對(duì)Faster R-CNN模型在車(chē)輛特征識(shí)別方面的應(yīng)用進(jìn)行了綜述,肯定了該模型的識(shí)別效果;文獻(xiàn)[12]提出在不同的天氣環(huán)境中使用該模型進(jìn)行車(chē)輛目標(biāo)識(shí)別檢測(cè),實(shí)驗(yàn)結(jié)果表明該算法在真實(shí)環(huán)境中也具有較為不錯(cuò)的效果;文獻(xiàn)[13]采用該模型進(jìn)行車(chē)輛特征識(shí)別,通過(guò)VTTI數(shù)據(jù)庫(kù)展示較好的識(shí)別效果,但消耗了大量的計(jì)算時(shí)間;文獻(xiàn)[14]采用Faster R-CNN模型解決部分外形相似的車(chē)輛之間的誤檢問(wèn)題,該算法具有較高的精確度、較小的誤檢率和更好的魯棒性;文獻(xiàn)[15]使用Faster R-CNN模型對(duì)車(chē)輛目標(biāo)圖像進(jìn)行多尺度的特征提取,實(shí)驗(yàn)結(jié)果表明能夠獲得較為精確的識(shí)別效果但需要較多的時(shí)間。以上方法的識(shí)別率均獲得提升,但依然存在訓(xùn)練復(fù)雜、無(wú)法適應(yīng)不同尺寸目標(biāo)的問(wèn)題。
基于此,提出一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛特征識(shí)別算法,它使用多尺度圖像處理技術(shù)獲取不同尺度的車(chē)輛圖像特征,利用多池化(multi-pool)、批歸一化(batch normalization,BN)層和Leaky ReLU激活函數(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),引入混合注意力機(jī)制提高模型的泛化效果,通過(guò)仿真實(shí)驗(yàn)驗(yàn)證不同場(chǎng)景的車(chē)輛特征識(shí)別性能。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在圖像處理過(guò)程中數(shù)據(jù)量較大,圖像數(shù)字化處理無(wú)法保留原來(lái)的圖像特征,使得圖像識(shí)別率降低。CNN憑借特有的權(quán)重共享、權(quán)重?cái)?shù)量較少等特點(diǎn)能夠有效地提升圖像處理的識(shí)別率而受到廣泛應(yīng)用。它主要包括輸入層、卷積層、池化層、全連接層和輸出層。本文僅對(duì)中間3層進(jìn)行簡(jiǎn)單介紹。
(1)卷積層
卷積層的作用將原始圖像輸入CNN中進(jìn)行圖像特征提取。在卷積層中設(shè)置多種卷積核,按照設(shè)定的卷積核大小對(duì)原始圖像進(jìn)行窗口滑動(dòng)提取圖像特征,再利用激活函數(shù)對(duì)輸出結(jié)果進(jìn)行非線性變化,從而獲得非線性特征圖。
(2)池化層
池化層的作用是對(duì)卷積層輸出的特征圖像進(jìn)行降維,減小特征圖的空間尺寸,降低信息的數(shù)據(jù)維度,從而減少計(jì)算量。
(3)全連接層
全連接層的作用是將一個(gè)特征空間線性變換到另一個(gè)特征空間中。它將經(jīng)過(guò)卷積層、池化層處理獲得的特征整合在一起,然后根據(jù)非線性激活函數(shù)自由調(diào)節(jié)學(xué)習(xí)過(guò)程,從而完成對(duì)目標(biāo)的識(shí)別分類(lèi)。
針對(duì)現(xiàn)有CNN在車(chē)輛特征識(shí)別中存在不同距離目標(biāo)車(chē)輛識(shí)別精度低、圖像魯棒性弱的問(wèn)題,從4個(gè)方面進(jìn)行優(yōu)化,首先通過(guò)多尺度圖像處理獲得精確的車(chē)輛圖像特征,其次利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提升模型識(shí)別能力,接著引入混合注意力機(jī)制加強(qiáng)模型泛化能力,最后構(gòu)建多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于車(chē)輛特征識(shí)別。
傳統(tǒng)的CNN主要通過(guò)逐層抽象方式提取目標(biāo)特征,其中感受視野范圍是獲取目標(biāo)特征的關(guān)鍵。但是在復(fù)雜道路場(chǎng)景下的車(chē)輛識(shí)別中,如果視野太小,則只能觀察到局部特征,存在丟失車(chē)輛關(guān)鍵信息的可能;反之,可能會(huì)觀察到周?chē)鷪?chǎng)景很多無(wú)效的信息,增大圖像特征提取的難度。采用多尺度圖像處理能夠使得網(wǎng)絡(luò)對(duì)不同尺度的物體的體積、紋理、結(jié)構(gòu)等進(jìn)行感知,極端天氣、街道建筑物、光線等復(fù)雜場(chǎng)景會(huì)增大車(chē)輛圖像提取難度。采用多尺度圖像處理能夠?qū)Σ煌嚯x的車(chē)輛目標(biāo)實(shí)現(xiàn)較好的識(shí)別效果。本文使用路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)模型[16]獲取車(chē)輛圖像特征信息,利用該模型自下而上的路徑技術(shù)增加整個(gè)特征層次結(jié)構(gòu),從而獲得不同尺度的圖像大小特征,提高模型的魯棒性。PAN模型如圖1所示。
圖1 PAN模型
圖2 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為了能夠更好地發(fā)揮CNN在車(chē)輛識(shí)別中的效果。本文在卷積層依次加入多池化、BN層和Leaky ReLU激活函數(shù),通過(guò)這些措施提升CNN的性能和識(shí)別準(zhǔn)確率。改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
(1)采用多池化結(jié)構(gòu)
在車(chē)輛特征識(shí)別中,為了更好地獲得目標(biāo)特征及感知能力,本文借助了YOLOV3中空間金字塔池化(spatial pyramid pooling,SPP)架構(gòu)的設(shè)計(jì)思想。在SPP架構(gòu)的4個(gè)分支結(jié)構(gòu)中,第一個(gè)分支保留原始輸入的信息,即不進(jìn)行池化或降采樣,第二、第三、第四分支池化核分別設(shè)定為5×5、9×9及13×13的最大池化,經(jīng)過(guò)池化處理后的特征圖像尺寸和深度保持不變。通過(guò)池化層的設(shè)置方式能夠避免CNN中需要固定尺寸的濾波器,對(duì)不同任意尺度的特征進(jìn)行采樣和池化以獲得不同尺度目標(biāo)的信息。結(jié)合復(fù)雜場(chǎng)景中的車(chē)輛特征信息,本文利用SPP架構(gòu)對(duì)多尺度的輸入圖像進(jìn)行處理,為當(dāng)前的網(wǎng)絡(luò)模型提供更高的靈活性和魯棒性。
(2)引入Leaky ReLU激活函數(shù)
傳統(tǒng)CNN一般使用Sigmoid 或者ReLU激活函數(shù),但是這些函數(shù)在訓(xùn)練過(guò)程中容易出現(xiàn)神經(jīng)元“死亡現(xiàn)象”,導(dǎo)致在反向傳播中出現(xiàn)梯度消失的情況。因此使用Leaky ReLU激活函數(shù)(),它是一種修正線性單元激活函數(shù)的變體,它解決了傳統(tǒng)激活函數(shù)的零梯度問(wèn)題。
(3)加入BN層
為了能夠更好地在模型后期獲得分類(lèi)結(jié)果,在CNN中加入BN層用來(lái)處理訓(xùn)練過(guò)程中特征數(shù)據(jù)分布發(fā)生改變的問(wèn)題。它通過(guò)對(duì)卷積層的輸入進(jìn)行歸一化,使輸入數(shù)據(jù)的均值接近0、標(biāo)準(zhǔn)差接近1,從而減少內(nèi)部協(xié)變量偏移的影響,使得網(wǎng)絡(luò)更容易訓(xùn)練,有助于梯度的傳播和提高反向傳播過(guò)程中的數(shù)值穩(wěn)定性,從而加快了模型的收斂速度。
傳統(tǒng)的CNN主要以大量的訓(xùn)練樣本為基礎(chǔ),但訓(xùn)練數(shù)據(jù)較少導(dǎo)致無(wú)法有效地提取樣本特征,造成網(wǎng)絡(luò)性能下降。為了提高輸入特征數(shù)據(jù)的感知和理解能力,增強(qiáng)網(wǎng)絡(luò)對(duì)重要特征和區(qū)域的關(guān)注,將通道注意力機(jī)制和空間注意力機(jī)制組成混合注意力機(jī)制引入車(chē)輛識(shí)別中。
(1)通道注意力機(jī)制
通道注意力機(jī)制主要利用特征通道間的關(guān)系生成通道注意圖,并為顯著目標(biāo)分配更大的權(quán)重,從而提高模型的性能。其過(guò)程是對(duì)輸入圖像特征進(jìn)行最大池化和平均池化操作,并通過(guò)聚合獲得特征映射的空間信息。
(2)空間注意力機(jī)制
空間注意力機(jī)制是一種用于圖像或特征圖處理的注意力機(jī)制,它的主要目標(biāo)是加權(quán)關(guān)注圖像或特征圖中的重要區(qū)域,以便更有效地處理視覺(jué)信息,它通過(guò)計(jì)算每一個(gè)空間位置的注意力權(quán)重,使得網(wǎng)絡(luò)聚焦在圖像特定區(qū)域重要部分。
結(jié)合以上對(duì)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)措施,本文提出一種多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 多層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖3所示的多層次卷積神經(jīng)網(wǎng)絡(luò)由3個(gè)相對(duì)獨(dú)立的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)、1個(gè)混合注意力機(jī)制、1個(gè)全連接層和1個(gè)分類(lèi)層組成。第一個(gè)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為67 pixel×67 pixel,采用3×3、5×5、7×7的池化核;第二個(gè)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為131 pixel×131 pixel,采用5×5、7×7、9×9池化核;第三個(gè)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)感受野的大小為195 pixel×195 pixel,采用7×7、9×9、11×11池化核。3個(gè)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與混合注意力機(jī)制的融合關(guān)系采用文獻(xiàn)[17]的設(shè)計(jì)思想進(jìn)行構(gòu)建,表達(dá)式如下:
為了更好地驗(yàn)證本文算法的識(shí)別效果,搭建了基于TensorFlow深度學(xué)習(xí)框架,實(shí)驗(yàn)硬件方面采用酷睿I5的CPU,內(nèi)存為16 GB DDR,硬盤(pán)為1 TB,軟件環(huán)境為Windows10操作系統(tǒng),利用Spyder編譯工具進(jìn)行Python編程。對(duì)比算法為CNN、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region- CNN,R-CNN)、人工蜂群優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(artificial bee colony-CNN,ABC-CNN)[18]、Faster R-CNN[19]、AlexNet、VGG16和YOLOV8。在單一和復(fù)雜兩個(gè)場(chǎng)景下驗(yàn)證本文算法的性能。
為了驗(yàn)證本文算法的性能,將8種算法的精度進(jìn)行了對(duì)比,8種算法的訓(xùn)練精度對(duì)比如圖4所示。圖4顯示隨著訓(xùn)練次數(shù)逐漸增加,8種算法的訓(xùn)練精度都呈現(xiàn)不同程度的上升趨勢(shì)。當(dāng)訓(xùn)練次數(shù)達(dá)到400時(shí),本文算法率先趨近穩(wěn)定并始終保持平緩狀態(tài)。而CNN的訓(xùn)練精度在整個(gè)訓(xùn)練過(guò)程中一直處于上升趨勢(shì)且具有較為明顯的震蕩;R-CNN和ABC-CNN的精度上升趨勢(shì)較為平緩,且出現(xiàn)了微弱的震蕩;Faster R-CNN的精度在訓(xùn)練次數(shù)達(dá)到500后才出現(xiàn)較為平緩的現(xiàn)象;AlexNet和VGG16的精度在訓(xùn)練次數(shù)達(dá)到450后出現(xiàn)了較為平緩的現(xiàn)象;YOLOV8大致與本文算法的精度結(jié)果相當(dāng),但稍微低于本文算法。因此,縱觀整個(gè)訓(xùn)練過(guò)程,本文算法的精度優(yōu)于其他7種算法,證明了本文算法具有較為明顯的識(shí)別效果。
圖4 8種算法的訓(xùn)練精度對(duì)比
為了說(shuō)明本文算法在單一車(chē)輛場(chǎng)景中的識(shí)別效果,使用文獻(xiàn)[20]提供的BIT-Vehicle數(shù)據(jù)集中的車(chē)輛圖片作為驗(yàn)證本文算法的圖片庫(kù),該數(shù)據(jù)庫(kù)一共包含轎車(chē)(sedan)、運(yùn)動(dòng)型多功能汽車(chē)(SUV)、卡車(chē)(truck)、公交車(chē)(bus)、小型公交車(chē)(microbus)和小型貨車(chē)(minivan)6種不同類(lèi)型的車(chē)輛。將該數(shù)據(jù)庫(kù)中的9 850張圖片分為兩個(gè)部分,按照6:4分為訓(xùn)練數(shù)據(jù)集(5 910 張車(chē)輛樣本圖片)和測(cè)試數(shù)據(jù)集(3 490 張車(chē)輛圖片)。部分BIT-Vehicle數(shù)據(jù)集樣本如圖5所示。
圖5 部分BIT-Vehicle數(shù)據(jù)集樣本
8種算法的單一車(chē)輛識(shí)別率對(duì)比見(jiàn)表1。從表1發(fā)現(xiàn)這些算法對(duì)6種類(lèi)型車(chē)輛的識(shí)別率都不相同,但是本文算法的優(yōu)勢(shì)較為明顯。從這6種類(lèi)型的車(chē)輛圖片來(lái)看,周?chē)鷪?chǎng)景的顏色對(duì)車(chē)輛具有一定的影響,而本文算法的多尺度圖像處理降低了這些無(wú)效元素的影響,從而使得車(chē)輛的特征提取更加準(zhǔn)確,它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8識(shí)別率分別提升了16.75%、10.9%、4%、3.7%、2.46%、1.3%和1%。8種算法的多目標(biāo)車(chē)輛識(shí)別率對(duì)比見(jiàn)表2,本文算法相比單一車(chē)輛的識(shí)別率有所降低,主要是由于不同車(chē)輛處于同一個(gè)場(chǎng)景中使得特征提取過(guò)程受到了影響,同時(shí)外界光線、攝像角度、多目標(biāo)車(chē)輛的重疊降低了識(shí)別率,但本文算法保持一定的優(yōu)勢(shì),它相比CNN、R-CNN、ABC-RNN、Faster R-CNN、AlexNet、VGG16和YOLOV8識(shí)別率提升了17.8%、10.5%、2.5%、3.8%、2.7%、1.5%和1.1%。8種算法對(duì)隨機(jī)的1 000張數(shù)據(jù)庫(kù)圖片的識(shí)別時(shí)間對(duì)比見(jiàn)表3。從表3可以發(fā)現(xiàn),本文算法相比CNN、R-CNN具有明顯優(yōu)勢(shì),相比ABC-CNN、Faster R-CNN、AlexNet和VGG16算法優(yōu)勢(shì)較為一般,而和YOLOV8算法時(shí)間幾乎相當(dāng),這說(shuō)明了優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)由于結(jié)構(gòu)優(yōu)化導(dǎo)致識(shí)別時(shí)間有所增加,但總體效果影響不大。
表1 8種算法的單一車(chē)輛識(shí)別率對(duì)比
表2 8種算法的多目標(biāo)車(chē)輛識(shí)別率對(duì)比
表3 8種算法對(duì)隨機(jī)的1 000張數(shù)據(jù)庫(kù)圖片的識(shí)別時(shí)間對(duì)比(單位:s)
召回率和準(zhǔn)確率是衡量模型識(shí)別的重要方法,本文使用4種條件下的本文算法計(jì)算BIT-Vehicle數(shù)據(jù)集中6類(lèi)不同車(chē)輛的準(zhǔn)確?召回率PR進(jìn)行對(duì)比。其中召回率和準(zhǔn)確率的計(jì)算式如下:
圖6 不同條件下本文算法的6種車(chē)型PR
圖7 8種算法的6種車(chē)型PR
為了驗(yàn)證復(fù)雜場(chǎng)景下的識(shí)別效果,選取交通數(shù)據(jù)集UA-DETRAC[21]作為本文模型的訓(xùn)練測(cè)試樣本,該數(shù)據(jù)集中包含了基于不同路側(cè)視角、不同時(shí)段和不同車(chē)輛擁堵度的車(chē)輛圖像。它滿足了場(chǎng)景復(fù)雜、數(shù)據(jù)規(guī)模大的要求。本文選取白天正面和夜晚側(cè)面作為識(shí)別場(chǎng)景進(jìn)行研究。8種算法的白天和夜晚識(shí)別效果分別如圖8、圖9所示。
圖8和圖9分別展示了白天和晚間場(chǎng)景下的8種算法對(duì)車(chē)輛目標(biāo)的識(shí)別效果,方框代表不同算法的識(shí)別效果。在白天道路正面圖像中,所有算法基本上都能夠檢測(cè)出車(chē)輛特征,但是本文算法相比其他算法能夠明顯獲取不同位置的車(chē)輛特征,降低了漏檢率和誤檢率,特別是道路圖像中的密集車(chē)輛,本文算法的識(shí)別優(yōu)勢(shì)比較明顯,如圖8(h)中遠(yuǎn)處的目標(biāo)依然能夠被識(shí)別,驗(yàn)證了本文模型性能的優(yōu)越性。在晚間道路側(cè)向圖像中,8種算法的識(shí)別效果都呈現(xiàn)了不同程度的下降。從總體上看,本文算法在識(shí)別方面具有明顯的優(yōu)勢(shì),當(dāng)目標(biāo)與周?chē)膱?chǎng)景存在較小的差異,如圖9(h)中公共汽車(chē)左上角出現(xiàn)的5輛小轎車(chē)時(shí),采用本文算法依然能夠獲得較好的識(shí)別結(jié)果。
圖8 8種算法的白天識(shí)別效果
綜上所述,通過(guò)理論闡述和仿真實(shí)驗(yàn)說(shuō)明了本文算法能有效提升車(chē)輛特征識(shí)別的效果。該模型能夠捕獲圖像中不同距離目標(biāo)車(chē)輛的特征,降低交通場(chǎng)景對(duì)圖像特征的干擾,同時(shí)實(shí)現(xiàn)了對(duì)不同尺度的圖像特征進(jìn)行采樣和池化,有效避免了神經(jīng)元的消失和梯度為0的缺點(diǎn),提高了模型泛化能力,該網(wǎng)絡(luò)相比普通的卷積神經(jīng)網(wǎng)絡(luò),無(wú)論在應(yīng)用范圍還是自身性能結(jié)構(gòu)上都具有較好的優(yōu)勢(shì)。
圖9 8種算法的夜晚識(shí)別效果
本文提出了一種優(yōu)化的的卷積神經(jīng)網(wǎng)絡(luò)算法。該算法結(jié)合多尺度圖像處理、多池化結(jié)構(gòu)、BN層、Leaky ReLU激活函數(shù)、混合注意力機(jī)制等多種方法提高道路場(chǎng)景圖像中不同距離目標(biāo)車(chē)輛特征的識(shí)別精度。目前,有關(guān)CNN在下一步研究主要體現(xiàn)在:模型結(jié)構(gòu)設(shè)計(jì)、跨域和跨模態(tài)應(yīng)用、弱監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)、可解釋性和魯棒性、輕量級(jí)和移動(dòng)端應(yīng)用、聯(lián)合學(xué)習(xí)和多任務(wù)學(xué)習(xí)等方面。筆者將在模型結(jié)構(gòu)設(shè)計(jì)和多任務(wù)學(xué)習(xí)方面繼續(xù)開(kāi)展研究。
[1] ZHANG J P, WANG F Y, WANG K F, et al. Data-driven intelligent transportation systems: a survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(4): 1624-1639.
[2] COLLINS R T, LIPTON A J, KANADE T. Introduction to the special section on video surveillance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 745-746.
[3] CHAROUH Z, EZZOUHRI A, GHOGHO M, et al. A resource-efficient CNN-based method for moving vehicle detection[J]. Sensors, 2022, 22(3): 1193.
[4] RANJITHKUMAR S, CHENTHUR PANDIAN S. Automatic license plate recognition system for vehicles using a CNN[J]. Computers, Materials & Continua, 2022, 71(1): 35-50.
[5] SHI R W, YANG S C, CHEN Y Y, et al. CNN-Transformer for visual-tactile fusion applied in road recognition of autonomous vehicles[J]. Pattern Recognition Letters, 2023, 166: 200-208.
[6] SATYANARAYANA G S R, DESHMUKH P, DAS S K. Vehicle detection and classification with spatio-temporal information obtained from CNN[J]. Displays, 2022, 75: 102294.
[7] SOON F C, KHAW H Y, CHUAH J H, et al. Hyper-parameters optimisation of deep CNN architecture for vehicle logo recognition[J]. IET Intelligent Transport Systems, 2018, 12(8): 939-946.
[8] 王上, 唐歡容. 一種基于混合粒子群優(yōu)化算法的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(7): 2019-2024.
WANG S, TANG H R. Deep convolutional neural architecture search method based on hybrid particle swarm optimization algorithm[J]. Application Research of Computers, 2023, 40(7): 2019-2024.
[9] KIYMA? E, KAYA Y. A novel automated CNN arrhythmia classifier with memory-enhanced artificial hummingbird algorithm[J]. Expert Systems With Applications, 2023(213): 119162.
[10] GHASEMI DAREHNAEI Z, SHOKOUHIFAR M, YAZDANJOUEI H, et al. SI-EDTL: swarm intelligence ensemble deep transfer learning for multiple vehicle detection in UAV images[J]. Concurrency and Computation: Practice and Experience, 2022, 34(5): e6726.
[11] MAITY M, BANERJEE S, SINHA CHAUDHURI S. Faster R-CNN and YOLO based vehicle detection: a survey[C]//Proceedings of 2021 5th International Conference on Computing Methodologies and Communication (ICCMC). Piscataway: IEEE Press, 2021: 1442-1447.
[12] GHOSH R. On-road vehicle detection in varying weather conditions using Faster R-CNN with several region proposal networks[J]. Multimedia Tools and Applications, 2021, 80(17): 25985-25999.
[13] HSU S C, HUANG C L, CHUANG C H. Vehicle detection using simplified Fast R-CNN[C]//Proceedings of 2018 International Workshop on Advanced Image Technology (IWAIT). Piscataway: IEEE Press, 2018: 1-3.
[14] 寧俊, 王年, 朱明. 基于改進(jìn)Faster R-CNN的車(chē)輛類(lèi)型識(shí)別算法[J]. 安徽大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 45(3): 26-33.
NING J, WANG N, ZHU M. Vehicle type recognition algorithm based on the improved Faster R-CNN[J]. Journal of Anhui University (Natural Sciences), 2021, 45(3): 26-33.
[15] LUO J Q, FANG H S, SHAO F M, et al. Multi-scale traffic vehicle detection based on Faster R-CNN with NAS optimization and feature enrichment[J]. Defence Technology, 2021, 17(4): 1542-1554.
[16] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.
[17] GAO X, WANG J F, ZHOU M Z. The research of resource allocation method based on GCN-LSTM in 5G network[J]. IEEE Communications Letters, 2023, 27(3): 926-930.
[18] ERKAN U, TOKTAS A, USTUN D. Hyperparameter optimization of deep CNN classifier for plant species identification using artificial bee colony algorithm[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 8827-8838.
[19] ZHANG X L, CUI J, LIU H J, et al. Weed identification in soybean seedling stage based on optimized Faster R-CNN algorithm[J]. Agriculture, 2023, 13(1): 175.
[20] DONG Z, WU Y W, PEI M T, et al. Vehicle type classification using a semisupervised convolutional neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2247-2256.
[21] WEN L Y, DU D W, CAI Z W, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020(193): 102907.
Research on vehicle feature recognition algorithm based on optimized convolutional neural network
CHEN Xuan1, WU Jiyi2,3
1.Zhejiang Industry Polytechnic College, Shaoxing312000,China 2.Zhejiang Federation of Artificial Intelligence, Hangzhou 310027, China 3.Intelligent Education Research Center,Zhejiang University, Hangzhou 310027, China
To address the issue of weak identification and low accuracy in recognizing features of target vehicles at different distances in road scene images, a vehicle feature recognition algorithm based on optimized convolutional neural network (CNN) was proposed. Firstly, a multi-scale input based on the PAN model was employed to capture target vehicle features at varying distances. Subsequently, improvements were made to the network model by incorporating multi-pool, batch normalization (BN) layers, and Leaky ReLU activation functions within the CNN architecture. Furthermore, the generalization ability of the network model was enhanced by introducing a hybrid attention mechanism that focuses on important features and regions in the vehicle image. Lastly, a multi-level CNN structure was constructed to achieve feature recognition for vehicles. Simulation experiment results conducted on the BIT-Vehicle database within a single scene show the proposed algorithm’s significant enhancements in single-object and multi-object recognition rates compared to CNN, R-CNN, ABC-CNN, Faster R-CNN, AlexNet, VGG16, and YOLOV8. Specifically, improvements of 16.75%, 10.9%, 4%, 3.7%, 2.46%, 1.3%, and 1% in single-object recognition, as well as 17.8%, 10.5%, 2.5%, 3.8%, 2.7%, 1.1%, and 1.3% in multi-object recognition, have been demonstrated by the proposed algorithm, respectively. Over the more complex UA-DETRAC datasets, more precise results have been also achieved by the proposed algorithm in recognizing target vehicles at various distances compared to other algorithms.
vehicle recognition, convolutional neural network, multi-scale input
The National Natural Science Foundation of China (No.61702151, No.61702320, No.61772334), The National Key Research and Development Program of China (No.2018YFB1003800), Zhejiang Provincial Philosophy and Social Sciences Planning Project (No.23NDJC369YB)
TP391.14
A
10.11959/j.issn.1000?0801.2023188
2023?06?25;
2023?10?10
吳吉義,cloudLab@139.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61702151,No.61702320,No.61772334);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No.2018YFB100 3800);浙江省哲學(xué)社會(huì)科學(xué)規(guī)劃課題(No.23NDJC369YB)
陳暄(1979? ),男,浙江工業(yè)職業(yè)技術(shù)學(xué)院副教授,主要研究方向?yàn)樵朴?jì)算、人工智能。
吳吉義(1980? ),男,博士,浙江大學(xué)高級(jí)工程師,主要研究方向?yàn)榉?wù)計(jì)算、人工智能。