摘" 要: 針對復(fù)雜背景下鐵路貨運(yùn)車輛車號定位復(fù)雜、定位準(zhǔn)確率低的問題,提出一種采用ResNet50作為基本特征提取網(wǎng)絡(luò),同時(shí)引入空殘差塊對學(xué)習(xí)樣本進(jìn)行多層特征融合,構(gòu)造了一種新的特征提取網(wǎng)絡(luò)和改進(jìn)算法,提高目標(biāo)檢測網(wǎng)絡(luò)的特征表達(dá)能力,實(shí)現(xiàn)了快速車號目標(biāo)檢測。實(shí)驗(yàn)數(shù)據(jù)集采用自建數(shù)據(jù)集,并通過三個(gè)對比實(shí)驗(yàn)驗(yàn)證了該方法的可靠性。當(dāng)IoU閾值為0.5時(shí),改進(jìn)算法的平均精度值為97.1%,分別比F?VGG和F?ResNet50高9.4%和6.8%,同時(shí)采用改進(jìn)算法對我國鐵路常用不同車型貨運(yùn)車輛進(jìn)行車號定位測試實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果可以看出優(yōu)化方法沒有誤分類或漏檢。改進(jìn)后的算法可以提高復(fù)雜背景下鐵路貨運(yùn)車輛車號的定位精度,具有較強(qiáng)的泛化能力,對實(shí)現(xiàn)復(fù)雜背景下車輛車號快速定位具有一定的參考意義。
關(guān)鍵詞: 車號定位; 特征提取網(wǎng)絡(luò); RCNN; ResNet50; 空殘差塊; 多層特征融合
中圖分類號: TN911.73?34; TP391.4"" """"""""""""文獻(xiàn)標(biāo)識碼: A""""""""""""""""""" 文章編號: 1004?373X(2024)09?0082?04
0" 引" 言
目標(biāo)檢測是機(jī)器視覺中的一項(xiàng)核心任務(wù),主要用于判斷物體的位置與類別,目標(biāo)檢測技術(shù)發(fā)展迅速[1]?;谌斯ど窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)快速發(fā)展,有效地解決了傳統(tǒng)目標(biāo)檢測中的問題。
傳統(tǒng)圖像目標(biāo)檢測算法主要包括六個(gè)模塊[2]:圖像預(yù)處理模塊、滑動(dòng)窗口確定候選區(qū)域、候選區(qū)域特征提取、進(jìn)行特征選擇、完成特征分類和后處理模塊,采用的方法主要是特征點(diǎn)匹配和基于滑動(dòng)窗口確定候選區(qū)域的經(jīng)典算法,特征提取是目標(biāo)檢測與識別的關(guān)鍵環(huán)節(jié)[3]。但是,傳統(tǒng)圖像處理方法主要基于人工篩選實(shí)現(xiàn)特征選擇,如針對特定檢測對象的方法中,HOG特征主要用于圖像中的行人檢測[4],類似其他的目標(biāo)則需要人為選擇其他特征實(shí)現(xiàn)目標(biāo)表示,從而造成傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法的泛化性較差,無法廣泛應(yīng)用于通用的目標(biāo)檢測算法。自2012年以來,深度學(xué)習(xí)發(fā)展給目標(biāo)檢測領(lǐng)域帶了新的契機(jī),研究者提出了大量基于深度網(wǎng)絡(luò)的目標(biāo)檢測方法[5]。
然而,現(xiàn)有的算法(包括深度學(xué)習(xí))在檢測復(fù)雜背景圖像時(shí)無法直接獲得良好的效果。為了使工業(yè)實(shí)踐中的目標(biāo)識別算法具有更好的適應(yīng)性,除了提高圖像質(zhì)量外,還可以通過從原始圖像中有選擇地提取特征,提高目標(biāo)檢測對不同環(huán)境的適應(yīng)性。事實(shí)上,在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過程中提取太多與領(lǐng)域相關(guān)的特征會(huì)導(dǎo)致模型在領(lǐng)域中過度擬合[6]。為了降低擬合度,有必要設(shè)計(jì)合適的網(wǎng)絡(luò)訓(xùn)練算法。文獻(xiàn)[7]通過增強(qiáng)特征空間上跨域的穩(wěn)健性來改進(jìn)分類網(wǎng)絡(luò),并使用對抗性訓(xùn)練方法。這是增強(qiáng)特征空間對抗學(xué)習(xí)領(lǐng)域自適應(yīng)首次解決不同領(lǐng)域級別的問題。
考慮到復(fù)雜背景檢測問題,本文選擇了基于滑動(dòng)窗口候選區(qū)域的目標(biāo)檢測算法,對傳統(tǒng)RCNN進(jìn)行了改進(jìn)。采用ResNet50作為基本特征提取層,然后介紹了孔卷積。殘差塊融合多層特征提高了鐵路貨運(yùn)車輛車號的定位效果,包括誤分類、漏檢和定位不準(zhǔn)等都得到改善,該算法應(yīng)用于復(fù)雜不確定背景下的車輛車號定位和識別,驗(yàn)證了該方法的有效性。
1" 實(shí)現(xiàn)方法
1.1" 卷積神經(jīng)網(wǎng)絡(luò)框架選取
由于鐵路貨運(yùn)車輛車號定位精度直接決定車號識別準(zhǔn)確度,為此選用Faster RCNN作為卷積神經(jīng)網(wǎng)絡(luò)框架[8],如圖1所示。該框架主要由區(qū)域特征提取、區(qū)域生成網(wǎng)絡(luò)(RPN)、興趣區(qū)域池化層(ROI Pooling)和檢測模塊組成。通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對輸入圖像的特征提取和學(xué)習(xí);RPN網(wǎng)絡(luò)層用于產(chǎn)生目標(biāo)對象的可能候選區(qū)域;卷積池化層(ROI)實(shí)現(xiàn)了卷積特征長度統(tǒng)一處理;目標(biāo)檢測網(wǎng)絡(luò)推理部分用于車輛車號的定位結(jié)果輸出。
Faster RCNN檢測過程:首先,把預(yù)處理過后的測試圖像輸入到網(wǎng)絡(luò)進(jìn)行特征提取;其次,進(jìn)行特征映射再傳遞到RPN層,RPN層基于設(shè)置的IoU閾值選擇候選幀;然后,RPN層輸出的候選幀進(jìn)入到ROI的池化網(wǎng)絡(luò)層,獲得候選幀的卷積特征圖;最后,輸入推理網(wǎng)絡(luò)部分經(jīng)過ROI池化層返回候選幀,得到最終幀位置,同時(shí)進(jìn)行目標(biāo)類別識別,生成分類結(jié)果。
1.2" 區(qū)域特征提取網(wǎng)絡(luò)
ResNet50網(wǎng)絡(luò)層數(shù)多,可用于提取更多抽象特征[9]。而ResNet50的殘差結(jié)構(gòu)可以提升網(wǎng)絡(luò)學(xué)習(xí)效率,減少了梯度消失、梯度爆炸問題,從而提升網(wǎng)絡(luò)學(xué)習(xí)性能[10]。本文選擇ResNet50作為基礎(chǔ)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1中,Conv1~Conv5作為特征提取層并應(yīng)用于Faster RCNN,實(shí)際中不能顯著提高目標(biāo)檢測的準(zhǔn)確性。為了解決這一目標(biāo)檢測精度沒有明顯提高的問題,將Conv1~Conv4作為區(qū)域特征提取層,Conv5和全連接層作為檢測網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2所示。本文的檢測網(wǎng)絡(luò)能夠提高分類性能和目標(biāo)檢測準(zhǔn)確率。
1.3" 改進(jìn)的特征提取網(wǎng)絡(luò)
圖3a)和圖3b)中的空洞卷積殘差塊是在ResNet50的基礎(chǔ)上,以2的膨脹率形成的空洞卷積結(jié)構(gòu)[11]。空洞卷積殘差塊可以實(shí)現(xiàn)高層語義信息抽取。本文還使用了如圖3c)所示的空洞卷積殘差塊的特征融合模型。
為此,ResNet50中的Conv5模塊進(jìn)行移動(dòng)處理到檢測網(wǎng)絡(luò),而只用特征提取層的前4層,這樣網(wǎng)絡(luò)相對變少,因此在Conv4之后形成了一個(gè)具有1×1演化層映射的孔殘差區(qū)塊,如圖3a)所示,還在RPN網(wǎng)絡(luò)的第5層使用了空洞卷積殘差塊(如圖3b)所示)。其優(yōu)點(diǎn)體現(xiàn)在空間分辨率的一致性并減少了信息損失。為了減少計(jì)算量和存儲(chǔ)器空間,設(shè)置殘差塊的通道數(shù)為512。其次,為了便于車號目標(biāo)的檢測,經(jīng)過對Conv1~Conv4這4層進(jìn)行下采樣后,空間分辨率變小導(dǎo)致目標(biāo)語義信息大量丟失[12]。為此,將Conv1和Conv3與新引入的第5層進(jìn)行融合,用來提取新的卷積特征,該特征涵蓋了高空間分辨率下的淺層紋理和幾何信息以及低空間分辨率的深層語義信息[13]。為了提升方法表達(dá)能力和目標(biāo)檢測精度,融合了深淺特征和上采樣的特征,有效地改善了特征提取網(wǎng)絡(luò)的能力。
2" 實(shí)驗(yàn)與分析
2.1" 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)數(shù)據(jù)采用自建鐵路貨運(yùn)車輛圖像數(shù)據(jù)集。數(shù)據(jù)集中鐵路貨運(yùn)車輛樣本圖像如圖4所示,從圖中可以看出,車體圖像包含強(qiáng)光、雨滴、非車號字符等復(fù)雜干擾背景[14],對車號定位造成嚴(yán)重影響。圖像數(shù)據(jù)集由設(shè)置在中鐵南昌局集團(tuán)有限公司向塘西站鐵路高清圖像貨檢系統(tǒng)完成采集,這些圖片包含了我國鐵路貨運(yùn)敞車、棚車、平板車等常用車輛類型[15],其中敞車圖像10 000張,棚車圖像5 000張,平板車圖像2 000張。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)按8∶2劃分。
實(shí)驗(yàn)使用的硬件環(huán)境圖形卡是Tesla V100,軟件部分主要基于Linux Ubuntu 16.04和Python 3.6?;赥ensor Flow作為深度學(xué)習(xí)框架進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。Faster RCNN最大迭代次數(shù)為70 000次,并進(jìn)行調(diào)整和算法性能的比較。
在實(shí)驗(yàn)中將對比VGG16卷積神經(jīng)網(wǎng)絡(luò)方法的目標(biāo)檢測器,即F?VGG16。以ResNet50為區(qū)域特征提取層的方法稱為F?ResNet50,采用本文提出的結(jié)合空殘差塊進(jìn)行特征提取網(wǎng)絡(luò)優(yōu)化的算法稱為F?F?ResNet50方法。
2.2" 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一:為了驗(yàn)證所提出的優(yōu)化Faster RCNN算法在鐵路貨運(yùn)車輛車號定位的準(zhǔn)確性,采用上述三種不同的檢測算法對鐵路貨運(yùn)車輛圖像數(shù)據(jù)集進(jìn)行交叉檢查。三種檢測算法的測試指標(biāo)對比如表2所示。
從表2中可以看出,當(dāng)IoU閾值為0.5時(shí),本文算法的平均精度值為97.1%,分別比F?VGG16和F?ResNet50高9.4%和6.8%。因此,本實(shí)驗(yàn)基于ResNet50代替VGG進(jìn)行特征提取,同時(shí)利用空洞卷積殘差塊進(jìn)行多層特征融合,進(jìn)一步提高了目標(biāo)檢測的性能。
實(shí)驗(yàn)二:采用所提出的優(yōu)化Faster RCNN算法對我國鐵路常用不同車型貨運(yùn)車輛進(jìn)行車號定位測試實(shí)驗(yàn)。圖5顯示了3種不同車型車號定位測試結(jié)果,圖中白色框?yàn)槟P偷恼_檢測結(jié)果,測試圖像包含集裝箱箱號字符、銹蝕、粉筆標(biāo)記等對象,背景復(fù)雜且具有較大的不確定性。從檢測結(jié)果可以看出,本文的優(yōu)化方法沒有誤分類或漏檢。
由不同車型車號定位結(jié)果可以看出,使用本文提出的算法進(jìn)行鐵路貨運(yùn)車輛車號定位具有較高的車輛車號定位精度,并在復(fù)雜場景下具有較強(qiáng)的魯棒性和適應(yīng)性,更有利于貨運(yùn)車輛車號的定位。
3" 結(jié)" 論
為了提高復(fù)雜場景下鐵路貨運(yùn)車輛車號定位精度,本文對Faster RCNN算法進(jìn)行了改進(jìn)。本文以ResNet50為基本特征提取網(wǎng)絡(luò),引入空殘差塊結(jié)構(gòu),在不同尺度下進(jìn)行多層特征融合,進(jìn)一步提高了貨運(yùn)車輛車號定位精度。
通過交叉驗(yàn)證實(shí)現(xiàn)在自建鐵路貨運(yùn)車輛圖像數(shù)據(jù)集上的比較實(shí)驗(yàn),本文提出的算法平均準(zhǔn)確率為97.1%,取得了非常好的目標(biāo)檢測效果。同時(shí),采用所提出的優(yōu)化Faster RCNN算法對我國鐵路常用不同車型貨運(yùn)車輛進(jìn)行車號定位測試實(shí)驗(yàn),驗(yàn)證了本文方法在鐵路貨運(yùn)車輛車號定位的通用性,可以看出,本文提出的算法對復(fù)雜背景干擾具有較好的適應(yīng)性和良好的魯棒性。在未來的發(fā)展中,將繼續(xù)深入研究利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)大規(guī)模鐵路貨運(yùn)車輛圖像車號目標(biāo)的快速定位。
參考文獻(xiàn)
[1] LIU Z G, Lü Y, WANG L Y, et al. Detection approach based on an improved faster RCNN for brace sleeve screws in high?speed railways [J]. IEEE transactions on instrumentation and measurement, 2020, 69(7): 4395?4403.
[2] 賈迪,朱寧丹,楊寧華,等.圖像匹配方法研究綜述[J].中國圖象圖形學(xué)報(bào),2019,24(5):677?699.
[3] 張陽婷,黃德啟,王東偉,等.基于深度學(xué)習(xí)的目標(biāo)檢測算法研究與應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(18):1?13.
[4] 李文書,韓洋,阮夢慧,等.改進(jìn)的基于增強(qiáng)型HOG的行人檢測算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(10):199?204.
[5] ZOU Z X, SHI Z W, GUO Y H, et al. Object detection in 20 years: A survey [EB/OL]. [2019?05?16]. https://arxiv.org/abs/1905.05055v2.
[6] 馬崠奡,唐娉,趙理君,等.深度學(xué)習(xí)圖像數(shù)據(jù)增廣方法研究綜述[J].中國圖象圖形學(xué)報(bào),2021,26(3):487?502.
[7] GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation [EB/OL]. [2015?12?30]. https://www.doc88.com/p?9052394403026.html.
[8] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137?1149.
[9] 辜瑞帆,李祥,任維民.基于ResNet50改進(jìn)模型的圖像分類研究[J].現(xiàn)代電子技術(shù),2023,46(4):107?112.
[10] BACHLECHNER T, MAJUMDER B, MAO H, et al. ReZero is all you need: Fast convergence at large depth [EB/OL]. [2020?06?25]. https://arxiv.org/abs/2003.04887.
[11] 楊昊,張軼.基于上下文信息和多尺度融合重要性感知的特征金字塔網(wǎng)絡(luò)算法[J].計(jì)算機(jī)應(yīng)用,2023,43(9):2727?2734.
[12] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// 15th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 833?851.
[13] 盧麒,秦軍,姚雪東,等.基于多層次感知網(wǎng)絡(luò)的GF?2遙感影像建筑物提取[J].國土資源遙感,2021,33(2):75?84.
[14] 張汝榛,張建林,祁小平,等.復(fù)雜場景下的紅外目標(biāo)檢測[J].光電工程,2020,47(10):128?137.
[15] 何春雨,余偉,唐荻.鐵路貨車車體用鋼的現(xiàn)狀及研究發(fā)展趨勢[J].熱加工工藝,2020,49(16):15?20.
Method for locating train number of railway freight vehicles in complex background
CAI Kangcheng1, LAI Yihui2, ZHOU Shumin1, LAN Xiangui1
(1. School of Information Engineering, East China University of Technology, Nanchang 330013, China; 2. Nanchang Normal University, Nanchang 330032, China)
Abstract: Railway freight vehicle number localization is a challenging problem and it suffers from an inferior recognition performance in complex background, so a new feature extraction network is established and an improved algorithm is proposed by using ResNet50 as the basic feature extraction network and by introducing 1 residual blocks to fuse the multi?layer features of the learning samples. This method aims to improve the feature expression ability of the object detection network and realize fast object detection of the vehicle number. The self?built data set is taken as the data set for the experiment. The effectiveness of the proposed method is verified by three contrastive experiments. When the threshold value of IOU (intersection over union) is 0.5, the average accuracy of the improved algorithm is 97.1%, which is higher than F?VGG and F?ResNet50 by 9.4% and 6.8%, respectively. The proposed method is also used to test the vehicle number location of different types of freight vehicles commonly used in China′s railways. From the experimental results, it can be seen that the optimization method has no misclassification or missing detection cases. The improved algorithm can improve the localization accuracy of railway freight vehicle number in complex background. It has strong generalization ability. Therefore, it provides a positive example to realize rapid localization of vehicle number in complex background.
Keywords: vehicle number localization; feature extraction network; RCNN; ResNet50; 1 residual block; multi?layer feature fusion
DOI:10.16652/j.issn.1004?373x.2024.09.015
引用格式:蔡康程,賴毅輝,周書民,等.一種復(fù)雜背景下的鐵路貨運(yùn)車輛車號定位方法[J].現(xiàn)代電子技術(shù),2024,47(9):82?85.
收稿日期:2023?12?06""""""" """修回日期:2023?12?27
基金項(xiàng)目:江西省技術(shù)創(chuàng)新引導(dǎo)類項(xiàng)目(科技合作專項(xiàng))(20212BDH80008);江西省新能源工藝及裝備工程技術(shù)研究中心2022年度開放基金(JXNE2022?06);江西省科技計(jì)劃項(xiàng)目(重點(diǎn)研發(fā)計(jì)劃)(20232BBE50013)
蔡康程,等:一種復(fù)雜背景下的鐵路貨運(yùn)車輛車號定位方法
作者簡介:蔡康程(1999—),男,江西贛州人,碩士,研究方向?yàn)橛?jì)算機(jī)視覺。
賴毅輝(1991—),男,江西吉安人,碩士,助教,研究方向?yàn)橹悄軠y控與信息處理。
周書民(1971—),男,遼寧開原人,碩士,教授,研究方向?yàn)楹穗娮訉W(xué)與信息技術(shù)。
藍(lán)賢桂(1979—),男,江西大余人,碩士,副教授,研究方向?yàn)闄C(jī)器視覺。
蔡康程,等:一種復(fù)雜背景下的鐵路貨運(yùn)車輛車號定位方法