吳 愿 薛培林 殷國棟 黃文涵 耿可可 鄒 偉
東南大學(xué)機(jī)械工程學(xué)院,南京,211189
自動(dòng)駕駛車輛是在普通汽車上增加雷達(dá)、攝像頭等傳感器、控制器、執(zhí)行器等裝置,通過環(huán)境感知技術(shù)獲得周圍環(huán)境中的行人、車輛等關(guān)鍵信息,使得車輛能夠像人類駕駛員一樣自動(dòng)分析行駛的安全及危險(xiǎn)狀態(tài),合理規(guī)劃出安全的路徑并安全地到達(dá)目的地。自動(dòng)駕駛車輛的最終目的是實(shí)現(xiàn)無人駕駛車輛。環(huán)境感知技術(shù)是自動(dòng)駕駛汽車的核心技術(shù)之一,是實(shí)現(xiàn)無人駕駛最難的技術(shù)。國內(nèi)外學(xué)者都對(duì)環(huán)境感知技術(shù)作了不同程度的研究,其研究方法主要分為基于圖像處理的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三種。
傳統(tǒng)的圖像處理方法主要通過檢測(cè)目標(biāo)的顏色和形狀特征來獲得目標(biāo)感興趣區(qū)域。由于現(xiàn)實(shí)生活中RGB顏色空間對(duì)光特別敏感,因此基于顏色空間的研究主要包括Lab顏色空間[1-2]、HSV顏色空間[3-4]、YUV顏色空間[5-7]等。此類方法都是通過顏色空間的轉(zhuǎn)化提高目標(biāo)與周圍環(huán)境的對(duì)比度,并通過形狀特征等提取更為精確的目標(biāo)感興趣區(qū)域。
當(dāng)使用傳統(tǒng)顏色空間方法檢測(cè)圖像上的目標(biāo)時(shí),通常會(huì)與機(jī)器學(xué)習(xí)的方法相結(jié)合以獲得目標(biāo)的分類結(jié)果。機(jī)器學(xué)習(xí)的方法包括Adaboost[8-10]、支持向量機(jī)(SVM)[11-12]、人工淺層神經(jīng)網(wǎng)絡(luò)[13]等。機(jī)器學(xué)習(xí)方法在實(shí)時(shí)性與準(zhǔn)確率上不能滿足現(xiàn)實(shí)場(chǎng)景下的自動(dòng)駕駛車輛要求。
近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在目標(biāo)識(shí)別準(zhǔn)確率與實(shí)時(shí)性方面表現(xiàn)優(yōu)異。常用的神經(jīng)網(wǎng)絡(luò)算法大概分為三類。第一類是基于區(qū)域推薦的目標(biāo)識(shí)別算法,如Faster-RCNN網(wǎng)絡(luò)算法[14-15],該網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)(region proposal net,RPN)、目標(biāo)分類網(wǎng)絡(luò)組成,RPN與特征提取網(wǎng)絡(luò)、目標(biāo)分類網(wǎng)絡(luò)共享參數(shù),因此產(chǎn)生的邊際成本非常低,該網(wǎng)絡(luò)對(duì)目標(biāo)識(shí)別的準(zhǔn)確率在85%左右。Faster-RCNN網(wǎng)絡(luò)算法雖然識(shí)別準(zhǔn)確率高,但是實(shí)時(shí)性較差,不能滿足自動(dòng)駕駛車輛實(shí)時(shí)性的要求。第二類是基于回歸的目標(biāo)識(shí)別算法,例如YOLO(you only look once)網(wǎng)絡(luò)算法[16],YOLO網(wǎng)絡(luò)算法在準(zhǔn)確率方面略差于Faster-RCNN算法,但是其實(shí)時(shí)性可以達(dá)到要求。YOLO網(wǎng)絡(luò)算法是直接對(duì)整個(gè)圖像劃分粗網(wǎng)格和生成一組目標(biāo)邊界框,若網(wǎng)格內(nèi)存在目標(biāo),則該邊界框會(huì)輸出相應(yīng)的分類和定位坐標(biāo),該算法對(duì)于目標(biāo)識(shí)別的準(zhǔn)確率在80%左右。第三類是基于搜索的目標(biāo)識(shí)別算法,例如Attention Net網(wǎng)絡(luò)算法[17],它是一種基于視覺注意力的Attention Net方法,不同于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的輸入向量與權(quán)重的相加,該算法使用點(diǎn)積進(jìn)行相似度計(jì)算得出權(quán)重,再將歸一化的權(quán)重與值加權(quán)求和得到最后的Attention值,該算法對(duì)目標(biāo)識(shí)別的準(zhǔn)確率在65%左右。
以上文獻(xiàn)對(duì)目標(biāo)識(shí)別的研究都是針對(duì)理想環(huán)境下的目標(biāo),在現(xiàn)實(shí)生活中,單模態(tài)的車載彩色相機(jī)通常會(huì)受到黑夜、雪天、霧霾天等低辨識(shí)度天氣條件的影響而失效,嚴(yán)重影響人員、車輛目標(biāo)識(shí)別的準(zhǔn)確率,不能滿足自動(dòng)駕駛車輛的安全性需求。為了提高低辨識(shí)度目標(biāo)識(shí)別的準(zhǔn)確性,可以將兩種不同類型的傳感器進(jìn)行同一目標(biāo)特征的提取,例如彩色相機(jī)與紅外相機(jī),彩色相機(jī)能夠采集到目標(biāo)的顏色信息,且分辨率較高,而紅外相機(jī)能夠采集到目標(biāo)的溫度信息,所以在一定距離范圍內(nèi)是互補(bǔ)的。文獻(xiàn)[18-20]對(duì)同一個(gè)目標(biāo)進(jìn)行多源的紅外圖像的溫度特征與可見光圖像的彩色特征提取與融合,可見光相機(jī)與紅外相機(jī)由于其自身的成像特點(diǎn),在一定程度上可以實(shí)現(xiàn)目標(biāo)特征采集的互補(bǔ),提高難檢測(cè)目標(biāo)的識(shí)別率。
為了提高低辨識(shí)度環(huán)境下人員、車輛識(shí)別的準(zhǔn)確率,本文以光線昏暗的低辨識(shí)度環(huán)境下的目標(biāo)為例,提出了一種利用彩色相機(jī)和紅外熱成像儀同時(shí)檢測(cè)自動(dòng)駕駛目標(biāo)的方案,然后利用優(yōu)化后的雙模態(tài)網(wǎng)絡(luò)算法融合彩色相機(jī)采集到的顏色特征與紅外熱成像儀采集到的溫度特征,將融合后的特征輸入到神經(jīng)網(wǎng)絡(luò)的分類層中,得到目標(biāo)的分類和目標(biāo)在圖像上的坐標(biāo)。為了融合彩色圖像上的顏色特征與紅外圖像上的溫度特征,本文將單模態(tài)的YOLOv3網(wǎng)絡(luò)改進(jìn)為雙模態(tài)的網(wǎng)絡(luò)算法。為了對(duì)比多種特征融合方案,本文還提出了四種主干網(wǎng)絡(luò)的改進(jìn)模型。
YOLO網(wǎng)絡(luò)算法是一種一步走(One-stage)算法,即只要將一整張圖像輸入到網(wǎng)絡(luò)中,就能夠得到圖像上目標(biāo)的分類和定位,而如Faster-RCNN這類算法是兩步走(Two-stage)算法,需要先在圖像上生成一系列的候選區(qū)域然后進(jìn)行分類,因此,YOLO網(wǎng)絡(luò)在實(shí)時(shí)性上明顯優(yōu)于Faster-RCNN網(wǎng)絡(luò)。實(shí)驗(yàn)表明,F(xiàn)aster-RCNN網(wǎng)絡(luò)算法檢測(cè)一張圖像的速度為7幀/s,而YOLO網(wǎng)絡(luò)算法檢測(cè)一張圖像的速度為45幀/s,能夠滿足復(fù)雜現(xiàn)實(shí)場(chǎng)景下目標(biāo)檢測(cè)的實(shí)時(shí)性要求。
YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)見圖1,可以看出YOLOv3網(wǎng)絡(luò)算法是將一幅圖像分割成S×S(S一般為7)的網(wǎng)格,如果某個(gè)目標(biāo)的中心點(diǎn)落入這個(gè)網(wǎng)格中,則這個(gè)網(wǎng)絡(luò)就負(fù)責(zé)檢測(cè)該物體,并輸出該物體的n(n一般為2)個(gè)邊界框(bounding box,BBOX)值和置信度值(confidence scores,CS)。每一個(gè)BBOX需要預(yù)測(cè)目標(biāo)類別的概率與目標(biāo)在圖像中的坐標(biāo)位置,坐標(biāo)位置包括坐標(biāo)和寬高。
圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of YOLOv3
YOLOv3網(wǎng)絡(luò)是對(duì)YOLO網(wǎng)絡(luò)的改進(jìn),在保證速度優(yōu)勢(shì)的前提下,提高了預(yù)測(cè)精度。YOLOv3網(wǎng)絡(luò)的主干網(wǎng)絡(luò)是Darknet-53,是具有52個(gè)卷積層的特征提取網(wǎng)絡(luò),此特征提取網(wǎng)絡(luò)借鑒了殘差網(wǎng)絡(luò)的做法,在一些卷積層之間設(shè)置短連接。為了提高目標(biāo)識(shí)別的準(zhǔn)確性,通常需要在特征提取網(wǎng)絡(luò)上增加更多的網(wǎng)絡(luò)層數(shù),理論上網(wǎng)絡(luò)層數(shù)的增加可以提高目標(biāo)識(shí)別的精度,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的訓(xùn)練是通過網(wǎng)絡(luò)自主學(xué)習(xí)卷積層的參數(shù)來得到輸入與輸出的某種映射關(guān)系,使得網(wǎng)絡(luò)預(yù)測(cè)的輸出與實(shí)際輸出更加接近。神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中會(huì)通過前向傳播得到輸入的非線性激活值即預(yù)測(cè)值,然后通過后向傳播改進(jìn)網(wǎng)絡(luò)的參數(shù),在后向傳播時(shí),為了減小預(yù)測(cè)值與實(shí)際值之間的誤差即損失函數(shù)值,需要沿著函數(shù)梯度下降的方向調(diào)整參數(shù)值。但是,在實(shí)際訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,隨著網(wǎng)絡(luò)層數(shù)的增加,損失函數(shù)會(huì)在一開始逐漸減小后而又突然增大,這是因?yàn)椋S著網(wǎng)絡(luò)層數(shù)的增加,神經(jīng)網(wǎng)絡(luò)后向傳播改進(jìn)參數(shù)時(shí)每一層的梯度下降越來越少,而網(wǎng)絡(luò)的后向傳播是一個(gè)鏈?zhǔn)竭^程,在神經(jīng)網(wǎng)絡(luò)由后向前計(jì)算梯度時(shí),中間某些層函數(shù)值對(duì)參數(shù)的導(dǎo)數(shù)特別小(趨近于零)或特別大(大于1),它們得到的乘積就會(huì)逐漸趨向零或無窮大,從而導(dǎo)致梯度的消失或爆炸。這就說明,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),隨著層數(shù)的增加,后面網(wǎng)絡(luò)層數(shù)的訓(xùn)練效果遠(yuǎn)達(dá)不到前面網(wǎng)絡(luò)層數(shù)的訓(xùn)練效果,這個(gè)問題可采用殘差網(wǎng)絡(luò)來解決。殘差網(wǎng)絡(luò)是由殘差塊(residual block,RB)組成的網(wǎng)絡(luò),殘差塊的結(jié)構(gòu)見圖2。由圖可以看出,殘差塊是由兩個(gè)卷積層和一個(gè)短連接組成,殘差塊的輸出是輸入和輸入的非線性激活函數(shù)值的和,即輸出H(x)=F(x)+x。在殘差網(wǎng)絡(luò)中,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)是F(x)=H(x)-x,這樣即使F(x)趨近于零,網(wǎng)絡(luò)層數(shù)的輸出值也能保持和輸入層的值相同,更不會(huì)出現(xiàn)F(x)對(duì)x的導(dǎo)數(shù)大于1的情況,有效防止了深層網(wǎng)絡(luò)出現(xiàn)梯度消失或梯度爆炸。
圖2 殘差塊Fig.2 Residual block
為了進(jìn)一步提高目標(biāo)識(shí)別的準(zhǔn)確率,YOLOv3網(wǎng)絡(luò)學(xué)習(xí)Faster-RCNN網(wǎng)絡(luò)中的多尺度Anchor機(jī)制對(duì)目標(biāo)進(jìn)行檢測(cè)。YOLOv3網(wǎng)絡(luò)分別在3種不同尺度的特征地圖(feature map,F(xiàn)M)感受野上進(jìn)行目標(biāo)的檢測(cè),以輸入尺寸為416×416的圖像為例,YOLOv3網(wǎng)絡(luò)分別向下32倍、16倍、8倍采樣,得到13×13、26×26、52×52的特征地圖感受野,每一種感受野分別應(yīng)用3種不同尺度的先驗(yàn)框,總共得到9種不同尺度的先驗(yàn)框。這9種不同尺度的先驗(yàn)框不僅能夠在目標(biāo)區(qū)域選出最優(yōu)的兩個(gè)邊界框進(jìn)行回歸,而且可以有效提高小物體識(shí)別準(zhǔn)確率。
單模態(tài)的YOLOv3網(wǎng)絡(luò)在識(shí)別正常理想環(huán)境下目標(biāo)的準(zhǔn)確率較高,在識(shí)別光線昏暗條件下目標(biāo)時(shí),由于單一模態(tài)彩色相機(jī)對(duì)目標(biāo)特征采集的缺失,網(wǎng)絡(luò)卷積層不能提取到更多的目標(biāo)特征信息,嚴(yán)重影響網(wǎng)絡(luò)識(shí)別的精度。為了解決這個(gè)問題,本文在自動(dòng)駕駛車輛的環(huán)境感知模塊上增加另一個(gè)模態(tài)的紅外熱成像儀,此傳感器能夠采集目標(biāo)特征的溫度特征信息,是對(duì)彩色相機(jī)采集的顏色特征的補(bǔ)充。
在神經(jīng)網(wǎng)絡(luò)提取特征的過程中,淺層網(wǎng)絡(luò)提取到的是目標(biāo)邊緣性的信息(如簡單的顏色、豎直的線條、橫向的線條等),到了網(wǎng)絡(luò)的深層才會(huì)提取到圖像上更深層次的特征,這個(gè)特征可以是圖像上的某一部分或者是完全看不懂的特征。是否在特征網(wǎng)絡(luò)最深層處進(jìn)行融合才是最佳的融合方案是待商榷的問題。
為了將兩種模態(tài)的特征信息相融合,本文提出了一種雙模態(tài)的YOLOv3神經(jīng)網(wǎng)絡(luò)算法,該算法分別在彩色圖像和紅外圖像上提取目標(biāo)特征。如果昏暗條件下彩色圖像上的目標(biāo)特征缺失而紅外圖像上同一個(gè)目標(biāo)特征明顯,則神經(jīng)網(wǎng)絡(luò)算法就能夠根據(jù)紅外圖像識(shí)別出該目標(biāo),得到預(yù)測(cè)的目標(biāo)分類置信度值和BBOX值,并將結(jié)果同時(shí)繪制在兩個(gè)圖像上,該網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先,雙模態(tài)YOLOv3網(wǎng)絡(luò)的主干網(wǎng)絡(luò)與其他網(wǎng)絡(luò)結(jié)構(gòu)不變,只是將網(wǎng)絡(luò)的輸入改為416×416×3的彩色圖像與416×416×3的紅外圖像,其次利用Darknet-53分別提取雙模態(tài)圖像上的目標(biāo)特征,然后在預(yù)測(cè)層之前將提取到的特征相融合,最后輸入到網(wǎng)絡(luò)分類對(duì)圖像上的目標(biāo)進(jìn)行分類。
圖3 雙模態(tài)YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)簡圖Fig.3 Dual YOLOv3 structure diagram
由于YOLOv3神經(jīng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)會(huì)輸出3個(gè)特征圖用于后續(xù)的分類,所以為了得到同一個(gè)目標(biāo)的預(yù)測(cè)信息,必須在3個(gè)特征圖輸出之前進(jìn)行特征的融合,為此設(shè)計(jì)了3種融合模型。為了對(duì)比這3種模型,本文又增設(shè)了1種最淺層融合的模型。
圖4 模型一Fig.4 Model one
模型一在主干網(wǎng)絡(luò)的第1層進(jìn)行融合函數(shù)與1×1的卷積,如圖4所示。雙模態(tài)數(shù)據(jù)集輸入到雙模態(tài)YOLO v3網(wǎng)絡(luò)算法中的矩陣維度為number×channels×height×width。雙模態(tài)YOLO v3網(wǎng)絡(luò)算法首先利用tf.concat函數(shù)將兩個(gè)模態(tài)的數(shù)據(jù)集圖像進(jìn)行簡單的線性疊加,相當(dāng)于將紅外模態(tài)3通道的數(shù)據(jù)集疊加到彩色數(shù)據(jù)集3通道之后,類似于變成了6通道的數(shù)據(jù)集。然后,將疊加后的6通道的數(shù)據(jù)集經(jīng)過3個(gè)1×1×6卷積核函數(shù)的特征提取與激活函數(shù),輸出圖像矩陣的維度為number×3×height×width。每一個(gè)1×1×6的卷積核進(jìn)行圖像特征的提取時(shí),1×1×6卷積核分別與圖像上某個(gè)局部區(qū)域的1×1×6的局部矩陣進(jìn)行加權(quán)求和,局部區(qū)域加權(quán)求和后輸出的矩陣維度為1×1×1,單個(gè)圖像上加權(quán)求和后的矩陣維度為1×height×width。卷積操作后,圖像輸出矩陣維度為number×3×height×width,接下來進(jìn)行原主干網(wǎng)絡(luò)的52層特征提取的操作。融合后,將所有特征繼續(xù)輸入到主干網(wǎng)絡(luò)接下來的卷積層中進(jìn)行特征提取,并且輸入到分類層進(jìn)行3種尺度感受野的目標(biāo)預(yù)測(cè)。在網(wǎng)絡(luò)訓(xùn)練過程中同樣采用反向傳播更新參數(shù)的算法,由網(wǎng)絡(luò)的最后一個(gè)預(yù)測(cè)層逐層向前更新參數(shù)。
模型二將雙模態(tài)的數(shù)據(jù)集同時(shí)輸入到主干網(wǎng)絡(luò)Darknrt-53中進(jìn)行特征提取,主干網(wǎng)絡(luò)分別提取到圖像上部分特征之后,在主干網(wǎng)絡(luò)的第26層進(jìn)行1×1的卷積融合,即在第一個(gè)特征圖輸出之前進(jìn)行融合,如圖5所示,其中,下標(biāo)rgb表示彩色圖像,下標(biāo)T表示紅外圖像。在此模型中,本文首先利用主干網(wǎng)絡(luò)的前25層分別提取兩個(gè)模態(tài)圖像上的特征信息;然后在26層將兩個(gè)特征圖的通道數(shù)相疊加,經(jīng)過前25層卷積后,兩個(gè)數(shù)據(jù)集的特征圖輸出都為number×52×52×256的矩陣,執(zhí)行完tf.concat函數(shù)后,特征圖輸出為number×52×52×512,在26層進(jìn)行1×1卷積核的加權(quán)求和后,特征圖輸出為number×52×52×256的矩陣,這是主干網(wǎng)絡(luò)的第一個(gè)特征圖的輸出矩陣;最后將融合后的輸出矩陣輸入到主干網(wǎng)絡(luò)剩下的卷積層中繼續(xù)進(jìn)行特征提取。
圖5 模型二Fig.5 Model two
圖6 模型三Fig.6 Model three
模型三在主干網(wǎng)絡(luò)的26層和43層融合,即在前兩個(gè)分類層之前融合,如圖6所示。將雙模態(tài)的數(shù)據(jù)集輸入到網(wǎng)絡(luò)算法中進(jìn)行從淺層邊緣特征到深層語義特征的提取,由于網(wǎng)絡(luò)算法在第26層后就要輸出number×52×52×256的特征圖,并且經(jīng)過一系列卷積操作后要在此特征圖上進(jìn)行目標(biāo)的分類,為了對(duì)同一個(gè)目標(biāo)進(jìn)行分類,所以必須將兩個(gè)模態(tài)的特征在26層進(jìn)行第一次1×1融合,將融合后的特征圖輸出后,與模型二不同的是,這里并沒有將融合后的特征輸入到主干網(wǎng)絡(luò)剩下的卷積層中進(jìn)行特征提取,而是繼續(xù)分別提取雙模態(tài)數(shù)據(jù)集各自的特征,直到網(wǎng)絡(luò)在43層進(jìn)行第二次1×1融合,輸出第二個(gè)number×26×26×512的特征圖。此后,將二次融合后的特征也重新輸入到網(wǎng)絡(luò)的主干網(wǎng)絡(luò)的卷積層中進(jìn)行特征提取和最后一個(gè)number×13×13×1024特征圖的輸出。
模型四主干網(wǎng)絡(luò)分別提取紅外圖像和彩色圖像的整個(gè)特征,并且在每一個(gè)分類層之前相融合,如圖7所示。由于網(wǎng)絡(luò)會(huì)有3個(gè)不同尺度大小特征圖的輸出和后續(xù)的分類操作,所以為了預(yù)測(cè)同一個(gè)目標(biāo)的分類,需要在每一個(gè)特征圖輸出之前進(jìn)行融合,即雙模態(tài)數(shù)據(jù)集輸入到網(wǎng)絡(luò)算法中,進(jìn)行淺層邊緣特征與深層語義特征提取之后,分別輸出它們第25層、42層、51層的特征圖。此模型沒有執(zhí)行融合操作,只是簡單進(jìn)行單模態(tài)特征提取操作。輸出的特征圖在分類卷積操作之前進(jìn)行融合操作,執(zhí)行三次tf.concat函數(shù)與1×1卷積融合操作,完成分類層之前的特征融合。
圖7 模型四Fig.7 Model four
為了對(duì)比這4種不同主干網(wǎng)絡(luò)模型的優(yōu)劣,本文選取訓(xùn)練集損失(train loss,Tra-loss)、驗(yàn)證集損失(valid loss,Val-loss)與不同類別的平均精度(mean average precision,mAP)這三個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。在計(jì)算每一類標(biāo)簽的平均精度時(shí),不僅可通過目標(biāo)置信度是否大于閾值來判斷目標(biāo)識(shí)別的準(zhǔn)確性,還可通過預(yù)測(cè)出的BBOX與真實(shí)BBOX之間的交并比(intersection over union,IOU)來確定目標(biāo)定位的準(zhǔn)確性,即如果存在網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)分類正確,但是目標(biāo)定位偏離真實(shí)的定位,依然認(rèn)為此預(yù)測(cè)值是不正確的。
目前,網(wǎng)絡(luò)上有很多開源的數(shù)據(jù)集,如COCO、Pascal VOC、KITTI等,但這些都是單模態(tài)的彩色圖像,紅外圖像的數(shù)據(jù)集很少。為構(gòu)建用于雙模態(tài)YOLOv3網(wǎng)絡(luò)訓(xùn)練和測(cè)試的紅外圖像與彩色圖像對(duì),本文自主搭建了彩色和紅外數(shù)據(jù)集的同步采集系統(tǒng),如圖8所示,彩色相機(jī)與紅外熱成像儀的像素?cái)?shù)為640×480。數(shù)據(jù)集共15 475對(duì),其中,昏暗條件下的數(shù)據(jù)5881對(duì),正常場(chǎng)景下的數(shù)據(jù)9594對(duì),只有紅外圖像上有目標(biāo)特征的數(shù)據(jù)1058對(duì)。
圖8 雙模態(tài)數(shù)據(jù)集同步采集系統(tǒng)Fig.8 Dual data set synchronous acquisition system
由于雙模態(tài)網(wǎng)絡(luò)算法能夠只根據(jù)一個(gè)模態(tài)圖像上的目標(biāo)特征預(yù)測(cè)出目標(biāo)的分類,然后分別繪制在兩個(gè)模態(tài)的圖像上,而一個(gè)圖像上通常會(huì)有很多個(gè)目標(biāo),所以同一個(gè)目標(biāo)必須出現(xiàn)在兩種模態(tài)圖像上的同一位置。為了配準(zhǔn)彩色圖像與紅外圖像,數(shù)據(jù)集同步采集系統(tǒng)必須在時(shí)間與空間上實(shí)現(xiàn)同步,才能進(jìn)行信息的融合。
空間上的同步就是要得到同一個(gè)目標(biāo)在三維空間內(nèi)坐標(biāo)系、彩色相機(jī)坐標(biāo)系和紅外相機(jī)坐標(biāo)系之間的旋轉(zhuǎn)平移矩陣,此旋轉(zhuǎn)平移矩陣為外參。彩色相機(jī)成像原理與小孔成像類似,即彩色相機(jī)坐標(biāo)系與彩色圖像坐標(biāo)系之間也存在坐標(biāo)轉(zhuǎn)換,類似地,紅外相機(jī)坐標(biāo)系與紅外圖像坐標(biāo)系之間也存在坐標(biāo)轉(zhuǎn)換,此類坐標(biāo)轉(zhuǎn)換矩陣為內(nèi)參。得到相機(jī)的內(nèi)外參就能實(shí)現(xiàn)紅外圖像與彩色圖像之間的配準(zhǔn)。由于相機(jī)存在一定程度上的畸變,故在標(biāo)定相機(jī)內(nèi)參時(shí)還需要去畸變。設(shè)點(diǎn)在彩色相機(jī)坐標(biāo)系中的坐標(biāo)為[xlylzl]T,對(duì)應(yīng)的紅外相機(jī)坐標(biāo)系中的點(diǎn)坐標(biāo)為[xcyczc]T,則有
(1)
R和T為紅外相機(jī)坐標(biāo)系相對(duì)于彩色相機(jī)坐標(biāo)系的旋轉(zhuǎn)與偏移矩陣。該點(diǎn)最后成像到像素中的坐標(biāo)為[uv]T:
[uv1]T=KPc=K(RPl+T)
(2)
式中,K為相機(jī)內(nèi)參。
常見的相機(jī)標(biāo)定方法是張正友標(biāo)定法,由于紅外相機(jī)只對(duì)溫度較敏感,傳統(tǒng)的張正友標(biāo)定法不能標(biāo)定,為了解決這個(gè)問題,本文分別在雙模態(tài)圖像上對(duì)應(yīng)位置選取7個(gè)角點(diǎn),計(jì)算出H矩陣,得到雙模態(tài)圖像對(duì)之間的旋轉(zhuǎn)與平移矩陣,通過旋轉(zhuǎn)與平移矩陣就能得到配準(zhǔn)好的雙模態(tài)圖像對(duì),如圖9所示。
圖9 配準(zhǔn)好的雙模態(tài)圖像對(duì)Fig.9 Registered dual image pairs
為了標(biāo)定雙模態(tài)數(shù)據(jù)集,本文自主研發(fā)了雙模態(tài)圖像標(biāo)記系統(tǒng),如圖10所示。將已經(jīng)配準(zhǔn)好的圖像上傳到系統(tǒng)中,就能進(jìn)行標(biāo)記,標(biāo)記時(shí)只需要在一個(gè)模態(tài)的圖像上框出目標(biāo),選取對(duì)應(yīng)的標(biāo)簽,在另一個(gè)模態(tài)的圖像對(duì)應(yīng)位置上就會(huì)出現(xiàn)相同的框和標(biāo)簽。本文中設(shè)置person、vehicle、transport-vehicle三類標(biāo)簽。將數(shù)據(jù)集輸入到雙模態(tài)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,標(biāo)記得到的框和標(biāo)簽作為真實(shí)值與網(wǎng)絡(luò)輸出的預(yù)測(cè)值進(jìn)行比較。
圖10 雙模態(tài)圖像標(biāo)記系統(tǒng)Fig.10 Dual image labeling system
在網(wǎng)絡(luò)訓(xùn)練時(shí),為了得到更好的網(wǎng)絡(luò)參數(shù),將13 543對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,1502對(duì)數(shù)據(jù)作為網(wǎng)絡(luò)的驗(yàn)證集,驗(yàn)證網(wǎng)絡(luò)參數(shù)的同時(shí)微調(diào)參數(shù)值。本文一次訓(xùn)練所選取的樣本數(shù)(Batch Size)為2。在網(wǎng)絡(luò)訓(xùn)練過程中,由于數(shù)據(jù)集數(shù)目較大,若一次性地將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練可能會(huì)引起內(nèi)存爆炸,而且如果將整個(gè)數(shù)據(jù)集輸入到網(wǎng)絡(luò)中進(jìn)行反向計(jì)算,得到的梯度計(jì)算值差距巨大,網(wǎng)絡(luò)不能使用一個(gè)全局的學(xué)習(xí)率進(jìn)行參數(shù)的優(yōu)化。增加Batch Size能夠通過并行化提高內(nèi)存的利用率,并且使得梯度的下降方向更加準(zhǔn)確。
為了對(duì)比4種網(wǎng)絡(luò)模型參數(shù)的優(yōu)劣,本文對(duì)同一批數(shù)據(jù)集進(jìn)行30個(gè)迭代次數(shù)的訓(xùn)練,前20次迭代的學(xué)習(xí)率為10-4,后10次迭代的學(xué)習(xí)率為10-6,得到每個(gè)模型不同批次的損失值,4種模型的Tra-loss損失曲線見圖11,Val-loss損失曲線見圖12。由于第一批訓(xùn)練集的損失值與第二批的損失值相差太大,故舍棄第一批的值。由圖11和圖12可以看出,網(wǎng)絡(luò)在訓(xùn)練30個(gè)批次后,第二個(gè)模型的訓(xùn)練集損失值和驗(yàn)證集損失值梯度下降最快,并且在第30個(gè)批次損失值最小。
圖11 訓(xùn)練集損失值Fig.11 Training set loss
圖12 驗(yàn)證集損失值Fig.12 Validation set loss
在計(jì)算網(wǎng)絡(luò)的mAP值時(shí),本文選取兩種不同的閾值mAP_3與mAP_5,mAP_3即閾值設(shè)定為0.3,mAP_5即閾值設(shè)定為0.5,4種網(wǎng)絡(luò)模型得到mAP_3與mAP_5的值如表1所示。4種網(wǎng)絡(luò)模型在mAP_3與mAP_5下預(yù)測(cè)驗(yàn)證集中正確標(biāo)簽的數(shù)量與錯(cuò)誤標(biāo)簽的數(shù)量如表2與表3所示。由表1可以看出,模型二在mAP_3和mAP_5上明顯優(yōu)于其他3個(gè)模型,在僅訓(xùn)練30個(gè)批次后,模型二的mAP_3能達(dá)到59.42%,mAP_5能達(dá)到51.61%。
表1 4種模型在不同閾值下的平均精度值
表2 4種模型在mAP_3下預(yù)測(cè)正確標(biāo)簽與錯(cuò)誤標(biāo)簽的數(shù)量
表3 4種模型在mAP_5下預(yù)測(cè)正確標(biāo)簽與錯(cuò)誤標(biāo)簽的數(shù)量
由表2和表3可以看出,在閾值設(shè)定為0.3與0.5兩種情況下,模型二對(duì)三類標(biāo)簽識(shí)別的準(zhǔn)確數(shù)量均為最多。
單模態(tài)YOLOv3網(wǎng)絡(luò)對(duì)部分光線昏暗條件下人員、車輛識(shí)別的結(jié)果見圖13。雙模態(tài)模型二網(wǎng)絡(luò)對(duì)上述光線昏暗條件下車輛、人員識(shí)別的結(jié)果見圖14。
圖13 單模態(tài)網(wǎng)絡(luò)識(shí)別結(jié)果圖Fig.13 Recognition map of single-modal network
圖14 雙模態(tài)網(wǎng)絡(luò)識(shí)別結(jié)果圖Fig.14 Recognition map of dual network
由上述單模態(tài)與雙模態(tài)網(wǎng)絡(luò)的識(shí)別結(jié)果圖可以看出,雙模態(tài)網(wǎng)絡(luò)能夠識(shí)別出距離較遠(yuǎn)處的目標(biāo)、受到周圍環(huán)境中物體遮擋的目標(biāo)、與環(huán)境對(duì)比度極低的目標(biāo),因此,雙模態(tài)網(wǎng)絡(luò)比單模態(tài)網(wǎng)絡(luò)擁有更好的檢測(cè)精度。
為了提高低辨識(shí)度環(huán)境下人員、車輛識(shí)別的準(zhǔn)確率,本文以光線昏暗的低辨識(shí)度條件為例,提出了一種利用彩色相機(jī)和紅外熱成像儀同時(shí)檢測(cè)自動(dòng)駕駛目標(biāo)的方案。為了融合彩色相機(jī)采集到的顏色特征與紅外熱成像儀采集到的溫度特征,本文在單模態(tài)YOLOv3網(wǎng)絡(luò)算法的基礎(chǔ)上將網(wǎng)絡(luò)改進(jìn)為雙模態(tài)的網(wǎng)絡(luò)算法。為了對(duì)比多種特征融合方案,本文還提出了4種主干網(wǎng)絡(luò)的改進(jìn)模型。通過對(duì)比4種模型的Tra-loss與Val-loss值、mAP_3與mAP_5值、不同閾值下對(duì)3種標(biāo)簽預(yù)測(cè)的正確和錯(cuò)誤的數(shù)量,得出模型二最優(yōu)的結(jié)論,即在主干網(wǎng)絡(luò)第26層融合,第一個(gè)分類層之前融合效果最好,準(zhǔn)確率最高,其mAP值最高可達(dá)59.42%。