程校昭 陳志軍 吳超仲 馬 楓
(武漢理工大學(xué)智能交通系統(tǒng)研究中心 武漢430063)
在現(xiàn)代交通追求更安全和更高效的背景下,道路交通的智能化進(jìn)程發(fā)展迅速,其中智能車相關(guān)技術(shù)的發(fā)展備受關(guān)注。常規(guī)的車輛和行人等環(huán)境目標(biāo)識(shí)別已經(jīng)得到了比較廣泛的研究,但在當(dāng)前的交通環(huán)境下,針對(duì)道路場(chǎng)景下的路面交通標(biāo)志的識(shí)別,對(duì)于智能車的感知系統(tǒng)同樣重要。路面指示標(biāo)志有助于智能車對(duì)道路行車規(guī)則的理解,在高度智能化的交通基礎(chǔ)設(shè)施建設(shè)完成之前,準(zhǔn)確地識(shí)別并理解路面指示標(biāo)志對(duì)于智能車的行車決策具有重要意義[1]。
路面指示標(biāo)志的識(shí)別與車輛、行人、道路指示牌等常見目標(biāo)的過程相近,核心過程主要分為2 個(gè)部分[2]。首先是檢測(cè)過程,通過檢測(cè)框定位出視覺圖像中的指示標(biāo)志;其次則是識(shí)別過程,通過對(duì)指示標(biāo)志的特征與分類標(biāo)簽的比對(duì)分析,判斷該指示標(biāo)志的具體所屬類別。通過人工提取圖像的紋理和輪廓等特征的方法,并應(yīng)用樸素貝葉斯、SVM (Support Vector Machine)等算法可進(jìn)行分類識(shí)別[3]。在此類傳統(tǒng)方法中,主要是基于各種圖像預(yù)處理方法[4-5],目標(biāo)的特征主要是通過人為操作進(jìn)行選取,特征提取的質(zhì)量依賴于研究者對(duì)目標(biāo)特征的敏銳觀察和高度理解,需要對(duì)圖像中目標(biāo)的全局特征和局部特征的聯(lián)系,以及前景和背景的差異精準(zhǔn)捕捉,而特征選取的質(zhì)量對(duì)于識(shí)別模型的性能至關(guān)重要[6-8],實(shí)驗(yàn)結(jié)果過于依賴于研究人員前期的特征處理過程,不利于提高目標(biāo)識(shí)別的準(zhǔn)確率和泛化。曹鷺萌[9]運(yùn)用圖像處理和機(jī)器視覺技術(shù)研究出路面交通標(biāo)志的識(shí)別算法,張明恒等[10]和顧晨晨[11]采用Hough變換方法檢測(cè)和識(shí)別路面標(biāo)志,對(duì)路面指示標(biāo)志的識(shí)別展開了研究。但基于圖像處理的方法應(yīng)用效果并不穩(wěn)定,在智能車系統(tǒng)中很難直接得到準(zhǔn)確的結(jié)果。
近年來,深度學(xué)習(xí)迅猛發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)實(shí)用性大大提高,尤其是在圖像處理領(lǐng)域表現(xiàn)出了重要的作用[12]。Sermanet[13]、Dan[14]、Ciresan[15]等采用CNN方法,在道路交通標(biāo)志識(shí)別的研究中表現(xiàn)出了卓越的效果?;谏疃葘W(xué)習(xí)的目標(biāo)識(shí)別方法不斷推陳出新,Girshick[16]首次提出了R-CNN,在目標(biāo)識(shí)別領(lǐng)域得到的廣泛的應(yīng)用,后續(xù)改進(jìn)的Fast R-CNN方法[17]去除了冗余的操作,逐步改善模型檢測(cè)效率低等的問題,最新版的Faster R-CNN 算法[18]在原有基礎(chǔ)上增加了候選區(qū)域網(wǎng)絡(luò),進(jìn)一步提高了目標(biāo)識(shí)別的準(zhǔn)確率,同時(shí)極大地降低了檢測(cè)和分類過程中的耗時(shí)。在CNN 的目標(biāo)識(shí)別處理過程中,樣本集的建立至關(guān)重要,高質(zhì)量和大批量的樣本可以訓(xùn)練得到識(shí)別準(zhǔn)確率和泛化性能更強(qiáng)的目標(biāo)識(shí)別模型。深度學(xué)習(xí)網(wǎng)絡(luò)通過大量的標(biāo)注樣本進(jìn)行訓(xùn)練,逐步提高學(xué)習(xí)能力,在實(shí)際任務(wù)中,可能會(huì)無(wú)法建立高質(zhì)量且大批量的樣本集,容易出現(xiàn)欠擬合的問題,需要采用正則化技術(shù)進(jìn)行解決,數(shù)據(jù)增強(qiáng)是其中一種常用且有效的方法。對(duì)于圖像數(shù)據(jù)集,通常應(yīng)用剪切、翻轉(zhuǎn)、平移、縮放等方法對(duì)訓(xùn)練集進(jìn)行擴(kuò)充。但由于以上方法僅僅是對(duì)樣本進(jìn)行視角和尺度的變換,在對(duì)CNN模型的效果提升上有著一定的瓶頸。邵壯壯等[19]應(yīng)用CNN提取目標(biāo)特征進(jìn)行識(shí)別,任紅梅[20]應(yīng)用Alexnet作為特征提取網(wǎng)絡(luò),對(duì)常見的交通標(biāo)志進(jìn)行識(shí)別。由于深度學(xué)習(xí)網(wǎng)絡(luò)的不斷改進(jìn),原始的CNN 和Alexnet 方法的計(jì)算資源消耗較大,且識(shí)別精度不夠高。
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)是2014 年提出的一種生成模型[21],根據(jù)隨機(jī)噪聲與真實(shí)樣本訓(xùn)練生成器和判別器,以模仿出以假亂真的圖像,可以實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。在GAN 基礎(chǔ)上,諸多變體的框架和網(wǎng)絡(luò)得以在各種不同的方向上更好地應(yīng)用。其中,條件生成式對(duì)抗網(wǎng)絡(luò)(CGAN)、深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN)、循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)等基于GAN的結(jié)構(gòu)變體在圖像領(lǐng)域得到了廣泛的研究和應(yīng)用,在特定需求的圖片生成及圖像風(fēng)格轉(zhuǎn)換等應(yīng)用上有著良好的效果。
筆者研究了一種基于改進(jìn)的DCGAN的路面標(biāo)志識(shí)別方法,通過改進(jìn)的DCGAN 生成以假亂真的圖像進(jìn)行道路表面指示標(biāo)志的數(shù)據(jù)增強(qiáng),分別對(duì)原始數(shù)據(jù)集和擴(kuò)增后的數(shù)據(jù)集應(yīng)用Faster R-CNN 算法進(jìn)行標(biāo)志識(shí)別,實(shí)驗(yàn)結(jié)果表明,該方法有效地提高了小樣本數(shù)據(jù)集的識(shí)別準(zhǔn)確率。
生成對(duì)抗網(wǎng)絡(luò)通過建立對(duì)抗平衡的生成式模型,對(duì)樣本集的特征分布進(jìn)行擬合,得到與原始樣本極限相似的生成結(jié)果。GAN 的網(wǎng)絡(luò)結(jié)構(gòu)主要包含生成器和判別器,其中生成器的輸入是生成的效果圖和真實(shí)樣本集,判別器通過對(duì)真假樣本的判斷得到結(jié)果,并反向作用于生成器,使得生成的圖像與原始樣本圖更相近。GAN 通過對(duì)生成器和判別器的不斷訓(xùn)練,持續(xù)對(duì)他們的性能進(jìn)行優(yōu)化,當(dāng)訓(xùn)練達(dá)到動(dòng)態(tài)平衡時(shí),判別器將難以區(qū)分生成器的效果圖和真實(shí)樣本圖。
GAN的核心目標(biāo)公式為
式(1)由生成器和判別器的對(duì)數(shù)分布函數(shù)期望值2 個(gè)部分組成。式中:x 表示真實(shí)圖片,z 為輸入G網(wǎng)絡(luò)的隨機(jī)噪聲;G(z)為G 網(wǎng)絡(luò)的生成圖片。G 網(wǎng)絡(luò)的目的是D(G(z))盡可能大,即訓(xùn)練要求V(D,G)最小。D 網(wǎng)絡(luò)的目的是D(x)盡可能大,D(G(z))盡可能小,即訓(xùn)練要求V(D,G)最大。
為了實(shí)現(xiàn)式(1)表述的目標(biāo),GAN 的算法原理描述如下。
首先,固定生成網(wǎng)絡(luò)的參數(shù),對(duì)判別網(wǎng)絡(luò)的相關(guān)參數(shù)進(jìn)行訓(xùn)練優(yōu)化。通過二分類的判別器,對(duì)真實(shí)樣本和生成樣本的輸入作出二分類判斷結(jié)果,經(jīng)過不斷地迭代訓(xùn)練優(yōu)化,更新判別器網(wǎng)絡(luò)參數(shù),得到判別性能更好的判別網(wǎng)絡(luò)。其后固定判別網(wǎng)絡(luò)的參數(shù),根據(jù)實(shí)際輸入和判別結(jié)果與真實(shí)標(biāo)簽的對(duì)比分析,根據(jù)損失值最小的要求,反饋傳遞到生成網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化。生成器主要是為了學(xué)習(xí)真實(shí)樣本的分布規(guī)律,經(jīng)過不斷訓(xùn)練,使得生成樣本逐漸趨近真實(shí)樣本,令判別器無(wú)法判斷輸入樣本圖的真假。對(duì)生成器和判別器交替進(jìn)行優(yōu)化,并根據(jù)實(shí)際訓(xùn)練情況調(diào)整對(duì)應(yīng)的優(yōu)化頻率,盡可能達(dá)到二者的平衡狀態(tài)。
GAN網(wǎng)絡(luò)結(jié)構(gòu)見圖1。
圖1 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure diagram of GAN
改進(jìn)的深度卷積生成對(duì)抗網(wǎng)絡(luò)在原始GAN 基礎(chǔ)上,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)架構(gòu)的改進(jìn)。相較于原始的GAN,網(wǎng)絡(luò)結(jié)構(gòu)有以下特點(diǎn)。
如圖2 所示,在生成網(wǎng)絡(luò)中,通過4 次轉(zhuǎn)置卷積過程,將隨機(jī)輸入的參數(shù)轉(zhuǎn)化為樣本圖像的生成;在判別網(wǎng)絡(luò)中,取消原網(wǎng)絡(luò)中的池化層和全連接層,全部采用帶步幅的卷積層。
在整體網(wǎng)絡(luò)中引入了批量歸一化(batch normalization)方法,有效地解決了初始化過程中常見的隨機(jī)差問題,有利于梯度的穩(wěn)定傳播,進(jìn)而更好地實(shí)現(xiàn)模型的收斂。
在激活函數(shù)的選用方面,生成網(wǎng)絡(luò)主要應(yīng)用ReLU函數(shù),僅有輸出層使用Tanh函數(shù),而判別網(wǎng)絡(luò)中全部采用Leaky ReLU函數(shù)。
生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的損失函數(shù)中取消對(duì)數(shù)的計(jì)算,且每次更新判別器的參數(shù)之后把它們的絕對(duì)值截?cái)嗟讲怀^一個(gè)固定常數(shù),避免過擬合。
使用SGD算法替代基于動(dòng)量的優(yōu)化算法,將學(xué)習(xí)率設(shè)置為0.002。
通過對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整和損失函數(shù)、優(yōu)化器以及學(xué)習(xí)率等關(guān)鍵參數(shù)的修改,可以使網(wǎng)絡(luò)更好地適配于本研究中的具體任務(wù),獲得更好的樣本生成效果。
圖2 深度卷積生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure diagram of generator with deep convolution
Faster R-CNN是R-CNN系列檢測(cè)框架的最終版,經(jīng)歷了特征提取順序和候選區(qū)域生成方法的改進(jìn),檢測(cè)速度和準(zhǔn)確率都得到了極大的提升。算法的目標(biāo)識(shí)別過程主要分為3 個(gè)步驟:①在圖像中選取候選目標(biāo)區(qū)域;②通過CNN 對(duì)候選區(qū)域提取特征;③對(duì)候選區(qū)域進(jìn)行分析處理,獲得目標(biāo)檢測(cè)框和分類結(jié)果。
由于Faster R-CNN 在目標(biāo)識(shí)別領(lǐng)域的良好表現(xiàn),在實(shí)際研究和工程領(lǐng)域都得到了廣泛的應(yīng)用。Faster R-CNN 檢測(cè)框架主要由4T 部分組成:特征提取、候選區(qū)域生成、感興趣區(qū)域池化以及分類,待檢測(cè)圖像經(jīng)過卷積網(wǎng)絡(luò)提取出整個(gè)圖像的特征圖,通過候選區(qū)域網(wǎng)絡(luò)(region proposal network,RPN)從特征圖中提取生成感興趣區(qū)域(Region of Interest,ROI),將ROI 與特征圖結(jié)合得到感興趣區(qū)域的特征圖塊。經(jīng)過ROI 池化后,ROI 特征圖塊轉(zhuǎn)化為固定大小,輸入到全連接層中進(jìn)行分類和定位。Faster R-CNN檢測(cè)流程見圖3。
候選區(qū)域網(wǎng)絡(luò)提取圖像中的感興趣區(qū)域,最終通過全連接層分別輸出2×k維向量和4×k維向量,對(duì)應(yīng)于k 個(gè)錨定框的目標(biāo)與否及置信度分?jǐn)?shù)和坐標(biāo)點(diǎn),確定錨定框的尺度大小和長(zhǎng)寬比例。筆者預(yù)設(shè)了4種尺度(16,32,64,128)和4種比例(1∶1,1.5∶1,2∶1,3∶1),由此形成單個(gè)位置有4×4個(gè)錨定框,基本上可以涵蓋本研究中所涉及的目標(biāo),得到更準(zhǔn)確的檢測(cè)結(jié)果。對(duì)于所有生成的候選區(qū)域采用非極大值抑制法(NMS),根據(jù)道路樣本圖中的實(shí)際情況,選取10個(gè)得分較高的區(qū)域作為后續(xù)輸入。
其中2×k 維向量中的目標(biāo)分類損失的定義為
式中:i 為候選框的索引值;pi為第i 個(gè)候選框是目標(biāo)類別的概率;qi為標(biāo)簽判斷標(biāo)記,當(dāng)?shù)趇 個(gè)候選框與真實(shí)標(biāo)簽框的交并比值(IOU)大于0.7 的時(shí)候,qi為1,否則為0。
圖3 Fast R-CNN流程圖Fig.3 Flow chart of Fast R-CNN
對(duì)于4×k維向量的坐標(biāo)回歸損失定義為
其中
當(dāng) |x |<1 時(shí),f(x)=0.5x2;當(dāng) |x |>1 時(shí),f(x)= |x |-0.5。
式中:ti為候選框的坐標(biāo)向量;ti*為對(duì)應(yīng)的真實(shí)框的坐標(biāo)向量。
本文應(yīng)用Faster R-CNN 作為道路標(biāo)志識(shí)別方法,為了更好地應(yīng)用于車載相機(jī)實(shí)際拍攝的道路環(huán)境下的圖像,引入遷移學(xué)習(xí)的方法。遷移學(xué)習(xí)可以將已學(xué)習(xí)到的源域模型參數(shù)分享給相關(guān)的目標(biāo)域的新任務(wù)模型,避免新模型從零開始訓(xùn)練,減小目標(biāo)域樣本的標(biāo)注工作、整體流程工作量和耗時(shí),實(shí)現(xiàn)目標(biāo)任務(wù)中的學(xué)習(xí)要求。在本文中,由于前期采集和生成的樣本是路面指示標(biāo)志的無(wú)背景圖,而實(shí)際應(yīng)用過程中會(huì)有道路行車環(huán)境的背景元素,帶有背景的樣本集數(shù)量有限,難以訓(xùn)練得到預(yù)期效果的識(shí)別模型。由于在純粹為路面指示標(biāo)志和有其他背景的任務(wù)中,待識(shí)別的目標(biāo)始終是路面指示標(biāo)志,具有相同的目標(biāo)特征,由此可建立基于特征的遷移。
以原始采集和通過DCGAN生成的大量路面標(biāo)志樣本集作為源域,以實(shí)際車載相機(jī)采集的路面圖片數(shù)據(jù)集作為目標(biāo)域,將在源域中訓(xùn)練好的模型參數(shù)共享給目標(biāo)域,對(duì)在純粹的路面指示標(biāo)志數(shù)據(jù)集上訓(xùn)練的模型進(jìn)行微調(diào),極大地加快了網(wǎng)絡(luò)訓(xùn)練的速度,并有效地提高了在實(shí)際道路環(huán)境中的路面標(biāo)志識(shí)別準(zhǔn)確率。本文中的源域和目標(biāo)域不同,但識(shí)別的目標(biāo)任務(wù)相同,且2類樣本集均有標(biāo)簽,主要是應(yīng)用直推式遷移方法,將源域訓(xùn)練的模型中的特征參數(shù)遷移至源域模型中,固化目標(biāo)檢測(cè)模型的特征且減少了冗余的特征提取過程。
本文實(shí)驗(yàn)在Ubuntu16.04 系統(tǒng)上基于深度學(xué)習(xí)框架Caffe 進(jìn)行,并使用NVIDIA GTX 1050Ti 圖形處理器(GPU)加速,縮減模型訓(xùn)練所需的時(shí)間。
DCGAN根據(jù)其相對(duì)于傳統(tǒng)GAN的改進(jìn)方法,保持生成和判別網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)不變,根據(jù)當(dāng)前實(shí)際情況,在實(shí)驗(yàn)過程中逐步調(diào)整優(yōu)化,參數(shù)更新所參考的小批量梯度下降法的批量大小為16,判別器中Leaky ReLU函數(shù)的斜率設(shè)置為0.3,通過SGD算法進(jìn)行優(yōu)化,其中學(xué)習(xí)率設(shè)置為0.002,并將輸入樣本和生成圖片設(shè)置為96 pixel × 96 pixel。
Faster R-CNN提供了不同規(guī)模的網(wǎng)絡(luò)模型,本文根據(jù)需求選用其中的VGG模型,網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)改變與識(shí)別目標(biāo)類別數(shù)目相關(guān)的參數(shù),。對(duì)于網(wǎng)絡(luò)在訓(xùn)練和測(cè)試時(shí)使用的超參數(shù),根據(jù)實(shí)際樣本中的目標(biāo)數(shù)量和不同類別之間的區(qū)分度,將非極大值抑制(NMS)留下的候選區(qū)域數(shù)量設(shè)置為10,最終進(jìn)行結(jié)果顯示的置信度設(shè)置為0.8,其他設(shè)置保持不變,后續(xù)實(shí)驗(yàn)以此設(shè)置為基礎(chǔ)進(jìn)行。
深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練的模型優(yōu)劣與樣本集直接相關(guān),高質(zhì)量和大數(shù)量的數(shù)據(jù)集對(duì)于模型的質(zhì)量有著極其重要的奠基作用,本文針對(duì)DCGAN 和Faster R-CNN 分別建立了用于生成和識(shí)別道路表面指示標(biāo)志的圖像數(shù)據(jù)集。
Cityscapes 數(shù)據(jù)集包含了市區(qū)、鄉(xiāng)村、高速公路等多個(gè)場(chǎng)景下的車載攝像頭拍攝的真實(shí)圖像數(shù)據(jù),可作為本文所需的數(shù)據(jù)集來源之一,同時(shí)通過網(wǎng)絡(luò)圖庫(kù)資源進(jìn)行樣本收集,選取其中帶有直行、左轉(zhuǎn)彎、右轉(zhuǎn)彎3類道路指示標(biāo)志的圖像。
深度卷積生成對(duì)抗網(wǎng)絡(luò)是根據(jù)給定的圖像樣本集生成圖像,因此建立目標(biāo)圖像的數(shù)據(jù)集,用于生成網(wǎng)絡(luò)的特征提取和判別網(wǎng)絡(luò)的對(duì)比反饋。由于當(dāng)前還沒有道路指示標(biāo)志的大規(guī)模開源數(shù)據(jù)集,所以需要根據(jù)研究所需進(jìn)行數(shù)據(jù)集的搜集與制作。
由于所需的目標(biāo)圖像為道路表面指示標(biāo)志,Cityscapes數(shù)據(jù)集原始圖像中的大部分內(nèi)容,諸如車輛、行人、建筑物等,不在本文的研究范圍之內(nèi),而且會(huì)對(duì)生成網(wǎng)絡(luò)造成干擾,因此需要對(duì)選取的原始樣本進(jìn)行預(yù)處理。裁剪存有指示標(biāo)志的圖像塊,并全部調(diào)整為像素大小為96×96的圖像,得到可用作DCGAN輸入的樣本。原始樣本預(yù)處理及生成樣本見圖4。
圖4 樣本預(yù)處理及生成示意圖Fig.4 Schematic diagram of sample preprocessing and generation
Faster R-CNN標(biāo)準(zhǔn)數(shù)據(jù)集為PASCAL VOC,本文按照PASCAL VOC2007數(shù)據(jù)集的格式構(gòu)建目標(biāo)識(shí)別的數(shù)據(jù)集,將數(shù)據(jù)集和注釋的格式完全參照PASCAL VOC2007 數(shù)據(jù)集,在后續(xù)進(jìn)行實(shí)驗(yàn)時(shí)可以更好地適配。
為了統(tǒng)一注釋格式,應(yīng)用圖像標(biāo)注方法LabelImg對(duì)原始樣本圖、生成的樣本圖以及道路場(chǎng)景樣本圖進(jìn)行標(biāo)注,生成的注釋標(biāo)簽包含圖像名稱、目標(biāo)類別以及目標(biāo)外接矩形框的坐標(biāo)和大小。目標(biāo)識(shí)別數(shù)據(jù)集的具體構(gòu)成見表1。
表1 目標(biāo)識(shí)別數(shù)據(jù)集Tab.1 Dataset of target recognition
針對(duì)所研究的具體內(nèi)容,本文設(shè)計(jì)的數(shù)據(jù)集有2個(gè)特點(diǎn)。
1)預(yù)篩選去重。由于道路表面指示標(biāo)志的特征與其他目標(biāo)(如車輛、行人等)相比相對(duì)簡(jiǎn)單,不同樣本之間的區(qū)別更多的在于拍攝角度和路面背景顏色,而按照常規(guī)方法搜集的樣本和用車載相機(jī)采集的樣本由于拍攝角度和路面背景變化較少,采集的樣本有著非常高的重復(fù)率,導(dǎo)致其訓(xùn)練樣本集制作相對(duì)困難。在Cityscapes 圖像數(shù)據(jù)集中選取原始樣本時(shí),由于圖像采集過程是在同一段道路上循環(huán)進(jìn)行,對(duì)于道路表面指示標(biāo)志,非重復(fù)性的樣本量較小。每條道路上拍攝的圖像樣本均只選取少量具有代表性的樣本,避免樣本集內(nèi)部重復(fù)率過高。
2)自動(dòng)標(biāo)注。由于后期識(shí)別需要對(duì)樣本圖像中的指示標(biāo)志進(jìn)行標(biāo)注,手動(dòng)搜集大量圖片并逐一標(biāo)注所帶來的工作量很大,對(duì)于個(gè)人研究者而言過于耗時(shí)耗力。因此,從原始樣本圖中截取路面指示標(biāo)志作為DCGAN 的真實(shí)樣本集,訓(xùn)練深度卷積生成對(duì)抗網(wǎng)絡(luò)達(dá)到生成器和判別器的平衡,通過訓(xùn)練完成的生成器生成大量足以以假亂真的標(biāo)志圖。由于生成網(wǎng)絡(luò)的真實(shí)樣本集和生成結(jié)果圖都是以路面指示標(biāo)志為主體,對(duì)生成結(jié)果圖分析可知,不需要對(duì)指示標(biāo)志圖進(jìn)行逐一標(biāo)注,可選擇其標(biāo)注區(qū)域略小于標(biāo)志圖大小。因?yàn)槿斯?biāo)注也是以肉眼觀察標(biāo)志區(qū)域,所以可通過肉眼觀察判斷自動(dòng)標(biāo)注的誤差與人工標(biāo)注誤差相近,而且自動(dòng)標(biāo)注節(jié)省了標(biāo)注大量圖像所耗費(fèi)的時(shí)間。
首先分別以直行、左轉(zhuǎn)、右轉(zhuǎn)3類原始樣本作為基礎(chǔ)樣本集,按照比例制作訓(xùn)練集、交叉驗(yàn)證集和測(cè)試集,基于Faster R-CNN 進(jìn)行相應(yīng)的實(shí)驗(yàn),得到3種指示標(biāo)志各自獨(dú)立的以及合并匯總的總共4個(gè)識(shí)別模型。
然后基于深度卷積生成對(duì)抗網(wǎng)絡(luò)分別對(duì)直行、左轉(zhuǎn)、右轉(zhuǎn)3類樣本進(jìn)行訓(xùn)練,通過訓(xùn)練好的生成器分別生成3種樣本。選取生成樣本中質(zhì)量符合要求的圖像,與基礎(chǔ)樣本集中的3種樣本分別匯總,在確保樣本質(zhì)量的前提下增加樣本的數(shù)量,并基于Faster R-CNN進(jìn)行實(shí)驗(yàn),得到擴(kuò)增樣本后的識(shí)別模型。
以相同的測(cè)試集對(duì)原始識(shí)別模型和樣本增強(qiáng)后的識(shí)別模型進(jìn)行測(cè)評(píng),分別對(duì)3 類目標(biāo)各自的識(shí)別率和綜合識(shí)別率進(jìn)行對(duì)比分析。并基于上述的指示標(biāo)志識(shí)別模型進(jìn)行遷移學(xué)習(xí),以車載相機(jī)拍攝圖像和公共數(shù)據(jù)集作為測(cè)試樣本集,加入道路環(huán)境的負(fù)背景,使得Faster R-CNN訓(xùn)練的識(shí)別模型能直接應(yīng)用于車載相機(jī)的道路表面指示標(biāo)志識(shí)別。
對(duì)于目標(biāo)識(shí)別模型質(zhì)量的評(píng)價(jià),通常是計(jì)算模型在測(cè)試集上的目標(biāo)識(shí)別平均準(zhǔn)確率(average precision,AP)和所有類別目標(biāo)的總體平均準(zhǔn)確率的均值(mean average precision, mAP)。AP 是衡量檢測(cè)算法和評(píng)價(jià)目標(biāo)檢測(cè)模型最直觀的標(biāo)準(zhǔn),適用于分析單目標(biāo)識(shí)別模型的測(cè)試結(jié)果。mAP 是所有類別目標(biāo)識(shí)別率的均值,適用于多目標(biāo)識(shí)別的綜合檢測(cè)性能的衡量。
基于各類識(shí)別模型的實(shí)驗(yàn)結(jié)果見表2,對(duì)比分析在樣本擴(kuò)增前后的3 種目標(biāo)和綜合的測(cè)試AP 和mAP值,圖5展示了其中部分測(cè)試結(jié)果的可視化圖。
表2 測(cè)試結(jié)果Tab.2 Result in test dataset
圖5 指示標(biāo)志測(cè)試示例圖Fig.5 Example images of indicator test
通過表2中的原始樣本訓(xùn)練模型和加入生成樣本后的訓(xùn)練模型識(shí)別結(jié)果對(duì)比分析,3 類目標(biāo)的AP分別提高了15.9%,16.9%和20.3%,mAP 提高了17.1%,檢測(cè)速率基本相近,漏檢率和錯(cuò)檢率都有一定程度的減小,表明基于本文的生成樣本的數(shù)據(jù)增強(qiáng)方法可以有效提高樣本較少目標(biāo)的識(shí)別準(zhǔn)確率。
為了驗(yàn)證本文方法的性能和有效性,采用同樣比較常用的其他典型方法,包括SSD (single shot detector)和YOLO v3,在相同的測(cè)試樣本集中,與本文方法的識(shí)別結(jié)果進(jìn)行對(duì)比分析,見表3。
表3 對(duì)比算法測(cè)試結(jié)果Tab.3 Test results of comparison algorithms
相對(duì)于SSD 和YOLO v3 種方法,本文所應(yīng)用的方法在3 類目標(biāo)上的識(shí)別平均精度都明顯更高,漏檢率和錯(cuò)檢率都明顯更低,證明本文方法對(duì)于路面指示標(biāo)志識(shí)別具有更優(yōu)的性能。
如圖5 中展示的部分測(cè)試結(jié)果,道路指示標(biāo)志為白色,其中生成樣本存在色差,但識(shí)別結(jié)果與標(biāo)志顏色并無(wú)明顯關(guān)聯(lián),影響識(shí)別結(jié)果的因素主要為標(biāo)志的像素灰度與周邊背景的對(duì)比度。通過遷移學(xué)習(xí)后的道路場(chǎng)景下的識(shí)別模型進(jìn)行標(biāo)志識(shí)別實(shí)驗(yàn),圖6展示了部分測(cè)試結(jié)果的可視化圖。
通過對(duì)道路環(huán)境下的路面指示標(biāo)志識(shí)別結(jié)果的分析,光照條件對(duì)識(shí)別結(jié)果影響較為明顯,在隧道等光線條件較差的環(huán)境下,對(duì)指示標(biāo)志的檢測(cè)框存在較大偏移,且會(huì)造成漏檢的結(jié)果。
將拍攝的車輛視角的道路視頻按幀數(shù)提取,并選取60 張不同場(chǎng)景下的道路圖像作為自采樣本測(cè)試集,從Cityscapes 數(shù)據(jù)集中選取60 張不同分布的圖像作為公共數(shù)據(jù)集的測(cè)試樣本,將原始樣本集和基于DCGAN 方法生成的增廣樣本、基于WGAN-GP方法生成的增廣樣本以及本文生成方法所得到的擴(kuò)增樣本分別作為訓(xùn)練樣本集,識(shí)別結(jié)果見表4。
表4 真實(shí)道路環(huán)境樣本圖測(cè)試結(jié)果Tab.4 Test results of real road environment sample images
通過表4 的結(jié)果對(duì)比分析,在對(duì)原始少量的樣本分別應(yīng)用DCGAN,WGAN-GP 和本文的方法進(jìn)行樣本生成得到增廣樣本集后,常規(guī)道路環(huán)境下的道路表面指示標(biāo)志識(shí)別準(zhǔn)確率有著明顯的提升。其中,應(yīng)用本文的生成方法得到的擴(kuò)增樣本,實(shí)驗(yàn)的識(shí)別準(zhǔn)確率改善效果最好,與原始樣本相比,本文方法的識(shí)別平均準(zhǔn)確率在自采的測(cè)試集分別提高了和公共測(cè)試集上分別提高了23%和13%,對(duì)于多類目標(biāo)的平均識(shí)別精度也有顯著的提高,表明本文提出的方法可以有效提高車載相機(jī)的指示標(biāo)志的識(shí)別準(zhǔn)確率。
針對(duì)道路表面指示標(biāo)志樣本量較少,以及由此引起的識(shí)別準(zhǔn)確率較低的問題,提出基于深度卷積生成對(duì)抗網(wǎng)絡(luò)的樣本增強(qiáng)方法,應(yīng)用Faster R-CNN算法,分別在局部區(qū)域的指示標(biāo)志和道路環(huán)境下圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。結(jié)果表明:相比原始的小樣本模型,本文的樣本增強(qiáng)方法有效地提高了道路表面指示標(biāo)志的識(shí)別準(zhǔn)確率,通過遷移學(xué)習(xí),可適用于常規(guī)的車載相機(jī)采集的圖像中指示標(biāo)志的識(shí)別。在智能車上進(jìn)行實(shí)車檢測(cè),對(duì)于本文中所學(xué)習(xí)到的3 類路面指示標(biāo)志可獲得準(zhǔn)確的識(shí)別結(jié)果,后續(xù)將進(jìn)一步與其他識(shí)別模型融合,增加標(biāo)志類型,并提高目標(biāo)識(shí)別的實(shí)時(shí)性。
由于生成對(duì)抗網(wǎng)絡(luò)系列一直在不斷改進(jìn),持續(xù)優(yōu)化的生成結(jié)果在更多的場(chǎng)景下達(dá)到了以假亂真的效果,生成對(duì)抗網(wǎng)絡(luò)將得到更多的應(yīng)用,對(duì)于解決小樣本的樣本制作和數(shù)據(jù)增強(qiáng)的問題有著極其重要的作用。