李琳輝,錢(qián)波,連靜,鄭偉娜,周雅夫
(大連理工大學(xué)工業(yè)裝備結(jié)構(gòu)分析國(guó)家重點(diǎn)實(shí)驗(yàn)室運(yùn)載工程與力學(xué)學(xué)部汽車(chē)工程學(xué)院,遼寧 大連 116024)
無(wú)人駕駛是汽車(chē)領(lǐng)域的研究熱點(diǎn)之一,提高無(wú)人駕駛系統(tǒng)智能化程度的關(guān)鍵技術(shù)之一是具備對(duì)交通場(chǎng)景準(zhǔn)確有效的認(rèn)知。
目前,比較成熟的交通場(chǎng)景分類(lèi)主要針對(duì)環(huán)境中的特定目標(biāo)進(jìn)行識(shí)別,多數(shù)屬于二分類(lèi)范疇,如路面識(shí)別[1]、車(chē)輛識(shí)別、行人識(shí)別等,用到的方法主要為淺層學(xué)習(xí)方法,如支持向量機(jī)、AdaBoost等。近幾年,深度學(xué)習(xí)[2]的研究取得了突破性進(jìn)展,并被廣泛應(yīng)用于圖像領(lǐng)域。使用深度學(xué)習(xí)方法能夠較好地解決多分類(lèi)問(wèn)題,特別適用于復(fù)雜的自然數(shù)據(jù),包括交通場(chǎng)景圖像數(shù)據(jù)。隨著 GPU并行計(jì)算的發(fā)展,使用深度學(xué)習(xí)方法造成計(jì)算量大的問(wèn)題得到解決,從而使面向復(fù)雜交通環(huán)境的像素級(jí)別場(chǎng)景分割成為可能。
深度學(xué)習(xí)已被驗(yàn)證能夠提高目標(biāo)識(shí)別[3]和圖像語(yǔ)義分割[4,5]的精度,具有代表性的深度網(wǎng)絡(luò)包括AlexNet[6]、VGGNet[7]和 GoogLeNet[8]等,它們?cè)趫D像的單標(biāo)簽分類(lèi)問(wèn)題上取得了較好的成績(jī),對(duì)1 000類(lèi)圖像分類(lèi)的 Top-5錯(cuò)誤率均在 8%以內(nèi),是近年來(lái)ImageNet[9]圖像分類(lèi)大賽的主要解決方案。在此基礎(chǔ)上,針對(duì)圖像的語(yǔ)義分割問(wèn)題,Long等[10]提出了一種基于全卷積網(wǎng)絡(luò)(FCN)的語(yǔ)義分割方法,對(duì)目前的圖像分類(lèi)網(wǎng)絡(luò)進(jìn)行了修改,將全連接層改為卷積層,使其學(xué)習(xí)到的特征適用于圖像的語(yǔ)義分割任務(wù);針對(duì)更為復(fù)雜的室外交通場(chǎng)景,Badrinarayanan等[11,12]提出了一種卷積神經(jīng)網(wǎng)絡(luò),用來(lái)實(shí)現(xiàn)交通場(chǎng)景圖像的語(yǔ)義分割,通過(guò)最大非線性上采樣方法得到與輸入圖像分辨率相同的語(yǔ)義分割結(jié)果;Noh等[13]利用反卷積和上采樣方法實(shí)現(xiàn)了圖像的語(yǔ)義分割任務(wù),在細(xì)小物體的語(yǔ)義分割問(wèn)題上取得了較好的結(jié)果。
隨著面掃描激光、立體視覺(jué)、紅外體視等深度傳感器的發(fā)展,獲取圖像的深度信息變得越來(lái)越容易,基于 RGB-D圖像的語(yǔ)義分割研究成為未來(lái)的發(fā)展趨勢(shì)之一。目前,RGB-D數(shù)據(jù)集主要用于室內(nèi)場(chǎng)景的語(yǔ)義分割,例如,Silberman等[14]制作了RGB-D室內(nèi)場(chǎng)景數(shù)據(jù)集NYUv2,考慮到物體之間的支撐關(guān)系,提出了基于 RGB-D圖像的室內(nèi)場(chǎng)景語(yǔ)義分割算法;Gupta等[15]在室內(nèi)物體檢測(cè)算法的基礎(chǔ)上提出了基于 RGB-D的室內(nèi)場(chǎng)景語(yǔ)義分割算法。相關(guān)研究[16,17]表明,基于 RGB-D圖像的室內(nèi)場(chǎng)景分割相比RGB圖像具有更高的分類(lèi)準(zhǔn)確度和環(huán)境適應(yīng)性,可以為基于RGB-D圖像的室外場(chǎng)景分割提供借鑒。對(duì)室外的交通環(huán)境而言,場(chǎng)景復(fù)雜多變且需要獲取更遠(yuǎn)距離的深度信息,相應(yīng)地,也急需更為有效的深度信息獲取方法及深度學(xué)習(xí)方法。
基于以上分析,本文從視差圖獲取和深度學(xué)習(xí)2個(gè)角度入手,提出一種基于RGB-D卷積神經(jīng)網(wǎng)絡(luò)的交通場(chǎng)景語(yǔ)義分割方法。首先,研究一種基于掃描線最優(yōu)的半全局立體匹配算法,并通過(guò)快速全局圖像平滑方法獲取連續(xù)的視差圖;然后,從KITTI[18]的Stereo2012雙目視覺(jué)數(shù)據(jù)集中選取具有代表性的交通場(chǎng)景圖像,通過(guò)上述立體匹配算法獲取對(duì)應(yīng)的視差圖D,將左圖RGB圖像和對(duì)應(yīng)的視差圖D融合成四通道RGB-D圖像,并將物體分為7個(gè)類(lèi)別:天空、建筑、路面、路邊界、樹(shù)木、草坪、車(chē)輛,以左圖 RGB圖像作為樣本對(duì)每個(gè)像素所屬類(lèi)別進(jìn)行標(biāo)注;最后,使用RGB-D四通道圖像對(duì)2種不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,并與基于 RGB三通道圖像方法的測(cè)試結(jié)果進(jìn)行對(duì)比分析,結(jié)果表明使用 RGB-D四通道圖像訓(xùn)練得到的網(wǎng)絡(luò)在交通場(chǎng)景的語(yǔ)義分割任務(wù)上能夠獲得更高的分割精度。
通過(guò)立體視覺(jué)的立體匹配步驟,可以獲得包含所拍攝場(chǎng)景三維信息的視差圖,視差圖的精度越高,卷積神經(jīng)網(wǎng)絡(luò)從視差圖中能夠提取到的物體特征信息越豐富。因此,立體匹配的精度直接影響著語(yǔ)義分割精度。
立體視覺(jué)匹配算法可分為3類(lèi):局部匹配算法、半全局匹配算法、全局匹配算法,這3種匹配算法的匹配精度依次增高,但匹配所消耗的時(shí)間也依次增高??紤]到算法的實(shí)時(shí)性要求,且半全局匹配算法的精度接近于全局匹配算法,本文通過(guò)半全局匹配算法[19]來(lái)計(jì)算獲取視差圖,并通過(guò)一種基于最小二乘法的快速全局圖像平滑方法[20]獲取視差值更加連續(xù)的視差圖,算法的基本步驟如下。
1) 采用基于窗口的局部算法計(jì)算單個(gè)像素點(diǎn)的灰度相似性匹配代價(jià)。
2) 通過(guò)多個(gè)方向掃描線上基于平滑約束的方法對(duì)匹配代價(jià)進(jìn)行聚合,建立一個(gè)全局的能量函數(shù)。
3) 采用勝者為王方法選取使能量函數(shù)最小的視差值,并通過(guò)二次曲線擬合估計(jì)亞像素級(jí)別的視差。
4) 分別根據(jù)左右視圖生成的視差圖剔除異常點(diǎn),使其符合一致性約束,消除遮擋帶來(lái)的誤匹配。
5) 采用基于最小二乘法的快速全局圖像平滑方法對(duì)視差圖進(jìn)行濾波處理,填充沒(méi)有匹配到的像素點(diǎn),獲得視差值更為連續(xù)、更為平滑的視差圖。
步驟1) 中的基于窗口的局部算法采用5×5的窗口,灰度相似性采用灰度差的絕對(duì)值疊加方法計(jì)算。步驟2) 中采用了掃描線最優(yōu)算法的思想,沿8路不同方向的掃描線分別計(jì)算匹配代價(jià),采用多個(gè)方向的一維平滑約束合并的方式來(lái)逼近圖像平面內(nèi)二維的平滑約束。步驟 5) 是獲取視差圖的關(guān)鍵,通過(guò)前面的步驟得到的視差圖比較粗糙,如圖1(b)所示,包含一些未匹配的像素點(diǎn),且物體邊界較為粗糙,通過(guò)步驟5),可以得到更為平滑的視差圖,如圖1(c)所示,較好地保留物體的邊緣、輪廓信息。
圖1為KITTI數(shù)據(jù)集中一對(duì)立體視覺(jué)圖像的匹配結(jié)果。在視差圖中,灰度值越大的點(diǎn)對(duì)應(yīng)的視差值越大,即越亮的點(diǎn)距離相機(jī)越近。其中,圖1(b)為未經(jīng)平滑處理的視差圖,可以看出,其中存在一些未匹配的像素點(diǎn),物體的邊緣信息比較模糊,圖1(c)為平滑處理后的視差圖,可以看出,經(jīng)平滑處理后的視差圖較好地保留了物體的邊緣、輪廓信息,為基于RGB-D圖像的交通場(chǎng)景語(yǔ)義分割奠定了基礎(chǔ)。
圖1 立體視覺(jué)圖像的匹配結(jié)果
在具有代表性的交通場(chǎng)景數(shù)據(jù)集中[18,21,22],KITTI是目前最大的道路場(chǎng)景數(shù)據(jù)集,其中包含了通過(guò)立體視覺(jué)相機(jī)拍攝的交通場(chǎng)景圖像,場(chǎng)景中包括天空、路面、樹(shù)木、車(chē)輛等多種類(lèi)別,便于立體匹配算法驗(yàn)證及網(wǎng)絡(luò)訓(xùn)練。
首先,從KITTI的Stereo2012子數(shù)據(jù)集中選取具有代表性的交通場(chǎng)景立體圖像,并將交通場(chǎng)景分為7個(gè)類(lèi)別:天空、建筑、路面、路邊界、樹(shù)木、草坪、車(chē)輛,類(lèi)別的標(biāo)簽從0到6,其他類(lèi)別的標(biāo)簽為 7,不參與反向傳播時(shí)權(quán)值的更新計(jì)算。以立體視覺(jué)圖像中的左側(cè) RGB圖像為樣本,對(duì)圖像的每個(gè)像素所屬類(lèi)別進(jìn)行標(biāo)注,將其作為訓(xùn)練的標(biāo)簽。然后,基于前述立體匹配算法,獲取左右圖像對(duì)應(yīng)的視差圖D。最后,將左圖RGB圖像和視差圖D融合成四通道RGB-D圖像。最終建立的樣本庫(kù)包含訓(xùn)練集、驗(yàn)證集和測(cè)試集。
本文基于SegNet[12]和SegNet-Basic[11]網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)交通場(chǎng)景 RGB-D圖像的語(yǔ)義分割。SegNet和SegNet-Basic具有不同的網(wǎng)絡(luò)結(jié)構(gòu),其中,SegNet包含26個(gè)卷積層、5個(gè)下采樣層和5個(gè)上采樣層,SegNet-Basic包含 8個(gè)卷積層、4個(gè)下采樣層和 4個(gè)上采樣層。這2種網(wǎng)絡(luò)架構(gòu)均能夠進(jìn)行端到端的訓(xùn)練,且相對(duì)于其他網(wǎng)絡(luò)架構(gòu)[10],在交通場(chǎng)景的語(yǔ)義分割上,SegNet和SegNet-Basic能夠獲得較高的語(yǔ)義分割精度,且使用訓(xùn)練好的模型進(jìn)行語(yǔ)義分割測(cè)試的實(shí)時(shí)性較好。
采用小批量訓(xùn)練的方法進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,每次選取一定數(shù)量的樣本圖像送入網(wǎng)絡(luò)進(jìn)行前向傳播,得到每個(gè)像素點(diǎn)的輸出誤差,然后計(jì)算該小批量樣本圖像上所有像素點(diǎn)的輸出誤差和的平均值,作為網(wǎng)絡(luò)的輸出誤差,即訓(xùn)練誤差,并根據(jù)最小化訓(xùn)練誤差的方法來(lái)更新網(wǎng)絡(luò)的權(quán)值參數(shù)。其中,采用交叉熵?fù)p失函數(shù)[10]來(lái)計(jì)算網(wǎng)絡(luò)的訓(xùn)練誤差,計(jì)算式為
其中,P(x=k)為像素點(diǎn)x屬于其類(lèi)別k的概率,ai為第i個(gè)類(lèi)別的特征值,由最后一層卷積層得到,K為分類(lèi)的類(lèi)別數(shù)量,N為一個(gè)批量上所有像素點(diǎn)的數(shù)量,L為網(wǎng)絡(luò)最終輸出的訓(xùn)練誤差值。由于在訓(xùn)練集上各個(gè)類(lèi)別所占的像素?cái)?shù)量相差較大,如天空、路面等像素點(diǎn)所占的像素?cái)?shù)量較多,因此,采用中值頻率平衡[23]方法來(lái)計(jì)算不同類(lèi)別的實(shí)際誤差值,其計(jì)算式為
其中,λi為第i個(gè)類(lèi)別的誤差值權(quán)重,ni為訓(xùn)練集上第i個(gè)類(lèi)別所占像素的數(shù)量,m為各個(gè)類(lèi)別所占像素?cái)?shù)量的中值。優(yōu)化后的訓(xùn)練誤差計(jì)算式為
在反向傳播更新網(wǎng)絡(luò)權(quán)值參數(shù)階段,采用隨機(jī)梯度下降法[24]來(lái)更新網(wǎng)絡(luò)的權(quán)值參數(shù),其通過(guò)負(fù)梯度?L(W)和上一次的權(quán)值更新值的線性組合來(lái)更新權(quán)值,計(jì)算式為
其中,Wt是第t次迭代計(jì)算時(shí)的權(quán)值矩陣,Vt是第t次迭代計(jì)算時(shí)的權(quán)值更新值,α是負(fù)梯度的基礎(chǔ)學(xué)習(xí)率,μ是權(quán)值更新值Vt的權(quán)重,用來(lái)加權(quán)之前梯度方向?qū)ΜF(xiàn)在梯度下降方向的影響,這2個(gè)值一般根據(jù)經(jīng)驗(yàn)設(shè)定。通常在迭代計(jì)算過(guò)程中,需要對(duì)基礎(chǔ)學(xué)習(xí)率進(jìn)行調(diào)整,常用的調(diào)整策略為 fixed和step,使用fixed方式時(shí),在迭代計(jì)算過(guò)程中基礎(chǔ)學(xué)習(xí)率保持不變;使用step方式時(shí),實(shí)際的基礎(chǔ)學(xué)習(xí)率β和α之間的關(guān)系為
其中,a是當(dāng)前迭代次數(shù),b為基礎(chǔ)學(xué)習(xí)率更新的步長(zhǎng),g為基礎(chǔ)學(xué)習(xí)率縮放因子,floor為上取整函數(shù)。
為了減少網(wǎng)絡(luò)訓(xùn)練時(shí)陷入局部最小值的概率,驗(yàn)證算法的可擴(kuò)展性和頑健性,本文使用 fixed和step這2種方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將α設(shè)為0.01,μ設(shè)為0.9,使用step學(xué)習(xí)策略時(shí),將b設(shè)為2 000,g設(shè)為0.1,即每進(jìn)行2 000次迭代,基礎(chǔ)學(xué)習(xí)率更新為上次的0.1倍。
本文算法的具體實(shí)現(xiàn)使用的是深度學(xué)習(xí)框架Caffe[25],網(wǎng)絡(luò)的訓(xùn)練與測(cè)試均在Caffe環(huán)境下完成。實(shí)驗(yàn)的硬件環(huán)境為Intel Xeon E5-2620中央處理器,NVIDIA TITAN X顯卡;軟件環(huán)境為Ubuntu 14.04 LTS操作系統(tǒng),cuda7.5,cudnn v2。該配置是目前深度學(xué)習(xí)計(jì)算的主流配置。網(wǎng)絡(luò)訓(xùn)練及權(quán)值調(diào)整流程如圖2所示,具體步驟如下。
1) 初始化網(wǎng)絡(luò)權(quán)值參數(shù)。
2) 讀取訓(xùn)練圖片數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)的前向傳播,并輸出在訓(xùn)練數(shù)據(jù)上的誤差。
3) 判斷是否達(dá)到訓(xùn)練次數(shù),如果未達(dá)到訓(xùn)練次數(shù),根據(jù)得到的誤差進(jìn)行網(wǎng)絡(luò)權(quán)值梯度的計(jì)算,并進(jìn)行反向傳播更新網(wǎng)絡(luò)的權(quán)值參數(shù),執(zhí)行步驟2);如果達(dá)到訓(xùn)練次數(shù),則停止訓(xùn)練。
圖2 網(wǎng)絡(luò)訓(xùn)練及權(quán)值調(diào)整流程
在語(yǔ)義分割網(wǎng)絡(luò)的訓(xùn)練與測(cè)試中,小批量的大小設(shè)置為4,即每次選取4張圖片進(jìn)行迭代計(jì)算,每400次迭代計(jì)算后在驗(yàn)證集上驗(yàn)證一次精確率直至訓(xùn)練誤差值開(kāi)始收斂。
語(yǔ)義分割精度通常有2種評(píng)判方法,即全局精確率和平均精確率。全局精確率是分類(lèi)正確的像素點(diǎn)占數(shù)據(jù)集全部像素點(diǎn)的百分比,全局精確率越高,圖像分割結(jié)果越平滑;平均精確率是所有類(lèi)別預(yù)測(cè)精確率的平均值,與樣本中每個(gè)類(lèi)別所占像素點(diǎn)的比例有關(guān),其中,每個(gè)類(lèi)別分割精度為分類(lèi)正確像素點(diǎn)占該類(lèi)別所有像素點(diǎn)的比例。語(yǔ)義分割的最終目的是獲得平滑的語(yǔ)義預(yù)測(cè),所以本文選取在驗(yàn)證集上全局精確率最高的一次迭代計(jì)算得到每個(gè)類(lèi)別的分割精度作為此次訓(xùn)練的最終結(jié)果。
為了對(duì)比不同網(wǎng)絡(luò)、不同學(xué)習(xí)率策略及不同數(shù)據(jù)源輸入對(duì)交通場(chǎng)景語(yǔ)義分割精度的影響,針對(duì)SegNet和 SegNet-Basic網(wǎng)絡(luò),分別選擇 RGB和RGB-D圖像,采用fixed和step這2種學(xué)習(xí)率調(diào)整策略對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到不同類(lèi)別的分類(lèi)精度統(tǒng)計(jì)如表1和表2所示。為了得到網(wǎng)絡(luò)的訓(xùn)練誤差和精確率的收斂情況,以使用 fixed學(xué)習(xí)率策略時(shí)SegNet網(wǎng)絡(luò)訓(xùn)練誤差和驗(yàn)證集分割精確率為例,其迭代過(guò)程中的變化趨勢(shì)如圖3所示。通過(guò)分析,可以得到以下結(jié)論。
表1 采用fixed學(xué)習(xí)率所得語(yǔ)義分割精度
表2 采用step學(xué)習(xí)率所得語(yǔ)義分割精度
圖3 訓(xùn)練誤差和驗(yàn)證精確率曲線
1) 2種網(wǎng)絡(luò)均在收斂的基礎(chǔ)上取得了良好的分割精度。
2) 對(duì)于相同的網(wǎng)絡(luò)結(jié)構(gòu),使用fixed學(xué)習(xí)率策略得到的全局精確率高于使用step學(xué)習(xí)率策略時(shí)得到的全局精確率。
3) 天空、路面等所占像素點(diǎn)數(shù)量較多的類(lèi)別,分割精度較高;草坪、人行道等所占像素點(diǎn)數(shù)量較少的類(lèi)別,分割精度較低。
以 fixed學(xué)習(xí)率策略得到的分割精度為例,將基于RGB-D圖像和基于RGB圖像得到的結(jié)果進(jìn)行對(duì)比分析,得到以下結(jié)論。
1) 針對(duì)RGB和RGB-D圖像,SegNet得到的全局精確率分別為 0.858、0.875,SegNet-Basic的到的全局精確率分別為 0.859、0.87,因此,使用RGB-D圖像作為網(wǎng)絡(luò)輸入使 SegNet和 SegNet-Basic網(wǎng)絡(luò)的全局精確率分別提高了0.017、0.011,平均精確率分別提高了0.016、0.035。
2) 在建筑、路面、人行道、草坪、車(chē)輛這5個(gè)類(lèi)別的語(yǔ)義分割精度上,基于RGB-D圖像的方法得到的精度均高于基于RGB圖像的方法,對(duì)于SegNet網(wǎng)絡(luò),以上5個(gè)類(lèi)別的分割精度分別提高了0.034、0.005、0.003、0.035、0.031;對(duì)于SegNet-Basic網(wǎng)絡(luò),以上5個(gè)類(lèi)別的分割精度分別提高了0.051、0.010、0.091、0.079、0.036。
通過(guò)以上對(duì)比分析可以得到,使用同一種深度網(wǎng)絡(luò)時(shí),在相同的訓(xùn)練參數(shù)下,基于 RGB-D圖像的方法較基于 RGB圖像的方法能夠得到較高的全局精確率和平均精確率。
圖4 測(cè)試集部分樣本的語(yǔ)義分割結(jié)果
圖4 給出了測(cè)試集上部分交通場(chǎng)景圖像的視差圖和語(yǔ)義分割結(jié)果,其中,圖 4(c)為圖像對(duì)應(yīng)的標(biāo)簽,作為對(duì)比基準(zhǔn)來(lái)評(píng)定圖像的語(yǔ)義分割效果。圖4(d)為使用RGB三通道圖像作為網(wǎng)絡(luò)輸入時(shí)得到的語(yǔ)義分割結(jié)果,與圖 4(c)中的標(biāo)簽相比,其語(yǔ)義分割結(jié)果存在相對(duì)較大的噪聲輸出。圖 4(e)為使用 RGB-D四通道圖像作為網(wǎng)絡(luò)輸入時(shí)得到的語(yǔ)義分割結(jié)果,通過(guò)將圖 4(d)與圖 4(e)進(jìn)行對(duì)比可以看出,圖4(e)中的語(yǔ)義分割結(jié)果噪聲較小,更加接近圖 4(c)中圖像的標(biāo)簽。這說(shuō)明視差圖 D的引入在一定程度上減少了分類(lèi)噪聲,能夠得到更加平滑的語(yǔ)義分割結(jié)果。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通場(chǎng)景語(yǔ)義分割方法。通過(guò)半全局立體匹配和快速全局圖像平滑方法獲取更加平滑的交通場(chǎng)景視差圖D,將視差圖D與RGB圖像融合成RGB-D四通道圖像,作為網(wǎng)絡(luò)的輸入;將交通場(chǎng)景分為7個(gè)類(lèi)別,采用不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)和不同的學(xué)習(xí)率策略對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在KITTI數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果表明,
所提方法能夠?qū)崿F(xiàn)像素級(jí)別的交通場(chǎng)景語(yǔ)義分割并具有良好的頑健性和可擴(kuò)展性。通過(guò)與以 RGB
圖像為輸入的交通場(chǎng)景分割方法的對(duì)比分析表明,本文提出的基于 RGB-D圖像和卷積神經(jīng)網(wǎng)絡(luò)的交通場(chǎng)景分割算法具有更高的語(yǔ)義分割精度,為進(jìn)一步實(shí)現(xiàn)無(wú)人駕駛和提高車(chē)載環(huán)境認(rèn)知的智能化程度奠定了良好基礎(chǔ)。
參考文獻(xiàn):
[1]ANBALAGAN T,GOWRISHANKAR C,SHANMUGAM A. SVM based road surface detection to improve performance of ABS[J]. Journal of Theoretical & Applied Information Technology,2013,51(2):234-239.
[2]LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553): 436-444.
[3]高常鑫,桑農(nóng). 基于深度學(xué)習(xí)的高分辨率遙感影像目標(biāo)檢測(cè)[J]. 測(cè)繪通報(bào),2014(S1):108-111.GAO C X,SANG N. Deep learning for object detection in remote sensing image[J]. Bulletin of Surveying and Mapping,2014(S1):108-111.
[4]高凱珺,孫韶媛,姚廣順,等. 基于深度學(xué)習(xí)的無(wú)人車(chē)夜視圖像語(yǔ)義分割[J]. 應(yīng)用光學(xué),2017,38(3):421-428.GAO K J,SUN S Y,YAO G S,et al. Semantic segmentation of night vision images for unmanned vehicles based on deep learning[J]. Journal of Applied Optics,2017,38(3):421-428.
[5]劉丹,劉學(xué)軍,王美珍. 一種多尺度 CNN的圖像語(yǔ)義分割算法[J].遙感信息,2017,32(1):57-64.LIU D,LIU X J,WANG M Z. Semantic segmentation with multi-scale convolutional neural network[J]. Remote Sensing Information,2017,32(1):57-64.
[6]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2): 1-9.
[7]SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. ArXiv Preprint,ArXiv: 1409. 1556,2014.
[8]SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1-9.
[9]DENG J,DONG W,SOCHER R,et al. ImageNet: a large-scale hierarchical image database[C]// IEEE Computer Vision and Pattern Recognition.2009:248-255.
[10]LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]// IEEE Computer Vision and Pattern Recognition. 2015: 3431-3440.
[11]BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J]. ArXiv Preprint,ArXiv: 1505. 07293,2015.
[12]BADRINARAYANAN V,KENDALL A,CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,PP(99): 1.
[13]NOH H,HONG S,HAN B. Learning deconvolution network for semantic segmentation[C]//IEEE International Conference on Computer Vision. 2015: 1520-1528.
[14]SILBERMAN N,HOIEM D,KOHLI P,et al. Indoor segmentation and support inference from RGBD images[C]//European Conference on Computer Vision. 2012: 746-760.
[15]GUPTA S,GIRSHICK R,ARBELáEZ P,et al. Learning rich features from RGB-D images for object detection and segmentation[C]// European Conference on Computer Vision. 2014: 345-360.
[16]SHAO T,XU W,ZHOU K,et al. An interactive approach to semantic modeling of indoor scenes with an RGBD camera[J]. ACM Transactions on Graphics,2012,31(6): 439-445.
[17]FILLIAT D,BATTESTI E,BAZEILLE S,et al. RGBD object recognition and visual texture classification for indoor semantic mapping[C]//2012 IEEE International Conference on Technologies for Practical Robot Applications.2012: 127-132.
[18]GEIGER A,LENZ P,URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//IEEE Conference on Computer Vision and Pattern Recognition.2012: 3354-3361.
[19]LI L,HUANG H,QIAN B,et al. Vehicle detection method based on mean shift clustering[J]. Journal of Intelligent & Fuzzy Systems,2016,31(3):1355-1363.
[20]MIN D,CHOI S,LU J,et al. Fast global image smoothing based on weighted least squares[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society,2014,23(12): 5638-5653.
[21]RUSSELL B C,TORRALBA A,MURPHY K P,et al. LabelMe: a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1-3): 157-173.
[22]GOULD S,FULTON R,KOLLER D. Decomposing a scene into geometric and semantically consistent regions[C]// IEEE International Conference on Computer Vision.2009:1-8.
[23]EIGEN D,FERGUS R. Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]// IEEE International Conference on Computer Vision. 2015: 2650-2658.
[24]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.
[25]JIA Y,SHELHAMER E,DONAHUE J,et al. Caffe: convolutional architecture for fast feature embedding[C]//The 22nd ACM International Conference on Multimedia. 2014: 675-678.