李錦輝 錢薛榴 諸俊輝
摘? ?要:針對傳統(tǒng)汽車視覺系統(tǒng)所存在的視野有限的缺陷,文章提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的360環(huán)視系統(tǒng)停車位檢測方法。該系統(tǒng)通過安裝在車身四周的4個魚眼攝像頭來獲取車身所處環(huán)境信息,再對攝像頭捕獲的圖片進行畸變矯正與逆透視變換,由拼接技術(shù)生成環(huán)視鳥瞰圖;在此基礎(chǔ)上,設(shè)想出一種全新的停車位檢測方法,即利用卷積神經(jīng)網(wǎng)絡(luò)對環(huán)視鳥瞰圖進行檢測和識別。
關(guān)鍵詞:360環(huán)視系統(tǒng);停車位檢測;卷積神經(jīng)網(wǎng)絡(luò)
1? ? 研究意義及現(xiàn)狀
1.1? 研究意義
近年來,隨著我國汽車總量的上升,路面交通負(fù)擔(dān)不斷加重,城市擁堵、交通事故頻發(fā)的現(xiàn)象也日益嚴(yán)重。與此同時,汽車數(shù)量的劇增也使得大眾對于停車位、停車場的需求急劇增加。可事實是,城市的空間極為有限,想要提供足夠的停車位與停車場顯得尤為困難。密集的泊車環(huán)境與狹窄的停車位,使得駕駛員不得不面對“停車難”的窘境。傳統(tǒng)的汽車視覺系統(tǒng)在泊車時,因視野有限,車后的視野盲區(qū)對駕駛?cè)瞬窜嚳刂频呐袛嘤兄艽蟮挠绊?,由此引起的事故與糾紛也層出不窮,其造成的結(jié)果有時不僅是經(jīng)濟損失,更有可能是人員的傷亡。為此,本文提出的基于卷積神經(jīng)網(wǎng)路的360環(huán)視系統(tǒng)理論上能夠有效減少駕駛員視野盲區(qū),大大降低了駕駛員的泊車難度,對保證交通暢通與安全具有重要意義。
1.2? 國內(nèi)外研究現(xiàn)狀
目前,國內(nèi)外對于自動泊車系統(tǒng)都有一定的研究,而關(guān)于停車位的智能檢測與識別又是自動泊車系統(tǒng)的一個研究重要方向,其大多數(shù)主要是利用傳感器進行停車位的檢測。例如大連理工大學(xué)王海等[1]提出的基于激光雷達傳感器的車位檢測方法、學(xué)者PARK等[2]提出的基于超聲波傳感器的檢測方法以及電子科技大學(xué)陳奮等[3]提出的基于視覺傳感器的檢測方法,目前基于視覺的自動泊車系統(tǒng)研究成為主流。
2? ? 360環(huán)視泊車輔助系統(tǒng)
360環(huán)視和逆透視變化。在利用魚眼相機[4]實時采集圖片的時候,得到的是一張存在畸變的三維空間圖,使得對車位線的識別造成了視覺上的阻礙,所以本團隊采用圖片處理技術(shù)中的逆透視變化[5]將三維空間圖片里的信息完整透視到二維平面,從而從視覺上能夠完整地分辨出車位的相關(guān)信息,以便于后期自動泊車路線的規(guī)劃。
(1)坐標(biāo)系。在逆透視變換中將涉及3個坐標(biāo)系,下面對3個坐標(biāo)系進行分析:
首先,世界坐標(biāo)系,通常以豎直向上為Z軸正向,地面任取兩垂直方向為X,Y軸,三者兩兩互相垂直。
其次,相機坐標(biāo)系,一般以正右方為X軸,正上方為Y軸,視線方向為Z軸負(fù)向。
最后,平面坐標(biāo)系,圖像成像的坐標(biāo)系X-Y。
(2)坐標(biāo)變換。首先,世界坐標(biāo)系與相機坐標(biāo)系間的轉(zhuǎn)化。相機坐標(biāo)系實際就是世界坐標(biāo)系繞著原點旋轉(zhuǎn)一定角度后,再平移所得到的坐標(biāo)系,設(shè)相機坐標(biāo)系中一點為(XG,YG,ZG),世界坐標(biāo)系中一點為(XW,YW,ZW),則矩陣表示如下:
=R+T(1)
其中,R矩陣為旋轉(zhuǎn)矩陣,T矩陣為平移矩陣:
R=,T=(2)
其次,相機坐標(biāo)系與平面坐標(biāo)系的轉(zhuǎn)換。假設(shè)以(0,0,-d)為投影點,Z為投影方向,則:
=(3)
(3)理論依據(jù)。逆透視變換實在透視變換的基礎(chǔ)上提出的,透視變換如下:
(4)
其中,θ為相機沿X軸旋轉(zhuǎn)的一個仰角,h為相機相對于原點的高度,d為投影點距離原點的距離。
在透視變化中會發(fā)現(xiàn),透視變換陣由于滿秩而不可逆,說明在將三維圖像映射到二維平面時丟失了某些信息,從維度上看就是丟失了一個維度,所以將透視變換陣的第3列全部補充為1,即補充了一個信息使得矩陣可逆,矩陣如下:
(5)
對上述矩陣求逆矩陣,從而得到逆變換矩陣(矩陣如下):
(6)
補充的信息就是攝像頭坐標(biāo)系下的Z坐標(biāo)即深度信息。逆透視變換能夠去除在采集圖像當(dāng)中的透視效果。圖像是由很多像素點形成的像素矩陣,如果要對整個圖像進行逆透視變換,計算量太大,所以將實際的車位轉(zhuǎn)化為矩形圖形模型,要將整個車位實行逆透視變換,即將整個矩形中的離散點進行逆透視變換。由于是矩形,為了簡化計算只需要對4個頂點進行逆透視變換即可。
3? ? 圖像拼接
由于360環(huán)視圖像由4個魚眼攝像頭采集而成,在經(jīng)過逆透視變換以后會存在部分重疊的情況,所以,采用圖像拼接算法中的平均加權(quán)融合算法。
加權(quán)融合算法[6]就是在平均融合算法的基礎(chǔ)上給每一個平均像素點加一個權(quán)值,從而使得圖像拼接更加順暢,以達到最佳融合效果。由于本文的拼接位置特殊,因此需要借助歐式距離來確定加權(quán)值α,β。圖像拼接如圖1所示,兩張圖像重疊部分為ABCD,作CD的平行線AE,以AE為拼接縫,記AE和CD間的距離為d,待融合點到CD的距離為d',則加權(quán)值α,β為。
將所采集到的圖像通過加權(quán)平均融合拼接之后,就得到了360全景環(huán)繞圖。
4? ? 車位檢測與識別
在前文中,利用4個魚眼攝像頭得到了車身的環(huán)視鳥瞰圖。在此基礎(chǔ)上,需對鳥瞰圖進行識別與檢測。盡管目前大多采用超聲波傳感器進行車位的檢測,但其檢測精度并不太高?;谝曈X的方法雖然相較于前者起步稍晚,但已有在未來成為主流泊車輔助系統(tǒng)的趨勢。就目前而言,傳統(tǒng)的視覺檢測方法絕大多數(shù)都是基于霍夫變換空間[7],但其受光照、樹影的影響較大,檢測準(zhǔn)確性不高。為此,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的車位檢測設(shè)想,相比傳統(tǒng)方法,具有準(zhǔn)確性高、穩(wěn)定性好的特點??尚行苑治鋈缦隆?/p>
4.1? 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)與原理
卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)為:典型的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、下采樣層、全連接層和輸出層組成,如圖2所示。
原始圖像Y為卷積神經(jīng)網(wǎng)絡(luò)的輸入,本文用Xi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征圖。假設(shè)Xi是卷積層,Xi產(chǎn)生的過程可描述為:
(7)
其中,Mi表示的是第i層卷積核的權(quán)值向量,符號“”代表的是卷積核與第i-1層圖像進行的卷積操作,卷積的輸出與第i層的偏移向量bi相加,最終通過非線性的激勵函數(shù)f(x)得到第i層的特征圖Xi。
經(jīng)過卷積層與降采樣層的循環(huán)傳遞,卷積神經(jīng)網(wǎng)絡(luò)依靠全連接網(wǎng)絡(luò)對提取的特征進行分類,得到基于輸入的概率分布H(li表示第i個標(biāo)簽類別)。卷積神經(jīng)網(wǎng)絡(luò)從本質(zhì)上來說,是將原始矩陣(X0)經(jīng)過多個層次的數(shù)據(jù)變換或降維,映射到一個新的特征表達(H)的數(shù)學(xué)模型:
(8)
在訓(xùn)練過程中,采用梯度下降法對卷積神經(jīng)網(wǎng)絡(luò)進行優(yōu)化。殘差經(jīng)過梯度下降后反向傳播,逐層更新各個層的可訓(xùn)練參數(shù)。
4.2? 車位分類器的設(shè)計思路
本文設(shè)想利用卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)車位的檢測,其車位檢測器的設(shè)計思路如圖3所示。
首先,需進行樣本的采集。為保證樣本的多樣性,應(yīng)盡可能多的采集到不同環(huán)境下停車位的情況;其次,為增強分類器在對不同光照環(huán)境及陰影下的適應(yīng)性,需在HSV空間[8]對原始的數(shù)據(jù)集進行預(yù)處理,以改變原始圖片的明亮度。最后,利用反向傳播算法[9]對樣本集進行訓(xùn)練。
(1)當(dāng)正向傳播時,卷積層特征圖的計算公式為:
(9)
其中,為連接上一層特征圖與本層特征圖的卷積核,表示的是卷積操作,表示的是與該特征圖有聯(lián)系的上一層特征圖的集合。
(2)當(dāng)正向傳播時,池化層的計算公式為:
(10)
其中,down( )為下采樣函數(shù)。經(jīng)過下采樣操作,池化層特征圖的長和寬變?yōu)樵瓉淼?/m。
(3)當(dāng)反向傳播時,卷積層靈敏度和梯度的計算如下。
某個樣本輸入后對應(yīng)輸出層的誤差為:
(11)
其中,tz表示對應(yīng)標(biāo)定好的輸出標(biāo)簽的第z維輸出,而yz表示通過卷積神經(jīng)網(wǎng)絡(luò)一次正向傳播之后的第z維輸出。第n層的靈敏度矩陣為:
(12)
其中,o表示點乘操作;up( )表示上采樣函數(shù)。輸出誤差對第n層每個卷積核的對應(yīng)梯度值為:
(13)
式中,表示為得到卷積層而與卷積核相乘的第n-1層的對應(yīng)區(qū)域。
(4)當(dāng)反向傳播時,池化層(下采樣層)靈敏度和梯度的計算如下。
假設(shè)第n層(池化層)后面連接的是全連接層,則該層對應(yīng)的靈敏度矩陣為:
(14)
若第n層后面連接的是卷積層,則該層對應(yīng)的靈敏度矩陣為:
(15)
式中,conv2( )表示將輸入的前兩個參數(shù)進行卷積操作;full表示完全卷積;rot180( )表示將矩陣旋轉(zhuǎn)1800。
輸出誤差關(guān)于乘法系數(shù)的梯度為:
(16)
經(jīng)過上述的訓(xùn)練,設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)率為2.5,將每10個樣本進行一次訓(xùn)練,整個樣本集經(jīng)過20個來回的訓(xùn)練,則通過反向傳播法,整個卷積神經(jīng)網(wǎng)絡(luò)也就區(qū)域穩(wěn)定,并且也就具有了停車位檢測和識別的能力。
5? ? 結(jié)語
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的360環(huán)視系統(tǒng)車位檢測方法,相比較于傳統(tǒng)的車位檢測法,能夠有效消除駕駛員存在的視野盲區(qū),提高泊車安全性。在環(huán)視鳥瞰圖的基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡(luò)進行車位檢測,與傳統(tǒng)檢測的算法相比,其結(jié)果更加準(zhǔn)確,能夠大幅度減少漏檢與誤減次數(shù)。但其自身還存在不足之處,當(dāng)采集樣本數(shù)量過少時,卷積神經(jīng)網(wǎng)絡(luò)將會因為在訓(xùn)練中的多樣性不足而導(dǎo)致在實際使用時出現(xiàn)無法識別的現(xiàn)象。為此,如何用較少的樣本數(shù)量來保證足夠的訓(xùn)練量仍然是亟須解決的問題,在后續(xù)過程中,將會在優(yōu)化算法方面展開進一步研究。
[參考文獻]
[1]王海.基于激光雷達的自動泊車環(huán)境感知技術(shù)研究[D].大連:大連理工大學(xué),2013.
[2]PARK W J,KIM B S,SEO D E,et al.Parking space detection using ultrasonic sensor in parking assistance system[C].Threshold:Intelligent Vehicles Symposium IEEE,2008.
[3]陳奮.基于機器視覺的自動泊車技術(shù)的研究[D].成都:電子科技大學(xué),2016.
[4]夏青,譚樹人,婁靜濤,等.魚眼相機等效焦距三點標(biāo)定法[J].光電子.激光,2013(6):1133-1137.
[5]李顥,楊明.基于非線性逆透視變換的攝像機畸變參數(shù)標(biāo)定[J].上海交通大學(xué)學(xué)報,2008(10):1736-1739.
[6]劉鵬,王敏.基于改進加權(quán)融合算法的運動場景圖像拼接[J].信息技術(shù),2014(12):177-180.
[7]王彥,吳俊敏,鄭煥鑫.廣義霍夫變換在多目標(biāo)檢測領(lǐng)域的應(yīng)用及優(yōu)化[J].計算機工程與應(yīng)用,2016(17):203-207.
[8]王賽.基于顏色的圖像識別技術(shù)及其應(yīng)用研究[D].杭州:杭州電子科技大學(xué),2017.
[9]王恒歡.基于深度學(xué)習(xí)的圖像識別算法研究[D].北京:北京郵電大學(xué),2015.
Designed on an idea of parking space detection based on convolution neural
network in 360 look around system
Li Jinhui, Qian Xueliu, Zhu Junhui
(Jiangsu University, Zhenjiang 212013, China)
Abstract:In view of the limitation of vision in traditional vehicle vision system, this paper proposes a method of parking space detection based on convolution neural network in 360 look around system. In this system, four fisheye cameras are installed around the car body to obtain the environmental information of the car body, then the distortion correction and inverse perspective transformation are carried out on the pictures captured by the camera, and the panoramic view is generated by the splicing technology; on this basis, a new parking space detection method is envisaged, that is, the convolution neural network is used to detect and identify the panoramic view.
Key words:360 look around system; parking space detection; convolutional neural network