陳萱 徐美佳 王文涵
摘要:基于物聯(lián)網(wǎng)與圖像識(shí)別技術(shù)的智能停車(chē)服務(wù)平臺(tái),采用區(qū)域已覆蓋的攝像頭對(duì)車(chē)位進(jìn)行圖像識(shí)別或增設(shè)地磁感應(yīng)設(shè)備以輕松獲取實(shí)時(shí)車(chē)位狀況,以實(shí)時(shí)服務(wù)器數(shù)據(jù)為依據(jù)制定停車(chē)方案。用戶(hù)在復(fù)雜環(huán)境尋找車(chē)輛時(shí),系統(tǒng)同樣提供了基于對(duì)地面停車(chē)號(hào)進(jìn)行文字識(shí)別的導(dǎo)航服務(wù),極大減少了尋車(chē)時(shí)間。系統(tǒng)集搜集、預(yù)定、找尋、預(yù)測(cè)車(chē)位服務(wù)一體化,在相當(dāng)大的程度上解決了停車(chē)難的社會(huì)問(wèn)題。
關(guān)鍵詞:智能停車(chē);圖像識(shí)別;文字識(shí)別;物聯(lián)網(wǎng);管理系統(tǒng)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)10-0187-03
1背景
居民汽車(chē)保有量迅速增長(zhǎng),停車(chē)泊位不足的問(wèn)題日益突出。新建的地下停車(chē)場(chǎng),常配有車(chē)位地磁傳感器,可精確檢測(cè)每個(gè)車(chē)位的占用情況。而老舊的大型地面停車(chē)區(qū)域,缺乏檢測(cè)傳感器,時(shí)常出現(xiàn)亂停亂放的情況。車(chē)主需占用主干道路不斷尋找空余車(chē)位,極易造成交通擁堵。若對(duì)每個(gè)車(chē)位部署傳感器,需要較高的資金成本。
我們將監(jiān)控與圖像識(shí)別技術(shù)結(jié)合,獲取停車(chē)場(chǎng)的監(jiān)控信息與感應(yīng)器產(chǎn)生的數(shù)據(jù),基于圖像識(shí)別技術(shù)產(chǎn)生相應(yīng)的判別結(jié)果,實(shí)時(shí)上傳車(chē)位信息。根據(jù)對(duì)車(chē)位信息的智能化判斷,引導(dǎo)用戶(hù)前往空閑停車(chē)場(chǎng)。當(dāng)用戶(hù)面對(duì)陌生復(fù)雜的停車(chē)場(chǎng)環(huán)境時(shí),通過(guò)掃描地面車(chē)位號(hào)碼,系統(tǒng)將自動(dòng)定位用戶(hù)并對(duì)用戶(hù)所泊車(chē)輛位置進(jìn)行導(dǎo)航。
2智能停車(chē)系統(tǒng)
傳統(tǒng)停車(chē)場(chǎng)系統(tǒng)存在無(wú)法實(shí)時(shí)提供位置信息、無(wú)法顯示空余車(chē)位及無(wú)法車(chē)位資源共享等問(wèn)題,智能化停車(chē)管理系統(tǒng)也必然會(huì)成為未來(lái)社會(huì)的必備設(shè)施。區(qū)別于只通過(guò)使用地磁傳感器、RFID讀卡器塒、攝像頭等進(jìn)行監(jiān)控檢測(cè),本文利用了基于圖像深度學(xué)習(xí)的停車(chē)位識(shí)別及查詢(xún)方法。圖像采集服務(wù)采集停車(chē)場(chǎng)圖像,圖像識(shí)別服務(wù)采用深度學(xué)習(xí)算法,對(duì)新采集的圖像進(jìn)行識(shí)別預(yù)測(cè),在服務(wù)查詢(xún)數(shù)據(jù)庫(kù)中獲取信息,根據(jù)空余車(chē)位的相對(duì)位置在車(chē)位平面圖標(biāo)注出空余車(chē)位。
3智能停車(chē)服務(wù)系統(tǒng)的開(kāi)發(fā)
3.1管理員端
管理員注冊(cè)并登錄后,可上傳自己需要管理的停車(chē)場(chǎng)相關(guān)信息、查看停車(chē)場(chǎng)地圖、查看停車(chē)場(chǎng)監(jiān)控、上傳停車(chē)場(chǎng)數(shù)據(jù)并設(shè)置監(jiān)測(cè)區(qū)域、查看自動(dòng)生成的停車(chē)場(chǎng)平面圖。
3.1.1停車(chē)場(chǎng)信息管理
管理員將所需管理的停車(chē)場(chǎng)有關(guān)信息上傳至系統(tǒng)數(shù)據(jù)庫(kù)中保存,并通過(guò)實(shí)時(shí)監(jiān)控和圖像識(shí)別技術(shù),對(duì)停車(chē)場(chǎng)的剩余車(chē)位信息進(jìn)行實(shí)時(shí)更新。
3.1.2停車(chē)場(chǎng)的實(shí)時(shí)監(jiān)控
管理員需將停車(chē)場(chǎng)攝像頭的IP、密碼及端口號(hào)錄入系統(tǒng)。此后可在系統(tǒng)中查看實(shí)時(shí)的監(jiān)控畫(huà)面,下載錄像和查看歷史記錄。
3.1.3停車(chē)場(chǎng)的車(chē)位信息
對(duì)于無(wú)框露天停車(chē)場(chǎng),管理員需上傳一張?jiān)撏\?chē)場(chǎng)的平面圖,并手動(dòng)勾勒可用車(chē)位邊緣,上傳車(chē)位信息。當(dāng)管理員進(jìn)行查詢(xún)時(shí),系統(tǒng)可根據(jù)預(yù)存的車(chē)位信息,進(jìn)行車(chē)位檢測(cè),并將結(jié)果生成該停車(chē)場(chǎng)的平面圖。
3.2小程序端
用戶(hù)可查詢(xún)某一停車(chē)場(chǎng)的空位信息和使用停車(chē)場(chǎng)導(dǎo)航,我們正在開(kāi)發(fā)模擬室內(nèi)導(dǎo)航功能。用戶(hù)在停車(chē)后,掃描車(chē)位前的字母,系統(tǒng)會(huì)記錄車(chē)位所在位置,也可通過(guò)室內(nèi)導(dǎo)航功能尋找自己已停放的車(chē)。
4算法描述
4.1基于VGGl6的圖像識(shí)別
圖像分類(lèi)識(shí)別是計(jì)算機(jī)視覺(jué)的一個(gè)應(yīng)用,其研究也是打開(kāi)視覺(jué)應(yīng)用大門(mén)的必經(jīng)之路。本文在現(xiàn)有的13層卷積的神經(jīng)網(wǎng)絡(luò)VGGl6模型和遷移學(xué)習(xí)技術(shù)的基礎(chǔ)上構(gòu)造了一個(gè)小規(guī)模的汽車(chē)分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)模型,將圖像特征向量作為輸入,圖像分類(lèi)結(jié)果作為深度學(xué)習(xí)算法的輸出,在樣本容量較小的情況下也取得了較好的成果。
VGGNet相比AlexNet采用連續(xù)的3x3的卷積核代替AlexNet中的較大卷積核。對(duì)于給定的感受野,采用堆積的小卷積核優(yōu)于大的卷積核,因?yàn)槎鄬臃蔷€性層可以用更小的代價(jià)來(lái)增加網(wǎng)絡(luò)深度來(lái)保證學(xué)習(xí)更復(fù)雜的模式。在VGGl6中使用3個(gè)3x3卷積核來(lái)代替7x7卷積核,使用2個(gè)3x3卷積核來(lái)代替5x5卷積核,在保證具有相同感知野的條件下,提升了網(wǎng)絡(luò)的深度,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果。參數(shù)數(shù)量由49xC2減少到27xC2(C指的是輸入和輸出的通道數(shù)),且小卷積核更好地保持圖像性質(zhì),提高了神經(jīng)網(wǎng)絡(luò)模型的性能。
4.2模型結(jié)構(gòu)
VGG16是基于大量真實(shí)圖像的ImageNet圖像庫(kù)預(yù)訓(xùn)練的網(wǎng)絡(luò)。我們將學(xué)習(xí)好的VGGl6的權(quán)重遷移到自己的卷積神經(jīng)網(wǎng)絡(luò)上作為網(wǎng)絡(luò)的初始權(quán)重,避免從頭開(kāi)始從大量的數(shù)據(jù)里面訓(xùn)練,顯著提高訓(xùn)練速度和模型精度。此外我們又添加了兩層Dense層,用于進(jìn)一步對(duì)汽車(chē)的特征進(jìn)行學(xué)習(xí),最后Softmax層用于輸出分類(lèi)結(jié)果。
模型中使用了RELU修正線性單元作為激活函數(shù),相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)激活函數(shù),能夠更有效地梯度下降以及反向傳播,避免梯度爆炸和梯度消失的問(wèn)題。同時(shí)用RELU替代復(fù)雜的指數(shù)函數(shù),也簡(jiǎn)化了計(jì)算過(guò)程。
4.3實(shí)時(shí)獲取車(chē)位信息
構(gòu)建該車(chē)位檢測(cè)模型主要有兩個(gè)步驟:
1)從前端獲取待檢測(cè)區(qū)域信息;
2)使用我們預(yù)訓(xùn)練的模型檢測(cè)每個(gè)停車(chē)位,并預(yù)測(cè)是否有人停車(chē)。
通過(guò)使用旋轉(zhuǎn)、對(duì)稱(chēng)等方式來(lái)擴(kuò)充數(shù)據(jù)集,將數(shù)據(jù)分成15批,訓(xùn)練后得到的模型準(zhǔn)確率達(dá)到94%,如圖2:我們對(duì)學(xué)院樓下停車(chē)位進(jìn)行了實(shí)地檢測(cè),結(jié)果如圖3:
5自然場(chǎng)景文字檢測(cè)及識(shí)別
5.1自然場(chǎng)景下文字識(shí)別
場(chǎng)景圖像中的文本區(qū)域與通用物體不同,不僅具有更多的尺度,而且可以分布在圖像的任意區(qū)域,容易受類(lèi)似文字的背景的干擾。本文針對(duì)以上問(wèn)題,結(jié)合深度學(xué)習(xí)的相關(guān)技術(shù),使用YOLO模型進(jìn)行文本定位,在定位的文本上使用CRNN+CTC模型進(jìn)行文字識(shí)別,解決了在自然場(chǎng)景下對(duì)停車(chē)位上相關(guān)文字進(jìn)行識(shí)別的難題。
5.2文本定位模型
YOLOv3是到目前為止,速度和精度最均衡的目標(biāo)檢測(cè)網(wǎng)絡(luò)。通過(guò)多種先進(jìn)方法的融合,避免了YOLO系列不擅長(zhǎng)檢測(cè)小物體的問(wèn)題。
5.2.1多標(biāo)簽分類(lèi)預(yù)測(cè)
YOLO中使用邏輯回歸預(yù)測(cè)每個(gè)邊界框的對(duì)象分?jǐn)?shù)。與YOLOv2不同,我們的系統(tǒng)只為每個(gè)ground truth對(duì)象分配一個(gè)邊界框。如果先前的邊界框未分配給grounding box對(duì)象,則不會(huì)對(duì)坐標(biāo)或類(lèi)別預(yù)測(cè)造成損失。每個(gè)框使用多標(biāo)簽分類(lèi)來(lái)預(yù)測(cè)邊界框可能包含的類(lèi)。在訓(xùn)練過(guò)程中,我們使用二元交叉熵?fù)p失來(lái)進(jìn)行類(lèi)別預(yù)測(cè)。對(duì)于重疊的標(biāo)簽,多標(biāo)簽方法可以更好地模擬數(shù)據(jù)。
5.2.2跨尺度預(yù)測(cè)
YOLOv3采用多個(gè)尺度融合的方式做預(yù)測(cè)。采用類(lèi)似FPN的上采樣和融合做法,在多個(gè)規(guī)模的特征圖上做檢測(cè),對(duì)于小目標(biāo)的檢測(cè)效果提升較為明顯。由于采用了多尺度的特征融合,所以邊界框的數(shù)量大幅增多。
5.2.3網(wǎng)絡(luò)結(jié)構(gòu)改變
使用新的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征提取。相比于Darknet-19中添加殘差網(wǎng)絡(luò)的混合方式,將其擴(kuò)充為53層并稱(chēng)之為Darknet-53。其浮點(diǎn)運(yùn)算少,速度快,可實(shí)現(xiàn)每秒最高的測(cè)量浮點(diǎn)運(yùn)算和更好地利用GPU進(jìn)行有效評(píng)估。
5.3文本識(shí)別模型
CRNN(Convolutional Recurrent Neural Network)是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò),用于解決基于圖像的序列識(shí)別,如場(chǎng)景文字識(shí)別問(wèn)題。
網(wǎng)絡(luò)結(jié)構(gòu)包含三部分,從下到上為:
1)卷積層。作用是從輸入圖像中提取特征序列。由標(biāo)準(zhǔn)的CNN模型中的卷積層和最大池化層組成。
2)循環(huán)層。由一個(gè)雙向LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,循環(huán)層的誤差被反向傳播,最后會(huì)轉(zhuǎn)換成特征序列,再把特征序列反饋到卷積層,這個(gè)轉(zhuǎn)換操作由自定義網(wǎng)絡(luò)層完成,作為卷積層和循環(huán)層之間連接的橋梁。
3)轉(zhuǎn)錄層。在雙向LSTM網(wǎng)絡(luò)的最后連接上CTC模型,做到端對(duì)端的識(shí)別。所有樣本點(diǎn)的概率傳輸給CTC模型后,輸出最可能的標(biāo)簽,再經(jīng)過(guò)去除空格和去重操作,可得到最終的序列標(biāo)簽。
5.4基于yolov3和CRNN實(shí)現(xiàn)文字識(shí)別
構(gòu)建該檢測(cè)模型主要步驟:
1)文字檢測(cè):首先檢測(cè)方向,基于圖像分類(lèi),在VGGl6模型的基礎(chǔ)上,遷移訓(xùn)練0、90、180、270度的文字方向分類(lèi)模型,訓(xùn)練圖片100000張,準(zhǔn)確率95.10%。yolo文字訓(xùn)練和其他對(duì)象檢測(cè)訓(xùn)練方式類(lèi)似,唯一不同的是,后續(xù)有一個(gè)box聚類(lèi),原理參考了CTPN相關(guān)代碼。
2)文本識(shí)別:CRNN+CTC訓(xùn)練就是支持不定長(zhǎng)識(shí)別,首先CNN提取圖像卷積特征,然后LSTM進(jìn)一步提取圖像卷積特征中的序列特征,最后引入CTC解決訓(xùn)練時(shí)字符無(wú)法對(duì)齊的問(wèn)題。
我們用模型對(duì)實(shí)驗(yàn)室的門(mén)牌做了測(cè)試,結(jié)果如圖5。
6結(jié)束語(yǔ)
針對(duì)現(xiàn)代社會(huì)停車(chē)難問(wèn)題,本文利用基于VGGl6的卷積神經(jīng)網(wǎng)絡(luò),快速對(duì)停車(chē)場(chǎng)內(nèi)車(chē)輛及可用停車(chē)位數(shù)量等信息進(jìn)行獲取,并實(shí)時(shí)將信息傳至服務(wù)器,同步至客戶(hù)端,使用戶(hù)可遠(yuǎn)程獲知附近停車(chē)場(chǎng)當(dāng)前車(chē)位狀況。利用深度學(xué)習(xí)技術(shù)對(duì)車(chē)牌的自動(dòng)識(shí)別實(shí)現(xiàn)了車(chē)輛管理的自動(dòng)化,可降低停車(chē)場(chǎng)運(yùn)營(yíng)成本。通過(guò)多種技術(shù)整合,解決了停車(chē)場(chǎng)的管理和用戶(hù)的停車(chē)難題,提升了用戶(hù)的出行體驗(yàn),既具有創(chuàng)新性又有很強(qiáng)的實(shí)用價(jià)值。