李海燕,常富蓉
(喀什大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆喀什 844000)
LI Hai-yan,CHANG Fu-rong
(School of Computer Sciences,Kashgar University,Kashgar 844000)
基于深度學(xué)習(xí)文字檢測(cè)的復(fù)雜環(huán)境車(chē)牌定位方法
李海燕,常富蓉
(喀什大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆喀什 844000)
機(jī)動(dòng)車(chē)車(chē)牌定位已經(jīng)成為智能交通、城市生活管理中不可缺少的一項(xiàng)技術(shù),目前定位設(shè)計(jì)方法多基于車(chē)牌形狀、顏色、邊緣等特征提出。文字也是車(chē)牌包含的重要特征信息之一,車(chē)牌識(shí)別的目標(biāo)是識(shí)別車(chē)牌中的文字符號(hào),從這一不同角度考慮,提出一種基于車(chē)牌文字特征檢測(cè)的車(chē)牌定位方法,該方法應(yīng)用深度學(xué)習(xí)技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)提取車(chē)牌文字特征,生成特征映射圖,作為定位車(chē)牌的重要依據(jù)。實(shí)驗(yàn)表明該方法不需要圖像預(yù)處理和復(fù)雜后續(xù)處理步驟,通用性和魯棒性較好,對(duì)復(fù)雜環(huán)境下多方向、多場(chǎng)景車(chē)牌定位效果良好。
車(chē)牌定位;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);復(fù)雜場(chǎng)景
機(jī)動(dòng)車(chē)車(chē)牌作為車(chē)輛主要識(shí)別標(biāo)志之一,在智能交通管理中發(fā)揮重要作用,車(chē)牌定位和識(shí)別也是近年來(lái)研究的熱點(diǎn)問(wèn)題。因?yàn)樘厥馐褂铆h(huán)境,車(chē)牌上的文字內(nèi)容在較窄范圍內(nèi),文字間尺度變化不大,獨(dú)立識(shí)別任務(wù)已經(jīng)取得較高準(zhǔn)確率[1],車(chē)牌定位直接影響車(chē)牌整體識(shí)別效果。已有車(chē)牌定位研究,多利用車(chē)牌顏色特征[2-3]、角點(diǎn)特征[4]、邊緣特征[5-6]等。在辨識(shí)度高、水平方向、環(huán)境影響小的前提下,車(chē)牌識(shí)別已成功應(yīng)用在停車(chē)場(chǎng)、檢查站管理中,但在惡劣天氣、拍攝角度不固定、背景復(fù)雜等眾多場(chǎng)景中,車(chē)牌定位和識(shí)別仍然是個(gè)難題[4-5,7]。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Net?work,CNN)在復(fù)雜場(chǎng)景下的圖像分類、目標(biāo)識(shí)別,場(chǎng)景分割等任務(wù)上,都取得令人矚目的成就。國(guó)內(nèi),將卷積神經(jīng)網(wǎng)絡(luò)方法應(yīng)用在車(chē)牌定位研究上也獲得較好的效果[4,8]。文獻(xiàn)[4]提出用7層全卷積的神經(jīng)網(wǎng)絡(luò)模型,尋找車(chē)牌左上角、右下角的角點(diǎn)特征,將兩點(diǎn)信息匹配合并得到車(chē)牌位置信息;文獻(xiàn)[8]選擇28×28的車(chē)牌候選區(qū),進(jìn)行灰度化和二值化處理后,送入兩層卷積神經(jīng)網(wǎng)絡(luò)的分類器,判斷輸入圖像是否車(chē)牌。直觀上,文字也是車(chē)牌包含的一項(xiàng)重要特征信息,我國(guó)現(xiàn)行民用車(chē)牌為92式車(chē)牌,包括中文字符、英文字符和數(shù)字等。車(chē)牌識(shí)別目標(biāo)最終還是識(shí)別文字信息,車(chē)牌定位常見(jiàn)的去鉚釘、去邊框等操作,都是為了去除檢測(cè)結(jié)果對(duì)識(shí)別文字的干擾。本文從這一新角度出發(fā),利用CNN在特征學(xué)習(xí)方面的優(yōu)勢(shì),提取車(chē)牌文字特征,作為車(chē)牌定位的重要參考信息,同時(shí)通過(guò)CNN過(guò)濾復(fù)雜場(chǎng)景下大量非文字干擾信號(hào),大大減少定位過(guò)程圖像預(yù)處理和后續(xù)處理步驟。
20世紀(jì)80年代,F(xiàn)ukushima提出了神經(jīng)認(rèn)知機(jī)[9],是一個(gè)層次性結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)節(jié)點(diǎn)局部連接,被看做是卷積神經(jīng)網(wǎng)絡(luò)的最初實(shí)現(xiàn)。此后,LeCun等將反向傳播算法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),在手寫(xiě)數(shù)字的識(shí)別[10]方面取得當(dāng)時(shí)最好結(jié)果。近年,深層卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)等多方面。
圖像輸入卷積層,由卷積核提取圖像局部特征信息,卷積核參數(shù)初始化可設(shè)為隨機(jī)值。提取到圖像局部特征后,即卷積核參數(shù)確定,卷積核在圖像上類似滑動(dòng)窗口的移動(dòng),對(duì)其余位置使用同樣局部特征做卷積運(yùn)算,得到整張圖像對(duì)這一特征的映射值,如圖1(a),輸入圖像假設(shè)為5×5大小,經(jīng)一層卷積核為3×3的卷積層(conv_1)計(jì)算,生成3×3大小特征映射圖,再經(jīng)第二層卷積核為3×3的卷積層(conv_2),生成1×1大小特征映射圖。通過(guò)使用不同的卷積核,反復(fù)這一過(guò)程,提取圖像不同局部特征,產(chǎn)生多個(gè)特征映射圖。卷積核的大小決定了特征的局部學(xué)習(xí)范圍,也叫感受野,卷積核常設(shè)為正方形,如大小為3×3,5×5,即計(jì)算 3×3,5×5像素塊內(nèi)局部特征,重疊多個(gè)尺寸小的卷積核對(duì)應(yīng)到原始圖像上能獲取較大感受野,提取到較大范圍內(nèi)局部特征。因?yàn)樘崛【植刻卣骱?,網(wǎng)絡(luò)使用相同卷積核參數(shù)作用在整個(gè)圖像上,實(shí)現(xiàn)特征共享,大大減少了網(wǎng)絡(luò)參數(shù)。
圖1 卷積層(a)、池化層(b)數(shù)據(jù)處理示意圖
卷積神經(jīng)網(wǎng)絡(luò)計(jì)算卷積,是不斷從訓(xùn)練圖像中學(xué)習(xí)局部特征的過(guò)程,疊加卷積層,例如圖1(a)疊加兩層卷積層,相當(dāng)于再抽象學(xué)習(xí)圖像高一級(jí)特征,參數(shù)設(shè)置沒(méi)有人工參與,學(xué)習(xí)過(guò)程相對(duì)穩(wěn)定。而且卷積核數(shù)目眾多,疊加層數(shù)足夠多時(shí),卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到手工設(shè)計(jì)特征無(wú)法描述的圖像特征,因此具有強(qiáng)大提取圖像特征能力。
經(jīng)卷積層計(jì)算得圖像所有特征映射圖,為提取到圖像盡可能多的特征,一般網(wǎng)絡(luò)設(shè)計(jì)卷積核數(shù)量較多,所以特征映射圖數(shù)據(jù)量大,直接計(jì)算導(dǎo)致空間、時(shí)間復(fù)雜度很大。另外,卷積核設(shè)計(jì)尺寸相比較于圖像非常的小,以保證局部特征提取全面,這一設(shè)計(jì)也容易導(dǎo)致網(wǎng)絡(luò)訓(xùn)練結(jié)果過(guò)擬合。因此,常對(duì)圖像局部區(qū)域特征使用最大化、平均化聚合操作,即降采樣,稱為池化,見(jiàn)圖 1(b),輸入 4×4大小的圖像,經(jīng)過(guò)第一池化層(pool?ing_1),池化因子 2×2,保留 2×2大小圖像,若連續(xù)池化,再經(jīng)2×2的第二池化層(pooling_2),最終保留 1×1大小圖像。一般池化層連接在卷積層后,池化層保留的信息即圖像部分局部特征,帶來(lái)輸出尺寸減小、網(wǎng)絡(luò)位移不變性、縮放不變性增加等諸多優(yōu)點(diǎn)。上采樣也稱反卷積,是池化操作反過(guò)程,常用作增大圖像尺寸。
為盡可能多地保留原始圖像信息,本文方法不對(duì)輸入圖像做大量預(yù)處理操作,例如常見(jiàn)的去噪聲、歸一化、灰度化等,實(shí)驗(yàn)訓(xùn)練階段卷積神經(jīng)網(wǎng)絡(luò)輸入圖像學(xué)習(xí)車(chē)牌特征,測(cè)試階段,車(chē)牌圖像送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生特征映射圖,根據(jù)映射值確認(rèn)文字位置,反卷積恢復(fù)至原圖像尺寸,二值化處理并結(jié)合車(chē)牌形狀特征,定位車(chē)牌位置,實(shí)驗(yàn)流程如圖2所示:
早期圖像處理技術(shù)中,淺層神經(jīng)網(wǎng)絡(luò)提取圖像簡(jiǎn)單特征,近年來(lái),深度學(xué)習(xí)技術(shù)的發(fā)展,使得深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練越來(lái)越成熟,可以提取圖像高級(jí)特征。本文實(shí)驗(yàn)采用VGG16卷積網(wǎng)絡(luò)結(jié)構(gòu)[11]為基礎(chǔ),VGG16網(wǎng)絡(luò)包含有13個(gè)卷積層,5個(gè)池化層,交替組合設(shè)計(jì),有利于提取圖像文字高層抽象特征。圖3中以池化層為間隔分2-3個(gè)卷積層為一組,每組內(nèi)卷積核數(shù)量一樣,從左到右依次為64,128,256,512,512。網(wǎng)絡(luò)卷積核大小一致,方形3×3,參數(shù)均從訓(xùn)練數(shù)據(jù)中獲得。
如圖 3,輸入圖像 224×224,經(jīng)過(guò) 64個(gè) 3×3卷積核,學(xué)習(xí)得 64×224×224特征映射圖,送入 2×2最大池化層,輸出64×112×112特征映射圖,依次經(jīng)后續(xù)卷積層,在第5層池化層得到512×14×14特征映射圖,網(wǎng)絡(luò)各層參數(shù)設(shè)計(jì)詳見(jiàn)圖3。至此,獲得定位車(chē)牌定位所需文字特征映射值,試驗(yàn)未采用VGG16網(wǎng)絡(luò)模型的后續(xù)處理層。
圖2 車(chē)牌定位實(shí)驗(yàn)流程圖
圖3 車(chē)牌定位卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
卷積神經(jīng)網(wǎng)絡(luò)提取特征具體步驟見(jiàn)2.1部分,網(wǎng)絡(luò)訓(xùn)練過(guò)程需要大量已標(biāo)注車(chē)牌數(shù)據(jù),目前國(guó)內(nèi)還沒(méi)有公開(kāi)的車(chē)牌數(shù)據(jù)集。文獻(xiàn)[4]收集了45 000張包含車(chē)牌的卡口數(shù)據(jù)和監(jiān)控?cái)z像數(shù)據(jù),進(jìn)行人工標(biāo)注車(chē)牌角點(diǎn)信息,經(jīng)平移、縮放、旋轉(zhuǎn)、添加噪聲、去噪聲等操作,擴(kuò)展到100 000張作為卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),標(biāo)注車(chē)牌數(shù)據(jù)準(zhǔn)備困難,工作量大,成本高。
我國(guó)車(chē)牌文字分為三部分:一位表示省、直轄市的漢字,一位表示車(chē)輛所在地市一級(jí)代碼的英文字符,和五位英文字符、阿拉伯?dāng)?shù)字混排組合??紤]本文使用車(chē)牌文字特征定位車(chē)牌,實(shí)驗(yàn)使用三個(gè)公開(kāi)文字?jǐn)?shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),提取文字特征,包括一個(gè)英文單詞數(shù)據(jù)集,一個(gè)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,和一個(gè)包含英文、中文字符的數(shù)據(jù)集,分別是:ICDAR13(International Conference on Document Analysis and Recognition 2013),MNIST(Mixed?National Institute of Standards and Technology?Database),MSTR-TD500(MSRA Text Detection 500 Da?tabase),數(shù)據(jù)集信息如下表1所示,訓(xùn)練數(shù)據(jù)涵蓋了我國(guó)標(biāo)準(zhǔn)車(chē)牌包含的漢字、英文、數(shù)字,有利于卷積神經(jīng)網(wǎng)絡(luò)提取車(chē)牌文字特征。
因國(guó)內(nèi)還未有公開(kāi)的車(chē)牌數(shù)據(jù)集,無(wú)法在統(tǒng)一平臺(tái)比較車(chē)牌定位各方法性能,給出定量精度指標(biāo)。實(shí)驗(yàn)測(cè)試圖像均來(lái)自網(wǎng)絡(luò)車(chē)牌圖像,除了車(chē)牌水平方向、清晰、簡(jiǎn)單背景外,還專門(mén)采集了傾斜角度大、分辨率低、背景包含樹(shù)木、人物、及多輛車(chē)等干擾信息的極端環(huán)境車(chē)牌圖像,驗(yàn)證本文方法有效性和魯棒性,實(shí)驗(yàn)前期沒(méi)有對(duì)輸入圖像進(jìn)行任何尺度變換、去噪聲等預(yù)處理,模擬多設(shè)備、多場(chǎng)景取得車(chē)牌圖像的應(yīng)用場(chǎng)景。
定位測(cè)試實(shí)驗(yàn)流程結(jié)果如圖4所示:測(cè)試圖片(圖4(a))進(jìn)入圖2訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),經(jīng)最后一個(gè)池化層后,生成特征映射圖,定位文字位置(圖4(b)),反卷積操作恢復(fù)至原始圖像大小,二值化(圖4(c)),根據(jù)車(chē)牌矩形、長(zhǎng)寬比范圍等信息,過(guò)濾干擾信息,最終確定車(chē)牌位置(圖 4(d)、(e))。
圖4 車(chē)牌定位測(cè)試實(shí)驗(yàn)流程結(jié)果圖
圖5第一行是原始車(chē)牌圖像,分別包括多車(chē)牌、多車(chē)輛、圖像模糊、車(chē)牌反光等多種復(fù)雜場(chǎng)景車(chē)牌,第二行是對(duì)應(yīng)圖像特征映射圖的二值化結(jié)果,車(chē)牌定位比較準(zhǔn)確,在干擾信息多的復(fù)雜背景,得益于卷積神經(jīng)網(wǎng)絡(luò)文字檢測(cè)優(yōu)勢(shì),在未對(duì)實(shí)驗(yàn)結(jié)果做過(guò)多約束、過(guò)濾情況下,依然得到良好定位效果,證明本文方法不存在手工設(shè)計(jì)特征局限性、環(huán)境適應(yīng)性差等缺點(diǎn)。圖5(a)多車(chē)牌重疊,造成形狀不規(guī)則,角點(diǎn)信息不明確等;圖5(b)是多車(chē)行駛中檢測(cè)結(jié)果;圖5(c)雨、霧等惡劣天氣使圖像模糊;圖5(d)車(chē)牌帶有明顯反光干擾,造成形狀特征不全,類似車(chē)牌遮擋情況,對(duì)基于邊緣檢測(cè)、角點(diǎn)檢測(cè)方法都是難點(diǎn)問(wèn)題。
圖5 多車(chē)牌、有干擾的復(fù)雜環(huán)境車(chē)牌定位
本文還進(jìn)行了算法通用性實(shí)驗(yàn),圖6挑選了有別于常規(guī)車(chē)牌位置、長(zhǎng)寬比、車(chē)身裝飾干擾、角度傾斜等多場(chǎng)景圖像,這些場(chǎng)景對(duì)常規(guī)定位方法都極具挑戰(zhàn)性。圖6(a)包含兩個(gè)車(chē)牌的特殊情況;圖6(b)是外國(guó)車(chē)牌,車(chē)牌形狀、文字排布都與我國(guó)車(chē)牌有較大差別;圖 6(c)、圖 6(d)包含有強(qiáng)邊緣特征干擾,且圖 6(d)車(chē)牌方向傾斜角度較大。實(shí)驗(yàn)結(jié)果表明極端情況下,本文實(shí)驗(yàn)車(chē)牌定位基本準(zhǔn)確,方法通用性好。
圖6 本文方法通用性實(shí)驗(yàn)結(jié)果
不受場(chǎng)地、光線限制的場(chǎng)景,也常導(dǎo)致車(chē)牌定位準(zhǔn)確率很低,圖7第一行車(chē)牌拍攝角度隨意、圖像亮度變化范圍廣,對(duì)顏色特征、邊緣特征為主的車(chē)牌定位方法干擾很大。圖7(a)場(chǎng)景車(chē)身反光嚴(yán)重,車(chē)牌處于較低角度,并且有傾斜角度;圖7(b)幾乎是在黑夜、光線極暗場(chǎng)景下,注意到圖7(c)場(chǎng)景地面包含很多方形圖案,對(duì)邊緣特征、角點(diǎn)特征提取會(huì)造成一定困難。圖7第二行特征映射圖的二值化結(jié)果也驗(yàn)證了本文方法具有魯棒性。
圖7 本文方法魯棒性實(shí)驗(yàn)結(jié)果
以上各極端場(chǎng)景實(shí)驗(yàn)結(jié)果直觀表明,本文基于車(chē)牌文字特征、利用卷積神經(jīng)網(wǎng)絡(luò)定位車(chē)牌方法,簡(jiǎn)單、有效,并有較強(qiáng)通用性和魯棒性。
智能交通、城市生活中車(chē)牌管理非常重要,機(jī)動(dòng)車(chē)車(chē)牌識(shí)別首先從檢測(cè)定位車(chē)牌開(kāi)始,車(chē)牌定位研究已有很多成熟方法。本文實(shí)驗(yàn)嘗試從不同于現(xiàn)有方法的角度,考慮車(chē)牌文字特征,利用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)車(chē)牌文字,實(shí)現(xiàn)車(chē)牌位置定位,后續(xù)操作步驟簡(jiǎn)單。實(shí)驗(yàn)測(cè)試圖片均來(lái)自網(wǎng)絡(luò),包括低分辨率、模糊、不同國(guó)家車(chē)牌、多車(chē)牌等極端場(chǎng)景,實(shí)驗(yàn)結(jié)果證明本文方法適應(yīng)性強(qiáng),在復(fù)雜場(chǎng)景下魯棒性能好。本文實(shí)驗(yàn)未考慮場(chǎng)景中存在文字干擾情況,需要增加過(guò)濾條件,保證車(chē)牌定位準(zhǔn)確。
[1]董峻妃,鄭伯川,楊澤靜.基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)牌字符識(shí)別[J].計(jì)算機(jī)應(yīng)用,2017,37(7):2014-2018.
[2]胡峰松,朱浩.基于HSI顏色空間和行掃描的車(chē)牌定位算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(4):977-982.
[3]孫紅,郭凱.融合字符紋理特征與RGB顏色特征的車(chē)牌定位[J].光電工程,2015,42(6):14-19+44.
[4]羅斌,郜偉,湯進(jìn),等.復(fù)雜環(huán)境下基于角點(diǎn)回歸的全卷積神經(jīng)網(wǎng)絡(luò)的車(chē)牌定位[J].數(shù)據(jù)采集與處理,2016,31(1):65-72.
[5]張杰,張兢,馮欣,等.復(fù)雜環(huán)境的車(chē)牌定位方法設(shè)計(jì)與實(shí)現(xiàn)[J].通信技術(shù),2017,50(6):1181-1187.
[6]鐘偉釗,杜志發(fā),徐小紅,等.基于字符邊緣點(diǎn)提取的車(chē)牌定位方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(3):795-800+813.
[7]李羊,曹玉東,劉艷洋.復(fù)雜背景下的快速車(chē)牌定位技術(shù)研究[J].遼寧工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,36(2):81-86.
[8]郭克友,賈海晶,郭曉麗.卷積神經(jīng)網(wǎng)絡(luò)在車(chē)牌分類器中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(14):209-213.
[9]Fukushima K,Miyake S.Neocognitron:A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position.Pattern Recognition[J],1982,15(6):455-469.
[10]LeCun Y,Boser B,Denker J S,et al.Handwritten Digit Recognition with a Back-Propagation Network[J].In:Proceedings of Advances in Neural Information Processing Systems 2.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990:396-404.
[11]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.
License Plate Location Based on Deep Learning Text Detection in Complicated Background
Locating license plate is the core part of intelligent transportation system in city life.The current methods almost base on the shape feature,the color feature,and the edge feature,etc.Attempts to try a different method,which takes into account the text itself as the feature of the li?cense plate.Thus,proposes a trained Convolution Neural Network(CNN)to locate the license plate with text detection in the license plate.The experiments demonstrate that the method has better performance in multi-orientation and complicated background.
License Plate Location;Convolution Neural Network;Deep Learning;Complicated Background
新疆維吾爾自治區(qū)高??蒲杏?jì)劃項(xiàng)目(No.XJEDU2017S043)、喀什大學(xué)科研課題項(xiàng)目((12)2436)
1007-1423(2017)33-0010-05
10.3969/j.issn.1007-1423.2017.33.003
李海燕(1982-),女,漢,河南開(kāi)封人,博士研究生,講師,研究方向?yàn)闄C(jī)器視覺(jué)、模式識(shí)別
常富蓉(1985-),女,漢,山西交城人,博士研究生,講師,研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)
2017-11-14
2017-11-20
LI Hai-yan,CHANG Fu-rong
(School of Computer Sciences,Kashgar University,Kashgar 844000)