孟凡俊,尹 東*
基于神經(jīng)網(wǎng)絡(luò)的車輛識(shí)別代號(hào)識(shí)別方法
孟凡俊1,2,尹 東1,2*
1中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027;2中國(guó)科學(xué)院電磁空間信息重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230027
在車輛識(shí)別和車輛年檢時(shí),正確識(shí)別車架上金屬刻印的車輛識(shí)別代號(hào)(VIN)是非常重要的環(huán)節(jié)。針對(duì)VIN序列,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)VIN圖片識(shí)別方法,它由VIN檢測(cè)和VIN識(shí)別兩部分組成。首先,在EAST算法基礎(chǔ)上利用輕量級(jí)神經(jīng)網(wǎng)絡(luò)提取特征,并結(jié)合文本分割實(shí)現(xiàn)快速、準(zhǔn)確的VIN檢測(cè);其次,將VIN識(shí)別任務(wù)作為一個(gè)序列分類問題,提出了一種新的識(shí)別VIN方法,即通過位置相關(guān)的序列分類器,預(yù)測(cè)出最終的車輛識(shí)別代號(hào)。為了驗(yàn)證本文的識(shí)別方法,引入了一個(gè)VIN數(shù)據(jù)集,其中包含用于檢測(cè)的原始旋轉(zhuǎn)VIN圖像和用于識(shí)別的水平VIN圖像。實(shí)驗(yàn)結(jié)果表明,本文方法能有效地識(shí)別車架VIN 圖片,同時(shí)達(dá)到了實(shí)時(shí)性。
車輛識(shí)別代號(hào);神經(jīng)網(wǎng)絡(luò);文本分割;機(jī)器視覺
車輛識(shí)別代號(hào),也叫車架號(hào),是汽車廠商為了識(shí)別一輛車而給車指定的一組號(hào)碼。由于車架上金屬刻印的車架號(hào)具有全球唯一性,同時(shí)不易篡改,因此在車輛年檢和車輛身份識(shí)別中具有重要的意義。
近年來,圖像文本識(shí)別取得了突飛猛進(jìn)的發(fā)展,許多公司已經(jīng)開發(fā)了用于文檔文本圖像的光學(xué)字符識(shí)別(OCR)[1-2]系統(tǒng)。這些OCR技術(shù)多應(yīng)用于掃描圖像識(shí)別,而且有很高的正確率,但是這種文本檢測(cè)和識(shí)別方法只適用于限定的掃描圖像識(shí)別的場(chǎng)景,這種場(chǎng)景下圖像背景單一,文字黑色,紙張白色,而且文字幾乎水平排列,同時(shí)文字前景和背景有很明顯的區(qū)分度,給文字檢測(cè)和識(shí)別帶來很大的便利性,但是OCR系統(tǒng)識(shí)別速度慢,難以滿足實(shí)時(shí)性處理任務(wù)的需要。本文研究的車輛識(shí)別代號(hào)圖像如圖1所示,顯然車架上的車輛識(shí)別代號(hào)圖像的背景更為復(fù)雜多樣,文字序列方向不固定,為任意方向角度,而且字體大小、顏色、對(duì)比度都有很大變化,跟普通的印刷體文本差距很大。VIN圖片的文字部分跟背景的顏色難以區(qū)分,不像普通的文本有很高的辨識(shí)度,使得文字的定位變得很復(fù)雜,普通的OCR技術(shù)難以檢測(cè)和識(shí)別這種字體。
隨著深度學(xué)習(xí)的興起,基于神經(jīng)網(wǎng)絡(luò)的文字識(shí)別方法也層出不窮。神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用到了圖像中的很多領(lǐng)域,例如圖像分類、目標(biāo)檢測(cè)、目標(biāo)跟蹤等。本文基于神經(jīng)網(wǎng)絡(luò),提出了一種復(fù)雜場(chǎng)景下的車輛識(shí)別代號(hào)的圖像識(shí)別方法。首先利用輕量級(jí)神經(jīng)網(wǎng)絡(luò)提取特征,結(jié)合像素級(jí)的文本分割實(shí)現(xiàn)了快速而準(zhǔn)確的VIN檢測(cè),快速定位任意角度任意背景下的VIN文字,滿足實(shí)時(shí)性的需要。其次,在檢測(cè)的基礎(chǔ)上,面對(duì)復(fù)雜背景,結(jié)合序列分類器實(shí)現(xiàn)對(duì)VIN文字的識(shí)別,不僅速度快而且準(zhǔn)確度高。最后,采用的是基于深度學(xué)習(xí)的方法,這種方法依賴于大量的訓(xùn)練數(shù)據(jù)集,雖然關(guān)于文字識(shí)別的數(shù)據(jù)集很多,但是由于這些數(shù)據(jù)集跟我們的VIN圖片存在巨大的特征分布差異,因此也手動(dòng)采集了一個(gè)新的VIN數(shù)據(jù)集用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
文本的識(shí)別通常分為文本檢測(cè)和文本識(shí)別兩個(gè)步驟。文本檢測(cè)的目的是在有邊框或多邊形的圖像中定位單詞或文本行,而文本識(shí)別則是在定位后從規(guī)則裁剪的文本區(qū)域中識(shí)別出文字。過去許多年出現(xiàn)了很多優(yōu)秀的文本檢測(cè)和識(shí)別的方法,在文本識(shí)別的精度和速度上有了很大的提升。同時(shí)隨著深度學(xué)習(xí)的興起,很多基于神經(jīng)網(wǎng)絡(luò)的文字識(shí)別算法涌現(xiàn)出來。
隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)、圖像分割、跟蹤以及人體姿態(tài)估計(jì)等計(jì)算機(jī)視覺任務(wù)中變得越來越重要。在所有這些領(lǐng)域中,深度卷積神經(jīng)網(wǎng)絡(luò)是從大量的圖像中自動(dòng)學(xué)習(xí)深度特征,這跟之前的很多方法有很大的區(qū)別。為了正確地分類圖像,VGGNet[3]用來加深卷積神經(jīng)網(wǎng)絡(luò)的深度,在目標(biāo)檢測(cè)和圖像分類方面取得了較好的性能。當(dāng)網(wǎng)絡(luò)越深入,網(wǎng)絡(luò)越難訓(xùn)練,越難收斂,ResNet[4]采用殘差塊連接不同層次的神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí),進(jìn)一步提高了神經(jīng)網(wǎng)絡(luò)性能。
圖1 復(fù)雜背景以及任意角度方向的車輛識(shí)別代號(hào)圖片
傳統(tǒng)的文本檢測(cè)方法主要是兩種:基于連通域分析的方法和基于滑動(dòng)檢測(cè)窗的方法。這些方法首先獲得文本候選區(qū)域,然后采用手工設(shè)計(jì)的特征對(duì)候選區(qū)域分析,提取文本定位。其中,基于連通域的方法,例如MSER[5-7]、SWT[8]等采用自底向上的方法,從邊緣以及像素的角度出發(fā),最后連接在一起。在論文[9]中對(duì)圖像使用直方圖均衡化和二值化處理結(jié)合,連通域分析找出字符區(qū)域。而基于滑動(dòng)檢測(cè)窗[10-11]的方法自頂向下利用滑動(dòng)檢測(cè)窗的方式對(duì)整幅圖像進(jìn)行掃描,獲得候選區(qū)域。
由于手工設(shè)計(jì)特征的分類能力不足,隨著深度學(xué)習(xí)的興起,近些年出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)的文本檢測(cè)方法,這些方法通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和深度特征,從而快速而有效地檢測(cè)圖像中的文本?;谏疃葘W(xué)習(xí)的文本檢測(cè)方法主要包括基于區(qū)域建議的方法和基于分割的方法?;趨^(qū)域建議方法一般遵循目標(biāo)檢測(cè)的框架,例如CTPN[12]的方法在Faster RCNN[13]基礎(chǔ)上采用了豎直的小的錨點(diǎn)框去預(yù)測(cè)連續(xù)的文本區(qū)域,最后連接在一起;TextBoxes[14]采用修改SSD[15]目標(biāo)檢測(cè)框架中錨點(diǎn)框的大小和長(zhǎng)寬比,同時(shí)修改了卷積核的大小來檢測(cè)水平文本,取得了不錯(cuò)的效果;TextBoxes++[16]進(jìn)一步擴(kuò)展了文本框的文本檢測(cè)性能,實(shí)現(xiàn)了對(duì)旋轉(zhuǎn)文本的檢測(cè);SegLink[17]基于SSD檢測(cè)框架,同時(shí)預(yù)測(cè)文本片段和文本連接關(guān)系,并在網(wǎng)絡(luò)中加入角度信息,對(duì)任意角度的文本進(jìn)行檢測(cè);RRPN[18]在Faster RCNN基礎(chǔ)上添加了旋轉(zhuǎn)角度的錨點(diǎn)框,以解決檢測(cè)任意角度文本的問題。同樣,近年來也出現(xiàn)了許多基于圖像分割的文本檢測(cè)方法,圖像分割試圖在像素級(jí)基礎(chǔ)上對(duì)每一個(gè)像素分配一個(gè)標(biāo)簽以實(shí)現(xiàn)分割不同區(qū)域。EAST[19]將FCN[20]網(wǎng)絡(luò)方法與像素分割相結(jié)合,直接預(yù)測(cè)文本的邊界;PixelLink[21]采用了一種新的文本檢測(cè)方法,它可以預(yù)測(cè)像素是否屬于文本,以及文本像素之間的連接,將同一實(shí)例中的像素連接起來,分離不同的文本實(shí)例,然后直接從分割結(jié)果中提取文本框。
以前的很多文字識(shí)別方法首先檢測(cè)文本行中的每個(gè)字符,然后將每個(gè)字符單獨(dú)分割,最后通過自下而上的拼裝方法將字符組合成一個(gè)單詞或句子。近些年來,隨著深度學(xué)習(xí)的興起,逐漸將文本識(shí)別看作一個(gè)序列化識(shí)別的問題。CRNN[22]將文本識(shí)別作為一個(gè)序列識(shí)別問題,首先利用深度卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,然后學(xué)習(xí)文本的空間上下文信息,最后利用CTC層[23]對(duì)文本序列進(jìn)行解碼;論文[24]提出了一種基于注意力機(jī)制的序列到序列框架來識(shí)別文本。通過這種方式,神經(jīng)網(wǎng)絡(luò)能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)隱藏在字串中的字符級(jí)語言模型。
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)VIN圖片識(shí)別方法。整體框架如圖2所示。
受到之前發(fā)布的目標(biāo)檢測(cè)和文本檢測(cè)論文方法的啟發(fā),本文在EAST的算法上采用MobileNet[25]作為基礎(chǔ)網(wǎng)絡(luò),這是一種輕量級(jí)的網(wǎng)絡(luò),使得在性能損失很少的情況下推理速度加快,模型參數(shù)更少,能滿足識(shí)別任務(wù)的實(shí)時(shí)性要求。為了檢測(cè)不同大小和比例的VIN圖片,采用與特征金字塔網(wǎng)絡(luò)(FPN)[26]相似的方法,將低級(jí)特征圖和高級(jí)語義特征圖連接起來。FPN是一種能夠提取多尺度特征圖進(jìn)行融合的特征提取網(wǎng)絡(luò),從而提高了檢測(cè)性能。同時(shí),本文通過將由下而上的網(wǎng)絡(luò)橫向連接來學(xué)習(xí)一個(gè)金字塔型強(qiáng)語義特征,如圖3所示。
圖2 基于神經(jīng)網(wǎng)絡(luò)的VIN識(shí)別框架
為了實(shí)現(xiàn)更精細(xì)化的文字區(qū)域預(yù)測(cè),在卷積神經(jīng)網(wǎng)絡(luò)抽取輸入圖片特征之后,全卷積網(wǎng)絡(luò)FCN在最后一層卷積層上實(shí)現(xiàn)像素級(jí)的預(yù)測(cè)。全卷積網(wǎng)絡(luò)是一種用于圖像語義分割的網(wǎng)絡(luò),這種網(wǎng)絡(luò)實(shí)現(xiàn)像素級(jí)的目標(biāo)分割,同時(shí)不受圖片輸入大小的限制。
文字檢測(cè)可以作為一個(gè)二元分類問題。在最終的預(yù)測(cè)結(jié)果中,如圖4所示,輸出層的一個(gè)通道1輸出預(yù)測(cè)的像素在文本區(qū)域內(nèi)的概率,同時(shí)設(shè)置一個(gè)閾值來濾除可能位于背景區(qū)域內(nèi)的概率較低的像素。對(duì)于預(yù)測(cè)在文本區(qū)域內(nèi)的每個(gè)像素,有4個(gè)通道2,3,4,5輸出預(yù)測(cè)的該像素到文本段四條邊的距離。最后,還有一個(gè)通道6輸出預(yù)測(cè)的傾斜文本區(qū)域內(nèi)的方向。
VIN檢測(cè)模型損失函數(shù)包括VIN文本分類損失和VIN邊界計(jì)算損失。由于VIN文本與背景像素分布不平衡,背景像素遠(yuǎn)遠(yuǎn)大于文本像素,故采用dice[27]系數(shù)來計(jì)算VIN文本分類損失,dice系數(shù)公式為
其中:通道1為預(yù)測(cè)的像素在文本區(qū)域內(nèi)的概率,為訓(xùn)練時(shí)圖片中VIN文本區(qū)域的真實(shí)標(biāo)簽。
VIN檢測(cè)模型邊界損失函數(shù)包括傾斜角度損失和邊界框回歸損失,如式(2)~式(4)所示:
考慮到文本在圖像中的任意方向,首先檢測(cè)圖像中的文本,然后將文本旋轉(zhuǎn)到水平位置后將文本區(qū)域裁剪出來,進(jìn)行下一步的識(shí)別。
受到CRNN的啟發(fā),本文采用了一種新的VIN識(shí)別方法,即把VIN的識(shí)別當(dāng)作序列相關(guān)的分類,同時(shí)直接忽略不想識(shí)別的其他邊緣字符,例如有的VIN圖片中含“*”等不相關(guān)字符,如圖5(a)所示。由于VIN的固定長(zhǎng)度為17位字符,在輸出端設(shè)置17個(gè)分類器,輸入網(wǎng)絡(luò)的圖像的大小固定為400×40,提取特征后得到輸入大小的1/16的特征圖。圖5(b)展示了用于VIN特征提取的主干網(wǎng)絡(luò)結(jié)構(gòu)VGGNet,3×3卷積核用于提取圖片特征,Maxpool層是一個(gè)特征池化層,主要目的是2倍下采樣,本文中網(wǎng)絡(luò)在下采樣時(shí)采用向下取整。接下來,計(jì)算VIN識(shí)別網(wǎng)絡(luò)的損失函數(shù)如式(5)、式(6)所示:
圖3 VIN檢測(cè)網(wǎng)絡(luò)基本框架
圖4 VIN 檢測(cè)網(wǎng)絡(luò)中的后處理以及輸出
在訓(xùn)練VIN檢測(cè)網(wǎng)絡(luò)時(shí),對(duì)訓(xùn)練圖片以任意方向旋轉(zhuǎn)以提升檢測(cè)多角度圖片的效果,如圖6所示,同時(shí)旋轉(zhuǎn)原圖片和四邊形文本框標(biāo)簽。
圖5 VIN 識(shí)別算法網(wǎng)絡(luò)。(a) 網(wǎng)絡(luò)整體框架;(b) VGGNet內(nèi)部結(jié)構(gòu)
圖6 任意方向旋轉(zhuǎn)圖片和文本框標(biāo)簽
在識(shí)別階段,檢測(cè)定位旋轉(zhuǎn)到水平之后,有些文字可能方向是反的,也就是旋轉(zhuǎn)了180°,為了識(shí)別旋轉(zhuǎn)了180°的圖片,在訓(xùn)練識(shí)別網(wǎng)絡(luò)的時(shí)候以50%的概率隨機(jī)旋轉(zhuǎn)圖片180°。
本文提出了針對(duì)復(fù)雜環(huán)境下旋轉(zhuǎn)VIN 圖片的識(shí)別算法,在基于Ubuntu 16.04系統(tǒng)GPU(Titan Xp顯卡)服務(wù)器的環(huán)境上開展了訓(xùn)練和測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)所需的編程語言為python3.6版本,深度學(xué)習(xí)環(huán)境為pytorch0.4版本,CPU型號(hào)為Intel Silver 4110 2.1 GHz。
在VIN檢測(cè)階段,用旋轉(zhuǎn)VIN數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),使用1000張圖片用于訓(xùn)練,1000張用于測(cè)試。在模型訓(xùn)練中,使用Adam作為優(yōu)化器,并將訓(xùn)練圖片裁剪為(512′512)的大小。此外,在訓(xùn)練時(shí)隨機(jī)以任意角度無損旋轉(zhuǎn)圖片。實(shí)驗(yàn)結(jié)果如表1所示,本文所提出的檢測(cè)方法在速度和精度上均優(yōu)于其它方法,精度可達(dá)98%。
圖7 VIN訓(xùn)練數(shù)據(jù)集
表1 在VIN數(shù)據(jù)集上不同方法的檢測(cè)效果
在VIN識(shí)別階段,以80000張圖片用于訓(xùn)練、10000張用于測(cè)試。識(shí)別結(jié)果如表2所示,本文提出的VIN識(shí)別算法在兩個(gè)精度指標(biāo)上比其他算法具有更好的識(shí)別效果,達(dá)到了122 f/s的識(shí)別速度和93%相似度匹配的識(shí)別精度。這里測(cè)試圖片大小統(tǒng)一為320′32,‘F’代表全字符匹配的準(zhǔn)確率,‘A’代表字符相似匹配的準(zhǔn)確率。
此外,值得注意的是,輸入圖片的不同大小在VIN識(shí)別中的實(shí)驗(yàn)效果是不同的。如表3所示,圖像越大,實(shí)驗(yàn)性能越好。同時(shí),針對(duì)數(shù)據(jù)增強(qiáng),也做了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,對(duì)于圖片中文字方向反的情況,數(shù)據(jù)增強(qiáng)可以有效解決這一問題。表中‘a(chǎn)ug’表示我們?cè)谟?xùn)練識(shí)別網(wǎng)絡(luò)時(shí)添加了圖片180°旋轉(zhuǎn)。
作為補(bǔ)充,圖8展示了本文方法在實(shí)際復(fù)雜環(huán)境下的VIN圖片的識(shí)別效果。圖9展示了在測(cè)試中檢測(cè)失敗以及識(shí)別率低于0.7的圖片。經(jīng)過多張圖片的分析,發(fā)現(xiàn)圖片中的長(zhǎng)條格狀物體容易被錯(cuò)誤識(shí)別為VIN文字序列,實(shí)際上只是類似于文字。而且在文字和背景沒有明顯區(qū)分的時(shí)候很容易造成檢測(cè)不到文字的存在。在識(shí)別方面,顯然模糊刻印的文字以及不明顯的字體是造成識(shí)別率低的原因。
表2 在VIN數(shù)據(jù)集上不同方法的識(shí)別效果
表3 在不同尺寸輸入圖片大小上的識(shí)別效果
圖8 實(shí)際復(fù)雜環(huán)境下VIN圖片識(shí)別效果
圖9 實(shí)際復(fù)雜環(huán)境下檢測(cè)和識(shí)別效果不好的圖片
本文提出了在復(fù)雜環(huán)境下識(shí)別旋轉(zhuǎn)型VIN圖片的有效方法,并且創(chuàng)建了一個(gè)新的VIN數(shù)據(jù)集來評(píng)估我們的方法。結(jié)合輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和輸出層的逐像素分割實(shí)現(xiàn)了VIN檢測(cè)。同時(shí),提出了用于VIN識(shí)別的序列分類器。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法能有效地檢測(cè)和識(shí)別圖片中刻印的VIN字符。目前,本文方法已經(jīng)應(yīng)用在中國(guó)的城市車輛年檢系統(tǒng)中。
[1] Smith R. An overview of the Tesseract OCR engine[C]//, 2007: 629–633.
[2] Mori S, Suen C Y, Yamamoto K. Historical review of OCR research and development[J].1992, 80(7): 1029–1058.
[3] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[Z].arXiv:1409.1556, 2014.
[4] He K M, Zhang X Y, Ren S Q,. Deep residual learning for image recognition[C]//2016: 770–778.
[5] Tang Y B, Bu W, Wu X Q. Natural scene text detection based on multi-level MSER[J].2016, 50(6): 1134–1140.
唐有寶, 卜巍, 鄔向前. 多層次MSER自然場(chǎng)景文本檢測(cè)[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2016, 50(6): 1134–1140.
[6] Jiang H Y, Zhu L P, Ou Z P. Text recognition of natural scene image based on MSER and Tesseract[J]., 2017, 13(33): 213–216.
蔣弘毅, 朱麗平, 歐樟鵬. 基于MSER和Tesseract的自然場(chǎng)景圖像文字識(shí)別[J]. 電腦知識(shí)與技術(shù), 2017, 13(33): 213–216.
[7] Zhang K Y, Shao K Y, Lu D. MSER fast skewed scene-text location algorithm[J].2019, 24(2): 81–88.
張開玉, 邵康一, 盧迪. MSER快速自然場(chǎng)景傾斜文本定位算法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2019, 24(2): 81–88.
[8] Zhang G H, Huang K, Zhang B,. A natural scene text extraction method based on the maximum stable extremal region and stroke width transform[J]., 2017, 51(1): 135–140.
張國(guó)和, 黃凱, 張斌, 等. 最大穩(wěn)定極值區(qū)域與筆畫寬度變換的自然場(chǎng)景文本提取方法[J]. 西安交通大學(xué)學(xué)報(bào), 2017, 51(1): 135–140.
[9] Nan Y, Bai R L, Li X. Application of convolutional neural network in printed code characters recognition[J]., 2015, 42(4): 38–43.
南陽, 白瑞林, 李新. 卷積神經(jīng)網(wǎng)絡(luò)在噴碼字符識(shí)別中的應(yīng)用[J]. 光電工程, 2015, 42(4): 38–43.
[10] Wang K, Belongie S. Word spotting in the wild[C]//, 2010, 6311: 591–604.
[11] Wang K, Babenko B, Belongie S. End-to-end scene text recognition[C]//, 2011: 1457–1464.
[12] Tian Z, Huang W L, He T,. Detecting text in natural image with connectionist text proposal network[C]//, 2016, 9912: 56–72.
[13] Ren S Q, He K M, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, 2015: 91–99.
[14] Liao M H, Shi B G, Bai X,. TextBoxes: a fast text detector with a single deep neural network[Z]. arXiv:1611.06779, 2016.
[15] Liu W, Anguelov D, Erhan D,. SSD: single shot multibox detector[C]//, 2016: 21–37.
[16] Tian Z, Huang W L, He T,. Detecting text in natural image with connectionist text proposal network[C]//, 2016, 9912: 56–72.
[17] Liao M H, Shi B G, Bai X. TextBoxes++: a single-shot oriented scene text detector[J]., 2018, 27(8): 3676–3690.
[18] Ma J Q, Shao W Y, Ye H,. Arbitrary-oriented scene text detection via rotation proposals[J]., 2018, 20(11): 3111–3122.
[19] Zhou X Y, Yao C, Wen H,. EAST: an efficient and accurate scene text detector[C]//, 2017: 2642–2651.
[20] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//, 2015: 3431–3440.
[21] Deng D, Liu H, Li X,. PixelLink: detecting scene text via instance segmentation[Z]. arXiv:1801.01315, 2018.
[22] Shi B G, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]., 2017, 39(11): 2298–2304.
[23] Graves A, Fernández S, Gomez F,. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//, 2006: 369–376.
[24] Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for OCR in the wild[C]//, 2016: 2231–2239.
[25] Sandler M, Howard A, Zhu M L,. MobileNetV2: inverted residuals and linear bottlenecks[C]//, 2018: 4510–4520.
[26] Lin T Y, Dollár P, Girshick R,. Feature pyramid networks for object detection[C]//, 2017: 936–944.
[27] Milletari F, Navab N, Ahmadi S A. V-Net: fully convolutional neural networks for volumetric medical image segmentation[C]//, 2016: 565–571.
[28] Li X, Wang W H, Hou W B,. Shape robust text detection with progressive scale expansion network[Z]. arXiv:1806.02559, 2018.
[29] Liu X B, Liang D, Yan S,. FOTS: fast oriented text spotting with a unified network[C]//, 2018: 5676–5685.
[30] Thakare S, Kamble A, Thengne V,. Document Segmentation and Language Translation Using Tesseract-OCR[C]//. IEEE, 2018.
[31] Shi B G, Yang M K, Wang X G,. ASTER: an attentional scene text recognizer with flexible rectification[J]., 2019, 41(9): 2035–2048.
Vehicle identification number recognition based on neural network
Meng Fanjun1,2, Yin Dong1,2*
1School of Information Science Technology, University of Science and Technology of China, Hefei, Anhui 230027, China;2Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei, Anhui 230027, China
The overall architecture of our proposed VIN recognition algorithm
Overview:It is far essential to properly recognize the vehicle identification number (VIN) engraved on the car frame for car surveillance and vehicle identification. Vehicle identification number is unique globally, which is assigned by car manufacturers to a car for identifying it. The vehicle identification number is usually engraved on the metallic car frame which is uneasy to tamper with, so it is of great significance for vehicle annual surveillance and vehicle identification. Although many important achievements have been made in text recognition, especially the wide application of OCR in document recognition in images, the complex background, arbitrary angle and fuzzy font of the engraved text in the images have made it difficult to identify the vehicle identification number automatically. In vehicle identification and annual car inspection, a large number of VIN pictures need to be manually reviewed every day, which is very inefficient. With the application of deep learning, we can make use of deep learning to accelerate this process, improve the efficiency of auditing greatly, and realize automated auditing. We introduce an algorithm for recognizing vehicle identification number in images based on neural network, which incorporates two components: VIN detection and VIN recognition. Firstly, in the VIN detection part, the lightweight Network is used as feature extraction network in order to accelerate the inference speed and reduce the network cost. Combined with FCN and FPN, the network is able to adapt to any size of input images and focus on the distribution difference between foreground text pixels and background pixels. In order to improve the performance on rotational VIN, the images are rotated at any angle lossless in the training stage to augment datasets. Secondly, in the VIN recognition stage, we take VIN recognition task as a sequence classification problem, using VGGNet as the feature extraction network, and the final vehicle identification number sequence is predicted through the position-related sequential classifier without character segmentation to simplify the recognition processing. Also, the text direction in images may be reversed in dataset, and in order to solve the situation, picture is rotated at 180 degrees randomly in network training. Finally, we introduce a VIN dataset, which contains raw rotational VIN images and horizontal VIN images for validating our algorithm, and all of our experiments are conducted on the dataset. Experimental results show that the algorithm we proposed can detect and recognize the VIN text in images efficiently in real time.
Meng F J, Yin DVehicle identification number recognition based on neural network[J]., 2021, 48(1): 200094; DOI:10.12086/oee.2021.200094
Vehicle identification number recognition based on neural network
Meng Fanjun1,2, Yin Dong1,2*
1School of Information Science Technology, University of Science and Technology of China, Hefei, Anhui 230027, China;2Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei, Anhui 230027, China
It is far essential to properly recognize the vehicle identification number (VIN) engraved on the car frame for vehicle surveillance and identification. In this paper, we propose an algorithm for recognizing rotational VIN images based on neural network which incorporates two components: VIN detection and VIN recognition. Firstly, with lightweight neural network and text segmentation based on EAST, we attain efficient and excellent VIN detection performance. Secondly, the VIN recognition is regarded as a sequence classification problem. By means of connecting sequential classifiers, we predict VIN characters directly and precisely. For validating our algorithm, we collect a VIN dataset, which contains raw rotational VIN images and horizontal VIN images. Experimental results show that the algorithm we proposed achieves good performance on VIN detection and VIN recognition in real time.
vehicle identification number; neural network; text segmentation; machine vision
TP391.41
A
10.12086/oee.2021.200094
Key Research and Development Projects of Anhui Province (804a09020049)
* E-mail: yindong@ustc.edu.cn
孟凡俊,尹東. 基于神經(jīng)網(wǎng)絡(luò)的車輛識(shí)別代號(hào)識(shí)別方法[J]. 光電工程,2021,48(1): 200094
Meng F J, Yin DVehicle identification number recognition based on neural network[J].2021, 48(1): 200094
2020-03-20;
2020-06-28
安徽省2018年度重點(diǎn)研究與開發(fā)計(jì)劃項(xiàng)目(1804a09020049)
孟凡俊(1994-),男,碩士研究生,主要從事圖像處理的研究。E-mail:fanjunm@mail.ustc.edu.cn
尹東(1965-),男,副教授,主要從事圖像處理的研究。E-mail:yindong@ustc.edu.cn