肖銘涵,鄧定南,林厚健,陳俊波,黃勇源
(嘉應(yīng)學(xué)院 物理與電子工程學(xué)院 ,廣東梅州,514015)
近年來,我國(guó)電子商務(wù)的快速發(fā)展,促進(jìn)了國(guó)內(nèi)快遞業(yè)務(wù)量的持續(xù)增長(zhǎng)。國(guó)家郵政局公布了2022年上半年郵政行業(yè)運(yùn)行情況,指出上半年全國(guó)快遞服務(wù)企業(yè)業(yè)務(wù)量累計(jì)完成512.2億件,業(yè)務(wù)收入累計(jì)完成4982.2億元??爝f行業(yè)的穩(wěn)健發(fā)展離不開智慧物流系統(tǒng)的建設(shè)??爝f自動(dòng)分揀系統(tǒng)是智慧物流系統(tǒng)中重要一部分,一般由輸入、智能識(shí)別、智能分流、輸出等模塊組成。智能識(shí)別模塊可通過機(jī)器視覺技術(shù)和深度學(xué)習(xí)技術(shù)識(shí)別快遞公司信息、快遞條形碼和三段碼、客戶地址和電話等信息。將識(shí)別的快遞信息傳輸給計(jì)算機(jī),通過智能硬件將快遞分類,實(shí)現(xiàn)智能分流。因此,快遞信息的準(zhǔn)確識(shí)別是實(shí)現(xiàn)智能分流的關(guān)鍵。
基于機(jī)器視覺的快遞信息識(shí)別方法主要是利用各種圖像處理算法或軟件,實(shí)現(xiàn)快遞信息的自動(dòng)定位和識(shí)別。邵妍等人提出一種概率統(tǒng)計(jì)模型,通過計(jì)算最小地址要素與收貨點(diǎn)的對(duì)應(yīng)概率分布,判斷出對(duì)應(yīng)快遞的收貨點(diǎn)地址,實(shí)現(xiàn)了快遞地址的自動(dòng)分類,自動(dòng)分類準(zhǔn)確率可達(dá)99%以上,分類耗時(shí)為0.43ms[1]。李毅榮等人基于Tesseract-OCR開發(fā)了安卓手機(jī)識(shí)別應(yīng)用系統(tǒng),實(shí)現(xiàn)了快遞單手機(jī)號(hào)碼數(shù)字的準(zhǔn)確識(shí)別和快速撥號(hào),可提高快遞派送效率[2]。孫川等人通過手機(jī)號(hào)碼區(qū)域定位、二值化、數(shù)字分割、數(shù)字結(jié)構(gòu)特征識(shí)別等步驟,實(shí)現(xiàn)了快遞單手機(jī)號(hào)碼數(shù)字識(shí)別,準(zhǔn)確率為98%,耗時(shí)為5.52ms[3]。曾志鴻等人提出一種基于HALCON的快遞地址識(shí)別方法,利用HALCON軟件對(duì)快遞照片進(jìn)行灰度化、圖像增強(qiáng)、仿射變換、圖像分割等預(yù)處理操作,并創(chuàng)建了字符識(shí)別分類器,實(shí)現(xiàn)了快遞地址信息的準(zhǔn)確識(shí)別[4]。朱賀開發(fā)了一種基于LabVIEW的快遞單地址自動(dòng)識(shí)別系統(tǒng),實(shí)現(xiàn)了條形碼和手寫地址信息的準(zhǔn)確識(shí)別,識(shí)別率分別為99.4%和92.7%[5]。王敏等人提出了一種基于數(shù)字圖像處理的物流分揀方法,通過面單分割、區(qū)域定位、字符識(shí)別等步驟,實(shí)現(xiàn)了快遞地址信息的識(shí)別,并開發(fā)了MATLAB數(shù)據(jù)處理系統(tǒng),耗時(shí)在350ms左右[6]。王寧等人提出一種基于HSV空間的MSRCR增強(qiáng)算法,實(shí)現(xiàn)了高噪聲環(huán)境下快遞單條形碼的快速定位識(shí)別[7]。
深度學(xué)習(xí)技術(shù)的發(fā)展,也廣泛應(yīng)用于快遞目標(biāo)信息檢測(cè)?;谏疃葘W(xué)習(xí)的快遞信息識(shí)別方法主要是通過大量樣本數(shù)據(jù),搭建深度學(xué)習(xí)模型進(jìn)行參數(shù)訓(xùn)練,最終實(shí)現(xiàn)快遞信息的定位和識(shí)別。韓貴金等人利用YOLOv4算法建立快遞面單Logo檢測(cè)模型,實(shí)現(xiàn)快遞面單三段碼信息的檢測(cè),準(zhǔn)確率可達(dá)96.1%以上,提高了快遞分揀效率[8]。孫東通過引入多尺度檢測(cè)結(jié)構(gòu)和特征合并網(wǎng)絡(luò),優(yōu)化了YOLOv3算法,并基于QT軟件開發(fā)了快遞包裝信息采集識(shí)別系統(tǒng),實(shí)現(xiàn)了不同程度遮擋、污染條形碼的準(zhǔn)確識(shí)別[9]。白文杰搭建了ResNet神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了快遞面單三段碼信息的識(shí)別,三段碼定位準(zhǔn)確率為76%,定位準(zhǔn)確的三段碼信息識(shí)別準(zhǔn)確率為99.13%[10]。周為鵬等人利用Yolov5深度學(xué)習(xí)目標(biāo)檢測(cè)模型實(shí)現(xiàn)快遞條形碼的定位,檢測(cè)精度為93.6%[11]。
為了提高快遞分揀效率,本文提出一種基于OpenCV和Tesseract-OCR的快遞地址信息識(shí)別系統(tǒng)。搭建了快遞單圖像硬件采集系統(tǒng)。利用OpenCV對(duì)采集的快遞單圖像進(jìn)行預(yù)處理,包括顏色識(shí)別、灰度化處理、閾值化處理、形態(tài)學(xué)處理等操作。將預(yù)處理后的快遞單圖像傳入Tesseract-OCR識(shí)別引擎,實(shí)現(xiàn)了準(zhǔn)確的快遞地址信息識(shí)別。對(duì)簡(jiǎn)單快遞地址信息和復(fù)雜快遞地址信息進(jìn)行了識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提方法可實(shí)現(xiàn)準(zhǔn)確的快遞地址信息識(shí)別,可應(yīng)用于快遞分類,提高快遞分揀效率。
快遞地址信息識(shí)別系統(tǒng)由硬件采集系統(tǒng)和軟件處理系統(tǒng)組成。硬件采集系統(tǒng)示意圖如圖1所示。硬件采集系統(tǒng)包括相機(jī)、支架、傳送帶等。相機(jī)采用300萬寬動(dòng)態(tài)攝像頭(KS3A244),分辨率為 2048*1536,像素大小為 2.2μm,鏡頭對(duì)焦方式為手動(dòng)調(diào)焦,焦距為6mm。
圖1 快遞地址信息識(shí)別硬件采集系統(tǒng)示意圖
軟件處理系統(tǒng)主要包括預(yù)處理模塊和識(shí)別模塊。預(yù)處理模塊主要對(duì)相機(jī)采集的快遞照片進(jìn)行預(yù)處理,提高后續(xù)地址信息識(shí)別的準(zhǔn)確性。預(yù)處理模塊利用OpenCV進(jìn)行處理。OpenCV是一個(gè)基于Apache2.0許可(開源)發(fā)行的跨平臺(tái)計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)軟件庫(kù),廣泛應(yīng)用于數(shù)字圖像處理、機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域。OpenCV用C++語言編寫,它具有C++,Python,Java和MATLAB接口,并支持 Windows,Linux,Android和Mac OS,主要傾向于實(shí)時(shí)視覺應(yīng)用。預(yù)處理模塊流程示意圖如圖2所示。預(yù)處理模塊包括顏色識(shí)別、灰度化處理、閾值化處理、形態(tài)學(xué)處理。顏色識(shí)別主要是將采集的快遞單照片彩色RGB圖像轉(zhuǎn)為HSV圖像,便于標(biāo)記和分割快遞單中目標(biāo)區(qū)域?;叶然幚硎菍⒖爝f單彩色圖像轉(zhuǎn)化為灰度圖像,可采用平均值法、加權(quán)平均法、最大值法等方法進(jìn)行處理。閾值化處理的目的是區(qū)域分割,提取出快遞單中的目標(biāo)區(qū)域,可采用一般閾值法、全局閾值法、自適應(yīng)閾值法等方法進(jìn)行處理。形態(tài)學(xué)處理的目的是提取快遞單中有用的圖像分量,如邊界、骨架等,可采用膨脹、腐蝕、開運(yùn)算、閉運(yùn)算等操作進(jìn)行處理。
圖2 預(yù)處理模塊流程示意圖
識(shí)別模塊主要是提取預(yù)處理后快遞單的文字、數(shù)字等信息,實(shí)現(xiàn)快遞地址信息的識(shí)別。識(shí)別模塊利用Tesseract-OCR 來實(shí)現(xiàn)。OCR(Optical Character Recognition)為光學(xué)字符識(shí)別,最早由德國(guó)科學(xué)家Tausheck于1929年提出。Tesseract早期由惠普實(shí)驗(yàn)室開發(fā),現(xiàn)由谷歌維護(hù),可支持漢字識(shí)別,是一種高精度和高靈活度的開源OCR識(shí)別引擎。Tesseract-OCR引擎使用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來獲得文字圖像中的特征,再以長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來訓(xùn)練學(xué)習(xí)目標(biāo)圖像中的樣本數(shù)據(jù),并進(jìn)而得到具有內(nèi)在規(guī)律和表示層次的樣本訓(xùn)練集,以用于文字識(shí)別。本實(shí)驗(yàn)訓(xùn)練庫(kù)采用谷歌公司的漢字訓(xùn)練數(shù)據(jù)文件,Tesseract-OCR訓(xùn)練流程示意圖如圖3所示。識(shí)別的基本思路是引用訓(xùn)練好的深度學(xué)習(xí)文件,并輸入已經(jīng)處理好的圖像,再建立一個(gè)存儲(chǔ)空間來臨時(shí)保存識(shí)別到的文字,并給予顯示,最后釋放內(nèi)存,以空出資源,方便接下來的使用。
圖3 識(shí)別模塊訓(xùn)練流程示意圖
首先我們進(jìn)行簡(jiǎn)單快遞信息識(shí)別驗(yàn)證實(shí)驗(yàn)。圖4是灰度化處理結(jié)果分析。圖4(a)是相機(jī)采集到的原始快遞單彩色照片,快遞信息較為簡(jiǎn)單,只有“廣東廣州”四個(gè)漢字。在本實(shí)驗(yàn)中,因?yàn)榭爝f信息較為簡(jiǎn)單,所以感興趣目標(biāo)區(qū)域就是采集區(qū)域,可省略顏色識(shí)別這一步驟。圖4(b)是采用平均值法處理后的灰度圖像。圖4(c)采用加權(quán)平均值處理后的灰度圖像,加權(quán)值分別取ωR=0.299、ωG=0.587、ωB=0.149。從圖4(b)和 4(c)可看出,平均值法和加權(quán)平均值法效果相當(dāng)。最大值法是將Red、Green、Blue三種顏色通道中最大像素值作為灰度化后的像素值。圖4(d)是最大值法處理后的灰度圖像,可看出最大值法處理后的圖像亮度較高,便于后期的閾值化處理。因此,灰度化處理可采用最大值法。
圖4 灰度化處理結(jié)果分析
對(duì)灰度化處理后的快遞單圖像進(jìn)行閾值化處理,可以過濾字體多余的色彩,提高文字識(shí)別的準(zhǔn)確性。圖5為閾值化處理結(jié)果分析。圖5(a)為采用自適應(yīng)閾值法處理后的圖像。雖然自適應(yīng)閾值化處理去除了不需要的圖像信息,但也有部分感興趣區(qū)域沒有分離出來。圖5(b)是采用一般閾值法處理后的圖像,人為設(shè)定的閾值為T=220。可看出,一般閾值法通過調(diào)整確定最優(yōu)閾值,去除了噪聲點(diǎn),將文字信息成功分離出來。因此,閾值化處理可采用一般閾值法。
圖5 閾值化處理結(jié)果分析
經(jīng)過灰度化和閾值化處理后的圖像字符所占像素點(diǎn)數(shù)量較多,相對(duì)來說字體較粗,可以考慮先以腐蝕操作除去細(xì)小噪聲點(diǎn),再以膨脹操作修復(fù)字體中因腐蝕操作而產(chǎn)生的斷點(diǎn)。所以可選擇先執(zhí)行一次開運(yùn)算操作,然后再進(jìn)行一次膨脹操作,保證字體不會(huì)過于纖細(xì),處理后圖像如圖6(a)所示。光學(xué)字符識(shí)別部分使用Tesseract-OCR庫(kù)編寫,識(shí)別庫(kù)采用谷歌公司的漢字訓(xùn)練數(shù)據(jù)文件。輸入預(yù)處理后的圖像,引用訓(xùn)練好的深度學(xué)習(xí)文件,文字識(shí)別結(jié)果如圖6(b)所示。實(shí)驗(yàn)結(jié)果表明,本文所提方法可實(shí)現(xiàn)快遞地址信息的準(zhǔn)確識(shí)別。
圖6 (a)形態(tài)學(xué)處理結(jié)果 (b)文字識(shí)別處理結(jié)果
為了進(jìn)一步驗(yàn)證所提方法的可行性和有效性,我們進(jìn)行了復(fù)雜快遞地址信息識(shí)別驗(yàn)證實(shí)驗(yàn)。圖7(a)為日常生活中使用的快遞單照片,具有較復(fù)雜的快遞信息,包括姓名、電話、單號(hào)、地址等。為了獲取藍(lán)色框目標(biāo)區(qū)域信息,需要將彩色RGB圖像轉(zhuǎn)換成HSV圖像。顏色識(shí)別處理后的圖像如圖7(b)所示,可看出通過色彩空間變換后,不同顏色的區(qū)域明顯不同。只需要對(duì)原圖中藍(lán)色框區(qū)域進(jìn)行識(shí)別并定位,就能得到需要分割的坐標(biāo)點(diǎn),進(jìn)而對(duì)原圖進(jìn)行區(qū)域分割處理,提取出感興趣的藍(lán)色框區(qū)域。
圖7 (a)快遞單RGB圖像(b)HSV圖像
對(duì)區(qū)域分割后的彩色圖像執(zhí)行灰度化處理、閾值化處理、形態(tài)學(xué)處理等操作,得到的圖像如圖8(a)所示。預(yù)處理后的圖像信息比原圖少了部分噪聲,提高了光學(xué)字符識(shí)別的準(zhǔn)確性。利用Tesseract-OCR進(jìn)行光學(xué)字符識(shí)別后的結(jié)果如圖 8(b)所示。圖 8(b)的處理結(jié)果中也給出了圖 7(a)中分割藍(lán)色框目標(biāo)區(qū)域的四個(gè)坐標(biāo),分別為(5,910)、(5,650)、(994,650)、(994,910)。實(shí) 驗(yàn) 結(jié) 果 表 明,利 用 OpevCV和Tesseract可實(shí)現(xiàn)準(zhǔn)確的快遞地址信息識(shí)別。
圖8 (a)預(yù)處理后圖像 (b)文字識(shí)別處理結(jié)果
本文提出了一種基于OpenCV和Tesseract-OCR的快遞地址信息識(shí)別方法。為實(shí)現(xiàn)快遞地址信息的自動(dòng)識(shí)別,使用開源計(jì)算機(jī)視覺庫(kù)OpenCV對(duì)采集的快遞單圖像進(jìn)行預(yù)處理,通過顏色識(shí)別定位識(shí)別區(qū)域,通過灰度化處理、閾值化處理、形態(tài)學(xué)處理等操作得到待識(shí)別區(qū)域圖像信息。然后利用Google開源光學(xué)字符識(shí)別引擎Tesseract-OCR識(shí)別快遞地址信息。驗(yàn)證實(shí)驗(yàn)結(jié)果表明,所提方法可以有效和準(zhǔn)確識(shí)別快遞地址信息,有利于提高快遞分揀效率。下一步將繼續(xù)優(yōu)化算法,避免快遞位置和光照變化造成的錯(cuò)誤識(shí)別。