劉 斌,程方毅,龔德文
(1.華南理工大學(xué)聚合物成型加工工程教育部重點(diǎn)實(shí)驗(yàn)室//廣東省高分子先進(jìn)制造技術(shù)及裝備重點(diǎn)實(shí)驗(yàn)室//聚合物新型成型裝備國(guó)家工程研究中心,廣州 510641;2.廣東昌恒智能裝備科技有限公司,廣東東莞 519000)
近年來(lái),電商市場(chǎng)的火爆推動(dòng)了物流行業(yè)的快速發(fā)展與不斷進(jìn)步,市場(chǎng)對(duì)快件分揀的要求也越來(lái)越高。分揀識(shí)別是自動(dòng)分揀系統(tǒng)中最為耗時(shí)的一個(gè)環(huán)節(jié),其分揀的效率和準(zhǔn)確率至關(guān)重要。高效、精準(zhǔn)地分揀識(shí)別一直是物流自動(dòng)化領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。
自動(dòng)識(shí)別技術(shù)是信息數(shù)據(jù)自動(dòng)識(shí)讀、自動(dòng)輸入計(jì)算機(jī)的重要手段和方法,其在物流管理工作中的合理應(yīng)用,可以有效提高物流管理工作的準(zhǔn)確性與高效性,實(shí)現(xiàn)了物流管理的信息化、現(xiàn)代化發(fā)展[1-2]。其中,條形碼成本低、識(shí)別速度快,是目前物流行業(yè)使用最普遍的信息載體。從發(fā)展趨勢(shì)來(lái)看,越來(lái)越多的廠(chǎng)商將圖像識(shí)別技術(shù)應(yīng)用于物流自動(dòng)化中與條形碼識(shí)別技術(shù)一并使用,提高自動(dòng)分揀識(shí)別的準(zhǔn)確率。本文基于收集整理的自動(dòng)識(shí)別技術(shù)在物流自動(dòng)化的應(yīng)用特點(diǎn),總結(jié)各種技術(shù)的優(yōu)缺點(diǎn)及適用范圍,重點(diǎn)探討圖像自動(dòng)識(shí)別技術(shù)在物流自動(dòng)化中的研究與應(yīng)用現(xiàn)狀,以期為構(gòu)建更快速、更準(zhǔn)確、更智能的自動(dòng)分揀系統(tǒng)提供借鑒。
一維條形碼偏重于“標(biāo)識(shí)”商品,但只在一個(gè)方向(通常是水平方向)表示信息,而不在垂直方向表示任何信息,為了便于閱讀器的對(duì)準(zhǔn),條碼會(huì)有一定的高度,條碼的下方還會(huì)有英文字母或阿拉伯?dāng)?shù)字[3]。幾種常見(jiàn)的一維條形碼式樣如圖1 所示。其中39 碼長(zhǎng)度沒(méi)有限制,允許雙向掃描,具備自我檢查能力,能用字母、數(shù)字和其他一些符號(hào)共43個(gè)字符表示,主要應(yīng)用于工業(yè)生產(chǎn)線(xiàn)和圖書(shū)的自動(dòng)化管理。128碼長(zhǎng)度可自由調(diào)整,但最多不超過(guò)232個(gè)字符,允許雙向掃碼,可自行決定是否要加上檢查碼,具有3種不同的編碼類(lèi)型,可提供標(biāo)準(zhǔn)ASCII中128個(gè)字符的編碼使用,常應(yīng)用于流通配送標(biāo)簽。codabar碼長(zhǎng)度可變,不用校驗(yàn)碼,條碼字符集僅20個(gè)字符,常用于倉(cāng)庫(kù)和航空快遞包裹的跟蹤管理。2of5碼沒(méi)有檢驗(yàn)位,只可以編碼0~9十個(gè)數(shù)字,主要應(yīng)用于包裝、運(yùn)輸?shù)?。影響碼制選擇的因素有很多,在實(shí)際生產(chǎn)應(yīng)用中,常根據(jù)所需條碼字符、印刷條件和識(shí)讀設(shè)備等因素來(lái)選擇需要的碼制。
圖1 幾種常見(jiàn)的一維條形碼式樣
一維條形碼具有可靠準(zhǔn)確、識(shí)別速度快、成本低、可手動(dòng)輸入、設(shè)備簡(jiǎn)單與易于制作等特點(diǎn),是一種廉價(jià)且高效的識(shí)別技術(shù)。一維條形碼在物流自動(dòng)化的應(yīng)用有效地提升了各個(gè)環(huán)節(jié)實(shí)施過(guò)程中的輸入速度,而且成本較低,具有較高的準(zhǔn)確度,是目前物流自動(dòng)化領(lǐng)域最常見(jiàn)的信息載體[4-5]。但是,一維條形碼容量小,通常只表示物品的基本信息(如訂單號(hào)等),如果需要貨物更詳細(xì)的信息,必須依賴(lài)數(shù)據(jù)庫(kù)或通訊網(wǎng)絡(luò)的存在,且只具備校驗(yàn)功能而不具備糾錯(cuò)能力,破損或污染后可讀性較差。
二維條形碼偏重于“描述”商品,在水平和垂直方向的二維空間存儲(chǔ)信息,不但具有識(shí)別功能,而且可顯示更詳細(xì)的商品內(nèi)容[6]。幾種常見(jiàn)的二維條形碼式樣如圖2所示。
圖2 幾種常見(jiàn)的二維條形碼式樣
其中PDF417 碼可表示數(shù)字、字母、二進(jìn)制數(shù)據(jù)和漢字,具有9個(gè)等級(jí)的糾錯(cuò)能力,糾正等級(jí)最高時(shí),即使條形碼污損50%也能被正確讀出,常應(yīng)用于海關(guān)報(bào)關(guān)單、貨物的運(yùn)輸和郵遞等。Code49碼可表示全部的128個(gè)ASCII字符,常應(yīng)用于食品、工業(yè)等。QR碼呈正方形,在左上角、左下角和右上角各有一個(gè)像“回”字的定位圖像,可實(shí)現(xiàn)任意角度的高速識(shí)別,編碼字符集包含數(shù)字、字母、中國(guó)漢字和日本漢字,具有4 個(gè)等級(jí)的糾錯(cuò)功能,常應(yīng)用于電子票務(wù)和B2B 領(lǐng)域等。Data Matrix碼外觀(guān)是一個(gè)由許多小方格所組成的正方形或長(zhǎng)方形符號(hào),編碼字符集包括全部的ASCII 字符及擴(kuò)充ASCII 字符,只需要讀取資料的20%即可精確辨讀,很適合應(yīng)用在條碼容易受損的場(chǎng)所,常應(yīng)用于高溫、機(jī)械剝蝕等環(huán)境。
二維條形碼具有信息容量大、編碼范圍廣、容錯(cuò)能力強(qiáng)、可加密、可靠性高與成本低、易制作等特點(diǎn),是一種較為經(jīng)濟(jì)、實(shí)用的自動(dòng)識(shí)別技術(shù)。二維條形碼具備立體、龐大的信息存儲(chǔ)和表達(dá)功能,可以對(duì)物品進(jìn)行詳細(xì)地信息描述而不依賴(lài)數(shù)據(jù)庫(kù)或通訊網(wǎng)絡(luò)單獨(dú)存在,具有檢驗(yàn)功能和糾錯(cuò)能力[7]。二維條形碼在物流自動(dòng)化中的應(yīng)用大多體現(xiàn)在包裹的跟蹤、追溯等環(huán)節(jié)。
在條形碼識(shí)別技術(shù)的研究中,針對(duì)條形碼損壞或污染時(shí)的識(shí)讀一直是主要的研究方向?;魢?guó)義[8]提出了一種基于像素補(bǔ)充的一維條形碼識(shí)別技術(shù),獲取一維條形碼的非線(xiàn)性特征,通過(guò)離散變化法對(duì)破損的一維條形碼進(jìn)行像素差值補(bǔ)充,從而提高殘缺一維條形碼的識(shí)別率。何紅莊[9]以矩不變?yōu)樘卣鞯哪J阶R(shí)別理論為依據(jù),開(kāi)發(fā)的一維條形碼譯碼系統(tǒng)不僅能對(duì)輕度污染與殘缺的、甚至任意角度有畸變的一維條形碼進(jìn)行識(shí)讀。董華冰[10]提出了一種基于一維條形碼投影曲線(xiàn)的識(shí)讀方法和基于全局和局部的歐氏距離算法,能對(duì)低分辨率、模糊的一維條形碼進(jìn)行正確識(shí)讀,并能對(duì)識(shí)讀錯(cuò)誤的條形碼字符進(jìn)行修正。屈衛(wèi)鋒[11]開(kāi)發(fā)的一款二維條形碼的快速識(shí)別軟件,可以實(shí)現(xiàn)對(duì)復(fù)雜背景下受噪聲影響、光照不均影響、畸變影響的低質(zhì)量二維條形碼的快速有效識(shí)別。劉震[12]改進(jìn)了二維條形碼的Reed-Solomon 糾錯(cuò)算法,與傳統(tǒng)的Reed-Solomon 算法相比,改進(jìn)后的算法在譯碼速度和準(zhǔn)確率上均有所提升。侍倩倩[13]利用人工神經(jīng)網(wǎng)絡(luò)中具有聯(lián)想記憶功能的離散型Hopfield神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了二維條形碼的復(fù)原,利用模板匹配的思想實(shí)現(xiàn)了污染二維條形碼的識(shí)別。
無(wú)線(xiàn)射頻識(shí)別(RFID)技術(shù),作為一種新興的自動(dòng)識(shí)別技術(shù),在工業(yè)自動(dòng)化領(lǐng)域已得到廣泛應(yīng)用。無(wú)線(xiàn)射頻識(shí)別技術(shù)主要由標(biāo)簽、天線(xiàn)和識(shí)讀器3部分構(gòu)成,其原理如圖3所示。
圖3 FRID技術(shù)原理圖
在RFID系統(tǒng)中,信息通過(guò)識(shí)讀器(又稱(chēng)閱讀器)的天線(xiàn)發(fā)送出一定頻率范圍的標(biāo)簽信號(hào)。當(dāng)標(biāo)簽進(jìn)入磁場(chǎng)區(qū)域時(shí),天線(xiàn)會(huì)產(chǎn)生感應(yīng)電流,從而使得標(biāo)簽獲得能量,標(biāo)簽將自身編碼等信息通過(guò)載波信號(hào)發(fā)送出去。識(shí)別器會(huì)收到信號(hào)并對(duì)其進(jìn)行解碼,解碼后的信息或數(shù)據(jù)被送至計(jì)算機(jī)主機(jī)進(jìn)行處理,從而完成信息采集、信息識(shí)別、信息解碼和信息傳輸全過(guò)程[14]。
RFID 技術(shù)的突出特點(diǎn)在識(shí)別環(huán)節(jié)。比較其他識(shí)別技術(shù),具有無(wú)需接觸、識(shí)別速度快、適應(yīng)工作環(huán)境范圍廣、批量處理等優(yōu)點(diǎn),是一種昂貴而高效的自動(dòng)識(shí)別技術(shù)[15]。FRID 雖然可以節(jié)省人力成本,并在較為惡劣的環(huán)境下完成對(duì)相關(guān)物流信息的大量存儲(chǔ)和準(zhǔn)確掃描,但是,使用RFID技術(shù)的設(shè)備投入是巨大的,需要給所有物品粘貼上電子標(biāo)簽,國(guó)外有這類(lèi)處理能力的企業(yè)也是屈指可數(shù)的[16]。目前,國(guó)內(nèi)快遞行業(yè)普遍都使用條形碼攜帶信息,很少使用電子標(biāo)簽,這對(duì)于國(guó)內(nèi)數(shù)目龐大的快件量也是更加經(jīng)濟(jì)實(shí)惠的方式。
隨著人工智能的不斷發(fā)展,圖像識(shí)別技術(shù)在物流自動(dòng)化中也得到了廣泛應(yīng)用,其應(yīng)用主要有圖像分類(lèi)和OCR光學(xué)字符識(shí)別兩個(gè)方向。其中,圖形分類(lèi)技術(shù)確定產(chǎn)品的類(lèi)別屬性信息,OCR 技術(shù)識(shí)別條碼下方的英文字母和數(shù)字。目前,圖像分類(lèi)技術(shù)及OCR技術(shù)在自動(dòng)分揀中常作為條形碼識(shí)別的補(bǔ)充模塊,當(dāng)條形碼識(shí)讀出現(xiàn)異常時(shí),由圖像分類(lèi)技術(shù)或OCR技術(shù)獲取產(chǎn)品信息,結(jié)合條形碼識(shí)讀結(jié)果,確定產(chǎn)品即將流向的分揀口。
現(xiàn)如今,圖像識(shí)別技術(shù)發(fā)展迅速,特別是在工業(yè)領(lǐng)域,圖像分類(lèi)技術(shù)已被大規(guī)模應(yīng)用。如周院[17]基于深度學(xué)習(xí)的CNN 網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)絲狀真菌圖像類(lèi)別的識(shí)別。包青平[18]借助深度學(xué)習(xí)實(shí)現(xiàn)對(duì)服裝長(zhǎng)度、寬松度以及各部件等細(xì)節(jié)要素的識(shí)別。曾平平等[19]提出了一種適用于水果圖像分類(lèi)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),識(shí)別準(zhǔn)確率可達(dá)98.44%。劉儼嬌[20]基于A(yíng)lexNet深度模型和遷移學(xué)習(xí)技術(shù),針對(duì)10種多肉植物和9種生石花的分類(lèi),分別實(shí)現(xiàn)了95.3%和87.3%的正確率。郜翔[21]以深度模型、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)為理論指導(dǎo),在102類(lèi)花卉圖像數(shù)據(jù)集上,達(dá)到了96.27的分類(lèi)準(zhǔn)確率。在深度學(xué)習(xí)的發(fā)展歷程中,ImageNet 數(shù)據(jù)集[22]起了巨大的推動(dòng)作用,ImageNet 是目前深度學(xué)習(xí)應(yīng)用較廣的一個(gè)領(lǐng)域,具有1 400 萬(wàn)幅圖片,大約22 000 種類(lèi)別,針對(duì)ImgaeNet 的一個(gè)大約120 萬(wàn)幅圖像、1 000種類(lèi)別的子集,經(jīng)過(guò)訓(xùn)練后的模型最高可以達(dá)到90%以上的準(zhǔn)確率。
以某公司為例。在一個(gè)海外飲品自動(dòng)化物流項(xiàng)目中,已有將圖像分類(lèi)技術(shù)作為條碼自動(dòng)識(shí)別技術(shù)的一個(gè)補(bǔ)充模塊來(lái)進(jìn)行自動(dòng)分揀的應(yīng)用案例,如圖4所示。
圖4 飲品自動(dòng)化物流項(xiàng)目現(xiàn)場(chǎng)照片
其產(chǎn)品為整箱封裝的啤酒、牛奶、礦泉水等,產(chǎn)品種類(lèi)有限,且箱子外表面有顏色或紋理差異。當(dāng)條碼由于種種原因無(wú)法正確識(shí)讀時(shí),可經(jīng)由圖像分類(lèi)確定物體的類(lèi)別,通過(guò)PLC 控制物品流向指定的分揀道口,極大地提高了自動(dòng)分揀識(shí)別的準(zhǔn)確率,其圖像分類(lèi)技術(shù)應(yīng)用流程如圖5所示。
其流程主要可分為3步。
(1)第1 步,獲取數(shù)據(jù)集。利用工業(yè)相機(jī)自動(dòng)采集大量圖像數(shù)據(jù),按比例劃分為訓(xùn)練集和驗(yàn)證集,使用tfrecords[23]數(shù)據(jù)格式存儲(chǔ)圖像數(shù)據(jù)。tfrecords格式可以統(tǒng)一不同的原始數(shù)據(jù)格式,對(duì)不同的屬性實(shí)現(xiàn)更加有效的管理,并且極大節(jié)省內(nèi)存開(kāi)銷(xiāo),一個(gè)保存了1 000個(gè)100×100圖像數(shù)據(jù)的tfrecords文件,大小僅為28.6 MB。
圖5 圖像分類(lèi)技術(shù)應(yīng)用流程
(2)第2 步,得到模型文件。從tfrecords 文件中讀取數(shù)據(jù),將訓(xùn)練集和驗(yàn)證集批量輸入卷積神經(jīng)網(wǎng)絡(luò),開(kāi)始訓(xùn)練,將訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型持久化,方便反復(fù)調(diào)用。在將網(wǎng)絡(luò)模型保存為離線(xiàn)文件時(shí),只需要知道如何從神經(jīng)網(wǎng)絡(luò)的輸入層經(jīng)過(guò)前向傳播計(jì)算得到輸出層即可,不需要知道類(lèi)似變量初始化、模型保存等輔助節(jié)點(diǎn)的信息。
(3)第3 步,自動(dòng)化分類(lèi)識(shí)別。工業(yè)相機(jī)自動(dòng)獲取圖像,將原始圖像數(shù)據(jù)經(jīng)過(guò)數(shù)字圖像處理后輸入離線(xiàn)模型文件,經(jīng)過(guò)前向傳播計(jì)算得到輸出結(jié)果。輸出結(jié)果為一維矩陣,其每一列的值代表著圖像為每種類(lèi)別的概率,根據(jù)置信度確定概率最大的為所屬類(lèi)別。
物流自動(dòng)化中圖像分類(lèi)技術(shù)應(yīng)用框架構(gòu)建起來(lái)雖然較為容易,但是在實(shí)際工程應(yīng)用中,針對(duì)不同的類(lèi)別,通常需要重新獲取數(shù)據(jù)集,構(gòu)建卷積網(wǎng)絡(luò),訓(xùn)練模型,且輸出類(lèi)別結(jié)果無(wú)法自動(dòng)判斷對(duì)錯(cuò),只能通過(guò)設(shè)置置信度判斷,即使將任意圖像輸入識(shí)別模型也會(huì)給出限定種類(lèi)內(nèi)的識(shí)別結(jié)果。
光學(xué)字符識(shí)別(OCR)[24],簡(jiǎn)單來(lái)說(shuō),是掃描文本數(shù)據(jù),進(jìn)行圖像處理和分析,從而識(shí)別字符的一種自動(dòng)識(shí)別技術(shù)。日益成熟的人工神經(jīng)網(wǎng)絡(luò)模式識(shí)別方法,為OCR字符識(shí)別技術(shù)的研究提供了一種新的手段,與一些傳統(tǒng)技術(shù)相比,該方法具有快速、精準(zhǔn)、容錯(cuò)性強(qiáng)和具有自主學(xué)習(xí)能力速度等優(yōu)點(diǎn)[25]。與以往的符號(hào)邏輯系統(tǒng)完全不同,人工神經(jīng)網(wǎng)絡(luò)通過(guò)模擬人腦處理信息的方式來(lái)進(jìn)行特征提取,從而為OCR字符識(shí)別技術(shù)的發(fā)展開(kāi)辟了新的方向。
在物流自動(dòng)化的實(shí)際應(yīng)用中,通常會(huì)將包含有條形碼和由英文字母和數(shù)字組成的標(biāo)識(shí)信息張貼在貨物外包裝表面,通過(guò)對(duì)產(chǎn)品信息進(jìn)行自動(dòng)讀取、處理,從而保證在輸送、存儲(chǔ)的過(guò)程中對(duì)貨物進(jìn)行有效管理。OCR 識(shí)別技術(shù)通過(guò)識(shí)讀條碼下英文字母和數(shù)字直接獲得條碼的標(biāo)識(shí)信息。孫懷遠(yuǎn)[26]等基于機(jī)器視覺(jué)和OCR識(shí)別技術(shù)構(gòu)建的檢測(cè)系統(tǒng)實(shí)現(xiàn)對(duì)藥品包裝瓶批號(hào)的快速、自動(dòng)檢測(cè)。彭曉輝[27]研究了一種檢測(cè)速度快、準(zhǔn)確率高、魯棒性好的IC卡字符識(shí)別系統(tǒng),可以對(duì)高速運(yùn)動(dòng)中的噴碼字符進(jìn)行可靠的檢驗(yàn)。周鳳香[28]對(duì)應(yīng)用于空調(diào)生產(chǎn)線(xiàn)的字符識(shí)別系統(tǒng)進(jìn)行研究與開(kāi)發(fā),實(shí)現(xiàn)了空調(diào)生產(chǎn)流水線(xiàn)上的標(biāo)簽字符的自動(dòng)識(shí)別。李了了[29]利用機(jī)器視覺(jué)和字符識(shí)別技術(shù)實(shí)現(xiàn)對(duì)產(chǎn)品編號(hào)或編碼字符的自動(dòng)識(shí)別。郭佳寅[30]研究了一種基于OCR 技術(shù)的自動(dòng)采集包裝箱上的噴碼信息的采集系統(tǒng),并應(yīng)用于物流自動(dòng)化系統(tǒng)中。張超[31]開(kāi)發(fā)的自動(dòng)識(shí)別系統(tǒng)可在玻璃纖維生產(chǎn)自動(dòng)化物流系統(tǒng)中對(duì)同一幅照片上的鏤空字符與二維碼進(jìn)行自動(dòng)識(shí)別,并已在實(shí)際工程中應(yīng)用。在現(xiàn)在的實(shí)際生產(chǎn)中,越來(lái)越多的自動(dòng)識(shí)別系統(tǒng)選擇同時(shí)識(shí)別條碼信息和字符信息,提高識(shí)別的準(zhǔn)確率。物流自動(dòng)化領(lǐng)域中康耐視(Congnex)、??低暎℉IKVISION)、基恩士(KEYENCE)等機(jī)器視覺(jué)廠(chǎng)商也都在自家的智能掃碼產(chǎn)品中添加了OCR功能,OCR技術(shù)在物流自動(dòng)化領(lǐng)域中的應(yīng)用前景越來(lái)越廣闊。
光學(xué)字符識(shí)別的過(guò)程需要使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行離線(xiàn)訓(xùn)練和在線(xiàn)識(shí)別。離線(xiàn)訓(xùn)練就是創(chuàng)建訓(xùn)練文件,對(duì)訓(xùn)練樣本進(jìn)行濾波、增強(qiáng)、字符分割等一系列預(yù)處理后,將獲得的字符保存在字體訓(xùn)練文件中;在線(xiàn)識(shí)別就是將采集到的圖像進(jìn)行預(yù)處理,使用離線(xiàn)訓(xùn)練好的分類(lèi)器與字體文件進(jìn)行識(shí)別,從而將置信度較高的字體作為識(shí)別結(jié)果輸出。OCR 字符識(shí)別流程如圖6所示。
圖6 OCR字符識(shí)別流程
在物流自動(dòng)化中,需要識(shí)別的字符僅為英文字母和阿拉伯?dāng)?shù)字,個(gè)數(shù)有限,屬于小字符集,訓(xùn)練一次模型,即可運(yùn)用在大部分場(chǎng)景中。隨著對(duì)深度學(xué)習(xí)的深入研究,文字識(shí)別的準(zhǔn)確率越來(lái)越高。
OCR 技術(shù)的難點(diǎn)主要集中在文本定位上[32]。當(dāng)前的文本定位方法大致有兩種:(1)基于區(qū)域的定位。設(shè)定圖像區(qū)域像素具有一致性的特征,如Kim 等基于RGB 彩色空間聚類(lèi)來(lái)實(shí)現(xiàn)對(duì)文本的定位。(2)基于邊緣的文本定位。假設(shè)文字邊緣清晰與背景有很強(qiáng)的對(duì)比度,如Lyu 等使用Sobel 濾波器提取圖像的邊緣,分析邊緣特性,用投影分析方法確定文本區(qū)域。
字符分割的方法較多。(1)基于結(jié)構(gòu)的分割方法。常用的有連通域分割法,該方法首先對(duì)前景像素進(jìn)行掃描,使其形成連通域,然后根據(jù)設(shè)置好的條件組合和裁剪這些連通域,最后剩余下來(lái)的連通域?yàn)橄鄳?yīng)的字符圖片。(2)基于統(tǒng)計(jì)特征的分割方法。常用的有直方圖投影法,該方法根據(jù)相鄰字符之間具有一定的間隔來(lái)對(duì)字符進(jìn)行分割,可以較為直觀(guān)地得到分割點(diǎn)。
圖像識(shí)別技術(shù)主要通過(guò)對(duì)比存儲(chǔ)信息和當(dāng)前信息,從而識(shí)別圖像,不同圖像、不同目的的識(shí)別分析稍有不同,在此介紹其關(guān)鍵技術(shù)。
圖像的自動(dòng)識(shí)別主要由計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)實(shí)現(xiàn),其關(guān)鍵技術(shù)有圖像分割、特征提取、圖片匹配或分類(lèi)等,如圖7所示。
圖7 圖像模式識(shí)別流程圖
4.1.1 圖像分割
圖像分割,就是在圖像中將物體分離出來(lái),圖像分類(lèi)通常是將整個(gè)前景物體從自動(dòng)化輸送機(jī)的背景中分割出來(lái),OCR技術(shù)則需要把字符區(qū)域從復(fù)雜背景分割出來(lái)。
目前借助各種理論模型提出的分割算法已達(dá)上千種。在對(duì)某幅圖像進(jìn)行分割時(shí),通常會(huì)結(jié)合多種方法來(lái)構(gòu)建分割系統(tǒng),以獲得高效、準(zhǔn)確的分割結(jié)果。在實(shí)際工業(yè)應(yīng)用中,采集到圖像的質(zhì)量往往不是那么理想,通常需要對(duì)采集得到的原始圖像進(jìn)行圖像預(yù)處理[33-34],從而獲得高質(zhì)量的圖像,方便后續(xù)步驟的順利進(jìn)行。
(1)以QR 二維條形碼的圖像預(yù)處理為例,如圖8 所示,預(yù)處理過(guò)程為:獲取目標(biāo)原始圖像-->灰度化-->濾波-->二值化-->Hough 變換-->透視校正[35]。由圖可以看出,條形碼的自動(dòng)識(shí)別較為關(guān)注目標(biāo)區(qū)域的詳細(xì)信息,但是,條形碼在使用過(guò)程中很容易受到缺損、沾污等各種形式的破壞。一維條形碼不具備糾錯(cuò)功能,受到破壞時(shí)可讀性較差,易造成無(wú)法識(shí)別;二維條碼雖然具備校驗(yàn)與糾錯(cuò)功能,可以檢查甚至糾正錯(cuò)誤,但是,當(dāng)破壞區(qū)域較大時(shí),也會(huì)導(dǎo)致識(shí)讀錯(cuò)誤。
圖8 QR碼圖像預(yù)處理過(guò)程
(2)在圖像分類(lèi)過(guò)程中,輸入圖像的質(zhì)量可能會(huì)影響輸出類(lèi)別的置信度,從而在一定程度上影響分類(lèi)結(jié)果,因此也需要圖像預(yù)處理來(lái)消除圖像不相關(guān)信息,加強(qiáng)可用信息。卷積神經(jīng)網(wǎng)絡(luò)模型可以直接將原始圖像作為神經(jīng)網(wǎng)絡(luò)輸入,但為了減少模型訓(xùn)練所需時(shí)間,提高模型識(shí)別效率,通常采用227×227、100×100、32×32 等尺寸作為輸入圖像大小。以大華500 萬(wàn)像素級(jí)工業(yè)相機(jī)為例,將大小為2 592×2 048 的彩色原始圖像壓縮為100×100大小的彩色圖像,結(jié)果如圖9所示。
通過(guò)使皮帶機(jī)顏色為純黑色,目標(biāo)區(qū)域的分割變得更為高效和準(zhǔn)確,且圖像分類(lèi)算法更加關(guān)注圖像整體的泛化特征[36],具有極強(qiáng)的抗干擾性。
(3)OCR 在進(jìn)行文字識(shí)別之前的準(zhǔn)備工作,主要為文字的定位、校正以及分割工作。
圖9 原始圖像與縮放后的圖像對(duì)比
4.1.2 特征提取
圖像的特征包含顏色、紋理、形狀和空間關(guān)系等[37-38],特征提取是將特征點(diǎn)劃分為不同特征子集的過(guò)程。目前主流特征提取有固定式特征提取及自動(dòng)化特征提取兩種。固定式特征提取大都是利用計(jì)算機(jī)視覺(jué)技術(shù)、光譜分析技術(shù)等各種數(shù)字圖像處理手段人為提取有效特征參數(shù),再通過(guò)各種統(tǒng)計(jì)學(xué)或者機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn)對(duì)比確定有效的特征參數(shù)。如郎波[39]等提出了一種基于視覺(jué)機(jī)制的多層網(wǎng)絡(luò)計(jì)算模型,顯示出了優(yōu)秀的泛化能力。卷積神經(jīng)網(wǎng)絡(luò)[40]由于擁有自動(dòng)化提取樣本數(shù)據(jù)特征的特點(diǎn),開(kāi)始逐步替代固定式特征提取,但是卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建一直是一個(gè)難題,且對(duì)樣本的數(shù)量要求較高,訓(xùn)練模型的運(yùn)算量遠(yuǎn)超過(guò)固定式特征提取。
4.1.3 圖像匹配或分類(lèi)
圖像匹配是指從待檢測(cè)圖像中識(shí)別出與目標(biāo)相同或相似的圖像區(qū)域[37]。最常用的匹配方法是模板匹配和模式識(shí)別。模板匹配形式較單一,基本是將圖像像素逐一對(duì)比,難以解決變形圖像的識(shí)別。模式識(shí)別可用于圖像檢索和分類(lèi)等,將相似的、與其他圖像特征差異明顯的部分圖像分為同類(lèi),是人工智能發(fā)展的基石。
傳統(tǒng)的特征提取方法需要人為進(jìn)行特征提取,主要原因是在SVM[41]和BP[42]神經(jīng)網(wǎng)絡(luò)等識(shí)別模型下,以圖片像素點(diǎn)作為特征輸入模型會(huì)使得特征過(guò)多,需要大量樣本數(shù)據(jù),同時(shí),模型難訓(xùn)練、預(yù)測(cè)精度欠擬合、計(jì)算機(jī)資源占用高等。深度學(xué)習(xí)[43]中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)仿造生物的視覺(jué)感知機(jī)制構(gòu)建,被大量應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)一定的訓(xùn)練可自行完成從圖像中抽取特征這個(gè)步驟,且能夠減少因圖像的平移、旋轉(zhuǎn)、拉伸、部分遮擋等因素造成的識(shí)別誤判[44]。如周愛(ài)明等[45]利用深度學(xué)習(xí)建立了CaffeNet蝴蝶識(shí)別模型,在識(shí)別自然環(huán)境下拍攝的蝴圖像時(shí),成功率遠(yuǎn)超傳統(tǒng)SVM方法。
自AlexNet[46]在2012年IamgeNet識(shí)別大賽奪冠后,刺激了各種利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖片分類(lèi)研究的發(fā)展,在此后發(fā)展出的VGGNet、GoogLeNet 等網(wǎng)絡(luò)模型先后以極高的精度奪冠。卷積神經(jīng)網(wǎng)絡(luò)模仿生物的視覺(jué)感知,可以直接輸入原始圖像,通過(guò)權(quán)重共享,減少網(wǎng)絡(luò)中的自由參數(shù)數(shù)量,大大降低了網(wǎng)絡(luò)模型的復(fù)雜性,不僅具有傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自適應(yīng)等特點(diǎn),還具有自動(dòng)提取特征等特點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)是由卷積層、池化層和全連接層組成,其中,卷積層與池化層起到的作用是自動(dòng)提取圖片的特征,全連接層與BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是類(lèi)似的。卷積神經(jīng)網(wǎng)絡(luò)模型如圖10所示。
圖10 卷積神經(jīng)網(wǎng)絡(luò)模型
利用卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別過(guò)程是:首先,直接將圖片數(shù)據(jù)和對(duì)應(yīng)的標(biāo)簽輸入到網(wǎng)絡(luò)模型中,無(wú)需指定圖片的特征提取方式;然后,利用反向傳播算法依據(jù)標(biāo)簽和模型的預(yù)測(cè)值自動(dòng)調(diào)整模型參數(shù),提取適合的圖像特征作為分類(lèi)依據(jù)。卷積神經(jīng)網(wǎng)絡(luò)既降低了特征提取的操作難度,又避免了人為因素在特征選取過(guò)程中的誤差。
將圖像輸入訓(xùn)練好的模型,可以得到圖像為每種類(lèi)別的概率。當(dāng)圖像受到破損或污染時(shí),所屬正確類(lèi)別的概率會(huì)有所降低,但是依然可以識(shí)別,這是因?yàn)榫矸e網(wǎng)絡(luò)更關(guān)注同一類(lèi)別間的泛化特征。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展使分類(lèi)識(shí)別技術(shù)進(jìn)入自動(dòng)化特征提取和分類(lèi)識(shí)別的階段,但是,卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本的數(shù)量要求較高,且訓(xùn)練模型的運(yùn)算量遠(yuǎn)超過(guò)手動(dòng)特征提取技術(shù)。
此外,卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別效果與其深度有很大關(guān)系。深度越深,識(shí)別效果越好,但也更容易出現(xiàn)過(guò)擬合(即對(duì)訓(xùn)練數(shù)據(jù)集的識(shí)別精度較高,而對(duì)測(cè)試數(shù)據(jù)集的識(shí)別精度較低);如果網(wǎng)絡(luò)深度過(guò)淺,則容易出現(xiàn)欠擬合(即對(duì)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的識(shí)別精度都較低)。因此,選擇合適的網(wǎng)絡(luò)深度、避免過(guò)擬合是構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的難點(diǎn)。
在實(shí)際應(yīng)用中,有時(shí)使用旋轉(zhuǎn)、縮放和偏移等圖像增廣技術(shù)擴(kuò)充樣本數(shù)量后,依然難以完全達(dá)到網(wǎng)絡(luò)模型的訓(xùn)練要求,故發(fā)展出遷移學(xué)習(xí)的概念。遷移學(xué)習(xí)[47]就是直接使用其他數(shù)據(jù)集訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,由于這些網(wǎng)絡(luò)模型已經(jīng)具有圖片特征提取能力(即卷積核),故只需去除原先的全連接層,再使用較小樣本數(shù)據(jù)訓(xùn)練出自定義的全連接層,即可達(dá)到較高的識(shí)別精度。因此,遷移學(xué)習(xí)降低了對(duì)訓(xùn)練樣本數(shù)量的要求,而識(shí)別精度卻能達(dá)到較高的水平。
在物流自動(dòng)化領(lǐng)域,一維條形碼成本低、識(shí)別速度快,依然是目前物流行業(yè)使用最普遍的信息載體。隨著深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)的不斷發(fā)展,在物流自動(dòng)化領(lǐng)域中,同時(shí)應(yīng)用圖像識(shí)別技術(shù)和條形碼識(shí)別技術(shù)已是大勢(shì)所趨。其中,圖像分類(lèi)技術(shù)應(yīng)用框架構(gòu)建起來(lái)較為容易,物品的圖像分割相對(duì)簡(jiǎn)單,且抗干擾性較強(qiáng),但是,針對(duì)不同的物品,需要重新獲取數(shù)據(jù)集,構(gòu)建卷積網(wǎng)絡(luò),適用于物品種類(lèi)有限且圖像特征有明顯差異的環(huán)境。OCR識(shí)別技術(shù)訓(xùn)練一次模型,即可運(yùn)用在大部分場(chǎng)景,但是,復(fù)雜背景下的文本定位,仍然是當(dāng)今研究的一個(gè)熱點(diǎn)和難點(diǎn)。
條形碼技術(shù)、圖像分類(lèi)技術(shù)和OCR技術(shù),既可單獨(dú)使用也可組合使用。目前來(lái)說(shuō),圖像分類(lèi)技術(shù)和OCR技術(shù)通常是作為條碼識(shí)別技術(shù)的補(bǔ)充,但是,隨著人工智能的不斷發(fā)展,在未來(lái)的某一天,圖像分類(lèi)技術(shù)和OCR技術(shù)也許會(huì)完全取代條碼識(shí)別技術(shù)。