摘" 要: 無(wú)人超市商品自動(dòng)化識(shí)別過(guò)程中易受到背景復(fù)雜化、亮度不均勻、角度多變等的干擾。為此,提出一種基于Faster R?CNN的無(wú)人超市商品自動(dòng)化識(shí)別方法。首先利用Haar小波提升模型,將商品圖像分為低頻圖像和高頻圖像;然后通過(guò)仿生彩色圖像法對(duì)圖像進(jìn)行增強(qiáng)處理,并采用Faster R?CNN中的特征融合結(jié)構(gòu),將圖像深度信息與淺度信息融合到一起;最后將融合的特征輸入到自動(dòng)化識(shí)別網(wǎng)絡(luò)中,輸出自動(dòng)化識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提方法的識(shí)別效率高、圖像增強(qiáng)效果好、抗噪能力強(qiáng)。
關(guān)鍵詞: Faster R?CNN; 無(wú)人超市; 自動(dòng)化識(shí)別; Haar小波; 商品圖像; 圖像增強(qiáng); 中值濾波; 小波系數(shù)
中圖分類號(hào): TN911.73?34; TP753" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)12?0145?05
Automatic recognition technology of unmanned supermarket goods
based on Faster R?CNN
LU Qingmei
(College of Innovation and Entrepreneurship, North University of China, Taiyuan 030051, China)
Abstract: In the process of automatic identification of goods in unmanned supermarket, it is easy to be disturbed by the problems of complex background, uneven brightness, veriable angle and so on. Therefore, a method of unmanned supermarket goods automatic commodity identification based on faster R?CNN is proposed. The Haar wavelet lifting model is used to divide the commodity image into low?frequency image and high?frequency image, and then the bionic color image method is used to enhance the image. The feature fusion structure in faster R?CNN is used to intergate the image depth information and shallow information. The fused features are input into the automatic recognition network and the automatic recognition results are output. The experimental results show that the proposed method has high recognition efficiency, good image enhancement effect and strong anti?noise ability.
Keywords: faster R?CNN; unmanned supermarkets; automated identification; Haar wavelet; product images; image enhancement; median filtering; wavelet coefficients
0" 引" 言
隨著機(jī)器人和人工智能等科學(xué)技術(shù)的快速發(fā)展,商品零售模式[1]發(fā)生了翻天覆地的變化,無(wú)人超市、線上銷售等智能銷售方式已經(jīng)普及化。商品自動(dòng)化識(shí)別是智能服務(wù)業(yè)的基本要求,也是收集和分析超市商品銷售數(shù)據(jù)[2]的基礎(chǔ)信息的重要途徑,由實(shí)驗(yàn)證明和理論依據(jù)可知,研究無(wú)人超市商品自動(dòng)化識(shí)別方法具有重要意義。
劉照邦等人利用攝像機(jī)采集商品圖像,將圖像輸入到DNN模型中進(jìn)行計(jì)算,獲得圖像的具體方位信息和庫(kù)存信息[3]。采用改進(jìn)神經(jīng)網(wǎng)絡(luò)中的目標(biāo)檢測(cè)算法重新設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),完成商品自動(dòng)化識(shí)別。但是該方法沒(méi)有采取區(qū)域推薦網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,導(dǎo)致識(shí)別效率低。
謝智偉等人在商品適應(yīng)性識(shí)別方法的基礎(chǔ)上,首先建立一個(gè)客戶需求與商品功能的泛化匹配模型,借助拓展集方法將模型得到的匹配結(jié)果分成功能、行為、結(jié)構(gòu)三個(gè)區(qū)域;然后細(xì)化各個(gè)區(qū)域內(nèi)商品的特征層,構(gòu)建特征層的可拓集合表達(dá)模型;最后以基元有向圖的傳導(dǎo)度作為商品自動(dòng)化識(shí)別的依據(jù)[4]。但是該方法沒(méi)有對(duì)商品圖像采取圖像增強(qiáng)處理,導(dǎo)致識(shí)別精度較低。
劉瑩等人利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)貨架上的商品進(jìn)行細(xì)節(jié)識(shí)別研究,并通過(guò)模型的自主學(xué)習(xí)能力獲取商品圖像的多層次特征,再對(duì)特征進(jìn)行抽取和分析,將結(jié)果輸入到BP神經(jīng)網(wǎng)絡(luò)中,獲取商品自動(dòng)化識(shí)別結(jié)果[5]。但是該方法未對(duì)商品圖像進(jìn)行降噪處理,導(dǎo)致識(shí)別結(jié)果抗噪聲能力差。
為了解決上述方法中存在的問(wèn)題,本文提出一個(gè)基于Faster R?CNN的無(wú)人超市商品自動(dòng)化識(shí)別方法。
1" 商品圖像預(yù)處理
1.1" 降噪處理
無(wú)人超市商品中存在大量椒鹽噪聲和高斯噪聲,為了避免噪聲對(duì)自動(dòng)化識(shí)別結(jié)果產(chǎn)生干擾,利用中值濾波和小波系數(shù)變化來(lái)消除商品圖像中的噪聲,降噪流程如圖1所示。
商品圖像降噪步驟如下。
1) 椒鹽噪聲的存在會(huì)隨機(jī)改變商品圖像的像素值,首先采用4×4中值濾波技術(shù)對(duì)無(wú)人超市的商品進(jìn)行降噪,并對(duì)其進(jìn)行大規(guī)模的消噪。
2) 引入Haar小波提升模型,利用模型的可逆轉(zhuǎn)變化,提升小波系數(shù),實(shí)現(xiàn)對(duì)商品圖像的分解[6]。將商品圖像分為高頻[rk-1,l]和低頻[tk-1,l]兩種圖像。其公式如下所示:
[rk-1,l=lek-12tk-1,l=lek-1+tk,2l]" " " (1)
式中:[e]為實(shí)際值與預(yù)測(cè)值之間的誤差;[k]為商品圖像中的像素點(diǎn);[l]代表預(yù)測(cè)函數(shù)系數(shù);[r]為圖像的高頻區(qū)域;[t]代表圖像的低頻區(qū)域。
3) 高頻圖像可以清晰地體現(xiàn)商品圖像特征細(xì)節(jié),因此高斯噪聲主要存在于高頻圖像中。利用高頻圖像的小波系數(shù)來(lái)預(yù)測(cè)噪聲標(biāo)準(zhǔn)方差,然后利用小波系數(shù)降噪法消除高頻圖像中的高斯噪聲。去噪后的高頻圖像表示如下:
[?=Mrk-1,lYm,n0.674] (2)
式中:[M]為中間值;[Ym,n]為小波系數(shù)。
4) 低頻圖像可以表達(dá)圖像的輪廓特征,所以散斑噪聲大部分存在于其中。采用小波系數(shù)對(duì)改變后的低頻圖像進(jìn)行閾值量化,去噪后的低頻圖像表示如下:
[U=?2tk-1,llnA·B·30]" " " " (3)
式中:[A]、[B]描述的是圖片尺寸。
5) 將處理后的高頻圖像與低頻圖像通過(guò)小波系數(shù)重新融合到一起,獲得去除噪聲后的圖像[7][P?,U]。
1.2" 圖像增強(qiáng)處理
無(wú)人超市由于光照不均勻、早晚溫差大等原因,導(dǎo)致商品圖像存在清晰度較低等情況,所以通過(guò)仿生彩色圖像法對(duì)去噪后的商品圖像[P?,U]進(jìn)行增強(qiáng)處理,具體步驟如下。
1) 自適應(yīng)全局調(diào)節(jié)亮度。根據(jù)圖像亮度的明暗等級(jí),采用非線性映射算法完成圖像黑暗區(qū)域亮度增強(qiáng)[8]和區(qū)域動(dòng)態(tài)壓縮。
首先設(shè)置亮度分量,公式如下:
[Jm,n=maxJR,JG,JBm,nP?,U]" (4)
式中:[Jm,n]為亮度分量;[JR]、[JG]、[JB]分別為紅、綠、藍(lán)的亮度分量;[m,n]為像素點(diǎn)。
2) 非線性映射算法。以原始商品圖像的明暗等級(jí)為基點(diǎn),對(duì)圖像的整體亮度進(jìn)行非線性調(diào)節(jié),可以修正圖像中過(guò)亮或者過(guò)暗的區(qū)域,并且修正后的圖像的動(dòng)態(tài)范圍被有效壓縮[9],便于觀察。非線性映射算法公式如下所示:
[Jhm,n=Jom,nJm,n13+β3]" " " " " "(5)
式中:[Jhm,n]為調(diào)節(jié)亮度后的圖像;[Jom,n]為歸一化后的亮度;[β]代表原始圖像的明暗系數(shù)。
3)自適應(yīng)局部增強(qiáng)對(duì)比度。經(jīng)過(guò)亮度調(diào)節(jié)后的圖像陰暗區(qū)域變亮,但動(dòng)態(tài)壓縮導(dǎo)致圖像對(duì)比度[10]減弱,因此引入當(dāng)前點(diǎn)與鄰域亮度的雙邊濾波來(lái)增強(qiáng)圖像局部對(duì)比度。雙邊濾波是通過(guò)兩個(gè)高斯光滑函數(shù)來(lái)評(píng)測(cè)當(dāng)前點(diǎn)與鄰域亮度之間的相似程度,公式如下:
[Jcm,n=GSGWJhm,nGSGWGS=expm2+n22α2GW=expm2-n22α2]" " " (6)
式中:[Jcm,n]為鄰域平均亮度;[GS]、[GW]為高斯光滑函數(shù);[α]表示尺度參數(shù);[m]、[n]代表像素點(diǎn)。
4) 圖像顏色恢復(fù)。采用原始圖像中的光彩表達(dá)信息,通過(guò)基礎(chǔ)的線性算法恢復(fù)增強(qiáng)圖像的色彩信息,可以完好地保存原始圖像的顏色特征。公式如下:
[Jkm,n=βm,n?Jcm,nk=R,G,B] (7)
式中:[Jkm,n]表示顏色恢復(fù)圖像;[k=R,G,B],代表的是色彩恢復(fù)后圖像的三元色分量。
2" 基于Faster R?CNN的商品識(shí)別
針對(duì)去噪增強(qiáng)后的無(wú)人超市商品圖像,采用基于快速算法的卷積神經(jīng)網(wǎng)絡(luò)提高模型計(jì)算速度的同時(shí),增加了特征融合[11]功能,將商品圖像的深度信息與淺度信息融合后完成識(shí)別,具體過(guò)程如下。
1) 區(qū)域推薦網(wǎng)絡(luò)。對(duì)比其他神經(jīng)網(wǎng)絡(luò),F(xiàn)aster R?CNN的特點(diǎn)是使用區(qū)域推薦網(wǎng)絡(luò)替代原有的基礎(chǔ)網(wǎng)絡(luò)。區(qū)域推薦網(wǎng)絡(luò)的核心主題是利用卷積神經(jīng)網(wǎng)絡(luò)直接生成建議區(qū)域。對(duì)比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)aster R?CNN模型增加了兩個(gè)卷積層,帶給區(qū)域推薦網(wǎng)絡(luò)更多的非線性處理問(wèn)題的能力。
2) 卷積層運(yùn)算。卷積層運(yùn)算時(shí),建議區(qū)域的邊緣長(zhǎng)度與填充量均為1,運(yùn)算后特征圖的尺寸保持不變,不僅可以充分地體現(xiàn)商品圖像各個(gè)層次的特征,也可以保證自動(dòng)化識(shí)別結(jié)果不受干擾。公式如下:
[m1=1+m0+2r-lJkm,nt]" " " " (8)
式中:[m1]為圖像變換后的邊緣長(zhǎng)度;[m0]為圖像變換前的邊緣長(zhǎng)度;[r]為填充量;[l]為特征圖寬度;[t]為運(yùn)算次數(shù)。
3) 激活層運(yùn)算。在Faster R?CNN模型中,激活層的作用是為卷積層提供豐富的非線性運(yùn)算功能。激活函數(shù)使用[ReLU]激活正函數(shù),可最大程度降低運(yùn)算錯(cuò)誤率,并在圖像卷積運(yùn)算時(shí),可清理邊緣信息[12]。ReLU函數(shù)公式如下:
[ReLUa=0,a≤0a,agt;0] (9)
式中[a]為函數(shù)系數(shù)。
4) 特征融合。Faster R?CNN模型中存在若干個(gè)特征融合結(jié)構(gòu),針對(duì)不同的融合結(jié)構(gòu),卷積層和輸入層間可相互變換,完成多層次的反卷積層[13]計(jì)算。單元操作層將卷積層和輸入層連接到一起,在兩者間可執(zhí)行加減、取最大值等任務(wù)。在此基礎(chǔ)上,將卷積層和反卷積層的輸出特性結(jié)合起來(lái),形成新的特征。
5)自動(dòng)化識(shí)別網(wǎng)絡(luò)分為位置和類別識(shí)別兩種。將融合后的特征輸入到自動(dòng)化識(shí)別網(wǎng)絡(luò),預(yù)測(cè)出商品圖像的位置和類別。位置識(shí)別是將特征圖中任意一個(gè)像素坐標(biāo)看作一個(gè)單元體,以所有的單元體為中心,生成多個(gè)候選檢測(cè)框;再根據(jù)每個(gè)候選框計(jì)算出所有類別的置信度及真實(shí)框的位置回歸函數(shù),根據(jù)置信度和回歸函數(shù)重新計(jì)算神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)[14]。在這個(gè)過(guò)程中會(huì)獲得匹配度最高的圖像候選框。公式如下:
[Mi,j=Mx,dm1N+μ?Mx,ym1N]" (10)
式中:[Mx,d]為置信度回歸函數(shù);[N]為單元個(gè)數(shù);[μ]為預(yù)測(cè)概率;[Mx,y]為候選框的位置回歸函數(shù)。
6) 在類別預(yù)測(cè)路徑中,各卷積層都與一個(gè)特征相對(duì)應(yīng),利用卷積層中的卷積核預(yù)測(cè)商品圖像的類別。卷積核的個(gè)數(shù)決定著特征圖中候選框的數(shù)量,每個(gè)卷積核可以輸出候選框信任度作為損失函數(shù),對(duì)圖像進(jìn)行類別預(yù)測(cè)。公式如下所示:
[b=b0+1?O]" (11)
式中:[O]表示候選框數(shù)量;[b]代表卷積核數(shù)量;[b0]表示預(yù)測(cè)類別數(shù)量。
7) 將自動(dòng)化識(shí)別網(wǎng)絡(luò)的損失函數(shù)分為定位和置信度兩種損失函數(shù)。損失函數(shù)指引網(wǎng)絡(luò)更新權(quán)值[15],以確定最接近真實(shí)框的檢測(cè)框,輸出商品自動(dòng)化識(shí)別結(jié)果。損失函數(shù)計(jì)算公式為:
[M′x,y=ReLUa+bβ?M′x,yOM′x,d=ReLUa-f=1ObMqf,wlog d-wd] (12)
式中:[M′x,y]代表位置損失;[M′x,d]代表置信度損失;[β]為權(quán)重系數(shù);[O]為候選框數(shù)量;[q]為類別;[d]為置信度;[f]為預(yù)測(cè)框個(gè)數(shù);[w]為真實(shí)框個(gè)數(shù)。
3" 實(shí)驗(yàn)與分析
為驗(yàn)證基于Faster R?CNN的無(wú)人超市商品自動(dòng)化識(shí)別方法的有效性,選擇文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法作為對(duì)比方法。將識(shí)別效率、圖像增強(qiáng)能力和抗噪聲能力作為指標(biāo),分別對(duì)基于Faster R?CNN的無(wú)人超市商品自動(dòng)化識(shí)別方法和三種對(duì)比方法展開對(duì)比測(cè)試。
3.1" 識(shí)別效率
隨機(jī)選取100張無(wú)人超市商品圖像,對(duì)比所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法所用的識(shí)別時(shí)間。識(shí)別時(shí)間越長(zhǎng),識(shí)別效率越低,反之則效率越高。測(cè)試所得結(jié)果如表1所示。由表1可知,識(shí)別時(shí)間與商品圖像數(shù)量呈正比。隨商品圖像數(shù)量的不斷增加,三種所用的識(shí)別時(shí)間均呈現(xiàn)出上升趨勢(shì)。當(dāng)三種方法同時(shí)對(duì)相同數(shù)量圖像進(jìn)行識(shí)別時(shí),所提方法所用的識(shí)別時(shí)間最少。且隨商品圖像數(shù)量的增加,三種方法中所提方法的識(shí)別時(shí)間增幅較小,而文獻(xiàn)[3]方法、文獻(xiàn)[4]方法的識(shí)別時(shí)間增幅較大,表明所提方法具有較高的識(shí)別效率。
3.2" 圖像增強(qiáng)能力
為保證實(shí)驗(yàn)的直觀性,采用所提方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法增強(qiáng)處理圖2a)的無(wú)人超市商品圖像,則三種方法的處理結(jié)果依次如圖2b)、圖2c)和圖2d)所示。
由圖2可知,對(duì)照原圖,所提方法的圖像增強(qiáng)效果清晰,視覺(jué)效果好;采用文獻(xiàn)[4]方法增強(qiáng)圖像時(shí),顏色處理不當(dāng),導(dǎo)致圖像發(fā)白;采用文獻(xiàn)[5]方法增強(qiáng)圖像時(shí),細(xì)節(jié)對(duì)比度失真,并且圖像下方變黑,影響視覺(jué)效果。因此,通過(guò)上述結(jié)果可說(shuō)明,所提方法的圖像增強(qiáng)效果較佳,應(yīng)用性較強(qiáng)。
3.3" 抗噪聲能力
首先采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[5]方法自動(dòng)化識(shí)別100張無(wú)人超市商品圖像,將準(zhǔn)確率結(jié)果繪制成圖3a);然后,將隨機(jī)噪聲加入商品圖像中,根據(jù)自動(dòng)化識(shí)別準(zhǔn)確率的變化情況,對(duì)比所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[5]方法的抗噪聲能力。
低噪聲能力測(cè)試結(jié)果如圖3所示。對(duì)圖3分析可知,引入噪聲后,所提方法的自動(dòng)化識(shí)別準(zhǔn)確率沒(méi)有發(fā)生變化,表明所提方法的識(shí)別結(jié)果不受噪聲的影響;文獻(xiàn)[3]方法和文獻(xiàn)[5]方法的識(shí)別準(zhǔn)確率在引入噪聲后出現(xiàn)了不同程度的下降,表明文獻(xiàn)[3]方法和文獻(xiàn)[5]方法的識(shí)別結(jié)果受噪聲的影響較大。所提方法在自動(dòng)化識(shí)別商品圖像之前,通過(guò)中值濾波和小波系數(shù)降噪法對(duì)商品圖像進(jìn)行了去噪預(yù)處理,進(jìn)而在識(shí)別過(guò)程中不受噪聲的影響。表明所提方法具有良好的抗噪聲能力。
4" 結(jié)" 語(yǔ)
文章提出一種基于Faster R?CNN的無(wú)人超市商品自動(dòng)化識(shí)別方法。該方法首先利用中值濾波和小波系數(shù)濾波消除了商品圖像中存在的噪聲;然后對(duì)圖像進(jìn)行增強(qiáng)處理;其次采用Faster R?CNN網(wǎng)絡(luò)模型完成商品圖像的自動(dòng)化識(shí)別,當(dāng)同時(shí)對(duì)相同數(shù)量圖像進(jìn)行識(shí)別時(shí),所提方法所用的識(shí)別時(shí)間最低。實(shí)驗(yàn)結(jié)果表明,所提方法的圖像增強(qiáng)效果較佳,且抗噪聲能力較強(qiáng)。本文方法能夠解決無(wú)人超市商品自動(dòng)化識(shí)別方法存在的識(shí)別效率低、圖像增強(qiáng)效果差和抗噪聲能力差等問(wèn)題;但是由于此次研究時(shí)間有限,所提方法尚未進(jìn)行大量實(shí)際應(yīng)用,在某些方面可能存在一些不足之處。今后仍會(huì)對(duì)該方面進(jìn)行進(jìn)一步探究,為無(wú)人超市商品自動(dòng)化識(shí)別提供有力的理論支撐,同時(shí)促進(jìn)智能服務(wù)業(yè)穩(wěn)定發(fā)展。
參考文獻(xiàn)
[1] 李佩,魏航,王廣永,等.基于產(chǎn)品質(zhì)量和服務(wù)水平的零售商經(jīng)營(yíng)模式選擇研究[J].管理工程學(xué)報(bào),2020,34(5):164?177.
[2] 張瑞,劉立新,唐曉彬,等.大數(shù)據(jù)背景下基于網(wǎng)絡(luò)搜索數(shù)據(jù)商品零售價(jià)格指數(shù)預(yù)測(cè)研究[J].統(tǒng)計(jì)與信息論壇,2020,35(11):49?56.
[3] 劉照邦,袁明輝.基于深度神經(jīng)網(wǎng)絡(luò)的貨架商品識(shí)別方法[J].包裝工程,2020,41(1):149?155.
[4] 謝智偉,趙燕偉,任設(shè)東,等.面向功能需求的產(chǎn)品適應(yīng)性修改單元識(shí)別方法[J].計(jì)算機(jī)集成制造系統(tǒng),2020,26(2):426?436.
[5] 劉瑩,王曉宇,徐卓飛,等.基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像識(shí)別[J].數(shù)字印刷,2020(6):33?40.
[6] 曹天池,李秀實(shí),李丹,等.基于圖像分解的光照估計(jì)算法[J].計(jì)算機(jī)工程與科學(xué),2021,43(8):1422?1428.
[7] 唐鑫,巫茜,鄒航,等.正交小波與紋理一致性融合的圖像識(shí)別算法研究[J].自動(dòng)化與儀器儀表,2021(6):26?30.
[8] 陳剛,劉言,楊賀超,等.低照度彩色圖像的自適應(yīng)亮度增強(qiáng)[J].光學(xué)精密工程,2021,29(8):1999?2007.
[9] 公志強(qiáng),劉仁軍,汪利慶,等.一種基于紅外對(duì)比度提升的高動(dòng)態(tài)范圍壓縮技術(shù)[J].紅外技術(shù),2021,43(8):792?797.
[10] 王冰雪,劉廣文,劉美,等.輪廓波域內(nèi)局部對(duì)比度增強(qiáng)的彩色圖像灰度化算法[J].液晶與顯示,2020,35(2):151?160.
[11] 郝志峰,李俊峰,蔡瑞初,等.面向圖文匹配任務(wù)的多層次圖像特征融合算法[J].計(jì)算機(jī)應(yīng)用研究,2020,37(3):951?956.
[12] 秦宇幸,羿旭明.結(jié)合顯著性和邊緣信息的水平集圖像分割方法[J].圖學(xué)學(xué)報(bào),2021,42(5):738?743.
[13] 程曉靜,?;郜?基于時(shí)頻圖像的無(wú)人機(jī)信號(hào)檢測(cè)識(shí)別算法研究[J].信息技術(shù),2022,46(4):170?174.
[14] 徐里萍,侯玲,張建欣,等.利用改進(jìn)型語(yǔ)義特征的Web商品信息挖掘方法[J].信息技術(shù),2019,43(7):142?145.
[15] 王紀(jì)軍,靖慧,馮曙明,等.基于Faster R?CNN的倉(cāng)庫(kù)視頻監(jiān)控目標(biāo)檢測(cè)方法研究[J].信息技術(shù),2019,43(7):92?96.