摘 要:文中構(gòu)建了一種智能商品購物系統(tǒng),該系統(tǒng)融合了深度學(xué)習(xí)與ROS框架。系統(tǒng)采用ResNet圖像識(shí)別技術(shù),能夠精準(zhǔn)辨識(shí)30種不同類別的水果。此外,系統(tǒng)還憑借著ROS的通信優(yōu)勢與ARM嵌入式架構(gòu),實(shí)現(xiàn)了實(shí)時(shí)商品稱重、自動(dòng)計(jì)價(jià)以及提供詳盡的購物信息反饋。這不僅提升了消費(fèi)者的體驗(yàn),還推動(dòng)商超朝著無人化、智能化的運(yùn)營方向發(fā)展,契合新零售時(shí)代的需求。
關(guān)鍵詞:深度學(xué)習(xí); ROS框架; ResNet; 圖像識(shí)別; 計(jì)價(jià)系統(tǒng); 智能購物
中圖分類號(hào):TP368.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)07-00-04
0 引 言
傳統(tǒng)超市購物車往往存在結(jié)賬排隊(duì)時(shí)間長、缺乏人機(jī)交互機(jī)制的問題,這在一定程度上會(huì)影響顧客的購物體驗(yàn)[1]。如今,智能化浪潮席卷而來,圖像識(shí)別技術(shù)取得顯著進(jìn)展,其應(yīng)用領(lǐng)域不斷拓展,功能也日益強(qiáng)大。把人工智能圖像識(shí)別技術(shù)融入超市購物車體系,無疑是順應(yīng)了行業(yè)發(fā)展趨勢,既能為顧客和超市工作人員提供便利,又能顯著提升人們?cè)谫徫镞^程中的愉悅度和參與感。
在圖像識(shí)別技術(shù)的多元應(yīng)用場景里,商品識(shí)別格外引人注目。圖像識(shí)別技術(shù)能夠?qū)D片信息加以分析處理,精準(zhǔn)判定商品的種類,這不但有力地提升了商品的流通效率,而且顯著縮短了顧客結(jié)賬的等待時(shí)間[2-3]。本項(xiàng)目的目標(biāo)是把融合深度學(xué)習(xí)算法與ROS(Robot Operating System)框架的圖像識(shí)別技術(shù)運(yùn)用到超市購物車系統(tǒng)中,以實(shí)現(xiàn)對(duì)各類商品的即時(shí)識(shí)別。此外,通過配套的軟件開發(fā),該系統(tǒng)還能實(shí)現(xiàn)購物車預(yù)約、商品詳情查詢、實(shí)時(shí)賬單瀏覽等功能,全方位營造智能化購物環(huán)境,極大地提升顧客在消費(fèi)過程中的互動(dòng)體驗(yàn)和滿意度。
1 系統(tǒng)需求分析
1.1 功能需求分析
本系統(tǒng)設(shè)計(jì)集成了商品識(shí)別與移動(dòng)應(yīng)用(APP)兩大功能模塊。前者實(shí)現(xiàn)商品圖像采集與智能識(shí)別,后者實(shí)現(xiàn)購物車預(yù)約、商品信息查閱與賬單追蹤查詢等全方位便捷服務(wù)。具體功能需求分析如下:
(1)商品圖像拍攝功能。用戶在選取待識(shí)別商品后會(huì)觸發(fā)識(shí)別請(qǐng)求,系統(tǒng)隨即向攝像頭節(jié)點(diǎn)發(fā)布拍攝指令。攝像頭接收到指令后捕捉商品圖像,并將此高清圖片信息回傳至系統(tǒng),完成圖像采集服務(wù)。
(2)商品圖像識(shí)別功能。系統(tǒng)對(duì)接收到的商品圖像予以處理,借助有效的算法識(shí)別圖像特征區(qū)域,依靠深度學(xué)習(xí)技術(shù)辨別商品類別,隨后將識(shí)別結(jié)果實(shí)時(shí)反饋到APP界面。此外,為保障數(shù)據(jù)安全存儲(chǔ),系統(tǒng)會(huì)實(shí)時(shí)更新本地?cái)?shù)據(jù)庫,并進(jìn)行云備份以確保數(shù)據(jù)的完整性和可用性。
(3)購物車預(yù)約功能。用戶通過藍(lán)牙連接啟用APP中的掃碼用車服務(wù),實(shí)現(xiàn)對(duì)購物車的遠(yuǎn)程連接與實(shí)時(shí)使用權(quán)限獲取。
(4)商品信息查閱功能。用戶通過APP即可獲取各類商品的詳盡信息,包括當(dāng)前售價(jià)、貨架位置等關(guān)鍵數(shù)據(jù),便于用戶快速定位商品并做出購買決策。
(5)賬單追蹤查詢功能。當(dāng)用戶將選購商品放入購物車后,系統(tǒng)會(huì)自動(dòng)記錄商品重量、數(shù)量等信息,并依據(jù)預(yù)設(shè)計(jì)費(fèi)規(guī)則實(shí)時(shí)計(jì)算賬單總額。用戶可在APP內(nèi)查看購物車商品明細(xì)及累計(jì)費(fèi)用。
1.2 性能需求分析
本系統(tǒng)設(shè)計(jì)重點(diǎn)關(guān)注識(shí)別準(zhǔn)確率、實(shí)用性、安全性與經(jīng)濟(jì)性四項(xiàng)性能指標(biāo)。
(1)識(shí)別準(zhǔn)確率:系統(tǒng)整合神經(jīng)網(wǎng)絡(luò)模型、深度學(xué)習(xí)算法與ROS框架,以此提升商品識(shí)別的精確度,確保在復(fù)雜場景中也能夠穩(wěn)定、準(zhǔn)確地識(shí)別各類商品。
(2)實(shí)用性:為保證系統(tǒng)的實(shí)用性,智能識(shí)別功能設(shè)計(jì)注重簡便易用,力求快速、準(zhǔn)確地獲取商品信息。APP界面遵循用戶友好原則,使顧客能輕松通過屏幕與導(dǎo)購車互動(dòng),便捷地查找、選購商品。
(3)安全性:在用戶隱私保護(hù)方面,系統(tǒng)嚴(yán)格確保用戶注冊(cè)信息及商品識(shí)別記錄僅對(duì)用戶本人及授權(quán)管理員可見,以保障用戶信息的安全性和私密性。
(4)經(jīng)濟(jì)性:在成本控制方面,選用性價(jià)比高的器件模塊,既兼顧成本效益,又確保其性能與可靠性滿足系統(tǒng)運(yùn)行要求。充分利用現(xiàn)有網(wǎng)絡(luò)和通信技術(shù),通過手機(jī)APP和藍(lán)牙通信,最小化額外硬件投入。
2 系統(tǒng)功能設(shè)計(jì)
2.1 系統(tǒng)總體設(shè)計(jì)
基于ROS的水果商品識(shí)別計(jì)價(jià)系統(tǒng)整體設(shè)計(jì)包含商品稱重、商品識(shí)別和商品計(jì)價(jià)顯示三大模塊,其總體框架如圖1所示。該系統(tǒng)實(shí)現(xiàn)了完整流程,即用戶將商品放入商品識(shí)別模塊,系統(tǒng)識(shí)別商品并計(jì)算出價(jià)格供用戶結(jié)算。整個(gè)功能架構(gòu)由客戶端與服務(wù)器端兩部分構(gòu)成。其中,客戶端負(fù)責(zé)商品圖片信息和重量信息的采集,以及商品計(jì)價(jià)信息的實(shí)時(shí)顯示;服務(wù)器端則主要負(fù)責(zé)商品圖片的識(shí)別處理與商品價(jià)格的計(jì)算。
為實(shí)現(xiàn)上述功能體系,本文采用ROS的分布式通信框架,將系統(tǒng)分為五個(gè)核心功能節(jié)點(diǎn):商品稱重節(jié)點(diǎn)、商品拍照節(jié)點(diǎn)、圖片識(shí)別節(jié)點(diǎn)、商品計(jì)價(jià)節(jié)點(diǎn)以及商品顯示節(jié)點(diǎn)。這些節(jié)點(diǎn)間的交互與數(shù)據(jù)調(diào)用均依托于ROS提供的基礎(chǔ)通信機(jī)制——話題、服務(wù)與動(dòng)作,形成有機(jī)協(xié)作網(wǎng)絡(luò)。此架構(gòu)關(guān)系如圖2所示。
2.2 重要功能設(shè)計(jì)
系統(tǒng)中實(shí)現(xiàn)了商品稱重、圖像分類、分布式通信等關(guān)鍵模塊,核心技術(shù)包括基于深度學(xué)習(xí)方法的圖像識(shí)別技術(shù)與基于ROS框架的多節(jié)點(diǎn)通信技術(shù)。
2.2.1 基于深度學(xué)習(xí)方法的圖像分類功能設(shè)計(jì)
該功能依托集成了眾多成熟的圖像識(shí)別模型與便捷功能函數(shù)的Pytorch框架構(gòu)建。
本文采用當(dāng)前領(lǐng)域內(nèi)經(jīng)典的殘差神經(jīng)網(wǎng)絡(luò)模型構(gòu)建圖像識(shí)別模型,選用ResNet18框架[4]。ResNet18框架結(jié)構(gòu)簡潔且具備高效識(shí)別能力,它包含1個(gè)無Shortcut的卷積層、4層殘差塊以及1個(gè)全連接層。ResNet18已集成于Pytorch框架下的torch庫,所以在訓(xùn)練階段可直接調(diào)用該預(yù)置模型。
在模型的工作流程里,ResNet18的池化層負(fù)責(zé)從水果圖像中提取特征向量,進(jìn)而生成各類商品的Logit得分,這些得分再經(jīng)過Softmax函數(shù)處理以完成分類。鑒于識(shí)別模型的部署需求,本文把預(yù)先訓(xùn)練好的原生Pytorch模型轉(zhuǎn)化為通用的ONNX模型中間格式[5]。這一轉(zhuǎn)換有助于模型的個(gè)性化優(yōu)化以及跨平臺(tái)部署,能夠有效避免直接導(dǎo)出模型時(shí)可能產(chǎn)生的結(jié)構(gòu)與算子不兼容的問題,比如在非最大值抑制(NMS)等后處理中可能出現(xiàn)的大規(guī)模條件判斷操作等潛在障礙。
構(gòu)建整個(gè)圖像識(shí)別系統(tǒng)的過程可歸納為三個(gè)核心環(huán)節(jié):啟動(dòng)圖像捕獲、執(zhí)行圖像分類以及展示識(shí)別結(jié)果。這三個(gè)環(huán)節(jié)分別由各自專用的軟硬件組件協(xié)同實(shí)現(xiàn)。
圖像捕獲模塊:當(dāng)將商品置于識(shí)別系統(tǒng)配備的電子秤上時(shí),電子秤會(huì)將稱重信息轉(zhuǎn)化為數(shù)字信號(hào),并交由STM32單片機(jī)處理,STM32通過串口通信將信號(hào)發(fā)送至樹莓派上位機(jī)。一旦商品質(zhì)量超過預(yù)設(shè)閾值,樹莓派便會(huì)觸發(fā)攝像頭進(jìn)行拍攝。
圖像分類模塊:該模塊負(fù)責(zé)接收樹莓派傳入的圖像信息并進(jìn)行識(shí)別。模塊使用帶GPU的工控機(jī),并利用已訓(xùn)練好的ResNet18殘差神經(jīng)網(wǎng)絡(luò),輸出各分類的識(shí)別置信度,并通過排序算法確定最可能的水果類別。
識(shí)別結(jié)果傳輸與展示:此模塊負(fù)責(zé)存儲(chǔ)圖像識(shí)別結(jié)果并將結(jié)果呈現(xiàn)在顯示屏上,同時(shí)實(shí)時(shí)傳輸至消費(fèi)者的APP中。
對(duì)于模型預(yù)測部分,本文使用Sigmoid激活函數(shù)得到預(yù)測結(jié)果的Logit分?jǐn)?shù)[6]。此分?jǐn)?shù)實(shí)質(zhì)上代表了系統(tǒng)對(duì)某一特定類別的原始置信度量,如式(1)所示:
系統(tǒng)在獲得Logit分?jǐn)?shù)后,運(yùn)用Softmax函數(shù)將原始分?jǐn)?shù)轉(zhuǎn)換為概率分布,如式(2)所示。此概率得分能夠清晰反映系統(tǒng)對(duì)商品屬于各類別的置信度,為后續(xù)分類判斷提供量化依據(jù)。
式中:zi是Logit中的第i個(gè)元素;σ(x)i是Softmax函數(shù)的輸出,表示商品屬于第i個(gè)類別的概率。
2.2.2 基于ROS框架的多節(jié)點(diǎn)協(xié)調(diào)工作
該功能基于ROS Noeti框架構(gòu)建[7]。系統(tǒng)被劃分為四個(gè)核心功能節(jié)點(diǎn),各節(jié)點(diǎn)通過通信機(jī)制共同實(shí)現(xiàn)整體功能。這四個(gè)節(jié)點(diǎn)分別為:商品稱重、商品拍照、商品識(shí)別及商品計(jì)價(jià)與顯示[8-12]。這些節(jié)點(diǎn)間的協(xié)作實(shí)現(xiàn)了商品識(shí)別和商品信息實(shí)時(shí)顯示兩大核心功能。
在商品識(shí)別環(huán)節(jié),商品稱重節(jié)點(diǎn)作為信息發(fā)布者,通過ROS話題發(fā)布商品重量數(shù)據(jù)。商品拍照節(jié)點(diǎn)作為訂閱者,訂閱該重量信息。當(dāng)檢測到商品存在時(shí),商品拍照節(jié)點(diǎn)與商品識(shí)別節(jié)點(diǎn)利用ROS服務(wù)功能進(jìn)行分布式通信,完成商品圖像的捕捉與識(shí)別。
在商品信息提供方面,通過商品識(shí)別、商品稱重、商品計(jì)價(jià)與商品顯示四個(gè)節(jié)點(diǎn)聯(lián)動(dòng),共同完成商品識(shí)別信息的字典對(duì)照、按重量計(jì)價(jià)計(jì)算、液晶屏實(shí)時(shí)打印以及APP端信息同步傳輸。
3 系統(tǒng)軟件設(shè)計(jì)
3.1 APP設(shè)計(jì)
近年來,隨著5G技術(shù)的日益成熟,智能手機(jī)逐漸具備高速數(shù)據(jù)傳輸能力。在此背景下,該項(xiàng)目創(chuàng)新性地開發(fā)了一款以便攜式電子設(shè)備為平臺(tái),利用圖像識(shí)別技術(shù)將數(shù)據(jù)實(shí)時(shí)上傳至云端進(jìn)行高效處理的軟件服務(wù)。
設(shè)計(jì)的APP旨在全面提升用戶交互體驗(yàn),使其能夠便捷地獲取商品信息、管理購物車及查詢賬單等,顯著提升了產(chǎn)品的實(shí)用價(jià)值。用戶在個(gè)人中心不僅可以輕松完成注冊(cè)、登錄與個(gè)人信息維護(hù),還能隨時(shí)查閱過往購物歷史、下載支付憑據(jù)等詳細(xì)記錄。如圖3所示,APP界面共包含五大核心板塊:首頁、掃車界面、模式選擇頁面、商品詳情頁以及用戶中心頁,旨在為用戶提供直觀、流暢的操作路徑。
3.2 APP控制
用戶首先通過掃描購物車二維碼實(shí)現(xiàn)登錄。當(dāng)消費(fèi)者在搜索欄輸入關(guān)鍵詞以查找某商品時(shí),系統(tǒng)將及時(shí)提供該商品的價(jià)格、庫存位置等關(guān)鍵信息。當(dāng)商品被放入購物車后,主控制器會(huì)立即獲取其重量與數(shù)量數(shù)據(jù),并將這些數(shù)據(jù)傳輸至APP界面顯示;同時(shí),APP會(huì)據(jù)此實(shí)時(shí)計(jì)算并顯示購物總金額及詳細(xì)的賬單構(gòu)成。
當(dāng)購物者決定結(jié)賬并點(diǎn)擊“買單”按鈕時(shí),APP通過藍(lán)牙模塊發(fā)起下單請(qǐng)求,并負(fù)責(zé)接收生成的支付二維碼。隨后,該支付二維碼會(huì)被呈現(xiàn)在APP界面上,使得用戶能夠方便地使用微信或支付寶掃描二維碼完成支付手續(xù)。
4 系統(tǒng)調(diào)試與結(jié)果
表1展示了水果商品識(shí)別模型可辨識(shí)的水果品種及其對(duì)應(yīng)的測試集分類準(zhǔn)確度。測試集的商品圖片是人工在不同光照下,每次對(duì)同一種類的多個(gè)樣品隨機(jī)選擇的條件下拍攝而成的,基本滿足測試集充分且能代表整個(gè)數(shù)據(jù)集的要求。該識(shí)別系統(tǒng)的準(zhǔn)確率普遍達(dá)到了預(yù)期標(biāo)準(zhǔn),這充分證明其在實(shí)際應(yīng)用中具備可靠性和高效性。
圖4展示的是ONNX格式下的ResNet18模型結(jié)構(gòu),圖5為商品識(shí)別示例及置信概率圖。由此可以看出,該項(xiàng)目中的水果商品識(shí)別系統(tǒng)具有廣泛的識(shí)別能力、較高的分類精確度,其模型結(jié)構(gòu)和識(shí)別過程清晰,整體性能穩(wěn)定且高效,具備在實(shí)際應(yīng)用中推廣使用的條件。
5 結(jié) 語
首先,本項(xiàng)目以深度學(xué)習(xí)算法為依托,其識(shí)別系統(tǒng)有著強(qiáng)大的模式識(shí)別與學(xué)習(xí)能力,可精準(zhǔn)、高效地鑒別各類商品,從而確保識(shí)別結(jié)果的準(zhǔn)確性與可靠性。該算法模型經(jīng)訓(xùn)練與優(yōu)化后,能在復(fù)雜的商超環(huán)境中迅速捕獲并解析商品特征,為后續(xù)的自動(dòng)化流程奠定堅(jiān)實(shí)基礎(chǔ)。
其次,本項(xiàng)目選取ROS作為系統(tǒng)通信架構(gòu)。ROS在同一局域網(wǎng)內(nèi)具備簡便快捷的通信機(jī)制,本項(xiàng)目充分利用這一機(jī)制,確保商品識(shí)別信息能夠?qū)崟r(shí)、低延遲傳輸,這一特性完美契合商品識(shí)別系統(tǒng)在固定環(huán)境內(nèi)快速響應(yīng)的需求。同時(shí),這也極大地提升了系統(tǒng)的整體運(yùn)行效率與穩(wěn)定性,使識(shí)別系統(tǒng)在復(fù)雜商超環(huán)境中的部署與維護(hù)變得更加便捷。
此外,本系統(tǒng)在設(shè)計(jì)時(shí)充分考慮用戶友好性與實(shí)用價(jià)值。識(shí)別出的商品信息可即時(shí)、清晰地呈現(xiàn)于用戶界面,方便顧客查閱與確認(rèn),從而實(shí)現(xiàn)商品識(shí)別過程的透明化與可視化,進(jìn)一步提升商超購物體驗(yàn)的智能化水平。
綜上所述,本項(xiàng)目將深度學(xué)習(xí)算法的強(qiáng)大識(shí)別能力和ROS通信框架的高效交互特性相融合,再結(jié)合嵌入式技術(shù),成功構(gòu)建出一款適用于商超場景的商品識(shí)別系統(tǒng)雛形。這一創(chuàng)新成果有力地推動(dòng)了商超運(yùn)營去人工化和智能化的進(jìn)程,為構(gòu)建智能化商超環(huán)境提供了極具潛力的技術(shù)支撐。
參考文獻(xiàn)
[1]劉海洋,夏鯤,童銳,等.基于ARM的自主跟隨無人結(jié)賬一體化智能購物車[J].農(nóng)業(yè)裝備與車輛工程,2024,62(2):94-98.
[2]王豐茂,吳戀,王雪,等.基于人工智能的果蔬識(shí)別及種植指導(dǎo)系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2024,14(3):98-101.
[3]劉孟,劉劍勇,黃長勇,等.基于人工智能的圖像識(shí)別技術(shù)研究[J].電工技術(shù),2023(6):84-86.
[4] ODUSAMI M, MASKELI NAS R, DAMA?EVI IUS R, et al. Analysis of features of Alzheimer’s disease: detection of early stage from functional brain changes in magnetic resonance images using a finetuned ResNet18 network [J]. Diagnostics, 2021, 11(6): 1071.
[5] SHRIDHAR A, TOMSON P, INNES M. Interoperating deep learning models with ONNX. jl [C]// Proceedings of the JuliaCon Conferences. [S.l.]: [s.n.], 2020: 59.
[6] SHARMA S, SHARMA S, ATHAIYA A. Activation functions in neural networks[J]. Towards data Science, 2017, 6(12): 310-316.
[7] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System [J]. ICRA workshop on open source software, 2009, 3: 5.
[8]李昊璇,閆新艷.基于深度殘差收縮網(wǎng)絡(luò)的商品圖像識(shí)別[J].測試技術(shù)學(xué)報(bào),2021,35(4):294-299.
[9]李林琛,李雪艷.開源 ROS 智能導(dǎo)航機(jī)器人[J]. 信息與電腦,2018(13):75-77.
[10] QUIGLEY M, GERKEY B, SMART W D. Programming robots with ROS: a practical introduction to the robot operating system [M]. [S.l.]: O'Reilly Media Inc, 2015.
[11]林宏偉,陳琪媚,曾仕峰,等. 基于 ROS 的無人派件機(jī)器人設(shè)計(jì)[J]. 物聯(lián)網(wǎng)技術(shù),2020,10(3):70-71.
[12]詹潤哲,姜飛. 基于 ROS 與深度學(xué)習(xí)的移動(dòng)機(jī)器人目標(biāo)識(shí)別系統(tǒng)[J]. 電子測試,2018(15):70-71.
收稿日期:2024-04-27 修回日期:2024-05-30
基金項(xiàng)目:國家級(jí)大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(SJ202310698072)
作者簡介:胡耀宇(2002—),男,研究方向?yàn)殡姎夤こ碳捌渥詣?dòng)化。
王榆銘(2002—),女,研究方向?yàn)殡姎夤こ碳捌渥詣?dòng)化。
劉晨雨(2002—),女,研究方向?yàn)殡姎夤こ碳捌渥詣?dòng)化。
黃安?。?004—),男,研究方向?yàn)殡姎夤こ碳捌渥詣?dòng)化。
鄭 杰(2003—),男,研究方向?yàn)樽詣?dòng)化。
高昕悅(1994—),女,碩士,工程師,研究方向?yàn)殡妼W(xué)基礎(chǔ)課程的實(shí)驗(yàn)教學(xué)。