摘"要:當前各行各業(yè)面臨著數(shù)字化轉型,亟需工廠各個環(huán)節(jié)設備的儀表數(shù)據(jù)進行全流程的感知,然而大量接口封閉和無數(shù)據(jù)接口的LCD數(shù)字儀表難以快速地獲得數(shù)據(jù)。針對LCD儀表數(shù)字檢測識別過程中的圖像信息冗余、顯示屏幀切換導致的數(shù)字重影和邊緣側快速部署需求,提出了一種采用Jetson嵌入式平臺的LCD儀表數(shù)字識別方法。該方法通過設定感興趣區(qū)域(Region"of"Interest,"ROI)減少冗余信息,并結合幀間差分獲得ROI閾值信息,過濾掉儀表重影圖像,最后應用PPOCRv2輕量化網絡模型中的檢測網絡模型和識別網絡模型。測試結果表明,在Jetson嵌入式平臺部署程序,采用幀間差分法能夠顯著地過濾掉LCD儀表數(shù)字重影圖像,獲得穩(wěn)定的儀表數(shù)值,其檢測速度平均為0.37"s,滿足工廠場景實際需求。
關鍵詞:數(shù)字儀表識別;幀間差分;深度網絡模型;嵌入式平臺
中圖分類號:TP242.2"""""""文獻標識碼:A
Research"on"Digital"Recognition"Method"for"LCD"Meter
Using"Jetson"Embedded"Platform
GUO"Qingda1,2,"LIU"Jian2,"LI"Jian2,"HU"Kunyuan1,2,"YU"Guangping1,2
(1.Shenyang"Institute"of"Automation,"Chinese"Academy"of"Sciences,"Shenyang,"Liaoning"110017,China;
2.Guangzhou"Institute"of"Industrial"Intelligence,"Guangzhou,"Guangdong"511458,China)
Abstract:At"present"various"industries"are"needing"digital"transformation"and"there"is"an"urgent"need"for"full"process"perception"of"meter"data"from"various"equipment"in"factories."However,"a"large"number"of"LCD"digital"meter"with"closed"interfaces"and"no"data"interfaces"are"difficult"to"quickly"obtain"data."Due"to"the"redundancy"of"image"information,"digital"ghosting"caused"by"screen"frame"switching"and"rapid"deployment"requirements"on"the"edgenbsp;side,"we"proposed"a"digital"recognition"method"for"LCD"meter"using"the"Jetson"embedded"platform."The"method"reduces"redundant"information"by"setting"regions"of"interest"(ROI),"and"filters"meter"ghosting"images"by"setting"ROI"threshold"value"obtained"through"interframe"difference."Finally,"detection"network"model"and"recognition"network"model"in"the"PPOCRv2"lightweight"network"model"are"applied."The"test"results"show"that"the"program"is"easily"deployed"on"the"Jetson"embedded"platform,"filter"out"LCD"meter"digital"ghosting"images"and"obtain"right"meter"display"values."The"digital"recognition"method"has"an"average"detection"speed"of"0.37"s"and"meet"the"actual"needs"of"industry"scenarios.
Key"words:digital"meter"recognition;interframe"difference"method;deep"neural"network;embedded"platform
近些年,隨著物聯(lián)網和工業(yè)互聯(lián)網等技術的快速發(fā)展,各行各業(yè)構建了“云-邊-端”架構的云平臺并融合新一代人工智能技術,實現(xiàn)企業(yè)數(shù)字化、網絡化、智能化、綠色化發(fā)展[1-3]。構建云平臺的基礎是設備或工藝流程中設備參數(shù),這些數(shù)據(jù)的深度挖掘可以感知、預測設備故障或者工藝狀態(tài)。在離散或流程制造現(xiàn)場,通常部署大量的儀器儀表,實現(xiàn)設備或者工藝狀態(tài)的監(jiān)測控制?,F(xiàn)場的各種儀表一般分為接口開放型、接口封閉型和無數(shù)據(jù)接口型。接口開放型儀表可通過各種通信協(xié)議進行網絡協(xié)議轉換,獲得儀表數(shù)據(jù)并上傳至云端;接口封閉型和無數(shù)據(jù)接口型儀表不能通過工業(yè)通信協(xié)議轉換獲得儀表數(shù)據(jù),而計算機視覺和深度網絡模型的發(fā)展為儀表數(shù)據(jù)圖像識別獲得提供了一種可行的解決方案。
儀表一般分為指針型和數(shù)字型儀表,而在數(shù)字型儀表中LCD儀表是較為常見的類型。由于儀表類型種類多種多樣,其解決方案也是各有不同。陳開峰等[4]提出改進YOLOv5的目標檢測框架,針對數(shù)字儀表目標區(qū)域在整張圖片大小不一致的情況,實現(xiàn)感興趣區(qū)域的迭代目標檢測方法。華澤璽等[5]針對變電站場景中的數(shù)字儀表(7段數(shù)字),提出了一種基于輕量級YOLOv4模型的數(shù)字儀表檢測識別方法,在不損失精度的情況下將模型壓縮大約5倍。曾科等[6]針對字符3和7誤識別率高,提出了一種用傾斜直線代替?zhèn)鹘y(tǒng)的豎直直線的改進方法。楊鑫威等[7]針對數(shù)字儀表圖像中示數(shù)區(qū)域存在透視畸變的問題,提出一種基于八點回歸的凸四邊形示教區(qū)域擬合算法。祝長生等[8]面向溫濕度檢定儀的數(shù)字識別提出了一種基于不變矩(Hu矩與Zernike矩)信息融合的數(shù)字識別算法??芪牟┑萚9]以數(shù)顯式流量計儀表字符為研究對象,提出了一種改進Transformer模型的儀表字符識別算法。Karthick"等[10]提出了面向電能儀表7段數(shù)字的YUVA"EB數(shù)據(jù)集,涉及傾斜、模糊、白天和夜間等儀表圖像,進一步地采用MSER和標記方法進行OCR(Optical"Character"Recognition)儀表識別。這些方法皆面向固定場景或者特定對象的數(shù)字儀表識別,在LCD儀表數(shù)字中難以遷移應用。
多場景通用性OCR網絡模型獲得了突破性發(fā)展,尤其是百度公司開源了PaddleOCR框架[11],支持多種深度網絡模型,并可在多平臺進行部署應用。這為在Jetson嵌入式平臺搭建邊緣側的LCD儀表數(shù)字識別方案,提供了一種可行性方案。由于LCD儀表顯示屏具有大量的冗余信息和顯示屏幀切換時的數(shù)字重影,不能直接地檢測識別獲得準確的儀表數(shù)值。本文在輕量化深度網絡模型PPOCRv2和幀間差分法基礎上,搭建了基于Jetson嵌入式平臺的一套面向LCD儀表數(shù)字識別方法,最后采用某時間段LCD儀表視頻進行了對比測試。
1"系統(tǒng)架構及算法
1.1"項目算法框架
本項目建立了一種基于Jetson嵌入式平臺的LCD儀表數(shù)字識別框架,如圖1所示。首先,在原始圖像上采用交互操作建立目標感興趣區(qū)域(ROI),進行圖像分割以提取關鍵圖像區(qū)域并減少計算量,采用幀間差分法過濾儀表數(shù)字重影圖像,最后采用PPOCRv2網絡框架進行數(shù)字識別,其中去掉文字方向識別模型,保留數(shù)字檢測和識別模型。
1.2"幀間差分法
幀間差分法[12]是指使用視頻相鄰兩幀圖像進行差分獲得差異區(qū)域圖像,通過其亮度差的絕對值來分析視頻或圖像序列中的運動特性,因此一般多用在運動區(qū)域檢測場景或者序列圖像差異性檢測。
設Ak(i,j)為第k幀灰度圖像,Ak-1(i,j)為第k-1幀灰度圖像,將兩幅圖像進行差分處理,獲得:
Dk(i,j)=Ak(i,j)-Ak-1(i,j)
將幀差圖像進行二值化處理,獲得二值圖像Tk(i,j):
Tk(i,j)=1"Dk(i,j)≥Th
0"Dk(i,j)lt;Th
其中Tk(i,j)為二值化后的像素,Th為設定的像素閾值。
1.3"輕量化網絡模型
PPOCRv2網絡模型引入了知識蒸餾訓練策略,解決端側預測效率較差、背景復雜以及相似字符的誤識等問題;相比于PPOCR深度網絡模型魯棒性更強,比PPOCR提升模型精度7%。
在文字檢測網絡模型中,采用了協(xié)同互學習(Collaborative"Mutual"Learning,CML)和CopyPaste數(shù)據(jù)增強。CML利用兩個Student網絡和一個Teacher網絡來學習更強大的文本檢測器,如圖2(a)所示。CopyPaste是一種新的數(shù)據(jù)增強技巧,已被證明能有效提高目標檢測和實例分割任務的性能。
在文字識別網絡模型中,采用了輕量化CPU模型(Lightweight"CPU"Network,PPLCNet)、統(tǒng)一深度相互學習(UnifiedDeep"Mutual"Learning)和增強損失函數(shù)(Enhanced"CTC"Loss)。輕量化CPU模型是一種新設計的基于Intel"CPU的輕量級骨架網絡,它是從MobileNetV1改進而來的,如圖2(b)所示。統(tǒng)一深度相互學習利用兩個Student網絡學習更準確的文本識別器。增強損失函數(shù)采用CenterLoss方法來降低相似字符的錯誤。
2"軟硬件搭建與算法測試
2.1"硬件和軟件平臺
NVIDIA"Jetson是目前部署深度網絡模型的理想嵌入式平臺,其在深度學習方面具有計算效率高、能耗低和方便部署等優(yōu)點。Jetson"TX2采用NVIDIA"Pascal架構,支持256顆CUDA核心,可以構建更大型的深度網絡模型,如圖3(a)所示為Jetson"TX2的開發(fā)者套件。
Jetson"TX2的開發(fā)者套件支持CSI攝像頭,然而其僅滿足Python2語言的開發(fā)應用,因此項目采用USB攝像頭(RGB,分辨率:1920×1080)進行系統(tǒng)搭建,滿足Python3語言的開發(fā)應用,如圖3(b)所示;項目采用水質監(jiān)測儀表(濁度)進行LCD數(shù)據(jù)測試,如圖4所示。
運行在Jetson平臺的是Ubuntu1804系統(tǒng),采用Pycharm軟件平臺和Python3語言編程(版本3.8),需要用到的庫包括OpenCVPython、Matplotlib、PaddleOCR、Numpy、Scikitimage、Polygon3、PIL等。
2.2"算法測試步驟
為了驗證和完善算法,主要進行以下步驟:
1)把USB攝像頭放置在LCD儀表正前面,使其能夠清晰地拍攝到數(shù)字區(qū)域;
2)啟動Jetson嵌入式平臺,加載輕量化深度網絡模型主程序;
3)啟動USB攝像頭捕捉儀表圖像,手動選定待識別的數(shù)字ROI區(qū)域;
4)根據(jù)選定的數(shù)字ROI區(qū)域進行圖像分割減少圖像尺度,進行幀間差分處理;
5)統(tǒng)計幀間差分法后的二值化像素,判斷是否進行下一步數(shù)字檢測與識別。
6)如果二值化圖像滿足設定的閾值,將由輕量化深度網絡模型進行檢測識別;如果二值化圖像不滿足閾值,將重新獲得儀表圖像;
7)完成識別后的LCD儀表數(shù)值,將發(fā)送給服務器端進行云臺的數(shù)據(jù)保存及后續(xù)處理。
2.3"結果分析
我們從圖像序列中獲取了10組LCD儀表穩(wěn)定狀態(tài)和顯示屏幀切換狀態(tài)的RGB圖像進行了幀間差分預處理,如圖5(a)(b)所示,其中穩(wěn)定狀態(tài)的圖像比較清晰,而顯示屏幀切換時的重影圖像由于顯示屏拖影產生重影圖像,難以分辨出準確的數(shù)字。在對LCD儀表穩(wěn)定狀態(tài)和顯示屏幀切換時的RGB圖像灰度化后,進行幀間差分法計算,如圖5(c);再對幀間差分法后的灰圖像進行二值化,如圖5(d)所示,可清晰地觀測重影區(qū)域,最后統(tǒng)計幀間差分后的二值化圖中所變化像素值。
3"數(shù)字識別結果與對比分析
根據(jù)10組圖像分析,在幀間差分后的圖像進行了重影像素閾值設定(測試中設為零),以過濾LCD儀表顯示屏幀切換時的數(shù)字重影圖像,獲得儀表數(shù)字穩(wěn)定狀態(tài)的圖像。進一步地,在此硬件基礎上保存了某段時間內的視頻序列,分別進行有無過濾重影圖像的LCD儀表數(shù)字識別,結果如圖6(a)(b)所示,可觀測到采用幀間差分法的預處理模塊能過濾LCD儀表數(shù)字的重影圖像,獲得儀表的準確數(shù)值并同時減少LCD儀表非自身的數(shù)值波動干擾;圖6(c)顯示兩個無過濾的LCD儀表數(shù)字識別的擾動數(shù)值情況。同時,連續(xù)500幀的檢測、識別測試,其平均每幀時間為0.37"s,能夠滿足大多數(shù)LCD儀表數(shù)字識別場景。
作為對比測試,進一步地針對USB攝像機原始圖像未經按需設定數(shù)字ROI區(qū)域,進行PPOCRv4檢測模型與識別模型處理,結果如圖7所示。PPOCRv4模型檢測與識別結果是多個無序文字或數(shù)字組,且存在誤識別的字符,難以準確有效地獲得儀表數(shù)值,同時算法無存在重影過濾算法,不能滿足邊緣側的可靠性部署需求。
4"結"論
目前中國企業(yè)已基本完成了自動化改造,擁有大量的自動化設備儀器;在向“云-邊-端”數(shù)字體系架構轉型過程中,大量接口封閉型和無數(shù)據(jù)接口型儀表的存在使管理者難以準確地感知產品生產過程中的質量態(tài)勢。針對工業(yè)現(xiàn)場中的LCD儀表數(shù)字識別需求,提出了一種采用Jetson嵌入式平臺的LCD儀表數(shù)字識別方法,通過設定數(shù)字ROI區(qū)域減少冗余圖像信息,采用幀間差分法過濾顯示屏幀切換過程中的數(shù)字重影圖像,最后基于PPOCRv2架構中的數(shù)字檢測和識別模型獲得準確的儀表數(shù)值。該方法每幀圖像的識別周期平均為0.37"s,可以滿足工廠大多數(shù)場景的儀表數(shù)字識別需求。未來的工作中將繼續(xù)采用Jetson嵌入式平臺,進行多數(shù)據(jù)組的識別要求,探索在保持精度的情況下壓縮模型以及把設備部署至“云-邊-端”架構。
參考文獻
[1]"周濟,周艷紅,王柏村,"等.面向新一代智能制造的人信息物理系統(tǒng)(HCPS)[J]."Engineering,"2019,"5(4):"71-97.
[2]"袁沐坤,"于廣平,"劉堅,"等."基于感知-決策-評估的污水處理智能曝氣方法[J]."工業(yè)水處理,"2022,"42(4):"65-72.
[3]"何王金,"于廣平,"郭清達,"等.基于神經網絡的鋰萃取率軟測量模型研究[J]."計算機仿真,"2021,"38(2):"174-179.
[4]"陳開峰,"俞偉聰,"唐雁文,"等."基于輕量化深度學習網絡的數(shù)字儀表識別[J]."科學技術與工程,"2023,"23(2):"674-680.
[5]"華澤璽,施會斌,羅彥,等."基于輕量級YOLOv4模型的變電站數(shù)字儀表檢測識別[J]."西南交通大學學報,2024,59(1):70-80.
[6]"曾科,高潮,扶新,等."多參數(shù)數(shù)顯儀表的自動識別方法研究[J]."中國測試,"2018,"44(12):"122-128."
[7]"楊鑫威,"鄧春華."基于巡檢機器人的數(shù)字儀表自動識別方法[J]."計算機工程與設計,"2023,"44(5):"1502-1510.
[8]"祝長生,"張成元,"徐亞超."溫濕度檢定儀中的數(shù)字式儀表識別[J]."科學技術與工程,"2020,"20(34):14120-14125.
[9]"寇文博,"屈八一,"李智奇."一種改進Transformer的儀表字符識別算法[J]."自動化與儀器儀表,"2022,"7:"284-288.
[10]"KARTHICK"K,"KAVASKAR"S."Text"detection"and"recognition"in"raw"imagenbsp;dataset"of"seven"segment"digital"energy"meter"display[J]."Energy"Reports,"2019,"5:"842-852.
[11]"DU"Y"N,"LI"C"X,"GUO"R"Y,"et"al."PPOCRv2:"bag"of"tricks"for"ultra"lightweight"OCR"system[J]."arXiv"2021,"arXiv:2109.03144.
[12]"付蓮蓮,"丁鑫圣,"王映龍."基于幀間差分法的口罩佩戴檢測算法研究[J]."計算機仿真,"2022,"39(10):"250-254.