摘"要:受設備老化與表面受力不均勻的影響,帶式輸送機易跑偏,導致故障和物料撒落。傳統(tǒng)監(jiān)測方法成本高且安裝復雜,為此,本研究提出基于深度學習的智能檢測方法,構建皮帶線語義分割數(shù)據(jù)集并標注;使用Unet模型檢測皮帶線,并通過MiT編碼器優(yōu)化;引入像素位置感知損失強化訓練;利用概率霍夫變換提取皮帶線的直線位置,定量分析偏移程度。試驗結果顯示,本模型在皮帶線預測上IoU達61.34%,僅占12.93GFlops,具備高效實時性,適用于多種輸送帶場景。
關鍵詞:深度學習;語義分割;MiT"Encoder;機器視覺
隨著數(shù)字化和智能化技術的推進,無人設備在工業(yè)領域的應用使得過程更加安全高效。帶式輸送機因傳輸效率高、穩(wěn)定性強,廣泛應用于鋼鐵、煤礦等領域,正朝著智能化方向發(fā)展。然而,輸送帶在長期運行中容易因受力不均而跑偏,導致設備磨損、能耗增加,甚至可能引發(fā)安全事故。因此,輸送帶跑偏檢測技術已成為工業(yè)自動化領域的研究熱點,及時檢測并糾正偏移對于確保設備安全至關重要[12]。
工業(yè)現(xiàn)場的皮帶偏移檢測方法分為接觸式和非接觸式兩類。接觸式檢測依賴偏移傳感器,通過位移感應觸發(fā)報警或自動糾偏,雖然結構簡單,但易受環(huán)境影響,且機械磨損大,需定期維護。非接觸式檢測包括激光和視覺檢測,其中激光檢測通過光電系統(tǒng)監(jiān)測皮帶邊緣位置,當偏移時激光信號變化觸發(fā)報警。參考文獻[2]的研究表明,激光技術提高了檢測精度,但由于成本高、環(huán)境要求苛刻,安裝維護復雜,不適用于一般工業(yè)場景。
基于視覺的皮帶偏移檢測通過工業(yè)相機拍攝皮帶運行狀態(tài),利用圖像處理技術分析位置和角度。隨著圖像處理算法與邊緣計算的發(fā)展,該方法在復雜環(huán)境中表現(xiàn)優(yōu)異。參考文獻[3]通過灰度變換、二值化、形態(tài)分析、canny邊緣檢測和hough線檢測等操作,提取皮帶邊緣直線特征判斷偏移,參考文獻[2]也采用類似方法實現(xiàn)判偏。然而,這類傳統(tǒng)算法易受成像環(huán)境和光照影響,對紋理信息敏感,且需定制化特征,難以適應新環(huán)境。近年來,基于深度學習的算法逐漸應用于皮帶偏移檢測。
為了提高視覺檢測算法的魯棒性,我們用到了基于Unet[4]框架的語義分割網(wǎng)絡模型,對皮帶位置進行提取。由于皮帶線像素占比較低且依賴全局信息,傳統(tǒng)Unet模型難以精確識別,我們使用MiT(Mix"Transformer)[5]編碼器對Unet進行了改進,同時提高了皮帶線識別的精度和速度。
1"語義分割網(wǎng)絡模型
語義分割任務對圖像進行逐像素分類。傳統(tǒng)方法依賴人工特征提取和圖像處理技術,需手動設計和調整參數(shù),泛化能力有限。自2014年全卷積網(wǎng)絡FCN[6]提出后,基于深度學習的語義分割網(wǎng)絡逐漸興起。2015年,Unet[4]通過編碼解碼結構成為經典模型,這些網(wǎng)絡通過端到端方式自動學習特征,消除了手動設計的需求,使得深度學習方法逐漸主導語義分割任務[7]。
1.1"Unet模型原理
Unet是一種卷積神經網(wǎng)絡(CNN),最初用于生物醫(yī)學圖像的像素級分割,適合小樣本數(shù)據(jù)集。其結構包括收縮路徑、擴展路徑和跳躍連接。收縮路徑類似編碼器,通過卷積和池化逐級提取抽象特征;擴展路徑類似解碼器,通過上采樣和卷積還原圖像分辨率;跳躍連接將收縮路徑中的特征圖傳遞給擴展路徑,幫助保留細節(jié)信息。
1.2"引入MiT編碼頭
卷積神經網(wǎng)絡受限于卷積核,僅能提取局部特征。為增大感受野,通常堆疊多個卷積塊,增加池化層,導致特征圖分辨率降低和細節(jié)丟失,限制了語義分割的發(fā)展。對于本研究的皮帶線分割任務,因其形狀細長,網(wǎng)絡難以在全局范圍內理解線狀特征的同時保留邊緣細節(jié)。
Transformer[8]最初為自然語言處理設計,由自注意力層和前饋全連接層組成,自注意力機制使模型能夠關注輸入序列中不同位置之間的關系,尤其在處理長距離依賴和序列到序列任務時表現(xiàn)出色,適合本研究的皮帶線分割任務。近年來,Transformer在圖像處理領域逐漸展現(xiàn)優(yōu)勢,出現(xiàn)了針對圖像處理的變種[5,9]。這些編碼器可與Unet模型結合,為輸入圖像提取特征并進行下采樣,利用Unet的跳躍連接實現(xiàn)精確的皮帶線分割。
1.3"引入像素位置感知損失
在語義分割任務中,選擇合適的損失函數(shù)對模型訓練至關重要。經典的二元分類損失函數(shù)包括二元交叉熵損失(BCE損失)和交并比(IoU損失),前者量化預測概率與真實分布之間的差異,后者評估預測分割與真實分割的重疊程度。然而,在皮帶線分割任務中,由于邊緣僅占幾個像素,傳統(tǒng)損失函數(shù)往往過于關注背景區(qū)域,無法有效集中注意力于前景。為此,本研究采用像素位置感知損失(PPA損失)[10],通過合成局部結構信息生成逐像素權重圖,優(yōu)先考慮前景輪廓的細節(jié),從而提高模型訓練的有效性。
2"試驗結果與分析
2.1"皮帶線圖像數(shù)據(jù)集搭建
為了確保皮帶數(shù)據(jù)集的多樣性,避免從同一視頻中提取大量重復幀導致模型過擬合,本項目除了使用工業(yè)生產線拍攝的皮帶數(shù)據(jù)外,還通過網(wǎng)絡收集了額外樣本,確保圖像樣本的差異性。最終,我們獲得了322個包含豐富工業(yè)場景和皮帶類別的圖像樣本。
對于每一個圖像樣本,我們將其縮放到512×512像素的分辨率。利用Labelme軟件進行皮帶線標注,并導出成黑白掩碼圖,皮帶線的寬度選取為8個像素點。
通過對樣本按照8∶2的比例劃分,我們得到258張訓練樣本和64張測試樣本。在模型訓練之前,我們對訓練集圖像進行預處理:先隨機裁剪到416×416像素的分辨率,然后對圖像進行隨機旋轉與翻轉;最后對圖像的亮度、對比度、飽和度、色調設置了隨機擾動。
2.2"結果與分析
為了精確地對網(wǎng)絡訓練結果進行定量評估,我們將預測概率閾值設置為0.5,以將皮帶線分割圖進行二值化。通過將該圖與真實標簽進行比較,能夠計算真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)各自的像素占比。然后可以定義不同的指標來評估分割網(wǎng)絡性能表現(xiàn),包括像素精度(Acc)、交并比(IoU)、精度(Pre)、召回率(Rec)和F1Score(F1值)。
像素精度表示分類正確的像素與圖像像素總數(shù)的比率。由于本皮帶線分割任務,線前景所占的像素點極低,絕大多數(shù)像素點屬于背景像素,因此像素精度主要受背景像素的分類情況主導,其數(shù)值趨近于1。
Acc=TP+TNTP+TN+FP+FN(1)
交并比是某一類別的預測結果區(qū)域與真實標簽區(qū)域的交集與并集的像素點數(shù)量的比值,該值越接近1表示對于該類別,預測與真實標簽越接近。對于本皮帶線分割任務,交并比是最主要的評價指標。
IoU=TPTP+FP+FN(2)
精度和召回的定義分別如下:
Pre=TPTP+FP(3)
Rec=TPTP+FN(4)
F1Score是精度和召回率的調和平均值,能夠同時考慮召回率和精度,通常用于不平衡數(shù)據(jù)集下的算法性能評估,計算如下:
F1=2×Pre×RecPre+Rec(5)
為了便于加速訓練,原始Unet和MiTBased"Unet的編碼器部分使用了ImageNet預訓練權重作為初始權重。模型總共訓練100個Epoch,Batchsize設置為4,模型初始學習率設置為1e3,以Poly方式進遞減衰減至零,多項式衰減系數(shù)為0.9,使用SGD作為優(yōu)化器,權值衰減為5e4,動量系數(shù)為0.9。
對修改后的模型進行評估,結果如表2所示。
前三組實驗在Unet模型的基礎上嘗試了不同的損失函數(shù),由表可知,單獨的PPA損失只考慮真實前景標簽的周圍區(qū)域,其效果弱于經典的BCE+IOU損失組合,但當PPA損失與經典損失相結合,則可以在兼顧全局圖像的基礎上著重關注待分割對象區(qū)域。實驗證明,模型推理的IoU指標達到58.395%,相較于原始損失函數(shù)提升了21個百分點,訓練效果顯著改進。
從后三組實驗可知,MiTBased"Unet得益于精簡高效的自注意力編碼頭,所需參數(shù)和計算量都小于相同深度的原始的基于cnn模型的Unet,參數(shù)量縮減了1.44倍,計算量縮減了5.08倍。訓練的模型在測試集上最高達到61344%交并比,這對于只存在8個像素寬度真實標簽的皮帶線分割而言,已經是屬于比較高的分割性能,已經接近與人工標記的誤差范圍。
全體實驗組的像素精度指標都在98%以上,說明占絕大多數(shù)像素的環(huán)境背景類別在該項指標當中占據(jù)主導作用,進一步印證了引入MiT編碼器和PPA損失對于改善分割性能的作用。
3"后處理
如下圖所示,將輸入圖像送入神經網(wǎng)絡后,可得到預測的分割掩碼圖。為了檢測輸送帶位置并進行跑偏監(jiān)測,需要進一步對掩碼圖進行直線擬合。由于直接采用霍夫變換可能受分割擾動影響而產生多條直線,我們采用概率霍夫變換提取短線段,并對其進行聚類與連接,從而獲得完整的皮帶線擬合坐標和斜率。根據(jù)模型預測結果,可以準確擬合直線位置,達到肉眼觀察的判偏精度。以圖像中心為參考點,可以得到左右直線在h/2位置的橫坐標,即為左右皮帶線的定量像素位置。最后,設置跑偏閾值(按經驗選取為皮帶寬度的十分之一),實現(xiàn)跑偏檢測。
結語
本研究設計了一個基于深度學習的輸送帶邊緣識別與跑偏檢測系統(tǒng),選擇Unet作為線檢測算法,并用MiT架構優(yōu)化編碼器,以增強全局語義信息的捕獲能力,提高檢測精度。我們搭建了實驗平臺,收集并標注了皮帶線圖像,建立了皮帶線分割數(shù)據(jù)集。在數(shù)據(jù)增強后,訓練過程中引入了像素位置感知損失,強化模型對皮帶線前景的學習。對于模型生成的預測掩碼圖,使用概率霍夫變換進行直線擬合,獲取直線的點斜式位置信息,以實現(xiàn)定量判偏監(jiān)測。
參考文獻:
[1]PANG"Y.Intelligent"belt"conveyor"monitoring"and"control[M].Delft:TRAIL"Research"School,2010.
[2]ZHANG"M,SHI"H,Yu"Y,et"al.Conveyor"deviation"detection"system[J].Applied"Sciences,2020:110.
[3]WANG"J,LIU"Q,DAI"M.Belt"vision"localization"and"deviation"detection[C]//YAC,IEEE,2019:269273.
[4]RONNEBERGRE"O,F(xiàn)ISCHER"P,BROX"T.UNet"for"image"segmentation[J].Lect.Notes"Comput.Sci.,2015,9351:234241.
[5]XIE"E,WANG"W,YU"Z,et"al.SegFormer:Transformers"for"Semantic"Segmentation[J].Adv.Neural"Inf.Process.Syst.,2021,34:1207712090.
[6]LONG"J,SHELHAMER"E,DARRELL"T.Fully"Convolutional"Networks"for"Semantic"Segmentation[C]//Proc.CVPR,2015:34313440.
[7]SU"J,ZHU"X,LI"S,et"al.AI"empowered"UAVs"for"precision"agriculture[J].Neurocomputing,2023,518:242270.
[8]VASWANI"A,SHAZEER"N,Parmar"N,et"al.Attention"is"All"You"Need[J].NeurIPS,2017,30:59986008.
[9]BEYER,A"L,KOLESNIKOV"A,et"al.An"Image"is"Worth"16x16"Words:Transformers"for"Image"Recognition"at"Scale[J].Adv.Neural"Inf.Process.Syst.,2020,33:1241012421.
[10]WEI"J,WANG"S,HUANG"Q.F3Net"for"salient"object"detection[J].AAAI,2020,34(7):1232112328.
福建省區(qū)域發(fā)展項目:圓管帶式輸送機智能巡檢技術與裝備的開發(fā)及應用,項目編號:2022H4027
作者簡介:李南雁(2001—"),男,漢族,湖北黃石人,碩士在讀,從事機器視覺工業(yè)巡檢;廖輝(1989—"),男,漢族,福建武平人,碩士,高級工程師,研究方向:大型散料輸送設備智能化開發(fā);趙龍(1996—"),男,漢族,湖南永州人,博士在讀,從事機器視覺工業(yè)巡檢;蘇金輝(1974—"),男,漢族,福建永定人,高級工程師,研究方向:散料輸送系統(tǒng)設計和設備智能巡檢系統(tǒng)開發(fā);藍武生(1990—"),男,畬族,福建上杭人,工程師,研究方向:散料巡檢系統(tǒng)開發(fā);陳夕松(1970—"),男,漢族,安徽全椒人,教授,博士生導師,研究方向:先進過程控制、擾動抑制理論及其在過程中的應用。