冀效勝,房懷英,2,楊建紅,黃驍民,張寶裕,黃斐智
1.華僑大學(xué)機電及自動化學(xué)院;2.福建省移動機械綠色智能驅(qū)動與傳動重點實驗室;3.福建南方路面機械股份有限公司
骨料是混凝土中不可或缺的組成部分,其性能與混凝土的強度和耐久性密切相關(guān)。骨料粒徑作為一項重要的質(zhì)量指標,對于混凝土的性能具有重要影響。合理的骨料級配可以在降低成本的同時提高混凝土的性能。因此,骨料粒徑的檢測在混凝土工程中具有十分重要的作用。
隨著科技的發(fā)展,數(shù)字圖像處理技術(shù)憑借其快速處理的優(yōu)勢正在逐漸取代傳統(tǒng)的檢測方法。在過去的研究中,主要研究不粘連的粗骨料圖像,很少涉及到堆疊狀態(tài)下骨料級配的在線測量。然而,在實際應(yīng)用中,對堆疊骨料進行在線測量具有更大的價值。為了獲得準確的級配結(jié)果,必須先對圖像進行分割,而圖像分割的質(zhì)量直接影響后續(xù)的結(jié)果分析。一些學(xué)者對圖像分割方法進行了廣泛的研究。Q.Yao等[1]通過檢測粘連顆粒的凹角點,并利用最短歐幾里得距離找到角點對,然后連接角點對將粘連顆粒進行分割,一定程度上解決了粘連顆粒的分割問題。劉娜[2]提出了一種結(jié)合數(shù)學(xué)形態(tài)學(xué)和形態(tài)分水嶺算法的方法,有效避免了僅使用形態(tài)學(xué)分割的過度分割現(xiàn)象。文獻[3]將改進的分水嶺分割算法應(yīng)用到實際的礦石顆粒檢測中,具有較好的應(yīng)用價值。董柯等[4]提出了一個結(jié)合局部自適應(yīng)閾值和改進的流域變換的算法。通過對積分圖像的自適應(yīng)閾值化分離區(qū)域,并對二值圖像進行距離變換和雙邊濾波,提高了算法的速度和對光照的適應(yīng)性。李希等[5]針對圖像處理中存在的誤分割問題,提出了一種基于局部極大值點采集的圖像處理方法,并成功應(yīng)用于粘連顆粒圖像的處理中,能夠有效地將粘連顆粒進行分割。然而傳統(tǒng)的圖像分割大多采用分水嶺或其改進算法,檢測速度快但易受到光照、噪聲等的影響,導(dǎo)致分割效果不穩(wěn)定且容易過分割。對于物體堆積嚴重的圖像,傳統(tǒng)分割方法和分水嶺算法難以滿足精確分割的要求,并且嚴苛的檢測條件限制了它們在復(fù)雜實際工況中的應(yīng)用。
目前,深度學(xué)習(xí)技術(shù)在圖像分割和目標檢測領(lǐng)域取得了顯著成果,一些學(xué)者將注意力轉(zhuǎn)向了該領(lǐng)域。文獻[6]提出了一種基于深度學(xué)習(xí)的分割方法,用于解決礦石圖像相互粘連和圖像陰影導(dǎo)致的分割不準確問題。該方法利用整體嵌套邊緣檢測(HED)模型提取圖像的邊緣特征,并采用表格查找方法來提取細化的邊緣信息,通過區(qū)域標記得到最終的分割結(jié)果。M.Tao等[7]針對鹽礦圖像識別問題,對U-Net[8]進行改進,并根據(jù)數(shù)據(jù)特征進一步優(yōu)化模型,增加了輔助功能、超列和深度監(jiān)督等機制,并采用多個損失函數(shù)來提高模型的泛化能力,使模型在鹽礦圖像分割任務(wù)上取得了較好的效果。李鴻翔等[9]提出了一種基于GAN-UNet的礦石圖像分割方法,用于解決礦石圖像棱線容易引起礦石邊緣錯誤識別的問題。他們采用生成對抗網(wǎng)絡(luò)進行圖像分割,減小了圖像分割誤差,提高了分割的精度。X.Hu等[10]提出在骨料分割中采用Mask R-CNN網(wǎng)絡(luò)模型,并與傳統(tǒng)的分水嶺分割算法進行了對比,實驗結(jié)果顯示,相比于傳統(tǒng)分割方法,Mask R-CNN網(wǎng)絡(luò)模型在骨料分割任務(wù)上表現(xiàn)更好,具有更高的準確性和魯棒性。以上研究表明,深度學(xué)習(xí)技術(shù)在顆粒分割方向的應(yīng)用逐漸發(fā)展成熟,成為解決顆粒分割在實際工況應(yīng)用上的新思路。然而使用深度學(xué)習(xí)算法進行顆粒分割時,仍然存在一定的欠分割和過分割等問題,另外,由于骨料堆疊的特性,堆疊在下方顯示不完整的顆粒會對級配計算產(chǎn)生影響。因此需要進一步研究和改進算法,以解決欠分割和過分割等問題,并提高對于堆疊顆粒的識別和分割能力。
針對以上問題,本研究對ISTR(end-to-end Instance segmentation with transformers)網(wǎng)絡(luò)進行了優(yōu)化,命名為ISTR-V。同時提出了一種評價指標,以便于評價網(wǎng)絡(luò)模型的優(yōu)劣,并對優(yōu)化前后的網(wǎng)絡(luò)模型進行了分割效果的對比。通過實驗證明了所提出的方法在骨料檢測分割任務(wù)中的可行性與有效性。
基于深度學(xué)習(xí)的粗骨料檢測分割方法流程主要包括圖像采集、網(wǎng)絡(luò)模型訓(xùn)練和圖像分割。首先,使用圖像采集系統(tǒng)獲取骨料實際工況的圖像,并使用標注工具(如Labelme)對圖像進行標注,制作訓(xùn)練樣本。然后,通過對標注樣本進行網(wǎng)絡(luò)模型訓(xùn)練,得到實例分割模型。接下來,將實例分割模型部署到工控機中,利用圖像采集系統(tǒng)獲取實時圖像,并對圖像進行分割,得到粗骨料顆粒的掩膜輪廓。最后,利用相機標定系數(shù)和等效粒徑[11]的方法計算出粗骨料的級配。
粗骨料在線測量系統(tǒng)如圖1所示,主要由CCD工業(yè)相機、傳送帶和LED燈、計算機處理系統(tǒng)組成。粗骨料被運送到傳送帶上的檢測區(qū)域,CCD工業(yè)相機被放置在傳送帶正上方,垂直拍攝粗骨料圖像。為了得到均勻的光照,LED燈被布置在傳送帶上方,以避免粗骨料的陰影對骨料圖像的分割產(chǎn)生影響。
圖1 粗骨料在線測量系統(tǒng)
1.2.1 粗骨料分割模型
計算機的視覺任務(wù)主要包括圖像分類、目標檢測、語義分割、實例分割等,然而,由于骨料具有堆疊和粘連的特性,并且需要對骨料輪廓進行準確檢測,最適合的方法是實例分割。ISTR是一種實例分割Transformer[12],它是同類首個端到端框架[13]。ISTR使用循環(huán)優(yōu)化策略進行檢測和分割,相比于現(xiàn)有的自上而下[14]和自下而上[15]的方法,它提供了一種實現(xiàn)實例分割的新方法,在使用相同Backbone的基礎(chǔ)上,ISTR分割精度超過了Mask R-CNN、BlendMask、CenterMask等方法,展現(xiàn)出卓越的性能。ISTR的算法框架如圖2所示。
圖2 ISTR算法框架圖
其主要流程如下:ResNet[16]網(wǎng)絡(luò)與 FPN[17]結(jié)合提取預(yù)處理后的圖片特征金字塔的P2到P5級的特征,然后,利用初始化K個可學(xué)習(xí)查詢框覆蓋整個圖像,通過帶有RoIAlign的可學(xué)習(xí)查詢框進行裁剪和對齊,提取K個RoI特征,形成對應(yīng)的特征圖(feature map),通過對特征圖求和與平均得到圖像特征。然后通過具有動態(tài)注意力的 Transformer編碼器融合圖像和預(yù)測頭的RoI 特征,預(yù)測的邊界框、類別和掩碼在N個階段中反復(fù)細化。最后將多個候選框進行分類、邊框回歸和掩碼生成。
應(yīng)用ISTR進行骨料分割時,存在未分割的骨料較多的問題,為了解決這個問題,本文將VoVnet作為特征提取網(wǎng)絡(luò),選擇ISTR作為全局和局部尺度的特征提取模型,并對該方法在骨料檢測領(lǐng)域的適用性和有效性進行了分析。
1.2.2 特征提取網(wǎng)絡(luò)設(shè)計
1.2.2.1 特征提取主干網(wǎng)絡(luò)
ISTR網(wǎng)絡(luò)通常采用ResNet(deep residual network,深度殘差網(wǎng)絡(luò))和SwinT(swin transfor-mer)[18]作為其特征提取的主干網(wǎng)絡(luò)。由于SwinT的檢測耗時是ResNet的4倍,在實際應(yīng)用中可能會存在效率問題。綜合考慮分割精度和分割效率,本文選擇ResNet作為主干網(wǎng)絡(luò)進行研究。ResNet雖然一定程度上解決了網(wǎng)絡(luò)退化和梯度消失問題,但它使用了很多超參數(shù),計算過程復(fù)雜。因此,本文提出以VoVNet[19]為主干網(wǎng)絡(luò)代替ResNet進行特征提取,相比于ResNet更偏向于精度模型的特點,VoVNet兼顧了精度和效率,在推理速度、內(nèi)存占用、GPU使用率和精確率等方面都比ResNet更具優(yōu)勢。
本文主要對比了ResNet50和VoVNet39 2種網(wǎng)絡(luò)結(jié)構(gòu)。除了卷積層的分布不同外,VoVnet相比于ResNet在每個階段多1個Concat操作,表示執(zhí)行了一次 OSA[19]模塊,OSA模塊用于聚集在各個層提取到的特征,并最終進行Concat連接,這種設(shè)計簡化了Bottleneck結(jié)構(gòu),減少了模塊的碎片化程度,從而在性能相差不大的情況下,減少計算量。此外,使用OSA模塊使得每個階段內(nèi)部的通道數(shù)不變,可以降低內(nèi)存訪問成本,提高計算效率。通過使用OSA模塊,VoVNet在保證精度的同時,顯著提高了運算效率。
在卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過多次進行卷積后,獲得的特征具有較大的感受野,更適合檢測大物體,但對于小物體的檢測效果不佳[20]。為了解決這個問題,ISTR將ResNet與特征金字塔模型 (feature pyramid network,FPN)進行了融合。FPN網(wǎng)絡(luò)模型將深層的強語義特征與淺層的集合信息進行了合并,能夠?qū)崿F(xiàn)對不同尺度目標的檢測,并且?guī)缀鯖]有增加檢測時間。FPN通過將ResNet生成的特征圖與FPN進行上采樣后相加,得到了P2、P3、P4、P5等特征圖,用于預(yù)測物體的邊界框、類別和掩碼。為了消除上采樣過程中的混疊效應(yīng),還使用了3*3的卷積核進行處理。通過這種方式,FPN在保持檢測精度的同時,能夠有效地處理不同尺度的目標。
本文中采用了VoVnet作為特征提取的主干網(wǎng)絡(luò),相比于ResNet,VoVnet在小物體檢測方面性能顯著提高,但對于大物體的檢測提升不足。因此修改后的ISTR-V參考了RetinaNet[21]的網(wǎng)絡(luò)結(jié)構(gòu)對FPN進行了優(yōu)化,與RetinaNet相比,ISTR-V保留了P2特征圖。與ResNet相比,ISTR-V通過在P5之后加3*3的卷積層來實現(xiàn)下采樣,增加了P6與P7特征圖,去掉了池化操作,并增加了卷積操作。保留P2增加P7的原因是P2更適合小物體的檢測,而P7更適合大物體的檢測,使用卷積將P6和P7 2個特征圖調(diào)整為與其他特征圖相同的通道數(shù),額外的P6和P7特征圖更適用于多尺度的目標檢測,可以減少未分割骨料的數(shù)目。通過對網(wǎng)絡(luò)結(jié)構(gòu)的修改,使得ISTR-V在處理尺度跨越較大的骨料圖像分割任務(wù)時更加適用。在保持小物體檢測性能提升的同時,也能更好地處理大物體的檢測。修改后網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 FPN 與VoVNet網(wǎng)絡(luò)連接示意圖
1.2.2.2 感興趣區(qū)域校準
感興趣區(qū)域校準(RoI align)是一種區(qū)域特征聚集方法,取消量化操作,使用雙線性內(nèi)插的方法獲得坐標為浮點數(shù)的像素點上的圖像數(shù)值,將整個特征聚集過程轉(zhuǎn)化為一個連續(xù)的操作,很好地解決了RoI Pooling操作中2次量化導(dǎo)致的區(qū)域不匹配問題,提高了分割掩碼的精度。本文中采用的RoI AlignV2與RoI Align相比將所有RoI都移動了半個像素,能夠創(chuàng)建更好的圖像特征圖對齊方式并且不影響性能。
1.2.3 訓(xùn)練網(wǎng)絡(luò)
訓(xùn)練前,使用Labelme工具對圖像進行標注,以獲取目標信息,包括每個目標的分類標簽、邊框和掩碼。在訓(xùn)練時,損失函數(shù)由回歸損失、分類損失、分割損失組成,其定義如式(1)所示:
L=Lbax+Lcls+Lmask
(1)
式中:Lbax為回歸損失;Lcls為分類損失;Lmask為分割損失。
回歸損失函數(shù)目前大多使用的是GIoU[22],如式(2)所示:
(2)
式中:Ac為最小閉包區(qū);U為預(yù)測框和真實框的并集。
GIoU與IoU類似,是一種用于度量檢測框與真實框之間重疊程度的指標,它的優(yōu)點是引入最小外接框解決檢測框和真實框沒有重疊時Loss等于0的問題,缺點是當(dāng)檢測框包含真實框時,GIoU退化成IoU,并且2個框相交時,在水平和垂直方向上收斂慢。為了克服GIoU的缺點,本文提出以SIoU代替GIoU作為回歸損失函數(shù),SIoU損失函數(shù)由4個成本函數(shù)組成,包括角度成本、距離成本、形狀成本和IoU成本。計算方式如式(3)所示:
(3)
式中:Δ為距離成本;Ω為形狀成本。
SIoU在定義距離成本時考慮了角度成本,相比于GIoU還添加了形狀成本,這樣的改進使預(yù)測框能更快地移動到最近的軸,并隨后進行坐標X或Y的回歸,從而實現(xiàn)更快的收斂,并且在推理階段也能夠展現(xiàn)出更好的性能。
在實例分割任務(wù)中,通常使用均值平均精度(mean average precision,MAP)進行評價,然而MAP并不能準確地反映出分割掩碼的質(zhì)量好壞,為了解決這個問題引入平均交并比(mean intersection over union,MIoU)進行評價,在使用MIoU 進行評價時,由于骨料圖像的密集性,不同類型的欠分割和過分割會對MIoU產(chǎn)生不同程度的影響,并且為了統(tǒng)計未分割的粗骨料和在下方顯示不完整卻被分割出來的骨料的比例,將欠分割率和過分割率細分為4類:
1)未分割率:指在GT(ground truth)中存在,在預(yù)測出來的掩碼(DT)中不存在的骨料占GT總數(shù)的比例;
2)過度分割率:指堆疊在下方顯示不完整,不應(yīng)分割,但在DT中分割出來的骨料占GT總數(shù)的比例;
3)過分割率:指在GT中一個骨料被模型分割為多個骨料占GT總數(shù)的比例;
4)欠分割率:指在GT中多個骨料被模型分割為一個骨料占GT總數(shù)的比例。
模型評估的具體流程如下:首先根據(jù)每個預(yù)測框的置信度,按照從高到低進行排序,設(shè)置一個閾值,只保留置信度高于閾值的預(yù)測框,忽略其他的預(yù)測框。然后利用DT和GT的輪廓數(shù)據(jù)建立IoU矩陣,最后通過對矩陣進行處理得到以下5個指標,其中MIoU為主要評價指標,用于綜合評估模型的性能,計算方式如式(4)所示。其余為次要評價指標,用于尋找模型存在的問題,計算方式如式(5)~式(8)所示。圖4為常見的錯誤分割圖。
(a)未分割 (b)過度分割 (c)過分割 (d)欠分割圖4 常見的錯誤分割圖
(4)
式中:A為IoU矩陣;AM為實際輪廓的個數(shù);PM為預(yù)測掩碼的個數(shù)。
(5)
式中:NR為未分割率;CM為矩陣列最大值接近于0的數(shù)目。
(6)
式中:SR為過度分割率;RM為矩陣行最大值接近于0的數(shù)目。
(7)
式中:OR為過分割率;CMM為矩陣列有多個相近值的數(shù)目。
(8)
式中:UR為欠分割率;RMM為矩陣行有多個相近值的數(shù)目。
不同材質(zhì)的骨料在顏色、紋理、密度等方面具有很大的差異,為了更全面地對比2種網(wǎng)絡(luò)模型,在這一部分選擇了常見的2種材質(zhì)的粗骨料進行實驗,分別是玄武巖、石灰石。粒徑保持一致,為10~20 mm。實驗結(jié)果如表1所示,從表1可以看出,分割玄武巖材質(zhì)的粗骨料圖像,ISTR-V的MIoU相比于ISTR提升了2.8%,為81.5%,而NR相比ISTR降低了2%,為6.1%。分割石灰石材質(zhì)的粗圖像,ISTR-V的MIoU提升了3.1%,為76.8%,而NR降低了6.5%,為11.9%。綜上所述,ISTR-V模型在分割不同材質(zhì)粗骨料圖像時精度都更高,這是因為VoVnet采用了多個分支結(jié)構(gòu),并在不同分支上學(xué)習(xí)不同的特征圖,能夠更好地提取豐富的特征表示,增強模型的魯棒性。
表1 不同材質(zhì)骨料的分割結(jié)果 %
在本次實驗中,石灰石粗骨料的顆粒尺寸分別為5~10 mm、10~20 mm和20~31.5 mm,分別使用ISTR和ISTR-V對圖像進行分割,分割結(jié)果如圖5所示。從圖5可以觀察到,在3種粒徑范圍內(nèi),ISTR-V的MIoU均高于ISTR,未分割粗骨料情況有明顯改善,與ISTR相比,NR分別降低了4%、2.1%、0%,表明在粒徑較大的情況下,ISTR-V與ISTR的分割精度相當(dāng),而在中小粒徑的情況下,ISTR-V的分割精度有較大幅度提升。這是因為ISTR-V在不同的尺度上進行了特征融合,并增加了P6和P7 2個特征圖,能夠更好地捕捉不同尺度上的圖像信息,進而降低了未分割率。
圖5 不同級配的分割結(jié)果
鑒于不同地區(qū)檢測粗骨料顆粒的工作環(huán)境存在差異,對檢測系統(tǒng)的要求也有所不同。為了測試網(wǎng)絡(luò)的穩(wěn)定性與泛化能力,對不同工況下的骨料進行分割測試。本次實驗中,粗骨料粒徑范圍為10~20 mm。
首先,對不同含水量的石灰石骨料進行分割測試,結(jié)果如圖6所示。從圖6可以觀察到,隨著含水量的增加,ISTR和ISTR-V的MIoU均呈下降趨勢,而NR則呈上升趨勢。然而,與ISTR相比,ISTR-V的MIoU下降幅度較小,NR上升幅度也較小。說明ISTR-V在查全率方面更強,具有更強的穩(wěn)定性與泛化能力。
圖6 不同含水量的分割結(jié)果
其次,對不同含泥量的石灰石骨料進行分割測試,結(jié)果如圖7所示。從圖7可以觀察到,隨著含泥量的增加,ISTR和ISTR-V的MIoU下降幅度都較大。這是由于泥的干擾導(dǎo)致一部分骨料無法正確分割,從而使NR上升;同時,一部分泥被誤分割為骨料,導(dǎo)致SR上升,進而導(dǎo)致MIoU急劇下降。然而ISTR-V的MIoU仍然高于ISTR。這是因為ISTR-V在不同的尺度上進行特征融合,并采用稀疏連接的方式,能夠更好地適應(yīng)不同數(shù)據(jù)分布和任務(wù),從而增強魯棒性。通過以上2個驗證性實驗可以證明ISTR-V更加適應(yīng)復(fù)雜的生產(chǎn)環(huán)境,具有更強的穩(wěn)定性與泛化能力。
圖7 不同含泥量的分割結(jié)果
在之前的實驗中,主要針對的是單級配的粗骨料,然而實際工況中均是多級配的骨料,相比于單級配的骨料,分布更為復(fù)雜,分割難度也相應(yīng)增加。為了對模型進行更加全面的評價,對石灰石粗骨料的級配料(10~20 mm、20~31.5 mm各50%)分別使用ISTR和ISTR-V進行測試,分割結(jié)果如圖8和表2所示。
表2 混合骨料的分割結(jié)果 %
(a)原圖 (b)ISTR(c)ISTR-V圖8 混合骨料的分割結(jié)果
通過圖8中(b)和(c)的對比可以看出,ISTR-V在未分割骨料較多的問題上有明顯改善。表2中的數(shù)據(jù)也證明了這一點,與ISTR相比,ISTR-V的MIoU提升了3.4%,為82.6%,未分割率降低了8.2%,為9.4%。這一改善的原因在于,ISTR-V采用了SIoU計算方式,該方式不依賴于目標框的具體尺寸和比例,因此可以更準確地評估不同尺寸和比例的目標框之間的重疊程度,提高模型在處理不同尺寸和比例目標時的預(yù)測魯棒性,從而顯著降低了未分割率,提升了MIoU。
通過以上實驗結(jié)果可以得出結(jié)論:ISTR-V在處理多級配的混合骨料時表現(xiàn)出更好的分割性能,進一步證明了ISTR-V在復(fù)雜骨料分割方面的優(yōu)勢。
為解決粗骨料分割中出現(xiàn)的欠分割、過分割等問題,本文對ISTR網(wǎng)絡(luò)進行了改進和優(yōu)化,并提出了一種評估方法對網(wǎng)絡(luò)模型進行評估,實驗結(jié)果表明:
1)采用實例分割模型可以準確地對粗骨料堆疊工況下的圖像進行分割,并且能夠適應(yīng)不同條件下的復(fù)雜工況;
2)本文所提出的評估方法可以方便快捷地對網(wǎng)絡(luò)模型進行總體分割評估,便于比較模型的分割效果,并對模型存在的問題進行量化,有利于后續(xù)的分割算法改進;
3)實驗結(jié)果表明,改進后的ISTR-V網(wǎng)絡(luò)模型提高了分割精度,與ISTR模型相比,ISTR-V在MIoU方面提升了3.4%,未分割率降低了8.2%,證明了改進網(wǎng)絡(luò)模型的可行性與有效性。
改進后的ISTR-V提高了MIoU并顯著降低了未分割粗骨料的比例,但仍存在9.4%骨料未分割,同時對于過度分割的骨料比例控制效果不明顯,在后續(xù)的研究工作中,重點在于降低未分割率和過度分割率,進一步提高實例分割算法對粗骨料圖像的分割精度和泛化能力。