摘 要:目前,雖然已經(jīng)有一些基于圖像處理技術(shù)的竹片缺陷檢測方案,但這些方案檢測存在種類較少、實(shí)用性較差且難以部署在機(jī)器上等缺陷,為此,提出一種改進(jìn)的竹片缺陷檢測模型。該模型為改進(jìn)的可變形-端到端目標(biāo)檢測(Deformable-DETR)模型,首先將骨干網(wǎng)絡(luò)替換成由DCNv3卷積為核心而堆疊設(shè)計(jì)的InternImage,該網(wǎng)絡(luò)在保留卷積神經(jīng)網(wǎng)絡(luò)(CNN)先驗(yàn)特性的情況下還能捕捉到長距離依賴,使提取到的特征空間語義更豐富;然后在特征提取后新增一個(gè)采樣模塊,該采樣模塊將圖像特征抽象為精細(xì)的前景特征和少量粗糙的背景特征,不僅能去除冗余的背景特征信息,還能提取高語義前景信息;最后引入一種新穎的協(xié)作混合分配訓(xùn)練策略,該策略通過訓(xùn)練由一對多標(biāo)簽分配監(jiān)督的多個(gè)并行輔助頭,提高編碼器在端到端檢測器中的學(xué)習(xí)能力。此外,使用數(shù)據(jù)增強(qiáng)來擴(kuò)展數(shù)據(jù)集,并使用遷移學(xué)習(xí),以增強(qiáng)竹片缺陷的檢測。試驗(yàn)結(jié)果表明,該改進(jìn)方法可以提高模型的缺陷特征提取與解析的能力,并在測試數(shù)據(jù)集上取得了85. 7%mAP50(全類平均精確度),單張圖片推理時(shí)間為0. 28 s,檢測精度優(yōu)于其他主流目標(biāo)檢測模型,為竹片缺陷檢測提供新的方法。
關(guān)鍵詞:缺陷檢測; 深度學(xué)習(xí); 空間特征采樣; 協(xié)作混合分配訓(xùn)練; 計(jì)算機(jī)視覺
中圖分類號:S781. 9;TP391. 41 文獻(xiàn)標(biāo)識碼:A DOI:10. 7525/j. issn. 1006-8023. 2025. 02. 014
0 引言
在當(dāng)前“雙碳”背景下,綠色可持續(xù)的建筑材料應(yīng)用越來越廣泛。竹子是伐后可再生、廢棄后可降解的天然生物質(zhì)復(fù)合材料,由竹片作為原材料的集成材是一種有潛力替代傳統(tǒng)建筑材料的綠色工程材料[1]。為了提高竹片黏結(jié)性能和產(chǎn)品表面美觀性,需要對竹片進(jìn)行缺陷檢測。竹片缺陷的類型主要有5類:蛀孔片、霉片、竹青片、竹黃片、黑節(jié)片和三角條。目前,在工廠實(shí)際生產(chǎn)中,竹片缺陷檢測主要采用人工檢測,因此,亟須研究竹片缺陷智能檢測方法。
在缺陷檢測方面,機(jī)器視覺是使用廣泛的研究方法,且最常用的是基于圖像處理的檢測方法,如基于最大類間方差法(OTSU)與CANNY算法的竹片缺陷圖像檢測方法對竹片缺陷檢測[2]。在基于深度學(xué)習(xí)的缺陷檢測領(lǐng)域內(nèi),常用的有如下幾種方法,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3]、自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)[4]、深度殘差神經(jīng)網(wǎng)絡(luò)[5]、全卷積神經(jīng)網(wǎng)絡(luò)[6]和遞歸神經(jīng)網(wǎng)絡(luò)[7]。近幾十年來,簡單CNN架構(gòu)的網(wǎng)絡(luò)在大多數(shù)常見的計(jì)算機(jī)視覺(CV)問題中表現(xiàn)出了顯著的性能,但是這些方法提取的特征比較抽象和粗糙。LeNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是一種非常流行的LeNet網(wǎng)絡(luò)結(jié)構(gòu)[7-8],該網(wǎng)絡(luò)通常采用下面2種架構(gòu)進(jìn)行缺陷檢測:一種是堆疊結(jié)構(gòu)復(fù)雜的CNN網(wǎng)絡(luò),通過不同的網(wǎng)絡(luò)結(jié)構(gòu)來提取圖像特征信息,并完成端到端訓(xùn)練來檢測圖像中的缺陷[9];另一種是將CNN與條件隨機(jī)場(CRF)模型相結(jié)合,以CRF能量函數(shù)為約束對CNN進(jìn)行訓(xùn)練或以CRF優(yōu)化網(wǎng)絡(luò)預(yù)測結(jié)果,以實(shí)現(xiàn)對圖像中缺陷的識別[10]。
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,越來越多優(yōu)秀的目標(biāo)檢測模型應(yīng)運(yùn)而生。例如單階段、雙階段的模型在缺陷檢測問題上也能帶來性能和效率的提升,但是以階段劃分的檢測模型存在非極大值抑制(NMS)[11]的問題,很難部署到嵌入式設(shè)備上。牟洪波等[12]通過基于灰度共生矩陣和模糊反向傳播(BP)神經(jīng)網(wǎng)絡(luò)對木材缺陷識別,結(jié)果表明該方法平均識別成功率達(dá)到90%。Ferguson等[13]提出了一種基于區(qū)域Mask R-CNN[14]結(jié)構(gòu)的X射線圖像鑄造缺陷識別系統(tǒng),結(jié)果表明,訓(xùn)練網(wǎng)絡(luò)同時(shí)進(jìn)行缺陷檢測和缺陷實(shí)例分割,比單純的缺陷檢測訓(xùn)練具有更高的缺陷檢測精度。王正等[15]基于改進(jìn)YOLOv7算法進(jìn)行木材八類缺陷檢測,結(jié)果表明改進(jìn)后的模型在平均精確度(mAP50)上評分有4. 57%~6. 79%的提升,展現(xiàn)出令人信服的結(jié)果。
現(xiàn)有的視覺模型雖然在缺陷檢測中取得了一定研究進(jìn)展,但存在以下問題:骨干網(wǎng)絡(luò)不能有效提取到數(shù)據(jù)的前景特征[16];提取的特征圖背景信息過多而出現(xiàn)的冗余現(xiàn)象[17];在一對一集合匹配的可變形-端到端目標(biāo)檢測(Deformable-DETR)[18]模型中,作為正樣本分配的查詢太少會(huì)導(dǎo)致對編碼器輸出的監(jiān)督稀疏,從而嚴(yán)重影響編碼器的判別特征學(xué)習(xí)。針對以上幾個(gè)不足點(diǎn),本研究提出一種新穎的竹片缺陷檢測模型,針對圖像特征圖的背景信息過于豐富與空間冗余問題,引入采樣模塊對特征向量進(jìn)行采樣,從而降低背景信息進(jìn)行的干擾,通過協(xié)作混合分配訓(xùn)練策略進(jìn)行模型的訓(xùn)練,在顯著減少模型計(jì)算的同時(shí)提高竹片缺陷檢測精度。與原始模型和其他主流模型相比,該模型計(jì)算更穩(wěn)定,目標(biāo)定位精度更高,為機(jī)器視覺和深度學(xué)習(xí)方法在竹片缺陷檢測中的應(yīng)用提供理論基礎(chǔ)。
1 竹片數(shù)據(jù)集
竹片數(shù)據(jù)集是本研究團(tuán)隊(duì)拍攝建立的。圖1為竹片圖像采集平臺(tái),試驗(yàn)硬件包括圖像采集裝置、光源系統(tǒng)裝置和暗箱。圖像采集裝置使用??低?00萬像素互補(bǔ)金屬氧化物半導(dǎo)體(complementarymetal oxide semiconductor,CMOS)面陣工業(yè)相機(jī)MV-CAO50-12GC,相機(jī)鏡頭距竹片220 mm,光源系統(tǒng)使用是條形光源LED燈,長100 mm,采用線性光源控制器MYC-APT1024T2,可以線性控制光照強(qiáng)度。暗箱是由不銹鋼板材料焊接而成,為防止其內(nèi)部表面因光源產(chǎn)生反光影像拍攝,在其內(nèi)部貼滿黑色磨砂紙。
竹片缺陷圖片如圖2所示,包括蛀孔片、霉片、竹青竹黃片、黑節(jié)片4類缺陷圖片,每類各200幅,所有數(shù)字圖像為BMP 格式,圖像分辨率為2 448×2 048。圖2(a)蛀孔片為defection1,其中蛀孔一般較小,大部分邊緣較為清晰,少部分邊緣存在腐爛模糊的現(xiàn)象;圖2(b)霉片為defection2,其中有霉斑的表面積和色澤都不均勻,深色的幾近于黑色,淺色的幾近于綠色;圖2(c)竹青片與圖2(d)竹黃片為竹片的表面形態(tài)缺陷,為defection3,竹青片與竹黃片是由于切削量不夠,殘留了部分竹青或竹黃;圖2(e)黑節(jié)片為defction4,竹節(jié)部分顏色較正常竹節(jié)深,近于黑色。在得到原始數(shù)據(jù)后通過數(shù)據(jù)標(biāo)注軟件LabelImg以及半自動(dòng)化標(biāo)注軟件Label Studio對圖像進(jìn)行標(biāo)注以制作數(shù)據(jù)集。數(shù)據(jù)集中的訓(xùn)練集、測試集、驗(yàn)證集劃分按照經(jīng)典7∶2∶1的比例進(jìn)行劃分。由于拍攝的竹片缺陷樣本較少,需要引入數(shù)據(jù)增強(qiáng)來擴(kuò)充數(shù)據(jù)集。本研究使用的數(shù)據(jù)增強(qiáng)方式不僅有隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)比例裁剪并縮放等基礎(chǔ)數(shù)據(jù)增強(qiáng)方式,還有組合增強(qiáng)(AutoAugment),使數(shù)據(jù)增強(qiáng)在模型訓(xùn)練中充分發(fā)揮作用。
2 研究方法
本研究基于DETR 的變種模型Deformable-DETR進(jìn)行改進(jìn),先對DETR進(jìn)行簡介,說明為何采用Deformable-DETR,然后詳細(xì)闡述本研究所提出的改進(jìn)方案,從特征提取網(wǎng)絡(luò)的改進(jìn),到新增特征采樣模塊,再到引入?yún)f(xié)作混合分配訓(xùn)練方案解決編碼器訓(xùn)練過程的監(jiān)督稀疏問題。改進(jìn)模型(SAS-Deformable-DETR)流程如圖3 所示,在協(xié)作混合分配訓(xùn)練策略下,先由骨干網(wǎng)絡(luò)提取竹片缺陷圖的特征,得到特征圖,再由采樣器(Sampler)對特征圖進(jìn)行采樣,得到采樣特征圖,隨后將采樣特征圖輸入編碼器(Encoder)進(jìn)行特征學(xué)習(xí),最后將解碼器(Decoder)的輸出接入預(yù)測頭,得到預(yù)測框和分類標(biāo)簽。
2. 1 DETR簡介
在不損失一般性的情況下,DETR利用具有參數(shù)θC 的主干卷積網(wǎng)絡(luò)C 來提取圖像特征圖F:
F = C(I,θC)。(1)
式中,I 為輸入圖像。
F 被視為網(wǎng)格結(jié)構(gòu)的特征向量集F
F={fi,j ∈ RC | i =1,2,…,H,j=1,2,…,W}。(2)
式中:fi,j 是位置(i,j )處的特征向量;C 是特征通道的數(shù)量;H、W 是圖像特征圖的高度和寬度。網(wǎng)格結(jié)構(gòu)的特征集F 被視為具有強(qiáng)語義信息的高級視覺標(biāo)記集,并通過用θt 參數(shù)化的變換器Τ 轉(zhuǎn)換為檢測結(jié)果
{(clsk,boxk )| k = 1,2,…,D} = T( F,θt )。(3)
式中:(clsk,boxk )表示一個(gè)具有類別和邊界框的檢測對象;D 為固定檢測次數(shù)。
雖然DETR提取的特征集F 能均勻地跨越圖像中的空間位置并包含大量背景語義信息,但存在處理能力不能動(dòng)態(tài)地分配給更相關(guān)的類似區(qū)域前景,而較少關(guān)注視覺場景的類似區(qū)域背景的問題,現(xiàn)有的Deformable DETR借鑒了可變形卷積(DCN)的思想,提出可變形注意力機(jī)制——每個(gè)特征點(diǎn)不需要與全部特征點(diǎn)進(jìn)行交互計(jì)算,只需要與部分通過采樣獲得的特征點(diǎn)進(jìn)行交互計(jì)算,并且對于采樣來說,采樣點(diǎn)的位置是可學(xué)習(xí)的。這種可變形注意力機(jī)制,能夠解決DETR收斂慢與特征分辨率受限的問題。
2. 2 特征提取網(wǎng)絡(luò)
在模型整體架構(gòu)中,骨干網(wǎng)絡(luò)作為特征提取器對模型整體有著至關(guān)重要的作用。傳統(tǒng)卷積網(wǎng)絡(luò)以CNN為核心進(jìn)行深度堆積以達(dá)到提取特征的效果,由于CNN局部性導(dǎo)致大部分CNN神經(jīng)網(wǎng)絡(luò)不能捕捉到圖像中長距離特征之間的關(guān)系,而InternImage[16]這一骨干網(wǎng)絡(luò)是以可變形卷積(DCN)[19]為核心算子,將該核心算子與抽象塊相結(jié)合來構(gòu)建基本塊堆疊而成,使骨干網(wǎng)絡(luò)不僅具有檢測下游任務(wù)所需的有效感受野,而且具有受輸入和任務(wù)信息約束的自適應(yīng)空間聚合。與改進(jìn)的具有較大卷積核的卷積網(wǎng)絡(luò)不同,InternImage的核心算子是一個(gè)卷積核大小為3×3的動(dòng)態(tài)稀疏卷積,其優(yōu)點(diǎn)主要有:①采樣偏移靈活;②根據(jù)輸入數(shù)據(jù)自適應(yīng)調(diào)整采樣偏移量和調(diào)制標(biāo)量;③卷積窗口是一個(gè)常見的3×3,避免了大密集核引起的優(yōu)化問題和昂貴的成本,其架構(gòu)如圖4所示。其中基本塊的核心算子為DCNv3,通過一個(gè)可分離卷積(3×3深度卷積后進(jìn)行線性投影)傳遞輸入特征對采樣的偏移量以及調(diào)節(jié)尺度進(jìn)行預(yù)測;根莖網(wǎng)絡(luò)(Stem)和下采樣層是為了得到不同尺度的特征圖,使用骨干網(wǎng)絡(luò)和下采樣層將得到的特征圖放縮至不同尺度。由圖4可知,在最開始放置根莖層,將輸入特征圖分辨率降低了3/4。根莖層由2個(gè)卷積核大小為3、步長為2、填充為1的卷積網(wǎng)絡(luò),2個(gè)層歸一化(Layer Normalization,LN)層和1個(gè)GELU(Gaussian Error Linear)層組成,第一個(gè)卷積的輸出通道為第二個(gè)卷積的一半。類似地,下采樣層由步幅為2的卷積核大小為3和步長為1的卷積組成,后接一個(gè)LN層。其位于2個(gè)階段之間,用于對輸入特征圖進(jìn)行2倍下采樣。
2. 3 特征采樣
由于對長平坦特征向量的注意力操作,當(dāng)骨干網(wǎng)絡(luò)進(jìn)行特征提取后得到特征向量,就存在一部分特征是冗余的。圖像通常包含除了目標(biāo)對象之外的區(qū)域較大的背景,這些區(qū)域可能在提取到的圖像特征中占據(jù)很大一部分,并且,如果背景向量在特征向量中占比過高可能會(huì)對檢測目標(biāo)對象產(chǎn)生干擾。為了解決這一局限,引入了一個(gè)采樣模塊,如圖5所示。該采樣模塊可以將圖像特征圖壓縮為由精細(xì)特征向量和少量粗略特征向量組成的抽象特征集[17],再通過Transformer精細(xì)與粗略特征空間內(nèi)的信息交互進(jìn)行建模,并將特征轉(zhuǎn)換為檢測結(jié)果。該模塊可以自適應(yīng)地在特征空間上分配計(jì)算,以提高計(jì)算效率。
輪詢Sampler:輪詢采樣器旨在獲得精細(xì)特征集F。通過一個(gè)采樣器使用小型元評分網(wǎng)絡(luò)用作排序策略,其中小型元評分網(wǎng)絡(luò)來預(yù)測每個(gè)空間特征位置(i,j )的信息性得分
sij = ScoringNet( fi j,θs )。(4)
式中:sij 表示信息性得分,其分?jǐn)?shù)越大,特征向量fij的信息量就越大。然后將所有分?jǐn)?shù){sij}排序,再取前N 個(gè)得分向量形成精細(xì)特征集Ff
Ff = [ fl,|l = 1,2,…,N ]。(5)
式中,fl代表精細(xì)特征向量。
為了使ScoringNet 能夠通過反向傳播進(jìn)行學(xué)習(xí),將預(yù)測的信息性得分sl作為采樣精細(xì)特征集的調(diào)節(jié)因子
Ff = [LayerNorm( fl )?sl,|l = 1,2,…,N ]。(6)
理想情況下,N 可能隨圖像內(nèi)容而變化,但觀察到固定量采樣已經(jīng)產(chǎn)生了良好的性能,即N = αL(L為向量長度),其中α 是一個(gè)恒定的分?jǐn)?shù)值,將其命名為輪詢比率。
池化Sampler:上述輪詢采樣器提取精細(xì)特征集,剩余的特征向量主要對應(yīng)于背景區(qū)域。為了將其壓縮成一個(gè)總結(jié)上下文信息的小特征集,通過一個(gè)池采樣器,對剩余的特征向量進(jìn)行加權(quán)池化,以獲得固定數(shù)量的M 個(gè)背景上下文特征向量。形式上,剩余的特征向量集(Fr)為
Fr = F/Ff = { fr| r = 1,2,…,L - N }。(7)
將投影具有可學(xué)習(xí)權(quán)重W a ∈ RC × M的特征向量以獲得聚合權(quán)重ar ∈ RM
ar = frW a。(8)
并且投影具有可學(xué)習(xí)權(quán)重W v ∈ RC × C的特征向量以獲得投射向量
fr′ = frW v。(9)
用softmax對所有剩余的未采樣位置上的聚合權(quán)重(arm)進(jìn)行歸一化
式中,r′為未采樣位置。
利用歸一化的聚合權(quán)重,對投影的特征向量進(jìn)行聚合以獲得新的特征向量(fm),該特征向量總結(jié)了未采樣位置的信息
Zhao等[20]研究表明,上下文信息對于識別對象至關(guān)重要,并且信息之間可以通過不同尺度的特征金字塔進(jìn)行聚合。池采樣器可以通過動(dòng)態(tài)生成聚合權(quán)重來得到不同尺度的信息,與來自輪詢采樣器的精細(xì)集Ff一起,獲得所需的抽象集F*。
2. 4 協(xié)作混合分配訓(xùn)練策略
由于Deformable-DETR 模型為集合預(yù)測模型,不像傳統(tǒng)的模型需要先提出候選框,最后再使用非極大值抑制(NMS)得到預(yù)測結(jié)果,所以不僅精度高而且能部署在硬件設(shè)施上。但是因?yàn)榧掀ヅ湫枰獯a器的輸出準(zhǔn)確,而模型存在編碼器輸出監(jiān)督稀疏的問題,為了緩解這一問題本研究引入?yún)f(xié)作混合分配訓(xùn)練策略[21],該策略采用了不同的一對多標(biāo)簽分配范式的多功能輔助頭。不同的標(biāo)簽分配豐富了對編碼器輸出的監(jiān)督,從而迫使編碼器具有足夠的辨別力,以支持這些頭的訓(xùn)練收斂。圖6為協(xié)作混合分配訓(xùn)練策略的框架圖,注意輔助分支只在訓(xùn)練過程中使用。
具體來說,先定義編碼器的潛在特征為,通過多尺度適配器將潛在特征轉(zhuǎn)換為特征金字塔{ 1,…, J},其中J 表示特征圖下采樣步長為22 + J,與ViTDet(Vision Transformer,檢測器)相似,特征金字塔是由單尺度編碼器的單個(gè)特征圖通過雙線性插值與3×3卷積進(jìn)行上采樣得到的。對于多尺度編碼器,則只對多尺度編碼器特征?中最豐富的特征進(jìn)行下采樣,以構(gòu)建特征金字塔。定義的第K 個(gè)協(xié)作頭具有相應(yīng)的標(biāo)簽分配方式Ak,將{F1,F(xiàn)2,…,F(xiàn)J}發(fā)送給第i 個(gè)協(xié)作頭,以獲得預(yù)測結(jié)果P?i。在第i 個(gè)協(xié)作頭,Ai 用于計(jì)算Pi 中正負(fù)樣本的監(jiān)督目標(biāo)。將G 稱為真實(shí)值,該過程可表述為
Pi{pos},Bi{pos},Pi{neg} = Ai (P?i,G )。(12)
式中:{pos}和{neg}表示由Ai 確定的(j、Fj 中的正坐標(biāo)或負(fù)坐標(biāo))一對集合;j 表示{F1,F(xiàn)2,…,F(xiàn)J}中的特征索引;Bi{pos}是空間正坐標(biāo)集;Pi{pos}和Pi{neg}是相應(yīng)坐標(biāo)中的監(jiān)督目標(biāo),包括類別和回歸偏移。損失函數(shù)可定義為
Lenc i = Li (P? {pos} i ,P{pos} i ) + Li (P? {neg} i ,P{neg} i )。(13)
需要注意的是,負(fù)樣本的回歸損失會(huì)被舍棄。對K 個(gè)輔助頭的優(yōu)化訓(xùn)練目標(biāo)表述為
2. 5 優(yōu)化器
本研究所使用的優(yōu)化器為AdamW,AdamW 是在Adam(Adaptive Moment Estimation,優(yōu)化器)的基礎(chǔ)上引入權(quán)重衰減(weight decay)正則化。Adam為Adaptive+Momentum,是由一階動(dòng)量優(yōu)化以及二階動(dòng)量優(yōu)化結(jié)合后的產(chǎn)物。Adam 優(yōu)化算法可以描述為
式中:? 為增加分母穩(wěn)定性的系數(shù),通常取值為10-6,能在數(shù)值穩(wěn)定性和逼真度之間取得良好的平衡;ɑ為學(xué)習(xí)率,能夠控制步長來解決收斂問題;mt為第t步的一階動(dòng)量;Vt為第t 步的二階動(dòng)量。
AdamW是在Adam的基礎(chǔ)上引入權(quán)重衰減,在Adam中,是直接將權(quán)重衰減添加到梯度中
gt = gt + λθt - 1。(16)
式中:gt為第t 步的梯度;θt-1為第t-1步中的模型權(quán)重;λ 為正則化系數(shù)。
而在AdamW中,正則化變成為
θt = θt - 1 - γλθt - 1。(17)
式中:γ 是學(xué)習(xí)率;λ 為正則化系數(shù)。
2. 6 損失函數(shù)
對于一張圖片Deformable-DETR會(huì)輸出N 個(gè)不同的邊界框(bounding box),通過對這N個(gè)邊界框以及生成的N個(gè)真實(shí)值進(jìn)行最優(yōu)二部圖匹配,根據(jù)匹配結(jié)果計(jì)算損失(loss)值。通過定義邊界框與真實(shí)值的匹配代價(jià)來使用匈牙利匹配算法得到最優(yōu)二部圖匹配方案。
邊界框與真實(shí)值的匹配代價(jià)表示為
Lmatch =-1{c } i ≠? p? σ(i)(ci )+1{ci ≠?}Lbox(bi,b?σ(i))。(18)
式中:1{c } i ≠ ? 是一個(gè)布爾函數(shù),當(dāng)ci ≠ ?為1,否則為0;ci是第i 個(gè)物體的類別標(biāo)簽;σ (i)是第i 個(gè)目標(biāo)匹配的邊界框的索引;p? σ(i)(ci )表示模型預(yù)測的第σ (i)個(gè)預(yù)測框的類別為ci 的概率;bi 和b?σ(i) 分別是第i 個(gè)目標(biāo)的位置的真實(shí)值的坐標(biāo)和預(yù)測框的坐標(biāo);Lbox 是2 個(gè)矩形框之間的距離。由IoU 損失和L1 損失構(gòu)成,通過和來控制2個(gè)損失的權(quán)重,表示為
Lbox(bσ(i),b?i ) = λIoU LIoU(bσ(i),b?i ) + λL1‖bσ(i) - b? ‖ i1。(19)
式中,LIoU 使用的是GIoU損失。
當(dāng)?shù)玫阶顑?yōu)二部匹配后,根據(jù)匹配結(jié)果計(jì)算損失函數(shù)。模型的損失函數(shù)與匹配代價(jià)相類似,但是類別與測試用的是對數(shù)似然
3 試驗(yàn)與結(jié)果分析
3. 1 試驗(yàn)設(shè)置
本研究所有試驗(yàn)均由遷移學(xué)習(xí)提供預(yù)權(quán)重,在預(yù)訓(xùn)練的基礎(chǔ)上再利用本文數(shù)據(jù)集進(jìn)行微調(diào)。代碼基于MMDetection[22-23]框架進(jìn)行開發(fā),所有試驗(yàn)使用的數(shù)據(jù)集都是同一數(shù)據(jù)集,且進(jìn)行相同的數(shù)據(jù)預(yù)處理和數(shù)據(jù)增強(qiáng)。為了進(jìn)行公平地比較各類模型性能,遵循常見的實(shí)踐設(shè)置,用預(yù)先訓(xùn)練的權(quán)重初始化主干,并默認(rèn)使用1×(12個(gè)epochs)或3×(36個(gè)epochs)調(diào)度來訓(xùn)練這些模型。所有這些檢測模型都由AdamW進(jìn)行優(yōu)化,初始學(xué)習(xí)率為1×10-4,并且網(wǎng)絡(luò)架構(gòu)和損失函數(shù)在內(nèi)的其他設(shè)置遵循基線進(jìn)行設(shè)置以公平比較。
在評估模型性能時(shí),計(jì)算混淆矩陣的3個(gè)主要元素:真陽性(TP)、假陰性(FN)和假陽性(FP),以實(shí)現(xiàn)平均精度(mAP)、精確率和召回率的計(jì)算。
3. 2 結(jié)果分析
3. 2. 1 骨干特征提取網(wǎng)絡(luò)分析
在進(jìn)行模型試驗(yàn)時(shí),因?yàn)楸狙芯康闹衿毕輽z測問題數(shù)據(jù)集規(guī)模較小、缺陷語義信息不豐富,所以使用遷移學(xué)習(xí)進(jìn)行模型訓(xùn)練,在預(yù)訓(xùn)練權(quán)重模型的基礎(chǔ)上再進(jìn)行初步測試。測試過程為:首先選取不同架構(gòu)的骨干特征提取網(wǎng)絡(luò)在COCO(CommonDbjects in Context)數(shù)據(jù)集上進(jìn)行測試,得到特征熱力圖;其次根據(jù)特征熱力圖選取性能較好的骨干特征網(wǎng)絡(luò);最后進(jìn)行模型后續(xù)模塊性能測試的試驗(yàn)。在挑選測試原圖時(shí),圖片要求有較少物體且物體能有明顯個(gè)性化特征,在COCO數(shù)據(jù)集中挑選圖7(a)作為測試原圖,圖7(b)為ResNet50提取的特征熱力圖,圖7(c)為ResNet101提取的特征熱力圖,圖7(d)為SwinTransformer提取的特征熱力圖,圖7(e)為InternImage提取的特征熱力圖。
由圖7對比可知,當(dāng)骨干網(wǎng)絡(luò)的架構(gòu)為Intern‐Image 時(shí),其特征熱力圖提取的特征語義信息比ResNet 和SwinTransformer 的更詳細(xì),這是因?yàn)镮nternImage在具有傳統(tǒng)CNN能學(xué)習(xí)稀疏空間位置的基礎(chǔ)上又引入具有全局關(guān)系建模能力的DCNv3算子。
3. 3. 2 消融試驗(yàn)
在消融試驗(yàn)中,本研究在SAS-Deformable-DETR 上分別驗(yàn)證了協(xié)作混合分配訓(xùn)練策略(CHAT)、Sampler 模塊,以及更換的BackBone 對竹片缺陷檢測的性能影響,結(jié)果見表1。
由表1可以看出,不同模塊以及改進(jìn)對竹片缺陷檢測的貢獻(xiàn)。其中,采用協(xié)作混合分配訓(xùn)練策略且使用InternImage骨干特征提取網(wǎng)絡(luò)、Sampler采樣模塊的模型性能在所有指標(biāo)上都優(yōu)于未添加任何組件的BaseLine模型。
通過在未更換骨干特征提取網(wǎng)絡(luò)情況下,對Sampler采樣模塊進(jìn)行消融發(fā)現(xiàn):
1)只應(yīng)用協(xié)作混合分配訓(xùn)練策略的模型性能優(yōu)于只添加Sampler采樣模塊的模型(+12. 2%mAP50),由此可以得出結(jié)論,Sampler采樣模塊適用于提取 特征較為豐富的情況下,并且協(xié)作混合分配訓(xùn)練策略可以大幅度改善DETR模型的缺點(diǎn)帶來性能提升。
2)只應(yīng)用協(xié)作混合分配訓(xùn)練策略的模型性能優(yōu)于BaseLine 模型(+1. 1% mAP50),由此可以說明,在DETR模型訓(xùn)練過程中存在正樣本分配的查詢太少會(huì)導(dǎo)致對編碼器輸出的監(jiān)督稀疏的問題,而引進(jìn)的協(xié)作混合分配訓(xùn)練策略能解決這一問題帶來模型性能提升。
3)當(dāng)添加Sampler采樣模塊的同時(shí)應(yīng)用協(xié)作混合分配訓(xùn)練策略時(shí),對比只添加單個(gè)模塊或是不添加任何模塊的BaseLine模型性能都有提升(與其中性能最好的做對比+1. 4% mAP50)。這是因?yàn)椋谔崛≌Z義不豐富的情況下,協(xié)作混合分配訓(xùn)練策略可以使模型高效利用采樣過的高語義特征從而提高模型性能。
當(dāng)更換骨干網(wǎng)絡(luò)后,對Sampler 采樣模塊進(jìn)行消融發(fā)現(xiàn):
1)只更換骨干網(wǎng)絡(luò)而不添加任何模塊的模型性能優(yōu)于BaseLine(+0. 1% mAP50),證明InternImage骨干網(wǎng)絡(luò)所提取語義信息性能優(yōu)于BaseLine模型。
2)應(yīng)用協(xié)作混合分配訓(xùn)練策略的模型性能優(yōu)于只更換骨干特征提取網(wǎng)絡(luò)的模型(與其中性能最好的做對比+2. 2% mAP50),由此可以得出結(jié)論,雖然骨干網(wǎng)絡(luò)可以使提取到的特征更為豐富,但是未能解決模型存在的本質(zhì)缺點(diǎn),當(dāng)使用新的訓(xùn)練策略時(shí)可以使模型性能發(fā)揮最佳。
3)添加Sampler采樣模塊的模型性能優(yōu)于只更換骨干特征提取網(wǎng)絡(luò)的模型(+0. 1%mAP50),由此可以得出結(jié)論,當(dāng)骨干特征提取網(wǎng)絡(luò)提取到充裕語義信息后,Sampler采樣模塊可以對這些充裕語義信息進(jìn)行采樣,提取語義信息較為豐富的特征。
4)當(dāng)添加Sampler采樣模塊的同時(shí)應(yīng)用協(xié)作混合分配訓(xùn)練策略時(shí),對比只添加單個(gè)模塊或是不添加任何模塊模型,性能都有明顯提升(與其中性能最好的做對比+6. 8% mAP50),由此可以得出結(jié)論,當(dāng)骨干網(wǎng)絡(luò)能夠提取到充裕語義信息時(shí),配合協(xié)作混合分配訓(xùn)練策略和Sampler采樣模塊,能得到含有高語義信息的特征圖,再通過訓(xùn)練策略的功能矯正模型編碼與解碼階段存在的問題。
3. 3. 3 對比試驗(yàn)
在對比試驗(yàn)中,對比了幾種在目標(biāo)檢測領(lǐng)域較為流行且性能較好的模型在缺陷檢測數(shù)據(jù)集上的mAP50指標(biāo)數(shù)值,如圖8所示,由圖8可以發(fā)現(xiàn),本研究所提出的模型性能遠(yuǎn)優(yōu)于其他主流模型。
表2展示了較為流行的模型和SAS-Deformable-DETR 模型使用不同骨干網(wǎng)絡(luò)獲得的mAP 指標(biāo)數(shù)值,表2中所挑選的較為流行的模型涵蓋了單階段、兩階段、基于Transformer的目標(biāo)檢測模型。由表2可看出,本研究提出的方法在使用ResNet50 作為BackBone 時(shí),SAS-Deformable-DETR 的mAP 得分雖然沒有DAB-DETR模型分?jǐn)?shù)高,但是所訓(xùn)練的輪數(shù)以及時(shí)間都要更短,與其他模型對比,mAP50得分高出1. 2%、單張圖片推理時(shí)間快0. 09 s且訓(xùn)練輪數(shù)少;在使用InternImage 作為BackBone 時(shí),SAS-Deformable-DETR 的mAP50 得分高出其他模型9. 0%且單張圖片推理時(shí)間快0. 05 s。
3. 3. 4 檢測結(jié)果可視化
以檢測霉片為例,圖9為SAS-Deformabl-DETR模型檢測霉片的特征熱力圖,通過對比圖9(a)與圖9(b)的特征熱力圖,可以清楚看到特征熱力圖的特征信息與竹片缺陷相對應(yīng),證明SAS-Deformabl-DETR模型可以準(zhǔn)確清晰地檢測出竹片缺陷。通過圖9(c)可以觀察發(fā)現(xiàn),骨干網(wǎng)絡(luò)在提取特征階段能有效將缺陷位置的語義信息捕捉到,但是較為冗余。通過圖9(d)觀察neck模塊的最后一個(gè)輸出層的AM(Ablation CAM)圖,可以發(fā)現(xiàn)在無梯度信息時(shí),模型的骨干網(wǎng)絡(luò)和neck模塊訓(xùn)練所關(guān)注的重點(diǎn)均在圖片的缺陷位置,這可以說明模型骨干網(wǎng)絡(luò)所提取的特征信息較為準(zhǔn)確。
圖10為SAS-Deformabl-DETR模型檢測竹片缺陷結(jié)果,通過對比可以看出,圖10(b)中檢測結(jié)果較為準(zhǔn)確,缺陷類別defection1 的檢測框置信度為63%、缺陷類別defection3的檢測框置信度為98%、缺陷類別defection4 的檢測框置信度為74%,通過數(shù)據(jù)以及檢測框的可視化結(jié)果表明SAS-Deformabl-DETR模型檢測竹片缺陷的效果良好。
4 結(jié)論
本研究提出一種改進(jìn)的基于空間特征采樣與查詢回收機(jī)制的竹片缺陷檢測模型(SAS-Deformable-DETR),在竹片缺陷檢測領(lǐng)域其性能優(yōu)于目前大多數(shù)的檢測模型。SAS-Deformable-DETR模型中InternImage骨干網(wǎng)絡(luò)可以高效地提取到竹片缺陷的語義信息,而Sampler采樣器可以將提取到語義信息進(jìn)行采樣從而得到高語義信息的特征圖,在使用協(xié)作混合分配訓(xùn)練策略的情況下,通過編碼階段與解碼階段的訓(xùn)練任務(wù)進(jìn)行特征解讀,從而得到竹片缺陷的預(yù)測值。在竹片缺陷檢測的數(shù)據(jù)集上SASDeformable-DETR模型的評估指標(biāo)mAP50得分比最流行的模型高出5. 4%,證明本研究提出的模型在竹片缺陷檢測領(lǐng)域的性能較為不錯(cuò),為竹片缺陷檢測提供了一種高效可靠的方案。
【參 考 文 獻(xiàn)】
[1] 張毓雄,姚順波. 民間竹文化的傳承與竹產(chǎn)業(yè)的發(fā)展——基于“中國竹子之鄉(xiāng)”湖南益陽的調(diào)查[J]. 北京林業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011,10(4):7-13.
ZHANG Y X,YAO S B. Inheritance of bamboo culture anddevelopment of bamboo industry-based on Yiyang districtof Hunan Province,the origin of bamboo culture in China[J]. Journal of Beijing Forestry University (Social Science),2011,10(4):7-13.
[2] 牛晗,伍希志,任桂芹,等. 基于OTSU與CANNY算法的竹片缺陷圖像檢測[J]. 森林工程,2022,38(6):75-81.
NIU H,WU X Z,REN G Q,et al. Image detection of bamboochip defects based on OTSU and CANNY algorithms[J]. Forest Engineering,2022,38(6):75-81.
[3] YANG J,YANG G. Modified convolutional neural networkbased on dropout and the stochastic gradient descent optimizer[J]. Algorithms,2018,11(3):28.
[4] BERGMANN P,L?WE S,F(xiàn)AUSER M,et al. Improving unsuperviseddefect segmentation by applying structural similarityto autoencoders[J]. arXiv preprint arXiv:1807.02011,2018.
[5] YU L,CHEN H,DOU Q,et al. Automated melanoma recognitionin dermoscopy images via very deep residual networks[J]. IEEE Transactions on Medical Imaging,2016,36(4):994-1004.
[6] XUE Y,LI Y. A fast detection method via region-basedfully convolutional neural networks for shield tunnel lining defects[J]. Computer-Aided Civil and Infrastructure Engineering,2018,33(8):638-654.
[7] LEI J,GAO X,F(xiàn)ENG Z,et al. Scale insensitive and focusdriven mobile screen defect detection in industry[J]. Neurocomputing,2018,294:72-81.
[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-basedlearning applied to document recognition[J]. Proceedingsof the IEEE,1998,86(11):2278-2324.
[9] HE Y,SONG K,MENG Q,et al. An end-to-end steel surfacedefect detection approach via fusing multiple hierarchicalfeatures[J]. IEEE Transactions on Instrumentationand Measurement,2019,69(4):1493-1504.
[10] TAO X,WANG Z,ZHANG Z,et al. Wire defect recognitionof spring-wire socket using multitask convolutionalneural networks[J]. IEEE Transactions on Components,Packaging and Manufacturing Technology,2018,8(4):689-698.
[11] HOSANG J,BENENSON R,SCHIELE B. Learning nonmaximumsuppression[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu,HI,USA,IEEE,2017:4507-4515.
[12] 牟洪波,王世偉,戚大偉,等. 基于灰度共生矩陣和模糊BP神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J]. 森林工程,2017,33(4):40-43,54.
MU H B,WANG S W,QI D W,et al. Wood defects recognitionbased on gray-level co-occurrence matrix and fuzzyBP neural network[J]. Forest Engineering,2017,33(4):40-43,54.
[13] FERGUSON M,RONAY A,LEE TINA Y T,et al. Detectionand segmentation of manufacturing defects with convolutionalneural networks and transfer learning[J].Smart and Sustainable Manufacturing Systems,2018,2(1):137-164.
[14] HE K,GKIOXARI G,DOLLáR P,et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference onComputer Vision. Venice,Italy,IEEE,2017:2961-2969.
[15] 王正,江鶯,嚴(yán)飛,等. 基于YOLOv7的木材缺陷檢測模型Wood-Net 的研究[J]. 林業(yè)工程學(xué)報(bào),2024,9(1):132-140.
WANG Z,JIANG Y,YAN F. Research on wood defect detectionmodel wood-Net based on YOLOv7[J]. Journal ofForestry Engineering,2024,9(1):132-140.
[16] WANG W,DAI J,CHEN Z,et al. Internimage:Exploringlarge-scale vision foundation models with deformable convolutions[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. 2023:14408-14419.
[17] WANG T,YUAN L,CHEN Y,et al. Pnp-DETR:Towardsefficient visual analysis with transformers[C]//Proceedingsof the IEEE/CVF International Conference on ComputerVision. 2021:4661-4670.
[18] ZHU X,SU W,LU L,et al. Deformable DETR:Deformabletransformers for end-to-end object detection[J].arXiv preprint arXiv:2010. 04159,2020.
[19] DAI J,QI H,XIONG Y,et al. Deformable convolutionalnetworks[C]//Proceedings of the IEEE International Conferenceon Computer Vision. Venice,Italy,IEEE,2017:764-773.
[20] ZHAO H,SHI J,QI X,et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2017:2881-2890.
[21] ZONG Z,SONG G,LIU Y. DETRs with collaborative hybridassignments training[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris,F(xiàn)rance,IEEE,2023:6748-6758.
[22] CHEN K,WANG J,PANG J,et al. MMDetection:OpenMMlab detection toolbox and benchmark[J]. arXiv preprintarXiv:1906. 07155,2019.
[23] 張迪,樊紹勝. 基于YOLO V3的輸電線路故障檢測方法[J]. 自動(dòng)化技術(shù)與應(yīng)用,2019,38(7):125-129.
ZHANG D,F(xiàn)AN S S. Fault detection of transmission linebased on YOLO V3[J]. Techniques of Automation andApplications,2019,38(7):125-129.
基金項(xiàng)目:湖南省科技特派員服務(wù)鄉(xiāng)村振興(2023NK4285);中國博士后科學(xué)基金資助(2021M690768)。