摘要 針對(duì)金剛石顆粒凈度傳統(tǒng)檢測(cè)方法效率低、準(zhǔn)確率差的問(wèn)題,提出了一種基于遷移學(xué)習(xí)和改進(jìn)Res-Net50的金剛石顆粒凈度檢測(cè)算法CBAM-ResNet50。該算法通過(guò)在ResNet50主干網(wǎng)絡(luò)的每層中增加CBAM,以提升模型特征的提取能力;且在主干網(wǎng)絡(luò)的Layer3和Layer4中融入FPN結(jié)構(gòu),對(duì)提取的特征進(jìn)行部分特征聚合,來(lái)解決采樣過(guò)程中小目標(biāo)特征易丟失的問(wèn)題;同時(shí)引入遷移學(xué)習(xí)方法,用交叉熵?fù)p失函數(shù)優(yōu)化模型的初始參數(shù),提升模型的泛化能力。結(jié)果表明:在學(xué)習(xí)率設(shè)置為0.000 1時(shí),提出的CBAM-ResNet50模型訓(xùn)練準(zhǔn)確率達(dá)到99.2%;根據(jù)混淆矩陣計(jì)算得到模型的精確度在99.20%以上,特異性在99.70以上%,F(xiàn)1分?jǐn)?shù)在99.20%,分類召回率在98.70%以上,優(yōu)于其他主流分類網(wǎng)絡(luò)的結(jié)果,有效提高了金剛石顆粒凈度檢測(cè)的識(shí)別能力。
關(guān)鍵詞 金剛石凈度;ResNet50;卷積塊注意力模塊;特征金字塔網(wǎng)絡(luò);遷移學(xué)習(xí)
中圖分類號(hào) TQ164;TP391.4文獻(xiàn)標(biāo)志碼 A
文章編號(hào)1006-852X(2024)05-0588-11
DOI碼10.13394/j.cnki.jgszz.2023.0153
收稿日期2023-07-30 修回日期 2023-12-04
金剛石凈度是指金剛石顆粒內(nèi)部包含雜質(zhì)與裂紋及生長(zhǎng)紋等的多少,其不僅影響了金剛石的強(qiáng)度與性質(zhì),也決定了金剛石的品質(zhì)與價(jià)值,因此金剛石凈度檢測(cè)在金剛石制造過(guò)程中具有不可或缺的重要作用[1]。但現(xiàn)行的金剛石顆粒凈度檢測(cè)主要是依靠人工在顯微鏡下觀察其顆粒形貌完成,不僅效率低下,而且準(zhǔn)確率也很難得到保障。
隨著機(jī)器視覺技術(shù)的發(fā)展,金剛石顆粒的凈度檢測(cè)逐漸由傳統(tǒng)方法向機(jī)器視覺技術(shù)過(guò)渡,并取得了一定的進(jìn)展和應(yīng)用。熊輝[2]基于模板匹配對(duì)金剛石晶體類型進(jìn)行了分類。郭樹青[3]利用顆?;叶葓D瑕疵和黃色區(qū)域雙峰直方圖特征,實(shí)現(xiàn)了金剛石顆粒瑕疵的識(shí)別和篩選。WANG等[4-5]基于金剛石光學(xué)特性對(duì)其清晰度圖像進(jìn)行了包裹物提取,研制了一種有效的金剛石圖像采集系統(tǒng),可實(shí)現(xiàn)金剛石的質(zhì)量自動(dòng)分級(jí)。石廣豐等[6]基于圖像處理方法檢測(cè)了金剛石原石的尺寸、形態(tài)與顏色信息,并結(jié)合三維重構(gòu)技術(shù)研發(fā)了一種金剛石原石檢測(cè)系統(tǒng)。狄超雄[7]結(jié)合FAST角點(diǎn)檢測(cè)算法和DBSCAN聚類算法實(shí)現(xiàn)了對(duì)鉆石包裹體特征的標(biāo)記,并采用Alpha-Shapes離散點(diǎn)輪廓提取方法獲得了鉆石包裹體圖像,實(shí)現(xiàn)了鉆石的凈度分級(jí);該算法對(duì)183顆鉆石進(jìn)行檢測(cè),P級(jí)的分類準(zhǔn)確率為90%,VS級(jí)的分類準(zhǔn)確率為75%。
近年來(lái),深度學(xué)習(xí)技術(shù)的研究和應(yīng)用進(jìn)展突出,其具有準(zhǔn)確性好、工作效率高等優(yōu)勢(shì),為金剛石的質(zhì)量檢測(cè)提供了新方法[8]。邢延動(dòng)等[9]通過(guò)BP神經(jīng)網(wǎng)絡(luò)建立了金剛石外部形貌參數(shù)與其TI值和TTI值之間的映射關(guān)系,實(shí)現(xiàn)了對(duì)其TI、TTI值的預(yù)測(cè)。潘秉鎖等[10]提出一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割模型,解決了金剛石顆粒中亮斑的歸類問(wèn)題。林振坤等[11-12]針對(duì)黃色工業(yè)金剛石,提出利用VGG16、InceptionV3和ResNet50等3種網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建3個(gè)基分類器,并采用集成融合的方法實(shí)現(xiàn)了多個(gè)基分類器的信息融合和分類決策,其分類準(zhǔn)確率達(dá)到85.0%以上;另外,建立了基于In-ception-V3-ELM-COA的多視角組合預(yù)測(cè)模型,對(duì)工業(yè)金剛石分類檢測(cè)的準(zhǔn)確率達(dá)到了92.5%,且檢測(cè)時(shí)間為0.302 6 s;該方法提高了工業(yè)金剛石的分類準(zhǔn)確率,為工業(yè)金剛石的質(zhì)量檢測(cè)提供了一種較好的思路。
雖然近年來(lái)學(xué)者們已將機(jī)器視覺和深度學(xué)習(xí)技術(shù)引入金剛石顆粒的凈度檢測(cè)中,但檢測(cè)效率和分類準(zhǔn)確率并不能較好地滿足工業(yè)要求,主要原因是:(1)金剛石中的雜質(zhì)特征目標(biāo)較小,且分布不均勻,檢測(cè)時(shí)容易產(chǎn)生小目標(biāo)特征遺失,使得最終分類的準(zhǔn)確率不高;(2)采用多個(gè)模型進(jìn)行信息融合,模型復(fù)雜,其算法運(yùn)算量大,很難滿足實(shí)時(shí)檢測(cè)需求。因此,針對(duì)目前金剛石凈度檢測(cè)中存在的問(wèn)題,提出了一種基于遷移學(xué)習(xí)和改進(jìn)ResNet50的金剛石凈度檢測(cè)模型CBAM-ResNet50。CBAM-ResNet50模型對(duì)ResNet50模型的主干網(wǎng)絡(luò)進(jìn)行改進(jìn),在ResNet50網(wǎng)絡(luò)的每層中均添加CBAM,以提高算法自適應(yīng)響應(yīng)的能力,并抑制無(wú)用信息;同時(shí),在主干網(wǎng)絡(luò)的Layer3和Layer4中融入FPN,對(duì)提取的特征進(jìn)行部分特征融合,以提高算法對(duì)小目標(biāo)特征的關(guān)注,減少特征信息丟失;再利用遷移學(xué)習(xí)與交叉熵函數(shù)優(yōu)化模型的初始參數(shù),增強(qiáng)算法的泛化能力,提升模型的分類性能,以期在保證檢測(cè)時(shí)間的前提下,提高金剛石凈度的分類準(zhǔn)確率,從而滿足工業(yè)需求。
1金剛石顆粒凈度檢測(cè)的網(wǎng)絡(luò)模型
金剛石顆粒凈度的檢測(cè)主要是檢測(cè)金剛石顆粒內(nèi)部缺陷與雜質(zhì)的占比。但是,金剛石顆粒內(nèi)部的黑色雜質(zhì)分布不均衡且目標(biāo)尺寸差異明顯,如果直接采用深度卷積網(wǎng)絡(luò)對(duì)金剛石圖像進(jìn)行特征提取并檢測(cè),很難捕捉圖像特征的全部信息,且檢測(cè)穩(wěn)定性差。為解決以上問(wèn)題,以ResNet50為主干網(wǎng)絡(luò)模型,對(duì)金剛石圖像進(jìn)行特征提取與信息傳遞;在主干網(wǎng)絡(luò)每層中均融入CBAM,增強(qiáng)網(wǎng)絡(luò)對(duì)金剛石黑色雜質(zhì)區(qū)域的特征提?。辉贚ayer3和Layer4中融入FPN,增加特征融合模塊,以解決下采樣過(guò)程中小目標(biāo)特征易丟失的問(wèn)題;利用遷移學(xué)習(xí)與交叉熵函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使訓(xùn)練的模型獲得良好的初始狀態(tài)。提出的CBAM-ResNet50模型結(jié)構(gòu)如圖1所示。
如圖1所示:輸入圖像首先經(jīng)過(guò)7×7卷積層(Conv 7)將圖像卷積到64維,然后通過(guò)批量歸一化(batch normalization,BN)層與非線性激活函數(shù)(rec-tified linear unit,ReLU)層對(duì)特征進(jìn)行歸一化和非線性激活,再經(jīng)過(guò)3×3最大池化層(MaxPool)下采樣減小輸入圖像的特征尺寸,得到金剛石特征圖層;特征圖層進(jìn)入主干網(wǎng)絡(luò),通過(guò)4層Layer提取數(shù)據(jù)特征并通過(guò)注意力模塊(CBAM)加強(qiáng)有效特征的提取,得到4個(gè)有效特征層。
由于Layer1和Layer2生成的有效特征層攜帶的語(yǔ)義信息較弱,因此對(duì)Layer3和Layer4的輸出進(jìn)行局部特征融合,以減少特征信息丟失。特征融合模塊的輸出特征層經(jīng)過(guò)自適應(yīng)全局平均池化(AvgPool)層后輸入全連接(FC)層,最后分為5類輸出,對(duì)應(yīng)5種金剛石凈度等級(jí)。主干網(wǎng)絡(luò)中的4層Layer分別包含3、4、6、3個(gè)BottenBlock殘差單元。
1.1殘差單元
理論上,深層次的神經(jīng)網(wǎng)絡(luò)可以提取到更復(fù)雜的特征,獲得更好的效果。但由于ReLU的存在,每次輸入到輸出的過(guò)程都幾乎是不可逆的,網(wǎng)絡(luò)深度的增加,造成了許多不可逆信息損失,導(dǎo)致網(wǎng)絡(luò)出現(xiàn)退化、梯度消失等問(wèn)題[13]。HE等[14]提出的ResNet是在卷積上加入殘差學(xué)習(xí),通過(guò)引入捷徑連接技術(shù)實(shí)現(xiàn)跨層連接,將輸入與卷積的結(jié)果相加,極大地降低了網(wǎng)絡(luò)復(fù)雜度,加速了網(wǎng)絡(luò)訓(xùn)練過(guò)程,同時(shí)突破了由網(wǎng)絡(luò)退化引起的深度限制,保證了輸出特征的表達(dá)能力。因此,選擇由殘差單元構(gòu)成的ResNet50作為主干網(wǎng)絡(luò),對(duì)其結(jié)構(gòu)優(yōu)化改進(jìn)后用于金剛石顆粒凈度檢測(cè)。殘差單元的結(jié)構(gòu)如圖2所示。
圖2中:x為殘差單元的輸入,F(xiàn)(x)為殘差函數(shù),H(x)為殘差單元的輸出,定義H(x)=F(x)+x。殘差結(jié)構(gòu)通過(guò)恒等映射擬合了一個(gè)殘差映射F(x)=H(x)?x,相比潛在映射H(x)更容易優(yōu)化。這種恒等映射的結(jié)構(gòu)從根本上解決了梯度消失和退化問(wèn)題。
考慮到輸入與輸出的維度,殘差單元位于不同位置時(shí)具有不同的連接方式,主要可分為2種:恒等殘差單元(圖1中的BottenBlock(b))和非恒等殘差單元(圖1中的BottenBlock(a)),其結(jié)構(gòu)見圖3。圖3中:恒等殘差單元中的實(shí)線表示輸入與輸出圖像通道數(shù)相同,可以直接相加;非恒等殘差單元中的虛線表示圖像通道數(shù)不同,需要經(jīng)過(guò)1×1卷積改變通道數(shù)后再相加。
1.2 CBAM
金剛石內(nèi)的黑色雜質(zhì)在整個(gè)金剛石內(nèi)分布零散且區(qū)域較小,采用未改進(jìn)的ResNet50進(jìn)行檢測(cè),結(jié)果如圖4所示。由圖4可以看出:因?yàn)樵肼暤母蓴_影響,特征圖中冗余特征信息較多,降低了模型識(shí)別準(zhǔn)確率。因此,在主干網(wǎng)絡(luò)中引入CBAM,加強(qiáng)對(duì)黑色雜質(zhì)的特征提取,選擇性增強(qiáng)對(duì)重點(diǎn)特征的關(guān)注度,并充分利用這些特征抑制無(wú)用信息。引入CBAM后的金剛石特征輸出結(jié)果如圖5所示。對(duì)比增加注意力機(jī)制前后的特征輸出結(jié)果可以發(fā)現(xiàn):黑色雜質(zhì)等的有效特征得到顯著增強(qiáng),特征覆蓋到待識(shí)別物體的更多部位,證明注意力機(jī)制的添加的確可以讓網(wǎng)絡(luò)學(xué)會(huì)關(guān)注重點(diǎn)信息。
CBAM由通道注意力子模塊和空間注意力子模塊2部分組成[15],分別進(jìn)行通道與空間上的“Attention”。這樣不僅能夠節(jié)約參數(shù)和計(jì)算力,而且能夠保證其作為即插即用的模塊集成到主干網(wǎng)絡(luò)架構(gòu)中。選用的CBAM結(jié)構(gòu)如圖6所示。
通道注意力子模塊中的Attenion部分分別對(duì)圖像特征F采用全局最大池化和全局平均池化,獲得2個(gè)金剛石圖像的特征圖,然后將2個(gè)并行池化的結(jié)果輸入到一個(gè)權(quán)重共享的多層感知機(jī)(multi-1ayer per-ceptron,MLP)中處理,對(duì)處理后的2個(gè)結(jié)果相加,經(jīng)過(guò)Sigmoid非線性激活函數(shù)獲得輸入特征層每一個(gè)通道的權(quán)重系數(shù),將此權(quán)重系數(shù)與模塊的輸入特征相乘便生成空間注意力模塊的輸入特征F′。通道注意力權(quán)重Mc計(jì)算公式為:
式中:F是輸入特征,MLP是多層感知機(jī),AvgPool是全局平均池化,MaxPool是全局最大池化。
空間注意力子模塊是將通道注意力子模塊輸出的特征F、作為輸入特征,在一個(gè)通道維度上進(jìn)行最大池化和平均池化處理,再將2個(gè)處理結(jié)果按照通道維度進(jìn)行堆疊,經(jīng)過(guò)一個(gè)通道數(shù)為1的7×7卷積層和一個(gè)Sigmoid函數(shù)得到空間注意力權(quán)重系數(shù)Ms,將空間權(quán)重系數(shù)與輸入特征相乘得到金剛石圖像的新特征F''??臻g注意力權(quán)重Ms計(jì)算公式為:
式中:F、是輸入特征,AvgPool是全局平均池化,MaxPool是全局最大池化,f7×7是7×7卷積處理。
1.3特征融合模塊
由圖4可以看出:在金剛石特征提取過(guò)程中,Lay-er1和Layer2特征圖的感受視野小但雜質(zhì)細(xì)節(jié)信息豐焦面積較大的雜質(zhì)斑點(diǎn)從而遺漏細(xì)節(jié)特征。FPN的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)作為多尺度融合結(jié)構(gòu)的一種[16],通過(guò)自上向下的路徑及橫向連接融合高層特征圖和低層特征圖,從而得到既具豐富空間信息又具較強(qiáng)語(yǔ)義信息的特征圖。
為避免網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,降低模型檢測(cè)效率,利用FPN對(duì)主干網(wǎng)絡(luò)提取的特征圖進(jìn)行部分特征聚合。選取ResNet50網(wǎng)絡(luò)中Layer3與Layer4層經(jīng)過(guò)注意力機(jī)制輸出的特征圖作為特征融合的基礎(chǔ),記為C1、C2,通過(guò)1×1卷積調(diào)整通道數(shù)得到M1、M2,采用上采樣將M2的尺寸與M1的統(tǒng)一,相加后經(jīng)過(guò)一個(gè)3×3卷積得到最終的輸出特征圖。特征融合流程如圖7所示。
1.4交叉熵?fù)p失函數(shù)
采用ResNet50進(jìn)行金剛石凈度檢測(cè)時(shí)需要大量的數(shù)據(jù)樣本,但在實(shí)際工作中數(shù)據(jù)樣本的獲取較為困難,且金剛石具有復(fù)雜的光學(xué)特性,光源等噪聲對(duì)檢測(cè)結(jié)果有很大影響,容易產(chǎn)生過(guò)擬合問(wèn)題[17]。因此,在CBAM-ResNet50模型中采用交叉熵?fù)p失函數(shù)計(jì)算預(yù)測(cè)值和真實(shí)值之間的距離,優(yōu)化整個(gè)模型。
交叉熵?fù)p失函數(shù)[18]比均方差等傳統(tǒng)損失函數(shù)更加敏感,容易檢測(cè)到噪聲和異常值,一定程度上避免了模型的過(guò)擬合問(wèn)題。多分類交叉熵函數(shù)的表達(dá)式為:
式中:Lc是交叉熵?fù)p失函數(shù),K是總類別數(shù),yi是第i類目標(biāo)的真實(shí)概率,pi是模型預(yù)測(cè)的屬于第i類目標(biāo)的概率。
1.5遷移學(xué)習(xí)
ResNet50模型參數(shù)量較大,而樣本數(shù)據(jù)量較小,如果直接在金剛石數(shù)據(jù)集上進(jìn)行訓(xùn)練,往往不能達(dá)到最佳的分類效果,因此采用遷移學(xué)習(xí)來(lái)解決這一問(wèn)題。遷移學(xué)習(xí)[19]是給定源域Ds={Xs;P(Xs)}、學(xué)習(xí)任務(wù)Ts={Ys;fs(·)}以及相應(yīng)的目標(biāo)域Dt={Xt;P(Xt)}和學(xué)習(xí)任務(wù)Tt={Yt;ft(·)},通過(guò)獲取源域Ds和學(xué)習(xí)任務(wù)Ts中的知識(shí)來(lái)幫助提升Dt中目標(biāo)函數(shù)f(·)的學(xué)習(xí),其中:X是輸入樣本集合所處的特征空間,P(X)是輸入樣本集合自身的概率分布,Y是標(biāo)簽集合所處的空間,f(·)是特征到標(biāo)簽的映射關(guān)系。將ResNet50模型的預(yù)訓(xùn)練權(quán)重參數(shù)加載到新構(gòu)建的CBAM-ResNet50網(wǎng)絡(luò)模型中,對(duì)新構(gòu)建網(wǎng)絡(luò)模型中與預(yù)訓(xùn)練權(quán)重匹配的主干網(wǎng)絡(luò)部分保留參數(shù)權(quán)重,對(duì)新增改進(jìn)部分則使用隨機(jī)參數(shù)初始化,從而提高分類精度,并節(jié)省訓(xùn)練時(shí)間。
2實(shí)驗(yàn)研究與分析
2.1數(shù)據(jù)集
金剛石顆粒內(nèi)部的缺陷與雜質(zhì)表現(xiàn)為分布不均的黑色斑點(diǎn)。企業(yè)生產(chǎn)中,需要避開這些黑色斑點(diǎn)來(lái)進(jìn)行切割,因此對(duì)金剛石顆粒內(nèi)部缺陷與雜質(zhì)的占比進(jìn)行分類,按照缺陷雜質(zhì)占比為10%以下、10%~30%、30%~50%、50%~80%、80%以上5個(gè)區(qū)間將金剛石顆粒分為A、B、C、D、E等5類。為提高圖像質(zhì)量,去除背景噪聲對(duì)預(yù)測(cè)性能的影響,采用圖像處理方法對(duì)原始圖像數(shù)據(jù)集進(jìn)行預(yù)處理,包括去背景、隨機(jī)縮放裁剪以及對(duì)圖像的張量操作和歸一化處理,最終將圖像統(tǒng)一處理成224像素×224像素的尺寸。預(yù)處理后的5類金剛石圖像如圖8所示。
為保證數(shù)據(jù)集的一致性,進(jìn)一步體現(xiàn)算法對(duì)金剛石顆粒凈度檢測(cè)的適用性,實(shí)驗(yàn)所用數(shù)據(jù)在研制的金剛石凈度檢測(cè)裝置上進(jìn)行采集,檢測(cè)裝置如圖9所示。該裝置包括2套圖像采集裝置,可以上下雙視角采集金剛石數(shù)據(jù)。建立數(shù)據(jù)集時(shí)是多視角對(duì)金剛石圖像進(jìn)行采集,實(shí)際檢測(cè)時(shí)則采用上下雙視角對(duì)金剛石進(jìn)行2次凈度檢測(cè)。在圖像采集裝置中,采用了DBS-WD70碗狀光源進(jìn)行正向照明。由于碗狀光源采用特殊的漫射板,具有積分效果的半球面內(nèi)壁可以均勻反射從底部360°發(fā)射出的光線,使整個(gè)圖像的照度十分均勻,可以解決金剛石晶體表面產(chǎn)生的反射問(wèn)題。
在圖9的檢測(cè)裝置上,分別對(duì)已經(jīng)按照雜質(zhì)缺陷占比進(jìn)行人工分類的A、B、C、D、E等5個(gè)等級(jí)的金剛石進(jìn)行圖像采集,共有800粒金剛石顆粒。對(duì)金剛石圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)翻轉(zhuǎn)、隨機(jī)鏡像以及比例縮放等。數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集共包括3 065幅金剛石圖像,其中A級(jí)441幅、B級(jí)768幅、C級(jí)636幅、D級(jí)1 172幅、E級(jí)48幅。將3 065幅圖像分成訓(xùn)練集與驗(yàn)證集,訓(xùn)練集2 786幅,驗(yàn)證集279幅,訓(xùn)練集與驗(yàn)證集的比例接近10∶1。
2.2實(shí)驗(yàn)配置
實(shí)驗(yàn)基于Windows10系統(tǒng)下Python的Pytorch環(huán)境,所用硬件配置是:GPU,NVIDIA GeForce RTX 2080 Ti;軟件配置是:CUDA12.0,Python3.9.0,Pytorch1.11.0。
2.3評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)選取精確度P、召回率R、特異性S和F1分?jǐn)?shù)為CBAM-ResNet50模型對(duì)金剛石顆粒凈度分類結(jié)果的評(píng)價(jià)指標(biāo)。精確度P是指被預(yù)測(cè)為正的樣本中實(shí)際為正樣本的概率,召回率R是指實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,特異性S是指實(shí)際為負(fù)的樣本中被預(yù)測(cè)為正樣本的概率,F(xiàn)1是精確度和召回率的一種加權(quán)平均。各指標(biāo)的表達(dá)式如下:
P=×100%(4)
R=×100%(5)
S=×100%(6)
F1=×100%(7)
式中:TP是預(yù)測(cè)為正的正樣本數(shù)量,F(xiàn)P是預(yù)測(cè)為正的負(fù)樣本數(shù)量,TN是預(yù)測(cè)為負(fù)的負(fù)樣本數(shù)量,F(xiàn)N是預(yù)測(cè)為負(fù)的正樣本數(shù)量。
2.4遷移學(xué)習(xí)與超參數(shù)對(duì)模型性能的影響
2.4.1遷移學(xué)習(xí)對(duì)網(wǎng)絡(luò)模型性能的影響
為了研究遷移學(xué)習(xí)對(duì)CBAM-ResNet50網(wǎng)絡(luò)模型的影響,設(shè)定以下模型參數(shù):批處理參數(shù)Batchsize為48、迭代次數(shù)epoch為200、初始學(xué)習(xí)率為0.000 1。有無(wú)遷移學(xué)習(xí)對(duì)模型訓(xùn)練結(jié)果的影響如圖10所示。圖10中:基于遷移學(xué)習(xí)的CBAM-ResNet50模型比未遷移的CBAM-ResNet50模型的訓(xùn)練準(zhǔn)確率高4.1個(gè)百分點(diǎn),且收斂速度明顯加快,訓(xùn)練損失更小,初始性能更好。
2.4.2學(xué)習(xí)率對(duì)網(wǎng)絡(luò)模型性能的影響
學(xué)習(xí)率影響網(wǎng)絡(luò)模型的收斂速度以及訓(xùn)練穩(wěn)定性,理想的學(xué)習(xí)率有利于模型快速收斂。為研究模型參數(shù)對(duì)模型準(zhǔn)確率和收斂速度的影響,在遷移學(xué)習(xí)的前提下,對(duì)CBAM-ResNet50網(wǎng)絡(luò)模型分別設(shè)置初始學(xué)習(xí)率為0.1、0.01、0.001、0.000 1、0.000 01,批處理參數(shù)Batchsize為48,迭代次數(shù)epoch為50,訓(xùn)練得到的結(jié)果如圖11所示。從圖11可知:當(dāng)學(xué)習(xí)率為0.000 1時(shí),網(wǎng)絡(luò)模型訓(xùn)練效果最優(yōu),能夠快速收斂并達(dá)到較高的準(zhǔn)確率;當(dāng)學(xué)習(xí)率達(dá)到0.000 01時(shí),模型性能退化。綜合訓(xùn)練結(jié)果,選取0.000 1作為本模型訓(xùn)練的學(xué)習(xí)率。
2.5 CBAM-ResNet50模型與其他模型性能比較
為驗(yàn)證改進(jìn)算法的可靠性,研究改進(jìn)的CBAM-ResNet50網(wǎng)絡(luò)模型與3種經(jīng)典網(wǎng)絡(luò)模型VGG16[20]、AlexNet[21]、ResNet50在金剛石顆粒數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果。設(shè)置模型參數(shù):批處理參數(shù)Batchsize為48、迭代次數(shù)epoch為400、初始學(xué)習(xí)率為0.000 1、采用Adam優(yōu)化器和交叉熵?fù)p失函數(shù)。不同模型的訓(xùn)練實(shí)驗(yàn)結(jié)果見表1。
由表1可知:CBAM-ResNet50模型的訓(xùn)練結(jié)果優(yōu)于其他模型的,驗(yàn)證準(zhǔn)確率分別高出ResNet50、VG-GV16、AlexNet模型0.1個(gè)百分點(diǎn)、10.9個(gè)百分點(diǎn)和11.1個(gè)百分點(diǎn),訓(xùn)練準(zhǔn)確率分別高出ResNet50、VGGV16、AlexNet模型0.4個(gè)百分點(diǎn)、3.4個(gè)百分點(diǎn)和6.7個(gè)百分點(diǎn),證明改進(jìn)后的模型在金剛石顆粒凈度檢測(cè)中的優(yōu)勢(shì)大于其他模型。此外,改進(jìn)前后的ResNet50模型平均檢測(cè)速度相差無(wú)幾,且CBAM-ResNet50模型的平均檢測(cè)時(shí)間為0.016 29 s,滿足工業(yè)檢測(cè)實(shí)時(shí)性需求。綜上,CBAM-ResNet50模型在保證模型運(yùn)算速度的同時(shí)提高了模型性能,證明了模型改進(jìn)的有效性。
2.6模型評(píng)估
混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的分析表,矩陣的行表示真實(shí)值,矩陣的列表示預(yù)測(cè)值。為綜合評(píng)估提出的CBAM-ResNet50網(wǎng)絡(luò)模型對(duì)金剛石顆粒凈度分類的性能,使用未參加訓(xùn)練的測(cè)試集進(jìn)行預(yù)測(cè),測(cè)試集圖像共3 000幅,在金剛石凈度檢測(cè)裝置上進(jìn)行采集,得到的混淆矩陣見表2。表2的混淆矩陣中,真實(shí)標(biāo)簽為測(cè)試樣本所屬的真實(shí)類別,預(yù)測(cè)類別為樣本被網(wǎng)絡(luò)預(yù)測(cè)劃分的類別,表中數(shù)值代表真實(shí)類別所屬該行的樣本被預(yù)測(cè)到該列類別中的數(shù)目。根據(jù)混淆矩陣計(jì)算得到模型各個(gè)類別對(duì)應(yīng)的評(píng)價(jià)指標(biāo)結(jié)果見表3。
由表3可以看出:CBAM-ResNet50模型的精確度、召回率、特異性和F1分?jǐn)?shù)均在98.70%以上,且其中的特異性均在99.70%以上。以F1為評(píng)價(jià)標(biāo)準(zhǔn)對(duì)金剛石顆粒識(shí)別性能進(jìn)行排序,發(fā)現(xiàn)對(duì)A、E級(jí)的識(shí)別準(zhǔn)確率最高,B、D級(jí)的次之,識(shí)別性能最差的是C級(jí)的。
為進(jìn)一步研究模型改進(jìn)對(duì)不同等級(jí)金剛石分類性能的影響,各級(jí)金剛石在ResNet50、ResNet50+CBAM、ResNet50+FPN、CBAM-ResNet50上的評(píng)價(jià)指標(biāo)結(jié)果見表4。
由表4可以看出:相比于ResNet50原網(wǎng)絡(luò),在Res-Net50模型中分別增加CBAM注意力機(jī)制與FPN特征融合模塊的ResNet50+CBAM和ResNet50+FPN模型,對(duì)不同等級(jí)金剛石顆粒的分類性能都有了較大的提升。其中,ResNet50+CBAM模型對(duì)A、E級(jí)的分類精確度和召回率都達(dá)到了100.00%。這是由于CBAM可以使網(wǎng)絡(luò)將注意力集中到金剛石顆粒內(nèi)部的黑色雜質(zhì)特征上,減少了對(duì)無(wú)用信息的關(guān)注,提高了分類精確度。另外,CBAM-ResNet50則在ResNet50+CBAM的基礎(chǔ)上增加了FPN特征融合模塊,對(duì)B、C、D級(jí)的分類精確度和召回率有了進(jìn)一步的提高。這是由于FPN將高層與低層的特征信息進(jìn)行融合,豐富了特征圖包含的小目標(biāo)特征信息,而B、C、D這3個(gè)等級(jí)的金剛石特征較為相似,小目標(biāo)特征在其凈度分類中起著重要的作用。目前該模型對(duì)B、C、D級(jí)的金剛石識(shí)別效果略有不足,但總體來(lái)說(shuō),CBAM-ResNet50模型在金剛石顆粒凈度分類任務(wù)上表現(xiàn)十分優(yōu)異。在后續(xù)研究中,可以采用增加數(shù)據(jù)集、修改參數(shù)設(shè)置等方法,進(jìn)一步提高B、C、D級(jí)金剛石顆粒的分類效果。
3結(jié)論
為實(shí)現(xiàn)金剛石顆粒的凈度檢測(cè),提出了CBAM-ResNet50網(wǎng)絡(luò)模型,在ResNet50主干網(wǎng)絡(luò)上融合了CBAM與FPN,采用遷移學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)初始參數(shù)。在所研制的金剛石凈度檢測(cè)裝置上對(duì)A、B、C、D、E等5類金剛石顆粒進(jìn)行了分類驗(yàn)證,實(shí)驗(yàn)結(jié)果表明:在學(xué)習(xí)率設(shè)置為0.000 1的情況下,CBAM-ResNet50網(wǎng)絡(luò)模型的訓(xùn)練準(zhǔn)確率達(dá)到99.2%,相比ResNet50原網(wǎng)絡(luò)提升了0.4個(gè)百分點(diǎn),分別超出VGG16模型、AlexNet模型3.4個(gè)百分點(diǎn)和6.7個(gè)百分點(diǎn)。通過(guò)混淆矩陣計(jì)算得到模型的精確度在99.20%以上,分類召回率在98.70%以上,特異性在99.70%以上,F(xiàn)1分?jǐn)?shù)在99.20%以上,證明了模型具有較好的魯棒性,能滿足金剛石顆粒在線檢測(cè)要求。
參考文獻(xiàn):
[1]周青超,沈錫田.從專利角度分析人造金剛石技術(shù)的發(fā)展[J].超硬材料工程,2021,33(5):29-36.
ZHOU Qingchao,SHEN Xitian.Analysis of the development of synthetic diamond technology from the perspective of patents[J].Superhard Material Engineering,2021,33(5):29-36.
[2]熊輝.基于模板匹配的金剛石顆粒圖像識(shí)別[D].成都:四川大學(xué),2005.
XIONG Hui.The image recognition of the diamond particles based on the template matching[D].Chengdou:Sichuan University,2005.
[3]郭樹青.金剛石顆粒形貌檢測(cè)系統(tǒng)關(guān)鍵技術(shù)研究[D].鄭州:鄭州大學(xué),2016.
GUO Shuqing.Research on the key technology of diamond particle morphology detection system[D].Zhengzhou:Zhengzhou University,2005.
[4]WANG W,CAI L.Inclusion extraction from diamond clarity images based on the analysis of diamond optical properties[J].Optics Express,2019,27(19):27242.
[5]WANG W,CAI L.On the development of an effective image acquisition system for diamond quality grading[J].Applied Optics,2018,57(33):9887-9897.
[6]石廣豐,王雪,王淑坤,等.基于機(jī)器視覺的金剛石原石檢測(cè)系統(tǒng)[J].金剛石與磨料磨具工程,2019,39(6):7-12.
SHI Guangfeng,WANG Xue,WANG Shukun,et al.Diamond raw detection system based on machine vision[J].Diamondamp;Abrasives Engineering,2019,39(6):7-12.
[7]狄超雄.鉆石凈度檢測(cè)系統(tǒng)研究[D].武漢:華中科技大學(xué),2021.
DI Chaoxiong.Research on diamond clarity detection system[D].Wuhan:Huazhong University of Scienceamp;Technology,2021.
[8]季長(zhǎng)清,高志勇,秦靜,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J].計(jì)算機(jī)應(yīng)用,2022,42(4):1044-1049.
JI Changqing,GAO Zhiyong,QIN Jing,et al.Review of image classification algorithms based on convolutional neural network[J].Journal of Computer Applications,2022,42(4):1044-1049.
[9]邢延動(dòng),李遠(yuǎn).BP神經(jīng)網(wǎng)絡(luò)在金剛石鋸片磨粒識(shí)別中的應(yīng)用[J].超硬材料過(guò)程,2014(1):1-4.
XING Yandong,LI Yuan.Application of BP neural network in diamond saw blade abrasive particle recognition[J].Superhard Material Engineering,2014(1):1-4.
[10]潘秉鎖,潘文超,劉子玉.基于空洞卷積神經(jīng)網(wǎng)絡(luò)的金剛石圖像語(yǔ)義分割[J].金剛石與磨料磨具工程,2019,39(6):20-24.
PAN Bingsuo,PAN Wenchao,LIU Ziyu.Semantic segmentation of diamond image using dilated convolutional neural network[J].Diamondamp;Abrasives Engineering,2019,39(6):20-24.
[11]林振坤.基于深度學(xué)習(xí)的金剛石品質(zhì)檢測(cè)技術(shù)與實(shí)現(xiàn)[D].鄭州:鄭州航空工業(yè)管理學(xué)院,2020.
LIN Zhenkun.Diamond quality detection technology and implementation based on deep learning[D].Zhengzhou:Zhengzhou University of Aeronautics,2020.
[12]楊建新,蘭小平,趙振,等.基于改進(jìn)郊狼算法與極限學(xué)習(xí)機(jī)的工業(yè)金剛石檢測(cè)[J].計(jì)算機(jī)集成制造系統(tǒng),2023,29(2):449-459.
YANG Jianxin,LAN Xiaoping,ZHAO Zhen,et al.Industrial diamonddetection method based on improved coyote optimization algorithm and extreme learning machine[J].Computer Integrated Manufacturing Systems,2023,29(2):449-459.
[13]SANDLER M,HOWARD A,ZHU M,et al.MobileNetV2:Iinverted residuals and linear bottlenecks:2018 IEEE conference on computer vision and pattern recognition(CVPR)[C].Salt Lake:IEEE,2018.
[14]HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition:2016 IEEE conference on computer vision and pattern recognition(CVPR)[C].Las Vegas:IEEE,2016.
[15]WOO S,PARK J,LEE J,et al.CBAM:Convolutional block attention module:European conference on computer vision(ECCV)[C].Munich:CVPR,2018.
[16]LIN T,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection:2017 IEEE conference on computer vision and pattern recognition(CVPR)[C].Honolulu:IEEE,2017.
[17]沈微微,李穎,楊志豪,等.防止過(guò)擬合的屬性約簡(jiǎn)[J].計(jì)算機(jī)應(yīng)用研究,2020,37(9):2665-2668.
SHEN Weiwei,LI Ying,YANG Zhihao,et al.Attribute reduction with avoiding overfitting[J].Application Research of Computers,2020,37(9):2665-2668.
[18]鄧建國(guó),張素蘭,張繼福,等.監(jiān)督學(xué)習(xí)中的損失函數(shù)及應(yīng)用研究[J].大數(shù)據(jù),2020,6(1):60-80.
DENG Jianguo,ZHANG Sulan,ZHANG Jifu,et al.Loss function and application research in supervised learning[J].Big Data Research,2020,6(1):60-80.
[19]PAN S,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledgeamp;Data Engineering,2010,22(10):1345-1359.
[20]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition:3rd international conference on learning representations(ICLR 2015)[C].San Diego:arXiv,2015.
[21]KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classification with deep convolutional neural networks:25th international conference on neural Information processing systems(NeurIPS 2012)[C].New York:Curran Associates Inc.,2012.
作者簡(jiǎn)介
通信作者:趙鳳霞,女,1971年生,博士、教授。主要研究方向:現(xiàn)代精密測(cè)量技術(shù)及應(yīng)用。
E-mail:zfxmail@163.com
(編輯:周萬(wàn)里)
Diamond particle clarity detection method based on CBAM-ResNet50
FEI Wenqian1,ZHAO Fengxia1,DU Quanbin2,WANG Qinghai2
(1.School of Mechanical and Power Engineering,Zhengzhou University,Zhengzhou 450001,China)
(2.School of Intelligent Engineering,Henan Mechanical and Electrical Vocational College,Zhengzhou 451191,China)
Abstract Objectives:With the improvement of production technology,the traditional diamond particle cleanliness detection method can no longer meet the requirements of high precision,high quality and high automation in the dia-mond industry due to itslow efficiency and poor accuracy.The rapid development of computer technology,optical,and electronic technologies has led to the widespread application of visual inspection and deep learning in imageclassifica-tion and detection,providing new methods for diamond clarity detection.Therefore,based on transfer learning and com-bined with the convolutional block attention module(CBAM)attention mechanism and the feature pyramid network(FPN)structure,an improved ResNet50 diamond particle clarity detection algorithm,CBAM-ResNet50,is proposed.Methods:The CBAM-RESnet50 clarity detection algorithm uses ResNet50 as the backbone network and adds CBAM to each layer of the backbone network to improve the feature extraction ability of the model.In addition,the FPN struc-ture is integrated into Layer 3 and Layer 4 of the backbone network,where part of the extracted features are aggregated to address the issues of losing features of small and medium-sized targets during the sampling process.At the same time,the transfer learning method is introduced to optimize the model's initial parameters with a cross-entropy loss function,thereby improving the generalization ability and robustness of the model.Moreover,multi-angle diamond images are collected on a diamond clarity detection device,a diamond particle clarity dataset is established,and the improved CBAM-ResNet50 network model is experimentally compared and verified using the data set.Results:Firstly,when compared with other classic mainstream network models,the accuracy of the CBAM-ResNet50 model during training is 99.2%,and the precision is 99.7%,ourperforming the classification results of other network models and significantly improving the identification ability for diamond particle clarity detection.The average detection time of the CBAM-Res-Net50 model is 0.01629s,which meets the real-time requirements for industrial detection.Secondly,the CBAM-Res-Net50 model is evaluated and ablated on diamond particles of various grades.The results show that the CBAM-ResNet50 model achieves an accuracy of over 99.2%,a classification recall rate of over 98.7%,specificity of over 99.7%,and an F1 score of over 99.2%for classifying diamonds of different grades.The ablation experiment results show that adding the CBAM attention mechanism and FPN feature fusion module significantly improves the classifica-tion performance of different grades of diamond particles.The ResNet50+CBAM model achieves a classification accur-acy and recall rate of 100.0%for A and E grade diamonds,indicating that the CBAM module helps focus the network's attention on the black impurity features inside the diamond particles,reduces attention to irrelevant information,and im-proves classification accuracy.The CBAM-ResNet50,with the addition of the FPN feature fusion module,further en-hances the classification accuracy and recall rate for B,C,and D grade diamonds.This improvement suggests that the FPN fuses both high-level and low-level feature information,enriching the small target features in the feature map,and enhances classification performance for B,C,and D grade diamonds with similar characteristics.Conclusions:Deep learning technology has been applied to the cleanliness detection of diamond particles,with the ResNet50 network,known for its strong feature extraction ability,serving as the backbone model.Based on the cleanliness features india-mond particle images,the CBAM attention mechanism,the FPN feature fusion module,transfer learning,and the en-tropy loss function are respectively integrated to address the challenges of insufficient feature extraction,the loss of small target features,and limited generalization in network models.By comparing experiments with other mainstream networks and conducting network ablation experiments,the impact of various improvements on the performance of the diamond particle cleanliness classification network is studied,confirming the effectiveness of the improved network model.
Key words diamond clarity;ResNet50;convolutional block attention module(CBAM);feature pyramid network(FPN);transfer learning