潘秉鎖, 潘文超, 劉子玉
(中國地質(zhì)大學(xué)(武漢) 工程學(xué)院, 武漢 430074)
金剛石顆粒的粒徑、橢圓度、圓度等形狀特征參數(shù)是金剛石質(zhì)量對比的重要依據(jù),也是金剛石分級和選用的基礎(chǔ)[1]。而在金剛石工具的使用過程中,金剛石的出刃狀態(tài)是工具性能、加工對象特性及操作規(guī)程的綜合反映。獲取出刃金剛石的形態(tài)參數(shù)是分析金剛石工具加工性能的基礎(chǔ)[2]。因此,研究金剛石顆粒的形狀表征方法,具有重要意義。
隨著計算機技術(shù)和數(shù)字圖像處理技術(shù)的發(fā)展,已有不少關(guān)于以數(shù)字圖像處理技術(shù)為基礎(chǔ)的金剛石特征參數(shù)測量方法的報道。JIANG等[3]采用機器視覺系統(tǒng)和最大類間方差閾值法(Otsu法)分割了金剛石鋸片刀頭的數(shù)字圖像,進(jìn)行了金剛石出刃率的測量。史長瓊等[4]以Canny算法為基礎(chǔ),采用動態(tài)閾值進(jìn)行了金剛石顆粒圖像的邊緣檢測,從而實現(xiàn)了金剛石粒徑的自動測量。王慶海[1]以HALCON為平臺,采用閾值法進(jìn)行了金剛石顆粒彩色圖像的分割,測量了金剛石粒徑、圓度、橢圓度、凈度、形狀等特征參數(shù)。江國學(xué)等[5]基于Matlab的圖像處理工具箱,對金剛石微粉的數(shù)字圖像進(jìn)行了圖像增強和閾值分割,提取了金剛石顆粒圖像并測量了顆粒數(shù)目、面積等參數(shù)。潘秉鎖等[2]針對孕鑲金剛石鉆頭唇面圖像的顏色特征,采用模糊聚類方法對圖像中的金剛石顆粒進(jìn)行了分割,取得了較好的分割效果。龔俊鋒等[6]采用動態(tài)輪廓模型對金剛石的融合圖像進(jìn)行了分割,得到了完整連續(xù)的金剛石顆粒輪廓。這些工作為金剛石顆粒和金剛石出刃形貌的自動分析打下了良好的基礎(chǔ)。但由于金剛石是透明材料,獲取的金剛石顆粒圖像往往存在背景顏色不均勻、金剛石顆粒與背景邊界不清楚、金剛石側(cè)晶面或其他局部區(qū)域因光照角度而過于光亮等問題。這些問題對于目前以閾值分割為基礎(chǔ)的金剛石顆粒提取方法而言,是很大的挑戰(zhàn)。
近年來深度學(xué)習(xí)在圖像分割和圖像識別等領(lǐng)域取得了很大的進(jìn)展,在醫(yī)學(xué)、生物、自動駕駛等領(lǐng)域取得了較好的應(yīng)用效果[7-9]?;谏疃葘W(xué)習(xí)的語義圖像分割不是單獨進(jìn)行復(fù)雜的特征提取,而是構(gòu)造含有大量參數(shù)的深層神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)訓(xùn)練,自動提取圖像特征。由于網(wǎng)絡(luò)訓(xùn)練是一種有監(jiān)督的學(xué)習(xí)過程,所訓(xùn)練的分割模型能夠在像素級別上對一幅圖像中的每個像素點進(jìn)行語義歸類。因此,在一定程度上它可以克服傳統(tǒng)圖像分割方法在分割過程中受參數(shù)影響大、對噪聲敏感、分割準(zhǔn)確度不高等缺點。
針對金剛石顆粒數(shù)字圖像處理中存在的圖像分割難題,采用空洞卷積神經(jīng)網(wǎng)絡(luò)對金剛石顆粒圖像進(jìn)行語義分割,研究批處理規(guī)模、卷積層卷積膨脹系數(shù)、過濾器數(shù)量等超參數(shù)對金剛石圖像分割結(jié)果的影響。
基于空洞卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行金剛石圖像分割研究,主要過程為:準(zhǔn)備標(biāo)注出金剛石顆粒的訓(xùn)練樣本集、驗證集和測試樣本數(shù)據(jù)集;將訓(xùn)練數(shù)據(jù)輸入具有不同結(jié)構(gòu)超參數(shù)的網(wǎng)絡(luò),對網(wǎng)絡(luò)進(jìn)行訓(xùn)練;訓(xùn)練完畢后,對測試樣本進(jìn)行檢測。
所用的空洞卷積網(wǎng)絡(luò)架構(gòu)與文獻(xiàn)[10]提出的網(wǎng)絡(luò)架構(gòu)相類似。與全卷積方法相比,空洞卷積架構(gòu)代替了采樣操作,具有保持空間分辨率、擴大感受野的優(yōu)點,因此在語義分割應(yīng)用中得到了廣泛關(guān)注。
所用模型的網(wǎng)絡(luò)架構(gòu)如圖1。所建網(wǎng)絡(luò)共包含16層:第1層為輸入層,接下來是4組具有不同膨脹系數(shù)的空洞卷積層、批量歸一化處理層和激活層的組合,之后是具有2個1×1卷積的卷積層,其后是1個softmax 分類層和1個具有逆類權(quán)重的輸出層??斩淳矸e層的過濾器大小為3×3。
圖1 空洞卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
試驗圖像采集時所用的金剛石粒度號為50/60。金剛石均勻分布在多種顏色的背景上,采用VISION1000數(shù)字顯微鏡在斜光源照明條件下對金剛石進(jìn)行圖像采集。每幅圖像的大小為2 048×1 536像素。把采集的圖像裁剪成132×118像素的小圖,每幅圖中只包含一顆金剛石,并標(biāo)注出真值圖。本研究中標(biāo)注的圖像是二值圖像,即圖像像素劃分成2類:金剛石(用1表示)和背景(用0表示)。從獲得的700幅金剛石顆粒圖像中隨機挑選圖像作為訓(xùn)練集圖像、驗證集圖像和測試集圖像,它們之間的數(shù)量比例為5∶1∶1。在對模型的訓(xùn)練過程中將訓(xùn)練集圖像送入網(wǎng)絡(luò)模型進(jìn)行初始化參數(shù)訓(xùn)練;利用驗證集圖像防止模型參數(shù)過擬合;最后使用測試圖像對模型的訓(xùn)練結(jié)果進(jìn)行評價。網(wǎng)絡(luò)架構(gòu)和圖像標(biāo)注都在Matlab平臺上進(jìn)行。
所采集的金剛石圖像含有很多噪點,對網(wǎng)絡(luò)訓(xùn)練可能產(chǎn)生不利影響。為此,對輸入圖像進(jìn)行了增強處理——去噪和灰度調(diào)整。采用了維納濾波去噪,濾波器窗口大小為[3, 3]?;叶日{(diào)整采用Matlab的Imadjust函數(shù)實現(xiàn),調(diào)整參數(shù)為默認(rèn)值。把原灰度圖像中灰度值在[0.01, 0.99]區(qū)間內(nèi)的像素的灰度值線性變換到[0, 255]區(qū)間,小于1%的灰度值設(shè)置為0, 大于99%的設(shè)置為255。這樣就增大了灰度差異,提高了對比度。
在本研究中,網(wǎng)絡(luò)模型的訓(xùn)練采用適應(yīng)性矩估計算法(adaptive moment estimation, ADAM)。初始學(xué)習(xí)速率設(shè)置為0.001,迭代次數(shù)(epoch)固定在15次,批處理大小設(shè)置為7、10、20、30和40。4層空洞卷積層中,第1層網(wǎng)絡(luò)的膨脹系數(shù)設(shè)定為1,保持不變;其他層的系數(shù)則進(jìn)行了改變,以研究膨脹系數(shù)對模型分割性能的影響。第1層到第4層的膨脹系數(shù)共試驗了4種組合,分別是1-2-3-4、1-2-4-6、1-2-4-8、1-3-6-9??斩淳矸e層中過濾器的數(shù)量分別為16、32、48和64。
為評價所研究的金剛石顆粒圖像分割方法的性能,選用了2個評價指標(biāo):精確率(p)和召回率(r)。計算公式如下[11]:
(1)
(2)
其中,Tp表示金剛石像素中被正確劃分為金剛石像素類的樣本個數(shù);Fp表示背景像素被劃分于金剛石像素類的樣本個數(shù);Fn則表示金剛石像素中被劃分為背景像素類的樣本個數(shù)。因此,精確率指金剛石像素中被正確歸類為金剛石的比率,數(shù)值越高,分割性能越好。召回率是指正確歸類為金剛石的像素占金剛石總像素的比率,召回率越高,網(wǎng)絡(luò)的分割性能越好。一般來說,精確率越高,召回率越低;而分割性能通常要綜合這2種指標(biāo)來評價,實現(xiàn)精確率和召回率的平衡。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,可以一次性將整個數(shù)據(jù)集輸入神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)利用全部樣本來計算迭代時的梯度,也可以一次只輸入一個樣本。折中的辦法是每次輸入一部分樣本(batch)讓神經(jīng)網(wǎng)絡(luò)完成迭代。更大的批處理規(guī)模(batch size)更能準(zhǔn)確地計算出梯度,批處理規(guī)模越小所得的梯度越近似。直覺上好像更大的批處理規(guī)模更好,因為其梯度更“準(zhǔn)確”。實踐中,由于深度模型的代價函數(shù)不平整,完整的梯度常常使模型陷入局部極小值,所以大的批處理規(guī)模帶來的準(zhǔn)確的梯度有可能不利于處理結(jié)果,有時候小的批處理規(guī)模引起的噪聲可以更快地找到更好的極小值。但批處理規(guī)模太小可能導(dǎo)致網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性差,對學(xué)習(xí)速率的設(shè)置要求也更高,可能造成惡性振蕩而無法收斂。
圖2反映的是批處理大小對訓(xùn)練的網(wǎng)絡(luò)分割金剛石圖片精確率和召回率的影響,圖3所示為網(wǎng)絡(luò)訓(xùn)練的精度曲線。由圖2可以看出:當(dāng)批處理規(guī)模從7幅增大到40幅時,模型的分割精確率逐步從0.948下降到0.919;但批處理大小對召回率的影響不大,其穩(wěn)定在0.973~0.984之間。可見,從分割精度考慮,批處理規(guī)模取較小的值比較合理。由于批處理規(guī)模為7幅時,網(wǎng)絡(luò)訓(xùn)練時已出現(xiàn)明顯的振蕩(圖3),繼續(xù)縮小批處理規(guī)模不太合適。因此后續(xù)研究中,批處理規(guī)模都設(shè)定為7幅。
圖2 批處理大小對模型性能的影響
圖3 網(wǎng)絡(luò)訓(xùn)練的精度曲線
卷積層中過濾器的數(shù)量決定卷積層的輸出深度,影響圖像高層特征的抽取。圖4是過濾器數(shù)量對模型分割性能的影響曲線。當(dāng)過濾器數(shù)量從16增加到48時,模型的分割精度從0.923升高到了0.967;繼續(xù)增加過濾器數(shù)量到64時,分割精度卻大幅下降至0.894。過濾器數(shù)量對召回率的影響則與之相反。當(dāng)過濾器數(shù)量為16時,召回率是0.980;過濾器數(shù)量為48時,召回率是0.959。但過濾器數(shù)量進(jìn)一步增加到64時,召回率又回升到了0.987。因此,從平衡模型的分割精度和召回率考慮,對于本研究涉及的金剛石圖像,神經(jīng)網(wǎng)絡(luò)過濾器數(shù)量選擇為48比較合適。
圖4 過濾器數(shù)量對模型性能的影響
在圖像分割領(lǐng)域,為了增大感受野,傳統(tǒng)的網(wǎng)絡(luò)(比如全卷積網(wǎng)絡(luò))采用先池化再上取樣的辦法。在尺寸先減小再增大的過程中,會造成一些信息的損失而影響精度??斩淳矸e網(wǎng)絡(luò)與傳統(tǒng)方法相比,好處是不做池化的情況下,通過膨脹系數(shù)加大了感受野,讓每個卷積輸出都包含較大范圍的信息。為了保證卷積核的連續(xù)性,盡量讓所有的像素都參加計算,需要采用不同的膨脹系數(shù)組合來提高計算的覆蓋率。因此,在多層網(wǎng)絡(luò)中,各層的膨脹系數(shù)組合對于網(wǎng)絡(luò)性能有著重要影響。
不同膨脹系數(shù)組合對模型精確率和召回率的影響如圖5。圖5中橫坐標(biāo)軸的數(shù)字組合代表各個網(wǎng)絡(luò)不同空洞卷積層膨脹系數(shù)的組合。比如1-2-3-4,表示第1層空洞卷積層的膨脹系數(shù)為1,第2層的為2,第3層的為3,第4層的為4。
圖5 不同膨脹系數(shù)組合對模型分割性能的影響
由圖5可以看出:當(dāng)膨脹系數(shù)較小時(1-2-3-4),網(wǎng)絡(luò)分割的精確率較低,召回率較高;其余的3種膨脹系數(shù)組合造成的分割精確率和召回率差異不大。含1-2-4-8膨脹系數(shù)組合的網(wǎng)絡(luò)的分割精確率和召回率分別為0.965和0.966,稍有優(yōu)勢。因此,確定網(wǎng)絡(luò)的最優(yōu)膨脹系數(shù)組合為1-2-4-8。
圖6和表1對比了超參數(shù)調(diào)優(yōu)后的神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的全局閾值(最大類間方差法)、自適應(yīng)閾值法對金剛石圖像的分類能力。
表1 金剛石圖像分割實驗結(jié)果
由表1可以看出:采用傳統(tǒng)方法盡管可以得到很高的精確率,但是召回率比較低。也就是說,很多應(yīng)劃分為金剛石的像素被歸類成了背景像素。由于金剛石晶面對光的反射和透射,所獲取的金剛石圖像難免存在大小不等的亮斑(圖6a,尤其是箭頭所指區(qū)域)。這些亮斑在灰度值上與背景的灰度值更為接近。因此,基于閾值的分割方法無法把亮斑區(qū)域歸類到金剛石(圖6b、圖6c),所提取的金剛石圖像內(nèi)部含有孔洞或邊緣殘缺。而基于空洞卷積的神經(jīng)網(wǎng)絡(luò)法對這些亮斑有良好的歸類能力(圖6d),召回率有明顯提高,所提取金剛石顆粒的完整性得到很大改善。也就是說,能夠把金剛石內(nèi)部的亮斑或發(fā)光的金剛石晶面“智能”地歸類為金剛石,而不是歸類為與之灰度值更為接近的背景,從而使分割的金剛石顆粒圖像更為完整。
針對金剛石顆粒圖像分割要求,提出了基于空洞卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型。構(gòu)建了含有16層的深度學(xué)習(xí)網(wǎng)絡(luò)和小型的金剛石顆粒圖像分割數(shù)據(jù)集,在其上的網(wǎng)絡(luò)訓(xùn)練和測試結(jié)果表明:
(1)空洞卷積網(wǎng)絡(luò)的批處理大小、過濾器數(shù)量和卷積層膨脹系數(shù)對模型的分割性能都有明顯影響;
(2)經(jīng)超參數(shù)優(yōu)化后的神經(jīng)網(wǎng)絡(luò)能夠?qū)饎偸w粒圖像進(jìn)行良好分割,對測試圖片可以達(dá)到0.965的精確率和0.966的召回率,較傳統(tǒng)的閾值分割法有較大優(yōu)勢。
該方法很好地解決了金剛石顆粒中亮斑的歸類問題。