符甲鑫, 汪 琦
(河海大學(xué) 理學(xué)院, 江蘇 南京 211100)
巖石是地球上基本組成部分之一,是現(xiàn)代建筑必不可缺的原材料.不同的巖石種類可根據(jù)其特定的化學(xué)成分和晶體結(jié)構(gòu)區(qū)分[1],目前地質(zhì)研究員主要通過(guò)目測(cè)、顯微鏡、分析化學(xué)成分等傳統(tǒng)方法判別巖石的種類,但是這些方法耗時(shí)、耗力,且識(shí)別率較低.隨著計(jì)算機(jī)和人工智能的發(fā)展,許多研究者利用圖像處理和模式識(shí)別的技術(shù)對(duì)巖石圖像進(jìn)行分析,可以快速有效地識(shí)別不同種類的巖石.
Mlynarczu等[2]運(yùn)用最近鄰、KNN和最優(yōu)球面鄰域算法對(duì)九類巖石進(jìn)行識(shí)別分類.Chatterjee[3]提出了基于支持向量機(jī)(SVM)的方法對(duì)巖石圖像進(jìn)行分類.Patel等[4]提出了一種基于計(jì)算機(jī)視覺(jué)和概率神經(jīng)網(wǎng)絡(luò)的巖石分類方法,通過(guò)直方圖特征對(duì)不同種類的石灰?guī)r進(jìn)行分類.伴隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和分割領(lǐng)域應(yīng)用越來(lái)越廣泛,同樣在巖石種類識(shí)別也非常受用.Zhang等[5]基于Inception-v3深度學(xué)習(xí)模型對(duì)花崗巖、千枚巖和角礫巖圖像進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到90%.Ran等[6]提出了基于深度卷積網(wǎng)絡(luò)的巖石分類模型,對(duì)六類巖石(花崗巖,石灰?guī)r,礫巖,砂巖,頁(yè)巖,糜棱巖)進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到97.96%.Jialun等[7]提出基于遷移深度學(xué)習(xí)方法的火星巖石圖像分類模型,采用VGG-16網(wǎng)絡(luò)對(duì)火星巖石圖像進(jìn)行分類.
AlexNet在ImageNet大賽上奪冠后,卷積神經(jīng)網(wǎng)絡(luò)進(jìn)入了飛速發(fā)展的階段,伴隨VGG和Inception網(wǎng)絡(luò)的出現(xiàn),其采用更小的卷積核與更深的網(wǎng)絡(luò)結(jié)構(gòu),在粗粒度圖像分類任務(wù)中取得了優(yōu)異的表現(xiàn).但隨著網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)難以訓(xùn)練,很容易產(chǎn)生梯度消失現(xiàn)象,2015年微軟實(shí)驗(yàn)室提出ResNet[10],通過(guò)引入殘差模塊的思想,解決了深層神經(jīng)網(wǎng)絡(luò)中梯度消失的問(wèn)題.ResNet主要有5種不同網(wǎng)絡(luò)層數(shù)的版本,即ResNet-18,ResNet-34,ResNet-50,ResNet-101和ResNet-152,數(shù)字代表網(wǎng)絡(luò)的層數(shù).網(wǎng)絡(luò)層數(shù)的增加伴隨著參數(shù)和計(jì)算量的增加,使得網(wǎng)絡(luò)訓(xùn)練速度變慢,同時(shí)層數(shù)最少的網(wǎng)絡(luò)缺乏一定的特征表達(dá)能力.在具有一定特征表達(dá)能力的前提下,為清晰地反映多尺度分組卷積具有更細(xì)粒度特征提取和收斂速度提升的優(yōu)點(diǎn),本文選用ResNet-34作為巖石分類模型框架,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 ResNet34基本結(jié)構(gòu)
同時(shí)表明,倘若多尺度分組卷積在ResNet-34上能夠提升模型的收斂速度,則在更深層數(shù)的網(wǎng)絡(luò)中提升效果更加顯著.ResNet-34網(wǎng)絡(luò)首先對(duì)輸入圖像進(jìn)行五個(gè)卷積組操作,最重要的部分在于最后四個(gè)卷積組,它們分別包含了3、4、6和3個(gè)殘差模塊(BasicBlock),然后通過(guò)平均池化層下采樣改變特征圖的大小,最后連接全連接層輸出類別得分.雖然ResNet34解決了梯度消失問(wèn)題,但在復(fù)雜的細(xì)粒度巖石識(shí)別場(chǎng)景下,無(wú)法對(duì)粒度特征進(jìn)行有效提取,且模型訓(xùn)練過(guò)程中收斂速度較慢.
ResNet分類網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù)[11],用于衡量模型學(xué)習(xí)到的分布和真實(shí)分布的差異.交叉熵?fù)p失函數(shù)的曲線是凸曲線,曲線整體呈單調(diào)性,loss越大,梯度越大,便于反向傳播時(shí)的快速優(yōu)化,函數(shù)公式為:
(1)
式(1)中:cij表示第i個(gè)樣本屬于類j的真實(shí)概率,aij表示第i個(gè)樣本屬于類j的預(yù)測(cè)概率.
學(xué)習(xí)率衰減[12]是指在訓(xùn)練初期學(xué)習(xí)率大一些,使得網(wǎng)絡(luò)收斂迅速,在訓(xùn)練后期學(xué)習(xí)率小一些,使得網(wǎng)絡(luò)更好的收斂到最優(yōu)解.本文采用固定步長(zhǎng)衰減,學(xué)習(xí)率每隔τ個(gè)步長(zhǎng)(epoch)就減少為原來(lái)的λ倍,其公式如下所示:
1.沒(méi)有完善的管理體制。目前經(jīng)過(guò)相關(guān)的大量研究,企業(yè)財(cái)務(wù)管理發(fā)展所涉及的工作內(nèi)容有很多種,而且財(cái)政管理所包含的工作類型也涉及了很多種類,因此要想做好企業(yè)的財(cái)政工作,必須要從加強(qiáng)財(cái)政部門與其他部門的協(xié)調(diào)性。但是在我國(guó)目前企業(yè)發(fā)展過(guò)程中,財(cái)務(wù)管理工作與其他部門工作聯(lián)系不深,而且相關(guān)體系建設(shè)的也不夠完善,企業(yè)各個(gè)部門之間的協(xié)調(diào)性不夠,嚴(yán)重影響了企業(yè)的財(cái)務(wù)管理工作,不利于企業(yè)的進(jìn)一步發(fā)展。另外,內(nèi)控制度及業(yè)務(wù)流程管理也沒(méi)有得到完善,從而加大了財(cái)務(wù)風(fēng)險(xiǎn)。
a←a·λ,mmodτ=0
(2)
式(2)中:a表示學(xué)習(xí)率,λ為衰減系數(shù),位于區(qū)間(0,1)內(nèi),m表示epoch,τ為固定步長(zhǎng).
巖石識(shí)別為多分類識(shí)別任務(wù),可認(rèn)為多個(gè)二分類任務(wù)的組合,因此本文采用混淆矩陣、精確率、召回率、特異度、準(zhǔn)確率以及F1-Score作為結(jié)果評(píng)價(jià)指標(biāo)[13].以二分類任務(wù)為例,評(píng)價(jià)指標(biāo)公式如下所示:
TP:將正類樣本預(yù)測(cè)為正類的個(gè)數(shù);
FN:將正類樣本預(yù)測(cè)為負(fù)類的個(gè)數(shù);
FP:將負(fù)類樣本預(yù)測(cè)為正類的個(gè)數(shù);
TN:將負(fù)類樣本預(yù)測(cè)為負(fù)類的個(gè)數(shù);
精確率:
(3)
召回率:
(4)
特異度:
(5)
準(zhǔn)確率:
(6)
F1-Score:
(7)
由于不同通道的特征圖具有其獨(dú)特的表征信息,為學(xué)習(xí)更加豐富的巖石粒度特征,本文提出了一種多尺度分組卷積ResNet34網(wǎng)絡(luò)結(jié)構(gòu),主要在殘差模塊做兩方面的改進(jìn),一方面,借鑒Inception[9]網(wǎng)絡(luò)不同尺度卷積特征提取的思想,在殘差模塊引入多尺度分組卷積核進(jìn)行特征提取,并對(duì)輸出部分進(jìn)行特征圖拼接,構(gòu)成多尺度特征提取模塊,其可以在更細(xì)粒度級(jí)別上學(xué)習(xí)圖像表征信息.另一方面,為擴(kuò)大巖石圖像感受野的檢測(cè)范圍,對(duì)拼接的特征圖進(jìn)行空洞卷積,在分辨率不變的情況下增加感受野,進(jìn)而提升識(shí)別準(zhǔn)確率.該方法顯著提升了網(wǎng)絡(luò)對(duì)粒度特征的提取效果和加快模型的收斂速度.
ResNet34的殘差模塊主要由兩個(gè)3×3的卷積層和1個(gè)1×1的卷積分支構(gòu)成,其中3×3的卷積用于提取特征圖中的特征信息,1×1卷積分支用于避免網(wǎng)絡(luò)深度帶來(lái)的梯度消失問(wèn)題,其結(jié)構(gòu)圖如圖2(a)所示,輸入特征圖以直線分支和捷徑分支同時(shí)進(jìn)入殘差模塊[14],在直線分支中,經(jīng)過(guò)兩個(gè)卷積層產(chǎn)生輸出特征矩陣,在捷徑分支中,經(jīng)過(guò)1×1卷積核的卷積層,增加通道數(shù)量和直線分支的通道數(shù)匹配,然后對(duì)兩個(gè)分支的輸出矩陣進(jìn)行相加得到殘差模塊輸出特征圖,進(jìn)而放入ReLu激活函數(shù)中.但由于巖石圖像復(fù)雜多樣,存在不同種類的巖石特征相似難以分辨,例如深灰色粉砂質(zhì)泥巖和深灰色泥巖的顏色、紋理特征相似,但是粒度特征存在差別,灰色泥質(zhì)粉砂巖和淺灰色細(xì)砂巖的顏色相似,但是粒度特征分別是粉砂與細(xì)砂,肉眼難以辨別.
針對(duì)該問(wèn)題,借鑒Inception網(wǎng)絡(luò)中按圖像通道方向設(shè)置多尺度卷積提取更加豐富表征信息的特性,本文在殘差模塊的直線分支中并行執(zhí)行多個(gè)大小不同的卷積運(yùn)算與池化,進(jìn)行多尺度特征提取,最后按通道方向拼接,如圖2(b)所示.通過(guò)對(duì)輸入特征圖按通道方向均等劃分為四部分特征圖,它們的通道數(shù)均為輸入特征圖的四分之一,為更加形象化表示劃分過(guò)程,本文使用粉色、綠色、藍(lán)色和灰色部分分別代表不同部分的特征圖,不同部分特征圖設(shè)置不同尺度的分組卷積運(yùn)算.在第一部分特征圖(粉色)上采用1×1的卷積保持分支信息完整性避免梯度消失現(xiàn)象,在第二部分特征圖(綠色)上采用1×1和3×3的卷積,在第三部分特征圖(藍(lán)色)上采用1×1和5×5的卷積,在第四部分特征圖(灰色)上采用3×3最大池化和1×1卷積,其中第二和第三部分特征圖均采用了1×1卷積用于降低特征圖通道數(shù)以減少參數(shù)量和3×3卷積用于還原通道數(shù)保持特征圖通道數(shù)不變.對(duì)這四個(gè)分支的輸出矩陣按通道方向進(jìn)行拼接[9],得到多尺度的圖像表征信息,其可以在更細(xì)粒度上提取巖石特征;同時(shí)在輸入特征圖劃分和并行運(yùn)算時(shí),該方法減少了訓(xùn)練參數(shù),加快了模型的收斂速度,假設(shè)輸入特征圖的通道為 ,原始?xì)埐钅K和改進(jìn)殘差模塊的參數(shù)量如式(8)和式(9)所示.
原始?xì)埐钅K參數(shù)量:
(8)
改進(jìn)殘差模塊參數(shù)量:
(9)
(a)原殘差模塊
(b)改進(jìn)的殘差模塊圖2 原始與改進(jìn)的殘差模塊
在傳統(tǒng)的圖像識(shí)別和分割中通常使用池化層增加感受野縮小特征圖尺寸,然后通過(guò)上采樣還原到原尺寸,該過(guò)程會(huì)造成了一定的信息損失,對(duì)預(yù)測(cè)結(jié)果的精度產(chǎn)生一定的影響.而空洞卷積[15]在增加感受野的同時(shí)維持特征圖尺寸不變,不會(huì)造成信息損失等問(wèn)題.在改進(jìn)的殘差模塊中,本文將原來(lái)的第二個(gè)3×3卷積變?yōu)?×3的空洞卷積,如圖3所示,卷積核仍為3×3,空洞數(shù)為2,目的是在保持與原始?xì)埐钅K第二個(gè)3×3卷積的參數(shù)一致的前提下,合理增加感受野范圍,因?yàn)槿缛艨斩磾?shù)較大導(dǎo)致感受野內(nèi)的特征失去一定的關(guān)聯(lián)性。對(duì)多尺度提取后的特征圖進(jìn)行空洞卷積運(yùn)算,在不添加參數(shù)的情況下,擴(kuò)大感受野的檢測(cè)范圍,使得巖石識(shí)別更加精準(zhǔn).
如果空洞卷積的卷積核大小為k×k,空洞數(shù)為d,則空洞卷積的卷積核大小等效于k′×k′,公式如下所示.
k′=k+(k-1)×(d-1)
(10)
(a)卷積 (b)空洞卷積圖3 卷積與空洞卷積
本文采用了70張4 096×3 000分辨率的RGB巖石圖像,其來(lái)源于2021年第九屆“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽,其中包括七類巖石(黑色煤、灰黑色泥巖、灰色泥質(zhì)粉砂巖、灰色細(xì)砂巖、淺灰色細(xì)砂巖、深灰色粉砂質(zhì)泥巖和深灰色泥巖),如圖4所示.由于不同類別的巖石圖像樣本數(shù)量不均勻,需對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng).首先采用上下采樣將巖石圖像分別轉(zhuǎn)化為1 024×1 024、2 048×2 048、3 072×3 072和4 096×4 096分辨率圖像,進(jìn)而采用裁剪的方式生成512×512的RGB圖像,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,最后按照4∶1的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集,每一個(gè)數(shù)據(jù)集的數(shù)量如表1所示.
(a)黑色煤 (b)灰黑色泥巖
(c)灰色細(xì)砂巖 (d)灰色泥質(zhì)粉砂巖
(e)淺灰色細(xì)砂巖 (f)深灰色粉砂質(zhì)泥巖
(g)深灰色泥巖圖4 七類巖石圖像示例
表1 數(shù)據(jù)集構(gòu)成
在Windows、GeForce RTX 2080 GPU和Pytorch框架環(huán)境下,本文設(shè)計(jì)了多尺度分組卷積ResNet34和ResNet34的巖石識(shí)別對(duì)比實(shí)驗(yàn),在實(shí)驗(yàn)訓(xùn)練階段,兩種模型均訓(xùn)練500 epoch;采用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器,隱藏層激活函數(shù)為ReLu函數(shù),batch size為16;采用學(xué)習(xí)率衰減的方式,初始學(xué)習(xí)率為0.0005,每隔50 epoch學(xué)習(xí)率乘以衰減參數(shù)0.3.多尺度分組卷積ResNet34和ResNet34巖石識(shí)別在對(duì)行訓(xùn)練期間,均保留模型最好的訓(xùn)練權(quán)重,以對(duì)驗(yàn)證集進(jìn)行測(cè)試.
在訓(xùn)練階段,將訓(xùn)練圖像隨機(jī)裁剪到448×448輸入到網(wǎng)絡(luò),目的是增加訓(xùn)練樣本的隨機(jī)性,弱化數(shù)據(jù)噪聲使模型對(duì)缺失值不敏感,增強(qiáng)模型的穩(wěn)定性.在測(cè)試階段,將圖像中心裁剪到448×448輸入到網(wǎng)絡(luò),提取中心區(qū)域的圖像特征,準(zhǔn)確刻化數(shù)據(jù)的特征分布.多尺度分組卷積ResNet34和ResNet34的損失值隨著訓(xùn)練輪數(shù)變化曲線對(duì)比效果如圖5所示,在驗(yàn)證集上準(zhǔn)確率變化曲線對(duì)比效果如圖6所示.
圖5 訓(xùn)練過(guò)程損失變化曲線對(duì)比
圖6 訓(xùn)練過(guò)程驗(yàn)證集準(zhǔn)確率對(duì)比
圖5表明,在同樣的訓(xùn)練輪數(shù)下,多尺度分組卷積ResNet34的訓(xùn)練損失小于ResNet34網(wǎng)絡(luò),并逐步收斂到相同水平;且在第450epoch時(shí),兩者損失值近似,多尺度分組卷積ResNet34累積耗時(shí)6.69 h,每一輪數(shù)平均耗時(shí)53.535 s,而ResNet34累積耗時(shí)9.22 h,每一輪數(shù)平均耗時(shí)76.766 s,表明該方法在訓(xùn)練時(shí)加快了網(wǎng)絡(luò)的收斂速度.圖6表明,在訓(xùn)練階段,雖然兩種模型在驗(yàn)證集上的準(zhǔn)確率均有波動(dòng),但相較于ResNet34,本文方法的準(zhǔn)確率一直處于領(lǐng)先水平,表明該方法提升巖石識(shí)別精度.
基于模型最好的訓(xùn)練權(quán)重對(duì)驗(yàn)證集進(jìn)行測(cè)試,本文方法和ResNet34在每類巖石上的識(shí)別精確率、召回率、特異度以及總體準(zhǔn)確率和F1-Score評(píng)價(jià)指標(biāo)對(duì)比結(jié)果,如表2所示,兩種模型在驗(yàn)證集上的混淆矩陣如圖7所示.
表2 巖石識(shí)別評(píng)價(jià)指標(biāo)對(duì)比表
續(xù)表2
(a)ResNet34混淆矩陣
(b)多尺度分組卷積ResNet34混淆矩陣圖圖7 混淆矩陣圖
本文方法的驗(yàn)證集巖石識(shí)別精確率為97.5%、召回率為97.5%、特異度為99.6%、準(zhǔn)確率為97.6%和F1-Score為97.5%;ResNet34的精確率為95.5%、召回率為95.2%、特異度為99.2%、準(zhǔn)確率為95.5%和F1-Score為95.4%.在四種指標(biāo)上,多尺度分組卷積ResNet34巖石識(shí)別模型相較于ResNet34網(wǎng)絡(luò)均有顯著提升.
針對(duì)不同種類巖石進(jìn)行詳細(xì)分析,在黑色煤、灰黑色泥巖和灰色細(xì)砂巖三種顏色、紋理特征較明顯的巖石上,本文方法和ResNet34的識(shí)別精確率、召回率和特異度相差無(wú)幾,但在顏色特征相似的灰色泥質(zhì)粉砂巖與淺灰色細(xì)砂巖中,該方法相對(duì)于ResNet34模型分別提升2.8%和0.2%的精確率,6.2%和3.6%的召回率;在顏色、紋理相似的深灰色粉砂質(zhì)泥巖與深灰色泥巖中,該方法相對(duì)于ResNet34模型分別提升4.0%和5.8%的精確率,2.6%和4.3%的召回率,0.7%和1%的特異度.
從驗(yàn)證集上的混淆矩陣進(jìn)一步論證,相對(duì)于ResNet34巖石識(shí)別模型,本文方法在對(duì)淺灰色細(xì)砂巖識(shí)別時(shí),正確識(shí)別數(shù)量增加4個(gè),消除了識(shí)別為灰色泥質(zhì)粉砂巖的誤判;在對(duì)灰色泥質(zhì)粉砂巖識(shí)別,正確識(shí)別數(shù)量增加6個(gè),誤判為深灰色泥巖的數(shù)量減少4個(gè);在對(duì)深灰色粉砂質(zhì)泥巖識(shí)別時(shí),本文方法全部識(shí)別正確;在對(duì)深灰色泥巖識(shí)別時(shí),正確識(shí)別數(shù)量增加3個(gè),誤判為深灰色粉砂質(zhì)泥巖的數(shù)量減少4個(gè).因此,本文通過(guò)在ResNet34的殘差模塊引入多尺度分組卷積特征提取和空洞卷積的方法,能夠在相似卻不同類別的巖石識(shí)別任務(wù)中,更細(xì)粒度學(xué)習(xí)巖石圖像細(xì)節(jié)和全局特征信息,使模型在巖石識(shí)別中具有更高的精度.
最后對(duì)每類的巖石未做數(shù)據(jù)預(yù)處理前的原始圖像進(jìn)行測(cè)試,測(cè)試結(jié)果如圖8所示,左上角的漢字與阿拉伯?dāng)?shù)字分別表示巖石圖像的預(yù)測(cè)類別和預(yù)測(cè)為該類別的概率.由于文獻(xiàn)[5]和文獻(xiàn)[6]使用紋理、巖石和粒度特征均具有明顯區(qū)分的巖石圖像,本文使用特征區(qū)分難度更高且具有更細(xì)粒度特征的巖石圖像,相比之下,多尺度分組卷積ResNet34模型的準(zhǔn)確率一致甚至更高,表明本文方法比文獻(xiàn)[5]和文獻(xiàn)[6]具有更細(xì)粒度的特征表達(dá)和識(shí)別能力.綜上結(jié)果表明,本文方法對(duì)細(xì)粒度巖石圖像具有優(yōu)異的識(shí)別性能.
(c)灰色細(xì)砂巖 (d)灰色泥質(zhì)粉砂巖
(e)淺灰色細(xì)砂巖 (f)深灰色粉砂質(zhì)泥巖
(g)深灰色泥巖圖8 測(cè)試結(jié)果
本文根據(jù)巖石顏色、紋理和粒度等特征對(duì)其進(jìn)行分類,使用了多尺度分組卷積ResNet34網(wǎng)絡(luò),繼承ResNet網(wǎng)絡(luò)中殘差模塊的優(yōu)點(diǎn),進(jìn)一步對(duì)殘差模塊進(jìn)行改進(jìn),通過(guò)借鑒Inception網(wǎng)絡(luò)中局部特征結(jié)構(gòu),在殘差模塊中引入了多尺度特征提取,使得感受野在更細(xì)粒度級(jí)別上捕獲巖石細(xì)節(jié)和全局特征,同時(shí)對(duì)多尺度特征提取后的特征圖進(jìn)行空洞卷積,增加卷積層的感受野,提取巖石的全局特征.相較于ResNet34,本文方法加快了網(wǎng)絡(luò)的收斂速度,提升了巖石識(shí)別問(wèn)題的分類準(zhǔn)確率.缺點(diǎn)為該方法需要一定程度的計(jì)算量,不能直接部署在移動(dòng)設(shè)備,因此未來(lái)的工作將改進(jìn)方法運(yùn)用到輕量級(jí)網(wǎng)絡(luò),進(jìn)而嵌入到移動(dòng)設(shè)備實(shí)現(xiàn)更加便攜性實(shí)用性的巖石識(shí)別.