譚 永 健,田 苗,徐 德 馨,盛 冠 群,馬 凱*,邱 芹 軍,潘 聲 勇
(1.湖北省水電工程智能視覺(jué)監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室/三峽大學(xué)計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002;2.武漢市測(cè)繪研究院,湖北 武漢 430074;3.中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院,湖北 武漢 430074;4.武漢中地?cái)?shù)碼科技有限公司,湖北 武漢 430074)
巖石巖性主要指巖石結(jié)構(gòu)、組成、顏色等特征,巖性識(shí)別是地質(zhì)學(xué)研究的重點(diǎn)之一,在地質(zhì)儲(chǔ)層特征研究、地質(zhì)建模以及礦產(chǎn)資源勘探中發(fā)揮著不可替代的作用[1-3]。傳統(tǒng)的巖性判斷方法主要通過(guò)顯微鏡對(duì)巖石薄片樣本進(jìn)行觀察,從而確定巖石成分及結(jié)構(gòu),其耗時(shí)長(zhǎng)、成本高且主觀性較強(qiáng)[4,5]。采用自動(dòng)化與智能化手段對(duì)巖石圖像進(jìn)行數(shù)據(jù)挖掘與巖性識(shí)別能減少對(duì)專業(yè)人員與儀器的依賴,有助于提高效率,并且能夠發(fā)現(xiàn)隱含的地質(zhì)信息[6,7],因此,許多學(xué)者利用機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等智能算法提取并分析巖石圖像特征,進(jìn)而實(shí)現(xiàn)巖性自動(dòng)化識(shí)別[8-11]。
傳統(tǒng)機(jī)器學(xué)習(xí)算法將人工提取的巖石顏色、形狀等特征送入分類器進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)巖性的自動(dòng)識(shí)別。例如:Wang等[8]提出一種利用巖石顆粒幾何特征代替局部結(jié)構(gòu)特征的巖石分類方法,有效解決了邊界模糊問(wèn)題;Sharif等[12]針對(duì)行星地質(zhì)探測(cè)提出一種基于貝葉斯圖像分析的自主巖石分類系統(tǒng),用13個(gè)Haralick紋理參數(shù)描述巖石樣本表面,并自動(dòng)將這些信息編目成一個(gè)5-bin的數(shù)據(jù)結(jié)構(gòu),進(jìn)而計(jì)算貝葉斯概率,輸出識(shí)別結(jié)果,該系統(tǒng)結(jié)合了行星探測(cè)車漫步者的特點(diǎn),清晰簡(jiǎn)潔,無(wú)需從漫步者那里獲得過(guò)多的計(jì)算能力;Shu等[13]提出一種無(wú)監(jiān)督特征學(xué)習(xí)的巖石圖像分類方法,使機(jī)器人行星地質(zhì)探測(cè)以及地質(zhì)圖像自動(dòng)標(biāo)記、檢索性能顯著提高。目前,傳統(tǒng)機(jī)器學(xué)習(xí)算法在巖性識(shí)別上存在兩個(gè)問(wèn)題:1)網(wǎng)絡(luò)訓(xùn)練難度大,需要人工提取巖石特征和龐大的訓(xùn)練數(shù)據(jù)集;2)巖石種類豐富、數(shù)量龐大,圖像采集難度大、成本高。為此,不少學(xué)者采用深度學(xué)習(xí)算法實(shí)現(xiàn)巖性的自動(dòng)識(shí)別與分類[6,14-18],但識(shí)別準(zhǔn)確率及效率仍存在提升空間(如直接對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練需要較高的硬件配置和時(shí)間成本)。
本文根據(jù)巖石圖像的特點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)方法,提出一種基于Xception網(wǎng)絡(luò)的自動(dòng)化巖石圖像分類模型,選用嵊州地質(zhì)調(diào)研所采集的巖石圖像樣本驗(yàn)證模型的有效性,并與其他主流巖石圖像分類模型進(jìn)行實(shí)驗(yàn)對(duì)比。
Inception結(jié)構(gòu)從最初的InceptionV1(GoogLeNet)發(fā)展到InceptionV2[19]、InceptionV3[20]、Inception-Resnet[21],其核心思想是通過(guò)將卷積核劃分為獨(dú)立于跨通道相關(guān)性和空間相關(guān)性的運(yùn)算,使過(guò)程更容易和高效。Inception結(jié)構(gòu)減少了總網(wǎng)絡(luò)參數(shù)數(shù)量,并且在網(wǎng)絡(luò)最后層用平均池化代替全連接層[21]。Inception V3中標(biāo)準(zhǔn)的Inception結(jié)構(gòu)與簡(jiǎn)化的Inception結(jié)構(gòu)(用一種規(guī)格的卷積核)如圖1a、圖1b所示。
Xception網(wǎng)絡(luò)(extreme Inception)[22]由Inception V3改進(jìn)而來(lái),其將InceptionV3中的卷積操作替換為深度可分離卷積模塊,該模塊使用1×1卷積映射跨通道相關(guān)性,在每個(gè)卷積的輸出通道均有獨(dú)立的空間卷積來(lái)映射空間相關(guān)性。區(qū)別于普通卷積將通道視為單區(qū)塊,深度可分離卷積模塊將每個(gè)通道當(dāng)成一個(gè)區(qū)塊,其中的Inception模塊將多個(gè)通道劃分為3、4個(gè)區(qū)塊,Xception將所有通道視為一個(gè)區(qū)塊,為可分離卷積,準(zhǔn)確率最佳。對(duì)圖1b中Inception模塊進(jìn)行改造得到等效的Inception簡(jiǎn)化模塊(圖1c),其通道區(qū)塊數(shù)量越多,跨通道相關(guān)性與空間相關(guān)性相互分離的假設(shè)越合理,基于此提出圖1d中的Xception模塊。改進(jìn)后,Xception網(wǎng)絡(luò)參數(shù)達(dá)22 855 952個(gè),比InceptionV3減少了770 776個(gè),同時(shí)訓(xùn)練時(shí)迭代速度未明顯變慢[22];在Xception中加入類似ResNet的殘差機(jī)制顯著加快了Xception的收斂過(guò)程,準(zhǔn)確率更高。實(shí)驗(yàn)證明,Xception網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集的Top-1、Top-5上巖石巖性的識(shí)別準(zhǔn)確率高達(dá)79.0%、94.5%,性能表現(xiàn)優(yōu)于其同源模型InceptionV3(78.2%、94.1%),以及深度學(xué)習(xí)圖像分類模型VGG-16(71.5%、90.1%)、ResNet-152(77.0%、93.3%);在JFT/FastEval14k數(shù)據(jù)集上,Xception模型MAP@100指標(biāo)達(dá)到6.70,優(yōu)于Inception模型(6.36)[22]。
圖1 Inception網(wǎng)絡(luò)模型Fig.1 Inception network model
Xception網(wǎng)絡(luò)結(jié)構(gòu)(圖2)由輸入層、中間層、輸出層組成。除開頭與結(jié)尾模塊外,網(wǎng)絡(luò)結(jié)構(gòu)中其他模塊均具有線性殘差連接;整個(gè)模型結(jié)構(gòu)包含36個(gè)卷積層,是提取巖石圖片特征的基礎(chǔ),這36個(gè)卷積層由14個(gè)模塊構(gòu)成,每個(gè)模塊包含ReLU(Rectified Linear Units)激活函數(shù)(有效解決模型訓(xùn)練中梯度消失問(wèn)題,加快收斂速度)與若干深度可分離卷積模塊,后者在圖2中以SeparableConv表示,由depthwise卷積(卷積核為3×3,見(jiàn)式(1))和Pointwise卷積(卷積核為1×1,見(jiàn)式(2))組成,其后連接池化層;卷積層之后為全連接層,最后是邏輯回歸層。巖石圖像數(shù)據(jù)首先載入輸入層,隨后通過(guò)中間層循環(huán)8次聚合全局平均值,最后通過(guò)全連接層與輸出層輸出。所有卷積與可分離卷積均進(jìn)行批歸一化,分離的卷積層的深度乘數(shù)為1,即無(wú)深度展開。
圖2 Xception模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network modules structure of Xception model
(1)
式中:d(W,y)i,j為輸出特征圖中位置(i,j)的值;K、L為卷積核的寬和高;Wk,l為卷積核中位置(k,l)的值;yi+k,j+l為輸入特征圖中位置(i+k,j+l)的值。
(2)
式中:p(Wp,yp)i,j,n為第n個(gè)輸出特征圖中位置(i,j)的值;Wn為第n個(gè)1×1卷積核;yi,j,m為第m個(gè)輸入特征圖中位置(i,j)的值;M為輸入特征圖數(shù)量。
模型采用Adam(Adaptive moment estimation)優(yōu)化算法,該算法為自適應(yīng)參數(shù)更新算法,通過(guò)更新參數(shù)(式(3))達(dá)到最優(yōu)解,最小化損失值;最終通過(guò)softmax分類器實(shí)現(xiàn)巖石圖像的分類(式(4))。
(3)
(4)
式中:pi為圖像被預(yù)測(cè)為第i類的概率;K為訓(xùn)練圖像樣本類別數(shù);ai為模型最后一層的輸出。
遷移學(xué)習(xí)是深度學(xué)習(xí)中的一種重要方法,可將某領(lǐng)域中的知識(shí)或模型應(yīng)用于其他相關(guān)領(lǐng)域任務(wù)中[23-25],適用于源領(lǐng)域數(shù)據(jù)量充足而目標(biāo)領(lǐng)域數(shù)據(jù)量較少的情況。將遷移學(xué)習(xí)方法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合能將其他圖像分類任務(wù)中學(xué)習(xí)到的知識(shí)遷移到當(dāng)前的巖石識(shí)別神經(jīng)網(wǎng)絡(luò)中,不需再進(jìn)行大量的模型初始化以及優(yōu)化,僅對(duì)局部調(diào)整改進(jìn),即可降低訓(xùn)練開銷,提升巖石識(shí)別準(zhǔn)確率。結(jié)合遷移學(xué)習(xí)的Xception模型框架(圖3)為:利用Xception模型在ImageNet數(shù)據(jù)集(含1 000類總數(shù)超過(guò)120萬(wàn)張圖像)上進(jìn)行預(yù)訓(xùn)練得到權(quán)重參數(shù)之后,移除模型原有分類器softmax,在卷積層后添加全局平均池化層GlobalAveragePooling2D;隨后添加輸出維度為1 024的全連接層Dense以及ReLU激活函數(shù);在全連接層后再添加Dropout層,設(shè)置隨機(jī)消除神經(jīng)元概率為0.5,以此提高模型泛化能力,減少過(guò)擬合;最后添加適應(yīng)巖石圖像分類要求的分類器softmax進(jìn)行連接,改進(jìn)后部分Xception模型結(jié)構(gòu)如表1所示。
圖3 結(jié)合遷移學(xué)習(xí)的Xception模型框架Fig.3 Xception model framework combined with transfer learning
表1 改進(jìn)后Xception模型結(jié)構(gòu)Table 1 Improved Xception model structure
本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)自嵊州地質(zhì)調(diào)研中人工采集的巖石樣本圖像,共選取10類巖石(圖4),分別為:絹云母化流紋質(zhì)含角礫玻晶屑凝灰?guī)r(SRBV-Tuff)、凝灰質(zhì)含礫雜砂巖(TG-Sandroc)、英安巖(Dacite)、流紋質(zhì)晶玻屑凝灰?guī)r(RCG-Tuff)、凝灰質(zhì)粗砂巖(T-Gritstone)、流紋斑巖(R-porphyry)、流紋質(zhì)含巖屑晶屑強(qiáng)熔結(jié)凝灰?guī)r(RLCSF-Tuff)、角閃安山巖(Hungarite)、流紋質(zhì)沉角礫凝灰?guī)r(RSB-Tuff)、流紋質(zhì)含火山泥球玻屑凝灰?guī)r(RVMBV-Tuff)。由于原圖像分辨率過(guò)高,每張大小在3 M左右,無(wú)法直接載入模型進(jìn)行訓(xùn)練,需在不丟失圖像特征信息的前提下,將其壓縮到224×224像素大小,以滿足模型訓(xùn)練要求;隨后對(duì)原圖像進(jìn)行裁剪,減少背景信息的干擾,確保圖像含有更多的巖石特征信息。由于巖石圖片均為人工拍攝采集,每類巖石圖像數(shù)量較少,均在20~50張之間,總數(shù)量為350張左右。訓(xùn)練集規(guī)模較小會(huì)使模型無(wú)法進(jìn)行充分訓(xùn)練,故通過(guò)翻轉(zhuǎn)、旋轉(zhuǎn)、平移、加噪4種方式對(duì)數(shù)據(jù)集中的每類圖像進(jìn)行隨機(jī)擴(kuò)充:1)翻轉(zhuǎn):將圖像沿水平或垂直方向進(jìn)行隨機(jī)翻轉(zhuǎn);2)旋轉(zhuǎn):以圖像的幾何中心為參考點(diǎn),隨機(jī)選擇角度(設(shè)定為45°~240°)進(jìn)行旋轉(zhuǎn);3)平移:向上下左右4個(gè)任意方向隨機(jī)平移50~100像素;4)加噪:為圖像添加高斯噪聲或椒鹽噪聲。擴(kuò)充后數(shù)據(jù)集共包含10 000張巖石圖像,其中每類巖石圖像1 000張,將巖石圖像數(shù)據(jù)集按照4∶1的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集。
圖4 巖石圖像示例Fig.4 Samples of rock images
根據(jù)Xception模型特點(diǎn),設(shè)置巖石圖像尺寸為224×224像素;由于巖石數(shù)據(jù)集總體圖像數(shù)量偏少,為避免出現(xiàn)精度差、過(guò)擬合等問(wèn)題,實(shí)驗(yàn)結(jié)合遷移學(xué)習(xí)方法對(duì)模型進(jìn)行微調(diào),并將模型初始權(quán)重設(shè)置為imagenet;訓(xùn)練階段,將batch_size尺寸設(shè)置為32,經(jīng)過(guò)測(cè)試,當(dāng)?shù)螖?shù)設(shè)置為4時(shí)模型訓(xùn)練效果最佳;同時(shí),設(shè)置優(yōu)化器為Adam、學(xué)習(xí)率為0.001、損失函數(shù)為categorical_crossentropy。
本文使用混淆矩陣展示Xception模型對(duì)巖石圖像的識(shí)別結(jié)果。同時(shí),為更全面地評(píng)估測(cè)試集的識(shí)別結(jié)果并對(duì)比不同基于深度學(xué)習(xí)的巖石圖像分類方法識(shí)別性能差異,采用精準(zhǔn)率(P)、召回率(R)和F1-score(F1)評(píng)價(jià)各模型精度,公式如下:
P=TP/(TP+FP)
(5)
R=TP/(TP+FN)
(6)
F1=2P×R/(P+R)
(7)
式中:TP、FP分別為預(yù)測(cè)正確和預(yù)測(cè)錯(cuò)誤的巖石圖像數(shù)量;FN為未被識(shí)別出的巖石圖像數(shù)量。
由基于Xception模型的巖石圖像分類結(jié)果混淆矩陣(表2)可以看出,Xception模型對(duì)10類巖石圖像的總體識(shí)別準(zhǔn)確率達(dá)86%,能精準(zhǔn)識(shí)別大部分巖石圖像;但對(duì)RLCSF-Tuff、RSB-Tuff、RVMBV-Tuff 3類巖石識(shí)別效果不佳,往往將其誤判為RCG-Tuff,可能是由于這4類巖石同屬凝灰?guī)r,主體特征相似度較高,在樣本量偏少且?guī)r石特征較為細(xì)膩的情況下,Xception模型容易將其全部識(shí)別為特征更明顯的流紋質(zhì)晶玻屑凝灰?guī)r(RCG-Tuff)。
表2 基于Xception模型的巖石圖像分類結(jié)果混淆矩陣Table 2 Confusion matrix of rock image classification results based on Xception model
由表3可知, Xception模型識(shí)別RCG-Tuff、RLCSF-Tuff、RSB-Tuff 3類巖石的F1值分別為0.58、0.77、0.51,識(shí)別準(zhǔn)確率較低,說(shuō)明Xception模型對(duì)這3類巖石特征學(xué)習(xí)度欠佳;Xception模型P、R、F1的均值分別為0.94、0.85、0.86,性能優(yōu)于同源模型InceptionV3和Inception-Resnet,說(shuō)明將InceptionV3中的卷積操作替換為深度可分離卷積模塊且引入殘差連接機(jī)制能有效提高識(shí)別準(zhǔn)確率。由表4可知,相對(duì)于其他7種常用基于深度神經(jīng)網(wǎng)絡(luò)的巖石圖像分類模型,Xception的分類效果最好。
表3 Xception模型評(píng)價(jià)結(jié)果Table 3 Evaluation results of Xception model
表4 不同模型評(píng)價(jià)結(jié)果比較Table 4 Comparison of evaluation results of different models
本文提出一種基于Xception模型的自動(dòng)化巖石圖像分類模型,該模型將InceptionV3中的卷積操作替換為深度可分離卷積模塊,并引入殘差連接機(jī)制,可在保留較高準(zhǔn)確率的情況下減少大量的模型參數(shù)與計(jì)算量,同時(shí)結(jié)合遷移學(xué)習(xí)的思想提高巖石圖像分類準(zhǔn)確率。利用嵊州地質(zhì)調(diào)研中人工采集的巖石樣本圖片對(duì)模型有效性進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,該方法能有效識(shí)別不同類別的巖石,相比現(xiàn)有的基于深度學(xué)習(xí)巖石圖像分類方法性能更好。但對(duì)流紋質(zhì)含巖屑晶屑強(qiáng)熔結(jié)凝灰?guī)r、流紋質(zhì)沉角礫凝灰?guī)r、流紋質(zhì)含火山泥球玻屑凝灰?guī)r識(shí)別準(zhǔn)確度不理想,后續(xù)將通過(guò)增加巖石圖像樣本和訓(xùn)練輪數(shù)以及微調(diào)模型以適應(yīng)更細(xì)節(jié)化的巖石圖像特征等手段來(lái)解決該問(wèn)題。未來(lái)將構(gòu)建更完善、豐富的巖石圖像數(shù)據(jù)集,研究顧及不同場(chǎng)景與清晰度的巖性識(shí)別方法,引入更多的先驗(yàn)知識(shí)改進(jìn)模型,以期進(jìn)一步提升多種情況下巖石分類準(zhǔn)確率。