余嶸華,賈軍偉,付洪波,王華東
(1.合肥工業(yè)大學(xué) 電子科學(xué)與應(yīng)用物理學(xué)院,安徽 合肥 230009;2.中國(guó)科學(xué)院 安徽光學(xué)精密機(jī)械研究所,安徽 合肥 230031)
巖性識(shí)別是地質(zhì)錄井的重要組成部分,準(zhǔn)確快速的巖屑巖性識(shí)別對(duì)油氣資源的勘探具有重要意義.隨著聚晶金剛石復(fù)合片(polycrystalline diamond compact,簡(jiǎn)稱PDC)鉆頭的廣泛使用,巖屑變得更加細(xì)碎,甚至變?yōu)榉勰瑢?dǎo)致依靠觀察巖屑的顏色、紋理、顆粒度及熒光分析進(jìn)行巖性識(shí)別的傳統(tǒng)方法失效,巖屑巖性判別面臨挑戰(zhàn).X射線熒光光譜分析[1-2]在地質(zhì)錄井中得到了應(yīng)用,但由于樣品預(yù)處理復(fù)雜、分析時(shí)間長(zhǎng)、維護(hù)成本高、輕元素分析能力不足等缺點(diǎn),不能適應(yīng)環(huán)境復(fù)雜的地質(zhì)錄井現(xiàn)場(chǎng).激光誘導(dǎo)擊穿光譜(laser induced breakdown spectroscopy,簡(jiǎn)稱LIBS)[3-4]是一種原子發(fā)射光譜,此技術(shù)具有原位在線檢測(cè)、環(huán)境適應(yīng)能力強(qiáng)、無須樣品預(yù)處理和多元素同時(shí)快速無損分析等優(yōu)點(diǎn),已在地質(zhì)、空間探測(cè)、環(huán)境保護(hù)等領(lǐng)域得到了應(yīng)用[5-9].陳興龍等[10]采用LIBS技術(shù)結(jié)合神經(jīng)網(wǎng)絡(luò)、田野等[11]采用LIBS技術(shù)結(jié)合偏最小二乘判別分析、韓學(xué)輝等[12]采用LIBS技術(shù)結(jié)合支持向量機(jī),均實(shí)現(xiàn)了巖性有效識(shí)別,因此LIBS技術(shù)具有適應(yīng)地質(zhì)錄井現(xiàn)場(chǎng)巖性識(shí)別的能力.筆者采用LIBS技術(shù),結(jié)合主成分分析和對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)(counter propagation artificial neural networks,簡(jiǎn)稱CP-ANNs)非線性模型,對(duì)地質(zhì)錄井現(xiàn)場(chǎng)常見的泥巖、砂巖、灰?guī)r3種沉積巖及玄武巖、安山巖2種巖漿巖進(jìn)行巖性識(shí)別.
激光誘導(dǎo)擊穿光譜樣品分析系統(tǒng)如圖1所示,所用激光器為Nd:YAG脈沖激光器,波長(zhǎng)為1 064 nm,重復(fù)頻率為1 Hz,能量為35 mJ.樣品放置在3維移動(dòng)平臺(tái)上,可在多個(gè)位置對(duì)樣品采集光譜數(shù)據(jù).激光脈沖經(jīng)焦距為100 mm透鏡聚焦后,對(duì)樣品進(jìn)行剝蝕,產(chǎn)生等離子體并發(fā)光,然后經(jīng)會(huì)聚透鏡和光纖耦合到光譜儀,最終通過計(jì)算機(jī)實(shí)現(xiàn)樣品光譜數(shù)據(jù)的采集和存儲(chǔ).
圖1 激光誘導(dǎo)擊穿光譜樣品分析系統(tǒng)
對(duì)取自錄井現(xiàn)場(chǎng)的5種巖屑(玄武巖、安山巖、泥巖、砂巖及灰?guī)r)樣品進(jìn)行壓樣處理,巖屑粉末及壓樣樣品如圖2所示.將每種巖屑樣品制成4塊直徑為30 mm、厚度為2 mm的圓片,其中3塊用于模型的建立,1塊用于模型識(shí)別能力的校驗(yàn),20個(gè)樣品的編號(hào)為1-1至5-4.由于巖屑樣品存在一定的不均勻性,每個(gè)樣品采集5個(gè)位置,每個(gè)位置采集2組光譜數(shù)據(jù),每組光譜為20個(gè)脈沖的累積平均,最終共得到200組光譜數(shù)據(jù).
圖2 巖屑粉末及壓樣樣品
5種巖屑(玄武巖、安山巖、泥巖、砂巖和灰?guī)r)樣品的LIBS光譜如圖3所示.每種巖屑均具有豐富的光譜譜線.如果使用全譜作為模型的輸入變量,則需要較長(zhǎng)的數(shù)據(jù)處理時(shí)間和復(fù)雜的計(jì)算過程.Ca,Si,Mg,Al,F(xiàn)e,Na,K是主要的造巖元素,利用這些元素的特征譜線作為模型的輸入變量,可以降低模型的輸入個(gè)數(shù),提高模型的識(shí)別效率.根據(jù)譜線選取的原則及美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(national institude of standards technology,簡(jiǎn)稱NIST)原子光譜數(shù)據(jù)庫(kù),每種元素選取3條特征譜線,它們?yōu)椋篊aII 315.89 nm,CaII 317.93 nm,CaI 422.67 nm,SiI 250.69 nm,SiI 251.92 nm,SiI 288.16 nm,MgII 279.55 nm,MgI 280.27 nm,MgI 383.23 nm,AlI 308.21 nm,AlI 309.27 nm,AlII 430.72 nm,F(xiàn)eII 239.49 nm,F(xiàn)eII 259.94 nm,F(xiàn)eI 371.99 nm,NaII 328.56 nm,NaI 588.99 nm,NaI 589.59 nm,KI 404.72 nm,KI 766.49 nm,KI 769.89 nm(其中I代表原子線、II代表離子線).對(duì)譜線進(jìn)行擬合得到擬合光譜強(qiáng)度,每組LIBS光譜數(shù)據(jù)用21個(gè)特征譜線的擬合光譜強(qiáng)度替代.
圖3 5種巖屑樣品的LIBS光譜
主成分分析法(principal component analysis,簡(jiǎn)稱PCA)[13-14]是一種用途廣泛的統(tǒng)計(jì)分析方法,可以對(duì)數(shù)據(jù)進(jìn)行壓縮以及特征提取,用幾個(gè)不相關(guān)的綜合變量代替原始的多個(gè)具有相關(guān)性的變量.根據(jù)數(shù)據(jù)變量方差及方差累計(jì),選擇合適的綜合變量數(shù)目(即最優(yōu)主成分的數(shù)目),使幾個(gè)主成分含有大部分原始變量包含的信息.使用累計(jì)方差貢獻(xiàn)率大于85%的最優(yōu)主成分作為神經(jīng)網(wǎng)絡(luò)模型的輸入變量,對(duì)數(shù)據(jù)量進(jìn)行壓縮的同時(shí),仍能保留絕大部分原始光譜信息.
使用7種元素的21條LIBS特征譜線的擬合光譜強(qiáng)度作為輸入變量,對(duì)5種巖屑樣品的光譜數(shù)據(jù)進(jìn)行主成分分析.前5個(gè)主成分的特征值及方差貢獻(xiàn)率、累計(jì)方差貢獻(xiàn)率如表1所示.
表1 前5個(gè)主成分的特征值及方差貢獻(xiàn)率、累計(jì)方差貢獻(xiàn)率
表1中,PC1,PC2和PC3累計(jì)方差貢獻(xiàn)率均達(dá)到了94.54%,遠(yuǎn)超過85%的最優(yōu)主成分選取要求.根據(jù)方差累計(jì)貢獻(xiàn)率大于85%的最優(yōu)主成分?jǐn)?shù)目選取原則,前3個(gè)主成分已經(jīng)包含了樣品的絕大部分LIBS光譜信息,它們可作為模型的輸入變量.圖4 為前3個(gè)主成分得分圖.從圖4中可以看出,不同類型的巖屑樣品均表現(xiàn)出了一定程度的聚類,但仍存在一定的重疊區(qū)域,灰?guī)r、砂巖、玄武巖及安山巖均現(xiàn)出了較好的聚類,泥巖由于自身成分復(fù)雜且均勻性較差,表現(xiàn)出了一定的分散性.由于不同的巖屑之間存在一定的重疊區(qū)域,僅僅使用主成分分析不能對(duì)巖屑巖性進(jìn)行準(zhǔn)確判別.
圖4 前3個(gè)主成分得分圖
偏最小二乘判別分析(partial least squares discriminant analysis,簡(jiǎn)稱PLS-DA)將偏最小二乘的因變量變?yōu)闃颖镜念悇e變量,通過因變量和類別變量間的線性回歸分析,建立光譜數(shù)據(jù)特征和類別的對(duì)應(yīng)關(guān)系,用于樣本的分類識(shí)別[15].使用主成分作為模型的輸入數(shù)據(jù),建立PLS-DA模型,通過驗(yàn)證集驗(yàn)證,結(jié)果如圖5和表2所示.
圖5 使用PLS-DA模型的判別結(jié)果
樣品類型玄武巖安山巖泥巖砂巖灰?guī)r識(shí)別總數(shù)目1010101010識(shí)別正確數(shù)目955810識(shí)別錯(cuò)誤數(shù)目15520識(shí)別正確率/% 90505080100平均識(shí)別正確率/%74
由于泥巖和砂巖成分相似,使用PLS-DA模型識(shí)別泥巖和砂巖的效果較差,識(shí)別率均只有50%,且兩者有很大的重疊區(qū)域.玄武巖、安山巖和灰?guī)r的識(shí)別率均在80%以上,由于泥巖和安山巖成分復(fù)雜及不均勻,二者樣本分布離散.
PLS-DA線性模型對(duì)5種類型巖屑的平均識(shí)別正確率雖達(dá)到了74%,但泥巖和砂巖的識(shí)別正確率均為50%,不能滿足巖性有效識(shí)別要求.因此,將采用CP-ANNs非線性模型,對(duì)5種巖屑巖性進(jìn)行識(shí)別.
CP-ANNs[16]是一種改進(jìn)的自組織映射神經(jīng)網(wǎng)絡(luò),圖6為對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖.對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)包括輸入層、競(jìng)爭(zhēng)層和輸出層,輸入層和競(jìng)爭(zhēng)層構(gòu)成Kohonen層,神經(jīng)元常以N×N正方形的形式進(jìn)行排列,具有自適應(yīng)、自學(xué)習(xí)以及非線性映射等優(yōu)點(diǎn).
圖6 對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
使用對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)非線性模型,需要選擇合適的神經(jīng)元數(shù)目以及訓(xùn)練次數(shù),根據(jù)基因遺傳算法,選取的神經(jīng)元數(shù)目為10×10,訓(xùn)練次數(shù)為300.
由于 CP-ANNs是有監(jiān)督的神經(jīng)網(wǎng)絡(luò),因此需對(duì)巖屑巖性類別進(jìn)行編碼.50個(gè)樣本共有5種巖性類別,用 1,2,3,4,5表示5種巖屑的訓(xùn)練集樣本,P1,P2,P3,P4,P5表示5種巖屑的檢驗(yàn)集樣本.
圖7為所有樣本在Kohonen層100個(gè)神經(jīng)元上的分布情況.Kohonen層的100個(gè)神經(jīng)元的5種顏色表示5種不同巖屑.神經(jīng)元中的數(shù)字代表巖性類別,訓(xùn)練集和檢驗(yàn)集位于同樣顏色區(qū)域時(shí),對(duì)應(yīng)的樣本被正確識(shí)別,反之則被錯(cuò)誤識(shí)別.
圖7 樣本在Kohonen 層100個(gè)神經(jīng)元上的分布情況
表3為使用CP-ANNs模型的判別結(jié)果.由于泥巖的成分相對(duì)較為復(fù)雜,且均勻性較差,識(shí)別結(jié)果出現(xiàn)了一定的誤差,玄武巖、安山巖、砂巖和灰?guī)r的識(shí)別效果較好,5種不同巖性的巖屑平均識(shí)別正確率達(dá)88%.可見, CP-ANNs非線性模型可以處理由于基體效應(yīng)及自吸收效應(yīng)引起的LIBS光譜的非線性問題,能實(shí)現(xiàn)巖性的有效識(shí)別.
表3 使用CP-ANNs模型的判別結(jié)果
筆者使用激光誘導(dǎo)擊穿光譜技術(shù)獲取錄井現(xiàn)場(chǎng)不同巖性巖屑的光譜信息,提取巖屑中主量元素的特征譜線,結(jié)合主成分分析、偏最小二乘判別和對(duì)向傳播人工神經(jīng)網(wǎng)絡(luò)非線性模型,建立了PLS-DA和CP-ANNs兩種巖性識(shí)別模型.使用CP-ANNs非線性模型對(duì)玄武巖、安山巖、泥巖、砂巖、灰?guī)r的識(shí)別正確率均在70%以上,平均正確識(shí)別率達(dá)88%,實(shí)現(xiàn)了5種巖屑巖性的有效識(shí)別.