王林,王禹杰 (合肥市測(cè)繪設(shè)計(jì)研究院,安徽 合肥 230061)
巖石識(shí)別是地學(xué)研究中的一項(xiàng)重要工作,其結(jié)果有助于儲(chǔ)層評(píng)價(jià)、油藏描述以及實(shí)時(shí)鉆井監(jiān)控等方面。綜合考慮時(shí)效性、安全性以及成本,多采用測(cè)井資料解釋處理獲取巖性信息。近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,許多學(xué)者深度拓展利用測(cè)井資料識(shí)別巖性的方法,由傳統(tǒng)的巖心巖屑和薄片識(shí)別法、交會(huì)圖法延展出對(duì)應(yīng)分析法、K—鄰近法、判別分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法,但每種方法都存在一定的不足。利用巖心、巖屑和薄片資料,識(shí)別碳酸鹽巖受主觀因素影響較大,且識(shí)別效果存在片面性;交會(huì)圖法操作簡(jiǎn)單,但僅限于線性可分的分類(lèi)問(wèn)題,對(duì)于復(fù)雜巖性的分類(lèi)問(wèn)題,識(shí)別精度較低;K-鄰近法按照歐氏距離單一標(biāo)準(zhǔn)搜索待判巖的K鄰近,分類(lèi)標(biāo)準(zhǔn)過(guò)于單一。且上述分類(lèi)標(biāo)準(zhǔn)均采用巖石測(cè)井參數(shù),并未與巖石力學(xué)參數(shù)結(jié)合。
遼西隧道三號(hào)斜井正洞至出口區(qū)間穿越斷層破碎帶,巖體破碎,屬極I級(jí)高風(fēng)險(xiǎn)隧道。測(cè)井參數(shù)收集危險(xiǎn)性較高,且分布模糊,為此處的巖性識(shí)別帶來(lái)了困難。利用隧道開(kāi)挖前收集的巖石力學(xué)參數(shù),提出基于巖石力學(xué)參數(shù)信息熵的Entropy-KNN識(shí)別巖性。該算法尋找訓(xùn)練樣本與測(cè)試樣本的相同巖石力學(xué)參數(shù),計(jì)算其平均信息熵,以此作為度量?jī)蓚€(gè)數(shù)據(jù)集接近程度的距離指標(biāo),選取K個(gè)與測(cè)試樣本距離最近的訓(xùn)練實(shí)例,最終綜合考慮訓(xùn)練實(shí)例中各類(lèi)實(shí)例的個(gè)數(shù)及平均距離,依據(jù)待測(cè)樣本屬于各類(lèi)的可信度,準(zhǔn)確識(shí)別巖石類(lèi)型,整體上提高了分類(lèi)的準(zhǔn)確性。
K——鄰近算法,又叫KNN算法,是數(shù)據(jù)挖掘十大算法之一,核心思想是對(duì)于未知的測(cè)試集,按照定義的距離,選取樣本集中距離它最近的K個(gè)實(shí)例參照,判斷K個(gè)實(shí)例中樣本類(lèi)別,按少數(shù)服從多數(shù)的投票法則,判斷未知實(shí)例所屬離別。
對(duì)于訓(xùn)練集中類(lèi)別交叉、類(lèi)別重疊情況,傳統(tǒng)KNN算法存在以下不足。當(dāng)訓(xùn)練集中類(lèi)別分布不均勻,某個(gè)類(lèi)別樣本容量大,其余類(lèi)別樣本容量小時(shí),新輸入的實(shí)例容易受最近的“鄰近樣本”主導(dǎo),被歸為大樣本類(lèi)別,事實(shí)上,可能該實(shí)例并未接近目標(biāo)樣本。為此引入距離加權(quán)—KNN算法,根據(jù)輸入實(shí)例與K鄰近樣本的距離加權(quán),考慮各距離權(quán)重,分析實(shí)例類(lèi)別。但當(dāng)各類(lèi)鄰近樣本個(gè)數(shù)、平均距離相同時(shí),該算法的分類(lèi)輸出解釋性較弱,類(lèi)別評(píng)分不規(guī)則,準(zhǔn)確度無(wú)法保證。上述兩種算法弊端在于樣本間距離定義過(guò)于簡(jiǎn)單,未考慮屬性值對(duì)類(lèi)別判斷的影響。Entropy—KNN定義距離為樣本間相同屬性的平均信息熵,基于此距離判斷巖石類(lèi)別。
信息熵表示對(duì)信息不確定性的度量。Entropy—KNN基于信息熵理論產(chǎn)生,涉及到的概念包括屬性值信息熵、相似度函數(shù)和類(lèi)可信度指標(biāo)。利用屬性值信息熵判斷該屬性值對(duì)類(lèi)別的決定作用大小,如果屬性值信息熵越大,該屬性值對(duì)類(lèi)別判斷作用越小。相似度函數(shù)用來(lái)定義點(diǎn)與點(diǎn)間的相似度,當(dāng)樣本間相同屬性值信息熵小的屬性值越多,相似度函數(shù)值相應(yīng)越小,兩個(gè)樣本的相似程度越高。根據(jù)屬性值信息熵和相似度函數(shù),計(jì)算類(lèi)的可信度指標(biāo),以此作為最終類(lèi)別的評(píng)價(jià)指標(biāo),具體詳細(xì)定義說(shuō)明如下。
2.1.1 屬性值信息熵
屬性值信息熵表示屬性值對(duì)類(lèi)別中的重要性,某個(gè)樣本的屬性值信息熵越大,說(shuō)明該樣本類(lèi)別確定越模糊;反之,如果某個(gè)樣本的屬性值信息熵為0,依據(jù)該屬性值能夠完全確定樣本類(lèi)別。
假設(shè)數(shù)據(jù)集為D,該數(shù)據(jù)集系統(tǒng)共有d1,d2,......dn個(gè)類(lèi)別,若屬性V具有i個(gè)不同值{v1,v2,......vi},屬性值 vi在 D中出現(xiàn)的次數(shù)記作|vi|,屬于第j類(lèi)的實(shí)例個(gè)數(shù)記為|vij|,則屬性值vi的信息熵為:
2.1.2 相似度函數(shù)
相似度函數(shù)在聚類(lèi)、領(lǐng)域搜索中應(yīng)用非常廣泛。在巖性識(shí)別中,定義樣本間相同屬性值的平均信息熵為相似度函數(shù),度量樣本點(diǎn)間差異性大小。兩個(gè)樣本的相同屬性值中信息熵大的屬性值越多,平均信息熵越大,這兩個(gè)樣本的相似程度越低。
設(shè)M,N為任意兩個(gè)樣本,在M,N中相同屬性值為 v1,v2,......vn,M,N 的相似度函數(shù)為:
2.1.3 類(lèi)可信度指標(biāo)
Entropy-KNN算法以各類(lèi)別的鄰近樣本點(diǎn)個(gè)數(shù)及未知樣本與相似樣本間的類(lèi)別平均距離作為類(lèi)可信度指標(biāo),彌補(bǔ)了傳統(tǒng)KNN算法只考慮不同類(lèi)別的近鄰點(diǎn)個(gè)數(shù),距離加權(quán)-KNN算法只考慮不同類(lèi)別的近鄰樣本點(diǎn)個(gè)數(shù)的平均距離的不足。
設(shè)數(shù)據(jù)集S中di代表類(lèi)別,M為待測(cè)樣本,Xi為近鄰中屬于di類(lèi)的樣本,N為近鄰樣本總數(shù),Ni為近鄰樣本屬于di類(lèi)的樣本個(gè)數(shù)。稱(chēng)T(di,M)為M對(duì)Ci的類(lèi)可信度,計(jì)算公式如下:
本實(shí)驗(yàn)所采用的數(shù)據(jù)集來(lái)自遼西隧道三號(hào)斜井正洞至出口區(qū)間的隧道超前地質(zhì)預(yù)報(bào)數(shù)據(jù),對(duì)測(cè)井資料的分析得到,研究區(qū)巖石的類(lèi)型主要為安山巖、玄武巖、花崗巖、礫巖和閃長(zhǎng)巖這5種巖性。由于巖石特征復(fù)雜多樣,這為巖石的解釋和識(shí)別工作帶來(lái)了巨大挑戰(zhàn),因此,該地區(qū)的巖性分類(lèi)解釋工作至關(guān)重要。
本實(shí)驗(yàn)基于遼西隧道超前地質(zhì)預(yù)報(bào)獲得的地震波數(shù)據(jù),經(jīng)過(guò)濾波處理,抽取1000組巖石力學(xué)參數(shù)數(shù)據(jù),通過(guò)數(shù)據(jù)分析得出以下五種特征,對(duì)于分類(lèi)具有重要意義,分別是:縱波波速、橫波波速、彈性模量、泊松比、密度。
對(duì)不同巖性力學(xué)參數(shù)的均值進(jìn)行統(tǒng)計(jì)(表1),對(duì)不同屬性的均值方差進(jìn)行統(tǒng)計(jì)(表2)。結(jié)果顯示:密度、泊松比和橫波波速這三個(gè)特征變化范圍和幅度小,彈性模量變化范圍和幅度大。閃長(zhǎng)巖的平均彈性模量為109.10GPa,遠(yuǎn)低于總體平均值65.35GPa,縱波波速為6.08km/s,較總體平均值5.01km/s高很多。相反地,礫巖的縱波波速2.9km/s遠(yuǎn)低于總體均值,其彈性模量也低于總體平均值。分析可知,縱波波速和彈性模量對(duì)礫巖和閃長(zhǎng)巖的敏感性差異很大。同時(shí),安山巖的縱波波速和橫波波速這兩個(gè)巖性變化范圍非常小,值比較穩(wěn)定,對(duì)玄武巖恰恰相反,縱波波速相對(duì)較大。以上分析說(shuō)明,不同巖性力學(xué)參數(shù)的敏感度不同,故不同巖性力學(xué)參數(shù)敏感度權(quán)重對(duì)分類(lèi)具有重要意義。
不同巖性力學(xué)參數(shù)的均值統(tǒng)計(jì)表 表1
不同屬性的均值方差統(tǒng)計(jì)表 表2
二維交會(huì)圖更直觀地反映了數(shù)據(jù)在二維空間的分布情況,以密度—橫波波速,彈性模量—橫波波速為例(圖1),部分巖性空間分布存在大量交叉重疊,說(shuō)明各力學(xué)參數(shù)具有很大的模糊度,使該研究區(qū)樣本巖性的識(shí)別工作較為困難,樣本可信度的判定對(duì)巖性識(shí)別工作具有顯著意義。
圖1 原始力學(xué)參數(shù)交會(huì)圖
所有的實(shí)驗(yàn)在遼西隧道三號(hào)斜井正洞至出口區(qū)間的隧道超前地質(zhì)預(yù)報(bào)數(shù)據(jù)集上進(jìn)行,選取6000組記錄作為實(shí)驗(yàn)集。采用3—折交叉驗(yàn)證法評(píng)價(jià)分類(lèi)精度。數(shù)據(jù)集被隨機(jī)分成三個(gè)子集,每個(gè)子集大小相等,每次隨機(jī)抽選2000組數(shù)據(jù)作為測(cè)試集,剩余數(shù)據(jù)作為訓(xùn)練集。Entropy-KNN算法在每個(gè)數(shù)據(jù)集上循環(huán)運(yùn)行若干次,取實(shí)驗(yàn)期望作為數(shù)據(jù)集的分類(lèi)準(zhǔn)確率結(jié)果。實(shí)驗(yàn)中,該算法運(yùn)行20次,采用分類(lèi)正確率作為分類(lèi)精度評(píng)價(jià)指標(biāo),與傳統(tǒng)KNN算法和距離加權(quán)KNN算法交叉比較。
分三種情況實(shí)驗(yàn):①小樣本分類(lèi)情況;②大樣本分類(lèi)情況;③不同K值情況。選取不同K值,分析分類(lèi)精度,發(fā)現(xiàn)當(dāng)K值為10時(shí),分類(lèi)結(jié)果最優(yōu)。實(shí)驗(yàn)①、②考察訓(xùn)練集大小對(duì)實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)③考察不同K值對(duì)分類(lèi)結(jié)果的影響。
實(shí)驗(yàn)①訓(xùn)練集從500開(kāi)始,一次取到1000,得到準(zhǔn)確率,如圖2所示。由圖2可知,當(dāng)訓(xùn)練集樣本數(shù)小于600時(shí),Entropy-KNN分類(lèi)效果明顯優(yōu)于傳統(tǒng)KNN和距離加權(quán)-KNN,隨著樣本數(shù)量增多,Entropy-KNN仍能取得良好的分類(lèi)效果。
圖2 準(zhǔn)確率在不同訓(xùn)練集的比較
實(shí)驗(yàn)②將訓(xùn)練集從1000開(kāi)始一次取到5000,結(jié)果見(jiàn)表3所示。從表3可以看出,訓(xùn)練集較大時(shí),傳統(tǒng)KNN、距離加權(quán)KNN、Entropy-KNN的準(zhǔn)確率均有所提升,而Entropy-KNN分類(lèi)結(jié)果最優(yōu),隨著樣本數(shù)量增加,Entropy-KNN算法準(zhǔn)確率表現(xiàn)更為顯著。
K=10時(shí)傳統(tǒng)KNN、距離加權(quán)-KNN、Entropy-KNN實(shí)驗(yàn)結(jié)果 表3
實(shí)驗(yàn)③選取不同K值測(cè)試實(shí)驗(yàn)準(zhǔn)確性,取訓(xùn)練集為4000條,K依次從2到20,觀察實(shí)驗(yàn)結(jié)果準(zhǔn)確性,得到圖3所示實(shí)驗(yàn)結(jié)果。分析可得:當(dāng)K值小于8時(shí),分類(lèi)參照臨近點(diǎn)個(gè)數(shù)過(guò)少,已知信息量不夠充足,其結(jié)果不具有參考性。當(dāng)K值之間增大時(shí),分類(lèi)精度趨于穩(wěn)定,Entropy-KNN對(duì)分類(lèi)效果有明顯改進(jìn)。
圖3 準(zhǔn)確率在不同K值變化
上述三種實(shí)驗(yàn)表明,KNN分類(lèi)算法根據(jù)巖石力學(xué)參數(shù)能很好地識(shí)別巖性,而改進(jìn)的KNN分類(lèi)算法Entropy-KNN的分類(lèi)精度優(yōu)于距離加權(quán)-KNN和傳統(tǒng)的KNN分類(lèi)算法,綜合三種實(shí)驗(yàn)結(jié)果,Entropy-KNN的分類(lèi)精度較距離加權(quán)-KNN和傳統(tǒng)的KNN分類(lèi)算法從70.3%提高至78.5%。
①本文提出Entropy-KNN分類(lèi)模型,將屬性信息熵理論應(yīng)用于KNN分類(lèi)模型,契合巖性識(shí)別中巖石力學(xué)參數(shù)的模糊性、重合性等數(shù)據(jù)特征。
②Entropy-KNN在投票分類(lèi)時(shí),通過(guò)類(lèi)可信度綜合考慮各類(lèi)別的臨近樣本點(diǎn)個(gè)數(shù)及未知樣本與相似樣本的類(lèi)別平均距離,彌補(bǔ)了距離加權(quán)-KNN和傳統(tǒng)KNN算法的不同,保證了即使待測(cè)樣本在各類(lèi)的類(lèi)可信度很接近,也可以得到正確的分類(lèi)準(zhǔn)確性。
③受樣本數(shù)量的有限性限制,本文訓(xùn)練集和實(shí)例數(shù)據(jù)的相同屬性值的平均信息熵不是最優(yōu)解,可能導(dǎo)致分類(lèi)的偏差,利用優(yōu)化算法優(yōu)化平均信息熵,是進(jìn)一步完善算法的目標(biāo)。