胡 馳,李新虎,2,3*,李曉君,李 健,郭 杰
(1.西安科技大學(xué)地質(zhì)與環(huán)境學(xué)院, 西安 710054;2.陜西省煤炭綠色開發(fā)地質(zhì)保障重點(diǎn)實(shí)驗(yàn)室,西安 710054;3.國(guó)土資源部煤炭資源勘查與綜合利用重點(diǎn)實(shí)驗(yàn)室,西安 710021;4.甘肅煤炭地質(zhì)勘查院,蘭州 730000)
煤層氣的開發(fā)過(guò)程中,煤層含氣量的解釋和評(píng)價(jià)對(duì)生產(chǎn)至關(guān)重要。目前,確定煤層含氣量最準(zhǔn)確的方法就是現(xiàn)場(chǎng)取心后實(shí)驗(yàn)室解吸。這種方法成本較高,因此,煤層氣開發(fā)需要一種經(jīng)濟(jì)、有效且通用的煤層氣含量解釋方法。
目前有學(xué)者利用地球物理測(cè)井資料預(yù)測(cè)煤層含氣量,主要方法有概率統(tǒng)計(jì)法[1-2]、等溫吸附曲線法[3-4]和BP神經(jīng)網(wǎng)絡(luò)[5-6]。但是,基于多元線性回歸所建立的概率統(tǒng)計(jì)法,對(duì)于計(jì)算煤層含氣量這種非線性問題,仍存在較大誤差。Langmuir方程的計(jì)算結(jié)果會(huì)受到甲烷飽和度的影響,且大多數(shù)情況下,煤層氣屬于欠飽和吸附[7],因此,計(jì)算結(jié)果僅為煤層中的相對(duì)煤層氣含量。BP神經(jīng)網(wǎng)絡(luò)雖然可以解決非線性的復(fù)雜問題,但由于初始值的隨機(jī)性,導(dǎo)致計(jì)算過(guò)程中容易陷入局部最小值或產(chǎn)生過(guò)擬合問題[8]。深度學(xué)習(xí)可以有效的發(fā)現(xiàn)并描述問題的復(fù)雜結(jié)構(gòu)[9-10],其在很多領(lǐng)域獲得了成功[11-15],但目前很少應(yīng)用到測(cè)井解釋。
筆者在本次研究中,將深度學(xué)習(xí)的深度置信網(wǎng)絡(luò)(DBN)引入到煤層含氣量預(yù)測(cè)中,結(jié)合合水地區(qū)測(cè)井?dāng)?shù)據(jù),確定了可用來(lái)計(jì)算合水地區(qū)煤層含氣量的DBN網(wǎng)絡(luò)參數(shù),構(gòu)建了DBN網(wǎng)絡(luò),該方法可用來(lái)對(duì)合水地區(qū)煤層氣測(cè)井?dāng)?shù)據(jù)進(jìn)行定量解釋。
合水地區(qū)位于陜北單斜的西南部,總體呈向NW傾斜的復(fù)式單斜構(gòu)造,傾角平緩,一般在3°~10°。區(qū)內(nèi)褶曲發(fā)育平緩,軸線走向多為NEE—SEE,延伸長(zhǎng)度平均11.35 km,褶曲形態(tài)寬緩,軸線也呈不連續(xù)的波狀起伏,起伏幅度總體由下層段向上層段到蓋層呈逐漸變小的趨勢(shì);排列方向不一,形態(tài)略顯鼻狀、簸箕狀,或穹窿、或凹陷的特征。研究區(qū)含煤地層為中侏羅統(tǒng)延安組,含煤1~14層,有編號(hào)煤層5層。其中,5號(hào)煤全區(qū)可采,平均厚度分別為2.18 m,埋深大于880 m;6號(hào)煤和8號(hào)煤層局部可采,平均厚度為2.03 m和2.96 m,埋深大于965 m。由于研究區(qū)內(nèi)8號(hào)煤氣含量最高,故本次以合水地區(qū)8號(hào)煤煤層含氣量為研究對(duì)象(圖1)。
圖1 鄂爾多斯盆地構(gòu)造及研究區(qū)位置圖Figure 1 Structural map of Ordos Basin and study area position
深度學(xué)習(xí)的提出,不僅起源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究,還受到統(tǒng)計(jì)力學(xué)的啟發(fā)[16-17]。在此基礎(chǔ)上,Hinton等在2006年提出了深度置信網(wǎng)絡(luò)[18],該方法結(jié)合了無(wú)監(jiān)督和監(jiān)督學(xué)習(xí),其中涉及多個(gè)受限的玻爾茲曼機(jī)(RBM)和BPNN[19]。
RBM是DBN中無(wú)監(jiān)督學(xué)習(xí)的最重要部分,其包含兩層:一層是可視層,用于接收輸入,另一層是隱藏層。每層由許多神經(jīng)元組成,用于提取輸入?yún)?shù)特征(圖2)。同一層中的神經(jīng)元彼此獨(dú)立,各個(gè)可視層和隱藏層神經(jīng)元通過(guò)權(quán)重矩陣V連接,其可以表示為
(1)
圖2 RBM網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 RBM network structure
式中:i表示可視層神經(jīng)元數(shù)量;j表示隱藏層神經(jīng)元數(shù)量,通過(guò)權(quán)重矩陣V選擇打開或者關(guān)閉神經(jīng)元,(用1和0分別表示神經(jīng)元打開和關(guān)閉)。
當(dāng)輸入向量為X=(X1,X2…Xn)T,首先需要計(jì)算隱藏層中神經(jīng)元的激勵(lì)值:
Y=VX
(2)
此時(shí),Y=(Y1,Y2…Yn)T,通過(guò)Sigmoid函數(shù)計(jì)算隱藏神經(jīng)元被打開的概率:
(3)
Ym=1表示隱藏神經(jīng)元打開。故隱藏層神經(jīng)元被關(guān)閉的概率為
P(Ym=0)=1-P(Ym=1)
(4)
最后通過(guò)比較均勻分布的隨機(jī)值h(h∈[0,1]),來(lái)確定隱藏層神經(jīng)元是否會(huì)被打開:
(5)
式中:Ym∈Y。
RBM的訓(xùn)練實(shí)質(zhì)上就是通過(guò)選擇神經(jīng)元的打開或關(guān)閉,來(lái)建立可反映樣本特征的概率分布。
BPNN由Rumelhart和McClelland于1986年提出,是一種基于反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò)[20]。BPNN是DBN中監(jiān)督學(xué)習(xí)的一部分,主要用于計(jì)算最終輸出。BPNN可以分為三層:輸入層(I)、隱藏層(h)和輸出層(O),僅含有一層輸入層和一層輸出層,但可能會(huì)有一層或幾層隱藏層(圖3)。在每一層中都有許多神經(jīng)元,同一層中的神經(jīng)元彼此不連接,前后兩層的神經(jīng)元通過(guò)權(quán)重w連接。輸入層接收數(shù)據(jù),隱藏層和輸出層處理數(shù)據(jù)。數(shù)據(jù)處理通常使用Sigmoid函數(shù):
(6)
(7)
圖3 BPNN網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 BPNN network structure
式中:yi表示i層的輸入;xi表示前一層輸出;wi表示前一層權(quán)重;b表示調(diào)節(jié)系數(shù);yo表示i層的輸出。
將RBM提取的測(cè)井曲線參數(shù)特征用作BPNN的新輸入,從而對(duì)DBN進(jìn)行訓(xùn)練。單個(gè)BPNN是典型的“淺”層神經(jīng)網(wǎng)絡(luò)。當(dāng)隱藏層大于2時(shí),計(jì)算結(jié)果不理想。但在DBN中,可以通過(guò)多層RBM提取參數(shù)特征,DBN通過(guò)RBM確定連接權(quán)重W的范圍,然后通過(guò)BPNN訓(xùn)練計(jì)算結(jié)果(圖4)。與單BPNN相比,DBN的訓(xùn)練速度和收斂時(shí)間更快,且精度更高。
圖4 DBN網(wǎng)絡(luò)結(jié)構(gòu)Figure 4 DBN network structure
不同的測(cè)井曲線的技術(shù)原理和物理參數(shù)存在明顯差異。因此必須對(duì)測(cè)井?dāng)?shù)據(jù)進(jìn)行預(yù)處理,將其統(tǒng)一到相同的尺度范圍內(nèi)。
(8)
含氣量對(duì)不同測(cè)井曲線的影響各不相同,故需要分析不同測(cè)井曲線與含氣量之間的相關(guān)性。選擇合水地區(qū),井徑、自然伽馬、自然電位、密度、聲波時(shí)差、短源距伽馬測(cè)井、長(zhǎng)源距伽馬測(cè)井和淺側(cè)向8條測(cè)井?dāng)?shù)據(jù),通過(guò)灰色關(guān)聯(lián)分析方法,來(lái)分析二者之間的相關(guān)性。
(9)
表1為合水地區(qū)測(cè)井?dāng)?shù)據(jù)與煤層含氣量之間的相關(guān)性,關(guān)聯(lián)度越大,說(shuō)明其相關(guān)性越高。本文選擇關(guān)聯(lián)度大于0.8的測(cè)井曲線,分別為:短源距自然伽馬、自然伽馬、密度、長(zhǎng)源距自然伽馬和淺側(cè)向5條測(cè)井曲線,作為后續(xù)DBN訓(xùn)練的輸入?yún)?shù)。
表1 測(cè)井?dāng)?shù)據(jù)和煤層含氣量灰色關(guān)聯(lián)排序
本次研究以甘肅合水地區(qū)測(cè)井?dāng)?shù)據(jù)為例,篩選出該地區(qū)120組煤層樣品作為DBN樣本分析數(shù)據(jù)。選擇短源距自然伽馬、自然伽馬、密度、長(zhǎng)源距自然伽馬和淺側(cè)向5條測(cè)井曲線,作為DBN的輸入?yún)?shù),煤層氣含量作為DBN的輸出參數(shù)。分別研究RBM數(shù)量和隱藏神經(jīng)元數(shù)量對(duì)計(jì)算結(jié)果的影響。最后通過(guò)概率統(tǒng)計(jì)法、BPNN、DBN和SVM計(jì)算了30組煤層的煤層氣含量,并分析了不同方法的效果。
DBN通常由多組RBM和一組BPNN組成。RBM主要用于對(duì)測(cè)井參數(shù)特征的提取,其數(shù)量對(duì)計(jì)算結(jié)果有一定的影響。一般來(lái)說(shuō),RBM層數(shù)越多,提取的參數(shù)特征越有效,計(jì)算結(jié)果更加準(zhǔn)確。但相應(yīng)的計(jì)算速度會(huì)下降。因此,要同時(shí)考慮到計(jì)算結(jié)果的準(zhǔn)確性和計(jì)算速度。
圖5 不同RBM層數(shù)計(jì)算結(jié)果對(duì)比Figure 5 Comparison of different RBM layer numbers computed results
隨著RBM層數(shù)由5層提高到7層,計(jì)算結(jié)果與實(shí)驗(yàn)室分析結(jié)果之間的差異性隨之降低。但RBM層數(shù)增加到9層及以上時(shí),計(jì)算精度并沒有顯著提高,反而由于操作復(fù)雜,導(dǎo)致計(jì)算速度明顯降低(圖5)。因此,在本研究中,選擇計(jì)算結(jié)果精度更高,計(jì)算速度適中的7層RBM,作為隱藏層的層數(shù)。
每個(gè)RBM由可視層和隱藏層組成。可視層主要用于接收測(cè)井參數(shù),其神經(jīng)元數(shù)量與輸入測(cè)井參數(shù)數(shù)量相同,為5個(gè)。隱藏層主要用于提取測(cè)井曲線特征,其神經(jīng)元數(shù)量對(duì)測(cè)井曲線特征的有效提取存在很大影響。故本次選擇5、10、20和50個(gè)神經(jīng)元作為實(shí)驗(yàn)對(duì)象。
圖6 不同神經(jīng)元計(jì)算結(jié)果對(duì)比Figure 6 Comparison of different neurons computed results
當(dāng)存在50個(gè)神經(jīng)元時(shí),計(jì)算結(jié)果與實(shí)驗(yàn)室分析結(jié)果差異最大,且耗時(shí)最長(zhǎng),說(shuō)明過(guò)多的神經(jīng)元并不能更好的改善計(jì)算精度。當(dāng)有5個(gè)神經(jīng)元時(shí),計(jì)算結(jié)果的精度明顯高于50個(gè)神經(jīng)元,但由于神經(jīng)元數(shù)量過(guò)少,可能無(wú)法提供最有效數(shù)據(jù)特征,導(dǎo)致最終的計(jì)算結(jié)果不穩(wěn)定,因此需要重復(fù)計(jì)算來(lái)提供最佳輸出結(jié)果。當(dāng)神經(jīng)元數(shù)量為20時(shí),計(jì)算結(jié)果與實(shí)驗(yàn)室分析結(jié)果差異更小且結(jié)果穩(wěn)定(圖6)。故在后續(xù)訓(xùn)練中,將20個(gè)神經(jīng)元作為每個(gè)RBM隱藏層中的最佳神經(jīng)元數(shù)量。
概率統(tǒng)計(jì)法一般假設(shè)煤層氣含量與測(cè)井?dāng)?shù)據(jù)之間存在一定概率分布關(guān)系[21],因此,可通過(guò)多元回歸方法,獲得煤層氣含量和測(cè)井?dāng)?shù)據(jù)之間的回歸方程。通常,概率統(tǒng)計(jì)法可用來(lái)預(yù)測(cè)同一區(qū)域中的煤層氣含量,但是其誤差較大,計(jì)算結(jié)果精度偏低。
為了尋找最優(yōu)的含氣量測(cè)井解釋模型方程,對(duì)合水地區(qū)煤層氣參數(shù)井的煤層樣品測(cè)試含氣量和測(cè)井?dāng)?shù)據(jù)進(jìn)行多元回歸,發(fā)現(xiàn)含氣量與各測(cè)井參數(shù)之間在多元回歸的情況下有一定的相關(guān)關(guān)系,其計(jì)算公式:
Gas=-0.05992*DEN+0.000247*GGNR+0.000283*GGFR-0.0002*GR-0.00017*LL3+0.905329
(10)
R2=0.64
F=40
式中:R2為相關(guān)系數(shù)平方;F為統(tǒng)計(jì)量;Gas為含氣量,m3/t;DEN為密度測(cè)井曲線,g/cm3;GGNR為短源距伽馬測(cè)井曲線,API;GGFR為長(zhǎng)源距伽馬測(cè)井曲線,API;GR為伽馬測(cè)井曲線,API;LL3為淺側(cè)向測(cè)井曲線,Ω·m。
整體樣本預(yù)測(cè)效果較好(表2,圖7),雖部分樣本相對(duì)誤差達(dá)到20.16%,但整體樣本相對(duì)誤差較小,平均為11.18%。給定顯著性水平α=0.05,測(cè)試樣本數(shù)量M=120,自變量n=5,查閱F檢驗(yàn)臨界值表可知,F(xiàn)0.05(5,114)=2.294,F(xiàn)=40>F0.05(5,114)=2.294,多元回歸關(guān)系成立。R2=0.64,含氣量與5個(gè)測(cè)井參數(shù)之間關(guān)系顯著,模型具有較高可信度,若沒有其它計(jì)算含氣量方法時(shí),可優(yōu)先考慮該方法。
圖7 合水地區(qū)概率統(tǒng)計(jì)法預(yù)測(cè)含氣量結(jié)果Figure 7 Probabilistic method predicted gas content results in Heshui area
SVM在解決小樣本、非線性等回歸問題中表現(xiàn)出許多特有的優(yōu)勢(shì),基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)最小化原則和VC維理論,在保證精度的同時(shí)降低學(xué)習(xí)機(jī)器的VC維,進(jìn)而控制學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn),以期得到最小誤差[22]。
通過(guò)密度、短源距伽馬、長(zhǎng)源距伽馬、伽馬和淺側(cè)向5條測(cè)井曲線,對(duì)煤儲(chǔ)層含氣量進(jìn)行預(yù)測(cè)。使用合水地區(qū)120組數(shù)據(jù)分析訓(xùn)練,建立支持向量機(jī)含氣量預(yù)測(cè)模型,并對(duì)剩余30組樣本進(jìn)行預(yù)測(cè)分析。
表2 合水地區(qū)概率統(tǒng)計(jì)法預(yù)測(cè)結(jié)果
整體樣本預(yù)測(cè)效果較差(表3,圖8),即使部分樣本預(yù)測(cè)精度較高,相對(duì)誤差僅為2.87%,但仍有部分樣本相對(duì)誤差結(jié)果達(dá)到51.39%,而整體平均相對(duì)誤差為25.32%。SVM本質(zhì)上是非線性方法,當(dāng)樣本數(shù)量比較少時(shí),網(wǎng)絡(luò)模型更容易抓住樣本和特征之間的非線性關(guān)系;而樣本數(shù)據(jù)較大時(shí),會(huì)導(dǎo)致該矩陣的存儲(chǔ)和計(jì)算將會(huì)耗費(fèi)更大的機(jī)器內(nèi)存和運(yùn)算時(shí)間,且不利于關(guān)鍵樣本的抓取,進(jìn)而使得網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果精度較低。
圖8 合水地區(qū)支持向量機(jī)預(yù)測(cè)含氣量結(jié)果Figure 8 SVM predicted gas content results in Heshui area
表3 合水地區(qū)支持向量機(jī)預(yù)測(cè)結(jié)果
BP網(wǎng)絡(luò)具有逼近任何非線性映射的能力,可以不受非線性模型的限制,并且學(xué)習(xí)算法簡(jiǎn)單,建模方式靈活等特點(diǎn),對(duì)已知存在某種聯(lián)系但無(wú)法用確切方程或算法表達(dá)的求解問題有更高的適用性[3,23]。
本次選擇密度、短源距伽馬、長(zhǎng)源距伽馬、伽馬和淺側(cè)向5條測(cè)井曲線作為輸入函數(shù),煤層含氣量為輸出函數(shù),隱含層節(jié)點(diǎn)數(shù)為7,構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型。
圖9 合水地區(qū)BPNN預(yù)測(cè)含氣量結(jié)果Figure 9 BPNN predicted gas content results in Heshui area
BPNN預(yù)測(cè)結(jié)果精度略高于SVM(表4,圖9)相對(duì)誤差分布在1.92%~43.86%,平均相對(duì)誤差為15.64%。一般情況下,隨著訓(xùn)練能力的提升,預(yù)測(cè)能力的精度也隨著提高。但這種趨勢(shì)存在一個(gè)極限,當(dāng)訓(xùn)練能力不斷提高,網(wǎng)絡(luò)模型學(xué)習(xí)到的樣本特征細(xì)節(jié)就越多,此時(shí)模型已不能反映樣本特征的規(guī)律,使得網(wǎng)絡(luò)預(yù)測(cè)能力下降。故如何把握學(xué)習(xí)能力的度,對(duì)BPNN預(yù)測(cè)精度的準(zhǔn)確性存在很大影響。
圖10 合水地區(qū)DBN預(yù)測(cè)含氣量結(jié)果Figure 10 DBN predicted gas content results in Heshui area
DBN由7個(gè)RBM和一個(gè)BPNN組成,每個(gè)RBM包含20個(gè)神經(jīng)元,通過(guò)使用激活函數(shù)來(lái)給神經(jīng)元引入非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以逼近任何的非線性函數(shù),從而可以讓模型的計(jì)算結(jié)果精度提高,更有效的解決非線性問題。相比其它激活函數(shù),ReLU函數(shù)收斂速度更快,計(jì)算復(fù)雜度更低,故本次研究使用ReLU作為激活函數(shù)。通過(guò)損失函數(shù)均方誤差(MSE)反映計(jì)算結(jié)果與期望之間的差異。
表4 合水地區(qū)BPNN預(yù)測(cè)結(jié)果
不同預(yù)測(cè)方法均方誤差(MSE)結(jié)果如表5、圖10、圖11)。由此可見,最準(zhǔn)確的方法是DBN,其均方誤差分布在0~0.11,平均為0.013,測(cè)試含氣量與計(jì)算含氣量匹配度較高。通過(guò)密度、短源距自然伽馬、長(zhǎng)源距自然伽馬、伽馬和淺側(cè)向測(cè)井五條曲線所構(gòu)建的DBN網(wǎng)絡(luò),對(duì)合水地區(qū)煤層含氣量預(yù)測(cè)有很高的準(zhǔn)確性。概率統(tǒng)計(jì)法準(zhǔn)確度次于DBN,其均方誤差分布在0~0.234,平均值為0.054。準(zhǔn)確度最差的是SVM,均方誤差分布范圍較大,平均值為0.293。DBN的精度明顯高于BPNN,DBN和BPNN之間的區(qū)別在于DBN存在多個(gè)RBM,進(jìn)而通過(guò)逐步確定連接權(quán)重來(lái)構(gòu)建DBN學(xué)習(xí)網(wǎng)絡(luò),而BPNN的連接權(quán)重是隨機(jī)初始化的。對(duì)于DBN來(lái)說(shuō),通過(guò)RBM確定連接權(quán)重范圍至關(guān)重要,可以有效提高計(jì)算結(jié)果精度。概率統(tǒng)計(jì)法與DBN基本相似,都是通過(guò)煤層氣含量與測(cè)井?dāng)?shù)據(jù)之間關(guān)系,來(lái)估算其它煤層中的煤層含氣量。兩種方法的差異在于概率統(tǒng)計(jì)法通常表示為線性回歸方程,而對(duì)于煤層含氣量這種非線性問題,通過(guò)DBN所提供的神經(jīng)網(wǎng)絡(luò)得到的結(jié)果,往往會(huì)有更高的準(zhǔn)確度。
表5 不同預(yù)測(cè)方法均方誤差(MSE)結(jié)果對(duì)比
圖11 合水地區(qū)A井煤層含氣量綜合預(yù)測(cè)Figure 11 Well A coal seam gas content integrated prediction in Heshui area
1) 增加RBM數(shù)量,一定范圍內(nèi)有助于提取測(cè)井?dāng)?shù)據(jù)的特征,但是運(yùn)算速度明顯增加,耗時(shí)增加。因此,RBM數(shù)量并不是越多越好,在考慮結(jié)果精度的同時(shí),還需要考慮運(yùn)算速度,本次研究中RBM層數(shù)最優(yōu)層數(shù)為7層。
2) 過(guò)多RBM隱藏層神經(jīng)元會(huì)降低計(jì)算精度,且增加運(yùn)算速度,而過(guò)少隱藏層神經(jīng)元雖然會(huì)減少運(yùn)算速度,但會(huì)降低結(jié)果穩(wěn)定性。因此,需要反復(fù)試驗(yàn),從而確定適合研究區(qū)數(shù)據(jù)隱性層神經(jīng)元的數(shù)量,本次研究選擇神經(jīng)元數(shù)量最優(yōu)為20。
3) 本次對(duì)比研究合水地區(qū)煤層含氣量預(yù)測(cè)方法中,DBN預(yù)測(cè)效果最好,概率統(tǒng)計(jì)法次之,SVM效果最差。