尚福華,張月霞,曹茂俊
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
隨著計算機技術的飛速發(fā)展,計算機深度學習輔助石油勘探開發(fā)在石油工程中顯得愈加重要,而且隨著測井技術的進步和儀器探測設備的升級更新,包括巖性、巖相、儲集物性參數(shù)[1](孔隙度、滲透率、泥質含量、含油氣水飽和度[2]等)和地層壓力等可用的測井信息類型和數(shù)量劇增,精度不斷提高,測井數(shù)據的處理解釋越來越精細,應用范圍也越來越廣。在這種形勢下,利用大量有用測井和地質信息去探索從而推薦測井儲層參數(shù)的新方法,將是測井解釋技術發(fā)展的主要趨勢[3]。
測井解釋模型在油氣評價方面無疑是最基礎、最有價值的重要技術,但在實際的測井儲層特性中仍然存在著不少解釋不準、判斷不靈的情況,嚴重地影響這些地區(qū)油氣勘探的效率與成功率。常規(guī)測井解釋在確定某種解釋模式之前,需首先建立巖石體積模型,進而確定測井響應方程和統(tǒng)計經驗公式[4],包括但孔隙度分析處理解釋模型、復雜巖性分析處理解釋模型、粘土礦物分析解釋模型等。目前常規(guī)的測井解釋分析程序通常都需要提供數(shù)十種預置參數(shù),最優(yōu)化測井解釋程序所需預先提供的參數(shù)更多。隨著測井技術的進步和儀器探測設備的升級更新,包括巖性、巖相、儲集物性參數(shù)和地層壓力等可用的測井信息越來越豐富。使用正確的解釋模型,就可用有關的解釋方程把測井信息加工成地質信息進而來輔助判斷油氣狀況。因此,為了避免解釋人員由于經驗不足與測井解釋模型中出現(xiàn)的參數(shù)選取不當或差錯,并且克服參數(shù)選取中可能出現(xiàn)的諸多人為因素,推薦算法在地球物理測井儲層參數(shù)的預測與推薦中顯得尤為重要。其中傳統(tǒng)的協(xié)同過濾推薦算法[5]以及改進算法,都僅考慮用戶少量且單方面的個人偏好,容易忽略用戶與其他有效信息的關聯(lián)關系,例如社交網絡或媒體里的信息等,具有較大的局限性,容易出現(xiàn)數(shù)據稀疏性和冷啟動問題。所以,可在推薦系統(tǒng)中引入知識圖譜[6]、神經網絡[7]、注意力機制[8]、社交網絡等輔助信息來增強測井領域知識上下文的關聯(lián)性,來解決以上傳統(tǒng)推薦算法中存在的兩種問題,大大增強了推薦系統(tǒng)的整體性能。其中知識圖譜作為一種可解釋性非常強的語義網絡,可在推薦領域中提供潛在的輔助信息。Gazzotti等人[9]提出一種基于知識圖譜的算法來解決患者住院預測問題,通過不同的知識圖譜中提取信息來豐富EMR的向量表示,以及利用其中的特征進行自動選擇來區(qū)分噪聲的特征和有利于決策的特征;Kang Yang等人[10]提出基于多模態(tài)知識圖的推薦系統(tǒng),在基于用戶歷史點擊視頻的基礎上,構造相應的多模態(tài)知識圖,然后利用此推薦系統(tǒng)模型逐層提取該圖,最后進行推薦;Ye Qing等人提出了一種基于知識圖和推薦系統(tǒng)的藥物靶向相互作用預測框架[11](KGE_NFM)。該框架首先學習知識圖譜中各種實體的低維表示,然后通過神經因子分解機集成多模態(tài)信息,最后進行準確的預測。同時,隨著深度學習的發(fā)展,為解決數(shù)據稀疏性問題,神經網絡和注意力機制也逐步引入到了推薦系統(tǒng)中。Chen Ming等人[12]提出基于神經網絡的推薦算法(CoNet),它可有效地對協(xié)同過濾(CF)中的共現(xiàn)模式進行建模,進而提取出高度描述性的特征,從而獲取更好的性能;Liang Zhang等人[13]提出一種集成神經網絡的Top-N推薦算法,主要通過對互聯(lián)網信號中Top-N推薦算法的干擾,達到保護人們隱私的目的。研究結果表明,當信號干擾強度為5,推薦算法為F時,網民的隱私保護效果最好,故集成神經網絡的Top-N推薦算法在保護人們隱私方面具有重要的潛在價值。Jin Huang等人[14]提出一種基于注意機制的知識圖譜完成的深度嵌入模型,旨在解決一系列的跨模型和語義匹配模型只關注知識圖譜的陰影信息中無法捕捉到知識圖譜中隱含的細粒度特征,稱為方向多維注意卷積模型,該模型探索了方向信息和三元組固有的深層表達特征。
鑒于以上研究,該文將融合注意力機制的知識圖譜及知識圖譜補全與推薦算法相結合,主要貢獻如下:(1)采用面向測井解釋操作人員和某地區(qū)儲層信息構建了測井領域的知識圖譜,通過注意力機制強化地區(qū)儲層信息和知識補全的測井領域知識圖譜,充分挖掘儲層信息和測井操作人員的低階與高階屬性,通過知識圖譜得到儲層信息和測井操作人員的統(tǒng)一表示;(2)融合深度神經網絡協(xié)同過濾算法(NeuralCF)和加入注意力機制的知識補全算法(TransR)來提取儲層信息和測井解釋操作人員的潛在特征,并在此基礎上為測井操作人員預測和推薦測井領域儲層參數(shù)信息。
該文提出了一種基于知識圖譜的測井儲層特性推薦算法:A-KgNc(Attention-Knowledge Graph Network-Collaborative),測井解釋人員在進行常規(guī)測井處理解釋操作(孔隙度分析處理解釋模型、復雜巖性分析處理解釋模型、粘土礦物分析解釋模型)時,根據該算法模型來為其推薦所需要的參數(shù),例如:計算泥質含量時,GCUR(地區(qū)經驗系數(shù))對第三紀地層為3.7,對老地層是2。
算法模型如下:將構建好的測井領域知識圖譜應用到解決測井領域中進行測井解釋時的儲層參數(shù)選取不當或差錯的問題中,進而結合注意力機制用于補全并加強測井領域知識圖譜中的統(tǒng)一信息,最后通過連接機制將推薦算法與知識圖譜兩者結合來有效并高精度地給測井解釋人員推薦儲層參數(shù),對測井操作人員的歷史行為以及推薦儲層參數(shù)結果做出解釋,提供相關依據,進而更加準確地判斷儲層油氣狀況。
首先,構造測井操作人員與儲層信息的交互信息矩陣和已知內容包括的三元組(h,r,t)的測井領域知識圖譜G;然后,使用知識補全算法(TransR)以及注意力機制對測井領域知識圖譜進行補全,同時搭建神經網絡協(xié)同過濾推薦算法;最后,通過交叉壓縮機制融合測井領域知識圖譜與推薦算法來完成測井儲層參數(shù)的推薦。
模型整體框架如圖1所示。
圖1 A-KgNc模型框架
1.2.1 知識圖譜構建算法
首先,構造測井操作人員與儲層信息的交互信息矩陣和已知內容包括的三元組(h,r,t)的測井領域知識圖譜G,其中h表示頭實體:包括測井解釋操作人員或測井解釋分析程序等;t表示尾實體:包括儲層參數(shù)數(shù)據(孔隙度、滲透率、泥質含量、含油氣水飽和度等)、油層數(shù)據、結論等;r表示頭尾實體的連接關系:包括測井解釋人員操作井數(shù)據、儲層參數(shù)數(shù)據、地層參數(shù)數(shù)據等。例如,三元組(測井操作人員,操作,POR解釋分析程序)表示測井操作人員操作測井解釋分析程序[15]。
在許多推薦方案中,儲層特性信息可能相關聯(lián)于知識圖譜中的一個或多個實體,比如:“解釋程序”這一實體在知識圖譜中就包含多種解釋程序類型(孔隙度分析處理解釋模型、復雜巖性分析處理解釋模型、粘土礦物分析解釋模型等)。
本課題構建的知識圖譜有多個,包括測井操作人員-類型知識圖譜、測井操作人員-儲層參數(shù)知識圖譜、儲層參數(shù)-油層數(shù)據知識圖譜等,例如測井操作人員-儲層參數(shù)知識圖譜(22 543條數(shù)據)(一位測井操作人員會操作多個地層參數(shù)數(shù)據)。
其中測井操作人員-儲層參數(shù)知識圖譜如圖2所示。
圖2 測井操作人員-儲層參數(shù)知識圖譜
然后是儲層參數(shù)-油層數(shù)據知識圖譜(26 839條數(shù)據)(同一地區(qū)儲層會分為干層、水層、地產油層、油層等)構建的知識圖譜,如圖3所示。
圖3 儲層參數(shù)-油層數(shù)據知識圖譜
1.2.2 知識圖譜補全算法
該文在測井領域儲層特性的推薦任務中,將測井領域知識圖譜作為輔助信息融入到推薦系統(tǒng)中,現(xiàn)有的大多數(shù)知識感知推薦算法都默認知識圖譜是完整的,但現(xiàn)實中知識圖譜實體間的關系有很多是缺失的,會影響推薦結果的準確性。為豐富測井領域知識圖譜,將數(shù)據嵌入TransR模型中進行知識圖譜補全,如圖4所示。
圖4 TransR模型
在TransR模型中,分別在測井領域知識圖譜中的測井解釋操作人員等的實體空間及其相關關系空間中對實體和關系進行建模,進而在關系空間中進行翻譯。
其中,三元組(h,r,t)中h、t分別為頭實體和尾實體,r為兩者關系,即h,t∈Rk。
此模型認為不同的關系有不同的語義空間,h、t根據其關系r通過投影矩陣Mr映射到關系空間中,即h⊥、t⊥表示為:
t⊥=Mrt
(1)
然后,將得分函數(shù)定義為:
fTransR(h,r,t)=‖h⊥+r-t⊥‖2
(2)
通過在訓練集上最小化基于邊際的排序損失學習式(1)和式(2)中的嵌入:
(3)
其中,max(x,y)的目的是獲取x和y之間的最大值,Sp∈S+表示測井領域知識圖譜中的關系,補全后的知識圖譜即為S-:
(4)
1.2.3 注意力機制
為了探索測井解釋操作人員及其儲層特性信息之間的交互信息,該文提出將注意力機制引入知識圖譜中,與TransR算法模型結合,進而根據權重來補全測井領域知識圖譜,獲取其潛在信息。
注意力機制的模型如圖5所示。
圖5 注意力機制模型
相應的表達式如式(5)所示:
(5)
式中,A(i,j)是測井儲層特性中已知地區(qū)儲層信息j與目標地區(qū)儲層信息i之間的Attention值,其中S(j,ki)是已知地區(qū)儲層信息j與目標地區(qū)儲層信息i對應的相似值,V是目標地區(qū)儲層信息i的值。
Au=∑S(j,Rim)*Vi
(6)
式中,Rim表示測井解釋操作人員-儲層特性信息集合,S(j,Rim)表示候選儲層特性信息j與測井解釋操作人員-儲層特性信息集合中的儲層信息之間的相似度,Vi表示儲層信息i在目標測井解釋操作人員-儲層項目信息集合中的全值。
為了對測井儲層信息和測井操作人員之間的特征交互進行建模,設計了A-KgNc框架中的連接單元,如圖6所示。
圖6 連接機制
其中,第v項儲層信息和關聯(lián)解釋人員e,首先在層l其潛在特征vl∈Rd和el∈Rd里的d×d對進行相互連接:
(7)
其中,Cl∈Rd×d是層l的連接矩陣。在連接特征矩陣中明確建模了解釋人員v及其關聯(lián)解釋人員e之間的關系,之后通過把連接特征矩陣投影到其潛在表示空間中,最后輸出下一層的測井儲層信息和解釋人員的特征向量:
(8)
其中,wl..∈Rd和bl.∈Rd分別是可訓練的權重、偏差向量,權重向量將連接特征矩陣從Rd×d空間投影[16]回特征空間Rd。
通過此連接機制,A-KgNc可以自適應地調整相關實體及關系的權重,并知推薦系統(tǒng)和知識圖譜這兩個任務之間的聯(lián)系程度。
近年來,深度學習的應用改進了傳統(tǒng)的協(xié)同過濾算法,大大提高了協(xié)同過濾算法的泛化能力和擬合能力,因此A-KgNc中推薦模塊使用的是NeuralCF(神經網絡協(xié)同過濾)算法,其輸入由原始特征向量u和v組成,分別描述測井解釋操作人員u及其項目v。
該文使用L層建立一個全連接層即嵌入層,與輸入層連接,用MLP(多層感知機)提取其潛在的連接特征:
uL=M(M(…M(u)))=ML(u)
(9)
其中,M(x)=σ(Wx+b)是神經網絡層,權重W,誤差b和非線性激活函數(shù),對于測井儲層信息v,使用L個連接單元提取其特征[16]:
vL=Ee~S(v)[CL(v,e)[v]]
(10)
其中,S(v)是測井項目相關實體的集合v。
在獲得測井解釋操作人員u的潛在特征uL及其項目v的潛在特征vL之后,通過預測函數(shù)fR將這兩種途徑結合起來。為測井解釋操作人員u推薦其項目v的儲層參數(shù)最終預測概率:
(11)
實驗數(shù)據來源于大慶油田、新疆油田某工區(qū)的三口水平井(Welldatalens)(分別為大慶油田的A、B井和新疆油田的C井),每口水平井均包含十條測井曲線、儲層參數(shù)數(shù)據、地層參數(shù)數(shù)據、測井解釋分析程序、井數(shù)據、油層數(shù)據、結論數(shù)據等,其中測井曲線為電阻率(RT)、密度(DEN)、中子(CNL)、聲波時差(HAC)和井徑(CAL),分別選取測井曲線662 m~930 m數(shù)據段(采樣間隔為0.125 m)。測井解釋模型選擇的是:孔隙度分析處理解釋模型、復雜巖性分析處理解釋模型、粘土礦物分析解釋模型。同時把以上數(shù)據構建為測井領域知識圖譜:測井操作人員-類型知識圖譜、測井操作人員-儲層參數(shù)知識圖譜、儲層參數(shù)-油層數(shù)據知識圖譜等來進行實驗。
根據以上數(shù)據集,其對應的統(tǒng)計數(shù)據如表1所示,并且數(shù)據集的密度=(測井操作人員-儲層參數(shù)交互數(shù))/(測井操作人員數(shù)-儲層數(shù)),因此數(shù)據集的稀釋度=1-數(shù)據集密集度。
表1 數(shù)據集基本統(tǒng)計
(1)NFM。
該模型[17]在傳統(tǒng)的FM模型基礎上,融合DNN的策略,進而引進特征交叉池化層的結構,使得FM與DNN進行連接,從而不僅吸取了FM的建模低階特征交互能力,還結合了DNN學習高階特征交互能力,提高了推薦的準確率。
(2)DIN。
該模型[18]將NLP中機器翻譯的Attention機制引入CTR預估模型,即在計算用戶興趣向量的時候,根據候選廣告的不同從而動態(tài)改變用戶興趣向量的值,大大提高了推薦系統(tǒng)的性能。
(3)KGCN。
該模型在傳統(tǒng)的推薦模型中引入了知識圖譜,結合圖卷積網絡的方法來輔助獲取用戶與物品之間的關系,為其推薦的結果提供了可解釋性,提高了推薦系統(tǒng)的準確率[19]。
本課題采用以下三個評價指標對模型TOP-10推薦性能進行判斷。
準確率指標,對模型最終的TOP-10推薦進行的一個最直接的展示,如式(12)所示:
(12)
以上的準確率表示的是最終推薦列表中的測井操作人員的歷史常用的儲層參數(shù)占整體推薦的儲層參數(shù)列表的比例。
召回率指標,如式(13)所示:
(13)
此召回率指標是指最終推薦列表的測井操作人員的推薦儲層參數(shù)占整體測井操作人員歷史交互列表的比例。其中,R(o)表示最終給測井操作人員o的儲層參數(shù)列表,T(o)表示測井操作人員在歷史交互列表中展現(xiàn)常用的儲層參數(shù)集合。
歸一化折損累積增益,如式(14)所示:
(14)
其中,DCG是折損累計增益,IDCG是將DCG進行歸一化處理之后的指標,reli是候選儲層數(shù)據與操作人員歷史交互記錄中儲層數(shù)據之間的相似度,取值為[0,1],整個指標所表示的是用來衡量整體推薦算法對候選儲層數(shù)據與操作人員歷史交互記錄中儲層參數(shù)信息數(shù)據之間的相似度大小的指標。
本課題將構建好的測井領域知識圖譜,融合注意力機制和TransR補全模型(對測井操作人員交互信息的潛在語義進行輔助與補充及深層次的信息挖掘),嵌入到神經網絡協(xié)同過濾推薦算法模型中。
鑒于實驗結果的可靠性,故需要對測井領域數(shù)據集Welldatales做預處理,將其80%用于訓練模型,20%用于測試模型,經過多次實驗取得平均值。
實驗環(huán)境的配置如下:Windows10、英特爾-i7-2630QM@2Ghz、Visual Studio Code2020、Neo4j-community_win-dows-x64_3_3_1、python-3.8、sklearn-0.24.1,tensorflow-2.5.0。
其中神經網絡部分的參數(shù)設置如下:關于NCF神經網絡的過濾器數(shù)量設置為 64,嵌入維度設置為16,批次處理大小設置為256,權值設置為16,學習率為0.01,TOP-K推薦數(shù)為10。
在所有參數(shù)默認設置的情況下,將文中算法與現(xiàn)在主流的推薦算法在測井領域數(shù)據集Welldatales上進行了相關指標的對比分析,具體數(shù)據見表2。
表2 算法對比分析
2.5.1 實驗準確性分析
本課題實驗結合大慶油田、新疆油田某工區(qū)的三口水平井數(shù)據的相關性分析結果設計如下實驗,在測井操作人員進行操作測井解釋模型(孔隙度分析處理解釋模型、復雜巖性分析處理解釋模型、粘土礦物分析解釋模型)時,分別根據大慶兩口井(A和B)的儲層特征以及測井數(shù)據的含油狀況來估計新疆未知井(C)的含油情況以推薦操作所需要的參數(shù)。
在以上模型默認參數(shù)的設置下,在測井數(shù)據集Welldatales上,與同類算法分別在三個指標上(召回率Recall、準確率Precision和歸一化折損累積增益指標NDGC)進行相關測試,具體實驗結果如圖7~圖9所示。
圖7 Precision指標對比
圖8 Recall指標對比
圖9 NDGC指標對比
經過上面三個圖對比分析可知,在測井領域數(shù)據集Welldatales上,所提A-KgNc算法在三個評價指標Precision、Recall和NDGC上均優(yōu)于其他算法;另外,還可以看出,在K=15時,三個相關性能指標顯示最好。
2.5.2 融合注意力機制的知識圖譜有效性分析
為了驗證本課題模型中融合注意力機制的知識圖譜可緩解數(shù)據稀疏以及冷啟動問題,實驗如下:
將A-KgNc與NCF模型(去掉文中算法中融合注意力機制與知識圖譜部分得到的)在數(shù)據集Welldatales上進行融合注意力機制的知識圖譜有效性下的準確率Precision、召回率Recall和歸一化折損累積增益指標NDGC的驗證,其結果分布如圖10~圖12所示。
圖10 融合注意力機制的知識圖譜有效性驗證Precision指標分布
圖11 融合注意力機制的知識圖譜有效性驗證Recall指標分布
圖12 融合注意力機制的知識圖譜有效性驗證TOP=K指標分布
經過以上三個指標的折線對比圖分布可知,文中算法模型在測井領域數(shù)據集Welldatale的實驗下,含注意力機制的知識圖譜模型的三個指標均優(yōu)于NCF模型,故可驗證融入注意力機制的知識圖譜的有效性。
考慮到實際應用中測井解釋人員由于經驗不足以及測井解釋模型所選取的參數(shù)不當、差錯等,所造成的測井處理解釋結果的評價精度不準等問題,在測井儲層參數(shù)推薦任務上,A-KgNc算法在補全后的測井領域知識圖譜中針對測井儲層參數(shù)預測問題具有很高的準確率,尤其是在加入了注意力機制的情況下,對比同類A-KgNc算法有了更高的準確率,說明了該算法具有較好的預測性能。
對比同類推薦算法的研究結果可知:知識圖譜作為一種可解釋性非常強的語義網絡可在推薦算法領域中提供潛在的輔助信息。該文做了如下補充:(1)對知識圖譜做了補全工作,使測井領域知識圖譜更加完整;(2)算法中加入了注意力機制,增強了知識圖譜與推薦算法的聯(lián)系,可為測井解釋人員提供潛在信息進而更準確的推薦。
A-KgNc算法將加入注意力機制及補全后的知識圖譜作為輔助信息,引入到神經網絡推薦算法中,其模型復雜度方面沒有得到最優(yōu)處理。因此,下一步工作就是將使用的NCF網絡(神經網絡協(xié)同過濾)換成GCN(圖卷積神經網絡)網絡,并且結合專家經驗來更加精確地捕捉儲層參數(shù)信息,從而提高整體推薦算法性能。