李春生,陳思宇,張可佳,富 宇,劉 濤
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
勘探開發(fā)數(shù)據(jù)作為重要的生產(chǎn)開發(fā)數(shù)據(jù),其數(shù)據(jù)質(zhì)量的優(yōu)劣將直接影響到后續(xù)的油田開發(fā)生產(chǎn)過程。為此人們開展了對油田數(shù)據(jù)質(zhì)量檢測方法的研究。文獻(xiàn)[1]針對油田開發(fā)數(shù)據(jù)特點(diǎn),研究數(shù)據(jù)內(nèi)部機(jī)制,圍繞數(shù)據(jù)庫建設(shè)全過程,建立完整的質(zhì)量控制體系,實(shí)現(xiàn)數(shù)據(jù)查錯(cuò)排錯(cuò),有效控制數(shù)據(jù)質(zhì)量。文獻(xiàn)[2]通過對油田開發(fā)數(shù)據(jù)的錯(cuò)誤類型和產(chǎn)生原因進(jìn)行分析,提出在數(shù)據(jù)生命周期中建立質(zhì)量監(jiān)控標(biāo)準(zhǔn)規(guī)范并設(shè)置質(zhì)量控制點(diǎn)。文獻(xiàn)[3]在技術(shù)方面,對元數(shù)據(jù)技術(shù)、數(shù)據(jù)模型驅(qū)動(dòng)技術(shù)等展開分析研究和運(yùn)用。文獻(xiàn)[4]針對油田開發(fā)規(guī)劃引入突出影響因子的非線性模糊綜合評價(jià),從傳統(tǒng)評判方法例如模糊評判方面,首先要克服主要影響因素被忽略的弱點(diǎn),又強(qiáng)調(diào)了利用線性模糊評判的優(yōu)點(diǎn)。文獻(xiàn)[5]通過數(shù)據(jù)庫應(yīng)用模型構(gòu)建技術(shù),實(shí)現(xiàn)了專業(yè)應(yīng)用在信息方面的有效支持。在異常檢測方面,文獻(xiàn)[6]對傳感器網(wǎng)絡(luò)異常檢測進(jìn)行了綜述,文獻(xiàn)[7]提出了基于深度學(xué)習(xí)的視頻異常檢測方法,并總結(jié)了其他領(lǐng)域的一些異常檢測方法。綜上所述,現(xiàn)存的油田質(zhì)量控制方法都是對數(shù)據(jù)模型、數(shù)據(jù)庫建設(shè)方面進(jìn)行研究,未對相應(yīng)的質(zhì)檢規(guī)則進(jìn)行相關(guān)研究。因此,選用機(jī)器學(xué)習(xí)技術(shù)結(jié)合專家系統(tǒng)推理機(jī)制進(jìn)行數(shù)據(jù)質(zhì)檢是勘探開發(fā)數(shù)據(jù)質(zhì)量檢查領(lǐng)域的趨勢。
該文結(jié)合專家系統(tǒng)及機(jī)器學(xué)習(xí)相關(guān)知識,構(gòu)建勘探開發(fā)數(shù)據(jù)智能質(zhì)量檢查模型。模型分為數(shù)據(jù)層、推理學(xué)習(xí)層、應(yīng)用層三個(gè)層次,具體模型框架如圖1所示。
圖1 勘探開發(fā)數(shù)據(jù)智能質(zhì)量檢查模型
上述模型中數(shù)據(jù)層為機(jī)器學(xué)習(xí)和系統(tǒng)應(yīng)用層提供業(yè)務(wù)數(shù)據(jù),知識庫用于存儲根據(jù)專家經(jīng)驗(yàn)得到的質(zhì)檢規(guī)則,并及時(shí)地為推理機(jī)提供推理所需的知識。推理機(jī)作為程序模塊用于執(zhí)行推理、搜索等操作。由于專家系統(tǒng)不具備從經(jīng)驗(yàn)中學(xué)習(xí)的能力,無法自動(dòng)修改知識庫,因而通過機(jī)器學(xué)習(xí)的方式調(diào)整、更新知識庫。
由于專家給出的經(jīng)驗(yàn)相對模糊,且油田數(shù)據(jù)受地理位置、地貌特征等因素影響,專家經(jīng)驗(yàn)可能會產(chǎn)生一定的偏差,因此需對數(shù)據(jù)進(jìn)行分析,得到更準(zhǔn)確的規(guī)則。該文以孔隙度、滲透率、砂巖厚度、有效厚度為例,獲取它們的標(biāo)準(zhǔn)值。
(1)采用k-means聚類算法對孔隙度、滲透率進(jìn)行聚類得到聚類的中心點(diǎn)作為標(biāo)準(zhǔn)值,聚類結(jié)果如圖2所示,其中x軸為孔隙度,y軸為滲透率,以相別為分類標(biāo)準(zhǔn),分為4類,其中*所代表的為某一相別孔隙度和滲透率的中心點(diǎn)。第一類中心點(diǎn)坐標(biāo)為(0.000 6,0.138 4),第二類中心點(diǎn)為(22.703 8,0.060 2),第三類中心點(diǎn)為(27.389 6,0.204 8),第四類中心點(diǎn)為(30.495 5,0.533 5)。
圖2 k-means算法結(jié)果
(2)選取臨近井獲取其有效厚度和砂巖厚度的均值當(dāng)作標(biāo)準(zhǔn)值。使用公式如下:
(1)
得到有效厚度的均值為2.875,砂巖厚度的均值為0.9,以此作為規(guī)則的標(biāo)準(zhǔn)值。
知識庫是專家系統(tǒng)的核心,是專家系統(tǒng)有別于傳統(tǒng)軟件系統(tǒng)的標(biāo)志[8]。知識的數(shù)量與質(zhì)量是決定專家系統(tǒng)性能的關(guān)鍵因素[9]。
知識獲取是初建知識庫要完成的工作。知識獲取是指將問題求解的知識從相應(yīng)的知識源中提取出來,轉(zhuǎn)換為特定的計(jì)算機(jī)語言,其實(shí)質(zhì)就是知識庫建立的過程。該文將現(xiàn)場工作人員提供的專業(yè)知識結(jié)合數(shù)據(jù)分析的結(jié)果解析成相關(guān)的規(guī)則,建立知識庫。知識庫建立的前期基礎(chǔ)為知識表示,知識表示就是通過使用不同體系對客觀世界進(jìn)行歸納和描述[10],選擇合適的知識表示方式有利于系統(tǒng)更好的應(yīng)用,目前被廣泛使用的知識表示方式有產(chǎn)生式規(guī)則表示法、語義網(wǎng)絡(luò)表示法、謂詞邏輯表示法、框架表示法、面向?qū)ο蟊硎痉?,由于產(chǎn)生式規(guī)則法的表達(dá)方式符合勘探開發(fā)數(shù)據(jù)質(zhì)檢流程,故該文采用產(chǎn)生式規(guī)則法對規(guī)則進(jìn)行描述。產(chǎn)生式規(guī)則通常用如下方法表示:IF P THEN Q,P表示條件,Q表示結(jié)論或動(dòng)作,具體含義:若條件P得到滿足,則可以推出結(jié)論Q[11]。
對于勘探開發(fā)數(shù)據(jù)中涉及的眾多的規(guī)則條目,將所有規(guī)則條目以規(guī)則前件和后件形式錄入數(shù)據(jù)庫中,以孔隙度、滲透率、有效厚度和產(chǎn)液量數(shù)據(jù)為例,建立如下所示的規(guī)則庫,其中包括知識表、規(guī)則前件表、規(guī)則表、規(guī)則后件表、結(jié)果表。以知識表、規(guī)則表、結(jié)果表為例,具體描述如下:
(1)知識表用于存儲油田相關(guān)的術(shù)語,并對其進(jìn)行解釋,用于規(guī)則判斷時(shí)的前提條件。滿足此前提條件規(guī)則方可生效,知識表見表1。
表1 知識表
(2)規(guī)則表用于描述質(zhì)檢所需的規(guī)則,其中特征為檢測的字段名稱,標(biāo)準(zhǔn)值為參照數(shù)據(jù),閾值為判斷數(shù)據(jù)異常的門限值,特征邏輯表示與門限值的關(guān)系。規(guī)則表見表2。
表2 規(guī)則表
(3)結(jié)果表用于描述質(zhì)檢結(jié)果,給數(shù)據(jù)異常一個(gè)相應(yīng)的解釋,若解釋合理則數(shù)據(jù)為非異常數(shù)據(jù),若無解釋則根據(jù)上述規(guī)則判定為異常數(shù)據(jù)。結(jié)果表包含RSID、特征、特征邏輯、閾值、判斷結(jié)果,特征為表中字段名,閾值可為表名或標(biāo)準(zhǔn)值,特征邏輯為包含、相等或不相等等邏輯關(guān)系,通過特征、特征邏輯和閾值來解釋數(shù)據(jù)異常原因。結(jié)果表見表3。
表3 結(jié)果表
(4)規(guī)則前件表和規(guī)則后件表的簡要描述如下 :規(guī)則前件表用于描述知識表和規(guī)則表的對應(yīng)關(guān)系,包含ID、KID、RID字段,其中KID為知識表的ID,RID為規(guī)則表ID;規(guī)則后件表用于描述規(guī)則表和結(jié)論表的對應(yīng)關(guān)系,包含ID、RID、RSID字段,其中RID為規(guī)則表ID,RSID為結(jié)果表ID。
以產(chǎn)液量為例進(jìn)行如下描述:首先在規(guī)則表中獲取相關(guān)產(chǎn)液量的規(guī)則,得到其規(guī)則ID,然后在規(guī)則前件表和規(guī)則后件表中找到該規(guī)則ID對應(yīng)的KID和RID,找到其對應(yīng)的知識表和結(jié)果表中的數(shù)據(jù)。最終得到的完整規(guī)則為:同一口井的月產(chǎn)液量變化率大于30%且本井不存在于注水庫中則數(shù)據(jù)異常。
將需檢測的數(shù)據(jù)進(jìn)行檢測得到質(zhì)檢結(jié)果后,通過現(xiàn)場人員的反饋,對知識庫進(jìn)行更新,主要更新規(guī)則庫中的閾值,使知識庫中的知識不斷優(yōu)化,質(zhì)檢的準(zhǔn)確率不斷增強(qiáng)。該文采用機(jī)器學(xué)習(xí)中不平衡分類閾值調(diào)整算法對知識庫進(jìn)行更新。知識庫的更新過程如下:
Step1:提取質(zhì)檢結(jié)果和反饋結(jié)果,構(gòu)成混淆矩陣。
Step2:將不同閾值情況下的多個(gè)混淆矩陣用ROC曲線表示。
Step3:得到約登指數(shù),計(jì)算閾值。
Step4:更新知識庫。將計(jì)算好的閾值更新到規(guī)則庫中的閾值字段中。
專家系統(tǒng)主要通過系統(tǒng)的推理機(jī)來實(shí)現(xiàn)推理功能,推理機(jī)運(yùn)用其推理方法對知識進(jìn)行利用,通過其推理流程和推理控制策略完成知識的完整推理。推理機(jī)主要由推理方法、推理流程、推理控制策略等組成[12-13]。其問題解決算法可以區(qū)分為3個(gè)層次[14]。
推理是人工智能的一項(xiàng)重要技術(shù),比較常見的推理方法有基于案例的推理、基于規(guī)則的推理以及模糊推理。該文采用基于規(guī)則的推理方法,該方法將專家知識和經(jīng)驗(yàn)轉(zhuǎn)換為計(jì)算機(jī)中用于推理的規(guī)則框架,從一組前提推出一組結(jié)論。規(guī)則推理的一般推理步驟如圖3所示。
圖3 規(guī)則推理步驟
在勘探開發(fā)數(shù)據(jù)質(zhì)檢系統(tǒng)設(shè)計(jì)中,將專家的知識和經(jīng)驗(yàn)抽象為若干規(guī)則,構(gòu)建規(guī)則庫并進(jìn)行推理,推理流程如下:
Step1:檢查字段的錄入,操作人員將需要檢查的字段輸入到專家系統(tǒng)中,由專家系統(tǒng)進(jìn)行檢查。
Step2:檢查字段的識別,將檢查字段與知識庫中規(guī)則表進(jìn)行匹配,如果匹配成功,則將檢查字段替換為規(guī)則編號,再進(jìn)行下一步推理,如果匹配不成功,說明知識庫中缺少該字段的知識,此時(shí)提醒用戶輸入新的字段重新進(jìn)行檢查,或者對規(guī)則庫進(jìn)行擴(kuò)充。
Step3:進(jìn)行推理,使用規(guī)則的編號查找匹配的知識,使用知識來進(jìn)行推理,最后輸出檢查結(jié)果。
推理機(jī)設(shè)計(jì)實(shí)現(xiàn)的過程不僅要考慮推理方法,還應(yīng)該選擇正確的推理控制策略,推理控制策略有前推式、回溯式[15]及雙向式3種。推理控制策略會影響求解的效率和準(zhǔn)確性,其包括推理方向、沖突消解策略等。
3.3.1 推理方向
推理機(jī)作為問題求解的主要手段,其推理方向?qū)ζ淝蠼膺^程有很大影響,選擇合適的推理方向能大大提高推理效率。常用的推理方向包括正向推理、反向推理、正反向混合推理,正向推理是由原始數(shù)據(jù)出發(fā),按照一定策略,運(yùn)用知識庫中專家的知識,推斷出結(jié)論的方法。這種推理方式由于是由數(shù)據(jù)到結(jié)論,由于勘探開發(fā)數(shù)據(jù)庫質(zhì)檢的過程即知識推理的過程,因此該文采用正向推理的推理方向。
3.3.2 沖突消解策略
沖突消解策略可實(shí)現(xiàn)從知識庫的多條可用知識中合理地選擇一條知識。在數(shù)學(xué)問題的求解過程中,沖突消解策略常采用深度優(yōu)先或廣度優(yōu)先策略,其基本思想是先啟用某一條知識,如果知識在執(zhí)行過程中失效,再回溯其他知識。在專家系統(tǒng)求解問題環(huán)境中,這種策略的效率較低[13]。在專家系統(tǒng)中,一般采用簡單直觀的沖突消解策略,或添加啟發(fā)信息來組合使用這些簡單的沖突消解策略。簡單沖突消解策略是將多條知識按優(yōu)先級排序。常用的排序策略有專一性排序、知識庫組織次序排序、據(jù)排序、就近排序、分塊組織等。其中知識庫組織次序排序是按照知識在知識庫中的順序得出優(yōu)先級的次序,符合異常數(shù)據(jù)檢測的順序性,因此該文采用知識庫組織次序排序的沖突消解策略,在知識庫中為各條知識進(jìn)行優(yōu)先級排序。
實(shí)驗(yàn)數(shù)據(jù)選擇中西部高臺子的現(xiàn)場工作人員提供的數(shù)據(jù)作為實(shí)驗(yàn)和測試數(shù)據(jù),包括:小層信息、油井井史、連通關(guān)系、井基礎(chǔ)信息等數(shù)據(jù),對孔隙度、滲透率,有效厚度、砂巖厚度等靜態(tài)數(shù)據(jù),以及產(chǎn)液量等動(dòng)態(tài)數(shù)據(jù)進(jìn)行質(zhì)量檢查。
4.2.1 專家系統(tǒng)檢測異常數(shù)據(jù)實(shí)驗(yàn)
選取1 000條小層信息數(shù)據(jù)和井基礎(chǔ)信息數(shù)據(jù)對孔隙度、滲透率、有效厚度、砂巖厚度、產(chǎn)液量進(jìn)行檢查。檢查結(jié)果如表4所示,其中檢查目標(biāo)為異常檢測的字段,實(shí)驗(yàn)結(jié)果為系統(tǒng)檢查出的異常數(shù)據(jù)的條數(shù),真實(shí)結(jié)果為實(shí)際異常數(shù)據(jù)的條數(shù),正確數(shù)量為實(shí)驗(yàn)結(jié)果中檢查正確的數(shù)量,閾值為檢查標(biāo)準(zhǔn),準(zhǔn)確率為當(dāng)前模型判斷的準(zhǔn)確率,其計(jì)算公式為:
準(zhǔn)確率=判斷正確的數(shù)量/數(shù)據(jù)量
(2)
其中判斷正確的數(shù)量為:數(shù)據(jù)異常并且被判斷為異常的數(shù)量與數(shù)據(jù)正確且被判斷為正確的數(shù)量的總和,即下文中所提的TP和TN的和。
表4 異常檢測結(jié)果
4.2.2 閾值調(diào)整實(shí)驗(yàn)
(1)依據(jù)不同閾值下的多個(gè)混淆矩陣畫出的ROC曲線如圖4所示,其中橫軸為負(fù)正類率(false positive rate,F(xiàn)PR),縱軸為真正類率(true positive rate,TPR),其中TPR=TP/(TP+FN);FPR=FP/(FP+TN)。TP(true positive,TP)表示真正類即數(shù)據(jù)是異常并且被判斷為異常;FN(false negative,F(xiàn)N)表示假負(fù)類即數(shù)據(jù)為異常但是被判斷為正確;FP(false positive,F(xiàn)P)表示假正類數(shù)據(jù)非異常,但是被判斷為異常;TN(true negative,TN)表示真負(fù)類即數(shù)據(jù)為正確數(shù)據(jù)且被判斷為正確數(shù)據(jù)。根據(jù)ROC曲線獲取TPR、FPR的最大差值即約登指數(shù),取當(dāng)前TPR、FPR的坐標(biāo),進(jìn)而找到最優(yōu)閾值??紫督?jīng)、滲透率、砂巖厚度、產(chǎn)液量以及有效厚度的ROC曲線如圖4所示,根據(jù)曲線得出的最優(yōu)閾值如表5中的閾值所示。
圖4 ROC曲線
(2)將調(diào)整后的閾值更新到知識庫后重新對數(shù)據(jù)進(jìn)行檢查,得到的結(jié)果如表5所示,通過表4和表5準(zhǔn)確率對比可知:閾值調(diào)整后的準(zhǔn)確率相比閾值調(diào)整前有所提高,為提高異常數(shù)據(jù)檢查的正確率可進(jìn)行多次閾值調(diào)整。
表5 閾值調(diào)整結(jié)果
該文將專家系統(tǒng)應(yīng)用于勘探開發(fā)數(shù)據(jù)庫質(zhì)量檢查中,通過建立知識庫、推理機(jī)來進(jìn)行異常數(shù)據(jù)的檢查,同時(shí)使用閾值調(diào)整方法更新知識庫進(jìn)而提高質(zhì)檢準(zhǔn)確率。通過真實(shí)數(shù)據(jù)驗(yàn)證其質(zhì)檢結(jié)果,證實(shí)提出的質(zhì)檢方法具有較高的準(zhǔn)確率,且通過閾值調(diào)整可以提高質(zhì)檢準(zhǔn)確率。因此,對勘探開發(fā)數(shù)據(jù)智能質(zhì)量檢查方法的研究具有一定的理論意義和應(yīng)用價(jià)值。