(大慶油田有限責任公司第一采油廠 信息中心,黑龍江 大慶 163000)
大數(shù)據(jù)分析技術(shù)作為新興的主流技術(shù)在越來越多的領(lǐng)域中逐步展現(xiàn)出其特有的技術(shù)魅力。目前,隨著低油價時代的來臨,各大石油公司實行降本增效,大數(shù)據(jù)的發(fā)展是很多石油公司的突破口,由于地質(zhì)條件復雜,微觀尺度的精細描述很難實現(xiàn),為了找到油氣井高產(chǎn)的主控因素,可以把油田的采油、油藏、作業(yè)的歷史數(shù)據(jù)作為油田開發(fā)領(lǐng)域大數(shù)據(jù)分析中的基礎數(shù)據(jù)庫,可以在這些浩瀚的數(shù)據(jù)海洋中運用現(xiàn)有基本成熟的數(shù)據(jù)挖掘方法進行規(guī)律分析、因次分析、關(guān)聯(lián)分析以及經(jīng)驗相關(guān)式的統(tǒng)計回歸,進而指導實際油田的生產(chǎn)實踐。
壓裂是油田開發(fā)過程中的重要增產(chǎn)措施,壓裂效果將會對油田開發(fā)效果的評價和開發(fā)方案的調(diào)整產(chǎn)生直接的影響。目前,老油田處于特高含水期,壓裂措施面臨著很多不利因素,主要有以下3 種:一是油田進入高含水開發(fā)階段后,壓裂井的層條件越來越差,措施挖潛的難度逐漸變大,壓裂增油效果變差;二是油田儲層相對致密,油水井間的連通性較差,油井的受效程度相對低;三是部分儲層裂縫不發(fā)育,壓裂后油井含水上升快,容易出現(xiàn)水淹。傳統(tǒng)的方法是基于統(tǒng)計和經(jīng)驗方法,根據(jù)上壓裂井的一些特性采用一些壓裂方法來提高油產(chǎn)量,但是根據(jù)經(jīng)驗判斷上壓裂井的方式,可能不會產(chǎn)生很大作用,需要繼續(xù)實施壓裂措施。
因此,以提高油井單井產(chǎn)量為目的,快速準確地進行優(yōu)化壓裂選井及壓裂選層就顯得愈發(fā)重要,本文運用大數(shù)據(jù)分析技術(shù)和人工智能算法,通過讀取油水井動靜態(tài)開發(fā)數(shù)據(jù),從不同層位、有效厚度、注水情況、采出程度等指標,對已經(jīng)上壓裂井進行壓裂井產(chǎn)量效果的影響因素分析,從而確定下一步選取井進行壓裂的原則,根據(jù)已有的壓裂井的數(shù)據(jù)進行訓練,構(gòu)建壓裂選井模型,來預測井的日增油產(chǎn)量情況,以此來判斷油井是否需要上壓裂,為油田油井提高產(chǎn)油量提供快速、有效的決策方法。
影響壓裂決策的因素較多,決策參數(shù)的規(guī)模較大,不能只依靠專家的經(jīng)驗和建議。需要根據(jù)因素的全面性、獨立性、泛化性進行科學的分析和篩選,綜合考慮油氣藏特性、地質(zhì)特征、物性參數(shù)、測試數(shù)據(jù)和動態(tài)生產(chǎn)數(shù)據(jù)等多方面的因素。這些因素不是相互獨立的,而是有聯(lián)系的,需選出對壓裂效果影響較大的因素。
影響壓裂效果的指標分為3 類:①地層靜態(tài)數(shù)據(jù),包括油層深度、厚度、層數(shù)、孔隙度、滲透率、含油飽和度等;②壓裂施工數(shù)據(jù),包括支撐劑用量、粒度、壓裂液用量、壓裂液名稱等壓裂工藝數(shù)據(jù);③動態(tài)生產(chǎn)數(shù)據(jù),包含壓裂前后6 個月的平均日產(chǎn)油量。
油田開發(fā)數(shù)據(jù)存在不完整性、不一致性及異常值等侵擾,質(zhì)量較低的數(shù)據(jù)將直接導致數(shù)據(jù)挖掘結(jié)果質(zhì)量下降,因此需要對原始數(shù)據(jù)進行處理。①數(shù)據(jù)清洗。將原有缺失的值進行補充填寫,平滑數(shù)據(jù)噪聲,刪除離群較遠的點,解決數(shù)據(jù)的不一致性問題。②數(shù)據(jù)集成。使用靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)、作業(yè)數(shù)據(jù)等多個數(shù)據(jù)庫進行集成。③數(shù)據(jù)歸約。用替代的、較小的數(shù)據(jù)表示形式替換元數(shù)據(jù),使得到信息內(nèi)容的損失最小化。④數(shù)據(jù)變換。如生成新的數(shù)據(jù)字段,利用壓裂井信息表中的壓裂日期和井號身份標識號(Identity document,ID)字段拼接,與油井月數(shù)據(jù)關(guān)聯(lián)匹配出壓裂日期前6 個月,壓裂后6 個月、12 個月、18 個月、24 個月的數(shù)據(jù)。
數(shù)據(jù)關(guān)聯(lián)的主要目的是實現(xiàn)不同數(shù)據(jù)庫之間的跨庫查詢及數(shù)據(jù)使用,將不同數(shù)據(jù)來源及不同數(shù)據(jù)庫中的數(shù)據(jù),通過共有的關(guān)聯(lián)字段或變量整合為一個統(tǒng)一的數(shù)據(jù)庫。將某采油廠2011-2018 年的全部壓裂井相關(guān)信息做數(shù)據(jù)關(guān)聯(lián),壓裂井的單井沉積單元儲層數(shù)據(jù)與油井月生產(chǎn)數(shù)據(jù)做關(guān)聯(lián),計算壓裂井前和壓裂后的日產(chǎn)油、日產(chǎn)水開發(fā)指標。同時,用同樣的計算方法計算壓裂井前和壓裂后的油井產(chǎn)液量和含水變化、油壓、套壓、流壓、靜壓變化以及動液面變化。
壓裂井選取分析可采用簡單參數(shù)的梯度提升決策樹算法構(gòu)建回歸模型。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來得出最終答案。GBDT 主要結(jié)合回歸樹和提升樹的思想,來做回歸預測,調(diào)整后也可以用于分類(設定閾值,大于閾值為正例,反之為負例),可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合。下文先介紹回歸樹和提升樹,然后詳細闡述梯度提升決策樹的算法步驟。
回歸樹是根據(jù)最小化平方誤差的準則,遞歸構(gòu)建二叉決策樹。假設x 與y 分別為輸入輸出變量,并且y 是連續(xù)變量,給定訓練數(shù)據(jù):
一個回歸樹將輸入空間(即特征空間)劃分為M 個單元{R1,R2,…,RM},回歸樹的每個葉子節(jié)點對應一個單元,其相應的有一個固定的輸出值cm。當輸入特征為x 時,回歸樹會將其判定到一個葉子節(jié)點,將這個葉子節(jié)點對應的輸出值cm作為回歸樹的輸出。這樣,回歸樹模型可以表示為:
其中,I(x ∈Rm)為指示函數(shù),當回歸樹判定x 屬于Rm時,其值為1,否則為0.
建立回歸樹的目標是針對數(shù)據(jù)集D 選擇合適的空間劃分方式(即決策樹的生產(chǎn)方式)和相應的輸出值,來最小化平方誤差:
提升樹模型實際是將多個決策樹進行簡單疊加,數(shù)學模型可表示為:
其中,T(x,Θm)表示決策樹,Θm表示決策樹的參數(shù);M 為樹的個數(shù)。
針對樣本D={(x1,y1),(x2,y2),…,(xN,yN)},提升樹模型的訓練:選擇決策樹的參數(shù)(Θ1,Θ2,…,ΘM) 以最小化損失函數(shù)∑L(yi,fM(xi)),即:
這里,損失函數(shù)用來反映“樣本標簽yi”與提升樹的輸出fM(xi)之間的差別,可以選擇平方誤差損失函數(shù)表示:
針對歷史壓裂井的日增油量數(shù)據(jù),采用回歸算法建立日增油量預測模型,從而預測壓裂后增油效果較好的井,將訓練好的模型應用于2019 年的待壓裂井預測,進行壓裂日增油量預測。想完成這一目標首先要將數(shù)據(jù)集分為訓練集和測試集,利用訓練集建立日增油量產(chǎn)量預測模型,將訓練好的模型用于測試集進行預測,并分析哪些因素對壓裂井有影響。若日增油量大于0,認為該井上了壓裂之后能提高產(chǎn)能;若小于等于0,認為該井在上了壓裂之后不會提高產(chǎn)能,有可能降低產(chǎn)能。
將歷史數(shù)據(jù)進行拆分,訓練數(shù)據(jù)和測試數(shù)據(jù)按照60%和40%的比例隨機拆分,通過評估檢驗回歸模型的準確性和可靠性。從訓練集的誤差表和誤差圖中可以看出,使用梯度提升決策樹對訓練集訓練的平均相對誤差為0.16,平均絕對誤差為1.39,誤差相對較少,說明模型效果較好。前1 月的含水量對該井的壓裂效果后產(chǎn)油量的影響最大,符合一般的認知,同時影響最大的變量有前6 月平均含水量、前1 個月的連通井日產(chǎn)油總和。
根據(jù)本文建立的壓裂選井模型,當面對未壓裂井時,可以使用建立的梯度提升決策樹回歸算法的規(guī)則進行選井,建立井的日增油量預測模型來進行壓裂井的選?。蛔x取并利用訓練好的回歸模型,預測井上壓裂后的產(chǎn)量情況;與“水驅(qū)井信息表”進行關(guān)聯(lián),對某區(qū)塊水驅(qū)井利用該模型進行預測。
①本文建立了一套基于大數(shù)據(jù)分析技術(shù)的壓裂選井設計方法,包括關(guān)聯(lián)動靜態(tài)開發(fā)數(shù)據(jù)進行影響因素分析、壓裂選井預測模型構(gòu)建方法的判斷。通過預測對比,該方法是可行的。②通過與人工判斷選取壓裂井的對比來看,利用大數(shù)據(jù)分析平臺基于人工智能算法快速構(gòu)建預測壓裂選井模型,能夠大大提高開發(fā)人員的工作效率。③未來油田開發(fā)過程中,“智能+油田”還需深度融合,只有油田開發(fā)專業(yè)人員深入應用大數(shù)據(jù)分析技術(shù),同時結(jié)合生產(chǎn)實際進行不斷探索,才能更好地為油田開發(fā)決策提供更加高效、準確、全面的參考依據(jù)。