孫希昀
(上??萍脊芾砀刹繉W(xué)院,上海 201800)
目前油田鉆井信息化還處在初始階段,主要是依靠現(xiàn)場數(shù)據(jù)的人工監(jiān)控和報警,依賴人工經(jīng)驗,缺乏基于數(shù)據(jù)規(guī)則的集中監(jiān)測和實時預(yù)警機(jī)制、缺乏大時間/空間跨度數(shù)據(jù)存儲、清洗和挖掘的架構(gòu)和方案,也缺乏有效的故障預(yù)警模型和相應(yīng)的經(jīng)驗學(xué)習(xí)機(jī)制,這是油田信息化發(fā)展中亟需解決的問題。本文旨在通過現(xiàn)代化大數(shù)據(jù)平臺、大數(shù)據(jù)挖掘模型以及生產(chǎn)經(jīng)驗充分融合等先進(jìn)技術(shù)手段來實現(xiàn)油田鉆井智能管控,為油田鉆井大數(shù)據(jù)化提供新的建設(shè)思路。
目前油田鉆井智能管控系統(tǒng)數(shù)據(jù)主要來源于在線監(jiān)測數(shù)據(jù)以及人工記錄的離線異常報告數(shù)據(jù)。建模的總體思路是,首先對系統(tǒng)數(shù)據(jù)進(jìn)行統(tǒng)一數(shù)據(jù)處理和清洗進(jìn)行預(yù)處理,必要時進(jìn)行數(shù)據(jù)轉(zhuǎn)化;其次,將清洗過的數(shù)據(jù)規(guī)范地存儲在大數(shù)據(jù)平臺上。在完成上述準(zhǔn)備工作的基礎(chǔ)上,開展油田大數(shù)據(jù)分析工作。建模的主要框架如下所示:
圖1 油田鉆井大數(shù)據(jù)挖掘分析建模
預(yù)測分析模型在運(yùn)行過程中主要使用四種數(shù)據(jù)源:實時動態(tài)傳入的錄井監(jiān)控數(shù)據(jù)、動態(tài)的歷史經(jīng)驗學(xué)習(xí)數(shù)據(jù)、靜態(tài)的存量原始?xì)v史數(shù)據(jù)以及靜態(tài)的規(guī)則數(shù)據(jù)。為兼顧實時性和海量數(shù)據(jù)批處理,相關(guān)組件將采用有別于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(RMDBS)的存儲和處理技術(shù)。本文采用HDFS作為分布式文件系統(tǒng)。HDFS是分布式計算中數(shù)據(jù)存儲的基礎(chǔ),它所具有的高容錯、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲,為超大數(shù)據(jù)采集的應(yīng)用處理帶來了很多便利。
為確保油田鉆井智能管控系統(tǒng)大數(shù)據(jù)分析工作的順利開展,將會對油田大數(shù)據(jù)進(jìn)行質(zhì)量分析及清洗工作。主要對油田鉆井過程的異常報告以及在線監(jiān)測數(shù)據(jù)等核心數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評估,做數(shù)據(jù)值的統(tǒng)計分布、數(shù)據(jù)格式分布、填充值值域以及分散度等數(shù)據(jù)特征信息作為數(shù)據(jù)剖析指標(biāo),發(fā)現(xiàn)數(shù)據(jù)特征、依賴關(guān)系并發(fā)掘潛在的數(shù)據(jù)問題(特別是數(shù)據(jù)規(guī)范性問題),形成油田鉆井大數(shù)據(jù)質(zhì)量問題診斷及評估報告。數(shù)據(jù)清洗(Data cleaning)是對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,刪除重復(fù)信息、糾正錯誤,實現(xiàn)數(shù)據(jù)一致性。
本次挖掘模型要解決的是通過事故報告和實時傳感器數(shù)據(jù)來實現(xiàn)事故的在線實時監(jiān)測,目標(biāo)是事故監(jiān)測的準(zhǔn)確性和時效性最大化。適用于此場景的挖掘模型有決策樹算法、隨機(jī)森林算法、樸素貝葉斯估計和支持向量機(jī)算法四個算法。每個算法模型各有優(yōu)勢,本文重點介紹樸素貝葉斯估計,樸素貝葉斯分類器(NBC)有著堅實的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類效率。NBC模型所需估計參數(shù)少,對缺失數(shù)據(jù)不敏感,算法比較簡單。樸素貝葉斯分類器基于假定:給定目標(biāo)值時屬性之間相互條件獨立。通過以上定理和 樸素 假定,我們知道:P(Category | Document)=P(Document | Category)* P(Category)/P(Document)。樸素貝葉斯估計的優(yōu)點之一是可以生成監(jiān)測出事故發(fā)生的概率,概率越大,說明油田鉆井發(fā)生的可能性越大。
交叉驗證法是常見的驗證分類器性能統(tǒng)計分析方法,基本思想是把原始數(shù)據(jù)(dataset)分組,一部分做訓(xùn)練集(train set),另一部分做驗證集(validation set)。從而幫助選擇表現(xiàn)效果最佳的模型,避免了模型的欠擬合或過擬合。常見的交叉驗證方式有簡單交叉驗證和k折交叉驗證。本文重點介紹K折交叉驗證,將原始數(shù)據(jù)分成K組(一般是均分)后,每個子集數(shù)據(jù)分別作為一次驗證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到K個驗證集生成的分類準(zhǔn)確率,用這K個分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo)。K一般大于等于2,實際操作時一般從3開始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時候才會嘗試取2。K-CV可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性。
交叉驗證只是模型進(jìn)行優(yōu)化的方式,最終還是需要一套完整的模型評價指標(biāo)來對模型作最終評價,從而客觀衡量模型的好壞。本文我們主要通過混淆矩陣、準(zhǔn)確率(accuracy)、精確率-召回率(precision-recall)、ROC曲線來綜合評價模型。
3.5.1 混淆矩陣
混淆矩陣是對分類結(jié)果進(jìn)行詳細(xì)描述,對于二分類預(yù)測模型,生成2*2的矩陣,對于n分類預(yù)測模型,生成n*n矩陣。假設(shè)在二分類情況下,第一行是真實類別為Positive 的記錄個數(shù),第二行則是真實類別為 Negative 的記錄個數(shù),第一列是預(yù)測值為 Positive的記錄個數(shù),第二列則是預(yù)測值為 Negative 的記錄個數(shù)。
表1 混淆矩陣
3.5.2 準(zhǔn)確率
進(jìn)一步,由混淆矩陣計算出準(zhǔn)確率評價指標(biāo):
準(zhǔn)確率(Accuracy)=分類正確的樣本個數(shù)/所有樣本個數(shù),即:
3.5.3 精確率-召回率
精確率與召回率多用于二分類問題。精確率指模型判為正的所有樣本中有多少是真正的正樣本;召回率指所有正樣本有多少被模型判為正樣本,即召回。此評價指標(biāo)適用于類別不均衡分布的情況,比如油田鉆井事故類型的數(shù)據(jù)一般是遠(yuǎn)遠(yuǎn)少于正常數(shù)據(jù)的。
精確率(Precision)=分類正確的正樣本個數(shù)/分類器所有的正樣本個數(shù),即:;
召回率(Recall=分類正確的正樣本個數(shù)/正樣本個數(shù),即:
3.5.4 ROC曲線
ROC曲線上每個點反映對同一信號刺激的感受性。ROC曲線下的面積為AUC值,介于0和1之間。AUC值作為數(shù)值可以直觀的評價分類器的好壞,值越大越好。在模型評價中,ROC足夠客觀,ROC曲線有很好的特性:當(dāng)測試集中的正負(fù)樣本的分布變換時,ROC曲線保持不變。在實際數(shù)據(jù)集中經(jīng)常會出現(xiàn)樣本類不平衡,ROC優(yōu)勢明顯。
本文通過對油田鉆井過程中產(chǎn)生的具有連續(xù)變化、能夠反映鉆井過程客觀規(guī)律的各類數(shù)據(jù)進(jìn)行有效清洗、實現(xiàn)缺失值和異常值的處理,并存儲在大數(shù)據(jù)平臺中,由搭建的大數(shù)據(jù)分析模型進(jìn)行挖掘建模,從而實現(xiàn)事故類型的分析預(yù)測,并對模型結(jié)果進(jìn)行驗證和不斷迭代調(diào)整優(yōu)化。實現(xiàn)了基于數(shù)據(jù)挖掘規(guī)律以及生產(chǎn)經(jīng)驗相結(jié)合的在線監(jiān)測和實時故障預(yù)警機(jī)制,能夠深入分析隱藏在故障數(shù)據(jù)信息內(nèi)部的特征和規(guī)律,最終實現(xiàn)鉆井過程數(shù)據(jù)到信息的轉(zhuǎn)變、信息到知識的轉(zhuǎn)變,知識到經(jīng)驗和智慧的轉(zhuǎn)變。