張德君 魏偉 張聞晨 何小東 朱智華 鄭光慧 劉明艷 楊航
關鍵詞:壓裂;深度學習;數(shù)據(jù)降噪;音頻特征提?。还こ瘫O(jiān)控
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2024)03-0036-03
1 基礎理論
1.1 曲線圖形的降噪處理
知識在處理壓裂參數(shù)數(shù)據(jù)曲線時,有時會遇到一些異常的數(shù)據(jù),這些數(shù)據(jù)無價值且會影響正常算法,因此需要進行降噪處理。Savitzky-Golay濾波器最初由Savitzky和Golay于1964年提出[1]。其廣泛地運用于數(shù)據(jù)流平滑除噪,是一種在時域內(nèi)基于局域多項式最小,二乘法擬合的濾波方法。這種濾波器最大的特點在于濾除噪聲的同時可以確保信號的形狀、寬度不變,它對信號的操作是在時域內(nèi)對window_length內(nèi)的數(shù)據(jù)進行多項式擬合。而從頻域上看,這種擬合實際就是通過低頻數(shù)據(jù)而濾掉了高頻數(shù)據(jù)[2]。這種濾波其實是一種移動窗口的加權平均算法,但是其加權系數(shù)不是簡單的常數(shù)窗口,而是通過在滑動窗口內(nèi)對給定高階多項式的最小二乘擬合得出。信號的最小二乘平滑的基本思想可以通過圖1來說明。
1.2 曲線圖形相似度判斷
在實際施工過程中,因為有各種各樣的因素會影響現(xiàn)場施工情況,使得參數(shù)曲線并不一定和壓裂設計一致。所以在判斷壓裂施工工況時,只從一些參數(shù)指標去判斷,往往無法達到預期效果。因此,本文引入圖形識別的方法,根據(jù)真實施工曲線和設計施工曲線的相似情況判斷。如果曲線整體趨勢是偏向標準模型,就認定是當前工況。
DTW (Dynamic time warping) 算法是可以度量兩個獨立時間序列的相似度的一種方法,曾被廣泛應用在單詞音頻的匹配上,該方法主要用來解決在兩段序列時長不同的情況下進行相似度的判斷[3]。
圖2中,左側(cè)時長相等,可以逐一進行歐式距離的計算.右側(cè)則時長不等,經(jīng)過DTW之后得到的結(jié)果,可以看出來兩個序列并不一一對應。
如圖3,要得到序列1與序列2的相似度,可以看出,兩個序列有經(jīng)過平移的跡象,直接用一一匹配的方法顯然不合理。要得到圖3的對應效果,就需要用DTW方法。
計算后的值放到DP矩陣中,為了更加直觀地理解,對這兩個序列繪圖如圖4。
2 案例與分析
2.1 模擬平臺搭建
為方便進行數(shù)據(jù)分析并將分析結(jié)果直觀展示,本文搭建了分析平臺。具體使用的技術選型如下,前端采用VUE架構(gòu),并使用VUEX、vue-rounter等VUE技術框架,自底向上增量開發(fā)的設計,讓數(shù)據(jù)響應時間更短。后端采用時下最流行的Spring cloud框架,無縫銜接新疆油田云平臺。不僅如此,在數(shù)據(jù)處理方面,對靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)分類型處理,分別利用click?house 數(shù)據(jù)庫對時序數(shù)據(jù)支持的能力和Oracle數(shù)據(jù)庫穩(wěn)定性分別儲存動態(tài)傳輸數(shù)據(jù)和靜態(tài)結(jié)果數(shù)據(jù),為智能算法賦能。同時在數(shù)據(jù)讀取時,將數(shù)據(jù)進行預處理,將參數(shù)異常項過濾掉,減少運算壓力,增加算法準確度。建設相關的系統(tǒng)架構(gòu)如圖5。
平臺模擬了橋塞,暫堵和連續(xù)油管三種不同的工藝施工情況,針對不同的施工工藝分別整理了兩口不同的施工井,確保訓練素材的普適性。
2.2 模擬平臺搭建
自行建立數(shù)據(jù)發(fā)送程序,將秒點數(shù)據(jù)從Excel表格中發(fā)送到數(shù)據(jù)庫中,再從數(shù)據(jù)庫中提取數(shù)據(jù)。
預處理數(shù)據(jù)時采用了Savitzky-Golay 濾波器,對數(shù)據(jù)進行濾波處理,減少異常數(shù)據(jù)入庫。
在對數(shù)據(jù)庫設計時,設計數(shù)據(jù)庫模型來存儲用戶、數(shù)據(jù)集、訓練任務和模型等相關信息。使用JPA(Java Persistence API) 或其他ORM(對象關系映射)工具來簡化數(shù)據(jù)庫操作。結(jié)合壓裂數(shù)據(jù)的數(shù)據(jù)特性,我們選擇Oracle和Tdengine數(shù)據(jù)庫,充分利用Oracle數(shù)據(jù)庫和Tdengine數(shù)據(jù)庫的技術特點,提高訓練平臺的穩(wěn)定性和速度性。
規(guī)范API接口,設計和實現(xiàn)RESTful API接口,用于管理數(shù)據(jù)集、創(chuàng)建和管理訓練任務、獲取訓練進度和結(jié)果等,可以使用Spring MVC來構(gòu)建API接口。
神經(jīng)網(wǎng)絡訓練邏輯,根據(jù)壓裂工程方面特性選擇的神經(jīng)網(wǎng)絡類型和訓練算法,實現(xiàn)相應的訓練邏輯。
結(jié)果展示和模型部署,設計和實現(xiàn)結(jié)果展示頁面,以展示訓練任務的進度和結(jié)果。在訓練完成后,提供模型保存和部署的功能,同時也使用Web技術,跨平臺實現(xiàn)不同操作系統(tǒng)的界面展示,讓用戶直觀看到訓練成果,同時也可讓用戶可以使用訓練得到的模型進行預測和推斷。
2.3 模型訓練
CNN由紐約大學的Yann LeCun于1998年提出。CNN本質(zhì)上是一個多層感知機,其成功的原因在于它所采用的局部連接和共享權值的方式。
由于各種施工工藝決定了施工參數(shù)的走向,而且工藝類型數(shù)量較少,只需稍加訓練模型,就能提高工藝的識別準確度,進而標注出對應的施工階段。收集帶有工況標簽的數(shù)據(jù)集。壓裂施工數(shù)據(jù)集應包含施工數(shù)據(jù)和對應的標簽,確保數(shù)據(jù)集的標簽與施工數(shù)據(jù)對應。對壓裂施工數(shù)據(jù)進行預處理。這可能包括壓裂施工數(shù)據(jù)的采樣率調(diào)整、時域和頻域的特征提取、值域數(shù)據(jù)增強、干擾信號去除等,預處理有助于提高模型的訓練效果和魯棒性。根據(jù)前期選定好的模型方向進行訓練,確定輸入數(shù)據(jù)的維度和特征。對于圖像數(shù)據(jù),通常是二維的圖像矩陣,對于壓裂施工數(shù)據(jù),可以使用短時傅里葉變換(STFT) 將壓裂施工數(shù)據(jù)圖像轉(zhuǎn)換為時頻圖,引入卷積操作來提取圖像或音頻數(shù)據(jù)的局部特征[4]。通過設置不同的卷積核數(shù)量和大小,可以捕捉到不同層次的特征,可以使用多個卷積層進行層級特征提取。在卷積層之后,引入非線性激活函數(shù),如ReLU(Recti?fied Linear Unit) ,用于增加模型的非線性表達能力。通過池化操作(如最大池化或平均池化)減少特征圖的維度,同時保留重要的特征。池化操作有助于減少模型的參數(shù)數(shù)量和計算復雜度。引入批歸一化操作可以提高模型的穩(wěn)定性和訓練速度。該層用于對每個批次的數(shù)據(jù)進行標準化處理,有助于加速模型的收斂和改善模型的泛化性能。通過全連接層將卷積層的輸出映射到最終的輸出類別,全連接層通常包括多個神經(jīng)元,可以進行特征的組合和分類。
使用CNN模型提取壓裂數(shù)據(jù)的特征表示。將音頻數(shù)據(jù)輸入CNN模型中,獲取卷積層輸出的特征圖。對于壓裂施工數(shù)據(jù),可以使用短時傅里葉變換(Short-Time Fourier Transform,STFT) 等技術將壓裂施工轉(zhuǎn)換為時頻表示,作為輸入特征使用帶有標簽的壓裂施工數(shù)據(jù)集對CNN模型進行訓練,將提取的音頻特征和對應的標簽輸入模型中,計算預測結(jié)果,并通過反向傳播算法更新模型的權重[5]。使用驗證集評估訓練好的模型的性能。計算模型對音頻樣本的預測準確率、分類精度或其他指標,可以使用混淆矩陣、準確率、召回率等評估模型在不同類別上的表現(xiàn)。
改進的CNN模型采用五層網(wǎng)絡結(jié)構(gòu),選取Relu 為激活函數(shù),添加dropout層,利用交叉熵來定義損失,在經(jīng)過多次調(diào)整參數(shù)后,選定學習率為0.000 1,drop?out率為0.15時效果較好。訓練次數(shù)為2 000次時的loss值變化如圖6所示,在經(jīng)過約300次的訓練loss值已經(jīng)降低到很小。
2.4 模標注結(jié)果
使用模型訓練的算法去判斷施工階段,已經(jīng)可以非常準確地判斷施工類型,即使在非常大的數(shù)據(jù)干擾下也依然可以準確判斷。以JLHW2001井17-8壓裂段為例,施工階段的6個類型均能準確判斷,并識別出對應的標注名稱,如圖7所示。
在壓裂施工數(shù)據(jù)同CNN進行結(jié)合時,使用了多種結(jié)合方式、多種特征的提取方式,最終認為使用和音頻數(shù)據(jù)識別的信號特征提取方式一致,使用了短時傅里葉變換技術,音頻信號和壓裂施工數(shù)據(jù)有著一些相似的地方,從而完成對CNN模型的訓練,達到實現(xiàn)壓裂施工數(shù)據(jù)的工況識別。
3 結(jié)束語
智能算法處理數(shù)據(jù)是大數(shù)據(jù)背景下必不可少的工具,使用CNN模型訓練后的深度學習算法在處理模糊不清的數(shù)據(jù)時更加精準。大數(shù)據(jù)提供了更多樣化、更全面的數(shù)據(jù)資源。傳統(tǒng)研究可能只能依賴有限的數(shù)據(jù)樣本,而大數(shù)據(jù)能夠涵蓋更廣泛的領域、更多的觀測和測量結(jié)果,使研究人員能夠獲得更全面的數(shù)據(jù),從而更好地理解和解釋現(xiàn)象。通過大數(shù)據(jù)處理技術,可以處理大規(guī)模數(shù)據(jù)集,并應用更復雜的算法和模型進行分析。這有助于發(fā)現(xiàn)更深入的模式、趨勢和關聯(lián)關系,從而提高研究的準確性和可靠性,幫助研究人員發(fā)現(xiàn)新的洞見。通過分析大規(guī)模數(shù)據(jù)集,可以發(fā)現(xiàn)意想不到的關聯(lián)、非線性關系和新穎的模式,從而推動研究的前沿。傳統(tǒng)的研究方法可能需要花費大量時間和資源來處理有限的數(shù)據(jù)集,而大數(shù)據(jù)技術可以更快地處理大規(guī)模數(shù)據(jù),并實時或幾乎實時地提供分析結(jié)果,從而加快研究進展。總之,批量的數(shù)據(jù)在智能算法的幫助下變得更加清晰透明,也為研究員提供了幫助,從而提高工作效率和生產(chǎn)效率。
【通聯(lián)編輯:代影】