孟 亮
(新疆油田公司采氣一廠,新疆 克拉瑪依 834007)
新疆油田采氣一廠建設(shè)了廠級實時數(shù)據(jù)中心,實現(xiàn)了4 個作業(yè)區(qū)秒級采集物聯(lián)網(wǎng)數(shù)據(jù)的廠級統(tǒng)一管理,形成了一個每年TB 級別積累的數(shù)據(jù)資源池,是極為寶貴的數(shù)據(jù)資產(chǎn)。為充分發(fā)揮實時數(shù)據(jù)的分析價值,采氣一廠從生產(chǎn)管理角度出發(fā),在充分分析自身業(yè)務(wù)場景的前提下參考各行業(yè)數(shù)據(jù)分析挖掘技術(shù)[1-3],研究開發(fā)了一套涵蓋數(shù)據(jù)提取、數(shù)據(jù)計算、數(shù)據(jù)管理全過程的后臺服務(wù)體系,實現(xiàn)了生產(chǎn)管理數(shù)據(jù)在實時數(shù)據(jù)平臺的自動整合分析,為氣田大數(shù)據(jù)深化應(yīng)用探索了一條可行的道路[4-5]。
本次研究基于對接實時數(shù)據(jù)采集平臺的技術(shù)基礎(chǔ),通過任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)拉取和數(shù)據(jù)處理的流程建立和管理[6],按業(yè)務(wù)場景、計劃周期、算法類別等多種維度,實現(xiàn)了自動、及時、高效、穩(wěn)定的實時數(shù)據(jù)提取與整合,為報表展示和自動化數(shù)據(jù)存儲奠定了基礎(chǔ)[7]。
本次數(shù)據(jù)挖掘的目的是將現(xiàn)場實時高頻采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)計算、抽稀、過濾等處理,得到氣田生產(chǎn)運行管理中所需的生產(chǎn)過程特征數(shù)據(jù)和生產(chǎn)分析決策關(guān)鍵指標(biāo),為生產(chǎn)運行管理提供準(zhǔn)確的、唯一的、標(biāo)準(zhǔn)的、全面的數(shù)據(jù)服務(wù)[8]。其中,實時數(shù)據(jù)來源于天行實時數(shù)據(jù)平臺(DATimsien),數(shù)據(jù)挖掘過程是通過實時數(shù)據(jù)抽取、報表定制、自動任務(wù)3 個轉(zhuǎn)換引擎實現(xiàn),各引擎分工不同,引擎之間無縫銜接。
實時數(shù)據(jù)抽取引擎通過任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)拉取、數(shù)據(jù)處理等相關(guān)環(huán)節(jié)信息的配置,內(nèi)置與實時數(shù)據(jù)采集高效、穩(wěn)定的對接接口,實現(xiàn)定時從實時數(shù)據(jù)平臺中按照一定的業(yè)務(wù)規(guī)則獲取所需的生產(chǎn)實時監(jiān)測數(shù)據(jù),并進(jìn)行必要的數(shù)據(jù)整合,從而得到報表統(tǒng)計及數(shù)據(jù)深度挖掘所需的生產(chǎn)數(shù)據(jù),具體如圖1所示。
1.1.1 任務(wù)配置
基于自動化數(shù)據(jù)采集點表信息和自動化數(shù)據(jù)管理系統(tǒng)(Database Management System,DMS)數(shù)據(jù)庫庫表結(jié)構(gòu),建立表字段與采集單元、采集點映射關(guān)系,配置數(shù)據(jù)導(dǎo)入模板,實現(xiàn)從實時數(shù)據(jù)庫到DMS 數(shù)據(jù)庫的自動提取。數(shù)據(jù)導(dǎo)入的配置文件包括:①通過定義數(shù)據(jù)類型字段自動生成時間標(biāo)簽,做到不同采集數(shù)據(jù)點進(jìn)行數(shù)據(jù)處理后的時間對齊,為數(shù)據(jù)存儲及后續(xù)數(shù)據(jù)應(yīng)用調(diào)取提供規(guī)范的時間標(biāo)準(zhǔn);②通過定義專有的函數(shù)字段快速生成生產(chǎn)對象名,完成實時數(shù)據(jù)庫無對象化概念到生產(chǎn)數(shù)據(jù)庫有對象化概念的轉(zhuǎn)換,實現(xiàn)處理后的數(shù)據(jù)在生產(chǎn)數(shù)據(jù)庫中的對象化管理;③通過映射采集單元、采集點,可以獲取所需的實時數(shù)據(jù),保證實時數(shù)據(jù)庫到生產(chǎn)數(shù)據(jù)庫數(shù)據(jù)的無縫轉(zhuǎn)換;④通過定義不同函數(shù)字段,可以進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理,實現(xiàn)生產(chǎn)數(shù)據(jù)特征值、數(shù)據(jù)抽稀、數(shù)據(jù)過濾等任務(wù)的量化設(shè)置;⑤系統(tǒng)自動將這些字段及值拼成結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)并執(zhí)行,無需數(shù)據(jù)管理人員根據(jù)業(yè)務(wù)規(guī)則人工編寫SQL 語句,降低了對數(shù)據(jù)管理人員技術(shù)門檻要求的同時規(guī)避了人工編寫SQL 語句帶來的失誤風(fēng)險。
數(shù)據(jù)導(dǎo)入模板后,設(shè)定執(zhí)行計劃(周期、開始時間點),即可成功創(chuàng)建實時數(shù)據(jù)提取任務(wù)。
1.1.2 任務(wù)調(diào)度
在任務(wù)配置的基礎(chǔ)上,通過任務(wù)調(diào)度機(jī)制,采氣一廠可以實現(xiàn)任務(wù)的管理,包括按計劃執(zhí)行任務(wù)、手動執(zhí)行任務(wù),手動啟停任務(wù)以及歷年任務(wù)執(zhí)行日志、任務(wù)執(zhí)行狀態(tài)等。當(dāng)任務(wù)配置發(fā)生變化后,需要重新進(jìn)行任務(wù)的執(zhí)行部署,使最新配置更新到后臺服務(wù)中,任務(wù)規(guī)則才能生效。
1.1.3 數(shù)據(jù)拉取
根據(jù)目標(biāo)數(shù)據(jù)表及源采集單元建立業(yè)務(wù)關(guān)聯(lián)規(guī)則,將任務(wù)中的數(shù)據(jù)請求進(jìn)行自動拆分,按照系統(tǒng)資源剩余情況進(jìn)行自動分批獲取數(shù)據(jù),對失敗的任務(wù)支持重試機(jī)制,可以有效提高數(shù)據(jù)拉取的穩(wěn)定性、時效性、準(zhǔn)確性,確保為生產(chǎn)分析提供質(zhì)量良好的數(shù)據(jù)。
1.1.4 數(shù)據(jù)處理
通過數(shù)據(jù)拉取獲取到數(shù)據(jù)后,在數(shù)據(jù)入庫前可以利用數(shù)據(jù)處理規(guī)則進(jìn)行數(shù)據(jù)處理,包括無效數(shù)據(jù)的清洗、數(shù)據(jù)指標(biāo)的計算等,在處理規(guī)則中,其既內(nèi)置了四則運算、常規(guī)內(nèi)置函數(shù)等快速定義處理規(guī)則的方法,又支持通過自定義函數(shù)處理復(fù)雜運算邏輯,能夠滿足繁雜的數(shù)據(jù)不同特征值計算規(guī)則及行業(yè)專業(yè)算法的應(yīng)用需求。
運用報表定制引擎,可以在滿足當(dāng)前業(yè)務(wù)和管理需求多樣性的同時,兼顧潛在的需求變化,提升系統(tǒng)報表管理靈活性。隨著業(yè)務(wù)和管理上的調(diào)整,原有的固定報表格式、報表類型等可能需要進(jìn)行相應(yīng)改變,此時直接通過應(yīng)用報表定制引擎,或者完善引擎很小部分的內(nèi)容,就可以實現(xiàn)報表的優(yōu)化調(diào)整及新報表的定制開發(fā)。
收集到的業(yè)務(wù)報表包括崗位報表、工藝裝置報表、化驗報表、綜合管理報表等。分析報表模板及業(yè)務(wù)需求,技術(shù)人員專門開發(fā)了一套報表的定制開發(fā)機(jī)制,提供報表管理所需的各類功能屬性配置,在此基礎(chǔ)上,可以靈活定制開發(fā)各類個性化報表。
如圖2 所示,報表定制包括數(shù)據(jù)源綁定、報表樣式設(shè)計、操作交互設(shè)計、報表共享發(fā)布4 個主要環(huán)節(jié)。
數(shù)據(jù)源綁定:指定DMS 數(shù)據(jù)庫中的數(shù)據(jù)表作為數(shù)據(jù)源,支持單表數(shù)據(jù)源及跨表數(shù)據(jù)源,通過設(shè)定條件篩選數(shù)據(jù)范圍,指定要顯示的具體字段,并對字段進(jìn)行顯示名稱命名。
報表樣式設(shè)計:定制引擎支持的開發(fā)配置屬性包括篩選(時間、對象,支持多級對象間的級聯(lián)關(guān)系配置,支持檢索條件的自動模糊識別)、排序(指定排序列,可設(shè)置升序、降序)、樣式(包括日期格式、小數(shù)點位數(shù)控制等)、顯示/隱藏列、合并/拆分表頭、列凍結(jié)、修改列名、顯示位號行、計算函數(shù)、曲線等。
操作交互設(shè)計:支持?jǐn)?shù)據(jù)查詢、數(shù)據(jù)新增、數(shù)據(jù)修改、數(shù)據(jù)刪除、數(shù)據(jù)審核、數(shù)據(jù)下載、數(shù)據(jù)分頁、數(shù)據(jù)與曲線切換展示等。
報表共享發(fā)布:報表設(shè)計完成后,與系統(tǒng)功能菜單進(jìn)行關(guān)聯(lián)綁定,無須停止系統(tǒng)服務(wù),系統(tǒng)菜單中即可看到相關(guān)報表。
自動任務(wù)的目標(biāo)是實現(xiàn)數(shù)據(jù)整合過程的全閉環(huán)無人化干預(yù),提高數(shù)據(jù)整合的穩(wěn)定性、連續(xù)性、及時性,將技術(shù)人員的精力解放出來,從事更加重要的數(shù)據(jù)分析挖掘及生產(chǎn)管理工作。運用自動任務(wù)引擎,系統(tǒng)實現(xiàn)了多種類型的定時任務(wù),包括實時數(shù)據(jù)導(dǎo)入任務(wù)和計算任務(wù)。
1.3.1 實時數(shù)據(jù)導(dǎo)入任務(wù)
根據(jù)設(shè)定的執(zhí)行周期或時間點,自動任務(wù)引擎將根據(jù)所在服務(wù)器的時鐘進(jìn)行任務(wù)執(zhí)行時間的自動檢測與任務(wù)計劃的自動制定,自動執(zhí)行數(shù)據(jù)提取任務(wù)。當(dāng)前系統(tǒng)中各作業(yè)區(qū)下的崗位報表,根據(jù)管理需要每日8 點和20 點自動執(zhí)行獲取動態(tài)數(shù)據(jù)的任務(wù)。
1.3.2 計算任務(wù)
計算任務(wù)定位于實現(xiàn)由實時任務(wù)得到的動態(tài)數(shù)據(jù)到日報數(shù)據(jù)、生產(chǎn)運行指標(biāo)的定時提取與整合,該類任務(wù)一般按業(yè)務(wù)管理需要以天、周、月、年的頻次進(jìn)行數(shù)據(jù)的運算,為管理者提供特定的分析數(shù)據(jù)。目前,業(yè)務(wù)范圍內(nèi)涉及的計算任務(wù)有動態(tài)數(shù)據(jù)到日月報數(shù)據(jù)的提取、生產(chǎn)數(shù)據(jù)表內(nèi)部字段關(guān)聯(lián)計算、生產(chǎn)數(shù)據(jù)表跨表間數(shù)據(jù)關(guān)聯(lián)匯總展示等。
全廠共4 個作業(yè)區(qū),按照各作業(yè)區(qū)工藝流程的劃分,實現(xiàn)了氣井、集氣站、深冷、淺冷、電力等生產(chǎn)工藝數(shù)據(jù)的整合任務(wù)配置與實施,打通了實時數(shù)據(jù)到特征數(shù)據(jù)的轉(zhuǎn)換通道。
計算得到的特征值、生產(chǎn)運行指標(biāo)等數(shù)據(jù),是生產(chǎn)運行管理者評估現(xiàn)場運行動態(tài)的關(guān)鍵數(shù)據(jù)。當(dāng)前,采氣一廠第一次實現(xiàn)了跨網(wǎng)絡(luò)平臺下數(shù)據(jù)的自動提取整合,生產(chǎn)運行管理者在第一時間即可獲取到最新的運行動態(tài)指標(biāo),輔助分析決策更加有據(jù)可依。
通過數(shù)據(jù)的自動提取及手動維護(hù)機(jī)制,生產(chǎn)過程數(shù)據(jù)得到了集中存儲管理與共享,建立了完整的生產(chǎn)過程數(shù)據(jù)庫,數(shù)據(jù)在各業(yè)務(wù)崗位之間的流轉(zhuǎn)不再依賴于紙質(zhì)文件,數(shù)據(jù)標(biāo)準(zhǔn)化程度和流轉(zhuǎn)效率得到極大提升,真正實現(xiàn)了廠級生產(chǎn)數(shù)據(jù)的無紙化辦公。
通過數(shù)據(jù)集中管理模式的搭建,采氣一廠建立了唯一的生產(chǎn)數(shù)據(jù)分析來源,實現(xiàn)了生產(chǎn)數(shù)據(jù)指標(biāo)的標(biāo)準(zhǔn)化計算,初步完成了由實時數(shù)據(jù)到特征數(shù)據(jù)的提取與應(yīng)用,是后續(xù)各應(yīng)用系統(tǒng)進(jìn)行數(shù)據(jù)挖掘分析的重要數(shù)據(jù)來源。
(1)通過建立3 個數(shù)據(jù)服務(wù)引擎,采氣一廠可以將物聯(lián)網(wǎng)大數(shù)據(jù)轉(zhuǎn)換為生產(chǎn)管理需要的報表,在使用時只需要定義好源字段與計算方法,配置服務(wù)運行規(guī)則,即可實現(xiàn)廠級生產(chǎn)管理報表的自動化推送。通過應(yīng)用本文探討的技術(shù),采氣廠可以提高數(shù)據(jù)利用率,系統(tǒng)可以將各類自動化采集的數(shù)據(jù),按照統(tǒng)一標(biāo)準(zhǔn)、結(jié)構(gòu)、格式進(jìn)行集中管理,通過對數(shù)據(jù)進(jìn)行綜合對比、關(guān)聯(lián)分析等,可以及時發(fā)現(xiàn)生產(chǎn)規(guī)律和存在問題。技術(shù)人員和管理人員通過瀏覽器隨時查詢生產(chǎn)自動化系統(tǒng)的實時數(shù)據(jù)、相關(guān)生產(chǎn)報表等,從而提高氣田生產(chǎn)管理和決策水平。
(2)用戶可以通過3 個服務(wù)引擎及配套系統(tǒng)進(jìn)行數(shù)據(jù)及報表的可視化配置,降低數(shù)據(jù)挖掘的門檻,從而將業(yè)務(wù)需求與開發(fā)技術(shù)進(jìn)行進(jìn)一步融合,以適應(yīng)未來越來越豐富的應(yīng)用需求。通過數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)共享、數(shù)據(jù)分析等技術(shù),并定制開發(fā)一系列功能模塊,在工業(yè)大數(shù)據(jù)平臺上快速高效地完成工業(yè)操作制度的決策與工業(yè)大數(shù)據(jù)的計算。
(3)通過對氣田數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與應(yīng)用分析,采氣廠可以最大化挖掘數(shù)據(jù)潛在價值,形成數(shù)據(jù)模型,統(tǒng)一數(shù)據(jù)計算規(guī)則及數(shù)據(jù)分析來源,逐步實現(xiàn)氣田智能化分析,降低氣田數(shù)據(jù)管理投入成本,提高數(shù)字化管理水平。