傅曉菲,陳 涵,陳 磊,翁斌新,嚴(yán) 安
(1.國(guó)網(wǎng)福建省電力有限公司福州供電公司數(shù)字化部,福州 350002;2.國(guó)網(wǎng)信通億力科技有限責(zé)任公司數(shù)據(jù)管理事業(yè)部,福州 350003)
近年來(lái),信息技術(shù)發(fā)展迅猛,應(yīng)用范圍不斷擴(kuò)大,致使每個(gè)行業(yè)的數(shù)據(jù)資源體量急劇增大。根據(jù)調(diào)查研究數(shù)據(jù)可知,2021 年中國(guó)產(chǎn)生數(shù)據(jù)資源總量約為6.6 ZB,位居全世界第二位,同比增長(zhǎng)率高達(dá)29.4%,并且數(shù)據(jù)資源增長(zhǎng)速率逐年遞增,“大數(shù)據(jù)時(shí)代”悄然來(lái)臨[1]。電力工業(yè)是社會(huì)基本能源支持體系中的關(guān)鍵構(gòu)成單元,在信息技術(shù)作用下也進(jìn)入大數(shù)據(jù)浪潮之中。伴隨著電力行業(yè)信息化水平的提升,再加之物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)等的普遍應(yīng)用,其數(shù)據(jù)資源總量也呈現(xiàn)著指數(shù)級(jí)別增長(zhǎng),并形成了一定的規(guī)模。電力行業(yè)具有一定的特殊性,其根據(jù)區(qū)域不同劃分為多級(jí)管理部門(mén),部門(mén)之間溝通會(huì)產(chǎn)生較多的調(diào)度業(yè)務(wù)數(shù)據(jù)資源,是電力行業(yè)管理的主要依據(jù)。
不可再生能源儲(chǔ)量的減少,用戶電力能源需求劇增,再加之工業(yè)生產(chǎn)效率的加快,工業(yè)用電需求也出現(xiàn)大幅度增加,為電力行業(yè)提出了較大的挑戰(zhàn),多級(jí)管理部門(mén)之間的調(diào)度業(yè)務(wù)數(shù)據(jù)資源隨之越來(lái)越多,為調(diào)度業(yè)務(wù)數(shù)據(jù)資源的處理、存儲(chǔ)、檢索等性能提出了更高的要求。多級(jí)調(diào)度數(shù)據(jù)資源檢索是電力行業(yè)管理過(guò)程中的關(guān)鍵環(huán)節(jié),如何在海量數(shù)據(jù)資源中尋找到需求的調(diào)度數(shù)據(jù)資源是現(xiàn)今電力行業(yè)管理領(lǐng)域亟待解決的問(wèn)題之一[2]。為了滿足電力行業(yè)的可持續(xù)發(fā)展需求,提出基于數(shù)據(jù)中臺(tái)的面向多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源檢索方法研究。
為了能夠清晰掌握多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源的實(shí)際架構(gòu),搭建電力行業(yè)數(shù)據(jù)中臺(tái),為后續(xù)數(shù)據(jù)資源的分類(lèi)處理奠定堅(jiān)實(shí)的基礎(chǔ)。
數(shù)據(jù)中臺(tái)本質(zhì)上是一種數(shù)據(jù)管理體系,核心能力為數(shù)據(jù)匯聚整合、數(shù)據(jù)提純加工、數(shù)據(jù)服務(wù)可視化與數(shù)據(jù)價(jià)值變現(xiàn),能夠?yàn)殡娏π袠I(yè)其他部門(mén)提供業(yè)務(wù)數(shù)據(jù)資源與計(jì)算服務(wù)。簡(jiǎn)單地說(shuō),數(shù)據(jù)中臺(tái)就是“數(shù)據(jù)倉(cāng)庫(kù)+數(shù)據(jù)服務(wù)+中間件”,每個(gè)構(gòu)成部分承擔(dān)不同的功能,具體如下:①數(shù)據(jù)倉(cāng)庫(kù):存儲(chǔ)結(jié)構(gòu)性數(shù)據(jù)、離線數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等;②數(shù)據(jù)服務(wù):數(shù)據(jù)研發(fā)、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)可視化等服務(wù);③中間件:結(jié)構(gòu)分為三層,分別為垂直數(shù)據(jù)層、公共數(shù)據(jù)層與萃取數(shù)據(jù)層。
相較于大數(shù)據(jù)平臺(tái)來(lái)看,數(shù)據(jù)中臺(tái)具備業(yè)務(wù)屬性,并能夠提供數(shù)據(jù)處理相關(guān)技術(shù),可以為數(shù)據(jù)資源檢索提供一定的便利?;诙嗉?jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源的實(shí)際情況,搭建電力行業(yè)數(shù)據(jù)中臺(tái),具體結(jié)構(gòu)如圖1所示。
圖1 電力行業(yè)數(shù)據(jù)中臺(tái)結(jié)構(gòu)示意圖
如圖1 所示,電力行業(yè)數(shù)據(jù)中臺(tái)結(jié)構(gòu)主要包含五部分,具體內(nèi)容如下:
(1)數(shù)據(jù)模型。搭建數(shù)據(jù)中臺(tái)能夠沉淀多種數(shù)據(jù)模型,其均具備較好的通用性,通過(guò)層次化對(duì)數(shù)據(jù)模型進(jìn)行相應(yīng)的管理,構(gòu)成數(shù)據(jù)模型倉(cāng)庫(kù),對(duì)數(shù)據(jù)資源進(jìn)行標(biāo)準(zhǔn)化存儲(chǔ)。
(2)數(shù)據(jù)服務(wù)。數(shù)據(jù)服務(wù)是數(shù)據(jù)中臺(tái)最根本的能力,其主要是根據(jù)調(diào)度業(yè)務(wù)實(shí)際情況,以服務(wù)導(dǎo)向?qū)诵膶?duì)數(shù)據(jù)進(jìn)行封裝處理,上述過(guò)程難度系數(shù)較大,其他中臺(tái)幾乎無(wú)法完成。數(shù)據(jù)封裝服務(wù)對(duì)象主要為開(kāi)發(fā)人員與業(yè)務(wù)分析人員。
(3)數(shù)據(jù)開(kāi)發(fā)。數(shù)據(jù)模型與數(shù)據(jù)服務(wù)是數(shù)據(jù)中臺(tái)的基礎(chǔ),其無(wú)法滿足前端個(gè)性化的需求,而數(shù)據(jù)開(kāi)發(fā)是前端與后臺(tái)之間的關(guān)鍵橋梁,主要?jiǎng)澐譃槿龑咏Y(jié)構(gòu),分別為標(biāo)簽庫(kù)構(gòu)建、數(shù)據(jù)開(kāi)發(fā)平臺(tái)架構(gòu)與環(huán)境/組件,通過(guò)層層遞進(jìn)、協(xié)作,共同為不同層次工作人員的需求提供數(shù)據(jù)深入挖掘、開(kāi)發(fā)等服務(wù)。
(4)數(shù)據(jù)治理。數(shù)據(jù)治理貫穿整個(gè)數(shù)據(jù)中臺(tái)結(jié)構(gòu),主要承擔(dān)著數(shù)據(jù)資源管理的任務(wù),其具備完整的制度、技術(shù)與管理行為等。常規(guī)情況下,多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源必須保障實(shí)時(shí)性與準(zhǔn)確性要求,故數(shù)據(jù)治理具有至關(guān)重要的作用。
(5)數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資產(chǎn)是電力行業(yè)的關(guān)鍵資源,反映著數(shù)據(jù)價(jià)值得到了行業(yè)的重視[3]。數(shù)據(jù)中臺(tái)可以打破“數(shù)據(jù)孤島”現(xiàn)象,使得各個(gè)數(shù)據(jù)模型之間能夠進(jìn)行數(shù)據(jù)共享,形成真正意義上的數(shù)據(jù)資產(chǎn)。
上述過(guò)程完成了電力行業(yè)數(shù)據(jù)中臺(tái)搭建任務(wù),為后續(xù)數(shù)據(jù)資源處理與檢索打下堅(jiān)實(shí)的基礎(chǔ)。
以上述搭建的電力行業(yè)數(shù)據(jù)中臺(tái)為基礎(chǔ),應(yīng)用其具備的數(shù)據(jù)資源預(yù)處理技術(shù)——深度學(xué)習(xí)模型,分類(lèi)處理多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源,為最終數(shù)據(jù)資源的檢索提供便利。
深度學(xué)習(xí)模型具有不斷迭代、靈活發(fā)展等特點(diǎn),非常適合調(diào)度業(yè)務(wù)數(shù)據(jù)資源的分類(lèi)處理[4]。若是直接對(duì)多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源進(jìn)行檢索,其體量極為龐大,數(shù)據(jù)資源類(lèi)別混雜,會(huì)浪費(fèi)較多的時(shí)間,并且檢索結(jié)果也不如人意。因此,此節(jié)應(yīng)用深度學(xué)習(xí)模型對(duì)數(shù)據(jù)資源類(lèi)別進(jìn)行劃分,只需根據(jù)需求數(shù)據(jù)資源類(lèi)別,在對(duì)應(yīng)類(lèi)別數(shù)據(jù)資源子集中檢索即可,可以大大降低檢索的時(shí)間,提升數(shù)據(jù)資源的檢索效率[5]。
基于深度學(xué)習(xí)模型的數(shù)據(jù)資源分類(lèi)步驟如下:
步驟1:提取數(shù)據(jù)資源特征
隨機(jī)選取兩個(gè)數(shù)據(jù)資源,記為Xi與Yi,設(shè)定其來(lái)自于不同數(shù)據(jù)資源區(qū)域,其對(duì)應(yīng)的跨區(qū)域轉(zhuǎn)換過(guò)程表達(dá)式為
式(1)中,εa,b(· ) 表示數(shù)據(jù)資源跨區(qū)域轉(zhuǎn)換函數(shù);a表示數(shù)據(jù)資源攜帶信息的權(quán)重系數(shù);b表示數(shù)據(jù)資源的偏置參量。
以式(1)輸出結(jié)果為基礎(chǔ),對(duì)數(shù)據(jù)資源Yi特征進(jìn)行提取,提取結(jié)果表示為
式(2)中,β表示數(shù)據(jù)資源特征參量;α表示數(shù)據(jù)資源之間的關(guān)聯(lián)強(qiáng)度;n表示數(shù)據(jù)資源總量。
步驟2:數(shù)據(jù)資源特征分析
以步驟1輸出結(jié)果——數(shù)據(jù)資源特征β為基礎(chǔ),計(jì)算數(shù)據(jù)資源之間關(guān)聯(lián)的損失數(shù)值,表達(dá)式為
式(3)中,?表示數(shù)據(jù)資源的關(guān)聯(lián)損失數(shù)值,將其作為數(shù)據(jù)資源分類(lèi)處理的約束條件,能夠最大限度地降低數(shù)據(jù)資源的丟失現(xiàn)象。
步驟3:以步驟2 計(jì)算結(jié)果δ?為依據(jù),制定數(shù)據(jù)資源類(lèi)別劃分規(guī)則,具體如下式所示:
式(4)中,δ°表示數(shù)據(jù)資源類(lèi)別劃分閾值,需根據(jù)實(shí)際數(shù)據(jù)資源情況進(jìn)行具體的設(shè)置。
依據(jù)上述步驟對(duì)全部數(shù)據(jù)資源進(jìn)行遍歷,直至所有數(shù)據(jù)資源均以劃分至類(lèi)別子集中為止,將最終結(jié)果記為R={r1,r2,…,rm},m代表數(shù)據(jù)資源類(lèi)別總數(shù)量,可以為后續(xù)研究提供一定的便捷作用。
索引設(shè)計(jì)是數(shù)據(jù)資源檢索性能提升的關(guān)鍵所在。以不同類(lèi)別數(shù)據(jù)資源特點(diǎn)為基礎(chǔ),結(jié)合層次化索引思想,構(gòu)建雙層索引結(jié)構(gòu),為數(shù)據(jù)資源檢索提供充分的依據(jù)。
數(shù)據(jù)資源雙層索引結(jié)構(gòu)如圖2所示。
圖2 數(shù)據(jù)資源雙層索引結(jié)構(gòu)示意圖
如圖2 所示,第一層數(shù)據(jù)資源索引結(jié)構(gòu)主要針對(duì)數(shù)據(jù)資源屬性構(gòu)建的,屬性?xún)?nèi)容均存儲(chǔ)在非葉子結(jié)點(diǎn)中。其中,Zi表示數(shù)據(jù)資源具體屬性,PType表示數(shù)據(jù)資源類(lèi)型,Pointer表示指向第二層索引結(jié)構(gòu)的指針。第二層數(shù)據(jù)資源索引結(jié)構(gòu)主要針對(duì)數(shù)據(jù)資源數(shù)值構(gòu)建的,數(shù)值信息存儲(chǔ)在B+樹(shù)非葉子結(jié)點(diǎn)中,并且葉子結(jié)點(diǎn)具有一定的順序。其中,ZiKj表示第i個(gè)屬性的第j個(gè)屬性值,Doc表示數(shù)據(jù)資源查詢(xún)的關(guān)鍵編號(hào),其是唯一的,F(xiàn)表示標(biāo)識(shí)碼,Loc表示數(shù)據(jù)資源屬性值所在位置信息。
上述過(guò)程完成了數(shù)據(jù)資源雙層索引的設(shè)計(jì)與深入分析,為后續(xù)數(shù)據(jù)資源檢索的實(shí)現(xiàn)做好充足的準(zhǔn)備工作。
以上述設(shè)計(jì)的數(shù)據(jù)資源雙層索引為依據(jù),應(yīng)用DTW 算法度量數(shù)據(jù)資源索引之間的相似性,當(dāng)相似性數(shù)值大于或者等于設(shè)定閾值時(shí),確定其為數(shù)據(jù)資源檢索目標(biāo),從而實(shí)現(xiàn)數(shù)據(jù)資源的精準(zhǔn)檢索,為多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源的應(yīng)用提供有效的幫助。
DTW 算法本質(zhì)是一種非線性技術(shù),有效地結(jié)合了時(shí)間規(guī)整與距離度量,能以最小代價(jià)匹配最接近的數(shù)據(jù)資源,即能夠在最短時(shí)間內(nèi)尋找到需求的數(shù)據(jù)資源[6]?;贒TW 算法衡量數(shù)據(jù)資源索引相似性,表達(dá)式為
式(5)中,?(?,μXi)表示需求數(shù)據(jù)資源索引信息?與數(shù)據(jù)資源索引μXi相似性數(shù)值;τ表示標(biāo)準(zhǔn)因子。
依據(jù)公式(5)計(jì)算結(jié)果,制定數(shù)據(jù)資源檢索目標(biāo)判定規(guī)則,具體如下:
(1)當(dāng)?(?,μXi)大于或者等于閾值?*時(shí),認(rèn)定數(shù)據(jù)資源Xi就是檢索目標(biāo);
(2)當(dāng)?(?,μXi)小于閾值?*時(shí),認(rèn)定數(shù)據(jù)資源Xi不是檢索目標(biāo)。
需要注意的是,閾值?*的具體取值還需要根據(jù)實(shí)際數(shù)據(jù)資源體量、結(jié)構(gòu)等信息進(jìn)行設(shè)置。
綜上所述,實(shí)現(xiàn)了面向多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源的檢索,為數(shù)據(jù)資源的尋找與應(yīng)用提供有效的幫助。
選取深度學(xué)習(xí)驅(qū)動(dòng)的跨模態(tài)數(shù)據(jù)檢索[7]與一種面向動(dòng)態(tài)地球磁層的數(shù)據(jù)組織模型和高效檢索[8]作為對(duì)比方法1 與2,設(shè)計(jì)數(shù)據(jù)資源檢索對(duì)比實(shí)驗(yàn),驗(yàn)證提出方法的應(yīng)用效果,具體實(shí)驗(yàn)過(guò)程如下。
準(zhǔn)備階段是實(shí)驗(yàn)順利進(jìn)行的關(guān)鍵環(huán)節(jié)。依據(jù)實(shí)驗(yàn)需求,準(zhǔn)備階段具體內(nèi)容為實(shí)驗(yàn)工況設(shè)置。為了提升最終實(shí)驗(yàn)結(jié)論的精確度,設(shè)置10種差異性較大的實(shí)驗(yàn)工況,具體如表1所示。
表1 實(shí)驗(yàn)工況設(shè)置
如表1 所示,設(shè)置的實(shí)驗(yàn)工況數(shù)據(jù)資源總量與數(shù)據(jù)資源類(lèi)別均不一致,每種實(shí)驗(yàn)工況均具有不同的實(shí)驗(yàn)環(huán)境,符合提出方法應(yīng)用性能測(cè)試需求。
依據(jù)上述實(shí)驗(yàn)準(zhǔn)備階段內(nèi)容,進(jìn)行數(shù)據(jù)資源檢索對(duì)比實(shí)驗(yàn)。選取數(shù)據(jù)資源檢索時(shí)間與檢索結(jié)果中正確數(shù)據(jù)資源占比概率作為評(píng)價(jià)指標(biāo),以此來(lái)直觀顯示提出方法的應(yīng)用效果。
通過(guò)實(shí)驗(yàn)獲得數(shù)據(jù)資源檢索時(shí)間如表2 所示。
表2 數(shù)據(jù)資源檢索時(shí)間
如表2 所示,相較于兩種對(duì)比方法來(lái)看,應(yīng)用提出方法獲得的數(shù)據(jù)資源檢索時(shí)間更短,最小值為0.98 s。
通過(guò)實(shí)驗(yàn)獲得檢索結(jié)果中正確數(shù)據(jù)資源占比概率如圖3所示。
圖3 檢索結(jié)果中正確數(shù)據(jù)資源占比概率
如圖3 所示,相較于兩種對(duì)比方法來(lái)看,應(yīng)用提出方法獲得的檢索結(jié)果中正確數(shù)據(jù)資源占比概率較大,最大值為98%。
上述實(shí)驗(yàn)結(jié)果顯示:與對(duì)比方法1與2相比較,應(yīng)用提出方法獲得的數(shù)據(jù)資源檢索時(shí)間更短,檢索結(jié)果中正確數(shù)據(jù)資源占比概率較大,充分證實(shí)了提出方法應(yīng)用效果更好。
電力行業(yè)信息化水平的不斷提升,再加之電力需求的急速增加,使得多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源體量隨之增大,對(duì)其處理、應(yīng)用性能提出了更高的挑戰(zhàn)與要求。現(xiàn)有檢索方法無(wú)法適應(yīng)如此大體量的數(shù)據(jù)資源環(huán)境,故提出基于數(shù)據(jù)中臺(tái)的面向多級(jí)調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源檢索方法研究。提出方法極大地縮短了數(shù)據(jù)資源檢索時(shí)間,提升了檢索結(jié)果中正確數(shù)據(jù)資源占比概率,為數(shù)據(jù)資源的檢索及其應(yīng)用提供更有效的方法支撐。