洪德華,張翠翠,徐敏,孫佳麗
(國(guó)網(wǎng)安徽省電力有限公司信息通信分公司,合肥230041)
信息系統(tǒng)和數(shù)據(jù),是大數(shù)據(jù)建設(shè)的基礎(chǔ)[1-2]。國(guó)家電網(wǎng)公司高度重視信息化工作,始終將信息化作為公司核心戰(zhàn)略[3-4]。經(jīng)過過年的信息化建設(shè),信息化取得顯著成效,建成全球規(guī)模最大的電力通信網(wǎng)和一體化集團(tuán)級(jí)信息系統(tǒng),覆蓋各級(jí)單位、各項(xiàng)業(yè)務(wù)和各類人員,在能源互聯(lián)網(wǎng)公司建設(shè)中發(fā)揮了重要作用,多年來位居央企和國(guó)內(nèi)各行業(yè)信息化水平前列[5-6]。當(dāng)前,電力信息化已經(jīng)進(jìn)入“深水區(qū)”和“無人區(qū)”,各專業(yè)、各單位精益化管理、創(chuàng)新發(fā)展和數(shù)據(jù)價(jià)值挖掘需求呈“井噴”趨勢(shì),需要進(jìn)一步加強(qiáng)業(yè)務(wù)數(shù)據(jù)治理,促進(jìn)數(shù)據(jù)共享,發(fā)揮信息化價(jià)值[7-8]。
目前電力企業(yè)已經(jīng)全面開展數(shù)據(jù)綜合治理工作,圍繞數(shù)據(jù)梳理、數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)應(yīng)用四條主線開展數(shù)據(jù)綜合治理工作,并取得了一定成效。隨著信息化建設(shè)和應(yīng)用不斷深入,用戶對(duì)數(shù)據(jù)的需求持續(xù)增長(zhǎng),用戶范圍從數(shù)據(jù)部門擴(kuò)展到全業(yè)務(wù)全場(chǎng)景,數(shù)據(jù)治理不能再只是面向數(shù)據(jù)部門,需要成為面向全場(chǎng)景用戶的工作環(huán)境,從給用戶提供服務(wù)的角度,管理好數(shù)據(jù)的同時(shí)為用戶提供自助獲得大數(shù)據(jù)的能力,幫助企業(yè)完成數(shù)字化轉(zhuǎn)型。
數(shù)據(jù)基礎(chǔ)較為薄弱,電網(wǎng)積累了海量的數(shù)據(jù),為電力大數(shù)據(jù)應(yīng)用工作奠定了基礎(chǔ)。但電力信息化主要從各專業(yè)角度出發(fā)開展建設(shè),信息系統(tǒng)中的數(shù)據(jù)內(nèi)容、頻度僅考慮了各專業(yè)當(dāng)前自身業(yè)務(wù)需求,未考慮后期分析應(yīng)用和跨業(yè)務(wù)領(lǐng)域的需求,存在系統(tǒng)間數(shù)據(jù)標(biāo)準(zhǔn)不一致,以及數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題,給大數(shù)據(jù)應(yīng)用帶來困難。
數(shù)據(jù)治理能力不足,以往數(shù)據(jù)治理人為干預(yù)比較多,未形成了一整套以用戶為中心的大數(shù)據(jù)治理能力,最終為用戶直接使用數(shù)據(jù)提供了幫助,從而使數(shù)據(jù)治理完成了從以管控為中心到以業(yè)務(wù)為中心的轉(zhuǎn)變。
上述現(xiàn)象,是信息化發(fā)展到一定階段必然面臨的問題,信息化反映業(yè)務(wù),信息系統(tǒng)固化流程,信息化與企業(yè)管理相互促進(jìn),螺旋上升。國(guó)內(nèi)外領(lǐng)先企業(yè)的信息化成功實(shí)踐也經(jīng)歷了類似過程,符合信息化發(fā)展的客觀規(guī)律。
數(shù)據(jù)整理技術(shù)是數(shù)據(jù)治理工作中一項(xiàng)繁重的工作,本文提出了基于知識(shí)圖譜的數(shù)據(jù)資產(chǎn)庫(kù)與企業(yè)級(jí)數(shù)據(jù)庫(kù)訪問管理要求,重點(diǎn)給出了數(shù)據(jù)資產(chǎn)庫(kù)和知識(shí)庫(kù)的自動(dòng)補(bǔ)全算法。
數(shù)據(jù)資產(chǎn)梳理是構(gòu)建數(shù)據(jù)資產(chǎn)庫(kù)的基礎(chǔ),是保證數(shù)據(jù)安全使用和統(tǒng)一管理的重要手段,能夠?qū)崿F(xiàn)數(shù)據(jù)安全保護(hù)、敏感數(shù)據(jù)管理和合規(guī)性的需求。數(shù)據(jù)資產(chǎn)梳理涉及相關(guān)的關(guān)鍵流程、內(nèi)容和方法,具體數(shù)據(jù)資產(chǎn)梳理流程如圖1 所示。
圖1 數(shù)據(jù)資產(chǎn)梳理流程
數(shù)據(jù)資產(chǎn)定位是數(shù)據(jù)資產(chǎn)梳理的第一步,其目的是掌握目前企業(yè)已有數(shù)據(jù)庫(kù)和它們各自的組織方式,充分掃描發(fā)現(xiàn)數(shù)據(jù)庫(kù)后,由企業(yè)內(nèi)數(shù)據(jù)管理技術(shù)人員建立數(shù)據(jù)資產(chǎn)的底單,以便為后續(xù)的數(shù)據(jù)資產(chǎn)標(biāo)識(shí)和建立清單提供數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)資產(chǎn)標(biāo)識(shí)是在數(shù)據(jù)資產(chǎn)定位和建立數(shù)據(jù)資產(chǎn)底單后,像整理企業(yè)實(shí)體資產(chǎn)一樣獲取數(shù)據(jù)資產(chǎn)的擁有者和訪問權(quán)限情況,使數(shù)據(jù)資產(chǎn)形成統(tǒng)一的數(shù)據(jù)資產(chǎn)標(biāo)識(shí),便于后續(xù)的數(shù)據(jù)管理和數(shù)據(jù)治理。因此數(shù)據(jù)資產(chǎn)標(biāo)識(shí)的主要內(nèi)容是定位數(shù)據(jù)資產(chǎn)的擁有者,同時(shí)獲得數(shù)據(jù)的訪問權(quán)限。
數(shù)據(jù)資產(chǎn)標(biāo)識(shí)只是獲得了單個(gè)數(shù)據(jù)資產(chǎn)的信息,但是還需要形成體系,因此下一個(gè)難點(diǎn)就是要對(duì)數(shù)據(jù)類型進(jìn)行標(biāo)識(shí),掃描數(shù)據(jù)資產(chǎn)的具體內(nèi)容,對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行分類,按照統(tǒng)一標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)類型的標(biāo)識(shí)。
在掃描獲取數(shù)據(jù)資產(chǎn)標(biāo)識(shí)和數(shù)據(jù)類型的標(biāo)識(shí)后,首先確認(rèn)前兩個(gè)步驟形成的數(shù)據(jù)類型和數(shù)據(jù)資產(chǎn)標(biāo)識(shí),并對(duì)整個(gè)電網(wǎng)企業(yè)進(jìn)行數(shù)據(jù)資產(chǎn)統(tǒng)一梳理,形成數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)資產(chǎn)清單。
由于數(shù)據(jù)資產(chǎn)也在不斷的增長(zhǎng),所以數(shù)據(jù)資產(chǎn)梳理不是一勞永逸的,而要對(duì)已梳理的數(shù)據(jù)資產(chǎn)進(jìn)行持續(xù)監(jiān)控,并設(shè)定定期數(shù)據(jù)資產(chǎn)梳理的機(jī)制,對(duì)新增的數(shù)據(jù)資產(chǎn)進(jìn)行新的梳理,對(duì)整個(gè)企業(yè)的數(shù)據(jù)資產(chǎn)形成持續(xù)的監(jiān)控。
根據(jù)電網(wǎng)企業(yè)數(shù)據(jù)資產(chǎn)庫(kù)的需求分析,采用雙向建模的設(shè)計(jì)思路。一方面,從現(xiàn)有系統(tǒng)的數(shù)據(jù)出發(fā),梳理國(guó)網(wǎng)數(shù)據(jù)平臺(tái)所接入的數(shù)據(jù)實(shí)體,以及數(shù)據(jù)實(shí)體之間的關(guān)系,對(duì)其進(jìn)行抽象、提煉,分析數(shù)據(jù)實(shí)體所屬的數(shù)據(jù)主題域并進(jìn)行歸并,分析主題域之間關(guān)系,形成非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)模型。另一方面,從業(yè)務(wù)需求出發(fā),基于SG-CIM 統(tǒng)一信息模型和現(xiàn)有業(yè)務(wù)系統(tǒng),分析提煉和梳理各業(yè)務(wù)線條的非結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)需求,根據(jù)業(yè)務(wù)流程,提煉關(guān)鍵實(shí)體,分析實(shí)體所屬主題域及實(shí)體間的關(guān)系,以及非結(jié)構(gòu)化數(shù)據(jù)實(shí)體與結(jié)構(gòu)化數(shù)據(jù)實(shí)體之間的關(guān)聯(lián)關(guān)系,形成數(shù)據(jù)關(guān)聯(lián)模型。
數(shù)據(jù)資產(chǎn)庫(kù)屬于非結(jié)構(gòu)化關(guān)聯(lián)模型,其中主要描述的是非結(jié)構(gòu)化數(shù)據(jù)實(shí)體與結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。非結(jié)構(gòu)化模型與結(jié)構(gòu)化模型進(jìn)行關(guān)聯(lián),結(jié)構(gòu)化數(shù)據(jù)中心的表中添加非結(jié)構(gòu)化數(shù)據(jù)實(shí)體的編碼進(jìn)行關(guān)聯(lián)。申請(qǐng)?jiān)L問數(shù)據(jù)資產(chǎn)庫(kù)中的數(shù)據(jù)的過程分為四步,數(shù)據(jù)資產(chǎn)庫(kù)的訪問過程如圖2 所示。
圖2 數(shù)據(jù)資產(chǎn)庫(kù)的訪問過程
業(yè)務(wù)應(yīng)用調(diào)用數(shù)據(jù)資產(chǎn)庫(kù)管理平臺(tái)對(duì)外提供的服務(wù),向結(jié)構(gòu)化數(shù)據(jù)中心發(fā)送請(qǐng)求,查詢相關(guān)設(shè)備的基礎(chǔ)信息與非結(jié)構(gòu)化數(shù)據(jù)實(shí)體編碼。結(jié)構(gòu)化數(shù)據(jù)中心根據(jù)業(yè)務(wù)應(yīng)用提交的請(qǐng)求,將設(shè)備等基礎(chǔ)信息和非結(jié)構(gòu)化數(shù)據(jù)實(shí)體編碼返回給業(yè)務(wù)應(yīng)用。業(yè)務(wù)應(yīng)用根據(jù)結(jié)構(gòu)化數(shù)據(jù)中心提供的非結(jié)構(gòu)化數(shù)據(jù)實(shí)體編碼,向非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)發(fā)送請(qǐng)求,查詢相關(guān)文檔等信息。非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)根據(jù)業(yè)務(wù)應(yīng)用的請(qǐng)求,通過數(shù)據(jù)實(shí)體編碼來獲取目標(biāo)文檔,最終返回給業(yè)務(wù)應(yīng)用。
知識(shí)庫(kù)補(bǔ)全是知識(shí)庫(kù)自動(dòng)構(gòu)建的重要技術(shù),也是實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)庫(kù)各實(shí)體間關(guān)系分類和鏈接預(yù)測(cè)的重要手段。知識(shí)庫(kù)補(bǔ)全的作用是,在數(shù)據(jù)資產(chǎn)庫(kù)中引入新的數(shù)據(jù)實(shí)體時(shí),知識(shí)庫(kù)補(bǔ)全能夠通過已有的結(jié)構(gòu)化三元組和實(shí)體集與關(guān)系集,推理與此數(shù)據(jù)實(shí)體存在關(guān)系的已有實(shí)體。
對(duì)于知識(shí)圖譜G,假設(shè)G 中含有實(shí)體集E={e1,e2,…,eM}(M 為實(shí)體的數(shù)量)、關(guān)系集R={r1,r2,…,rN}(N為關(guān)系的數(shù)量)以及三元組集T={(ei,rk,ej)|ei、ej 屬于E,rk 屬于R}。由于知識(shí)圖譜G 中實(shí)體和關(guān)系的數(shù)量通常是有限的,因此,可能存在一些實(shí)體和關(guān)系不在G中。記不在知識(shí)圖譜G 中的實(shí)體集為E*={e1*,e2*,…,es*}(S 為實(shí)體的數(shù)量),關(guān)系集為R*={r1*,r2*,…,rT*}(T 為關(guān)系的數(shù)量)。根據(jù)三元組中具體的預(yù)測(cè)對(duì)象,知識(shí)圖譜補(bǔ)全可以分成3 個(gè)子任務(wù):頭實(shí)體預(yù)測(cè)、尾實(shí)體預(yù)測(cè)以及關(guān)系預(yù)測(cè)。對(duì)于頭(尾)實(shí)體預(yù)測(cè),需給定三元組的尾(頭)實(shí)體以及關(guān)系,然后預(yù)測(cè)可以組成正確三元組的實(shí)體。數(shù)據(jù)資產(chǎn)庫(kù)補(bǔ)全算法流程圖如圖3所示。
圖3 數(shù)據(jù)資產(chǎn)庫(kù)補(bǔ)全算法流程圖
知識(shí)庫(kù)補(bǔ)全步驟:對(duì)于缺失的尾實(shí)體,將語義空間中頭實(shí)體的向量表示與關(guān)系的向量表示相加,得到預(yù)測(cè)的尾實(shí)體向量表示,從實(shí)體列表中選擇與預(yù)測(cè)尾實(shí)體最接近的實(shí)體作為預(yù)測(cè)結(jié)果;對(duì)于兩個(gè)實(shí)體之間缺失的關(guān)系,以尾實(shí)體的嵌入向量減頭實(shí)體的嵌入向量,然后將結(jié)果與備選關(guān)系的嵌入向量做差,選擇與預(yù)測(cè)關(guān)系向量最相似的關(guān)系作為預(yù)測(cè)結(jié)果。
本文選取公開通用的設(shè)備時(shí)序數(shù)據(jù)集,即凱斯西儲(chǔ)大學(xué)(Case Western Reserve University)的軸承數(shù)據(jù)庫(kù)來進(jìn)行試驗(yàn)[9-10]。作為對(duì)比,統(tǒng)計(jì)正確實(shí)體在所有實(shí)體中的平均排名(Mean Rank)以及正確實(shí)體在所有實(shí)體中排名前十的數(shù)據(jù)所占百分比(Hit@10%)作為實(shí)體鏈接預(yù)測(cè)評(píng)價(jià)指標(biāo)。知識(shí)庫(kù)補(bǔ)全鏈接預(yù)測(cè)結(jié)果如表1所示。
表1 知識(shí)庫(kù)補(bǔ)全鏈接預(yù)測(cè)結(jié)果
為進(jìn)一步驗(yàn)證數(shù)據(jù)治理方法的可行性和有效性,選擇電網(wǎng)資產(chǎn)設(shè)備開展數(shù)據(jù)治理應(yīng)用,針對(duì)輸變電數(shù)據(jù)設(shè)備臺(tái)帳與圖形存在不一致情況,選擇合肥供電公司所轄范圍內(nèi)的輸變電設(shè)備,通過校驗(yàn)數(shù)據(jù)與模型對(duì)應(yīng)關(guān)系,核查系統(tǒng)垃圾數(shù)據(jù),進(jìn)行刪除或退役處理,臺(tái)帳與圖形對(duì)應(yīng)率由85%提升至98%,大幅提升輸變電數(shù)據(jù)質(zhì)量。生產(chǎn)管理系統(tǒng)與ERP 中設(shè)備帳卡物存在不一致情況,對(duì)主變壓器、斷路器、開關(guān)柜、組合電器及輸電線路五類設(shè)備展開治理,通過檢查錯(cuò)誤字段、維護(hù)校驗(yàn)規(guī)則,在大數(shù)據(jù)治理原型系統(tǒng)中實(shí)現(xiàn)帳卡物一致率100%。數(shù)據(jù)治理前后對(duì)比結(jié)果如表2 所示。
表2 數(shù)據(jù)治理前后結(jié)果對(duì)比結(jié)果
綜合來說,本文的數(shù)據(jù)資產(chǎn)庫(kù)補(bǔ)全算法相對(duì)其他傳統(tǒng)的算法在數(shù)據(jù)補(bǔ)全預(yù)測(cè)性方面指標(biāo)方面表現(xiàn)更好,數(shù)據(jù)補(bǔ)全方法可以為數(shù)據(jù)治理工作提供可以遵循的方法,改變傳統(tǒng)人工方式開展數(shù)據(jù)治理工作,進(jìn)一步提升數(shù)據(jù)治理的效率。除此之外,隨著數(shù)據(jù)的積累,數(shù)據(jù)補(bǔ)全算法模型的準(zhǔn)確率能夠進(jìn)一步提高。
為了解決當(dāng)前電力大數(shù)據(jù)治理難題,本文提出了大數(shù)據(jù)治理中的數(shù)據(jù)整理算法,給出了數(shù)據(jù)資產(chǎn)梳理方法流程,闡述了數(shù)據(jù)資產(chǎn)庫(kù)模型構(gòu)建過程,設(shè)計(jì)了基于知識(shí)圖譜的數(shù)據(jù)補(bǔ)全算法,通過實(shí)驗(yàn)驗(yàn)證了數(shù)據(jù)補(bǔ)全算法的可行性。