趙 越,程偉華,趙 申,吳小虎
(1.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京 210000; 2.江蘇電力信息技術(shù)有限公司,江蘇 南京 210000)
電能在人們生活與社會(huì)生產(chǎn)中發(fā)揮重要作用,因此保證電網(wǎng)安全運(yùn)行極為關(guān)鍵[1]。電網(wǎng)規(guī)模迅速擴(kuò)大,使電力資源數(shù)量呈現(xiàn)出爆炸式增長(zhǎng)趨勢(shì),加大了數(shù)據(jù)分析與管理的難度。傳統(tǒng)數(shù)據(jù)挖掘方法不能滿足電網(wǎng)資源獲取需求,一些電力工作者已經(jīng)體會(huì)到從海量資源中獲得想要的信息尤為困難。此外,電網(wǎng)資源在一定范圍內(nèi)很難實(shí)現(xiàn)信息共享。這會(huì)使區(qū)域電網(wǎng)變得孤立,工作人員不能準(zhǔn)確得到相關(guān)運(yùn)行數(shù)據(jù),容易發(fā)出錯(cuò)誤指令,造成電力事故。因此,電力資源挖掘決定了電網(wǎng)能否健康運(yùn)行,電力工作者也越來(lái)越需要一種能夠快速獲取電網(wǎng)資源的方法[2-4]。
但是隨著電網(wǎng)系統(tǒng)復(fù)雜性的提高,傳統(tǒng)的電網(wǎng)資源挖掘推薦方法逐漸顯現(xiàn)出響應(yīng)時(shí)間長(zhǎng),推薦不精準(zhǔn)的弊端。由于網(wǎng)絡(luò)拓?fù)湓陔娋W(wǎng)的運(yùn)行分析中起到關(guān)鍵作用,一些網(wǎng)絡(luò)資源的挖掘推薦,都是在電網(wǎng)拓?fù)溆?jì)算結(jié)果基礎(chǔ)上實(shí)現(xiàn)的[5]。為此,本文構(gòu)建一種基于網(wǎng)絡(luò)拓?fù)涞碾娋W(wǎng)資源挖掘推薦模型。此種方法實(shí)質(zhì)是將網(wǎng)絡(luò)拓?fù)洚?dāng)作知識(shí)描述方式,將海量電網(wǎng)資源和它們之間存在的聯(lián)系變成網(wǎng)絡(luò)拓?fù)湫问剑⒔Y(jié)合爬蟲(chóng)技術(shù),設(shè)定通信協(xié)議棧,構(gòu)建智能挖掘推薦模型。
電網(wǎng)系統(tǒng)具有監(jiān)測(cè)電器設(shè)備、負(fù)荷能效管控與運(yùn)行優(yōu)化等功能。主要由網(wǎng)關(guān)、處理器與大數(shù)據(jù)服務(wù)器構(gòu)成。電網(wǎng)系統(tǒng)架構(gòu)如圖1所示。
圖1 電網(wǎng)系統(tǒng)示意Fig.1 Schematic diagram of power grid system
智能測(cè)試終端是電網(wǎng)系統(tǒng)中數(shù)量最多的信息采集設(shè)備,可對(duì)電流、電壓等信息進(jìn)行采集,并將這些數(shù)據(jù)保存到資源庫(kù)[6-8]。現(xiàn)階段,大部分終端均使用基于事件驅(qū)動(dòng)的通信機(jī)制,可大大縮短信息采集與傳輸時(shí)間。
數(shù)據(jù)庫(kù)可以為電網(wǎng)運(yùn)行分析與決策提供數(shù)據(jù)基礎(chǔ),主要工作就是電網(wǎng)數(shù)據(jù)的在線收集,并通過(guò)專業(yè)管理系統(tǒng)實(shí)現(xiàn)資源整合。電網(wǎng)數(shù)據(jù)庫(kù)主要包括自上向下、自下向上與混合形式3種設(shè)計(jì)模式。其中自上向下與混合形式均缺乏一定靈活性,達(dá)不到最優(yōu)設(shè)計(jì),因此多數(shù)情況下使用自下向上模式[9-11]。
通過(guò)電力綜合查詢系統(tǒng)明確信息源,對(duì)數(shù)據(jù)源做綜合提煉,構(gòu)建資源庫(kù),通過(guò)不斷擴(kuò)充,逐漸完善資源庫(kù)[12-13]。還需結(jié)合既定主題實(shí)現(xiàn)數(shù)據(jù)源集成,電力資源庫(kù)的層次結(jié)構(gòu)如圖2所示。
圖2 電力資源庫(kù)層次結(jié)構(gòu)Fig.2 Hierarchical structure diagram of power resource library
如圖2所示,電網(wǎng)資源庫(kù)中主要包括電器負(fù)載數(shù)據(jù)、時(shí)間與天氣數(shù)據(jù)以及一些常用的基礎(chǔ)數(shù)據(jù)。這些信息必須通過(guò)處理才能保存到資源庫(kù)中,且需通過(guò)集成器不斷更新[14]。集成器主要負(fù)責(zé)捕捉電力數(shù)據(jù)并做綜合轉(zhuǎn)換處理,保證數(shù)據(jù)的格式正確,形成有價(jià)值的資源,供用戶使用。
電力系統(tǒng)的網(wǎng)絡(luò)拓?fù)淇赏ㄟ^(guò)有向圖G=(V,E(s))來(lái)描述,V為節(jié)點(diǎn)集合,E為有向邊,s能夠體現(xiàn)出邊的狀態(tài),包括連通與斷開(kāi)2種。
本文通過(guò)鄰接矩陣方法來(lái)表示有向圖。針對(duì)任意一邊(u,v),設(shè)置A[u][v]=true。在電網(wǎng)拓?fù)渲校ǔS?描述節(jié)點(diǎn)斷開(kāi),1表示連通[15-16]。
利用二維矩陣能夠清晰地表現(xiàn)出2個(gè)節(jié)點(diǎn)之間的狀態(tài),其中黑色實(shí)心圓點(diǎn)是開(kāi)關(guān)分位,白色空心圓點(diǎn)是開(kāi)關(guān)合位。例如拓?fù)浣Y(jié)構(gòu)中存在N′個(gè)節(jié)點(diǎn),此時(shí)可通過(guò)N′維矩陣表示節(jié)點(diǎn)斷通情況,如圖3所示。圖3中,共有9個(gè)節(jié)點(diǎn)與8條支路,通過(guò)下述鄰接矩陣來(lái)描述相鄰節(jié)點(diǎn)存在的關(guān)系:從矩陣中可以看出網(wǎng)絡(luò)拓?fù)渲须S機(jī)兩節(jié)點(diǎn)之間存在的連接關(guān)系,減少推薦過(guò)程中的資源傳輸時(shí)間。
圖3 節(jié)點(diǎn)連接線示意Fig.3 Schematic diagram of node connection line
(1)
資源標(biāo)準(zhǔn)化處理是為了減少冗余數(shù)據(jù)對(duì)挖掘推薦結(jié)果的影響,通過(guò)數(shù)據(jù)清洗與調(diào)節(jié)操作,使資源更加符合推薦需求[17]。
冗余數(shù)據(jù)包含噪聲數(shù)據(jù)與離群值等,聚類方法可以在海量含噪數(shù)據(jù)中獲取正常數(shù)據(jù),同時(shí)對(duì)自身異常的信息也非常敏感。但是異常信息會(huì)導(dǎo)致錯(cuò)誤分類,因此在聚類之前需要對(duì)所有資源進(jìn)行歸一化處理[18]。
(1)資源歸一化處理。電網(wǎng)資源的歸一化處理就是將傳感器采集的資源和輸出資源變換在[0,1]范圍內(nèi),變換公式如下:
(2)
式中,xmax與xmin分別為資源集合中負(fù)荷信息的極大值與極小值,是真實(shí)負(fù)荷信息,是經(jīng)過(guò)歸一化的數(shù)據(jù)。歸一化處理過(guò)程如圖4所示。
圖4 歸一化處理過(guò)程Fig.4 Normalization process diagram
(2)k—均值聚類。聚類就是將具有相似特征的數(shù)據(jù)根據(jù)已知的距離測(cè)度將其匯聚成“簇”的過(guò)程。也就是將整體的數(shù)據(jù)庫(kù)分割為多個(gè)簇,保證每個(gè)簇中的資源均具有相似性,但又和其他簇不相似。要想保證較好的聚類結(jié)果,必須最大限度地調(diào)整聚類中心之間的距離[19-20]。
k—均值聚類是一種常用的簡(jiǎn)便聚類方式,將歐式距離當(dāng)作測(cè)度,計(jì)算公式:
(3)
通常利用下述均方差當(dāng)作基準(zhǔn)測(cè)度函數(shù),計(jì)算公式如下:
(4)
式中,c為類,k為需要聚類的數(shù)目,nj為第j個(gè)樣本具有的樣本數(shù)量,mj為樣本平均值,也是該數(shù)據(jù)集合中心:
(5)
k—均值方法的整體流程可描述為:從n個(gè)資源目標(biāo)中選取k個(gè)目標(biāo)當(dāng)作原始聚類中心,針對(duì)資源庫(kù)中其余信息,獲得這些信息到聚類中心的歐式距離,并將它們放入最近的類中;重新獲取全部新的聚類中心,經(jīng)多次迭代處理,直至測(cè)度函數(shù)符合要求再停止。
由上述過(guò)程可以得出,聚類參數(shù)k是需要人工設(shè)置的,針對(duì)復(fù)雜資源集合的聚類處理,該值的選取較為困難。因此必須結(jié)合初始聚類中心確定該值,同時(shí)對(duì)初始分割進(jìn)行優(yōu)化處理,確保獲得精準(zhǔn)的聚類結(jié)果。
通過(guò)上述數(shù)據(jù)預(yù)處理過(guò)程,確保電網(wǎng)資源庫(kù)中的信息符合挖掘推薦需求,再通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)經(jīng)過(guò)權(quán)限匹配、聚類譜排序以及資源傳輸?shù)冗^(guò)程完成挖掘推薦模型的構(gòu)建。
(1)挖掘權(quán)限匹配。電網(wǎng)資源的挖掘權(quán)限匹配主要包括最優(yōu)解獲取和相似度計(jì)算2個(gè)步驟。在確保資源校驗(yàn)和推薦信息價(jià)值最大化條件下,假設(shè)全部待挖掘的信息都處于較為封閉的集合內(nèi),同時(shí)此集合內(nèi)全部元素因子均具有匹配權(quán)限。如果表示待挖掘資源的平均參量值,則通過(guò)f′可設(shè)定權(quán)限匹配的閾值為:
(6)
式中,p′為資源參數(shù)總量;w′為因子系數(shù);e′為權(quán)限匹配的相關(guān)條件;t′為一個(gè)常量因子;u′描述平均挖掘標(biāo)準(zhǔn);max說(shuō)明挖掘權(quán)限的最大化形式。
通過(guò)下述公式可計(jì)算出最大挖掘權(quán)限的最優(yōu)解:
χ=i1/2(Qa-Qb)
(7)
式中,Qa與Qb分別為電網(wǎng)資源庫(kù)的最大與最小容量。在確保全局最優(yōu)解成立前提下,假設(shè)r′和y′分別為描述相似度的最大與最小分時(shí)值,d′為探索周期,g′為挖掘探索量,則電網(wǎng)資源挖掘的最大權(quán)限相似度計(jì)算公式為:
(8)
(2)聚類譜排序。挖掘權(quán)限的良好匹配為爬蟲(chóng)聚類譜的資源層次結(jié)構(gòu)布置奠定基礎(chǔ),設(shè)置合理的抓取規(guī)則對(duì)全部聚類譜做排序處理,確保挖掘推薦的資源可以順利傳輸?shù)接脩舳?。符合抓取?guī)則的聚類譜需根據(jù)排序規(guī)則排列,首層為信息層,第2層則是物理層,最后一層為應(yīng)用層。
其中信息層是爬蟲(chóng)聚類譜和通信協(xié)議棧連接的關(guān)鍵單元,可以對(duì)物理層傳輸挖掘推薦的電網(wǎng)資源。而應(yīng)用層屬于末端環(huán)節(jié),能夠促進(jìn)資源快速傳輸。
(3)推薦數(shù)據(jù)傳輸。設(shè)置數(shù)據(jù)傳輸模式是資源推薦的重要步驟,理想情況下的電網(wǎng)資源系統(tǒng)分為處理層、傳輸層與指令層。處理層是爬蟲(chóng)協(xié)議的重要存在單元,其中全部待挖掘的資源都形成點(diǎn)狀排列,但在爬蟲(chóng)協(xié)議控制下,這些資源能夠快速構(gòu)成集合,便于傳輸層的調(diào)用。
指令層能接收推薦的電網(wǎng)資源,經(jīng)過(guò)對(duì)數(shù)據(jù)的組合方式的調(diào)節(jié),使挖掘推薦效果達(dá)到最佳。結(jié)合上述2個(gè)步驟,即可完成電網(wǎng)資源挖掘推薦模型的順利應(yīng)用。基于網(wǎng)絡(luò)拓?fù)涞碾娋W(wǎng)資源挖掘推薦模型如圖5所示。
圖5 基于網(wǎng)絡(luò)拓?fù)涞碾娋W(wǎng)資源挖掘推薦模型Fig.5 Grid resource mining recommendation modelbased on network topology
為了驗(yàn)證本文構(gòu)建的基于網(wǎng)絡(luò)拓?fù)涞碾娋W(wǎng)資源挖掘推薦模型在實(shí)際應(yīng)用中的有效性,進(jìn)行一次仿真實(shí)驗(yàn)分析。通過(guò)電力實(shí)驗(yàn)室獲取電網(wǎng)資源數(shù)據(jù),如圖6所示。
圖6 電力實(shí)驗(yàn)室獲取數(shù)據(jù)現(xiàn)場(chǎng)Fig.6 Field data obtained by power laboratory
通過(guò)測(cè)試現(xiàn)場(chǎng)設(shè)置實(shí)驗(yàn)參數(shù):實(shí)驗(yàn)時(shí)間為70 min;數(shù)字化電網(wǎng)運(yùn)行參量為0.94;電網(wǎng)資源挖掘參量為0.86;預(yù)設(shè)單位時(shí)間為15 min;未占用資源上限為8.27×1010T;單位時(shí)間內(nèi)電網(wǎng)資源挖掘極限為7.3×109T。
電網(wǎng)資源挖掘推薦算法的性能主要體現(xiàn)在響應(yīng)時(shí)間與推薦精度兩方面。由于電力用戶通常為工作人員,當(dāng)緊急故障出現(xiàn)時(shí),等待時(shí)間有限,因此推薦速度必須要快。此外,用戶一般想要得到更加專業(yè)的信息,所以推薦結(jié)果中盡量不顯示其他信息。
本文使用了聚類算法對(duì)海量電網(wǎng)資源進(jìn)行預(yù)處理,仿真實(shí)驗(yàn)中選取一個(gè)隨機(jī)數(shù)據(jù)集,該集合是以點(diǎn)(-2,-2)和(2,2)為中心生成的,初始數(shù)據(jù)分布情況如圖7所示。通過(guò)實(shí)驗(yàn)對(duì)本文方法的數(shù)據(jù)預(yù)處理效果進(jìn)行測(cè)試,測(cè)試結(jié)果如圖8所示。
圖7 初始數(shù)據(jù)分布Fig.7 Initial data distribution
圖8 本文方法聚類結(jié)果Fig.8 Clustering results of method in this paper
由圖8能夠看出,所提聚類方法可以將相同類型的數(shù)據(jù)精準(zhǔn)的聚集在一起,本文通過(guò)此種數(shù)據(jù)預(yù)處理方式將電網(wǎng)資源進(jìn)行聚類處理,為資源挖掘推薦奠定良好基礎(chǔ)。
推薦延遲就是響應(yīng)時(shí)間,一個(gè)高效的推薦策略在用戶提交申請(qǐng)后表現(xiàn)出的響應(yīng)速度非常重要。選定一個(gè)電網(wǎng)資源集合作為延遲分析目標(biāo),同時(shí)以5 s/次的頻率向該集合內(nèi)添加500條新增信息,1 min后停止。記錄下推薦資源數(shù)量和延遲推薦數(shù)量,實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 延遲推薦數(shù)量Tab.1 Delay recommended quantity
由表2可知,隨著數(shù)據(jù)集合的不斷更新,本文方法推薦的信息數(shù)量也在穩(wěn)定增長(zhǎng),在新增信息數(shù)量到達(dá)2 500條時(shí)才會(huì)出現(xiàn)延遲推薦現(xiàn)象,并且延遲推薦量較小,實(shí)現(xiàn)了電網(wǎng)資源的實(shí)時(shí)挖掘推薦。這是因?yàn)榉椒ㄔ诿鞔_網(wǎng)絡(luò)拓?fù)淝闆r下,掌握各節(jié)點(diǎn)的連接狀況,減少資源傳輸時(shí)間,進(jìn)而提高響應(yīng)速度。
本文利用平均絕對(duì)誤差來(lái)衡量推薦結(jié)果是否滿足用戶需求,即推薦精準(zhǔn)性。該值越小,推薦效果越好。構(gòu)建一個(gè)預(yù)測(cè)的用戶評(píng)分集{p1,p2,…,pn},而真實(shí)評(píng)分集合為{q1,q2,…,qn},則平均絕對(duì)誤差表達(dá)式為:
(9)
在電網(wǎng)資源庫(kù)中選取2 000條數(shù)據(jù)為實(shí)驗(yàn)?zāi)繕?biāo),其中包括600個(gè)用戶與1 400條知識(shí)。從這些數(shù)據(jù)中隨機(jī)選取3/4當(dāng)作訓(xùn)練集,剩余數(shù)據(jù)作為測(cè)試集。本文方法的推薦平均絕對(duì)誤差結(jié)果如下,用戶數(shù)量分別為5,10,15,20,25,30,35時(shí),對(duì)應(yīng)的MAE分別為0.64,10.62,0.65,0.61,0.67,0.66,0.65。
可以看出,隨著用戶數(shù)量的不斷增加,本文方法的平均絕對(duì)誤差始終在0.6~0.7,沒(méi)有快速增加。由于本文方法使用的爬蟲(chóng)技術(shù)可以獲得電網(wǎng)資源挖掘推薦的全局最優(yōu)解,因此無(wú)論信息量增加多少,都不會(huì)對(duì)挖掘精度產(chǎn)生影響。
信息技術(shù)的發(fā)展使電網(wǎng)系統(tǒng)進(jìn)入大數(shù)據(jù)時(shí)代,用戶面對(duì)著從海量資源中挖掘出有用信息的困境。為提高挖掘精度,減少等待時(shí)間,提出基于網(wǎng)絡(luò)拓?fù)涞馁Y源挖掘推薦模型研究。在建立網(wǎng)絡(luò)拓?fù)淝疤嵯?,促進(jìn)推薦資源快速傳輸,并通過(guò)爬蟲(chóng)技術(shù),獲得最大挖掘權(quán)限,確定全局最優(yōu)解,實(shí)現(xiàn)挖掘推薦模型構(gòu)建。經(jīng)過(guò)對(duì)比實(shí)驗(yàn),證明了該算法的優(yōu)越性。但是該方法在延遲推薦量上還有進(jìn)步空間,在后續(xù)研究中,可進(jìn)一步提高響應(yīng)速度,確保電力工作者迅速做出決策。