楊凱利,張其靜,婁紅紅,張雪清,瞿強
(貴州電網(wǎng)有限責任公司六盤水供電局,貴州 六盤水 553000)
隨著智能電網(wǎng)時代的到來,電力系統(tǒng)正在朝著數(shù)字化、信息化的方向快速發(fā)展,電力系統(tǒng)運行數(shù)據(jù)也越來越快地產(chǎn)生與積累,如何基于用戶需求來高效地將海量數(shù)據(jù)中的有用信息提煉挖掘出來,如何精準地向用戶發(fā)送個性化的信息推薦,以便更好地提高電力系統(tǒng)的服務(wù)質(zhì)量,已經(jīng)成為當前電力系統(tǒng)亟待思考的問題[1-3]。推薦系統(tǒng)一直以來都是人工智能、數(shù)據(jù)挖掘、信息檢索等領(lǐng)域的“熱點”研究課題[4-7],電力系統(tǒng)也不例外。近年來國內(nèi)外先后出現(xiàn)了多種推薦算法,為電力大數(shù)據(jù)的個性化推薦打下堅實的基礎(chǔ),包括混合推薦算法、基于圖結(jié)構(gòu)的推薦算法、協(xié)同過濾推薦算法、基于內(nèi)容的推薦算法等等。協(xié)同過濾推薦由于具備較佳的共享性與普適性,且推薦精度較高而被電力系統(tǒng)大規(guī)模應(yīng)用[8]。
傳統(tǒng)協(xié)同過濾推薦算法通常都是對物品的相似性進行計算,以計算結(jié)果為基準來向用戶推薦,雖然推薦結(jié)果可對不同目標之間的相似性進行體現(xiàn),但并未考慮知識關(guān)聯(lián)度,而知識關(guān)聯(lián)度與目標相似性沒有直接聯(lián)系[9]?;趥鹘y(tǒng)協(xié)同過濾推薦算法來看,與目標相似的物品通常會取得較高的排名,而與目標相關(guān)聯(lián)、但并不相似的物品則較易被忽略[10],這樣一來,導(dǎo)致推薦結(jié)果的準確度較低。有鑒于此,本文設(shè)計了一種新型電力大數(shù)據(jù)協(xié)同過濾推薦算法,有機融合了協(xié)同過濾技術(shù)與關(guān)聯(lián)規(guī)則挖掘技術(shù),將目標之間的相似度與關(guān)聯(lián)度均納入到影響因素之中,推薦結(jié)果既存在著關(guān)聯(lián)性,又具備相似性。
傳統(tǒng)協(xié)同過濾推薦算法通常可分為Item CF與User CF兩大類[11-12],其中,User CF是基于用戶的協(xié)同過濾推薦算法,更新次數(shù)較多、更新周期較短;其側(cè)重點在于對聚類組與用戶和的相似性進行考慮,只要物品與用戶喜歡的類似物品相似,那么就會向用戶進行推薦,其推薦順序往往是按照評分高低來確定[13-15],例如,若用戶曾經(jīng)在網(wǎng)上商城購買或者搜索過洗衣機的網(wǎng)頁,那么網(wǎng)站就會在短時間內(nèi)自動向用戶發(fā)送大一堆與洗衣機相關(guān)的廣告和鏈接。
Item CF則是基于物品的協(xié)同過濾推薦算法,它往往需要長時間的在線計算才可獲得不同用戶之間的相似度關(guān)系,其計算復(fù)雜度并不會與用戶數(shù)量的多少直接相關(guān),故而可離線計算得出用戶相似度,準確性更易于用戶接受。再加上物品數(shù)量要遠小于用戶數(shù)量,且物品數(shù)據(jù)的穩(wěn)定性較強,故而其計算復(fù)雜度要遠低于User CF,再加上Item CF又能夠為推薦做出合理的解釋,具有很多優(yōu)勢,故而被市場所大規(guī)模應(yīng)用,但是也存在著較大的改進空間[16]。
基于用戶的協(xié)同過濾推薦算法User CF通常是以用戶所評分項目為基礎(chǔ)來對相似鄰居集進行搜尋,再將相似鄰居集中的項目推薦給用戶。其計算原理為:在對不同用戶之間的相似度進行計算時,往往會將用戶對全部評分項目的偏好來作為計算向量,待將K鄰居找出來之后,再基于用戶對物品的偏好程度,以及鄰居的相似度權(quán)重來開展預(yù)測。所形成的項目序列作為用戶推薦序列[17]。
協(xié)同過濾推薦算法User CF的主要優(yōu)點有三點:第一,基于用戶的協(xié)同過濾推薦算法User CF特別適用于較為完整的用戶評分矩陣,可獲得較高的推薦精度;第二,基于用戶的協(xié)同過濾推薦算法User CF不需要對項目本身進行深入分析,較好地適用于難以分析、結(jié)構(gòu)復(fù)雜的項目[18];第三,基于用戶的協(xié)同過濾推薦算法User CF可將目標用戶的潛在興趣偏好進行挖掘,所推薦的部分項目很有可能就會涵蓋用戶之前并未意識到的興趣偏好[19]。但是協(xié)同過濾推薦算法User CF也具有較為明顯的缺點:第一,其擴展性不太強,若用戶數(shù)量越來越多,那么User CF的計算量異常龐大,計算復(fù)雜度很高;第二,矩陣稀疏性問題較為嚴重,若存在著用戶-項目矩陣評分數(shù)據(jù)稀疏的情況,那么就會直接導(dǎo)致用戶相似度計算結(jié)果出現(xiàn)嚴重失真的情況,難以向目標用戶實現(xiàn)精準推薦;第三,在新用戶剛加入系統(tǒng)時,由于可用于評分的數(shù)據(jù)數(shù)量較少,甚至完全沒有評分數(shù)據(jù),那么就較易出現(xiàn)“冷啟動”現(xiàn)象,根本不能向目標用戶進行要推薦,就需要通過熱點推薦的方式來解決這一問題,但效果并不太好[20]。
基于物品的協(xié)同過濾推薦算法Item CF并不從用戶角度來考慮計算問題,而是從物品本身出發(fā)來進行考慮。換而言之,就是通過用戶對物品的偏好程度來搜索出相似物品,而后再基于用戶歷史偏好來有針對性地推薦相似物品。例如,基于用戶歷史偏好購買物品來看,偏好購買物品A的用戶也傾向于喜歡物品C,那么就可得出:物品C與物品A之間的相似程度較高,而某一用戶C喜歡物品A,那么就可自然而然地判斷出它也有可能會偏好購買物品C,那么就可向用戶C推薦其可能感興趣的物品?;谖锲返膮f(xié)同過濾推薦算法Item CF可離線計算得出用戶相似度,準確性更易于用戶接受,計算復(fù)雜度要遠低于User CF,再加上Item CF又能夠為推薦做出合理的解釋,具有很多優(yōu)勢,市場應(yīng)用效果較佳。但是基于物品的協(xié)同過濾推薦算法Item CF也存在著較多的避免,主要體現(xiàn)在:第一,Item CF算法并不會對不同用戶之間的差異進行考慮,但實際上不同的用戶往往會具有不同的特點及偏好,再加上使用者并不能予以確定,這樣一來,就會造成推薦精度不高的現(xiàn)象[21]。第二,在新物品剛加入系統(tǒng)時,由于可用于評分的數(shù)據(jù)數(shù)量較少,甚至完全沒有評分數(shù)據(jù),那么必然很容易在很長時間內(nèi)都難以向目標用戶進行推薦。
電網(wǎng)領(lǐng)域知識主要分為兩大類,分別是動態(tài)知識與靜態(tài)知識,其中,動態(tài)知識既包括了電力系統(tǒng)運行過程中所形成的實時數(shù)據(jù),又包括了以時間為關(guān)鍵屬性的預(yù)測型知識;靜態(tài)知識則涵蓋了電力故障診斷知識、電力運行決策知識、電力規(guī)程類知識、電力設(shè)備知識等。不同知識之間的聯(lián)系通常并不明顯,往往會讓用戶難以理解,且不會給用戶提供易于查詢的推薦信息[22]。由此可見,選擇一種較佳的知識表示方法就顯得極為重要,既有利于構(gòu)建清晰的知識結(jié)構(gòu),又有利于提高知識檢索效率與知識存儲效率,還有利于縮短數(shù)據(jù)挖掘時間,進而可在很大程度上增強數(shù)據(jù)挖掘效率。
將電網(wǎng)領(lǐng)域知識劃分為粒度不同的知識項,再采用知識樹結(jié)構(gòu)將其貫穿起來,實現(xiàn)知識的可視化、關(guān)聯(lián)化、體系化,必然可較好地符合當前知識表示的需求。本文以知識點為單元來分解電網(wǎng)數(shù)據(jù),使之形成若干個知識項,通過構(gòu)建知識樹模型KT來將不同的知識項關(guān)聯(lián)起來,如公式(1)。
式中,KP為知識點屬性,KR為知識點關(guān)系。
2.1.1 知識點屬性KP
KP可通過五元組{KID,KN,KW,KI,KP}來進行描述,其中,KP為與知識點相互對應(yīng)的資源路徑,KI為知識點的重要程度,KID為知識點的編號,KN為知識點的名稱,KW為知識點的關(guān)鍵字。
KI是知識點屬性的關(guān)鍵性因素,重要程度與其被引用次數(shù)直接掛鉤,若被引用次數(shù)越多,那么說明該知識點越重要。假設(shè)x為某知識點的被引用次數(shù),那么可用隸屬函數(shù)公式(2)來描述其重要程度:
2.1.2 知識點關(guān)系KR
KP可通過四元組{RN,KPN,Relation,Degree}來進行描述,其中,KPN為關(guān)聯(lián)知識點編號及主知識點編號,RN為關(guān)系編號,Relation為相關(guān)知識點與主知識點關(guān)系類型,Degree為相關(guān)知識點與主知識點關(guān)系程度。
從目前來看,電力系統(tǒng)的用戶數(shù)據(jù)存在著明顯的多變特征,而領(lǐng)域知識則要相對穩(wěn)定的多[23],所以,本文有機融合了協(xié)同過濾技術(shù)與關(guān)聯(lián)規(guī)則挖掘技術(shù),形成了一種新型電力大數(shù)據(jù)協(xié)同過濾推薦算法,即:聯(lián)合算法AR-Item CF。聯(lián)合算法AR-Item CF以電力運行系統(tǒng)日志為載體,深入挖掘用戶評價、用戶關(guān)注、用戶收藏、用戶瀏覽等知識項行為;按照不同知識項行為的輕重程度來劃分為不同的權(quán)重,以此來計算得出用戶評分,在吸取Item CF算法優(yōu)點的態(tài)勢,又將知識關(guān)聯(lián)度作為影響推薦結(jié)果排名的主要因素之一,同時融合了協(xié)同過濾技術(shù)與關(guān)聯(lián)規(guī)則挖掘技術(shù),將目標之間的相似度與關(guān)聯(lián)度均納入到影響因素之中,推薦結(jié)果既存在著關(guān)聯(lián)性,又具備相似性,所形成的用戶-知識評分矩陣如表1所示。
表1 用戶-知識評分矩陣Tab.1 Scoring matrix of user-knowledge
(1)訓(xùn)練集選取用戶-知識評分矩陣中前四分之三的知識數(shù)據(jù)項集,測試集則選取用戶-知識評分矩陣中余下的后四分之一的知識數(shù)據(jù)項集;用戶興趣模型在訓(xùn)練集上進行構(gòu)建,預(yù)測工作則在測試集上開展。
(2)對知識項的相似性進行計算。不同知識項之間的相似度可通過余弦相似性方法來進行計算,以知識項i和知識項j為例,二者所能形成的相似性計算公式為(3):
(3)以公式(3)為基準,可形成知識項余弦相似度矩陣ASK,如表2所示。
知識項與最近鄰知識項之間的關(guān)系屬于典型的顯性關(guān)系,緊緊圍繞著“以知識項為中心”;而知識項與非最近鄰知識項之間的關(guān)系以及不同知識項組合而衍生出來的新知識點等等均屬于典型的隱性關(guān)系,只有通過深入地挖掘與剖析之后才可顯現(xiàn)出來,其關(guān)聯(lián)性通常是通過置信度來進行表示??v觀國內(nèi)外關(guān)聯(lián)規(guī)則挖掘技術(shù)領(lǐng)域,最常用的經(jīng)典算法當屬Apriori算法;無論是在置信度,還是在關(guān)聯(lián)支持度計算方面,Apriori算法均有較佳的應(yīng)用優(yōu)勢[24-25]。有鑒于此,本文在對不同知識項之間的關(guān)聯(lián)度進行計算時,所選用的算法依然為Apriori算法,其計算步驟為:第一,Apriori算法的輸入項為知識樹中的知識項;第二,對數(shù)據(jù)集進行逐一單遍掃描,進而得出每個知識項的支持度,形成頻繁1-項集;第三,采用Apriori算法來掃描全部的數(shù)據(jù)集,候選2-項集的支持度計數(shù)通過子集函數(shù)來進行計算;第四,為了防止出現(xiàn)低置信度的計算結(jié)果及高相似性的計算結(jié)果,只要候選項集的支持度計數(shù)低于minsup,那么則將其置信度設(shè)定為0;第五,對候選2-項集的置信度conf進行計算,進而形成如表3所示的知識項關(guān)聯(lián)矩陣。
表2 知識項余弦相似度矩陣Tab.2 Cosine similarity matrix of knowledge term
表3 知識項關(guān)聯(lián)矩陣Tab.3 Association matrix of knowledge item
(1)通過將知識項關(guān)聯(lián)矩陣與知識項余弦相似度矩陣進行求和計算,那么就可形成計算用戶對知識項興趣度的矩陣ASRK。
(2)基于用戶的目標知識項,可在計算用戶對知識項興趣度的矩陣ASRK中查找與其密切相關(guān)的前K個知識項。
(3)用戶對知識項興趣度的計算公式為(4),由公式(4)可見,若知識項與用戶歷史上所查找的知識項較為相似,且關(guān)聯(lián)度較高,也就是同時兼具相似度與關(guān)聯(lián)度,那么就能夠在用戶推薦列表中位列前茅[26-29]。
式中,Rui為對知識項i的興趣程度;N(u)為用戶歷史上所查找的知識項集合;ASRK(j,k)為K個知識項之集合,且這些知識項均與知識項j存在和較高的相似性與關(guān)聯(lián)度;Wji為知識項在K個知識項之集合的對應(yīng)值。
本文通過MAE(平均絕對偏差)來對實際用戶評分與預(yù)測用戶評分的偏差程度進行計算和預(yù)算,以此為依據(jù)來評價推薦結(jié)果的精度,若平均絕對偏差越小,那么就表明推薦結(jié)果的精度越高、推薦質(zhì)量越高;若平均絕對偏差越大,那么就表明推薦結(jié)果的精度越低、推薦質(zhì)量越低。假定預(yù)測用戶評分的集合為{p1,p2,…,pN},實際用戶評分的集合為{q1,q2,…,qN},那么就可通過公式(4)來計算MAE(平均絕對偏差):
假定某用戶的待推薦項目集為W={ω1,ω2,…,ωN},令N為待推薦項目數(shù),ωi為待推薦項目;若用戶的全部最近鄰居中均無與ωk相關(guān)的實際評估記錄,這樣一來,就會出現(xiàn)ωk未能夠被推薦的情況,那么就會導(dǎo)致有M個項目未被推薦,當然M的取值應(yīng)該要不大于N,那么該用戶的項目推薦率(IRR)就可通過(N-M)/N來進行計算。項目推薦率(IRR)大多都用于對用戶周圍最近鄰居的查找效率進行衡量,并且還可從另外一個角度來體現(xiàn)出用戶評分數(shù)據(jù)庫的離散度。在平均絕對偏差MAE相同的情況下,項目推薦率(IRR)與算法的推薦效率呈現(xiàn)出較為明顯的正比關(guān)系,若項目推薦率(IRR)越高,那么就表明算法的推薦效率越高;若項目推薦率(IRR)越低,那么就表明算法的推薦效率越差。
本實驗所采用的數(shù)據(jù)集來自電力安全規(guī)程系統(tǒng)的資源庫,從中隨機選擇1000條數(shù)據(jù),涵蓋700條知識、300個用戶。訓(xùn)練集選取實驗數(shù)據(jù)集中前四分之三的數(shù)據(jù),測試集則選取實驗數(shù)據(jù)集中余下的后四分之一的數(shù)據(jù),分別采用本文所提出的新型電力大數(shù)據(jù)協(xié)同過濾推薦算法(聯(lián)合算法AR-Item CF)與傳統(tǒng)的Item CF算法進行對比,所得出的平均絕對偏差MAE實驗結(jié)果對比如圖1所示,所得出的項目推薦率IRR實驗結(jié)果對比如圖2所示。
圖1 平均絕對偏差MAE實驗結(jié)果對比Fig.1 Comparison of the results of the average absolute deviation MAE experiment
圖2 項目推薦率IRR實驗結(jié)果對比Fig.2 Comparison of IRR experiment results of project recommendation rate
由圖1可知,無論是聯(lián)合算法AR-Item CF,還是與傳統(tǒng)Item CF算法,平均絕對偏差MAE均會隨著最近鄰居數(shù)的增大而小幅下降,而后其值又基本保持不變的狀態(tài),但在最近鄰居數(shù)不變的前提下,聯(lián)合算法AR-Item CF的平均絕對偏差MAE明顯要低于傳統(tǒng)Item CF算法,如前所述,若平均絕對偏差越小,那么就表明推薦結(jié)果的精度越高、推薦質(zhì)量越高;若平均絕對偏差越大,那么就表明推薦結(jié)果的精度越低、推薦質(zhì)量越低。由此可見,聯(lián)合算法ARItem CF推薦結(jié)果的精度更高、推薦質(zhì)量更高。由圖2可知,無論是聯(lián)合算法AR-Item CF,還是與傳統(tǒng)Item CF算法,項目推薦率IRR均隨著最近鄰居數(shù)的增大而逐漸增大,但在最近鄰居數(shù)不變的前提下,聯(lián)合算法AR-Item CF的項目推薦率IRR明顯要高于傳統(tǒng)Item CF算法,如前所述,若項目推薦率(IRR)越高,那么就表明算法的推薦效率越高;若項目推薦率(IRR)越低,那么就表明算法的推薦效率越差。由此可見,聯(lián)合算法AR-Item CF的推薦效率更高。綜合可知:本文所提出的新型電力大數(shù)據(jù)協(xié)同過濾推薦算法(聯(lián)合算法AR-Item CF)能夠在很大程度上增強推薦系統(tǒng)的推薦效率與推薦質(zhì)量,取得較佳的效果。
(1)聯(lián)合算法AR-Item CF以電力運行系統(tǒng)日志為載體,深入挖掘用戶評價、用戶關(guān)注、用戶收藏、用戶瀏覽等知識項行為;按照不同知識項行為的輕重程度來劃分為不同的權(quán)重,以此來計算得出用戶評分,在吸取Item CF算法優(yōu)點的態(tài)勢,又將知識關(guān)聯(lián)度作為影響推薦結(jié)果排名的主要因素之一,同時融合了協(xié)同過濾技術(shù)與關(guān)聯(lián)規(guī)則挖掘技術(shù),將目標之間的相似度與關(guān)聯(lián)度均納入到影響因素之中,推薦結(jié)果既存在著關(guān)聯(lián)性,又具備相似性。
(2)本實驗所采用的數(shù)據(jù)集來自電力安全規(guī)程系統(tǒng)的資源庫,從中隨機選擇1000條數(shù)據(jù),涵蓋700條知識、300個用戶。訓(xùn)練集選取實驗數(shù)據(jù)集中前四分之三的數(shù)據(jù),測試集則選取實驗數(shù)據(jù)集中余下的后四分之一的數(shù)據(jù),分別采用本文所提出的新型電力大數(shù)據(jù)協(xié)同過濾推薦算法(聯(lián)合算法ARItem CF)與傳統(tǒng)的Item CF算法進行對比。實驗結(jié)果表明:本文所提出的新型電力大數(shù)據(jù)協(xié)同過濾推薦算法(聯(lián)合算法AR-Item CF)能夠在很大程度上增強推薦系統(tǒng)的推薦效率與推薦質(zhì)量,取得較佳的效果。