鐘華贊,包新曄,杜 杰
(1.中國南方電網(wǎng)有限責(zé)任公司 生產(chǎn)技術(shù)部,廣東 廣州 510623;2.天津大學(xué) 電氣工程學(xué)院,天津 300011)
隨著智能電網(wǎng)的發(fā)展,居民用戶可以通過需求響應(yīng)(DR)重新安排家用電器的運(yùn)行時間[1-4],減少關(guān)鍵高峰時段的負(fù)荷[5,6],或轉(zhuǎn)移到現(xiàn)場分布式發(fā)電機(jī)[7,8]等手段,將電力支出最小化。但由于客戶擔(dān)憂使用DR后會造成舒適度的喪失,生活模式的改變,以及隱私泄露等。這些問題阻礙了DR在住宅中的廣泛應(yīng)用。目前,已經(jīng)開發(fā)了一些工具來幫助客戶選擇具有成本效益的電力計劃。但這些方法都存在著:考慮因素不全面導(dǎo)致估計總用電量時不準(zhǔn)確,需要用戶手動添加特定電價,以及無法針對每一個用戶制定獨(dú)有方案等缺點,造成推薦方案不可靠。
近年來,協(xié)同過濾推薦(collaborative filtering recommender,CFR)已廣泛應(yīng)用在歷史交易記錄豐富的商品的推薦系統(tǒng)中[9,10]。其核心是通過相似用戶在購買活動中表現(xiàn)出相似偏好的實際經(jīng)驗,從該客戶和其他客戶的歷史交易數(shù)據(jù)中得出客戶對未購買商品的潛在偏好。由于電力客戶有著相似的用電模式,并可能喜歡同樣的成本效益零售計劃。因此,本文提出了一種基于CFR的智能電力計劃推薦算法(electricity plan recommender,EPR)。為了提高精確度,利用一種適合EPR的加權(quán)相似性度量,通過比較一些容易獲得的用電特征結(jié)合Jaccard加權(quán)歐幾里德度量來評估兩個用戶之間的相似性。在給定相似度值的前提下,將相似客戶作為目標(biāo)客戶的鄰居進(jìn)行檢索。然后從鄰居的偏好中得出目標(biāo)客戶對不同計劃的潛在偏好。推薦前N個最喜歡的計劃。該方法有效地解決了現(xiàn)有電力計劃推薦策略所面臨的挑戰(zhàn)性問題,提供了一種可靠、準(zhǔn)確、方便的方法。
推薦系統(tǒng)一般可用效用函數(shù)FU:U×I→R來表示集合U和I到集合R的映射,U中的元素是用戶,用u表示。I中的元素是項目,用i表示。為了評估用戶u對項目i的偏好,引入了術(shù)語等級(rating)并用rni表示。R是所有可能的u和i的rni集合。推薦系統(tǒng)通過使用效用函數(shù)FU來預(yù)測用戶對所有候選項的潛在評級。如果較高的評分意味著強(qiáng)烈的偏好,則推薦評級較高的項目。為了實現(xiàn)FU函數(shù),一般采用協(xié)同過濾的方法,同時該方法又能分成:基于鄰域的、基于模型的和混合3種模式。本文在此采用的是基于領(lǐng)域的協(xié)同過濾方法[11]。
(1)
在這里,帽子符號^代表預(yù)測值,smn代表用戶m和n之間的相似性。如果較高的評分表明用戶對某個項目的偏好更強(qiáng),則建議用戶使用預(yù)測評分值較高的項目。
推薦的性能可以通過各種指標(biāo)來評估[12]。一個流行的度量標(biāo)準(zhǔn)是均方根誤差(RMSE),它從統(tǒng)計學(xué)上度量所有項目的預(yù)測值和實際值之間的誤差。式(2)向用戶m給出了建議的RMSE,如下所示
(2)
(3)
雖然EPR是從基于鄰域的CFR發(fā)展而來的,但它與其它推薦系統(tǒng)有兩個不同之處。首先,相似性評價方法不同。CFR主要是比較兩個用戶對同等級商品的偏好,而EPR通過比較家用電器的每周運(yùn)營時間來評估兩個客戶之間的相似性。二是偏好評價方法不同。在CFR中,用戶對商品的最終評分是由多種因素影響的。在EPR中,評分只與方案的相對價格有關(guān)。
EPR采用基于鄰域的協(xié)同過濾方法,并采用了專門設(shè)計的相似性度量。在EPR中,項目表示電力零售計劃,而用戶表示住宅用戶。在本文中,Utr和Ute表示訓(xùn)練和測試用戶集。通過簡單地提供幾個容易獲得的特性,測試用戶可以從EPR獲得可靠的計劃建議。
EPR的結(jié)構(gòu)如圖1所示??梢姡疚奶岢隽艘粋€離線數(shù)據(jù)抽取和在線推薦兩個階段的框架。①離線數(shù)據(jù)提取階段:從總使用量和設(shè)備使用量數(shù)據(jù)中提取每個培訓(xùn)用戶的評分和特征。所有訓(xùn)練用戶的評分構(gòu)成一個訓(xùn)練評分集,而這些用戶的特征構(gòu)成一個訓(xùn)練特征集。②在線推薦階段:測試用戶提供估計的特征,在此基礎(chǔ)上評估該測試用戶與每個訓(xùn)練用戶之間的相似度。根據(jù)得到的相似度值和訓(xùn)練評分集,預(yù)測測試用戶給出的潛在評分。然后,可以根據(jù)預(yù)測的評級確定具有成本效益的計劃以供推薦。
以下各部分解釋了每個階段的細(xì)節(jié)。最后介紹了推薦準(zhǔn)確度的評價指標(biāo)。
圖1 EPR結(jié)構(gòu)
訓(xùn)練用戶向EPR提供兩個數(shù)據(jù)集,即訓(xùn)練評分集和特征集。這兩組數(shù)據(jù)可以從訓(xùn)練用戶的用電記錄中提取出來。
(1)訓(xùn)練評分集提?。和扑]系統(tǒng)使用評分來量化用戶對某個項目的偏好。由于住宅用戶的偏好與計劃收費(fèi)高度相關(guān),EPR中等級表示為方案對用戶收取的標(biāo)準(zhǔn)化價格。設(shè)cni為用戶n的方案i的費(fèi)用,cn為cni對所有方案i形成的向量。等級rni可以通過式(4)計算得到
(4)
根據(jù)式(4),方案向用戶收取的費(fèi)用越低,用戶對該方案的評分就越低??紤]到居民用戶對低電價方案的普遍偏好,可以推斷用戶更喜歡較低的電價方案而不是較高的電價方案。所以EPR的目的是估計每個方案的評級,并向客戶介紹相關(guān)方案。
方案費(fèi)用cni可以很容易地從用戶n的總使用記錄和方案i的費(fèi)率中得出。總使用記錄是一個時間序列,記錄了整個房屋的用電量。
(2)訓(xùn)練特征集提?。豪硐肭闆r下,電力用戶可以計算所有方案的費(fèi)用,一旦總使用記錄可用,并進(jìn)一步搜索更便宜的方案。但在許多情況下,無法訪問總使用記錄,例如,未安裝智能電表,或用戶無法訪問電表數(shù)據(jù)。EPR通過引入新功能,免除了對總使用記錄的要求。用戶需要一個特征來表示用戶的用電習(xí)慣,同時也要便于用戶獲取,并且不暴露太多的隱私信息。在EPR中,家電每周運(yùn)行持續(xù)時間被設(shè)置為一個特征,它衡量一個家用電器平均每周使用多長時間。與其它電力計劃推薦方法[13-15]中使用的抽象因素相比,估計一臺設(shè)備每周使用的小時數(shù)要容易得多,而且往往更準(zhǔn)確。此外,每周設(shè)備運(yùn)行時間比詳細(xì)的電源記錄更不敏感,因此有助于私人保護(hù)。
設(shè)備的每周運(yùn)行時間可以從設(shè)備使用記錄中提取出來,它是記錄設(shè)備耗電量的時間序列。圖2(a)示出了一天中的設(shè)備使用記錄的示例。從該圖中可以看出,設(shè)備操作持續(xù)時間是設(shè)備功率超過開啟閾值時的總時間,該閾值在圖2(a)中被描繪為虛線。為了延長電器的工作時間,選擇合適的開啟閾值是至關(guān)重要的。在以往的許多研究中,對于所有類型的家用電器,這個閾值通常被設(shè)定為一個定值[16],但這有一些問題:開啟閾值隨電器類型的不同而變化,以及電器使用記錄中含有不同程度的噪聲。所以本文針對冰箱、臺式機(jī)等多模式,長時間使用的電器,設(shè)定了一個恒定的開啟閾值。對于偶爾打開的電器(如洗碗機(jī)和洗衣機(jī)),結(jié)合其它一些外部因素,如假期和晴天使用洗衣機(jī)的頻率較高,時長較長,晚上使用洗碗機(jī)的概率較大等情況,然后通過利用概率密度函數(shù)(PDF)得到使用時間,然后根據(jù)它們來設(shè)置閾值。對于這些電器,其功率PDF顯示了大約0 W的全局最大值和典型工作功率附近的局部最大值,如圖2(b)所示。在這種情況下,開啟閾值被設(shè)置為兩個最大值之間的局部最小值的功率值。
圖2 家用設(shè)備使用記錄和概率密度函數(shù)
用核密度估計(KDE)方法實現(xiàn)了設(shè)備功率PDF的近似,它提供了比直方圖方法更平滑的估計[17]。設(shè)P是一系列設(shè)備使用記錄。P中的每個元素Pl都被視為隨機(jī)變量p的一個樣本,這里p代表設(shè)備的功耗。對于p的KDE計算方法如式(5)所示
(5)
在這里,F(xiàn)K是核函數(shù),可以是任何非負(fù)的零均值函數(shù)。本文以高斯函數(shù)為核函數(shù)。系數(shù)h是帶寬,其值由斯科特經(jīng)驗法則決定。
相似性量化了兩種能源消耗模式的相似程度。本文通過比較兩個用戶的特征,即設(shè)備周運(yùn)行時間,得出兩個用戶之間的相似性。然而,在不同的用電用戶中,某些特征的缺失是非常普遍的。例如,當(dāng)沒有記錄設(shè)備的電源使用情況時,該設(shè)備的每周運(yùn)行持續(xù)時間將不可用,因此該功能將丟失。為了解決這個問題,在此提出了一種相似性度量
(6)
(7)
A是所有電器的集合。它的元素表示為a。設(shè)fna為用戶m和n使用的設(shè)備a的標(biāo)準(zhǔn)化的每周操作持續(xù)時間。所以,加權(quán)歐幾里德相似度可用式(8)計算得到
(8)
權(quán)重可以由以下步驟計算得到。首先根據(jù)式(4)得到的評分值將訓(xùn)練用戶集中的所有用戶分為Q組。Utr(q)表示第q-th個聚類。然后針對不同的設(shè)備a從Utr(q)中提取不同的子集Utr(q)-a。Utr(q)-a中的元素表示為在聚類Utr(q)中的用戶n,能夠為設(shè)備a提供有效的運(yùn)行持續(xù)時間值fna。設(shè)fa(q)是收集Utr(q)-a中所有用戶n的fna的集合。fa(q)的中心由ca(q)得到,其中ca(q)表示集合ca的可能q?;谶@些符號,每個設(shè)備a的變量集群分散指示符(CDI)計算如下
(9)
式中:FD是集合內(nèi)距離運(yùn)算符號。對于任何集合v,其集合內(nèi)距離可用式(10)計算
(10)
(11)
ωa=ω′a/∑a∈Aω′a
(12)
在式(11)中的系數(shù)ωmin稱為最小權(quán)重,手動設(shè)置在0和1之間。當(dāng)ωmin等于1時,所有設(shè)備具有相同的權(quán)重,且式(8)中加權(quán)的歐幾里德相似性度量與傳統(tǒng)歐幾里德相似性等價,選擇ωmin的最優(yōu)值作為推薦結(jié)果最小RMSE的對應(yīng)值。
在式(9)~式(11)中定義的ωa的推導(dǎo)類似于特征選擇,并根據(jù)計劃評級來衡量每臺設(shè)備每周運(yùn)行持續(xù)時間與客戶群之間的相關(guān)性。與聚類結(jié)果密切相關(guān)的設(shè)備具有更大的變異CDI值。本文采用層次聚類算法實現(xiàn)了對用戶的聚類操作。該方法首先將每個用戶視為自己的集群。對于每個集群,導(dǎo)出一個典型的等級集。然后,根據(jù)典型的評級集將集群依次合并在一起[18]。最佳聚類數(shù)量對應(yīng)于CDI-Q曲線的拐點,CDI在曲線中衡量聚類效果。
ERP應(yīng)用基于鄰域的協(xié)同過濾方法來預(yù)測測試用戶對每個計劃的潛在評級,并找到具有成本效益的方案進(jìn)行推薦?;谑?6)中的相似性度量,EPR計算測試用戶和每個訓(xùn)練用戶之間的相似度,并選擇相似度前k最大的訓(xùn)練用戶作為測試用戶的k近鄰。然后,可以使用式(1)基于這些k-最近鄰的評級數(shù)據(jù)估計測試用戶對計劃的潛在評級。根據(jù)式(4)中費(fèi)率的定義,較低的費(fèi)率表示計劃費(fèi)用較低,因此電力用戶對計劃的偏好更強(qiáng)。在這種情況下,預(yù)先向測試用戶推薦具有較低估計評級的計劃。在實際應(yīng)用中,推薦前N個最低等級方案的top-N機(jī)制是一個明智的選擇。Top-N推薦能更好地滿足顧客對零售商聲譽(yù)和服務(wù)質(zhì)量等其它因素的個人偏好,在所有推薦候選人中做出自己的選擇。
為了評估推薦結(jié)果,使用式(2)中定義的RMSE指標(biāo)對所有計劃的評級真實值和估計值進(jìn)行統(tǒng)計比較。應(yīng)用式(3)中定義的精度度量來評估top-N推薦。較低的RMSE或較高的精度表明電力計劃的推薦結(jié)果更準(zhǔn)確。
測試數(shù)據(jù)分為用戶數(shù)據(jù)和項目數(shù)據(jù)兩部分。用戶數(shù)據(jù)來自澳洲居民能源統(tǒng)計項目(AES),收集到的3735戶居民在2017年~2019年的智能電表數(shù)據(jù)[19]。從AES數(shù)據(jù)集中,選擇730個客戶進(jìn)行數(shù)值實驗。這些客戶滿足兩個要求。首先,他們可以提供一定時期(在此設(shè)置為30天)的總用電量記錄。其次,他們可以在同一時期提供至少4種常用家用電器的儀表讀數(shù)。實驗共考慮了微波爐(Micro)、烤箱(Oven)、電磁爐(Stove)、洗碗機(jī)(Dish)、洗衣機(jī)(Wash)、烘干機(jī)(Dryer)、電視(TV)、計算機(jī)(CPU)、空調(diào)(AC)、熱水系統(tǒng)(Water)等10種電器。
測試中的項目數(shù)據(jù)取自2017年中15家當(dāng)?shù)亓闶凵提槍τ脩舭l(fā)布的62項電力計劃[20]。在所有的計劃中,有一半使用統(tǒng)一費(fèi)率電價,另一半采用分時電價。
在測試之前,所有735位客戶的評級和特征都是事先從他們的智能電表讀數(shù)中提取出來的。為了進(jìn)行5倍交叉驗證,將這些客戶隨機(jī)平均分為5組,即每個組有147個測試用戶和588個訓(xùn)練用戶。
數(shù)值實驗過程包括兩個步驟。第一步是系數(shù)設(shè)置。在這個步驟中,k-最近鄰的系數(shù)k被設(shè)置為1和訓(xùn)練組的大小之間的整數(shù)。另一個系數(shù),最小機(jī)密權(quán)重ωmin,被設(shè)置為0到1之間的數(shù)字。在已知ωmin的情況下,從訓(xùn)練組的數(shù)據(jù)中提取每個設(shè)備a的器械權(quán)重ωa。在這一步中,采用試錯法來獲得k和ωmin的精確最優(yōu)值,需要注意的是,在不同的測試用例中,不同的值可以設(shè)置為k和ωa。此步驟的偽代碼如下所示。
步驟1 折疊系數(shù)設(shè)置
輸入:訓(xùn)練評分集Rtr和特征集Ftr,所有測試用戶m和所有方案i的真實額定值rmi;所有測試用戶m和所有家用電器a的功能fma。
輸出:系數(shù)k,ωmin和ωa,
Forωminin [0,1]
(1)根據(jù)訓(xùn)練等級集Utr中每個用戶的評分,將集合Rtr中的訓(xùn)練用戶分為Q組。
(2)使用式(9)~式(12)從Ftr中提取所有器具a的ωa。
(3)對于測試用戶集Ute中的用戶m:使用式(6)計算訓(xùn)練用戶集Utr中所有用戶n的相似度smn。
(4)對于[1,|Utr|]中的k:
1)測試用戶集Ute中的用戶m:
2)在測試用戶集Ute時,計算向所有用戶m推薦結(jié)果的RMSE的平均值和最大值。
(5)繪制最大RMSE-k曲線,平均RMSE-k曲線。
根據(jù)最大RMSE-k曲線和平均RMSE-k曲線設(shè)置k的值。
根據(jù)選定的k繪制平均RMSE-ωmin曲線。
根據(jù)平均RMSE-ωmin曲線設(shè)定ωmin值。
通過將ωmin代入式(11),計算所有設(shè)備的ωa。
第二步是方案推薦和結(jié)果評價。在這一步驟中,EPRS根據(jù)訓(xùn)練用戶的評分和特征數(shù)據(jù),對每個測試用戶給出的所有方案的潛在評分進(jìn)行估計。測試用戶的實際評級和預(yù)測評級之間的差異通過RMSE度量進(jìn)行量化。為了得到綜合評價,計算了所有測試用戶的RMSE平均值和最大值。第二步的偽代碼如下所示。
步驟2 對每個環(huán)節(jié)進(jìn)行計劃建議和結(jié)果評估
輸入:訓(xùn)練評分集Rtr和訓(xùn)練特征集Ftr;所有測試用戶m和所有計劃i的真實評級值rmi;所有測試用戶m和所有家用電器a的功能fma。
ForuteinUte:
(1)使用式(6)計算訓(xùn)練用戶集Utr中所有用戶n的相似性smn。
計算RMSE的平均值和在測試用戶集Ute時向用戶m推薦的精度。
在每個測試案例中,EPRS接收到的推薦結(jié)果與其它4種相似性度量策略的結(jié)果進(jìn)行比較。用于比較的度量是歐幾里德(EUC)、余弦(COS)、Jaccard-Euclidean(Jaccard和Euclidean相似度的乘法,J-EUC)和Jaccard Cosine(Jaccard和Cosine相似性的乘法,J-COS)。對訓(xùn)練用戶與測試用戶具有相同相似性的等相似性策略的性能進(jìn)行了測試,并將其作為比較的基準(zhǔn)值。
3.3.1 系數(shù)設(shè)置
(1)單一費(fèi)率方案推薦系數(shù):在這里設(shè)置了兩個EPR系數(shù):最近鄰數(shù)k和最小設(shè)備權(quán)重ωmin,圖3給出了設(shè)置過程。在前兩個子部分(圖3(a)和圖3(b)中,平均RMSE和k之間以及最大RMSE和k之間的關(guān)系用曲線表示,在ωmin值介于0和1之間的情況下。當(dāng)k不大于20時,小圖形顯示部分曲線。從這些子部分可以看出,當(dāng)ωmin設(shè)置不同時,平均RMSE-k和最大RMSE-k曲線都沒有明顯變化。根據(jù)這一觀察,將系數(shù)k與系數(shù)ωmin無關(guān)是安全的??紤]到圖3(a)和圖3(b)中所示,將單一費(fèi)率方案建議的k設(shè)置為5,以確保平均和最大RMSE的值都較低。圖3(c)顯示了k等于5時平均RMSE與ωmin之間的關(guān)系。在此圖的基礎(chǔ)上,將ωmin設(shè)為0.6,對應(yīng)于平均RMSE-ωmin曲線的最小點。利用選定的ωmin,將ωmin代入式(11)中,進(jìn)一步導(dǎo)出應(yīng)用機(jī)密權(quán)重ωa,結(jié)果如圖3(d)所示??梢钥闯觯?個最大的權(quán)重是爐灶、計算機(jī)和熱水系統(tǒng)。這準(zhǔn)確地表明這3種家用電器對家庭總用電量的影響更深。
圖3 單一費(fèi)率方案中的參數(shù)設(shè)置過程
(2)分時方案推薦系數(shù):
在圖4(a)和圖4(b)中,平均RMSE和k之間的關(guān)系以及不同ωmin情況下的最大RMSE和k曲線之間的關(guān)系用曲線表示。與單一費(fèi)率一樣,這兩個子部分也揭示了k與ωmin的依賴關(guān)系。因此,k與ωmin無關(guān)。與圖3(a)一樣,當(dāng)k約為4時,圖4(a)中出現(xiàn)一個缺口,因此4是k的一個有希望的選擇,以確保較低的平均RMSE。然而,當(dāng)k在4左右時,最大RMSE相當(dāng)高。而當(dāng)k增加到25時,最大RMSE急劇下降。而在k為20時,平均值和最大值RMSE值都較低,所以最佳k值應(yīng)為20。圖4(c)描繪了k=20時平均RMSE與ωmin曲線之間的關(guān)系。當(dāng)ωmin等于0和0.4時,出現(xiàn)兩個最小的平均RMSE值。由于當(dāng)ωmin從0和0.1增加時,平均RMSE急劇增加,因此0不是ωmin的合適選擇。因此,將ωmin設(shè)置為0.4,以推薦使用時計劃。圖4(d)列出了ωmin為0.4時的所有設(shè)備權(quán)重ωa。前3位權(quán)重最大的設(shè)備是爐灶、熱水系統(tǒng)和計算機(jī),這表明這3種設(shè)備的運(yùn)行特性在很大程度上影響了分時計劃的推薦結(jié)果。
圖4 分時方案中的參數(shù)設(shè)置過程
(3)聯(lián)合方案推薦系數(shù):圖5給出了聯(lián)合方案推薦實驗的系數(shù)設(shè)置過程。如圖5(a)和圖5(b)所示,當(dāng)使用不同的ωmin時,平均RMSE-k曲線和最大RMSE-k曲線幾乎沒有差別。k的值被設(shè)置為20,與ωmin無關(guān)。一旦k被設(shè)置,則根據(jù)圖5(c)中給出的平均RMSE-ωmin曲線選擇最小權(quán)重ωmin為0.4。然后導(dǎo)出設(shè)備權(quán)重ωa,并在圖5(d)中列出。
圖5 聯(lián)合方案中的參數(shù)設(shè)置過程
與前兩個測試用例相同,在這個測試中具有3個最高權(quán)重的設(shè)備是爐子、熱水系統(tǒng)和計算機(jī)。對于計算機(jī)擁有較大權(quán)重,說明計算機(jī)的運(yùn)行時間越長,表示在家停留的時間越長,在這段時間內(nèi)使用其它家用電器的可能性也就越大。
3.3.2 所有推薦結(jié)果
(1)EPR的有效性:圖6顯示了當(dāng)應(yīng)用不同的相似性度量時,收到的計劃推薦結(jié)果的RMSE的統(tǒng)計特征。實線和虛線表示RMSE的中值和平均值。為了便于比較,表1列出了前平均RMSE值。表1還列出了采用等相似性策略得到的平均RMSE,其中所有訓(xùn)練用戶與測試用戶具有相同的相似性。
圖6 3個測試用例中相似度量對RMSE的影響
表1 EPR中不同方案的平均RMSE
通過比較圖6中的3個子部分,可以發(fā)現(xiàn),無論采用哪種相似性度量,基于單一費(fèi)率電價的方案的建議的誤差總是最小的,而基于分時電價的方案的建議誤差更大,而基于分時電價和單一費(fèi)率電價的方案的建議誤差最大。推薦使用聯(lián)合計劃的困難是由兩個因素造成的。首先,推薦候選人包含分時計費(fèi)計劃,收費(fèi)率不是固定的,而是隨時間變化的。因此,除了設(shè)備每周運(yùn)行持續(xù)時間外,還需要提供可靠的建議。第二,參加分時和單一費(fèi)率計劃推薦測試的多于其它兩個測試。隨著推薦候選方案的增多,獲得的準(zhǔn)確率較低是公平的。
盡管存在上述困難,但在3個測試中,基于協(xié)同過濾的不同相似度策略的表現(xiàn)仍然好于同等相似度策略,如表1所示。驗證了基于協(xié)同過濾的電力計劃推薦方法考慮了不同用戶對之間相似度的變化,提高了電力計劃推薦的準(zhǔn)確性。
采用更有效的相似性度量可以進(jìn)一步提高計算精度。圖6比較了5種不同相似度度量的推薦效果,從中可以得出兩個結(jié)論。首先,基于Jaccard的度量(J-EUC、J-COS和J-wEUC)比基于非Jaccard的度量(EUC和COS)能提供更好的建議。其次,J-wEUC度量在計劃推薦方面優(yōu)于其它兩個基于Jaccard的度量(J-EUC和J-COS)。根據(jù)式(6)~式(8),J-wEUC的高效性歸因于歐幾里德相似度量中的權(quán)重。EPR得益于J-wEUC,能夠提供比其它策略更高的推薦服務(wù)。
(2)Jaccard度量的影響:圖7顯示了在應(yīng)用不同的相似性度量時,在聯(lián)合計劃推薦測試中收到的平均RMSE-k曲線。基于Jaccard的度量(J-EUC、J-COS和J-wEUC)在推薦準(zhǔn)確度方面的優(yōu)勢在該圖中很明顯。另一個現(xiàn)象是,當(dāng)應(yīng)用基于Jaccard的度量時,需要較少的最近鄰(較小的k)來確保較低的誤差。相反,如果使用非Jaccard的度量,則需要更大的k來降低錯誤。在單獨(dú)針對單一個費(fèi)率計劃或分時計劃的計劃建議測試中也可以發(fā)現(xiàn)相同的觀察結(jié)果,由于篇幅限制,此處未給出結(jié)果。由于最近鄰數(shù)較少的情況下(1)的等級估計運(yùn)算是有效的,在相似度評估中引入Jaccard度量提高了計劃推薦系統(tǒng)的響應(yīng)速度。因此,EPR將Jaccard度量應(yīng)用于相似度評估,以獲得更好的性能,并引入機(jī)密權(quán)重來進(jìn)一步改進(jìn)。
圖7 采用不同度量時,平均RMSE和k的關(guān)系
(3)與現(xiàn)有方法的比較:在推薦性能方面,將EPR與EME[21]中的方法和基于集群的推薦系統(tǒng)(cluster)[13]中開發(fā)的策略進(jìn)行了比較。共有80位客戶在同一地區(qū)進(jìn)行測試。為了簡潔起見,本文只給出了分時和單一費(fèi)率方案推薦測試的結(jié)果。如圖8(a)和圖8(b)所示,當(dāng)通過RMSE和 精度度量進(jìn)行評估時,EPR優(yōu)于其它兩種方法。此外,根據(jù)圖8(b)中給出的精度與top-N方案數(shù)的關(guān)系,隨著N的增加,精度也呈波動性上升。
圖8 EPR、EME和CLUSTER方法的性能
本文提出了一種基于協(xié)同過濾算法的智能電力計劃EPR。該方案克服了現(xiàn)行電力計劃推薦策略的3個缺點。首先,EPR使用戶不必提供抽象和詳細(xì)的電氣使用記錄,而是需要其它容易獲得的特性。第二,新的度量方法明顯提高了精度。第三,以不同方案的預(yù)測評分為依據(jù),對EPR的用戶進(jìn)行廣告宣傳,使用戶能夠選擇最合適的方案,并制定適當(dāng)?shù)碾妰r。實驗結(jié)果表明,在不同的計劃推薦任務(wù)中,EPR策略的表現(xiàn)通常優(yōu)于其它策略。由于EPR擁有較低的RMSE和較高的推薦精度,所以保證了用戶有更好的削減電費(fèi)開銷的能力。