應(yīng)棟子,劉福斌,辛潔晴
(1.上海交通大學(xué)電氣工程系,上海 200240;2.國家電網(wǎng)有限公司華東分部,上海 200120)
租賃型物業(yè),尤其是1 年內(nèi)短期租賃物業(yè),是電力公司開展電費管理、推廣預(yù)付費等業(yè)務(wù)的重點服務(wù)對象。掌握物業(yè)是否租賃的信息,有助于電力公司明確預(yù)付費業(yè)務(wù)的實施對象,在解決電費矛盾時更有依據(jù)。傳統(tǒng)查詢物業(yè)租賃情況的方法是通過查詢租賃合同登記信息或問詢物業(yè)管理部門,這兩種方法在實際中因各種手續(xù)原因變得難以操作,且由于租賃信息不全、信息更新不及時、租賃型物業(yè)用電時斷時續(xù)、年間用電習(xí)慣變化等造成即便取得信息,質(zhì)量也不高。因此電力公司有必要通過用電信息采集系統(tǒng)獲得用電數(shù)據(jù),實施物業(yè)狀態(tài)畫像分析,對可開展預(yù)付費管理的租賃型物業(yè)進(jìn)行辨識。
用戶畫像是基于用戶多方面的真實數(shù)據(jù),抽象出用戶整體特征的虛擬特征[1]。構(gòu)建用戶畫像的步驟主要包括用戶數(shù)據(jù)收集、提取特征形成標(biāo)簽以及通過聚類形成綜合畫像[2-5]。通過采用聚類技術(shù),使用戶畫像無需以大量自帶標(biāo)簽的樣本為基礎(chǔ),非常適用于難以獲得大量帶標(biāo)簽樣本的物業(yè)狀態(tài)辨識。與傳統(tǒng)聚類技術(shù)相比,畫像技術(shù)采用屬性區(qū)段劃分和標(biāo)簽化,使得聚類結(jié)果更易被解釋,方便與不同狀態(tài)屬性的物業(yè)特征聯(lián)系起來。
目前,用戶畫像在電力系統(tǒng)中已有一些應(yīng)用。文獻(xiàn)[6]基于用戶畫像技術(shù),構(gòu)建涵蓋負(fù)荷水平、用電行為、互動能力的園區(qū)用戶三級標(biāo)簽體系,并建立園區(qū)用戶成熟度評價模型。文獻(xiàn)[7]從用戶行為、用電特性、消費習(xí)慣3 個維度建立用戶多源特征標(biāo)簽體系,對上班族、老人族、混居族等群體實施了劃分。文獻(xiàn)[8]采用電力營銷業(yè)務(wù)系統(tǒng)中用戶的靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù),利用畫像技術(shù)對電費敏感型用戶進(jìn)行識別。文獻(xiàn)[9]基于K-means 聚類算法對用戶復(fù)雜用電特征進(jìn)行挖掘。目前在用戶畫出應(yīng)用方面尚未有物業(yè)狀態(tài)畫像和租賃性物業(yè)辨識方面的研究。在用戶畫像技術(shù)方面,傳統(tǒng)畫像方法往往通過單次的聚類得到用戶類型的劃分,而在構(gòu)建物業(yè)狀態(tài)畫像時最終物業(yè)狀態(tài)需通過多個維度用電特征綜合反映。不同物業(yè)狀態(tài)之間共同性的特征維度和差異性的特征維度各不相同,難以通過單次聚類劃分。因此在將畫像技術(shù)引入物業(yè)狀態(tài)辨識時,還需加以修改和發(fā)展。
綜上所述,本文將用戶畫像技術(shù)首次應(yīng)用于物業(yè)狀態(tài)分析,提取與物業(yè)狀態(tài)有關(guān)的多維度用電特征,結(jié)合多維度的特征標(biāo)簽,提出一種多級變權(quán)重聚類方法,用來合理劃分物業(yè)狀態(tài),準(zhǔn)確辨識短租型物業(yè)。
構(gòu)建物業(yè)狀態(tài)畫像涉及多方面組成要素,需要確定物業(yè)狀態(tài)的分類,建立多維度特征指標(biāo)體系,并對特征進(jìn)行標(biāo)簽化。
物業(yè)狀態(tài)指客戶在所屬小區(qū)的居住狀態(tài),不同居住狀態(tài)會導(dǎo)致用電特征上的差異。物業(yè)狀態(tài)分類與年間用電相似度、用電間斷與用電水平等對應(yīng)特點如表1 所示。
表1 物業(yè)狀態(tài)分類與對應(yīng)特點Table 1 Property status types and corresponding characteristics
由表1 可知,穩(wěn)定居住型、季節(jié)性用電型與長期空置型均有相鄰年間用電相似度較高的特點,將以上3 類統(tǒng)一為固定住戶型,本文主要針對固定住戶、短期租賃、長期租賃3 類物業(yè)的識別展開研究。
不同物業(yè)狀態(tài)的用電特性主要與相鄰年間用電習(xí)慣相似度和用電的間斷性有關(guān)。因此,構(gòu)建包含2 個維度、5 項指標(biāo)的用電特征指標(biāo)及物業(yè)狀態(tài)判據(jù)如表2 所示。表2 中固定住戶、短期租賃、長期租賃3 列為物業(yè)狀態(tài)判據(jù),其數(shù)值為特征指標(biāo)標(biāo)簽化后的取值,XⅠ-1—XⅡ-1對應(yīng)數(shù)值1~3 代表程度由低到高,XⅡ-2對應(yīng)數(shù)值1 為間隔天數(shù)短、2 為間隔天數(shù)長。
表2 用電特征指標(biāo)及物業(yè)狀態(tài)判據(jù)Table 2 Electricity consumption characteristic index and property state criterion
各特征指標(biāo)定義如下:
1)XI-1為年間日用電量相似度。
定義為相鄰兩年日用電量序列的相關(guān)性,XI-1表達(dá)式為:
式中:Ey,i,Ey-1,i分別為目標(biāo)物業(yè)第y年和第y-1年第i日的日用電量;分別為其第y年和第y-1年日用電量均值。
2)XI-2為年間春秋季周內(nèi)日用電量比重相似度。
該指標(biāo)從每日用電量占當(dāng)周總用電量比重均值的角度考察年間用電特性相似度。由于冬季與夏季日用電量易受溫度影響,因此考察春秋季3~5 月和9~11月的XI-2表達(dá)式為:
式中:ry,i,ry-1,i分別為目標(biāo)物業(yè)第y年和第y-1年春秋季星期i用電量占周用電量比重的均值;,分別為ry,i和ry-1,i的均值。
3)XI-3為年間春秋季谷電比重變化率。
我國部分地區(qū)對居民實施峰谷二段式電價,該指標(biāo)從谷電比重均值的角度考察年間用電特性相似度,XI-3表達(dá)式為:
式中:ry,G,ry-1,G分別為目標(biāo)物業(yè)第y年,第y-1年春秋季谷電比重。
4)XII-1為近一年中用電連續(xù)間斷最長天數(shù)。
一次用電連續(xù)間斷指日電量從正常用電水平降至待機(jī)或0 電量,維持?jǐn)?shù)日后再次回升至正常用電水平的過程。為避免閾值設(shè)置不當(dāng)造成對用電連續(xù)間斷事件的誤判,本文采用基于累計和值的水平遷移辨識方法[10]判斷用電連續(xù)間斷事件。設(shè)第i時刻的累計和值為Si,累計和值遞推方程為:
式中:Ei為第i日的日用電量;Eˉ為日電量序列的平均值;S0為初始時刻的累計和值;Si-1為第i-1時刻的累計和值。
當(dāng)累計和值序列Si出現(xiàn)3 日以上遞減,且對應(yīng)日電量持續(xù)保持在待機(jī)電量(本文取1.8 kWh[11])以下,則判斷發(fā)生用電連續(xù)間斷事件;當(dāng)累計和值序列出現(xiàn)3 日以上遞增且對應(yīng)日電量大于待機(jī)電量則判定為用電間斷期結(jié)束。兩者的間隔天數(shù)即用電連續(xù)間斷天數(shù),則XII-1表達(dá)式為:
式中:di為第i次用電連續(xù)間斷的天數(shù)。
5)XII-2為近兩年中相鄰用電連續(xù)間斷事件間隔天數(shù)最大值。
該指標(biāo)屬于用電間斷性維度,是區(qū)分長、短租物業(yè)的關(guān)鍵性指標(biāo),XII-2表達(dá)式為:
式中:di~(i+1)為第i次用電連續(xù)間斷事件與第i+1次用電連續(xù)間斷事件的間隔。
處于相同狀態(tài)物業(yè)的用電特征屬性通常處于某一區(qū)間,其特征屬性所屬區(qū)間的組合對應(yīng)該物業(yè)狀態(tài)。因此,需對各項特征屬性的取值劃分區(qū)間[12],進(jìn)而對各屬性取值標(biāo)簽化。特征劃分區(qū)間與對應(yīng)標(biāo)簽如表3 所示。
表3 特征劃分區(qū)間與對應(yīng)標(biāo)簽Table 3 Feature division interval and corresponding label
完成多維度特征的提取和標(biāo)簽化后,需要通過聚類方法劃分出屬于不同物業(yè)狀態(tài)類型的電力客戶群體,形成最終的物業(yè)狀態(tài)畫像。
由于電力客戶物業(yè)居住屬性具有多態(tài)性,且不同物業(yè)狀態(tài)兩兩間區(qū)分度最大的特征維度不盡相同,采用傳統(tǒng)一級聚類難以獲得合理劃分?;谖飿I(yè)狀態(tài)的特點,本文采用多級聚類方法[13-15],多級聚類流程圖如圖1 所示。
圖1 多級聚類流程圖Fig.1 Flow chart of multi-level clustering
由圖1 可知,多級聚類流程中首先選定一個關(guān)注屬性維度,實施一級聚類;若所得劃分未能按表2中的初步判據(jù)對應(yīng)出物業(yè)狀態(tài),則對所得每1 簇再選擇合適的關(guān)注屬性維度實施二級聚類;若二級聚類所獲簇仍不能對應(yīng)出物業(yè)狀態(tài),則再對二級聚類所獲簇選取關(guān)注屬性維度,實施三級聚類。如此推進(jìn),直至能按表2 中的初步判據(jù)對應(yīng)出所有物業(yè)狀態(tài)。
2.2.1 關(guān)注屬性維度權(quán)重設(shè)置
聚類方法的每一級采用客觀賦權(quán)的熵權(quán)法[16-18]來確定關(guān)注屬性維度。計算特征i熵值公式為:
式中:qi為特征i的熵值;m為用戶樣本數(shù);pik為特征特征i中用戶k的比重。
代入特征i的熵值計算熵權(quán)值為:
式中:zi為特征i的熵權(quán)值;NC為所關(guān)注維度內(nèi)的特征集合包含的特征數(shù)。
式(8)確定的熵權(quán)值反映了物業(yè)樣本在屬性i上標(biāo)簽值的差異,差異越大則熵權(quán)值越大[19-20]。將熵權(quán)值最大特征所在維度作為關(guān)注屬性維度,目的是按當(dāng)前層級的簇之間最具區(qū)分度的屬性維度實施聚類。
2.2.2 非關(guān)注屬性維度權(quán)重設(shè)置
每一級聚類時非關(guān)注的屬性維度對于區(qū)分物業(yè)狀態(tài)并非毫無關(guān)系、不可刪除,而是采用互信息法賦予較小的權(quán)重[21]。計算特征i與特征j之間的標(biāo)準(zhǔn)化互信息NMI(i,j)為:
式中:H(i,j)為特征i與特征j的聯(lián)合信息熵;H(i),H(j)分別為特征i和特征j的信息熵。
NMI()i,j的取值范圍為[0,1],它是歸一化后的互信息,反映特征i中包含的關(guān)于特征j的信息量。特征i中包含關(guān)于特征j的信息量越大,取值越接近1;反之,取值越接近0。非關(guān)注維度特征的權(quán)重系數(shù)為該特征與關(guān)注維度內(nèi)各特征的標(biāo)準(zhǔn)化互信息值的加權(quán)平均值為:
式中:zi為非關(guān)注維度特征i的權(quán)重系數(shù);C為關(guān)注維度內(nèi)的特征集合;zj為關(guān)注維度特征j的權(quán)重系數(shù),即關(guān)注維度特征j的熵權(quán)值。
最后,對各維度下所有特征權(quán)重系數(shù)進(jìn)行歸一化得到最終的權(quán)重設(shè)置αi為:
式中:N為所有維度的特征總數(shù);為權(quán)重系數(shù)以自然常數(shù)為底的指數(shù)。
按式(9)—式(11)確定非關(guān)注維度屬性的權(quán)重,本質(zhì)是按與關(guān)注維度屬性的關(guān)聯(lián)性來給非關(guān)注維度屬性賦予權(quán)重,關(guān)聯(lián)性大的賦予較大的權(quán)重。
選取我國南方某市的4 個居民小區(qū)4276 戶用戶實施算例。首先實施多級變權(quán)重聚類,并對畫像結(jié)果準(zhǔn)確性進(jìn)行檢驗,再與采用單次聚類、其他聚類算法的畫像效果分別進(jìn)行對比,驗證所提方法的有效性。
3.1.1 一級聚類結(jié)果
對算例用戶實施多級變權(quán)重聚類。一級聚類中,熵權(quán)值最大的是特征XI-3,故而取用電相似度為關(guān)注維度,一級聚類特征權(quán)重設(shè)置如圖2 所示。
圖2 一級聚類特征權(quán)重設(shè)置Fig.2 First-level clustering feature weight setting
采用K-means 法,輪廓系數(shù)[22-23]最大時最佳聚類數(shù)為2。所得一級聚類中心特征標(biāo)簽值雷達(dá)圖如圖3 所示。
圖3 一級聚類中心特征標(biāo)簽值雷達(dá)圖Fig.3 Radar map of feature label values of first-level cluster center
對照表2 的初判標(biāo)準(zhǔn)可見:
1)I-a 類
相似度維度特征XI-1,XI-2取值偏低,均在1~2,特征XI-3取值偏大,在2~3,反映出較低的年間用電相似度,符合租賃型物業(yè)特征。但其間斷性維度兩個特征均介于1 與2 之間,難以判定短租/長租型。因此還需對I-a 類實施二級聚類。
2)I-b 類
相似度維度特征XI-1,XI-2取值較高,均在2~3;特征XI-3取值較小,為1,反映出較高的年間用電相似度;間斷性維度特征XII-1取值較小,在1~2;特征XII-2取值較大,接近2。因此判斷I-b 類符合固定用戶型物業(yè)特征。
3.1.2 二級聚類結(jié)果
二級聚類采用一級聚類未關(guān)注的間斷性維度,按式(7)—式(11)算得二級聚類特征權(quán)重設(shè)置如圖4 所示。
圖4 二級聚類特征權(quán)重設(shè)置Fig.4 Second level clustering feature weight setting
同樣,采用K-means 聚類,輪廓系數(shù)最大時的最佳聚類數(shù)為2。所得二級聚類中心特征標(biāo)簽值雷達(dá)圖如圖5 所示。
圖5 二級聚類中心特征標(biāo)簽值雷達(dá)圖Fig.5 Radar map of feature label values of second level cluster center
對照表2 的初判標(biāo)準(zhǔn)可見:
1)II-a 類
相似度維度的特征取值符合租賃型物業(yè)特征。間斷性維度中,特征XII-1取值較大為2~3,特征XII-2取值較小為1。反映出II-a 類租期較短,當(dāng)前年存在停租期,符合短期租賃型物業(yè)特征。
2)II-b 類
相似度維度的特征取值同樣符合租賃型物業(yè)特征。間斷性維度中,特征XII-1取值介于1 與2 之間,特征XII-2取值較大為2。反映出租期較長,且僅有部分物業(yè)在當(dāng)前年恰好存在停租期,反映II-b類符合長期租賃型物業(yè)特征。
3.1.3 最終畫像結(jié)果
實施上述多級變權(quán)重聚類方法后,最終得到各物業(yè)狀態(tài)用戶數(shù)及占比如表4 所示。
表4 各物業(yè)狀態(tài)用戶數(shù)及占比Table 4 The number of users and proportion of different property status types
通過查訪算例小區(qū)多家房地產(chǎn)中介和小區(qū)物業(yè),獲得近幾年成交的短租和長租住戶信息,總用戶中除去租賃用戶即為固定住戶。對各物業(yè)狀態(tài)的辨識結(jié)果進(jìn)行分析,分析結(jié)果如表5 所示。
表5 各物業(yè)狀態(tài)的辨識結(jié)果Table 5 Identifications of each property status type
查準(zhǔn)率為辨識結(jié)果與真實物業(yè)狀態(tài)相符的戶數(shù)占總辨識戶數(shù)的比例,用本文所提方法辨識短租型物業(yè),查準(zhǔn)率達(dá)到85.8%;查全率為實際為短租型的住戶中被成功辨識為短租型的戶數(shù)占比,查全率達(dá)到92.9%。本文方法對其余兩類物業(yè)狀態(tài)的辨識效果也達(dá)到或超過了辨識短租型物業(yè)的精度水平,說明所提物業(yè)狀態(tài)畫像方法有較好的辨識效果。
3.3.1 與單次聚類的畫像效果對比
在實施特征指標(biāo)區(qū)間劃分和標(biāo)簽化后,按傳統(tǒng)做法,對5 個特征用熵權(quán)法確定權(quán)重后采用K-means算法實施單次聚類。輪廓系數(shù)最大時的最佳聚類數(shù)為2,所得單次聚類中心特征標(biāo)簽值雷達(dá)圖如圖6 所示。
圖6 單次聚類中心特征標(biāo)簽值雷達(dá)圖Fig.6 Radar map of feature label values of single cluster center
由圖6 可知,I-a 類和I-b 類在特征XI-3稍有區(qū)分度,在其他特征上無明顯區(qū)分度,無法與物業(yè)狀態(tài)類型匹配??梢姡捎脗鹘y(tǒng)的一級聚類無法獲得良好的物業(yè)狀態(tài)畫像結(jié)果,采用多級變權(quán)重聚類實施物業(yè)畫像是必要的。
3.3.2 與其他聚類算法的畫像效果對比
本文在多級變權(quán)重聚類的每一級聚類中采用了K-means 聚類算法,對比方法加入具有噪聲的基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Nouse,DBSCAN)和凝聚層次聚類法[24],在每種算法下分別實施多級變權(quán)重聚類,所得各聚類方法對短租物業(yè)的辨識結(jié)果如表6 所示。由表6 可知,多級變權(quán)重聚類中采用各聚類方法在本算例中的辨識效果差異不大,其中K-means 聚類的效果相對最好。這是由于用戶的用電習(xí)慣存在差異,同種物業(yè)狀態(tài)中存在特征空間中密度較低的點,因此基于劃分的K-means 聚類算法的效果優(yōu)于基于密度的DBSCAN 聚類和基于層次的凝聚聚類。
表6 各聚類方法對短租物業(yè)的辨識結(jié)果Table 6 Identifications of short-term rental property with different clustering methods
3.3.3 與其他指標(biāo)體系下的畫像效果對比
第2 節(jié)針對物業(yè)狀態(tài)用電特點包含2 個維度、5項指標(biāo)的用電特征指標(biāo)體系。為考察所用特征維度的充分性,增加其他特征維度與指標(biāo),如表7 所示。其中,用電水平維度以待機(jī)電量1.8 kWh 為低用電水平和正常用電水平的劃分閾值,用以反映物業(yè)是正常居住還是空置狀態(tài)。由于用電波動性維度的標(biāo)簽化無統(tǒng)一標(biāo)準(zhǔn),因此通過聚類獲得最佳劃分?jǐn)?shù)與劃分區(qū)間,新增特征的標(biāo)簽化如表8 所示。
表7 其他特征維度與指標(biāo)Table 7 New feature dimensions and indicators
表8 新增特征的標(biāo)簽化Table 8 Tagging of new features
在4 個特征維度下,實施基于多級變權(quán)重聚類的物業(yè)狀態(tài)畫像,得到最佳類別數(shù)仍為3,新增特征后識別結(jié)果與表5 一致。新增特征對物業(yè)狀態(tài)的識別結(jié)果未產(chǎn)生影響,說明本文在第2 節(jié)選用的用電相似性維度與用電間斷性維度特征對于解決物業(yè)狀態(tài)畫像問題是充分且合理的。
本文提出一種用于居民物業(yè)狀態(tài)畫像的多級變權(quán)重聚類方法,并在此基礎(chǔ)上得到短租型物業(yè)辨識結(jié)果,算例驗證了所提方法的可行性和準(zhǔn)確性。所提方法有助于電力公司開展預(yù)付費等針對短租型物業(yè)的特殊供電服務(wù),也有助于電力公司更有依據(jù)地處理電費矛盾,保證供電服務(wù)質(zhì)量的同時提高電費回收率。