陳翀旻 余泓夫 朱迪 唐超 符華 莫梁媛
摘 要:常規(guī)群體劃分模型構(gòu)建方法主要采用二分均值算法,該方法易受到數(shù)據(jù)特征項(xiàng)貢獻(xiàn)度的影響,使得模型的劃分結(jié)果準(zhǔn)確性較低。因此,提出基于k-means聚類算法與多維度特征融合的群體劃分模型。利用k-means聚類算法通過合理設(shè)定密度閾值與鄰域半徑,提取用戶群體的興趣區(qū)域,在興趣區(qū)域中選取貢獻(xiàn)度較大的數(shù)據(jù)特征項(xiàng),并計(jì)算特征項(xiàng)的權(quán)值,以此為依據(jù),采用多維特征融合算法改進(jìn)最大化目標(biāo)函數(shù),以此實(shí)現(xiàn)群體劃分模型的構(gòu)建。實(shí)驗(yàn)結(jié)果顯示,利用所提方法構(gòu)建的群體劃分模型,能夠得到較高的劃分準(zhǔn)確度。
關(guān)鍵詞:k-means聚類算法;多維度特征融合;群體劃分
中圖分類號(hào):TP311.132
文獻(xiàn)標(biāo)志碼:A文章編號(hào):1001-5922(2023)11-0193-04
Group partition model based on k-means clustering algorithm and multi-dimensional feature fusion
CHEN Chongmin,YU Hongfu,ZHU Di,TANG Chao,F(xiàn)U Hua,MO Liangyuan
(Nanning Power Supply Bureau of Guangxi Power Grid Co.,Ltd.,Nanning 530029,China
)
Abstract:The traditional population division model construction method mainly uses the dichotomy mean algorithm,which is vulnerable to the influence of the contribution of data feature items,making the accuracy of the model division result low.Therefore,a group partition model based on k-means clustering algorithm and multi-dimensional feature fusion was proposed.The k-means clustering algorithm was used to extract the interest area of th user group by reasonably setting the density threshold and neighborhood radius,select the data feature items with greater contribution in the interest area,and calculate the weight of the feature items.Based on this,the multi-dimensional feature fusion algorithm was used to improve the maximization objective function,so as to achieve the construction of the group division model.The experimental results showed that the population division model constructed by the proposed method can obtain high classification accuracy.
Key words:k-means clustering algorithm;multidimensional feature fusion;group division
群體交易行為能夠在一定程度上反應(yīng)用戶的交易特點(diǎn)與用戶之間的內(nèi)在相關(guān)性[1-2],更好地分析群體的行為特征,根據(jù)用戶的需求為客戶制定個(gè)性化的服務(wù)策略從而優(yōu)化用戶體驗(yàn),具有重要的現(xiàn)實(shí)意義。當(dāng)前廣泛應(yīng)用的群體交易行為劃分方法包括基于時(shí)序特征的群體劃分[3-5]和基于長(zhǎng)短期記憶網(wǎng)絡(luò)的群體劃分[6-8],前者無法有效處理原始數(shù)據(jù)中的高維屬性數(shù)據(jù)與冗余數(shù)據(jù),使得在分析用戶行為特征時(shí)易受到噪音影響[9-10],后者缺少對(duì)用戶的細(xì)粒度數(shù)據(jù)分析,易受到數(shù)據(jù)特征項(xiàng)貢獻(xiàn)度的影響,上述影響因素導(dǎo)致劃分準(zhǔn)確度不高[11-12]。針對(duì)以上問題,本文提出利用k-means聚類算法與多維度特征融合相結(jié)合的方法來進(jìn)行群體劃分。應(yīng)用傾向強(qiáng)度和相似性系數(shù)計(jì)算特征項(xiàng)的權(quán)重,將權(quán)重計(jì)算結(jié)果作為特征項(xiàng)貢獻(xiàn)度,明確客戶的價(jià)值重要度。
1 基于多維度特征融合的群體劃分
1.1 基于k-means聚類算法的用戶群體興趣區(qū)域提取
設(shè)δ為以C為圓心,R為半徑的鄰域,如果用戶在一定時(shí)間內(nèi)到訪該區(qū)域的次數(shù)達(dá)到指定閾值,則稱該區(qū)域?yàn)橛脩舻囊粋€(gè)興趣區(qū)域,即用戶頻繁選擇的幾個(gè)鄰近位置所構(gòu)成的一個(gè)空間區(qū)域。用戶群體的興趣區(qū)域如圖1所示,其中F1、F2 F3、F4分別表示該興趣區(qū)域中具有不同選擇頻次的4個(gè)被頻繁訪問的位置;節(jié)點(diǎn)的大小表征了其被選擇次數(shù)的多少;C為4個(gè)位置的質(zhì)心,也即該興趣區(qū)域的質(zhì)心。
為精準(zhǔn)提取出用戶群體的興趣區(qū)域,采用k-means聚類算法對(duì)群體的興趣區(qū)域進(jìn)行提?。?3]。k-means聚類算法從密度可達(dá)區(qū)間的角度對(duì)密度閾值和鄰域半徑進(jìn)行合理設(shè)定,并且通過選取合適的聚類數(shù)將相似性較高的數(shù)據(jù)歸為一類,因此,非常適用于本文的群體興趣提取。算法所涉及的鄰域半徑與密度閾值分別對(duì)應(yīng)了興趣區(qū)域定義中的δ和ε,參數(shù)δ用來確定興趣區(qū)域的大小;參數(shù)ε用來確定用戶對(duì)該興趣區(qū)域的感興趣程度。
利用隨機(jī)選取方法在用戶數(shù)據(jù)集中獲取各類簇的聚類中心,利用下式計(jì)算數(shù)據(jù)的輪廓系數(shù)(p):
p=a0+∑MI~=1∑LJ=1aI~J+ε+k(1)
式中:a0表示待估變量;M表示概念產(chǎn)品的屬性;L表示產(chǎn)品的吸引性系數(shù);I~表示概念產(chǎn)品的實(shí)時(shí)變化狀態(tài);J表示概念產(chǎn)品的效用值;aI~J表示初始聚類處理系數(shù);ε表示用戶對(duì)該興趣區(qū)域的感興趣程度;k表示聚類中心數(shù)。
通過對(duì)用戶群體針對(duì)產(chǎn)品選擇的時(shí)間序列與頻次進(jìn)行累加處理,利用k-means聚類算法對(duì)群體興趣區(qū)域的提取,據(jù)此可以有效地進(jìn)行群體劃分特征項(xiàng)權(quán)重計(jì)算。
1.2 群體劃分特征項(xiàng)權(quán)重計(jì)算
貢獻(xiàn)度是指某個(gè)因素對(duì)整體結(jié)果或目標(biāo)的影響程度,可以用于衡量不同因素對(duì)最終結(jié)果的相對(duì)重要性,幫助理解和解釋影響因素的作用??紤]到客戶的重要程度不同,需要了解特征項(xiàng)對(duì)群體劃分結(jié)果的影響程度即特征項(xiàng)的重要性,將貢獻(xiàn)度代作為每個(gè)特征項(xiàng)對(duì)最終的群體劃分結(jié)果的相對(duì)重要性,通過計(jì)算特征項(xiàng)權(quán)重,可以量化特征對(duì)群體劃分的貢獻(xiàn)度,進(jìn)而明確客戶的價(jià)值重要度。因此,將群體劃分特征項(xiàng)的權(quán)重作為計(jì)算中的貢獻(xiàn)度[14-16],選擇傾向強(qiáng)度來計(jì)算特征項(xiàng)的權(quán)重。特征項(xiàng)集合(Fe):
Fe=C|(t1,t2,…,ti)(2)
式中:C表示興趣區(qū)域的質(zhì)心;t1,t2,…,ti表示特征項(xiàng)。
特征項(xiàng)間的語(yǔ)義相似性計(jì)算公式為:
w(ti)=∑Fe×Sti×Iti(3)
式中:Sti表示ti出現(xiàn)的頻率;Iti表示ti的強(qiáng)度系數(shù)。
在計(jì)算特征項(xiàng)權(quán)重時(shí),考慮到特征項(xiàng)間的相似性因素,本文設(shè)置了相似度系數(shù),判斷2個(gè)特征項(xiàng)的相似程度。
使用s(X,Y)表示2個(gè)特征項(xiàng)的相似系數(shù),計(jì)算方法:
s(X,Y)=0.6,1>Sim(A,B)≥0.75
0.0.75>Sim(A,B)≥0(4)
針對(duì)群體興趣區(qū)域C在計(jì)算ti權(quán)重時(shí),考慮到興趣區(qū)域C存在與ti相似的其他鄰域特征項(xiàng)cik。此時(shí),ti權(quán)重ω(ti)的計(jì)算方法:
ω(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2(5)
式中:s(ti,cik)表示特征項(xiàng)與距離中心的相似度系數(shù);N表示數(shù)據(jù)總量。
綜上,在群體興趣區(qū)域中,本文提出的ti權(quán)重綜合計(jì)算公式:
ω′(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2×I(6)
利用上述分析與計(jì)算過程,基于群體興趣區(qū)域,興趣能夠表征群體選擇傾向的特征項(xiàng),并計(jì)算特征項(xiàng)的權(quán)重系數(shù),明確用戶的價(jià)值重要度,為后續(xù)群體劃分模型的構(gòu)建奠定基礎(chǔ)。
1.3 基于多維度特征融合的群體劃分模型構(gòu)建
在進(jìn)行群體興趣區(qū)域的提取與特征項(xiàng)權(quán)重計(jì)算后,利用多維度特征融合算法構(gòu)建群體劃分模型[17-18]。
(1)在獲取特征項(xiàng)權(quán)重后,需要分析驗(yàn)證用戶行為特征數(shù)據(jù),以獲取群體劃分依據(jù)。但由于特征項(xiàng)權(quán)重計(jì)算主要是通過興趣空間質(zhì)心和相似系數(shù)確定的,因此原數(shù)據(jù)可能存在噪聲因素、偏倚情況,對(duì)群體交易行為劃分的準(zhǔn)確性產(chǎn)生不良影響。因此,需要根據(jù)特征項(xiàng)權(quán)重計(jì)算結(jié)果,對(duì)特征數(shù)據(jù)進(jìn)行預(yù)處理,濾除冗余數(shù)據(jù),獲取標(biāo)準(zhǔn)化結(jié)果,其公式為:
Q′i=ω°(ti)ω°(ti)max-ω°(ti)min(7)
式中:Q′i表示特征數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果;ω°(ti)表示特征項(xiàng)初始權(quán)重;ω°(ti)min、ω°(ti)max分別表示初始權(quán)重的最小值與最大值。
(2)由于數(shù)據(jù)預(yù)處理僅能濾除原數(shù)據(jù)中的冗余數(shù)據(jù)和干擾因素,但原數(shù)據(jù)中會(huì)包含大量特征或?qū)傩缘臄?shù)據(jù)集,導(dǎo)致用戶交易行為劃分的計(jì)算量較大,無法以統(tǒng)一維度進(jìn)行數(shù)據(jù)的處理,甚至還會(huì)出現(xiàn)部分?jǐn)?shù)據(jù)缺失的情況[19-20]。因此,在完成數(shù)據(jù)預(yù)處理后,需要處理原數(shù)據(jù)中的高維數(shù)據(jù),統(tǒng)一數(shù)據(jù)維度,本文對(duì)特征數(shù)據(jù)制定半局部策略,將數(shù)據(jù)按維度分類為一階數(shù)據(jù)與二階數(shù)據(jù),以保證數(shù)據(jù)的完整性。
(3)對(duì)一階數(shù)據(jù)與二階數(shù)據(jù)執(zhí)行新的融合策略,以強(qiáng)化時(shí)間序列的提取能力,計(jì)算公式為:
R=12m∑
Aij-didj2m(8)
式中:m表示鄰域邊數(shù);Aij表示鄰接矩陣;di、dj分別表示對(duì)應(yīng)連接節(jié)點(diǎn)的分布概率。
(4)將特征向量中異質(zhì)性的數(shù)據(jù)予以剔除,僅保留同質(zhì)性數(shù)據(jù),之后對(duì)其余數(shù)據(jù)進(jìn)行多維特征融合計(jì)算,即:
α(i)=Q′i∑R(9)
式中:Q′i表示特征項(xiàng)數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果;R表示局部策略。
(5)更新數(shù)據(jù)融合目標(biāo)函數(shù)。表征多維度屬性信息與參數(shù)信息能夠同步進(jìn)行融合,則得出改進(jìn)后的最大化目標(biāo)函數(shù)為:
S=1m∑α(i)γ(ci,cj)(10)
式中:γ(ci,cj)表示節(jié)點(diǎn)i與節(jié)點(diǎn)j屬于同一個(gè)鄰域。
(6)以最大化目標(biāo)函數(shù)作為合并標(biāo)準(zhǔn),利用式(11)計(jì)算不同時(shí)段特征向量的融合結(jié)果,并將所有結(jié)構(gòu)進(jìn)行合并,得到群體劃分模型為:
Gij=Sα(i)/xa∑Sα(i)ω°(ti)max(11)
式中:xa表示特征數(shù)據(jù)的待標(biāo)定參數(shù)。
上式即為本文建立的群體劃分模型,至此,完成基于多維特征融合算法的群體劃分模型的構(gòu)建。
2 實(shí)驗(yàn)論證分析
2.1 實(shí)驗(yàn)準(zhǔn)備
實(shí)驗(yàn)中選取的數(shù)據(jù)為某電力公司的50萬用戶在2020年10月的關(guān)于電力產(chǎn)品需求的瀏覽記錄。數(shù)據(jù)以CSV文件格式進(jìn)行存儲(chǔ),共包含500萬條記錄。
2.2 實(shí)驗(yàn)說明
利用本文提出的k-means聚類算法對(duì)用戶群體的興趣區(qū)域進(jìn)行提取,設(shè)定算法中的鄰域半徑與密度閾值分別為20和0.2,最優(yōu)聚類個(gè)數(shù)為5,輪廓系數(shù)值為0.5,大小比率為5.63,實(shí)驗(yàn)數(shù)據(jù)維度為500×365×4,每個(gè)樣本與各初始質(zhì)心的距離均為10?;诳蛻舻膬r(jià)值需求進(jìn)行興趣區(qū)域提取,提取過程如圖2所示。
2.3 模型應(yīng)用結(jié)果分析
根據(jù)實(shí)驗(yàn)數(shù)據(jù)的所屬標(biāo)簽,實(shí)驗(yàn)選取3 500個(gè)用戶數(shù)據(jù)劃分為4類,分別定義為A、B、C、D類。A類表示交易頻繁用戶;B類表示高價(jià)值用戶;C類表示中價(jià)值用戶;D類表示低價(jià)值用戶。參照群體劃分模型中特征項(xiàng)的計(jì)算規(guī)則,以此計(jì)算不同特征數(shù)據(jù)的權(quán)重,最后通過閾值判斷用戶群體數(shù)據(jù)的所屬類別,并與真實(shí)類別進(jìn)行比較,評(píng)估本文構(gòu)建的模型的劃分準(zhǔn)確性,劃分模型的應(yīng)用結(jié)果如圖3所示。
由圖3可知,利用本文構(gòu)建的群體劃分模型對(duì)實(shí)驗(yàn)數(shù)據(jù)中的用戶類別進(jìn)行劃分,其輸出值與真實(shí)值基本一致。其中對(duì)于B類的劃分得到的劃分準(zhǔn)確率為100%。由于文中所提群體劃分模型構(gòu)建方法能夠根據(jù)用戶交易行為特點(diǎn)對(duì)用戶群體的價(jià)值需求進(jìn)行分析,從而獲得更好的劃分結(jié)果。
2.4 模型劃分準(zhǔn)確性對(duì)比試驗(yàn)分析
為體現(xiàn)本文設(shè)計(jì)的群體劃分模型構(gòu)建方法的整體優(yōu)越性,采用基于時(shí)序特征的群體劃分模型(方法1)、基于長(zhǎng)短期記憶網(wǎng)絡(luò)的群體劃分模型構(gòu)建方法(方法2)與文中設(shè)計(jì)的方法進(jìn)行仿真對(duì)比試驗(yàn)。三種模型的劃分準(zhǔn)確性結(jié)果對(duì)比如圖4所示。
由圖4可知,與另外2種劃分模型相比,本文提出的基于k-means聚類算法與多維度特征融合的劃分模型得到了最高的劃分準(zhǔn)確率,在樣本數(shù)量為50時(shí),本文模型取得了96.8%的劃分準(zhǔn)確率。對(duì)比實(shí)驗(yàn)結(jié)果表明,文中所提的群體劃分建模方法是有效可行的。
3 結(jié)語(yǔ)
本文利用k-means聚類算法與多維度特征融合的綜合算法對(duì)用戶群體的主體特征與行為模式進(jìn)行分析,基于用戶興趣區(qū)域與特征項(xiàng)權(quán)重構(gòu)建群體劃分模型,以明確不同類型用戶的行為特征,以此來確定用戶群體的類別,為企業(yè)推行個(gè)性化服務(wù)提供決策依據(jù)。
【參考文獻(xiàn)】
[1] 李金武,王清珍.基于融合云模型分析的時(shí)間序列概念劃分方法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,34(3):54-60.
[2] 郭曉軍,王云峰,朱亮.基于時(shí)序特征提取的用戶群體劃分模型[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2021,16(6):592-598.
[3] 江兵,李國(guó)榮,孫趙盟,等.基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和改進(jìn)型k-means聚類算法的居民峰谷時(shí)段劃分模型[J].現(xiàn)代電力,2021,38(6):620-629.
[4] 許偉佳,秦永彬,黃瑞章,等.基于DMA與特征劃分的多源文本主題模型[J].計(jì)算機(jī)工程,2021,47(7):59-66.
[5] 黃艷國(guó),張升升,劉紅軍.基于高斯混合模型聚類算法的交通狀態(tài)劃分[J].現(xiàn)代電子技術(shù),2022,45(7):168-173.
[6] 袁健,王姍姍,羅英偉.基于圖像視野劃分的公共場(chǎng)所人群計(jì)數(shù)模型[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):1256-1260.
[7] 曾四鳴,李鐵成,李順,等.基于改進(jìn)型密度峰值算法的電力負(fù)荷聚類分析[J].科學(xué)技術(shù)與工程,2022,22(25):11032-11040.
[8] 張曉紅,張欣,石冠男,等.基于馬爾可夫過程的多部件系統(tǒng)劣化狀態(tài)空間劃分模型[J].控制與決策,2021,36(2):418-428.
[9] 楊資集,潘雁,祝躍飛,等.基于概率模型的二進(jìn)制協(xié)議字段劃分方法[J].計(jì)算機(jī)科學(xué),2022,49(10):319-326.
[10] 于晗,蔡鴻明,張翼飛,等.基于增量式流處理的自適應(yīng)群體劃分方法[J].計(jì)算機(jī)學(xué)報(bào),2020,43(12):2337-2351.
[11] 孫勁光,李桃,董祥軍.屬性一致的物體輪廓?jiǎng)澐帜P停跩].電子與信息學(xué)報(bào),2021,43(10):2985-2992.
[12] 李俊,葉楊,何世東.基于城市用地規(guī)劃的微網(wǎng)格劃分模型研究[J].廣東通信技術(shù),2021,41(7):47-49.
[13] 雷翔勝,王興華.基于變電能力提升和電源接入質(zhì)量的優(yōu)化設(shè)計(jì)[J].粘接,2022,49(10):158-160.
[14] 高虹雷,門昌騫,王文劍.一種特征值區(qū)間劃分的模型決策樹加速算法[J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(6):1136-1143.
[15] 張夢(mèng)瑤,朱廣麗,張順香,等.基于情感分析的微博熱點(diǎn)話題用戶群體劃分模型[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(2):43-49.
[16] 劉渝琳,司緒,宋琳璇,等.收入群體的持續(xù)期與退出風(fēng)險(xiǎn)估計(jì)——基于EM算法的收入群體劃分[J].統(tǒng)計(jì)研究,2021,38(5):121-135.
[17] 常兵.融合多維度特征的特定領(lǐng)域新詞發(fā)現(xiàn)方法[J].自動(dòng)化應(yīng)用,2023,64(8):159-162.
[18] 高云梅,張淑慧.基于信息檢索與K均值聚類的化工產(chǎn)品精準(zhǔn)推薦算法研究[J].粘接,2023,50(3):132-135.
[19] 楊長(zhǎng)沛,廖列法.基于門控空洞卷積特征融合的中文命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程,2023,49(8):85-95.
[20] 杜濤,王朝龍,朱靖,等.基于聚類算法的變壓設(shè)備運(yùn)行數(shù)據(jù)監(jiān)測(cè)與異常檢測(cè)技術(shù)[J].粘接,2022,49(12):137-140.
收稿日期:2023-09-10;修回日期:2023-10-09
作者簡(jiǎn)介:陳翀旻(1980-),男,工程師,研究方向:電力系統(tǒng)自動(dòng)化;E-mail:Cchongm@163.com。
引文格式:陳翀旻,余泓夫,朱 迪,等.基于k-means聚類算法與多維特征融合的群體劃分模型[J].粘接,2023,50(11):193-196.