張保龍 黃海燕
摘 要: 針對(duì)整個(gè)復(fù)雜CLASS全屬性聚類(lèi)的聚類(lèi)算法在聚類(lèi)算法中有較為復(fù)雜的實(shí)現(xiàn)要求,試圖對(duì)社交軟件中較為復(fù)雜的CLASS?USER進(jìn)行整體聚類(lèi)計(jì)算,難度在于將其復(fù)雜屬性體系整合成高維度變量進(jìn)行降維處理。通過(guò)多次連續(xù)的數(shù)據(jù)整理,特別使用了二維模糊矩陣與排序算法實(shí)現(xiàn)快速降維,將高達(dá)13維的高維度變量進(jìn)行降維處理,最終形成一維變量,最后使用常見(jiàn)的K?means聚類(lèi)算法對(duì)該一維變量進(jìn)行聚類(lèi)分析。
關(guān)鍵詞: 全屬性聚類(lèi); 社交軟件; 聚類(lèi)算法; 人脈分析
中圖分類(lèi)號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)09?0126?02
Abstract: Since the whole complex CLASS full?attribute clustering algorithm in clustering algorithms has complicated implementation requirement, the overall clustering computation for the more complex CLASS?USER in social software is tried to carry out, which is difficult to integrate the complex attribute system into the high dimensional variables for dimension reduction processing. The ranking algorithm of two?dimensional fuzzy matrix is particularly used to fast reduce the dimension by means of repeatedly continuous data processing. The dimension reduction processing for the high dimensional variables with 13 dimensions is conducted to form the one?dimensional variable. And then the cluster analysis for the one?dimensional variable is conducted with common K?means clustering algorithm.
Keywords: full?attribute clustering; social software; clustering algorithm; contact analysis
0 引 言
現(xiàn)階段,人脈分析功能已經(jīng)成為當(dāng)前社交軟件中的必備功能[1]。為社交軟件設(shè)計(jì)更加科學(xué)的二度人脈推薦算法,已經(jīng)成為當(dāng)前人脈大數(shù)據(jù)分析的重要任務(wù)。一定程度上,人脈分析智能化程度是評(píng)價(jià)社交軟件智能化程度的重要指標(biāo)[2]。本文軟件是用于在線社區(qū)系統(tǒng)的內(nèi)置交互軟件。本文的設(shè)計(jì)任務(wù)是在當(dāng)前社區(qū)系統(tǒng)USERMNG下設(shè)計(jì)二度人脈聚類(lèi)算法,以分析用戶非主動(dòng)好友關(guān)系中與其關(guān)系更密切的用戶。
1 需求分析
1.1 分析本文系統(tǒng)當(dāng)前的系統(tǒng)模塊
雖然系統(tǒng)目前基于手機(jī)APP運(yùn)行,但其背景數(shù)據(jù)庫(kù)來(lái)自1997年建立的BBS系統(tǒng),所以系統(tǒng)與傳統(tǒng)的交互軟件不同,系統(tǒng)由論壇部分、留言板部分、個(gè)人博客部分三個(gè)交互板塊構(gòu)成交流框架。其中論壇部分所有內(nèi)容都可以被所有用戶瀏覽且可以由所有用戶回復(fù),留言板部分僅可由留言相關(guān)的雙方瀏覽和回復(fù),個(gè)人博客部分僅可由發(fā)帖人指定的用戶瀏覽和回復(fù)[3]。
1.2 分析挖掘數(shù)據(jù)來(lái)源
本文一度人脈來(lái)源分析用戶的好友列表,分析該好友綁定的手機(jī)號(hào)碼是否存在于用戶的手機(jī)電話本中,從而對(duì)好友進(jìn)行一次聚類(lèi)。
本文分析好友瀏覽和回復(fù)其帖子的數(shù)量,同時(shí)分析用戶瀏覽和回復(fù)好友帖子的數(shù)量。分析每天的訪問(wèn)量走勢(shì)??赏诰驍?shù)據(jù)來(lái)源如圖1所示。
2 算法設(shè)計(jì)
2.1 習(xí)慣相似性排序
因?yàn)楸疚南到y(tǒng)已經(jīng)限定每個(gè)用戶最多擁有500個(gè)好友,所以,本文算法的CPU壓力并不大[4],人脈樹(shù)結(jié)構(gòu)較為單一,所以,本文并不采用神經(jīng)網(wǎng)絡(luò)算法[5],而是采用模糊矩陣算法對(duì)用戶的二度好友進(jìn)行歸類(lèi)和推薦。
設(shè)計(jì)三個(gè)變量限定每日用戶使用三個(gè)功能的頻率:USER.BLOG.RATE判斷用戶使用博客功能的頻率;USER.BBS.RATE判斷用戶使用論壇功能的頻率;USER.MSGBD.RATE判斷用戶使用留言板功能的頻率。
3 總 結(jié)
本文算法是常用算法的順序組合,通過(guò)該算法,可以使用較小的CPU和RAM資源實(shí)現(xiàn)復(fù)雜環(huán)境下的CLASS聚類(lèi)[11]。因?yàn)楸疚氖褂玫腃LASS?USER是一個(gè)13維度的高維度變量,本文使用8步計(jì)算將其降為[0,1]區(qū)間上的一維變量[B]值,給最后針對(duì)該[B]值的K?means聚類(lèi)提供了前置條件。
參考文獻(xiàn)
[1] 劉婉.K?means在PHP環(huán)境中的應(yīng)用實(shí)踐研究[J].電腦愛(ài)好者,2014(3):124?126.
[2] 張慶東.探索網(wǎng)頁(yè)腳本中實(shí)現(xiàn)K?means聚類(lèi)的有效途徑[J].軟件學(xué)報(bào),2013(2):66?68.
[3] 胡夏玲.老舊社區(qū)網(wǎng)站實(shí)現(xiàn)手機(jī)APP端轉(zhuǎn)化方法研究[J].系統(tǒng)仿真學(xué)報(bào),2015(1):34?36.
[4] 胡正峰.手機(jī)APP服務(wù)器端數(shù)據(jù)挖掘方法研究[J].模式識(shí)別與人工智能,2014(6):91?93.
[5] 張啟琪.二度人脈計(jì)算方法研究[J].軟件學(xué)報(bào),2014(5):98?99.
[6] 李旭東.神經(jīng)網(wǎng)絡(luò)在二度人脈分析中的應(yīng)用途徑研究[J].電腦愛(ài)好者,2012(1):45?46.
[7] 趙紅霞.分析K?means與神經(jīng)網(wǎng)絡(luò)在二度人脈分析中的軟件效率差異[J].模式識(shí)別與人工智能,2014(6):77?78.
[8] 張玲.常見(jiàn)二度人脈分析算法的軟件效率研究[J].系統(tǒng)仿真學(xué)報(bào),2014(4):36?37.
[9] 劉勇.二度人脈分析算法占用CPU資源的解決方案研究[J].模式識(shí)別與人工智能,2014(3):56?57.
[10] 萬(wàn)紅.較大用戶群的用戶數(shù)據(jù)資源挖掘方式研究[J].電腦愛(ài)好者,2013(6):98?99.
[11] 張霞.分析有限CPU資源模式下的非神經(jīng)網(wǎng)絡(luò)算法在大數(shù)據(jù)挖掘中的應(yīng)用[J].軟件學(xué)報(bào),2015(3):128?129.