刁雅靜,吳嘉輝,盧 健,王志英,朱慶康
(江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院, 鎮(zhèn)江 212100)
隨著社交媒體的快速發(fā)展,越來(lái)越多的用戶(hù)喜歡通過(guò)微博和微信等平臺(tái)發(fā)表自己的觀點(diǎn).然而無(wú)限制的網(wǎng)絡(luò)信息交互導(dǎo)致了用戶(hù)無(wú)目的搜索,以及平臺(tái)商家無(wú)法實(shí)現(xiàn)服務(wù)的精準(zhǔn)推薦等問(wèn)題.以主題公園社交平臺(tái)為例,主題公園商家無(wú)法準(zhǔn)確獲知游客用戶(hù)的偏好需求,同時(shí)游客用戶(hù)也無(wú)法精確了解主題公園商家提供的服務(wù)[1].究其原因是對(duì)用戶(hù)偏好識(shí)別不準(zhǔn)確,對(duì)用戶(hù)人群劃分的判斷方法存在缺陷.為了更加準(zhǔn)確識(shí)別用戶(hù)偏好和社區(qū)劃分,學(xué)者們開(kāi)始研究相關(guān)算法的改進(jìn).文獻(xiàn)[2-4]將自然語(yǔ)言處理技術(shù)與數(shù)據(jù)科學(xué)技術(shù)相結(jié)合,設(shè)定相關(guān)領(lǐng)域的情感詞表,通過(guò)對(duì)比預(yù)處理后的文本與情感詞語(yǔ)實(shí)現(xiàn)對(duì)用戶(hù)情感喜好的分析研究,進(jìn)而識(shí)別用戶(hù)偏好和進(jìn)行社區(qū)劃分.文獻(xiàn)[5-6]考慮時(shí)間的因素前提下使用動(dòng)態(tài)聚類(lèi)算法,實(shí)時(shí)跟蹤用戶(hù)偏好需求的變化,挖掘和識(shí)別用戶(hù)需求偏好.還有學(xué)者使用數(shù)據(jù)庫(kù)存儲(chǔ)的大規(guī)模用戶(hù)信息數(shù)據(jù)和行為數(shù)據(jù)來(lái)合理有效的提取用戶(hù)的短期需求和長(zhǎng)期興趣,進(jìn)而實(shí)現(xiàn)識(shí)別用戶(hù)偏好[7],以及基于Folksonomy的分布式分類(lèi)系統(tǒng)中的用戶(hù)偏好識(shí)別問(wèn)題研究[8-9].多數(shù)研究聚焦領(lǐng)域知識(shí)和行業(yè)經(jīng)驗(yàn),在原先基礎(chǔ)上改進(jìn)模型或者根據(jù)需要構(gòu)建新的適用性模型,探尋更優(yōu)的發(fā)現(xiàn)用戶(hù)社區(qū)的方法,進(jìn)而實(shí)現(xiàn)用戶(hù)社區(qū)劃分[10-12].上述研究中聚類(lèi)方法多是對(duì)象的社區(qū)劃分聚類(lèi),較少涉及對(duì)象屬性的領(lǐng)域劃分聚類(lèi),進(jìn)行對(duì)象社區(qū)劃分與屬性領(lǐng)域劃分的層次性耦合聚類(lèi)的相關(guān)研究較少;在用戶(hù)偏好識(shí)別特征選取算法中,目前的研究主要運(yùn)用基于聚類(lèi)以及基于遺傳算法等特征選擇方法來(lái)實(shí)現(xiàn)屬性維度的約減,這樣可能會(huì)導(dǎo)致特征選擇性能不高、精確度較低、魯棒性較差以及運(yùn)算量大的現(xiàn)象發(fā)生,直接導(dǎo)致選取的屬性特征質(zhì)量較差,最終影響實(shí)驗(yàn)結(jié)論的準(zhǔn)確性和實(shí)驗(yàn)理論的實(shí)用性[13-15].基于此,文中基于主題公園社交媒體平臺(tái)的用戶(hù)客觀行為數(shù)據(jù),挖掘用戶(hù)及其偏好屬性之間的耦合關(guān)聯(lián)關(guān)系,構(gòu)建基于耦合聚類(lèi)的用戶(hù)社區(qū)劃分模型;同時(shí)通過(guò)運(yùn)用隨機(jī)森林算法實(shí)現(xiàn)特征選擇,依托模型尋找到最優(yōu)的閾值,實(shí)現(xiàn)偏好領(lǐng)域最優(yōu)劃分,進(jìn)而解決用戶(hù)偏好識(shí)別和用戶(hù)社區(qū)劃分的問(wèn)題.
社交媒體用戶(hù)依據(jù)自身的需求偏好或者根據(jù)其對(duì)其他社交媒體用戶(hù)生成內(nèi)容產(chǎn)生的認(rèn)同和反駁行為,進(jìn)行交流互動(dòng),主動(dòng)生成用戶(hù)行為數(shù)據(jù).用戶(hù)通過(guò)社交媒體平臺(tái)積極主動(dòng)表達(dá)自己的需求,進(jìn)而產(chǎn)生真實(shí)可靠歷史和實(shí)時(shí)行為數(shù)據(jù),通過(guò)分詞、去停詞等數(shù)據(jù)預(yù)處理操作實(shí)現(xiàn)行為數(shù)據(jù)中偏好主題詞的提取.以行為參與者用戶(hù)為行、偏好主題詞為列構(gòu)成“用戶(hù)—偏好主題詞”二維矩陣.該矩陣有兩個(gè)主要的數(shù)據(jù)特征:① 不同的偏好范圍可形成層次性的游客用戶(hù)社區(qū).即不同的用戶(hù)對(duì)于同種偏好范圍有著相同的喜好和關(guān)注,那么依據(jù)相同的偏好主題詞就可以將這些用戶(hù)劃分在同一個(gè)用戶(hù)社區(qū)內(nèi),實(shí)現(xiàn)用戶(hù)社區(qū)劃分.② 不同社區(qū)的用戶(hù)之間可能有多個(gè)相同的偏好主題詞,因此用戶(hù)之間所涉及到的偏好范圍具有層次性和交叉性.由于文中的數(shù)據(jù)不符合連續(xù)正態(tài)分布(排除使用皮爾遜相關(guān)性計(jì)算),同時(shí)文中數(shù)據(jù)構(gòu)建的向量為稀疏詞語(yǔ)空間向量,因?yàn)橛嘞蚁嗨贫仍谔幚碓~語(yǔ)空間向量和稀疏向量之間有著非常好的效果,所以此處相似性策略選擇余弦相似度.
1.2.1 基于偏好主題的用戶(hù)社區(qū)劃分
從由用戶(hù)的主動(dòng)交互生成內(nèi)容構(gòu)建起的“用戶(hù)—偏好主題詞”矩陣中,提取出用偏好主題詞構(gòu)成的用戶(hù)向量,采取余弦相似性算法策略計(jì)算用戶(hù)之間的相關(guān)性,在充分考慮用戶(hù)和偏好主題詞之間的關(guān)聯(lián)影響關(guān)系的基礎(chǔ)上,運(yùn)用層次性耦合聚類(lèi)的方法較為精確劃分用戶(hù)社區(qū),直到滿足耦合停止的條件,即停止耦合迭代聚類(lèi),此時(shí)耦合聚類(lèi)的結(jié)果即是實(shí)驗(yàn)的最終結(jié)果.基于偏好主題的用戶(hù)社區(qū)劃分算法如表1.
表1 基于偏好主題的用戶(hù)社區(qū)劃分
1.2.2 基于用戶(hù)的偏好主題相關(guān)性分析
從由用戶(hù)的主動(dòng)交互生成內(nèi)容構(gòu)建起的“用戶(hù)—偏好主題詞”矩陣中,提取出由用戶(hù)構(gòu)成的偏好主題詞向量,采取余弦相似性算法策略計(jì)算偏好主題詞之間的相似性,在充分考慮用戶(hù)和偏好主題詞之間的關(guān)聯(lián)影響關(guān)系的基礎(chǔ)上,運(yùn)用層次性耦合聚類(lèi)的方法較為準(zhǔn)確的識(shí)別用戶(hù)偏好,直到滿足耦合停止的條件,即停止耦合迭代聚類(lèi),此時(shí)耦合聚類(lèi)結(jié)果即是實(shí)驗(yàn)的最終結(jié)果.基于用戶(hù)偏好主題相關(guān)性分析算法如表2.
表2 基于用戶(hù)的偏好主題相關(guān)性分析
通過(guò)典型的社交媒體用戶(hù)生成內(nèi)容平臺(tái)“百度貼吧”“百度指數(shù)”的數(shù)據(jù),對(duì)典型的主題公園企業(yè)“成都?xì)g樂(lè)谷”的用戶(hù)偏好進(jìn)行耦合聚類(lèi)識(shí)別,在耦合聚類(lèi)實(shí)驗(yàn)中,分別以用戶(hù)社區(qū)劃分和偏好主題詞領(lǐng)域劃分為兩個(gè)起點(diǎn),通過(guò)游客用戶(hù)與偏好主題詞之間的耦合聚類(lèi),實(shí)現(xiàn)用戶(hù)社區(qū)的逐層精細(xì)劃分和游客用戶(hù)偏好的逐層準(zhǔn)確識(shí)別.基于層次耦合聚類(lèi)的用戶(hù)偏好識(shí)別模型驗(yàn)證流程如圖1.
圖1 基于層次耦合聚類(lèi)的用戶(hù)偏好識(shí)別流程
通過(guò)Python語(yǔ)言與Scrapy框架相結(jié)合的方法爬取1 045條典型社交媒體“百度貼吧”中的“成都?xì)g樂(lè)谷貼吧”的數(shù)據(jù).使用Python3.5中的Jieba模塊實(shí)現(xiàn)分詞處理,在實(shí)驗(yàn)中,不斷修正Jieba模塊中的Dict文件,提高了分詞的準(zhǔn)確性,取得較好的分詞結(jié)果,進(jìn)而生成準(zhǔn)確的“游客用戶(hù)—偏好主題詞”矩陣.在二維矩陣基礎(chǔ)上,將其中意思相同特征屬性(即意思相同的偏好主題詞)組合合并,實(shí)現(xiàn)屬性維度的初步約減.最后通過(guò)相關(guān)網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)預(yù)處理技術(shù)獲得571條游客用戶(hù)數(shù)據(jù)和381條偏好主題詞數(shù)據(jù),構(gòu)建571×381二維矩陣.
(1) 基于偏好主題的游客用戶(hù)社區(qū)劃分
游客在社交平臺(tái)“成都?xì)g樂(lè)谷貼吧”中貢獻(xiàn)的實(shí)時(shí)和歷史行為數(shù)據(jù)反映了游客用戶(hù)需求.通過(guò)耦合聚類(lèi)的方法(根據(jù)偏好主題詞對(duì)游客用戶(hù)聚類(lèi)→根據(jù)游客用戶(hù)對(duì)偏好主題詞聚類(lèi)→再根據(jù)偏好主題詞對(duì)游客用戶(hù)聚類(lèi)),選取特定類(lèi)別進(jìn)行研究,從而挖掘游客用戶(hù)間的潛在聯(lián)系以及對(duì)應(yīng)的興趣偏好,實(shí)現(xiàn)用戶(hù)社區(qū)更精確的劃分:① 計(jì)算游客用戶(hù)向量相關(guān)系數(shù)矩陣.根據(jù)381個(gè)詞語(yǔ)構(gòu)成的游客用戶(hù)向量,計(jì)算游客用戶(hù)向量之間的余弦相關(guān)系數(shù),得到相關(guān)系數(shù)矩陣.② 根據(jù)相關(guān)系數(shù)將用戶(hù)聚類(lèi).將游客用戶(hù)聚成6類(lèi),選取其中的特定游客用戶(hù)社區(qū)為代表性研究對(duì)象.③ 計(jì)算偏好主題詞語(yǔ)向量相關(guān)系數(shù)矩陣.提取其中46個(gè)游客用戶(hù),將其與原先381個(gè)偏好主題詞構(gòu)成46×381矩陣,通過(guò)計(jì)算46個(gè)游客用戶(hù)組成的381個(gè)偏好主題詞的稀疏向量之間的余弦相關(guān)度,得到詞語(yǔ)相關(guān)系數(shù)矩陣.④ 根據(jù)詞語(yǔ)相關(guān)系數(shù)實(shí)現(xiàn)偏好主題領(lǐng)域劃分.再一次進(jìn)行聚類(lèi),將381個(gè)偏好主題詞聚成5類(lèi),選取其中的特定偏好主題詞領(lǐng)域作為代表性研究對(duì)象.⑤ 最終依據(jù)上面結(jié)果再次劃分特定游客用戶(hù)社區(qū).提取其中的56個(gè)偏好主題詞,將其與之前的46個(gè)游客用戶(hù),組成46×56矩陣.通過(guò)56個(gè)偏好主題詞構(gòu)成的46個(gè)用戶(hù)向量,計(jì)算游客用戶(hù)之間的余弦相關(guān)系數(shù),構(gòu)成相關(guān)系數(shù)矩陣,進(jìn)行第三次聚類(lèi).此時(shí),將游客用戶(hù)聚成兩類(lèi),當(dāng)調(diào)整閾值的時(shí)候,彼此之間關(guān)聯(lián)邊依舊沒(méi)有改變,說(shuō)明此時(shí)游客用戶(hù)之間的關(guān)聯(lián)性較高,符合迭代停止條件,最終實(shí)現(xiàn)更精確的用戶(hù)社區(qū)劃分.耦合聚類(lèi)結(jié)果如圖2.
圖2 第三次耦合聚類(lèi)后的特定游客用戶(hù)社區(qū)(包含31位游客用戶(hù))
(2) 基于游客用戶(hù)的偏好主題相關(guān)性分析
分詞處理后的詞語(yǔ),即偏好主題詞,是游客用戶(hù)需求偏好的直接體現(xiàn).需求偏好的識(shí)別是關(guān)聯(lián)分析的基礎(chǔ),因此,通過(guò)耦合聚類(lèi)的方法,根據(jù)游客用戶(hù)貢獻(xiàn)的實(shí)時(shí)和歷史行為數(shù)據(jù)更加精確識(shí)別游客用戶(hù)的需求偏好,就變得尤為重要.① 計(jì)算偏好主題詞向量相似性矩陣.利用余弦定理計(jì)算571個(gè)游客用戶(hù)構(gòu)成的381條偏好主題詞稀疏向量之間的余弦相似性,構(gòu)成詞語(yǔ)相似系數(shù)矩陣.② 根據(jù)相關(guān)系數(shù)矩陣,進(jìn)行第一次聚類(lèi),選取其中特定偏好主題詞領(lǐng)域作為研究對(duì)象.③ 提取其中34個(gè)詞語(yǔ),計(jì)算34條由偏好主題詞構(gòu)成的571條游客用戶(hù)向量之間的余弦相關(guān)系數(shù).④ 根據(jù)余弦相關(guān)系數(shù),調(diào)整邊值使用戶(hù)之間達(dá)到最優(yōu)分布,通過(guò)余弦相關(guān)系數(shù)實(shí)現(xiàn)第二次聚類(lèi),選取特定游客用戶(hù)社區(qū)作為研究對(duì)象.⑤ 提取其中的45個(gè)游客用戶(hù),計(jì)算由45個(gè)游客用戶(hù)組成的34條偏好主題詞稀疏向量,通過(guò)余弦定理計(jì)算偏好主題詞之間的相似性,構(gòu)成相關(guān)系數(shù)矩陣.⑥ 通過(guò)偏好主題詞之間的相關(guān)系數(shù),進(jìn)行第3次聚類(lèi),根據(jù)行業(yè)領(lǐng)域知識(shí)和生活經(jīng)驗(yàn)得出此時(shí)的聚類(lèi)結(jié)果已經(jīng)符合停止迭代條件,最終的偏好主題詞領(lǐng)域劃分更加準(zhǔn)確的展現(xiàn)用戶(hù)的需求偏好.耦合聚類(lèi)包含15個(gè)偏好主題詞,如圖3.
在確定目標(biāo)特征屬性的前提下,通過(guò)KNN分類(lèi)、logistic回歸分類(lèi)、SVM分類(lèi)以及隨機(jī)森林分類(lèi)4種分類(lèi)算法的數(shù)據(jù)處理,比較不同閾值下的十折交叉驗(yàn)證的平均AUC數(shù)值,選取最優(yōu)閾值再進(jìn)行聚類(lèi)分析,進(jìn)而完成最優(yōu)偏好領(lǐng)域劃分.
根據(jù)隨機(jī)森林特征選擇方法得到貢獻(xiàn)度最大的75個(gè)偏好主題詞屬性和目標(biāo)屬性特征“享受”,共同構(gòu)建起571×76的二維二分矩陣.在二維矩陣的基礎(chǔ)上,規(guī)定偏好領(lǐng)域劃分的領(lǐng)域數(shù)量為3,偏好領(lǐng)域閾值從0.1取到0.9,隨后在分類(lèi)模型中再分別對(duì)不同的閾值使用十折交叉驗(yàn)證的方式計(jì)算出偏好領(lǐng)域的AUC數(shù)值,比較不同模型不同閾值下的AUC平均值,最終實(shí)現(xiàn)偏好主題詞領(lǐng)域的最優(yōu)劃分.研究選擇平均AUC數(shù)值作為選取最優(yōu)閾值的依據(jù)指標(biāo).從隨機(jī)森林特征選擇中提取出對(duì)于目標(biāo)屬性特征“享受”貢獻(xiàn)度最大的75條詞語(yǔ)向量.
(1) 根據(jù)KNN分類(lèi)模型算法選取最優(yōu)聚類(lèi)閾值.
由圖4可知,在KNN分類(lèi)模型前提下,分別從0.1取到0.9閾值,可以計(jì)算得到10折(從左到右依次為1~10折)交叉驗(yàn)證中折數(shù)對(duì)應(yīng)著的AUC平均值.依托最大AUC平均值0.79(精確到兩位小數(shù),下同)選取出最優(yōu)閾值為0.4,進(jìn)而可以達(dá)到偏好關(guān)鍵詞領(lǐng)域的最優(yōu)劃分.
圖4 基于KNN模型的平均AUC數(shù)值
(2) 根據(jù)logistic分類(lèi)模型算法選取最優(yōu)聚類(lèi)閾值.由圖5(從左到右依次為1~10折)可以看出,在logistic回歸模型前提下,依據(jù)最大的AUC平均值0.74選取出偏好領(lǐng)域劃分的最優(yōu)閾值為0.9.在閾值取0.9的情況下,因?yàn)榇蟛糠制弥黝}詞之間的相關(guān)度都低于0.9,偏好關(guān)鍵詞領(lǐng)域劃分只能達(dá)到2類(lèi),無(wú)法達(dá)到3類(lèi),所以領(lǐng)域劃分的效果不好.因此本研究數(shù)據(jù)使用logistic回歸分類(lèi)模型選取最優(yōu)閾值的效果較差.
圖5 基于logistic模型的平均AUC數(shù)值
(3) 根據(jù)SVM分類(lèi)模型算法選取最優(yōu)聚類(lèi)閾值.由圖6可以看出,在SVM回歸模型前提下,依據(jù)最大的AUC平均值0.81選取出偏好領(lǐng)域劃分的最優(yōu)閾值0.2(從左到右閾值依次為0.1~0.9).SVM分類(lèi)模型以“享受”為分類(lèi)目標(biāo)屬性特征選取0.2為最優(yōu)閾值,將詞語(yǔ)分成3個(gè)偏好主題詞領(lǐng)域(剔除閾值小于0.2不相關(guān)的節(jié)點(diǎn)),可以看出閾值降低的情況下偏好主題詞節(jié)點(diǎn)明顯增加.
圖6 基于SVM模型的平均AUC數(shù)值
(4) 根據(jù)RF(隨機(jī)森林)分類(lèi)模型算法選取最優(yōu)聚類(lèi)閾值.由圖7(從左到右依次為1~10折)可以看出,在隨機(jī)森林模型前提下,依據(jù)最大的AUC平均值0.82選取出偏好領(lǐng)域劃分的最優(yōu)閾值0.3.RF分類(lèi)模型以“享受”為分類(lèi)目標(biāo)屬性特征選取0.3為最優(yōu)閾值,將詞語(yǔ)分成3個(gè)偏好主題詞領(lǐng)域(剔除閾值小于0.3不相關(guān)的節(jié)點(diǎn)),相較于SVM分類(lèi)模型結(jié)果沒(méi)有較大的變化,雖然偏好主題詞節(jié)點(diǎn)數(shù)變少,3個(gè)領(lǐng)域結(jié)果內(nèi)容都類(lèi)似于SVM分類(lèi)模型實(shí)驗(yàn)結(jié)果.
圖7 基于隨機(jī)森林模型的平均AUC數(shù)值
綜上所述,在耦合聚類(lèi)模型的驗(yàn)證中,不同的分類(lèi)模型可能對(duì)應(yīng)不同的閾值,需要根據(jù)更加具體的實(shí)際應(yīng)用要求決定最終的閾值選取.此外,因?yàn)槲闹袑?shí)驗(yàn)的0.9閾值的偏好領(lǐng)域劃分的效果較差,所以實(shí)驗(yàn)過(guò)程中也要注意數(shù)據(jù)特征對(duì)于分類(lèi)模型的適用性.
(1) 通過(guò)考慮用戶(hù)偏好主題詞的層次性關(guān)聯(lián)關(guān)系和用戶(hù)社區(qū)與偏好主題詞領(lǐng)域之間的耦合關(guān)系,提出了層次耦合聚類(lèi)分析方法,以特殊“迭代”的形式,實(shí)現(xiàn)了用戶(hù)社區(qū)劃分和偏好主題詞領(lǐng)域劃分的耦合性聚類(lèi),揭示了用戶(hù)社區(qū)及偏好主題的多樣性及新穎性.
(2) 通過(guò)先分類(lèi)再聚類(lèi)的邏輯進(jìn)行模型驗(yàn)證,以AUC作為閾值選擇的依據(jù),避免傳統(tǒng)意義上人為規(guī)定閾值出現(xiàn)的誤差,排除了部分人為因素的影響,進(jìn)而使實(shí)驗(yàn)的最終結(jié)論具有更好的說(shuō)服力和可信度.