諶裕勇
摘 要:為了提高對(duì)用戶行為特征挖掘能力,需要對(duì)用戶行為特征多維度文本數(shù)據(jù)進(jìn)行優(yōu)化聚類處理,提出一種基于聯(lián)合半監(jiān)督學(xué)習(xí)的大數(shù)據(jù)聚類算法。采用分段線性擬合方法進(jìn)行用戶行為特征大數(shù)據(jù)線性規(guī)劃處理,提取用戶行為特征大數(shù)據(jù)的互信息特征量,結(jié)合聯(lián)合關(guān)聯(lián)規(guī)則檢測方法進(jìn)行用戶行為特征多維度文本數(shù)據(jù)的統(tǒng)計(jì)分析,構(gòu)建大數(shù)據(jù)分布的關(guān)聯(lián)屬性樣本集,采用聯(lián)合半監(jiān)督學(xué)習(xí)分類器進(jìn)行數(shù)據(jù)分類,結(jié)合多傳感量化跟蹤識(shí)別方法進(jìn)行聚類中心自動(dòng)搜索,提高聚類收斂性。仿真結(jié)果表明,采用該方法進(jìn)行用戶行為特征多維度文本數(shù)據(jù)聚類處理的信息融合性能較好,數(shù)據(jù)聚類中心的自動(dòng)搜索能力較強(qiáng),提高了大數(shù)據(jù)分類檢索能力。
關(guān)鍵詞: 聯(lián)合半監(jiān)督學(xué)習(xí);大數(shù)據(jù);用戶行為特征;聚類
文章編號(hào): 2095-2163(2019)03-0266-04 中圖分類號(hào): TP391 文獻(xiàn)標(biāo)志碼: A
0 引 言
隨著大數(shù)據(jù)信息技術(shù)的發(fā)展,在云環(huán)境中進(jìn)行大數(shù)據(jù)的聚類處理,實(shí)現(xiàn)對(duì)數(shù)據(jù)的優(yōu)化分類檢索和識(shí)別,在社交網(wǎng)絡(luò)中,需要對(duì)網(wǎng)絡(luò)用戶行為特征的文本大數(shù)據(jù)進(jìn)行優(yōu)化聚類處理,結(jié)合數(shù)據(jù)的聚類屬性特征進(jìn)行融合調(diào)度和分類識(shí)別,提高對(duì)用戶行為特征的準(zhǔn)確定位分析能力,研究基于大數(shù)據(jù)的用戶行為特征多維度文本數(shù)據(jù)聚類方法,在提高社交網(wǎng)絡(luò)的信息推薦能力和大數(shù)據(jù)信息處理能力方面具有重要意義[1]。對(duì)用戶行為特征多維度文本信息聚類處理是建立在對(duì)數(shù)據(jù)的多維度特征提取和關(guān)聯(lián)規(guī)則挖掘基礎(chǔ)上,結(jié)合傳感數(shù)據(jù)采集方法提取用戶行為特征多維度文本信息的關(guān)聯(lián)規(guī)則特征量,實(shí)現(xiàn)多維度文本數(shù)據(jù)分類識(shí)別[2]。本文提出一種基于聯(lián)合半監(jiān)督學(xué)習(xí)的大數(shù)據(jù)聚類算法。采用分段線性擬合方法進(jìn)行用戶行為特征大數(shù)據(jù)規(guī)劃處理,提取用戶行為特征大數(shù)據(jù)的互信息特征量,采用聯(lián)合半監(jiān)督學(xué)習(xí)分類器進(jìn)行數(shù)據(jù)分類,最后進(jìn)行仿真實(shí)驗(yàn)分析,展示了本文方法在提高用戶行為特征多維度文本數(shù)據(jù)聚類能力方面的優(yōu)越性能。
1 用戶行為特征大數(shù)據(jù)采樣及特征參量提取
1.1 用戶行為特征多維度文本特征數(shù)據(jù)采樣
在社交網(wǎng)絡(luò)中,用戶行為特征多維度文本信息結(jié)構(gòu)復(fù)雜,系統(tǒng)耦合性強(qiáng),通過對(duì)用戶行為特征多維度文本數(shù)據(jù)分類,實(shí)現(xiàn)對(duì)用戶行為特征的優(yōu)化檢測和分類識(shí)別,采用多維度文本信息融合方法進(jìn)行社區(qū)網(wǎng)絡(luò)用戶行為特征檢測和智能分析[3]。構(gòu)建用戶行為特征多維度文本特征數(shù)據(jù)分布結(jié)構(gòu)模型如圖1所示。
根據(jù)圖1,用戶行為特征分布集合在B模型中的輸出狀態(tài)特征量為xj={x1j,x2j,...,xmj}T,以2倍以上波特率進(jìn)行采樣,得用戶行為特征多維度文本數(shù)據(jù)的狀態(tài)特征分布為p(x0),文本數(shù)據(jù)的關(guān)聯(lián)規(guī)則聯(lián)合特征挖掘結(jié)果為:
根據(jù)用戶行為特征多維度文本信息傳輸碼元特征量,進(jìn)行信息重構(gòu),采用模糊數(shù)據(jù)聚類分析技術(shù)[4],得到用戶行為特征多維大數(shù)據(jù)傳輸?shù)谋忍匦蛄蟹植紴椋?/p>
求得用戶行為特征多維度文本數(shù)據(jù)的語義概念集,對(duì)用戶行為特征多維度文本數(shù)據(jù)進(jìn)行粗糙集調(diào)度和頻繁性挖掘[5],根據(jù)數(shù)據(jù)聚集樹分層特征得到用戶行為特征多維度文本數(shù)據(jù)分類狀態(tài)特征量為z(t),數(shù)據(jù)聚類中心的粗糙概念分布子集Si(i=1,2,…,L)滿足半監(jiān)督學(xué)習(xí)的收斂性條件為:
根據(jù)上述分析,采用一種網(wǎng)格聚類方法進(jìn)行用戶行為特征多維度文本數(shù)據(jù)分類處理,結(jié)合小擾動(dòng)抑制方法避免聚類中心擾動(dòng),提高聚類的收斂性。
1.2 用戶行為特征大數(shù)據(jù)線性規(guī)劃處理
采用分段線性擬合方法進(jìn)行用戶行為特征大數(shù)據(jù)線性規(guī)劃處理,提取用戶行為特征大數(shù)據(jù)的互信息特征量,描述為:
對(duì)于用戶行為特征多維度文本數(shù)據(jù)的標(biāo)量時(shí)間序列為x(t),t=0,1,…,n-1,給定用戶行為特征多維度文本數(shù)據(jù)信息流的一向量組x1,x2,…,xn∈Cm(m維復(fù)數(shù)空間),結(jié)合線性規(guī)劃方法,得到用戶行為特征多維度文本數(shù)據(jù)集分布的有限集合為:
對(duì)融合數(shù)據(jù)進(jìn)行分段樣本組合設(shè)計(jì),得到用戶行為特征多維度文本數(shù)據(jù)的關(guān)聯(lián)規(guī)則集特征提取的時(shí)間間隔為O(d)和O(N1d),數(shù)據(jù)聚類空間的嵌入維數(shù)m→1時(shí),snξ→tanh ξ,由此得到用戶行為特征多維度文本數(shù)據(jù)準(zhǔn)確聚類的邊值收斂條件滿足:
設(shè)計(jì)3種核函數(shù)分別表示用戶行為特征多維度文本數(shù)據(jù)聚類的線性核函數(shù)、隨機(jī)分布特征核函數(shù)和均勻分布核函數(shù)[6],表達(dá)式分別為:
根據(jù)上述三個(gè)核函數(shù)進(jìn)行用戶行為特征多維度文本數(shù)據(jù)準(zhǔn)確聚類的線性規(guī)劃設(shè)計(jì),結(jié)合半監(jiān)督學(xué)習(xí)算法,提高數(shù)據(jù)聚類過程中的收斂控制能力[7]。
2 大數(shù)據(jù)聚類優(yōu)化
在上述采用分段線性擬合方法進(jìn)行用戶行為特征大數(shù)據(jù)線性規(guī)劃處理的基礎(chǔ)上,進(jìn)行大數(shù)據(jù)聚類算法的優(yōu)化設(shè)計(jì),本文提出一種基于聯(lián)合半監(jiān)督學(xué)習(xí)的大數(shù)據(jù)聚類算法。提取用戶行為特征大數(shù)據(jù)的互信息特征量[8],得到用戶行為特征大數(shù)據(jù)聚類的幾何鄰域(t, f)在非線性空間的特征分布值為:
3 仿真實(shí)驗(yàn)分析
為了測試本文方法在實(shí)現(xiàn)用戶行為特征多維度文本數(shù)據(jù)的聚類中的性能,進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)建立在Deep Web數(shù)據(jù)庫基礎(chǔ)上,結(jié)合Matlab進(jìn)行數(shù)據(jù)聚類算法設(shè)計(jì),大數(shù)據(jù)樣本的屬性設(shè)置為6,數(shù)據(jù)聚類的初始置信度為95%,臨界值Qc=1.24,判斷閾值為0.13,特征空間分布的嵌入維數(shù)設(shè)定為m=4,測試樣本集的數(shù)據(jù)長度為2 000,仿真時(shí)長為120 s,根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行用戶行為特征多維度文本大數(shù)據(jù)聚類分析,得到原始數(shù)據(jù)分布如圖3所示。
以圖3的數(shù)據(jù)為研究對(duì)象,進(jìn)行數(shù)據(jù)聚類處理,采用聯(lián)合半監(jiān)督學(xué)習(xí)分類器進(jìn)行數(shù)據(jù)分類,得到聚類輸出結(jié)果如圖4所示。
分析圖4得知,采用本文方法能有效實(shí)現(xiàn)大數(shù)據(jù)聚類處理,數(shù)據(jù)分類的準(zhǔn)確性較高,誤分率較小,測試不同方法進(jìn)行大數(shù)據(jù)聚類的性能,得到對(duì)比結(jié)果如圖5所示,分析圖5得知,本文方法進(jìn)行大數(shù)據(jù)聚類的誤分率較低,性能優(yōu)于傳統(tǒng)方法。
4 結(jié)束語
結(jié)合傳感數(shù)據(jù)采集方法提取用戶行為特征多維度文本信息的關(guān)聯(lián)規(guī)則特征量,實(shí)現(xiàn)多維度文本數(shù)據(jù)分類識(shí)別,本文提出一種基于聯(lián)合半監(jiān)督學(xué)習(xí)的大數(shù)據(jù)聚類算法。采用分段線性擬合方法進(jìn)行用戶行為特征大數(shù)據(jù)線性規(guī)劃處理,提取用戶行為特征大數(shù)據(jù)的互信息特征量,結(jié)合聯(lián)合關(guān)聯(lián)規(guī)則檢測方法進(jìn)行用戶行為特征多維度文本數(shù)據(jù)的統(tǒng)計(jì)分析,構(gòu)建大數(shù)據(jù)分布的關(guān)聯(lián)屬性樣本集,采用聯(lián)合半監(jiān)督學(xué)習(xí)分類器進(jìn)行數(shù)據(jù)分類,結(jié)合多傳感量化跟蹤識(shí)別方法進(jìn)行聚類中心自動(dòng)搜索,提高聚類收斂性。研究得知,采用本文方法進(jìn)行用戶行為特征多維度文本數(shù)據(jù)聚類處理的信息融合性能較好,數(shù)據(jù)聚類中心的自動(dòng)搜索能力較強(qiáng),提高了大數(shù)據(jù)分類檢索能力,具有很好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]畢安琪, 董愛美, 王士同. 基于概率和代表點(diǎn)的數(shù)據(jù)流動(dòng)態(tài)聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(5): 1029-1042.
[2]蔣蕓,陳娜,明利特,等. 基于Bagging的概率神經(jīng)網(wǎng)絡(luò)集成分類算法[J]. 計(jì)算機(jī)科學(xué),2013,40(5): 242-246.
[3]孫力娟, 陳小東,韓崇,等. 一種新的數(shù)據(jù)流模糊聚類方法[J].? 電子與信息學(xué)報(bào), 2015, 37(7): 1620-1625.
[4]張紅蕊,張永,于靜雯. 云計(jì)算環(huán)境下基于樸素貝葉斯的數(shù)據(jù)分類[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(3):27-30.
[5]梁聰剛,王鴻章.? 微分進(jìn)化算法的優(yōu)化研究及其在聚類分析中的應(yīng)用[J]. 現(xiàn)代電子技術(shù),2016,39(13):103-107.
[6]李昆侖, 關(guān)立偉, 郭昌隆. 基于聚類和改進(jìn)共生演算法的云任務(wù)調(diào)度策略[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(3): 707-714.
[7]文政穎,李運(yùn)娣. 語義指向性特征聚類的圖像檢索算法研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(4):83-88.
[8]林楠,史葦杭.? 基于多層空間模糊減法聚類算法的Web數(shù)據(jù)庫安全索引[J]. 計(jì)算機(jī)科學(xué),2014,41(10):216-219.
[9]廖大強(qiáng).? 面向多目標(biāo)的云計(jì)算資源調(diào)度算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2016, 25(2):180-189.
[10]徐建. 用遺傳算法評(píng)價(jià)部分股市常用技術(shù)指標(biāo)的探索[J]. 智能計(jì)算機(jī)與應(yīng)用,2018,8(5):158-160.