歐立奇,何 媛,李云飛,趙郁園,劉 瀚
西京學院商貿技術系,陜西 西安 710123
高精度海量數據分類是大數據信息處理的重要步驟,根據參考大數據里包含相同類別的數據特征進行聚類,以數據聚類為基準,對后期的專家系統(tǒng)以及大數據庫存儲,有著十分重要的意義。當前主要利用關聯方式進行數據區(qū)域劃分[1]。隨著當前數據量的不斷增長,在大數據環(huán)境下,初始聚類中點的選取對數據分類效率具有一定的影響。當前以關聯規(guī)則為基礎的聚類算法忽略了數據密度相似性以及分類遠近對聚類中點檢測所形成的干擾,從而使大數據模糊區(qū)域在判定的過程中精確度受到影響[2]。本文針對聚類中大數據帶來的模糊區(qū)域判定困難的問題進行研究,提出一種新的方法。
大數據信息流在數據分類中,對模糊區(qū)域差異性特點的掌握,是后期聚類的基礎。將掌握的相似性特征值設置成基礎創(chuàng)建聚類檢索目標函數,看進一步精確聚類過程。
大數據模糊區(qū)域特征屬性集的自相關量由Ru,v代表,是數據特點向量中的互相關函數,大數據模糊區(qū)域屬性集交叉分布特征值為:
其間,初始大數據時間序列的標本幅值是α0;包含一樣值和方差的大數據標量時間序列是xn-1;大數據的最有分裂屬性是bj;針對大數據標量特征序列是x(t),t=0,1,…,n-1,選取動態(tài)自回歸滑動時間窗口建筑多層空間模糊聚類中點,使用模糊C平均值聚類算法實施初始聚類中點檢索[3],設有限特征數據集向量。
根據屬性集劃分[4,5],獲得數據集中包括n個標本,此間,標本xi(i=1,2,…,n)的差異化特征參量為:
在以創(chuàng)建大數據聚類特征值的基準上,根據大數據最優(yōu)聚類中點的檢索,實施數據聚類算法的優(yōu)化改良。
在得到相關特征后,需要確定聚類中心[6],將大數據特征等信息進行整合,根據順序σ放射至n維歐氏空間,將n設置為維特征向量T,大數據特征向量為f,f=(f1,f2,…,fn),把各個特征fi=(i=1,2,…,n)設為此向量的分量,然后將各個類型特征和特征間的聯系進行定義[7]。以隸屬度來確定各個數據點劃分某聚類范圍的聚類中心[8]。
將n個向量xi(i=1,2,…,n)劃成c個模糊組,且將每組的聚類中心點估計出來,將非相似性的價值函數降至最低[9-11],達到聚類中心使用值在[0,1]中的隸屬度來明確所屬各組的程度值。模糊劃分對應的是隸屬矩陣U默認存在取值在[0,1]中的元素。經統(tǒng)一化整合,某數據集的隸屬度的和始終等于1。
所以,聚類中心的價值函數為式(5)的常態(tài)模式。
此間,uij∈[0,1],模糊組i的聚類中心是ci,dij=‖ci-xj‖是第i個數據點中的歐幾里德距離;并m∈[1,∞]為某加權指數。
在模糊區(qū)域判定算法設計過程中,以模糊近似聚類算法為基礎[12],基于上小節(jié)大數據量模糊聚類特征和聚類中心分析結果,能夠提供穩(wěn)定的聚類區(qū)域判定方法。過程如下:
隸屬度計算:用uij表示樣本數據與聚類中心的隸屬關系,可采用模糊集理論將隸屬度為{0,1}的二值拓展到[0,1],其中p表示加權參數,也稱平滑參數。
確定模糊聚類數:通常用熵來表示原子的不規(guī)則分布,而海量數據的分布與原子分布的情況類似。本文采用熵的方法,可以在算法的迭代過程中,對模糊聚類區(qū)域判定結果進行主動修正,保證每一個經過模糊聚類后的聚類數,都與一個新的隸屬矩陣U相對應[13],且每個U中都含有不同的平均信息熵。當模糊聚類數對應的平均信息熵最小時,其所對應聚類數為最優(yōu)解,用公式(13)來表示與隸屬矩陣對應的平均信息熵:
公式(7)中樣本j屬于聚類i的隸屬度為uij,最佳聚類系數是當平均信息熵H最小時的M。
輸入:海量數據集,極值ε,本文算法的最大迭代次數以及比例規(guī)模N。
輸出:模糊聚類結果C,M。
步驟描述:
步驟1:確定分類數目[14],分類數目m=n/N≤M(n為樣本總數,N為規(guī)模比例),用{Z1,Z2,…,ZM}表示初始質心;
步驟3:對步驟(2)中新質心之間距離實施計算,搜索與Zi的相似上近似集合Si;
步驟6:根據公式(2)計算H(h),若出現H(h)<H(h+1),則模糊聚類數M=M+1并返回步驟2;反之,最佳模擬聚類數為M,算法結束。
實驗利用加州大學厄文分校機器學習庫中提取的海量數據集為實驗數據,實驗數據共含有150種的不同種類信息,每50種數據種類均從三種數據庫中選取[15]。對以上聚集進行數據特征聚類,聚類結果如表1所示。
表1 特征聚類結果Table 1 Clustering results
利用本文方法計算該組數據集的實際模糊聚類中心位置是:Z1=6.58,2.97,5.55,2.02,Z2=5.00,3.42,1.46,0.24,Z3=5.93,2.77,4.26,1.32。計算數據中心差異化分類結果如表2所示:
表2 差異分布結果Table 2 Difference distribution results
從表2差異分布結果可以看出,本文算法模糊聚類中心聚類正確比例達到98.6%,模糊聚類正確結果較高。
在上文分類結果的基礎上,為驗證本文基于海量數據分類的模糊區(qū)域判定算法的有效性,以UCI標準數據集和實際項目為實驗數據,實驗數據共包括4部分,第一部分為UCI-IRIS數據分為三類共150個樣本;第二部分為UCI-Wisconsin Breast Cancer數據其中良性樣本和惡性樣本分別為458和241條,且該兩組數據均無缺失;實驗設備采用計算機為DELL.760,內存為4G,運行環(huán)境為MATLAB.1環(huán)境下進行,為精確獲取不同模糊聚類算法的有效性,以基于歐氏距離、DTW距離的模糊聚類算法為對比實驗,分析不同算法對特征差異平衡數據的聚類結果。表3為不同算法對平衡數據聚類結果。
表3 不同算法對平衡數據聚類結果Table 3 Clustering results of different algorithms for balanced data
從表3數據聚類結果可以得出,在特征平衡數據中應用基于歐氏距離模糊算法、DTW模糊聚類算法和本文算法的聚類效果不同,本文算法在聚類正確率和平均正確率的結果均優(yōu)于另外兩種算法,可見本文算法可用于特征平衡數據下的模糊區(qū)域判定中,且聚類結果的有效性較高,主要因為特征平衡數據差異較小,在聚類中存在較大困難,而本文方法很好的解決了這問題。
本文提出海量數據分類中的模糊區(qū)域判定算法,可以對具有不同特征的海量數據進行模糊聚類,提高模糊聚類效果和效率。
[1]周雙,馮勇,吳文淵,等.一種基于模糊C均值聚類小數據量計算最大Lyapunov指數的新方法[J].物理學報,2016,65(2):42-48
[2]Roghanchi P,Kallu R,Thareja R.Use of fuzzy set theory to rmr classification for weak and very weak rock masses[J].International Journal of Earth Sciences&Engineering,2014,7(3):997-1003
[3]Gabriel Filho LRA,Putti FF,Cremasco CP,etal.Software to assess beef cattle body mass through the fuzzy body mass index[J].Engenharia Agricola,2016,36(1):179-193
[4]王永貴,李鴻緒,宋 曉.Map Reduce模型下的模糊C均值算法研究[J].計算機工程,2014,40(10):47-51
[5]王宇凡,梁工謙,張淑娟.基于相似度量的模糊支持向量機算法研究[J].微電子學與計算機,2014(4):112-116
[6]陳池梅,張 林.基于貝葉斯網絡的海量數據多維分類學習方法研究[J].計算機應用研究,2016,33(3):689-692
[7]Jasmine JSL,Safana A.Possibilistic fuzzy c means algorithm for mass classificaion in digital mammogram[J]. International Journal of Engineering Research&Applications,2014,4(12):337-346
[8]翟皓,袁占良,黃祥志,等.一種面向海量遙感數據分類應用的并行解決方案[J].計算機工程與科學,2016,38(12):2450-2455
[9]周治平,朱書偉,張道文.分類數據的多目標模糊中心點聚類算法[J].計算機研究與發(fā)展,2016,53(11):2594-2606
[10]劉光敏,陳慶奎,王海峰.海量數據流的提升小波變換并行算法研究[J].小型微型計算機系統(tǒng),2015,36(2):343-348
[11]高見文,薛行貴,羅 杰,等.基于迭代式Map Reducede的海量數據并行聚類算法研究[J].中國科技論文,2016,11(14):1626-1631
[12]桂 勛.基于遞推算法的海量COMTRADE數據計算并行化[J].電力系統(tǒng)自動化,2014(1):86-91
[13]李方一,肖夕林,劉思佳.基于網絡搜索數據的區(qū)域經濟預警研究[J].華東經濟管理,2016,30(8):60-66
[14]高 凱,劉 琳,張松樹.海量電網數據管理與挖掘系統(tǒng)的功能設計與實現[J].電網技術,2014,38(s1):67-70
[15]劉紹毓,周 杰,李弼程,等.基于多分類SVM-KNN的實體關系抽取方法[J].數據采集與處理,2015,30(1):202-210