摘 要: 當前的文本分類方法無法較好地處理海量文本以及文本特征空間數(shù)據(jù),不能打破計算機處理性能和內(nèi)存的約束,實現(xiàn)文本混沌性分類。而云計算平臺可向用戶提供需要的運算能力和存儲空間。提出一種優(yōu)化SVM的云計算環(huán)境下文本混沌性分類方法,設(shè)計Hadoop開源云計算系統(tǒng),通過該系統(tǒng)中的Map Reduce模型對分類過程進行處理,提高分類的效率。采用優(yōu)化SVM分類方法將混沌文本分類二次規(guī)劃過程中的不等式限制變換成等式限制,提高海量文本混沌性分類精度。實驗結(jié)果表明,所設(shè)計分類方法具有更高的處理效率,可以對海量文本數(shù)據(jù)進行準確的分類。
關(guān)鍵詞: 云計算; 文本分類; 混沌分類; 優(yōu)化SVM
中圖分類號: TN911?34; TP301 文獻標識碼: A 文章編號: 1004?373X(2016)20?0039?05
Abstract: The current text categorization methods are unable to deal with massive amounts of text and text feature space data better, and can't break the constraints of computer processing performance and memory and realize the chaotic text classification. The cloud computing platform can provide the computing capacity and storage space for users, so an optimized SVM based text chaos classification method effective in cloud computing environment is put forward. Hadoop open source cloud computing system was designed. The classification process is dealt with by Map Reduce model of the system to improve the classification efficiency. The optimized SVM classification method is used to convert the inequality constraints in the quadratic programming process of text chaos categorization into the equation constraints, so as to improve classification precision of massive chaotic texts. The experimental result shows that the classification method has higher treatment efficiency, and can classify the massive text data accurately.
Keywords: cloud computing; text classification; chaos classification; optimized SVM
0 引 言
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)中的文本數(shù)量巨增,對這些海量文本進行有效分類,從中采集有價值信息,成為相關(guān)人員分析的重點問題[1?3]。當前的文本分類方法無法較好地處理海量文本以及文本特征空間數(shù)據(jù),不能打破計算機處理性能和內(nèi)存的約束、實現(xiàn)文本混沌性分類。而云計算平臺可向用戶提供需要的運算能力和存儲空間。云計算環(huán)境下的文本混沌性分類方法成為分析的熱點[4?6]。
傳統(tǒng)的文本分類方法存在一定的缺陷,文獻[7]提出基于Map Reduce的分布式潛在語義搜索方法,采用并行化K?means算法將文檔矩陣劃分成不同分塊,再采用潛在語義搜索方法對不同分塊進行文本分類,該方法的運算量大,需要消耗大量的資源。文獻[8]依據(jù)統(tǒng)計模型完成文本分類,但需要假設(shè)訓練數(shù)據(jù)和檢測數(shù)據(jù)具有相同的分布規(guī)律,但當文本數(shù)據(jù)量瞬間增加或降低時,會導致分類的文本數(shù)據(jù)丟失。文獻[9]通過聚類采集可信方法以及主動學習塑造分類器的方法,從待分類文本數(shù)據(jù)匯總過濾可信正例,將剩下的文本當成可信反例,實現(xiàn)文本的有效分類。該方法分類精度高,但容易受到文本混沌性的干擾,存在一定的局限性。文獻[10]采用非線性流形學習方法對文本降維,獲取文本特征規(guī)律,但該方法獲取的文本特征單一、擴展性差。
針對上述方法的弊端,提出一種優(yōu)化SVM的云計算環(huán)境下文本混沌性分類方法,其Hadoop開源云計算系統(tǒng),通過Map Reduce數(shù)據(jù)處理模型對文本進行分類,采用優(yōu)化SVM分類方法提高海量文本混沌性分類精度。
1 云計算環(huán)境下HDFS的結(jié)構(gòu)分析
云計算環(huán)境下的海量文本在進行分類時,對計算機處理性能以及內(nèi)存量提出較高的要求,需要塑造云計算平臺,為用戶提供所需計算能力以及存儲空間。因此,需要了解云計算系統(tǒng)的結(jié)構(gòu),再通過Map Reduce模型完成文本分類。Hadoop為開源云計算系統(tǒng),是一種分布式運算框架,該系統(tǒng)的關(guān)鍵模塊是HDFS和Map Reduce。Map Reduce也是一種并行簡化的并行計算模型,由 Map 和Reduce過程組成,分別進行任務(wù)的分解和結(jié)果的匯總。采用該模型可以方便用戶開發(fā)出分布式的并行程序,完成海量文本數(shù)據(jù)的計算。HDFS分布式文件系統(tǒng)是Hadoop 分布式計算的存儲基礎(chǔ),該系統(tǒng)具有高容錯性,適合云計算環(huán)境下大數(shù)據(jù)集文本的分類應(yīng)用。HDFS 包括一個 Name Node 和很多個Data Node。Name Node 管理云計算環(huán)境中的云數(shù)據(jù),并將云數(shù)據(jù)反饋給客戶端。Data Node對實際文本數(shù)據(jù)進行保存,完成文件的 I/O 處理,HDFS的結(jié)構(gòu)示意圖如圖1所示。
1.1 Map Reduce模型邏輯架構(gòu)的設(shè)計
采用Hadoop開源云計算系統(tǒng)中的Map Reduce模型,可以完成海量文本數(shù)據(jù)的并行運算架構(gòu),如圖2所示。
Map Reduce框架包括一個Master,Reducer和多個 Mapper,其實現(xiàn)文本混沌性分類的過程包括分割過程、Map塑造基本分類器過程以及Reduce集成過程。分割過程采用變換的抽樣手段,將文本混沌數(shù)據(jù)D分割成m 個子集[D1,D2,…,Dm];在Map塑造基本分類器過程中,各 Map 任務(wù)采用優(yōu)化SVM分類算法在文本數(shù)據(jù)集[Di]中塑造基本的分類器[Ci],其中[1≤i≤m];在 Reduce合并過程中,將m個基本分類器集合成生成分類器C。
1.2 Map Reduce模型分類過程實現(xiàn)
云計算平臺下利用Map Reduce模型對文本進行分類處理,以提高文本分類的效率。Map Reduce執(zhí)行文本分類的流程如圖3所示。
圖3所示的Map Reduce模型對海量文本數(shù)據(jù)集的運算包括映射(Map)過程和集成(Reduce)過程。
1.3 Map Reduce分類模型的優(yōu)化設(shè)計
云計算環(huán)境下的文本訓練集間無關(guān)聯(lián)性,進行文本分類訓練前后間相互獨立,以此完成對文本分類訓練過程的并行操作。采用Map Reduce數(shù)據(jù)處理模型對混沌文本進行分類過程,只進行宏觀的數(shù)據(jù)分類,但為了增強文本分類精度,還需采用優(yōu)化SVM算法對文本進行分類。
該算法是一種求解松弛變量以及限制因子的過程:將文本分類的二次規(guī)劃不等限制過程,變換成等式變換過程,極大提高了文本分類精度,優(yōu)化SVM文本混沌性分類算法示意圖如圖4所示。
2 實驗結(jié)果與分析
仿真實驗在6臺計算機構(gòu)成的集群上設(shè)置Hadoop 模擬云計算平臺,通過該平臺檢測本文文本分類方法的性能優(yōu)劣。將其中1臺計算機當成Name Node以及Job Tracker 服 務(wù) 主 節(jié) 點,其他5臺計算機當成Date Node 和Task Tracker 服務(wù)從節(jié)點。根據(jù) Hadoop 項目標準部署手段設(shè)置Hadoop 0.2版本的集群,如圖5所示。
2.1 不同方法的分類時間對比
設(shè)置云計算平臺中map.tasks.maximum 和 reduce.tasks.maximum的值為2,確保每個節(jié)點上執(zhí)行兩個Map過程或兩個Reduce過程。本文數(shù)據(jù)集來自百度實驗室資料庫,大小為195 MB。其中有娛樂、房產(chǎn)、時尚、體育、影視、教育、文化、政務(wù)8種類型文檔,不同類別文檔數(shù)為1 850。采用Imdict?chinese?analyzer分詞工具,將實驗語料庫中的文本依據(jù)3∶1的比例劃分成訓練集合檢測集,并對非線性流形分類方法和本文方法在云計算平臺上的文本分類效果進行對比實驗。兩種方法對于不同數(shù)量節(jié)點的分類時間如表1所示。
分析表1可得,本文方法對同一實驗文本進行分類過程匯總,分類時間遠遠低于非線性流形分類方法,因為本文方法將處于兩個支持向量間的樣本,也就是對模糊性的樣本點的運算進行忽略,極大提高文本分類效率。
2.2 分類測試混淆矩陣建立
表2為本文方法測試輸出的混淆矩陣的詳細分類結(jié)果,并提供了分類的準確率和召回率。
分析表2可知,本文方法的分類總識別率是86.3% 。其中,文化類的文本分類精度最低,被誤判成教育類;其他類別文本的分類精度都較高。說明本文方法取得了較好的分類效果。
2.3 不同算法下小數(shù)據(jù)量與大數(shù)據(jù)量分類時間性能消耗比對
為了驗證云計算平臺下本文方法文本分類性能,實驗檢測本文方法和非線性流形分類方法小數(shù)量和大數(shù)據(jù)量兩組數(shù)據(jù)的分類情況,結(jié)果分別如圖6和圖7所示。
分析圖6可知,對小數(shù)據(jù)量文本進行分類時,本文方法的分類略低于非線性流形分類方法,但隨著數(shù)據(jù)量的增加,兩種方法間的差距不斷增大,因為在數(shù)據(jù)量較低情況下,總體文本數(shù)據(jù)分類的預(yù)操作消耗時間低, Map節(jié)點和Reduce節(jié)點間的通信和調(diào)控消耗時間低,兩種方法都可實現(xiàn)文本的高速分類,但是隨著數(shù)據(jù)量的增加,本文方法在處于大數(shù)據(jù)文本分類上的優(yōu)勢逐漸顯現(xiàn)出來。
分析圖7可知,在對大數(shù)據(jù)量文本進行分類時,隨著文本量的大幅度增加,非線性流形分類方法的分類時間消耗逐漸增加,幾乎無法完成運算任務(wù);而本文方法的分類時間遠遠低于非線性流形分類方法,具有較高的處理效率。
仿真實驗證明,隨著文本輸入的逐漸增加,本文方法的文本分類效果不斷增強,對云計算環(huán)境下的大數(shù)據(jù)量的輸入文本具有更好的分類效果。
3 結(jié) 論
本文提出一種優(yōu)化SVM的云計算環(huán)境下文本混沌性分類方法,并通過仿真實驗證明,所設(shè)計分類方法具有更高的處理效率和精度,可以對海量文本數(shù)據(jù)準確的分類。
參考文獻
[1] 劉露,彭濤,左萬利,等.一種基于聚類的 PU 主動文本分類方法[J].軟件學報,2013(11):2571?2583.
[2] 莊福振,羅平,何清,等.遷移學習研究進展[J].軟件學報,2015(1):26?39.
[3] Fengmei W, Jianpei Z, Yan C, et al. FSFP: Transfer learning from long texts to the short[J]. Appl. Math, 2014, 8(4): 2033?2040.
[4] 富震.基于SVM主動學習技術(shù)的PU文本分類[J].計算技術(shù)與自動化,2014(1):127?131.
[5] 張倩,李明,王雪松,等.一種面向多源域的實例遷移學習[J].自動化學報,2014(6):1176?1183.
[6] 賀飛艷,何炎祥,劉楠,等.面向微博短文本的細粒度情感特征抽取方法[J].北京大學學報(自然科學版),2014(1):48?54.
[7] 劉智,楊宗凱,劉三女牙,等.采用動態(tài)特征選擇的中文情感識別研究陰[J].小型微型計算機系統(tǒng),2014,35(2):358?364.
[8] WEI F M, ZHANG J P, CHU Y, et al. FSFP: Transfer learning from long texts to the short [J]. Applied mathematics information sciences, 2014, 8(4): 2033?2044.
[9] SAMANTA S, TIRUMARAI S A, DAS S. Cross?domain clustering performed by transfer of knowledge across domains [C]// Proceedings of the 2013 IEEE 4th National Conf. on Computer Vision, Pattern Recognition, Image Processing and Graphics (NCVPRIPG). [S.l.]: IEEE, 2013: 1?4.
[10] PENG T, LIU L, ZUO W. PU text classification enhanced by term frequency?inverse document frequency?improved weighting [J]. Concurrency and computation: practice and experience, 2014, 26(3): 728?741.