秦 蓉
(長(zhǎng)治職業(yè)技術(shù)學(xué)院 信息工程系,山西 長(zhǎng)治 046000)
云環(huán)境下的信息分類(lèi)算法研究
秦 蓉
(長(zhǎng)治職業(yè)技術(shù)學(xué)院 信息工程系,山西 長(zhǎng)治 046000)
現(xiàn)如今,隨著科技的飛速發(fā)展,信息技術(shù)在人們的生活生產(chǎn)中,發(fā)揮了重要的作用.而隨著數(shù)據(jù)信息的爆炸式增長(zhǎng),傳統(tǒng)的信息分類(lèi)方式面臨著許多新的問(wèn)題和挑戰(zhàn),顯然不能滿足要求,由此,云計(jì)算應(yīng)運(yùn)而生.云計(jì)算,通過(guò)分布式處理的方式來(lái)對(duì)信息進(jìn)行處理,提高了時(shí)間效率,具有很高的實(shí)用價(jià)值.文章從云環(huán)境的背景下,對(duì)樸素貝葉斯信息分類(lèi)算法進(jìn)行改進(jìn)和分析研究.
云計(jì)算;信息分類(lèi)算法;樸素貝葉斯
樸素貝葉斯算法在信息分類(lèi)中應(yīng)用廣泛,是一種重要的信息分類(lèi)方法.樸素貝葉斯算法重要通過(guò)先驗(yàn)概率的計(jì)算來(lái)得到待分類(lèi)結(jié)果.樸素貝葉斯算法的分類(lèi)思想是:對(duì)待分類(lèi)項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,選擇概率值最大的分類(lèi)作為最終的分類(lèi)結(jié)果.樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法.
首先給出貝葉斯公式:
(1)
其中,P(Ci)表示類(lèi)別Ci在整個(gè)C集合中的概率,稱(chēng)先驗(yàn)概率,P(X|Ci)表示事件X在類(lèi)別Ci中的概率,稱(chēng)條件概率.
樸素貝葉斯分類(lèi)的定義為:
設(shè)X={a1,a2,…,an}為待分類(lèi)樣本,ai為X的特征屬性,存在類(lèi)別集合C={C1,C2,…,Cm},若滿足公式(2),則X∈Cp(p∈[1,m]).
(2)
樸素貝葉斯算法的運(yùn)行步驟主要分為以下三個(gè)階段:
首先是數(shù)據(jù)處理階段,在這個(gè)過(guò)程中,需要根據(jù)具體情況確定特征屬性,之后形成訓(xùn)練樣本集合.特征屬性的確定對(duì)后面的分類(lèi)具有重要的影響,這一階段的工作需要人工完成.
其次訓(xùn)練階段,這一過(guò)程,要對(duì)每個(gè)類(lèi)別在訓(xùn)練樣本中出現(xiàn)的頻率和每個(gè)特征屬性劃分對(duì)每個(gè)類(lèi)別的條件概率估計(jì),之后記錄結(jié)果.在這一過(guò)程中,輸入的數(shù)據(jù)處理階段得到的特征屬性和訓(xùn)練樣本.輸出的是特征屬性和各類(lèi)別的概率值.這一過(guò)程可由程序自動(dòng)計(jì)算完成.
最后是應(yīng)用階段,這一階段的任務(wù)是通過(guò)計(jì)算得到各類(lèi)別的概率分布,最終選擇概率最高的類(lèi)別作為最終的分類(lèi)結(jié)果.此階段,輸入是訓(xùn)練階段的輸出值,輸出是各類(lèi)別的概率統(tǒng)計(jì)值以及最終的信息分類(lèi)結(jié)果.
環(huán)境是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加,使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源. 云環(huán)境依賴(lài)于計(jì)算機(jī)集群進(jìn)行任務(wù)處理,以分布式計(jì)算的方式來(lái)解決大規(guī)模數(shù)據(jù)的計(jì)算任務(wù).
現(xiàn)階段,云計(jì)算技術(shù)已逐漸成熟,Hadoop就是云環(huán)境的典型代表,大規(guī)模的信息數(shù)據(jù)通過(guò)Hadoop云平臺(tái)完成數(shù)據(jù)存儲(chǔ),以及數(shù)據(jù)處理等操作.Hadoop以HDFS作為云存儲(chǔ)平臺(tái),存儲(chǔ)在 HDFS 中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中,緩解了存儲(chǔ)壓力.MapReduce作為分布式的編程模型,系統(tǒng)自動(dòng)將一個(gè)作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊對(duì)應(yīng)于一個(gè)計(jì)算任務(wù)(Task),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)來(lái)處理相應(yīng)的數(shù)據(jù)塊.作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計(jì)算節(jié)點(diǎn)(Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn)),同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制.
云環(huán)境的廣泛應(yīng)用,為大規(guī)模的信息數(shù)據(jù)提供了一種高效的處理方式,下面將在云環(huán)境下對(duì)傳統(tǒng)樸素貝葉斯算法進(jìn)行改進(jìn).
傳統(tǒng)的樸素貝葉斯算法是以集中處理的方式進(jìn)行工作.為適應(yīng)云環(huán)境的特點(diǎn),需要將樸素貝葉斯算法進(jìn)行改進(jìn),由集中式變?yōu)榉植际?需要分別針對(duì)樸素貝葉斯算法運(yùn)行的三個(gè)階段進(jìn)行并行化改進(jìn),將算法改寫(xiě)成以MapReduce并行化方法進(jìn)行處理.在數(shù)據(jù)訓(xùn)練階段和應(yīng)用階段可采用分布式處理的方式.
數(shù)據(jù)訓(xùn)練階段,統(tǒng)計(jì)特征屬性的頻率和每個(gè)類(lèi)別在訓(xùn)練樣本中出現(xiàn)的頻率改寫(xiě)成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對(duì)
應(yīng)用階段,計(jì)算個(gè)類(lèi)別的概率分布改寫(xiě)為分布式處理方式,同樣寫(xiě)成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對(duì)
利用樸素貝葉斯算法對(duì)信息進(jìn)行分類(lèi)的具體步驟為:
Step1 對(duì)所有信息進(jìn)行數(shù)據(jù)預(yù)處理,過(guò)濾不滿足要求的數(shù)據(jù);
Step2 設(shè)訓(xùn)練樣本數(shù)目為S,類(lèi)Ci的樣本數(shù)Si,類(lèi)Ci存在屬性ak的樣本數(shù)為Sik;
Step4 利用Step3訓(xùn)練模型,將待測(cè)試的評(píng)論集合代入公式(2)中計(jì)算,得到信息X的分類(lèi)結(jié)果.
對(duì)應(yīng)本文中利用樸素貝葉斯進(jìn)行信息處理過(guò)程,MapReduce 的工作流程為:首先將信息分詞處理,之后交給Mapper處理,處理后的結(jié)果重新進(jìn)行分區(qū)映射,之后交給相應(yīng)的Reducer處理,產(chǎn)生的結(jié)果可以存儲(chǔ)在HDFS上,分別由集群中的各節(jié)點(diǎn)管理.Mapper(映射)過(guò)程首先讀取SequenceFile中的每一行,之后進(jìn)行解析,將數(shù)據(jù)信息先交由Map處理,以鍵值對(duì)的形式進(jìn)行讀取,之后則產(chǎn)生另一個(gè)鍵值對(duì)輸出.之后交由Reduce處理,Reduce階段處理后得到的輸出結(jié)果也是鍵值對(duì)形式,鍵值對(duì)中的key值表示是所有的類(lèi)別,value值在每一個(gè)類(lèi)別下所對(duì)應(yīng)的概率值.
本文主要研究了云環(huán)境下的樸素貝葉斯信息分類(lèi)算法.首先對(duì)樸素貝葉斯算法進(jìn)行了分析,根據(jù)樸素貝葉斯算法的特點(diǎn),根據(jù)云環(huán)境的具體需求,對(duì)傳統(tǒng)的樸素貝葉斯算法進(jìn)行了改進(jìn),使其滿足分布式處理的要求,在大規(guī)模數(shù)據(jù)信息的處理要求下,提高了時(shí)間效率,為云環(huán)境下信息分類(lèi)技術(shù)的發(fā)展奠定了基礎(chǔ).
[1] LANGLEY P,THOMPSON K.An analysis of Bayesian classifiers[C]//Proceedings of the 10 th National Conference on Artificial Intelligence,1992:223-228
[2] LIN C J.On the convergence of the decomposition method for support vector machines[J].IEEE Transactions on Neural Networks,2001,12(6):1288-1298
[3] 陳 康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5):1337-1348
[4] HAN J W,KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范 明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007
Cloud Environment Information Classification Algorithms
QIN Rong
(Department of Information Engineering Changzhi Vocational and Technical College,Changzhi 046000, China)
The current, with the rapid development of science and technology, information technology in the production of people's lives, play an important role. And as the explosion of data and information, traditional way of information classification is faced with many new problems and challenges, obviously can not meet the requirements, thus, cloud computing arises at the historic moment. Cloud computing, distributed processing ways for information processing, improve the efficiency of the time, has the very high practical value. Under the background of this article from the cloud environment, information on naive bayes classification algorithm to improve the research and analysis.
cloud computing;information classification algorithms;naive bayes
2015-10-14
秦 蓉(1982-),女,山西省長(zhǎng)治人,碩士,長(zhǎng)治職業(yè)技術(shù)學(xué)院助教,主要從事計(jì)算機(jī)數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)研究.
1672-2027(2015)04-0068-02
TP391
A