陳 宇,王明月,許莉薇
(東北林業(yè)大學 信息與計算機工程學院,黑龍江 哈爾濱150040)
國外對文本分類技術(shù)[1]的研究起步較早,并且現(xiàn)階段發(fā)展也比較完善。常用的文本分類算法包括K 鄰近算法、貝葉斯算法、決策樹、BP神經(jīng)網(wǎng)絡算法等。我國對文本分類算法的研究起步較晚,初期我國主要對國外技術(shù)總結(jié),隨后是對傳統(tǒng)算法的優(yōu)化改進,擴大了文本特征的選擇的范圍,隨著文本分類技術(shù)的進步,現(xiàn)階段我國文本分類技術(shù)發(fā)展的也較好,研究出許多適合文本分類的算法,但是仍存在一些缺陷,在實際應用時因為訓練樣本存在差異,所以使得分類算法對分類結(jié)果差異較大,因此本文研究的重點就是如何提高對不同類文本分類的準確率和效率。
現(xiàn)階段對于林業(yè)信息文本分類的研究甚少,因此如何提高林業(yè)信息文本分類的正確率,是一個重要的研究內(nèi)容。
將差分演化算法與極端學習機算法結(jié)合,兩種算法取長補短,提出了一種基于差分演化優(yōu)化極端學習機的林業(yè)信息文本分類算法。首先,利用中科院分詞系統(tǒng)對不均衡林業(yè)信息文本進行預處理;其次,使使用經(jīng)典的TF-IDF公式計算文本分詞的特征值,構(gòu)成特征矩陣[2];然后,對特征矩陣降維;最后,利用差分演化優(yōu)化極端學習機算法構(gòu)造分類器,以達到分類的目的。通過大量實驗驗證該算法已達到預期目的,有較高的分類正確率,并且準確率明顯高于BP神經(jīng)網(wǎng)絡、極端學習機分類方法,為林業(yè)信息文本分類提供了參考。
假設所有林業(yè)信息文本有n 個特征,形成n 維的向量空間,每個林業(yè)信息文本d 被表示成n 維的特征向量
式中:Ti——n個分詞中的一個,Wi(d)——Ti在文本d 中的權(quán)值,文本分詞的權(quán)值通過TF-IDF公式計算[3]
式中:wi(d)——計算出的特征詞Ti的權(quán)值,TF(ti)——特征詞Ti在d 中出現(xiàn)的次數(shù),N ——樣本總個數(shù),ni——出現(xiàn)了Ti的林業(yè)信息樣本的個數(shù)。
設n個樣本,樣本有p 項 指標[4]:X1,X2,...XP,得到初始特征矩陣為
其中
綜合指標向量X 是p 個向量X1,X2,...XP作線性組合
可簡寫為
系數(shù)ai=(a1i,a2i,…,api)的限制條件
特征矩陣的協(xié)方差矩陣是S =(sij)p×p:
其中
計算S的特征值λ1≥λ2≥…≥λn>0與對應單位向量
X 的第i個主成分為Fi=a′ix,i=1,2,…,p。
主成分的確定根據(jù)貢獻率αi和累積貢獻率G(r)
實驗中,選擇累積貢獻率達到99%的主成分,n個文本在所選r 個主成分的得分
傳統(tǒng)的極端學習機算法和BP神經(jīng)網(wǎng)絡算法受林業(yè)信息樣本影響較大,因此不同樣本分類的正確率差異大,差分演化優(yōu)化極端學習機算法實驗得到了較好的效果,分類結(jié)果精準并且正確率分布均勻。
1.3.1 極端學習機算法 (ELM)
設ELM 算法 的代價函數(shù)E0,則
式 中:N0——林 業(yè) 信 息 文 本 的 數(shù) 量;——隱 層 數(shù);βi=(βi1…βic)T,βi——輸出權(quán)值;ωi=(ωi1…ωin),ωi——輸入權(quán)值;xj0=(xj01…xj0n),xj0——林業(yè)信息文本的特征矩陣;bi——隱層偏差;tj0=(tj01…tojc),tj0——林業(yè)信息文本的種類;函數(shù)g(wi·x0j+bi)——隱層激活函數(shù);n——林業(yè)信息樣本的維數(shù),c——林業(yè)信息樣本的種類總數(shù),也就是輸出結(jié)果[5]。
ELM 的思路為求E0,之后Min E0
[6],所以問題轉(zhuǎn)化成當下式成立的解(i=1,2,…珦N)、^β
上式參數(shù)描述為
H0表示隱層輸出
由于ELM 算法的激活函數(shù)無窮可微,所以ELM 算法能夠描述為求解H0β=T0的范數(shù)最小。即
H+0是矩陣H0的廣義逆。
在rank(H0)=N 條件下,通過正交投影法求得H+0
算法運行步驟如下:
(1)βi 和bi初始化;
(2)計算H0;
(3)計算輸出結(jié)果^β。
1.3.2 差分演化算法 (DE)
差分演化算法在求解最優(yōu)化問題時,是一種高效有潛力的算法[7],在只能計算領域已成為一個研究熱點。差分演化算法是演化算法的一種[8],但是其性能優(yōu)于普通的演化算法,在解決優(yōu)化問題時,收斂速度快[9]。DE 主要包括:變異、雜交、選擇[10]。
首先,使用下式得到變異個體
式中:Vi—— 新變異個體,Xi=(i=1,2,…,Np)表示群體 中 第i 個 個 體,i,i1,i2,i3選 取 不 同 值,i1,i2,i3∈{1,2,…,Np},Np是種群大小,且Np≥4,F(xiàn) ∈[02]是控制參數(shù),以對(Xi2-Xi3)進行調(diào)整。
然后,雜交程序是個體Xi與Vi的重新組合后生產(chǎn)新成員Ui
式中:CR ——DE 算法中的主要參數(shù),表示雜交概率;k∈{1 ,2,…,D },D 表示問題搜索空間維數(shù)。
最后,選擇過程就是在Xi和Ui中選擇適合種群發(fā)展的個體
1.3.3 DE-ELM 算法
極端學習機算法由于初始輸入值的選擇是隨機賦值,因此會對輸出權(quán)值矩陣造成影響,引入差分演化算法,對極端學習機算法進行優(yōu)化,獲得最小隱含層輸出權(quán)值。
DE-ELM 算法執(zhí)行如下:
(1)初始化種群:參數(shù)NP、F、CR 初始化賦值。新種群:x(t)=(x1(t),x2(t),…xN(t)),每個個體表示林業(yè)信息文本的特征矩陣m×d 維,表示為m×d =D。
(2)種群中的個體分別進行DE 算法的 (3)步,先通過式 (20)變異后獲得 新個體Vi(t),新老個體雜交后形成個體Ui(t),之后選取有競爭力的個體,選取過程如下
式中:E0(·)代表式 (13)中MinE0,即為種群中每個個體的目標函數(shù)值。
(3)設置迭代誤差,根據(jù)迭代次數(shù)判斷程序是否終止。若在迭代次數(shù)范圍內(nèi)繼續(xù) (2)步,否則進入 (4)步。
(4)輸出EO(best),和對應的^β。
(5)程序結(jié)束。
實驗初步針對林業(yè)信息文本樣本進行選擇,林業(yè)信息的5個類別:花、樹木、蟲、土壤、水,訓練樣本和測試樣本是每個類別選取50個,測試樣本是對原訓練樣本數(shù)據(jù)加高斯白噪聲產(chǎn)生,樣本總共500個。
實驗過程中,初始化種群,設置種群數(shù)NP =200,雜交概率CR =0.8,縮放因子F =0.02,在選取不同的隱含層節(jié)點數(shù)時,獲得的目標函數(shù)的最小值也是不一樣的。訓練和測試樣本初始特征矩陣維數(shù)均為250×1127維,降維后形成新的特征矩陣維數(shù)均為250×213維,文本類別總數(shù)K =5。
圖1中,實驗過程選取隱含層節(jié)點數(shù)為5,隨著差分演化優(yōu)化極端學習機算法的迭代次數(shù)的增加,目標函數(shù)的值在不斷減小,逐漸接近最優(yōu)值,最后接近于0。
圖1 DE-ELM 在林業(yè)信息文本數(shù)據(jù)集上的收斂
從圖1可以看出,當隱含層節(jié)點數(shù)一定時,隨著迭代次數(shù)的增加目標函數(shù)逐漸接近最小值。在表1中則當?shù)螖?shù)一定時,隨著隱含層數(shù)的增加,算法誤差逐漸降低。在隱層節(jié)點40,DE-ELM 的測試誤差率遠小于ELM。所以,選擇隱含層數(shù)為40和迭代次數(shù)20的DE-ELM 分類器與BP神經(jīng)網(wǎng)絡、SVM 支持向量機算法進行對比。
表1 隱含層數(shù)對算法的影響 (迭代次數(shù)為20次)
從表2中,BP神經(jīng)網(wǎng)絡與差分演化優(yōu)化極端學習機算法的誤差率較低,實驗結(jié)果比較理想,但是DE-ELM 優(yōu)于BP。
表2 4種算法性能對比
使用BP、SVM、ELM、DE-ELM 這4 種方法分類,選取相同的樣本,測試結(jié)果如圖2所示,橫坐標是測試樣本數(shù)目,縱坐標是分類器分類的正確率。
圖2 分類算法正確率分布
在圖2中,能夠分別看出4種分類方法在處理不同類別文本時分類的正確率,算法對于不同的樣本的分類情況。BP神經(jīng)網(wǎng)絡和差分演化優(yōu)化極端學習機算法分類時性能較穩(wěn)定,每類的分類正確率都較高,但是DE-ELM 性能更佳。
使用250個林業(yè)信息測試樣本,從圖3 中4 種分類方法正確率對比能看出每個分類器的分類效果。
實驗結(jié)果可知,本文提出的基于差分演化優(yōu)化極端學習機的林業(yè)信息文本分類算法能夠?qū)崿F(xiàn)對5類林業(yè)信息文本精準與快速的分類,分類效果明顯優(yōu)于神經(jīng)網(wǎng)絡、SVM分類算法,提出極端學習機算法的同時,優(yōu)化初始算法,使得優(yōu)化后的極端學習機有較強的分類能力;分類正確率均勻分布,能力較強。
圖3 分類器分類總結(jié)果對比
基于差分演化優(yōu)化極端學習機的林業(yè)信息文本分類算法,使用權(quán)值計算公式TF-IDF計算權(quán)值后對初始特征矩陣降維,構(gòu)造林業(yè)信息文本的特征矩陣,來反映文本的特征。使用ELM 算法,通過對其優(yōu)化,實現(xiàn)了林業(yè)信息文本的快速與準確的分類。實驗結(jié)果表明DE-ELM 算法適用于林業(yè)信息文本的分類,分類正確率高于分類算法神經(jīng)網(wǎng)絡、SVM,為林業(yè)信息文本分類開拓了新思路,有較高的實用價值。
[1]HU Zewen,WANG Xiaoyue.Quantitative analysis and review of text classification research of home and abroad[J].Competitive Intelligence,2011,55 (6):78-82 (in Chinese). [胡 澤文,王效岳.國內(nèi)外文本分類研究計量分析與綜述 [J].競爭情報,2011,55 (6):78-82.]
[2]QI Xiaoming.The research of text classification based on artificial bee colony algorithm and improved KNN algorithm [D].Shanghai:Shanghai Jiao Tong University,2013:1-20 (in Chinese).[戚孝銘.基于蜂群算法和改進KNN 的文本分類研究 [D].上海:上海交通大學,2013:1-20.]
[3]ZHENG Junfei.Improvement on feature selection and classification algorithm for text classification [D].Xi’an:Xi’an Electronic and Science University,2012:3-20 (in Chinese).[鄭俊飛.文本分類特征選擇與分類算法的改進 [D].西安:西安電子科技大學,2012:3-20.]
[4]WANG Yafei.Research on feature dimension reduction in text classification[D].Changchun:Changchun University of Technology,2010:5-40(in Chinese).[王雅菲.文本分類中特征降維方法的研究[D].長春:長春工業(yè)大學,2010:5-40.]
[5]WANG Xinying,HAN Min.Multivariate chaotic time series prediction based on extreme learning machine [J].Journal of Physics,2012,61 (8):1-9 (in Chinese) [王新迎,韓敏.基于極端學習機的多變量混沌時間序列預測 [J].物理學報,2012,61 (8):1-9.]
[6]TANG Xiaoliang, HAN Min.A semi-supervised learning method based on extreme learning machine [J].Journal of Dalian University of Technology,2010,50 (5):771-776 (in Chinese).[唐曉亮,韓敏.一種基于極端學習機的半監(jiān)督學習方法 [J].大連理工大學學報,2010,50 (5):771-776.]
[7]YUAN Jingsui.Differential evolution algorithm research summary [J].Science Research in University,2013,29 (1):1-2(in Chinese).[袁菁穂.差分演化算法研究綜述 [J].高校理科研究,2013,29 (1):1-2.]
[8]MENG Ying,LUO Ke,LIU Jianhua,et al.K-medoids clus-tering algorithm method based on differential evolution [J].Application Reaearch of Computers,2012,29 (5):1651-1653(in Chinese).[孟穎,羅可,劉建華,等.一種基于差分演化的K-medoids 聚 類 算 法 [J].計 算 機 應 用 研 究,2012,29(5):1651-1653.]
[9]AO Youyun,CHI Hongqin.A survey of multi-objective different evolution algorithm [J].Journal of Frontiers of Computer Science and Technology,2009,3 (3):235-246 (in Chinese).[敖友云,遲洪欽.多目標差分演化算法研究綜述 [J].計算機科學與探索,2009,3 (3):235-246.]
[10]JIA Liyuan,ZHANG Chi.Self-adaptive differential evolution[J].Journal of Central South University (Science and Technology),2013,44 (9):3759-3765 (in Chinese).[賈麗媛,張弛.自適應差分演化進化算法 [J].中南大學學報 (自然科學版),2013,44 (9):3759-3765.]