付學敏
摘要:短文本分類是數(shù)據(jù)挖掘的一個重要方面,半監(jiān)督學習可以有效的解決標簽數(shù)據(jù)不足的問題。然而,短文本數(shù)據(jù)的稀疏性極大的限制了半監(jiān)督學習算法的應用。因此本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法。該方法能改善文本的稀疏性問題,實驗結果表明,本文所提方法可以有效的提高已有半監(jiān)督算法的分類精度。
關鍵詞:稀疏性;分類精度;半監(jiān)督算法;短文本分類
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)29-0205-03
Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.
1引言
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡文本如博客、微博、產(chǎn)品評論等也隨之大量涌現(xiàn),這類數(shù)據(jù)包含了大量有價值的信息,然而這類數(shù)據(jù)往往缺失標簽信息,因此,研究半監(jiān)督的文本分類算法具有十分重要的意義。
半監(jiān)督算法旨在利用少量的標簽數(shù)據(jù)和大量無標簽數(shù)據(jù)構建高性能分類器,解決標簽數(shù)據(jù)不足的問題。當前的半監(jiān)督算法主要分為增量式半監(jiān)督學習算法和基于圖的半監(jiān)督學習算法。增量式半監(jiān)督學習算法[1][2],以迭代方式根據(jù)某種選擇方法選擇部分較為信任的樣本加入標簽數(shù)據(jù)集來對分類器進行重新訓練。而基于圖的半監(jiān)督學習算法如[3],將樣本表示成圖中的頂點,樣本間的相似性表示成頂點間的邊,迭代的將樣本的標簽通過圖傳遞給未標記文本。這些方法一定程度上解決了樣本標簽數(shù)據(jù)不足問題,提高了最終的分類精度。
然而在文本分類中,數(shù)據(jù)普遍具有的稀疏性,從而極大的限制了半監(jiān)督算法的運用[4],這在網(wǎng)絡文本上尤其明顯。在增量式半監(jiān)督學習算法中,數(shù)據(jù)的稀疏性使得特征出現(xiàn)的頻率不高,在標簽文本中訓練的分類器很容易出現(xiàn)過擬合現(xiàn)象,導致分類精確度較低,影響了增量式半監(jiān)督學習算法的后續(xù)迭代過程[5]。
本文提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,該方法首先利用無標簽文本數(shù)據(jù)統(tǒng)計特征間的共現(xiàn)關系,根據(jù)該共現(xiàn)關系計算特征間的相似度,然后針對文本中未出現(xiàn)的特征,計算特征與該文本中所有特征的相似性,用相似性較高的部分特征擴充原有特征空間,最后分別在原始數(shù)據(jù)和擴展數(shù)據(jù)上訓練分類器,迭代的選擇預測標簽一致的無標簽文本加入訓練集。
2 基于特征擴展的半監(jiān)督協(xié)同短文本分類方法(co-self-training svm)原理
2.1基本思想
給定僅包含少量標簽的文本數(shù)據(jù)[L=xi,yimi=1]和大量無標簽數(shù)據(jù)[U=(xi)ni=m+1],(m< 首先,利用特征在文本中的頻率作為權重對x進行向量化表示,[x= 2.2特征擴展方法 3.3方法準確率對比 表1列出了算法的實驗結果對比,從表中可以看出,modified self-training svm算法和modified LP算法實驗結果平均都大于基本的self-training svm算法和LP算法一個百分點,這證明了本文頻率擴展方法可以有效的改善文本的稀疏性,提高半監(jiān)督學習算法的效率,同時,本文提出的co-self-training svm算法實驗結果高于所有的其他算法的實驗結果,這顯示了本文算法的有效性。 4 本文小結 針對半監(jiān)督環(huán)境下短文本數(shù)據(jù)的稀疏性問題,本章提出一種基于特征擴展的半監(jiān)督協(xié)同短文本分類方法,首先使用頻率擴展方法改善文本的稀疏性,并使用擴展后文本和原始文本協(xié)同訓練半監(jiān)督算法。實驗表明,在相同的數(shù)據(jù)集上,本章提出的算法在文本上分類性能優(yōu)于所有其他基本算法。 參考文獻: [1] 鄭文靜,李雷. 基于聚類核的半監(jiān)督情感分類算法研究[J].計算機技術與發(fā)展,2016(12):87-91. [2] 蘇艷,居勝峰,王中卿,等.基于隨機特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學報. 2012(04):85-90. [3] 郭濤,李貴洋,蘭霞.基于圖的半監(jiān)督協(xié)同訓練算法[J].計算機工程與設計.2012(09):3584-3587. [4] 孫學琛,高志強.基于半監(jiān)督學習的短文本分類方法[J].山東理工大學學報(自然科學版).2012(01):1-4. [5] 王玨,周志華,周傲英.機器學習及其應用[M].北京:清華大學出版社,2006. [6] 黃建校,邵曦. 一種改進的SVM增量學習算法研究[J].無線互聯(lián)科技,2017(03):46-49. [7] 劉家辰.集成單類分類算法及其應用研究[D].西安電子科技大學,2015. [8] 馮愛民.結構驅動的單類分類器設計及拓展研究[D].南京航空航天大學,2011. 【通聯(lián)編輯:唐一東】