李高鵬,艾山·吾買爾
(新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046)
文本分類技術(shù)是指利用計算機(jī)編寫程序,實現(xiàn)把某一文本按照一定的標(biāo)準(zhǔn)規(guī)范,劃分到給定的類別中的技術(shù)。文本分類技術(shù)被廣泛應(yīng)用于信息檢索、數(shù)字化圖書館、有害信息過濾、搜索引擎等領(lǐng)域[1]。研究維吾爾語(以下簡稱維語)文本分類有助于管理和篩選互聯(lián)網(wǎng)上海量的信息。目前維語文本分類的研究主要采用基于機(jī)器學(xué)習(xí)的方法[2-5],基于深度學(xué)習(xí)的維吾爾文文本分類研究較少,文本分類實驗的結(jié)果仍有待提高。目前的維語文本分類在特征提取時采用的是信息增益(IG)、期望交叉熵(ECE)等方法,向量表示方法采用的是向量空間模型(VSM)主要存在三個問題:①特征空間存在高緯度的問題;②向量表示存在高稀疏性的問題;③在以往的研究中很少考慮詞性特征對維語文本分類實驗的影響。
基于以上問題,為了降低特征空間的維度,和向量表示稀疏性的問題,本文根據(jù)將訓(xùn)練語料花費(fèi)為以下三組,第一組訓(xùn)練文本為僅僅對待訓(xùn)練文本進(jìn)行去停用詞等處理,用來作為基線與其他組實驗進(jìn)行對比;第二組訓(xùn)練語料是根據(jù)詞性特征從第一組訓(xùn)練語料中篩選出名詞、動詞、形容詞,過濾掉其他詞匯(如:副詞、連詞、代詞等);第三組訓(xùn)練語料是根據(jù)詞性特征從第一組訓(xùn)練語料中只挑選出文本中詞性為名詞的詞匯作為文本特征。本文通過對這三組訓(xùn)練語料,采用機(jī)器學(xué)習(xí)的方法,以及深度學(xué)習(xí)的方法進(jìn)行實驗,研究了解維語詞性特征對分類結(jié)果的影響,通過將這訓(xùn)練三組語料,在傳統(tǒng)機(jī)器學(xué)習(xí)方法SVM、KNN、DTree 以及深度學(xué)習(xí)方法CNN、RNN、CNN-BLSTM 上進(jìn)行實驗,對比實驗結(jié)果發(fā)現(xiàn)在機(jī)器學(xué)習(xí)方法上,通過改變特征選擇的方法,提高了文本分類的準(zhǔn)確率,并且大大降低了訓(xùn)練時間;在基于神經(jīng)網(wǎng)絡(luò)的算法上,第三組訓(xùn)練語料較第一組訓(xùn)練語料及第二組訓(xùn)練語料,準(zhǔn)確率有所提高,訓(xùn)練時間也有所降低。
2007 年胡燕等人[6]提出將類別特性強(qiáng)的名詞、動詞作為文本的一級詞性提取出來,提高了特征提取的效率,降低了特征向量的維度,不失為一種簡單高效特征提取方法。2015 年路永和等人[7]引入詞性特征改進(jìn)了特征權(quán)重的計算方法,提高了分類的準(zhǔn)確率。賈會強(qiáng)等人[24]提取藏文中的名詞動詞作為一級詞性再通過計算這些詞的文本頻數(shù)(TF)和文檔頻數(shù)(DF)來計算其權(quán)重;根據(jù)權(quán)重進(jìn)行排序,篩選出前K 個詞作為特征空間。2017 年黃賢英等人[8]在利用基于語義的短文本相似度進(jìn)行文本分類時通過對提取到的關(guān)鍵詞的詞性不同賦予不同的權(quán)重系數(shù),以此區(qū)別各種貢獻(xiàn)度詞項在短文本相似度計算中的重要程度,有效的提高了短文本分類的準(zhǔn)確率。在這些方法中考慮了詞性特征,不同的詞性包含的信息不同,對于具有較強(qiáng)分類特性的詞賦予較高的權(quán)重或者是直接將具有很強(qiáng)分類特性的詞作為一級特征詞進(jìn)行特征選擇,缺乏了更進(jìn)一步的研究和對比,本文在考慮影響分類類別的重要因素時,通過人工觀察及對比發(fā)現(xiàn)包含類別信息最多的詞是名詞,動詞、形容詞、代詞、量詞等包含較少的類別區(qū)分特征。
2012 年阿力木江·艾沙等人[3]提出了基于統(tǒng)計方法的維語短語抽取算法,采用支持向量機(jī)(SVM)算法進(jìn)行了分類實驗。買買提依明·哈斯木[4]提出了一種基于N 元模型的維語文本分類技術(shù)。2016 年阿力甫·阿不都克里木等人[9]提出一種基于TextRank 算法和互信息相似度的維文關(guān)鍵詞提取方法,然后根據(jù)互信息相似度度量,計算輸入文本關(guān)鍵詞集和各類關(guān)鍵詞集的相似度,實現(xiàn)了文本分類。2017 年吐爾地·托合提等人[5]研究了一種n元遞增算法來抽取維吾爾文本中表達(dá)關(guān)鍵信息的語義串,提出了一種類似于Jaccard 相似度的文本和類主題相似度度量方法,實現(xiàn)了維語文分類算法。以上關(guān)于維語的文本分類研究大都還停留在傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,基于深度學(xué)習(xí)的維語文本分類研究較少,維語文本分類的研究仍有很大的提升空間。本文在研究詞性對基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類結(jié)果的同時也研究詞性對基于深度學(xué)習(xí)算法的文本分類結(jié)果的影響。
維語構(gòu)詞和構(gòu)形附加成分很豐富。關(guān)于維語詞性的劃分有不同的標(biāo)準(zhǔn),表1 所示的是新疆大學(xué)多語種信息技術(shù)重點(diǎn)實驗室獨(dú)立創(chuàng)建了維語詞性劃分的標(biāo)準(zhǔn)[10]。
表1 維語一級詞性劃分標(biāo)準(zhǔn)
圖1 詞性分布表
圖1 是對實驗所用的語料進(jìn)行統(tǒng)計得到的詞性分布,可以看出名詞詞性在所有詞中占據(jù)了54%的比例,動詞占據(jù)了20%的比例,形容詞占據(jù)了9%的比例。名詞、動詞、形容詞加起來占據(jù)了所有詞中83%的比例,其他詞性的詞匯合計占據(jù)17%。因此本文根據(jù)詞性的比重設(shè)計的第二組訓(xùn)練語料為只保留文本中為名詞、動詞、形容詞詞性的特征與只去除停用詞的第一組訓(xùn)練語料作對比,同時考慮到針對文本分類問題,動詞和形容詞似乎對分類的作用沒有名詞的影響大,于是在本文的第三組訓(xùn)練語料中,只保留了維語文本中名詞詞性的詞匯。
支持向量機(jī)是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,主要思想是在線性可分的情況下,在文本空間中直接尋找最優(yōu)超平面,在線性不可分的情況下,通過與高斯“核”函數(shù)的結(jié)合,將數(shù)據(jù)從低維映射到高維,構(gòu)建一個最優(yōu)超平面,使得超平面兩邊的樣本點(diǎn)到超平面的距離最大。支持向量機(jī)的優(yōu)點(diǎn)在于它將非線性問題轉(zhuǎn)化為線性問題,并將求解的問題轉(zhuǎn)化為一個凸優(yōu)化問題,對應(yīng)的局部最優(yōu)解即為全局最優(yōu)解,通過將分類間隔最大化,使得支持向量機(jī)具有較好的魯棒性。支持向量機(jī)的方法在文本分類中能達(dá)到較好的效果。假設(shè)訓(xùn)練集為:T={(xi,yi),L,(xi,yi)}∈(X×Y)l,其中xi∈X=Rn為輸入樣本,yi∈Y={1,-1}代表分類類別,n 維空間中線性判別函數(shù)的一般形式為:
要使得f(xi)<-1 或f(xi)>1,并使得分類間隔最大,等式需滿足以下條件:
循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于解決時序依賴等問題,循環(huán)神經(jīng)網(wǎng)絡(luò)可用于股票走勢預(yù)測、語音識別等領(lǐng)域。通常神經(jīng)網(wǎng)絡(luò)模型在各個網(wǎng)絡(luò)層之間都是全部連接在一起的,各層之間的各個節(jié)點(diǎn)之間是沒有連接的,而循環(huán)神經(jīng)網(wǎng)絡(luò)則不同,循環(huán)神經(jīng)網(wǎng)絡(luò)同一層的輸出會傳遞到同一層的下一個狀態(tài),參與運(yùn)算,進(jìn)行狀態(tài)更新,循環(huán)神經(jīng)網(wǎng)絡(luò)基于上下文的內(nèi)容是相關(guān)的這一假設(shè)的基礎(chǔ)上,通過共享不同時間的參數(shù),實現(xiàn)對序列數(shù)據(jù)的處理,學(xué)習(xí)到不同時間的信息之間的依賴關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 RNN網(wǎng)絡(luò)結(jié)構(gòu)
實驗的語料來源于天山網(wǎng)和人民網(wǎng),本文挑選了以下7 個類別,共計26733 篇文本作為實驗語料。為了得到可靠穩(wěn)定的模型,采用交叉驗證法,按照8:1:1的比例劃分為訓(xùn)練集、驗證集和測試集,劃分結(jié)果如表2 所示。
表2 訓(xùn)練集、驗證集和測試集的劃分
為了進(jìn)行對比和比較全面地評估文本分類的實驗結(jié)果,本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1值三個指標(biāo)來衡量實驗結(jié)果。本文首先對維語文本中的詞匯進(jìn)行詞性標(biāo)注,然后根據(jù)詞性選擇出特定詞性的維語詞匯特征,用作實驗的語料。其中維語詞性標(biāo)注方法采用基于Bi-LSTM-CRF 的詞性標(biāo)注方法實現(xiàn)的[10],準(zhǔn)確率達(dá)到了98.41%。針對三組訓(xùn)練語料,本文采用期望交叉熵方法進(jìn)行特征選擇,特征空間的維度為5000 維,用VSM 向量空間模型將文本向量化,然后利用KNN、SVM、決策樹、邏輯回歸、隨機(jī)森林的方法,進(jìn)行實驗對比,實驗結(jié)果如表3。
表3 基于機(jī)器學(xué)習(xí)分類算法的實驗結(jié)果
其中T 表示的是訓(xùn)練耗時單位為時分秒格式,DTree 代表決策樹算法、LR 代表邏輯回歸算法、RFR代表隨機(jī)森林算法下同,從表3 可以看出,第三組訓(xùn)練語料在KNN、SVM、邏輯回歸和隨機(jī)森林算法上,F(xiàn)1 的值比在其他兩組語料上結(jié)果要好,在決策樹算法上略低于第二組訓(xùn)練語料,在訓(xùn)練耗時的比較上第三組語料花費(fèi)的時間也略低于其他兩組。實驗結(jié)果表明直接通過過濾詞性提取特征,對文本分類實驗結(jié)果影響不大,只篩選出名詞詞性的第三組語料實驗結(jié)果在多數(shù)情況下比篩選名詞、動詞、形容詞的第二組語料和只去除停用詞的第一組語料相比分類效果較好,耗時較短,為了繼續(xù)研究是哪些詞匯在影響分類的結(jié)果,本文對三組實驗的特征集(分別為5000 個詞匯)取交集得到3078 個詞匯作為特征空間,繼續(xù)進(jìn)行實驗,實驗結(jié)果如表4 所示。
表4 縮小特征空間后的基于機(jī)器學(xué)習(xí)分類算法的實驗結(jié)果
從表4 可以看出利用三組實驗特征集合的交集作為特征空間的方法在訓(xùn)練語料一上表現(xiàn)最好,將上面兩表中的最好實驗結(jié)果以及對應(yīng)訓(xùn)練耗時進(jìn)行對比,如表5、表6 所示。
表5 兩組最好分類結(jié)果對比
表6 兩組實驗訓(xùn)練耗時對比
由表5、表6 可以看出,通過取三組訓(xùn)練語料特征集合的交集得到的特征集合與三組語料分別進(jìn)行特征提取再訓(xùn)練的實驗結(jié)果沒有太大的差別,但卻大大縮短了文本分類實驗的訓(xùn)練時間。
為了更好地對比詞性因素對文本分類實驗的影響,本文還采用了深度學(xué)習(xí)中的CNN、RNN、CNNBLSTM 方法進(jìn)行比較,在文本向量化時,我們選擇采用的是字符向量化的方法。
表7 基于深度學(xué)習(xí)分類算法的實驗結(jié)果
由表7 可以看出在基于神經(jīng)網(wǎng)絡(luò)的文本分類中,第一組語料在CNN 上的實驗結(jié)果略高于其他兩組訓(xùn)練語料,但第三組語料的訓(xùn)練時間較短,并且第三組語料在RNN、CNN-BLSTM 上表現(xiàn)高于其他兩組訓(xùn)練語料,訓(xùn)練時間也較短。以上實驗表明根據(jù)詞性過濾后的神經(jīng)網(wǎng)絡(luò)分類算法實驗,在準(zhǔn)確率相差無幾的情況下,卻可以較大程度上縮短訓(xùn)練時間。
實驗結(jié)果表明名詞對維語文本分類的影響最大,動詞、形容詞等對文本分類的貢獻(xiàn)較小。通過期望交叉熵的方法,進(jìn)行特征提取,可以有效的提取出對分類貢獻(xiàn)高的詞匯,但通過詞性篩選又可大大降低特征空間的維度,大幅縮短訓(xùn)練時間,并且在一些方法上提高了文本分類實驗的效果。本文在研究過程中并未采用控制變量法逐一證明各個詞性對文本分類的影響,只是通過詞性為名詞、動詞、形容詞的詞匯包含更多的文本信息這一先驗知識的基礎(chǔ)上進(jìn)行的實驗對比。