張敬巍
摘要:作者識別是一個應(yīng)用廣泛的研究領(lǐng)域,可以應(yīng)用于中外文學(xué)作品的作者考證領(lǐng)域,也可以應(yīng)用于版權(quán)保護(hù)、惡意郵件識別等信息安全領(lǐng)域【1】。本文主要研究如何通過電子郵件的語言特征來識別作者的問題。在眾多郵件當(dāng)中,根據(jù)語言風(fēng)格的分析,確定作者?!帮L(fēng)格”是指由于作者的生活經(jīng)歷、藝術(shù)素養(yǎng)等造成的不同的創(chuàng)作特色,而語言風(fēng)格是作家通過作品表現(xiàn)出來的創(chuàng)作語言特有的格調(diào)。我們將要進(jìn)行的作者識別過程其實是一個文本分類的過程。文本分類是對文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記,屬于一種基于分類體系的自動分類。已有的文本分類算法有:決策樹、神經(jīng)網(wǎng)絡(luò)、k近鄰、樸素貝葉斯、遺傳算法和支持向量機(jī)等。文本的分類通過分析電子郵件的語言特征實現(xiàn),作者的語言特征是長期形成的行文習(xí)慣在寫作活動中的體現(xiàn)。我們通過統(tǒng)計的方法用某些數(shù)量特征表現(xiàn)作者的行文風(fēng)格,從例如詞長、句長、詞頻,以及修辭、句法等不同角度綜合體現(xiàn)。我們運用支持向量機(jī)結(jié)合語言風(fēng)格學(xué)的方法分析郵件的作者歸屬問題。
關(guān)鍵詞:作者識別支持向量機(jī)語言特征
1.問題分析
問題要求基于電子郵件的語言特征來識別作者。每位作者在書寫時會體現(xiàn)出不同的行文風(fēng)格,我們選取一些不同的角度對每位作者的郵件文本進(jìn)行分析。分析過程包括:文本預(yù)處理、詞頻統(tǒng)計、文本特征的抽取、分類器的訓(xùn)練。
2.假設(shè)
1.假設(shè)郵件的主要內(nèi)容主要集中在后半部分。
2.假設(shè)文本中詞與詞之間的關(guān)系是相互獨立的。
3.1文本預(yù)處理
文本預(yù)處理是我們進(jìn)行詞頻統(tǒng)計和文本預(yù)處理的第一步,只有對文本進(jìn)行預(yù)處理,才能對郵件的詞頻進(jìn)行統(tǒng)計,對訓(xùn)練集進(jìn)行有效的訓(xùn)練。首先進(jìn)行詞干化,詞干化是將所有形式的衍生詞脫離各種各樣的詞性和語法變化,提取出共同的主干,變?yōu)榻y(tǒng)一的詞根,降低文本特征的維數(shù),便于接下來的處理。如:effective→effect等。
過濾停用詞和稀有詞:通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。
3.2特征選擇
3.3文本表示模型
對于計算機(jī)而言,如果要進(jìn)行文本分類,那么需要將文本表示成計算機(jī)能夠處理的形式,我們選擇的表示模型為向量空間模型,這也是最常用的一個模型。向量空間模型(VSM)是指將每篇文檔表示成一個向量,各個特征詞的詞頻作為向量中的一個元素,語料庫中所有的文檔構(gòu)成一個矩陣。
3.4特征權(quán)重表示
在將文檔用向量空間模型表示后,還需要給每個特征詞賦予一定的權(quán)重,以矩陣的形式交給計算機(jī)去處理。布爾權(quán)重是常用的文本特征權(quán)重表示方法。布爾權(quán)重基于簡單的二元判定標(biāo)準(zhǔn),定義十分直觀。
3.5分類方法統(tǒng)計
K-近鄰法:K-近鄰法(KNN)因算法簡單、易于實現(xiàn)、不需要估計參數(shù)、分類精度高等優(yōu)勢,已成為模式識別和統(tǒng)計學(xué)領(lǐng)域最著名的算法之一,也是機(jī)器學(xué)習(xí)中最早應(yīng)用于自動文本分類的非參數(shù)算法之一。
樸素貝葉斯法:樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。
3.6分類器訓(xùn)練
為了準(zhǔn)確的預(yù)測郵件的作者,我們首先對分類器進(jìn)行訓(xùn)練。我們選取樣本的75%作為訓(xùn)練集使訓(xùn)練器更具有準(zhǔn)確性,剩下的25%作為測試集,檢驗分類器的正確性。
參考文獻(xiàn):
[1]萬晶.中文作者識別方法研究[D].湖南大學(xué),2012.
[2]劉明勇.基于寫作風(fēng)格學(xué)的作者識別技術(shù)研究[D].浙江大學(xué),2013.
[3]吳寅雪.歐美科普作品的詞法特征及其翻譯[J].校園英語(中旬),2015,(7):237-238.
[4][期刊論文] 蘇佩娟,劉赪,牟建波,王麗梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西華大學(xué)學(xué)報(自然科學(xué)版)》2017年4期