胡春月
(吉林職業(yè)技術(shù)學(xué)院,吉林 龍井 133400)
隨著網(wǎng)絡(luò)技術(shù)的不斷提高,自然語言處理技術(shù)有了相對(duì)的提升。由于年代久遠(yuǎn)、保存不當(dāng)?shù)确N種原因,導(dǎo)致了大量的詩集作者無法得到可靠考證。如今,很多學(xué)者都只能依靠殘存的少量資料進(jìn)行反復(fù)推敲,但這一過程難免含有主觀意識(shí),導(dǎo)致結(jié)果存在疑義。但依靠詩詞的文字內(nèi)容利用機(jī)器來進(jìn)行判斷詩詞的所屬作者具有一定的研究可行性。在已知各作者的寫作風(fēng)格體系時(shí),根據(jù)所有已知作者的詩詞內(nèi)容,構(gòu)成多個(gè)向量空間模型,再和佚名的詩內(nèi)容的向量進(jìn)行比對(duì),可以自動(dòng)篩選出佚名詩詞的可能作者。研究主要通過對(duì)南北朝時(shí)期的古典詩詞的信息化整理和發(fā)掘,辨別傳統(tǒng)佚名詩詞的所屬作者。
當(dāng)前,已經(jīng)有部分學(xué)者采用機(jī)器學(xué)習(xí)方法研究詩文,也獲得了不錯(cuò)的成績(jī)。在2005、2007年,易勇等人分別提出了運(yùn)用樸素貝葉斯、信息增益作為特征選擇的依據(jù),結(jié)合爬山法完善了計(jì)算模型,推廣至古典詩詞作者的機(jī)器研究上,準(zhǔn)確率已達(dá)88.5%。2011年,有學(xué)者對(duì)《紅樓夢(mèng)》的寫作風(fēng)格運(yùn)用向量機(jī)(SVM)的方法進(jìn)行研究;2017年,陸尚輝對(duì)《紅樓夢(mèng)》再次研究,結(jié)果都是不拒絕2個(gè)作者所寫的《紅樓夢(mèng)》,與文學(xué)研究者得出的結(jié)果具有一致性[2]。由此可見,將機(jī)器學(xué)習(xí)方法運(yùn)用到文學(xué)詩詞研究方面是可行的,并且具有一定的可靠性。結(jié)合現(xiàn)有成熟的文本分類技術(shù),客觀地計(jì)算出佚名詩篇的所屬作者,對(duì)文學(xué)研究提供了一種相對(duì)可靠的研究思路。
在向量空間模型中,將字、詞作為特征向量表示集,詩詞表示為高維空間向量,每個(gè)特征都看作一個(gè)維度。每一首詩詞的內(nèi)容都可以用一個(gè)高維向量來表示,通過研究向量的相似程度來推測(cè)每一首佚名詩的可能作者。每個(gè)特征項(xiàng)須根據(jù)重要性計(jì)算權(quán)重,利用權(quán)重值來體現(xiàn)文本的基本單元,將詩詞文本表示為一個(gè)稀疏的向量,理論上一首詩的機(jī)器內(nèi)部表示就是一個(gè)詩詞語料中所出現(xiàn)的字的權(quán)重值所組成的向量。目前計(jì)算權(quán)重的方法有很多,其中普遍采用TF-IDF技術(shù)用于評(píng)估詞語對(duì)于文檔集或語料庫中文本的重要程度。TF-IDF計(jì)算公式如下:
(1)
利用主成分分析法,實(shí)現(xiàn)數(shù)據(jù)降維。讓原變量大于或等于主成分的數(shù)量,從而達(dá)到降低高維數(shù)據(jù)的維數(shù)。
主成分分析的降維步驟如下:①計(jì)算詞頻-文檔矩陣D的協(xié)方差矩陣S。②計(jì)算S的特征值λ和特征向量e。③將特征值按從大到小的順序進(jìn)行排列(λ1λ2…λn),并依次選擇對(duì)應(yīng)的特征值來構(gòu)造特征向量矩陣。④選擇p個(gè)重要的主成分,關(guān)于p的選取主要根據(jù)成分的累積貢獻(xiàn)率來決定,即一般要求累積貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包含原始變量的大多數(shù)信息。⑤計(jì)算主成分得分,以達(dá)到降維的目的。
利用文本分類算法,進(jìn)行文檔分類,從而實(shí)現(xiàn)充分挖掘、利用文本信息。1968年,Cover和Hart提出了KNN算法[1]。KNN是經(jīng)典分類方法之一,有實(shí)現(xiàn)簡(jiǎn)單、魯棒性高等優(yōu)點(diǎn),采用余弦相似度的計(jì)算方法,使兩個(gè)向量夾角越小,達(dá)到相似度越高。余弦相似度計(jì)算公式如下:
(2)
1960年,國外學(xué)者首次提出了樸素貝葉斯分類方法。須遵循條件、位置獨(dú)立性的原則。設(shè)樣本空間為D,將D分成n個(gè)類別,記為C1,C2,…,Ci,其中P(Ci)>0,i=1,2,…,n,利用樸素貝葉斯算法學(xué)習(xí)一個(gè)分類函數(shù),將樣本X映射到具體某一類。
(3)
式(3)為貝葉斯公式,其中P(Ci)是先驗(yàn)概率,P(Ci|X)是后驗(yàn)概率。通過已知數(shù)據(jù)用頻率估計(jì)概率,可求出P(Ci)的估計(jì)值。將樣本點(diǎn)X映射為互相獨(dú)立的特征f1,f2,…,fm,m表示樣本點(diǎn)X的特征維數(shù)。根據(jù)fi在Ci中出現(xiàn)的頻率可求得P(fi|Ci)的預(yù)估值。依據(jù)條件獨(dú)立性假設(shè),可根據(jù)(4)求得P(Ci|X)的預(yù)估值。
(4)
結(jié)合式(3)、式(4)可求得X所屬類別Ci的后驗(yàn)概率。最后將樣本點(diǎn)X映射到后驗(yàn)概率最大的類別中。即:
(5)
從古詩文網(wǎng)中選取了南北朝時(shí)期的所有詩篇,共計(jì)219首,其中作者不詳?shù)脑娖灿?jì)41首。通過整理已有詩篇可知該時(shí)期共涉及到49位不同的詩人。此次研究便是基于這49位詩人來辨別每一首佚名詩可能是其中哪位詩人的著作。
為了測(cè)試其可靠性,在實(shí)驗(yàn)初期進(jìn)行了模擬實(shí)驗(yàn),收集了《全唐詩》中李白和杜甫2位詩人的所有詩篇,將每位詩人的詩任意分成訓(xùn)練集、測(cè)試集,通過KNN算法進(jìn)行檢測(cè),觀察實(shí)驗(yàn)成果。
首先采用李白、杜甫2位詩人的詩篇進(jìn)行測(cè)試實(shí)驗(yàn),將詩詞內(nèi)容分別進(jìn)行分詞處理,獲得分詞后的文本內(nèi)容,進(jìn)而進(jìn)行TF-IDF處理,獲得每位詩人寫作風(fēng)格的向量表示。對(duì)測(cè)試內(nèi)容進(jìn)行同樣的操作,最后采用KNN算法,獲得詩詞的作者判定結(jié)果,實(shí)驗(yàn)結(jié)果如表1所示。
觀察實(shí)驗(yàn)結(jié)果,可以判斷出,通過向量空間模型方法的正確率可達(dá)到80%以上,雖然實(shí)驗(yàn)中可能存在誤差,但是仍可以說明該方法具有一定的可靠性,可以預(yù)測(cè)一些佚名作品的可能作者。
首先通過傳統(tǒng)的KNN算法,針對(duì)南北朝時(shí)期出現(xiàn)的大量佚名詩集進(jìn)行了作者判別,構(gòu)造其向量空間模型,向量的維數(shù)達(dá)到6 583維,實(shí)驗(yàn)中將每首佚名詩最可能的3個(gè)作者進(jìn)行記錄,再采用傳統(tǒng)的主成分分析(PCA)方法對(duì)文本數(shù)據(jù)降維,而后使用KNN算法對(duì)降維后的數(shù)據(jù)進(jìn)行預(yù)測(cè),最后通過樸素貝葉斯方法進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果如表2所示。
表1 實(shí)驗(yàn)結(jié)果
表2 實(shí)驗(yàn)結(jié)果
比較2次獲得的判別結(jié)果,可以得出,雖然不能十分確定佚名詩篇的作者,但是通過比較客觀的方法,獲得的結(jié)果具有相似性,那么可以針對(duì)出現(xiàn)的相似結(jié)果進(jìn)一步探究,或許可以得出更有效的信息。
簡(jiǎn)單分析實(shí)驗(yàn)獲得結(jié)果:例如通過實(shí)驗(yàn)推測(cè)出《隴頭歌辭三首》的作者極有可能是陸凱,查閱相關(guān)文學(xué)資料可得知《隴頭歌辭三首》反映的是北方人民服兵役的艱苦生活和思戀故鄉(xiāng)的感情,隴頭是山名,在今陜西省西北。而陸凱在那一時(shí)期的經(jīng)歷與詩詞內(nèi)容有極大相關(guān)性,符合常理推測(cè)??梢姡@一推測(cè)結(jié)果具有一定的可信性。當(dāng)然使用機(jī)器學(xué)習(xí)方法研究文學(xué)詩詞具有必然的實(shí)際誤差,但是為詩詞研究者提供了一種探究思路,有助于詩詞研究的進(jìn)一步深入。
文學(xué)性語言屬于自然語言處理中比較困難的語言,將古典詩詞作者判別問題轉(zhuǎn)化為了文本分類問題,利用已有的成熟理論和技術(shù)來解決南北朝時(shí)期佚名詩詞的作者究竟是誰的問題,對(duì)相關(guān)詩詞研究具備相應(yīng)的研究?jī)r(jià)值。然而仍存在一些問題有待進(jìn)一步研究,首先文學(xué)性作品講究文字的精練,運(yùn)用一個(gè)個(gè)字、詞來抒發(fā)復(fù)雜的事物和感情,所以通過詞語來劃分,不具有可靠性,有效的分詞方式有待更深層次的探究。其次,根據(jù)機(jī)器學(xué)習(xí)方法獲得的結(jié)果,仍需要文學(xué)研究者進(jìn)一步研究分析,得出更為可靠的結(jié)論。