馬誠,賈凱莉,李云紅,高子明,候嘉樂
(西安工程大學(xué)電子信息學(xué)院,陜西西安 710048)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,文本信息呈指數(shù)增長。面對海量的文本信息,如何對各種文檔進(jìn)行恰當(dāng)?shù)谋磉_(dá)和分類,從中快速、準(zhǔn)確地找到所需的信息,已成為眾多研究者關(guān)注的焦點(diǎn)。文本分類過程主要涉及文本表示、特征選擇、分類器設(shè)計(jì)3 個(gè)步驟。其中最重要的步驟為文本表示。詞袋(Bag of Words,BoW)模型[1]是最常用的文本表示方法,由于其將文本表示為One-hot 向量,忽略了語法和語序信息,因此丟失了大量的文本信息。為了解決文本表示中存在的問題,神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于文本表示,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[2-5]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[6-9]、膠囊神經(jīng)網(wǎng)絡(luò)(Capsule Neural Networks)[10]等。與傳統(tǒng)的文本表示方法相比,RNN 在獲取短文本的語義方面表現(xiàn)優(yōu)越,但在學(xué)習(xí)長文檔的語義特征方面效果較差;CNN 進(jìn)行文本表示時(shí),與n-gram[11]有些類似,只能提取連續(xù)單詞的語義成分,可能會失去單詞之間的長距離語義依賴性[12]。
近年來,由于圖卷積網(wǎng)絡(luò)(GCN)[13-14]能更好地捕獲非連續(xù)詞和長距離詞的語義和語法信息,引起了眾多研究者的關(guān)注。Kipf 和Welling[15]提出GCN 模型,該模型通過譜圖卷積的局部化一階近似對圖卷積進(jìn)行逼近與簡化,使得計(jì)算復(fù)雜度降低,并可以對局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征進(jìn)行編碼,學(xué)習(xí)隱藏層表示,改善了文本分類性能。Chiang 等人[16]為了降低圖卷積網(wǎng)絡(luò)的時(shí)間復(fù)雜度與內(nèi)存復(fù)雜度,提出了聚類GCN方法,該方法使用圖聚類算法對子圖進(jìn)行采樣,并對采樣子圖中的節(jié)點(diǎn)進(jìn)行圖卷積。由于鄰域搜索也被限制在采樣子圖范圍內(nèi),因此聚類GCN 能同時(shí)處理較大的圖和使用較深的體系結(jié)構(gòu),所用時(shí)間短、內(nèi)存少。Xu 等人[17]為了降低計(jì)算復(fù)雜度并提高分類準(zhǔn)確率,提出了GWNN(Graph Wavelet Neural Networks)方法,該方法用圖小波代替圖拉普拉斯的特征向量作為基集,并且利用小波變換和卷積定理定義卷積算子。Yao等人[18]提出TextGCN模型,該模型是將整個(gè)文本語料庫建模為文檔字圖,并應(yīng)用GCN 進(jìn)行分類。
文中在Text-GCN[18]模型研究基礎(chǔ)上建立基于圖小波網(wǎng)絡(luò)文本分類模型(Text-GWNN)。Text-GWNN模型使用改進(jìn)的TF-IDF 算法計(jì)算詞與文檔間的權(quán)重,能突出特征詞對類別的重要程度;同時(shí),該模型在節(jié)點(diǎn)域是稀疏及局部化的,具有較高的計(jì)算效率。此外,通過超參數(shù)s更加靈活地調(diào)整節(jié)點(diǎn)的鄰域,能更有效地根據(jù)鄰域節(jié)點(diǎn)獲取中心節(jié)點(diǎn)表示,從而改善文本分類效果。通過R8、R52 及Ohsumed 英文語料庫的驗(yàn)證,提出方法提高了文本分類性能,具有較高的文本分類準(zhǔn)確率。
圖1 為使用Text-GWNN 模型進(jìn)行分類的原理框圖。對文本進(jìn)行分類,首先需要對文本進(jìn)行預(yù)處理,包括去除停止詞、分詞并清洗不需要的數(shù)據(jù)和去除標(biāo)點(diǎn)符號;其次利用清洗后的文本通過詞共現(xiàn)及詞與文檔的關(guān)系構(gòu)建文本圖;最后訓(xùn)練分類模型,在測試集上對分類模型進(jìn)行測試,并對分類結(jié)果進(jìn)行評價(jià)。
圖1 Text-GWNN模型分類框圖
根據(jù)語料庫的特點(diǎn),使用詞共現(xiàn)原理及詞與文檔的關(guān)聯(lián)構(gòu)建無向文本圖。在語料庫中,節(jié)點(diǎn)的數(shù)目為文檔數(shù)加上文檔中不重復(fù)出現(xiàn)的詞的數(shù)目。根據(jù)詞與文檔的關(guān)系,如果詞在該文檔中,則使用改進(jìn)TF-IDF 算法建立詞與文檔之間的權(quán)重關(guān)系;否則,詞與文檔之間的權(quán)重為0。改進(jìn)TF-IDF 算法的計(jì)算方式如式(1)所示:
其中,tfik指的是詞i在文檔k中出現(xiàn)的次數(shù),N為總文檔數(shù),ni為出現(xiàn)詞i的文檔數(shù),C為總類別數(shù),ci為出現(xiàn)詞i的類別數(shù)。
根據(jù)詞共現(xiàn)理論,采用PMI 算法建立詞與詞之間的權(quán)重關(guān)系:
其中,Nij為詞i和詞j出現(xiàn)在同一滑動窗口的數(shù)目,Ni為語料中包含詞i的滑動窗口數(shù)目,N為語料中滑動窗口的總數(shù)目。
假設(shè)無向圖G=(V,E),其中V代表所有節(jié)點(diǎn)的集合,E代表邊的集合。通常用拉普拉斯矩陣L=D-A表示圖,其中A為鄰接矩陣,代表兩個(gè)節(jié)點(diǎn)之間的連接關(guān)系,D為度矩陣,代表每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)連接的個(gè)數(shù)。
文中采用GWNN 模型[17](兩層網(wǎng)絡(luò))進(jìn)行文本分類,該模型是基于圖數(shù)據(jù)操作的。正則化后的拉普拉斯矩陣為:
其中,?代表哈達(dá)瑪積,y為卷積核,可以用對角矩陣g(θ)代替UTy,哈達(dá)瑪積可以被視作矩陣乘法。上式可以被簡化為:
圖小波變換是將信號從頂點(diǎn)域變換為譜域進(jìn)行操作,其是以一組小波基Ψs=(Ψs1,Ψs2,…,Ψsn) 為基礎(chǔ),每個(gè)Ψsi都代表以節(jié)點(diǎn)i為中心,鄰域范圍為s的信號。因此,圖信號x的圖小波變換為圖小波逆變換為圖小波卷積被定義為:
其中,Gs=diag((g(sλ1),…g(sλn))),g(sλi)=eλis,U為拉普拉斯的特征向量。
圖小波神經(jīng)網(wǎng)絡(luò)(GWNN)為一個(gè)多層的神經(jīng)網(wǎng)絡(luò),其傳播規(guī)則為:
其中,Ψs為小波基,為圖小波變換矩陣,是對角濾波矩陣,h為非線性函數(shù)。
實(shí)驗(yàn)采用R8、R52 及Ohsumed 英文語料庫進(jìn)行文本分類任務(wù),對提出的文本分類方法進(jìn)行評估。
使用R8、R52 和Ohsumed 3 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集。其中,R8為8種類別的數(shù)據(jù)集,而R52為52種類 別的數(shù)據(jù)集,Ohsumed 為23 種心血管疾病病例的數(shù)據(jù)集。各數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)基于Python 語言實(shí)現(xiàn),采用Tensorflow 框架對Text-GWNN 模型進(jìn)行數(shù)據(jù)集測試驗(yàn)證。
1)實(shí)驗(yàn)參數(shù)設(shè)置
根據(jù)Text-GCN 及GWNN 模型進(jìn)行參數(shù)設(shè)置,并通過反復(fù)多次實(shí)驗(yàn)驗(yàn)證,最終設(shè)置Text-GWNN 模型各參數(shù)的取值,具體見表2。
表2 實(shí)驗(yàn)參數(shù)設(shè)置
2)評價(jià)指標(biāo)
采用文本分類中常用的準(zhǔn)確率(Accuracy)、召回率(Recall)、F1 值對文本分類結(jié)果進(jìn)行評價(jià),其中TP、FP、TN和FN分別代表正陽性、假陽性、正陰性和假陰性的分類數(shù)量。各評價(jià)指標(biāo)的計(jì)算如式(11)所示:
將文中模型與TF-IDF+LR、PV-DM+LR、LSTM、Bi-LSTM 和Text-GCN 文本分類模型對比,并在R8、R52 和Ohsumed 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。為驗(yàn)證Text-GWNN 模型的有效性,通過分類準(zhǔn)確率、召回率、F1值3 個(gè)評價(jià)指標(biāo)進(jìn)行實(shí)驗(yàn)結(jié)果評估,結(jié)果如表3~表5所示。
表3 分類準(zhǔn)確率比較
表4 分類召回率比較
從表3~表5 列出各方法的實(shí)驗(yàn)結(jié)果可以得出,Text-GWNN 與TF-IDF+LR、PV-DM+LR以及LSTM、Bi-LSTM文本分類方法相比,對于R8、R52及Ohsumed3個(gè)數(shù)據(jù)集,Text-GWNN 分類評價(jià)指標(biāo)均高于對比的分類方法,該結(jié)果說明文中方法可以改善文本分類效果。
表5 分類F1值比較
Text-GWNN 模型與TextGCN 模型相比,R8、R52及Ohsumed 3 個(gè)數(shù)據(jù)集的分類評價(jià)指標(biāo)有所提高,Text-GWNN 模型測試準(zhǔn)確率分別達(dá)到了98.09%、93.91%、69.30%,分別提升了0.92%、0.22%、1.01%,結(jié)果證明Text-GWNN 分類模型可以有效提高文本分類結(jié)果。
圖2 給出了參數(shù)s對Text-GWNN 模型分類準(zhǔn)確率的影響,參數(shù)s代表鄰域范圍,其取值范圍一般為s∈[0.5,1]。當(dāng)s較小時(shí),無法將與該節(jié)點(diǎn)有關(guān)的節(jié)點(diǎn)信息全部包含在其中;當(dāng)s的取值太大時(shí),又會將無關(guān)的信息包括進(jìn)來,因此,要合理選擇s值。對于不同的數(shù)據(jù)集,參數(shù)s的取值往往不同。從圖中可以看出,對于R8、R52 和Ohsumed 3 個(gè)數(shù)據(jù)集,分別取s=0.9、0.7、0.5 時(shí),Text-GWNN 模型分類準(zhǔn)確率最高。
圖2 參數(shù)s 對分類準(zhǔn)確率的影響
文中提出基于圖小波網(wǎng)絡(luò)模型(Text-GWNN)的文本分類方法,該方法利用圖小波卷積的局部化特性,能更好地捕獲局部詞共現(xiàn)信息,改善文本分類效果。通過R8、R52 及Ohsumed 3 個(gè)英文語料庫測試,驗(yàn)證了模型的有效性。未來工作中,將會研究加入池化層的圖小波網(wǎng)絡(luò)模型對文本分類性能的影響,并嘗試將其應(yīng)用于中文文本分類;另一方面,還會研究Text-GWNN 網(wǎng)絡(luò)深度對于文本分類性能的影響,并在情感分類任務(wù)中應(yīng)用該模型。