陳 鑫,邱占芝
(大連交通大學(xué)機(jī)械工程學(xué)院,遼寧大連116028)
文本分類是指在在給定的分類體系下,根據(jù)文本內(nèi)容來(lái)確定文本類別的過(guò)程,它可以幫助用戶根據(jù)自己需要的內(nèi)容實(shí)現(xiàn)信息篩選。早期的文本分類主要是基于知識(shí)工程,通過(guò)人工定義規(guī)則來(lái)進(jìn)行文本分類,該方法費(fèi)時(shí)費(fèi)力,并且需要對(duì)領(lǐng)域?qū)傩灾R(shí)有深入地了解。后來(lái)隨著大量文檔的涌現(xiàn)及機(jī)器學(xué)習(xí)的發(fā)展,研究人員通過(guò)在預(yù)先標(biāo)定好數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過(guò)分類器實(shí)現(xiàn)對(duì)未知類別文本的分類。研究結(jié)果表明基于機(jī)器學(xué)習(xí)的文本分類精度不比基于知識(shí)工程的方法差,其分類時(shí)間卻大大得到縮減,并且該方法不需要人工干預(yù),可應(yīng)用于各個(gè)領(lǐng)域。目前,深度學(xué)習(xí)領(lǐng)域相關(guān)算法也越來(lái)越來(lái)地應(yīng)用在文本分類中,與機(jī)器學(xué)習(xí)一并成為文本分類問(wèn)題的最主要研究方法??偠灾M管機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)于文本分類的研究起了極大地推動(dòng)作用,但是文本分類其自身的屬性特點(diǎn)及工程應(yīng)用上的問(wèn)題,如:文本類型復(fù)雜多變,同時(shí)其特征維度較高,經(jīng)常伴有較多的噪聲,這些給研究工作帶來(lái)了很多新的挑戰(zhàn),因此,尋找有效的方法來(lái)降低文本數(shù)據(jù)維度,已成為文本分類實(shí)現(xiàn)效果好壞的關(guān)鍵,主題模型就為此提供了一條很好的解決思路。
本文重點(diǎn)介紹瓦瑟斯坦自編碼器(Wasserstein Auto-Encoder,WAE)改進(jìn)模型在文本分類中的應(yīng)用。WAE是一種非常重要的主題模型[1],它是一種在數(shù)據(jù)分布中構(gòu)建生成模型的新算法,它目前主要應(yīng)用在圖像領(lǐng)域,但遷移到自然語(yǔ)言處理領(lǐng)域后,依然展現(xiàn)了非常大的研究?jī)r(jià)值。但是,WAE模型直接應(yīng)用在文本領(lǐng)域,存在著長(zhǎng)短類型文本的適應(yīng)性及文本數(shù)據(jù)歸一化等問(wèn)題,因此本文在WAE模型基礎(chǔ)上,進(jìn)行了模型改進(jìn)和優(yōu)化的研究與探索,提出了高斯混合瓦瑟斯坦自編碼器(Gaussian Mixture Wasserstein Auto-Encoder,GMWAE)及基于迪利克雷分布的瓦瑟斯坦自編碼器(Dirichlet Wasserstein Auto-Encoder,DWAE)兩個(gè)模型。本文分別將WAE、GMWAE及DWAE與支持向量機(jī)(Support Vector Machine,SVM)結(jié)合起來(lái),進(jìn)行文本分類。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),WAE、GMWAE、DWAE主題模型對(duì)于文本分類效果的提升有不小的幫助,其中改進(jìn)后的模型GMWAE和DWAE使得分類性能得到進(jìn)一步地提升,其中DWAE性能略優(yōu)。在本文的最后又針對(duì)文本分類中主題關(guān)鍵詞數(shù)量的選取進(jìn)行了進(jìn)一步的研究,尋找關(guān)鍵詞數(shù)量、分類精度及分類時(shí)間的關(guān)系,方便后續(xù)相關(guān)研究工作的深入與擴(kuò)展。
文本分類的研究最早可以追溯到上個(gè)世紀(jì) 60 年代,總的來(lái)說(shuō),研究方法大致可以分為知識(shí)工程、機(jī)器學(xué)習(xí)及深度學(xué)習(xí)三個(gè)階段。
在80年代之前可以劃歸為研究進(jìn)程的第一階段,該階段文本分類的研究主要是以知識(shí)工程的方法作為主導(dǎo),該方法在構(gòu)建分類器的過(guò)程中,需要具有專業(yè)領(lǐng)域背景知識(shí)的大量專家的參與,不但耗時(shí)耗力,也無(wú)法確保分類規(guī)則的一致性。后來(lái),到了90年代,隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,越來(lái)越多的研究人員開始嘗試運(yùn)用機(jī)器學(xué)習(xí)相關(guān)技術(shù)進(jìn)行文本分類,該階段可以劃歸為文本分類的研究進(jìn)程的第二階段?;跈C(jī)器學(xué)習(xí)的文本分類不再需要具有專業(yè)領(lǐng)域背景知識(shí)的大量專家的參與,可以通過(guò)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)目標(biāo)文本的分類,該方法除了具有不錯(cuò)的分類精度外,還具有較快的分類速度,具有很強(qiáng)的應(yīng)用性。常用的機(jī)器學(xué)習(xí)方法包括K最鄰近[2]、樸素貝葉斯[3]、決策樹[4]及支持向量機(jī)[5]等模型,它們都展現(xiàn)了不錯(cuò)的文本分類性能。在近二三十年,深度學(xué)習(xí)相關(guān)方法逐漸深入到的文本分類任務(wù)的研究之中,這個(gè)看作是文本分類研究的第三階段,深度學(xué)習(xí)相關(guān)方法凸顯了端到端的思想,大大降低了機(jī)器學(xué)習(xí)方法對(duì)特征工程的依賴。最初,由于文本自身特點(diǎn),使得深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的發(fā)展沒(méi)有圖像領(lǐng)域那樣迅速,主要的原因是圖像的原始數(shù)據(jù)是連續(xù)且稠密的,具有較好的局部相關(guān)性。而文本則是以詞為基本單位,無(wú)法從表面上判斷詞語(yǔ)間的語(yǔ)義相關(guān)性,且詞語(yǔ)的向量化表示方法具有高維度及數(shù)據(jù)稀疏的特點(diǎn),這些都增加了模型應(yīng)用的難度,為解決上述問(wèn)題,研究人員們進(jìn)行了深度學(xué)習(xí)模型不斷的優(yōu)化與研究,應(yīng)用在文本分類任務(wù)的深度學(xué)習(xí)模型主要包括:循環(huán)神經(jīng)網(wǎng)絡(luò)[6]、卷積神經(jīng)網(wǎng)絡(luò)[7]、深度置信網(wǎng)絡(luò)[8]及編碼解碼模型[9]等,這些深度學(xué)習(xí)方法為文本分類任務(wù)提供了新的解決思路,具有很強(qiáng)的應(yīng)用前景。
總的來(lái)說(shuō),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)方法在工程上文本分類的任務(wù)中均展現(xiàn)了各自的優(yōu)勢(shì),是實(shí)用性非常強(qiáng)的主流技術(shù)方法。在本文的實(shí)驗(yàn)中將選取SVM作為文本分類的分類器,SVM模型是一種有監(jiān)督機(jī)器學(xué)習(xí)模型,最常見(jiàn)的情形是應(yīng)用在二分類任務(wù)中,但它也可以處理多分類問(wèn)題和回歸問(wèn)題。它引入了非線性映射將樣本空間映射在高維甚至無(wú)限維空間中并通過(guò)不同類型核函數(shù)的引入,將線性不可分的問(wèn)題轉(zhuǎn)化成為了線性可分的問(wèn)題。
本文采用的文本分類的流程如圖1,首先進(jìn)行源文件的讀?。黄浯螌⒆x取的源文件進(jìn)行預(yù)處理,即分詞及去停用詞;再次將預(yù)處理好的文本進(jìn)行向量化,本文采用Count vectororizer文本向量化方法;然后運(yùn)用WAE改進(jìn)模型進(jìn)行降維并結(jié)合SVM分類模型對(duì)文本進(jìn)行分類。
圖1 文本分類流程圖
如下先選取文本分類過(guò)程中的文本預(yù)處理及文本向量化作以展開:
2.2.1 文本預(yù)處理
對(duì)于中文文本來(lái)說(shuō),文本類型變化較多且句子結(jié)構(gòu)較為復(fù)雜,同時(shí)往往夾雜著大量的噪音,這對(duì)文本分類模型來(lái)說(shuō),如何處理好文本數(shù)據(jù),就成為制約模型表現(xiàn)優(yōu)劣的關(guān)鍵。因此文本預(yù)處理對(duì)于文本分類來(lái)至關(guān)重要。總的來(lái)說(shuō),文本預(yù)處理主要包括文本分詞及去停用詞兩個(gè)部分。
中文文本與英文文本不同,英文文本經(jīng)常使用空格或標(biāo)點(diǎn)符號(hào)來(lái)分隔單詞,而中文卻沒(méi)有明顯的切分標(biāo)志,因此必須通過(guò)分詞來(lái)進(jìn)行單元的劃分。現(xiàn)階段的分詞方法主要可以歸納為兩種,即機(jī)械式的分詞法和理解式的分詞法。機(jī)械式分詞法是按照一定策略將待分漢字串與詞典中的詞條進(jìn)行匹配來(lái)實(shí)現(xiàn)分詞。而理解式分詞法則是基于文檔的語(yǔ)法分析和語(yǔ)義理解來(lái)實(shí)現(xiàn)分詞。Jieba分詞器是一種應(yīng)用廣泛的中文分詞工具,它是基于詞典對(duì)句子進(jìn)行切分,根據(jù)切分位置來(lái)構(gòu)造有向無(wú)環(huán)圖,然后采用動(dòng)態(tài)規(guī)劃計(jì)算最大概率路徑來(lái)完成分詞。
在文本分詞后,往往會(huì)出現(xiàn)大量的不具有實(shí)際含義的詞語(yǔ),如:介詞、代詞、連詞及冠詞等,同時(shí)還有一些高頻詞匯,例如:的、地、得等,它們幾乎在每篇文章均會(huì)出現(xiàn),這樣的詞對(duì)于不同文本沒(méi)有任何的區(qū)分作用,有可能還會(huì)對(duì)識(shí)別精度和識(shí)別效率造成影響,以上類型的詞都應(yīng)該去除,即去停用詞操作,它是通過(guò)遍歷實(shí)現(xiàn)停用詞的比對(duì)去除以完成數(shù)據(jù)的清洗,清洗后的數(shù)據(jù)用于模型的訓(xùn)練之中。
2.2.2 文本向量化
對(duì)于算法模型來(lái)說(shuō),文本數(shù)據(jù)是不能被直接識(shí)別的。需要將文本數(shù)據(jù)轉(zhuǎn)換成為可以被模型識(shí)別的文本向量,該過(guò)程通常被稱為文本向量化[10]。在自然語(yǔ)言處理領(lǐng)域中,常用的文本向量化的方法有:One-hot、TF-IDF、Word2vec、Doc2vec及Count vectororizer等。
One-hot是一種基于字典維度來(lái)表示文本特征的方法,通常被稱為獨(dú)熱編碼。它是通過(guò)0和1的字符序列來(lái)對(duì)每個(gè)文本單元進(jìn)行組合編碼。詞頻逆文檔頻率(TermFrequency-Inverse Document Frequency,TF-IDF)是一種統(tǒng)計(jì)方法,用來(lái)評(píng)估詞語(yǔ)的重要程度。它的主要思想就是選取在該文本中TF值相對(duì)較高的單詞,同時(shí)被選取的單詞在其它文本中出現(xiàn)的又很少,可以認(rèn)為該單詞對(duì)文本分類起到了極大的標(biāo)定作用。Word2vec是單詞向量化的重要表示形式[11]。它可以被理解為是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)。它具有輸入層,隱藏層及輸出層,運(yùn)用該網(wǎng)絡(luò)來(lái)提取單詞特征,其基本思想是通過(guò)單詞向量的距離來(lái)計(jì)算單詞之間的相似度,從而增強(qiáng)了單詞和單詞之間的聯(lián)系。Doc2vec模型沿用了很多word2vec模型的思路,與word2vec不同的是,Doc2vec在構(gòu)建隱藏層時(shí)將段落向量也加入隱藏層,它扮演了一個(gè)記憶的作用,它每次訓(xùn)練是滑動(dòng)截取句子中一小部分作為輸入的一部分來(lái)訓(xùn)練。
本文將采用Count vectororizer這種向量化的方法,該方法會(huì)將文本中的詞語(yǔ)轉(zhuǎn)換為詞頻矩陣。它首先構(gòu)建出一個(gè)字典,字典包含了所有的樣本詞匯,每一個(gè)詞匯對(duì)應(yīng)著它出現(xiàn)的順序及頻率,對(duì)于每一個(gè)句子來(lái)說(shuō),構(gòu)建出來(lái)的詞向量的長(zhǎng)度就是詞典的長(zhǎng)度,詞向量的每一個(gè)維度均代表了與該維度對(duì)應(yīng)單詞的頻率。這些詞向量組成的矩陣即稱為詞頻矩陣。然后將其代入功能函數(shù)進(jìn)行運(yùn)算,就可以獲得所有文本的關(guān)鍵詞及詞頻的結(jié)果,進(jìn)而可以反映詞語(yǔ)在文檔中的重要性。
2.3.1 主題模型相關(guān)研究
主題模型是以無(wú)監(jiān)督學(xué)習(xí)的方式對(duì)文本中隱含的語(yǔ)義進(jìn)行聚類的統(tǒng)計(jì)模型。它能夠發(fā)現(xiàn)文本與詞語(yǔ)之間潛在的語(yǔ)義關(guān)系并將文本看作是主題的混合分布,而主題又是詞語(yǔ)的概率分布,從而將高維度的“文本-詞語(yǔ)”向量空間映射到低維度的“文本-主題”和“主題-詞語(yǔ)”空間,有效提高了文本信息處理的性能。主題模型主要被用于對(duì)文本的表征進(jìn)行降維及按主題對(duì)文本進(jìn)行聚類。
在主題模型的研究進(jìn)程中,潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)被率先提出,該方法為主題模型的發(fā)展奠定了夯實(shí)的思想基礎(chǔ),LSA是利用文檔中潛在的概念來(lái)進(jìn)行文檔分析與檢索,能夠比關(guān)鍵詞匹配獲得更好的效果。在語(yǔ)義分析問(wèn)題中,經(jīng)常會(huì)遇到同義詞和一詞多義的問(wèn)題,LSA可以很好地解決同義詞問(wèn)題,但卻無(wú)法處理好一詞多義的問(wèn)題[12]。概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)通過(guò)一個(gè)生成模型來(lái)為L(zhǎng)SA提供了概率意義上的解釋。該模型假設(shè),每一篇文檔都包含一系列潛在的話題,文檔中的每一個(gè)單詞都不是隨意產(chǎn)生的,而是在這些潛在的話題的指引下通過(guò)一定的概率生成的,它同時(shí)解決同義詞和一詞多義兩個(gè)問(wèn)題[13]。但是它沒(méi)有在文檔層次方面提出概率模型,因此不夠完整。隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)可以接收潛在的超參數(shù),并且可觀測(cè)得到的數(shù)據(jù)由這些潛在的超參數(shù)隨機(jī)生成,通過(guò)聯(lián)合概率分布來(lái)分析被估計(jì)樣本的序列信息。在LDA使用過(guò)程中,每個(gè)文檔遵循具有若干個(gè)主題數(shù),該數(shù)量為事先給定,所有的主題均服從單詞的多項(xiàng)式分布,不同類別的文檔由具有不同概率的主題隨機(jī)混合。類似地,相同類別的文檔具有相似主題的概率分布[14]。
在長(zhǎng)文本任務(wù)中,LDA 通常能夠達(dá)到較好的效果,但由于文本分類任務(wù)中文本的長(zhǎng)短類型有所不同,當(dāng)文本長(zhǎng)度比較短時(shí),其詞袋表示會(huì)存在嚴(yán)重的稀疏性問(wèn)題,LDA主題建模的效果會(huì)明顯變差,因此LDA模型通常不適用于短文本的主題建模。針對(duì)上述問(wèn)題,本文將最初應(yīng)用在圖像領(lǐng)域的WAE模型遷移到自然語(yǔ)言處理領(lǐng)域,進(jìn)行WAE改進(jìn)模型在文本分類上的應(yīng)用研究。
2.3.2 WAE改進(jìn)模型在文本分類上的應(yīng)用
WAE模型具備編碼器-解碼器組件,它和變分自編碼器(Variational Auto-Encoder,VAE)有一定的相似之處[15]。WAE與VAE相比,最大的提升就是解決了VAE后驗(yàn)坍塌的問(wèn)題,使得隱變量空間具有更好的結(jié)構(gòu)。WAE是運(yùn)用Wasserstein距離來(lái)衡量先驗(yàn)分布與后驗(yàn)分布的差異[16],而VAE采用的則是KL散度,Wassertein距離能夠在兩個(gè)分布沒(méi)有重疊時(shí)仍然能準(zhǔn)確地反映出兩個(gè)分布的遠(yuǎn)近程度,主要是因?yàn)閃assertein距離所收集到的整個(gè)數(shù)據(jù)集通常也只是全部輸入空間的一個(gè)較小的子集,因此經(jīng)編碼后的隱變量變分分布與真實(shí)狀態(tài)分布間不重疊的概率非常大,但 KL散度在此情形下極容易突變或失效?;谠撛?,WAE模型更易于訓(xùn)練,有良好的潛在流形結(jié)構(gòu),可以生成質(zhì)量更好的樣本[17,18]。
WAE作為生成模型最初被廣泛應(yīng)用在圖像領(lǐng)域,基于模型的自身特點(diǎn),可很好地遷移到自然語(yǔ)言處理的場(chǎng)景之中。本文基于文本分類任務(wù),從模型對(duì)不同復(fù)雜度文本的適用性及模型處理數(shù)據(jù)過(guò)程中的歸一化效果兩個(gè)維度進(jìn)行切入,進(jìn)行WAE模型的改進(jìn)與優(yōu)化。
在不同類型文本中,由于文本的復(fù)雜程度有所不同,因此對(duì)于主題明確的簡(jiǎn)單文本,以單峰的高斯分布作為先驗(yàn)相對(duì)比較合適,但對(duì)于主題多元的復(fù)雜文本,其對(duì)應(yīng)的主題的先驗(yàn)分布則應(yīng)具有更好的區(qū)分性能,盡量要減少分布層疊的情況出現(xiàn),因此,本文在WAE模型基礎(chǔ)上進(jìn)行了進(jìn)一步地改進(jìn),提出用高斯混合分布作為主題隱變量的先驗(yàn)分布,以替代WAE中以標(biāo)準(zhǔn)的高斯分布作為主題先驗(yàn)分布的假設(shè),提出了高斯混合瓦瑟斯坦自編碼器(Gaussian Mixture Wasserstein Auto-Encoder,GMWAE)。GMWAE引入了離散的類別隱變量用來(lái)指示每個(gè)輸入樣本所屬的高斯成分。該網(wǎng)絡(luò)首先需要通過(guò)自編碼器的重構(gòu)過(guò)程進(jìn)行預(yù)訓(xùn)練,然后在訓(xùn)練結(jié)束后使用高斯混合模型進(jìn)行聚類,高斯混合模型可以將多個(gè)高斯分布函數(shù)進(jìn)行自由的線性組合,擬合出任意類型的分布,該方法對(duì)分布層疊的情形較為適用,最后將所得的各高斯成分的均值和方差作為隱空間中高斯混合分布的初始值,同時(shí)將類別隱變量的先驗(yàn)分布設(shè)定為均勻的離散分布。與WAE模型不同,基于GMWAE構(gòu)建主題模型時(shí),將高斯成分的均值經(jīng)變換后得到的值輸入到解碼器中,所得的歸一化輸出即為對(duì)應(yīng)的主題分布。因此,基于高斯混合瓦瑟斯坦自編碼器提升了復(fù)雜文本下不同主題先驗(yàn)分布的區(qū)分能力,具有較強(qiáng)的應(yīng)用性。
為提升模型處理數(shù)據(jù)過(guò)程中歸一化效果,本文將WAE中的高斯分布更改為迪利克雷分布作為主題的先驗(yàn)分布。因?yàn)閭鹘y(tǒng)的WAE模型會(huì)強(qiáng)迫將每個(gè)數(shù)據(jù)對(duì)應(yīng)的分布都逼近標(biāo)準(zhǔn)正態(tài)分布,這樣通常會(huì)造成隱空間分布的重疊,使得生成數(shù)據(jù)實(shí)際上是幾個(gè)輸入對(duì)應(yīng)輸出的平均,由于后驗(yàn)分布中噪聲通常較多,結(jié)果將造成解碼器逐漸忽略從后驗(yàn)分布中采集的樣本,利用迪利克雷分布分布則可以有效避免上述問(wèn)題,因此本文提出了基于WAE的改進(jìn)模型基于迪利克雷分布的瓦瑟斯坦自編碼器(Dirichlet Wasserstein Auto-Encoder,DWAE)。DWAE模型以文檔的詞袋表示作為輸入,編碼器由多層感知機(jī)組成,并經(jīng)分類網(wǎng)絡(luò)來(lái)生成隱變量,該隱變量由確定性映射得到,無(wú)需進(jìn)行采樣操作,由于隱變量需要滿足歸一化的約束,使得隱變量的可行解空間構(gòu)成單純形,因此需要核函數(shù)在單純形上具有較好的度量意義,DWAE選取了信息擴(kuò)散核作為最大均值差異的核函數(shù)。最大均值差異可以用作度量?jī)蓚€(gè)分布之間的距離,尤其在匹配高維特征分布時(shí)具有較好的表現(xiàn),信息擴(kuò)散核對(duì)于那些在單純形邊界處的點(diǎn)更加靈敏,因此更加適合應(yīng)用于稀疏數(shù)據(jù)的場(chǎng)景,它提升了傳統(tǒng)WAE處理數(shù)據(jù)的歸一化能力。
下面針對(duì)源文件,按照文本分類流程,運(yùn)用WAE改進(jìn)模型結(jié)合SVM的方法進(jìn)行文本分類。
1)讀取源文件
讀取后綴名為.txt的源文件(文檔總數(shù)據(jù)量為24000),源文件片段文檔內(nèi)容如圖2所示。
圖2 源文件讀取
2)文本分詞
通過(guò)Jieba分詞器完成中文的分詞處理,處理結(jié)果如圖3所示。
圖3 文本分詞
3)文本向量化
通過(guò)運(yùn)用countvectororizer將文本進(jìn)行向量化,向量化結(jié)果如圖4所示。
圖4 文本向量化
4)WAE改進(jìn)模型結(jié)合SVM進(jìn)行文本分類
通過(guò)WAE改進(jìn)模型結(jié)合SVM進(jìn)行文本分類,具體來(lái)說(shuō),搭建了四種實(shí)驗(yàn)情景:SVM、WAE+SVM、GMWAE+SVM、DWAE+SVM。分類精度和分類時(shí)間如表1:
表1 文本分類結(jié)果
為進(jìn)一步探究WAE改進(jìn)模型對(duì)文本分類的影響,圖5-8分別展示了四種情形下(是否在運(yùn)用SVM分類之前,引入WAE、GMWAE及DWAE模型),關(guān)鍵詞數(shù)量地選取對(duì)分類精度的影響。
圖5 SVM文本分類效果圖
圖6 WAE+SVM文本分類效果圖
圖7 GMWAE+SVM文本分類效果圖
圖8 DWAE+SVM文本分類效果圖
在SVM之前引入WAE、GMWAE及DWAE模型會(huì)降低模型運(yùn)算的復(fù)雜度,在提高分類精度的同時(shí),降低了分類時(shí)間,提升了文本分類的時(shí)效性。改進(jìn)后的模型GMWAE和DWAE使得文本分類的性能進(jìn)一步地提升。通過(guò)實(shí)驗(yàn)結(jié)果分析得到三個(gè)結(jié)論:①分類精度并不是隨著關(guān)鍵詞的數(shù)量增加而增加。②文本分類過(guò)程中可能存在局部最優(yōu)點(diǎn),即關(guān)鍵詞數(shù)量取某個(gè)值時(shí),分類精度達(dá)到最優(yōu)。③改進(jìn)后的模型GMWAE和DWAE的降維效果要優(yōu)于WAE,其中DWAE表現(xiàn)尤佳。
那么關(guān)鍵詞數(shù)量究竟取多少時(shí),對(duì)文本分類的貢獻(xiàn)最大,本文選取性能表現(xiàn)更好的DWAE模型繼續(xù)進(jìn)行關(guān)鍵詞數(shù)量與模型價(jià)值的相關(guān)性研究,展示結(jié)果如圖9所示。
圖9 關(guān)鍵詞數(shù)量?jī)r(jià)值曲線
精度的好壞不是評(píng)判關(guān)鍵詞最優(yōu)選擇的唯一標(biāo)準(zhǔn),時(shí)間成本的考量是不可或缺的。基于上述相關(guān)因素地考慮,進(jìn)行關(guān)鍵詞數(shù)量選取的數(shù)學(xué)建模:(Timescost是選擇某一數(shù)量關(guān)鍵詞進(jìn)行降維處理和模型訓(xùn)練所花的時(shí)間成本。Accuracy是選擇某一數(shù)量關(guān)鍵詞進(jìn)行降維和分類后得出的精度,0.25和0.75是權(quán)重,時(shí)間和價(jià)值成反比,所以要在時(shí)間成本前加負(fù)號(hào))
Value=-0.25xtimecost+0.75xAccuracy
通過(guò)實(shí)驗(yàn)分析,可以得到如下結(jié)論:
1)關(guān)鍵詞取8左右時(shí),模型訓(xùn)練時(shí)間及分類精度整體的價(jià)值最高,隨著關(guān)鍵詞的增多,使得降維所消耗的時(shí)間增加,精度也受影響,總體價(jià)值降低。
2)當(dāng)關(guān)鍵詞個(gè)數(shù)到93左右時(shí),降維過(guò)程消耗的時(shí)間明顯增加,即使分類精度依然接近0.7,但是時(shí)間成本的增加使得整體價(jià)值降低。
由于傳統(tǒng)WAE模型基于高斯先驗(yàn)分布,在處理文本時(shí),存在著對(duì)不同類型文本數(shù)據(jù)“適應(yīng)能力”及“歸一化”的不足,本文重點(diǎn)在WAE模型上進(jìn)行改進(jìn)與優(yōu)化,探索了GMWAE和DWAE兩個(gè)新的模型在文本分類上的應(yīng)用,通過(guò)實(shí)驗(yàn)表明將先驗(yàn)分布調(diào)整為高斯混合分布和迪利克雷分布,對(duì)模型的分類性能均呈現(xiàn)一定程度上的提升,其中DWAE展現(xiàn)出略優(yōu)的性能,隨后選取表現(xiàn)更好的DWAE模型,針對(duì)關(guān)鍵詞數(shù)量地選取、分類精度、分類時(shí)間及模型價(jià)值之間的關(guān)系進(jìn)行了進(jìn)一步地研究,通過(guò)關(guān)鍵詞數(shù)量選取的數(shù)學(xué)建模,構(gòu)建了模型價(jià)值曲線。通過(guò)上述內(nèi)容的研究發(fā)現(xiàn),主題模型在文本分類領(lǐng)域中具有十分重要的作用,后續(xù)的研究工作將會(huì)在對(duì)話生成領(lǐng)域中繼續(xù)進(jìn)行主題模型應(yīng)用的探索。