王云云 張?jiān)迫A
摘要:針對(duì)目前詞向量無(wú)法解決短文本中一詞多義的問題,提出融合詞向量和BTM主題模型的Multi-TWE多維主題詞向量模型。將BTM模型訓(xùn)練得到目標(biāo)詞與相應(yīng)主題進(jìn)行不同方式的連接,形成多維主題詞向量來(lái)表示多義詞詞義,最后將Multi-TWE模型應(yīng)用于短文本分類,提出基于Multi-TWE模型的短文本分類方法,與SVM、BTM和Word2Vec分類方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的短文本分類方法在平均F1值上比前三種方法分別提升了3.54%、11.41%和2.86%。
關(guān)鍵詞: 短文本分類; 一詞多義; BTM主題模型; 詞向量
【Abstract】 Aiming at the current problem that word vectors cannot solve the problem of polysemy in short texts, a Multi-TWE multi-dimensional topic word vector model combining word vectors and BTM topic models is proposed. The BTM model is trained to connect the target word with the corresponding topic in different ways to form a multi-dimensional topic word vector to represent the meaning of the polysemous word. Finally, the Multi-TWE model is applied to short text classification, and a short text classification method based on the Multi-TWE model is proposed. Compared with the SVM, BTM, and Word2Vec classification methods, the experimental results show that the short text classification method proposed in this paper improves the average F1 value by 3.54%, 11.41%, and 2.86% compared with the previous three methods, respectively.
【Key words】 ?short text classification; polysemy; BTM topic model; word vector
0 引 言
短文本是人們生活信息口語(yǔ)化在互聯(lián)網(wǎng)上的體現(xiàn)。顧名思義,短文本字?jǐn)?shù)少、篇幅小,導(dǎo)致在分析短文本時(shí),很難準(zhǔn)確地分析出短文本的語(yǔ)義信息,并且有不少的詞語(yǔ)具有多種詞義和詞性,會(huì)根據(jù)不同的使用場(chǎng)景表達(dá)出不同的語(yǔ)義[1],這更加劇了短文本分析的難度。
2013年,Mikolov等人[2]提出的word2vec模型,利用上下文語(yǔ)義關(guān)系將詞語(yǔ)映射到一個(gè)低維稠密的空間,使相似詞語(yǔ)在空間中的距離相近,通過(guò)空間位置獲得對(duì)應(yīng)的詞向量表示[3]。Zhu等人[4]在使用詞向量來(lái)表示文本向量的基礎(chǔ)上,融合了改進(jìn)的TF-IDF算法,并利用SVM分類器進(jìn)行短文本分類。Yao等人[5]使用詞向量來(lái)表示新聞標(biāo)題類短文本,并通過(guò)判斷語(yǔ)義相似度來(lái)擴(kuò)展文檔表示。以上研究表明詞向量模型應(yīng)用在文本表示上的可行性。在使用詞向量進(jìn)行詞義消歧方面,Niu等人[6]融合了知網(wǎng)的義原信息和注意力機(jī)制,實(shí)現(xiàn)自動(dòng)地根據(jù)上下文選取合適的詞語(yǔ)詞義的方法,在判斷語(yǔ)義相似度和詞義消歧方面取得了更好的效果。Liu等人[7]提出將詞向量與主題模型相結(jié)合,組成主題向量用于詞語(yǔ)消歧。曾琦等人[8]提出了一種將多義詞的不同語(yǔ)義用不同主題來(lái)表示,最后訓(xùn)練多義詞詞向量。深度學(xué)習(xí)方法中利用詞向量訓(xùn)練的便捷性與主題模型能挖掘主題語(yǔ)義的這一能力相結(jié)合,既能保證準(zhǔn)確率又能降低鄰域依賴。本文利用這一復(fù)合方法進(jìn)行一詞多義的研究。
1 相關(guān)工作
1.1 BTM主題模型
由于傳統(tǒng)的主題模型是獲取文檔級(jí)別的詞共現(xiàn)[9],短文本的數(shù)據(jù)稀疏性導(dǎo)致傳統(tǒng)主題模型效果不好。針對(duì)這一問題,Yan等人[10]提出了BTM主題模型,來(lái)進(jìn)行短文本建模。BTM通過(guò)語(yǔ)料級(jí)別的詞共現(xiàn)來(lái)為短文本建模。設(shè)有語(yǔ)料庫(kù)L,語(yǔ)料庫(kù)L中有一個(gè)二元詞組集合|B|,表示語(yǔ)料中所有的詞對(duì),圖模型如圖1所示。
圖1中,b=(bi,bj)表示其中的任一詞對(duì),bi,bj分別表示詞對(duì)中的詞語(yǔ),z表示詞語(yǔ)的主題,K表示主題數(shù)目,z∈[1,K],θ表示每篇文檔的主題分布,φ表示不同主題下的詞分布,兩者皆服從狄利克雷分布。α和β分別是兩者的先驗(yàn)參數(shù)。
2 基于Multi-TWE模型的短文本分類研究
傳統(tǒng)詞向量模型無(wú)法很好地處理漢語(yǔ)中存在的一詞多義問題,主要是因?yàn)樵~向量模型對(duì)于多義詞中各種語(yǔ)義信息的處理不敏感,訓(xùn)練出的單一詞向量容易混淆多義詞的含義。2015年,Liu等人[7]提出了主題詞向量的概念,即將主題融入到基本的詞向量表示中,并允許由此產(chǎn)生的主題詞向量在不同語(yǔ)境下獲得一個(gè)詞的不同含義。
根據(jù)上述思想,本文將主題詞向量的概念應(yīng)用到短文本語(yǔ)義挖掘中,本文的算法使用基于義原信息和注意力機(jī)制的SE-WRL詞向量模型來(lái)訓(xùn)練詞向量,該模型使用注意力機(jī)制在一定程度上能夠消除多義詞的影響,但由于短文本本身具有的上下文特征稀疏性,SE-WRL詞向量模型在短文本上的應(yīng)用效果有限。因?yàn)锽TM主題模型能夠有效地解決短文本的特征稀疏的問題,因而,本文引入了BTM主題模型來(lái)進(jìn)行短文本的語(yǔ)義挖掘,提出了一種Multi-TWE多維主題詞向量算法。
首先對(duì)于處理好的短文本語(yǔ)料進(jìn)行BTM主題模型初始化,通過(guò)吉布斯采樣過(guò)程獲取詞和主題,利用SE-WRL詞向量模型分別進(jìn)行向量的訓(xùn)練,得到不同的主題詞向量,達(dá)到詞義消歧的效果,實(shí)現(xiàn)文本分類。該算法框架包含MuTWE-1和MuTWE-2這兩種主題詞向量模型,接下來(lái)將具體分析MuTWE-1和MuTWE-2這兩個(gè)模型算法。
2.1 MuTWE-1主題詞向量模型算法
MuTWE-1模型算法具體的參數(shù)推理分為2步,分別是:BTM模型參數(shù)推理和MuTWE-1主題詞向量訓(xùn)練,具體算法流程如圖4所示。首先對(duì)BTM主題模型進(jìn)行參數(shù)推理,這里通過(guò)使用吉布斯采樣方法抽取詞對(duì)b和每個(gè)詞對(duì)相對(duì)應(yīng)的主題z,[JP2]然后將詞對(duì)b和主題詞z組合成偽詞(b,z),融入SE-WRL訓(xùn)練模型中,最后得到主題詞向量W(b,z)。
分析圖7~圖9后得出:
(1)由圖7得出當(dāng)主題數(shù)在80時(shí)F1值取最大值。
(2)由圖8得出詞向量維度在100~160左右最有利,為了平衡各模型,最終將向量維度設(shè)置為150,主題詞向量的維度設(shè)置為300。
(3)由圖9看出,當(dāng)窗口大小為大于10 時(shí),窗口長(zhǎng)度的增長(zhǎng)對(duì)于F1值的增長(zhǎng)并沒有什么幫助,所以將實(shí)驗(yàn)的最佳向量窗口大小設(shè)置為10。
3.4 分類對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文提出的基于Multi-TWE算法模型的短文本分類方法的有效性,分別選取VSM模型、BTM主題模型和TF-IDF加權(quán)word2vec模型作為對(duì)比實(shí)驗(yàn)。所有分類方法選用libsvm作為分類器。實(shí)驗(yàn)采用五折交叉驗(yàn)證來(lái)評(píng)估各模型分類效果,測(cè)試結(jié)果見表3。
4 結(jié)束語(yǔ)
針對(duì)一詞多義問題,本文提出了融合詞向量和BTM主題模型的Multi-TWE多維主題詞向量模型算法并將其應(yīng)用于短文本分類任務(wù)中。再通過(guò)實(shí)驗(yàn)對(duì)模型中的參數(shù)進(jìn)行了分析,確定了最佳的參數(shù)值,最后通過(guò)與幾種基準(zhǔn)分類方法進(jìn)行對(duì)比實(shí)驗(yàn),證明了本文提出的短文本分類方法的有效性和可行性。
參考文獻(xiàn)
[1] 張俊. 基于人類認(rèn)知過(guò)程的文本語(yǔ)義理解模型(HTSC)及構(gòu)建方法研究[D]. 上海:上海大學(xué),2016.
[2]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in Vector Space[C]//Proceedings of the International Conference on Learning Representations (ICLR 2013). Scottsdale, AZ: dblp,2013: 1.
[3]汪靜. 基于詞向量的中文短文本分類問題研究[D]. 武漢:中南民族大學(xué),2018.
[4]ZHU Lei, WANG Guijun, ZOU Xxiaocun. A study of Chinese document representation and classification with Word2vec[C]// 2016 9th International Symposium on Computational Intelligence and Design (ISCID). Hangzhou, China:IEEE, 2016:298.
[5]YAO Di , BI Jingping , HUANG Jianhui, et al. A word distributed representation based framework for large-scale short text classification[C]// 2015 International Joint Conference on Neural Networks (IJCNN). Killarney, Ireland :IEEE, 2015:1.
[6]NIU Y, XIE R, LIU Z, et al. Improved word representation learning with sememes[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017, 1: 2049.
[7]LIU Y, LIU Z,CHUA T S,et al.Topical word embeddings[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence.Austin, Texas: AAAI Press,2015:2418.
[8] 曾琦,周剛,蘭明敬,等. 一種多義詞詞向量計(jì)算方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2016,37(7):1417.
[9]劉良選. 融合文本內(nèi)部特征與外部信息的主題模型研究[D]. ??冢汉D洗髮W(xué), 2016.
[10]YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts[C]//Proceedings of the 22nd International Conference on World Wide Web. New York,USA:ACM, 2013: 1445.