尹 蘭,雷 霈,周 競(jìng)
(1.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算科學(xué)學(xué)院,貴州 貴陽 550001;2.武漢大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 湖北 武漢 430072)
基于關(guān)鍵詞圖的社交話題抽取及情感極性判別
尹蘭1,2,雷霈1,2,周競(jìng)2
(1.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算科學(xué)學(xué)院,貴州 貴陽550001;2.武漢大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 湖北 武漢430072)
摘要:研究結(jié)合社交媒體特點(diǎn),充分考慮標(biāo)簽文本和內(nèi)容文本信息,融合了傳統(tǒng)的LDA話題模型對(duì)社交文本信息進(jìn)行話題聚類,從而實(shí)現(xiàn)了對(duì)社交數(shù)據(jù)的話題發(fā)現(xiàn),與此同時(shí),文章提出了基于關(guān)鍵詞圖模型構(gòu)建話題特征,并結(jié)合支持向量機(jī)模型進(jìn)行文本情感極性判別。研究在開放微博數(shù)據(jù)集和COAE2014公開評(píng)測(cè)數(shù)據(jù)上進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)證明了有效的關(guān)鍵詞圖模型能進(jìn)一步克服中文語義的模糊性和歧義性。
關(guān)鍵詞:LDA;社交話題;關(guān)鍵詞圖; SVM
0引言
社交媒體是人們數(shù)字化生活的虛擬場(chǎng)景和大數(shù)據(jù)載體,通過對(duì)社交數(shù)據(jù)分析進(jìn)而實(shí)現(xiàn)對(duì)社交群體生活有效關(guān)注具有深刻的社會(huì)現(xiàn)實(shí)意義。但由于社交數(shù)據(jù)環(huán)境異構(gòu)雜亂,數(shù)據(jù)具有時(shí)效性,突發(fā)性,加之中文語義固有的模糊性及語義單元存在的切分歧義等復(fù)雜性特點(diǎn)。社交話題的發(fā)現(xiàn)一直是一個(gè)熱點(diǎn)和難點(diǎn)問題。文章在傳統(tǒng)LDA(Latent Dirichlet Allocation)[1]模型進(jìn)行主題發(fā)現(xiàn)的基礎(chǔ)上,充分考慮社交文本的特點(diǎn),有效利用自然標(biāo)注的主題標(biāo)簽有效抽取相關(guān)話題。
圍繞相關(guān)主題,能有效進(jìn)行情感極性判斷是文本情感分析的基本內(nèi)容,由于中文情感分析復(fù)雜性加之社交短文本信息缺失,文章提出關(guān)鍵詞圖話題呈現(xiàn)模型,以便更準(zhǔn)確的呈現(xiàn)上下文語義信息,從而提升情感極性甄別的精度,結(jié)合SVM[2]支持向量機(jī)模型我們構(gòu)建了文本情感判別模型,實(shí)驗(yàn)證明了本文提出方法的有效性。
1社交文本話題發(fā)現(xiàn)及情感分析
話題模型是自然語言處理領(lǐng)域一個(gè)備受推廣的應(yīng)用模型,著名的模型有Stockholm于1999年提出的PLSA(Probabilistic Latent Semantic Analysis)[3, 4]和Blei等人[1]于2003年提出的著名的LDA(Latent Dirichlet Allocation)。PLSA基于多項(xiàng)式分布和條件分布混合建模詞和文檔的共現(xiàn)概率,其主要在傳統(tǒng)的潛在語義分析基礎(chǔ)上利用EM算法進(jìn)行參數(shù)學(xué)習(xí)。LDA模型是一個(gè)概率生成的貝葉斯模型,其基本思想是假設(shè)一篇文檔的具體內(nèi)容信息能夠由一些潛在話題的多項(xiàng)式分布來表征,而話題又能夠由一系列詞的多項(xiàng)式分布來表征,文檔能夠由一系列語義上相關(guān)的詞語和在某些話題中出現(xiàn)的概率來表征。LDA模型因其在文本任務(wù)處理中的能力被不斷推廣,改進(jìn)及并行化實(shí)現(xiàn)[5, 6,7]。PLSA和LDA都是建立在概率獨(dú)立性假設(shè)的基礎(chǔ)上,即植根于傳統(tǒng)的詞袋(Bag of Words)理論。但這兩個(gè)模型都不可避免忽略了詞匯之間復(fù)雜的相互關(guān)系。但LDA模型在各種文本任務(wù)中得到廣泛的應(yīng)用,因此,本文選取該模型作為話題抽取的基本模型。
傳統(tǒng)的情感極性判別可看做1個(gè)離散數(shù)據(jù)的二分類問題,大量類似任務(wù)通過各種SVM模型工具包得到實(shí)現(xiàn)。本文把話題抽取和極性判別整體進(jìn)行討論,重點(diǎn)提出了上下文詞網(wǎng)絡(luò)的語義表征方法,具體任務(wù)實(shí)施如下:
1)利用爬取的開放微博數(shù)據(jù)作為文本數(shù)據(jù),結(jié)合帶”#”標(biāo)簽的話題詞和基于LDA模型抽取的話題詞構(gòu)建文本話題;
2)將話題進(jìn)行情感極性標(biāo)注,將情感極性判定任務(wù)轉(zhuǎn)化成一個(gè)分類任務(wù),結(jié)合SVM模型進(jìn)行情感分類。在情感分類中,充分考慮關(guān)鍵詞連接圖模型下情感極性的特征值。
研究在開放微博數(shù)據(jù)集和COAE2014公開評(píng)測(cè)數(shù)據(jù)上進(jìn)行了相關(guān)實(shí)驗(yàn),平均正確率可達(dá)到了86%。
2研究任務(wù)實(shí)施框架及模型方法
基于社交網(wǎng)絡(luò)的話題抽取,本質(zhì)是1個(gè)文本聚類問題,在實(shí)際社交網(wǎng)絡(luò)環(huán)境往往需要繁瑣的數(shù)據(jù)清洗,本文利用信息熵方法抽取相關(guān)標(biāo)簽話題詞作為候選話題,采用LDA模型對(duì)內(nèi)容文本進(jìn)行話題發(fā)現(xiàn),構(gòu)建話題后選集。并在話題關(guān)鍵詞圖模型基礎(chǔ)上采用SVM模型進(jìn)行話題情感極性判別,利用改進(jìn)的WG-SVM實(shí)現(xiàn)話題極性的判別,整體流程如圖1所示。
最大熵原理由E.T.Jaynes 在1957 年提出,原理在于如果知道與未知分布相關(guān)的部分先驗(yàn)知識(shí)時(shí),需要選取滿足這些先驗(yàn)知識(shí)的同時(shí)滿足熵值能取得最大的變量的概率分布。如公式(1)所示,筆者利用該模型對(duì)#標(biāo)記的標(biāo)簽話題進(jìn)行度量抽取,以便充分利用社交網(wǎng)絡(luò)中自然標(biāo)注的有效信息。
(1)
在熵計(jì)算中,通過選取特征函數(shù)把先驗(yàn)知識(shí)組織成特征向量,給定特征函數(shù)f1,f2,……,fk,把問題描述成滿足約束條件的優(yōu)化問題。為充分考慮微博信息的時(shí)效性,具體特征選取包括:評(píng)論時(shí)效特征,發(fā)送時(shí)效特征,轉(zhuǎn)發(fā)的時(shí)效特征等進(jìn)行度量。
研究利用ICTCLAS[8](InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)進(jìn)行中文分詞,正確率可以達(dá)到97.58%。LDA模型是自然語言處理領(lǐng)域被廣為推廣的話題抽取應(yīng)用模型,其通過概率推導(dǎo)獲取文本的潛在主題結(jié)構(gòu)。在LDA中,文本的詞分布是可觀測(cè)到的樣本,而文本的主題屬于隱含變量, 利用文本的相應(yīng)規(guī)則和已知數(shù)據(jù),LDA通過概率分布推導(dǎo)可以求得文本的主題結(jié)構(gòu)
考慮各主題詞之間關(guān)系對(duì)情感極性的影響,本文提出了基于關(guān)鍵詞圖的情感分類WG-SVM方法,該詞圖主要考慮了上下文共現(xiàn)關(guān)系及詞性特征2個(gè)因素。
G=
圖2 關(guān)鍵詞圖Fig.2 Key words graph
語料經(jīng)過預(yù)處理得到候選詞集,詞集作為網(wǎng)絡(luò)節(jié)點(diǎn)詞初始化構(gòu)成關(guān)鍵詞圖,如圖3所示:
圖3 關(guān)鍵詞圖連接樣例Fig.3 A sample for linking words in our graph
考慮到不同詞性(名詞,動(dòng)詞,形容詞,副詞),分別對(duì)詞圖中各關(guān)鍵詞進(jìn)行正面/負(fù)面極性概率計(jì)算,計(jì)算公式如公式(2)和(3)所示,表示與端點(diǎn)連接的邊,并且邊所連接的詞語在語料中同現(xiàn):
(2)
(3)
每一個(gè)候選詞通過結(jié)合詞性及極性概率計(jì)算抽取特征值,如:Fn,pol,Fv,pol,Fadj,pol,Fadv,pol表示為名詞,動(dòng)詞,形容詞,副詞的極性特征,并根據(jù)得到相關(guān)特征進(jìn)行分類器訓(xùn)練。
3實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)選擇了2015年3月部分開放微博數(shù)據(jù)及COAE2014公開評(píng)測(cè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。圖3為本文采用的改進(jìn)的主題模型在電影,體育及乳制品3個(gè)主題數(shù)據(jù)進(jìn)行試驗(yàn), 把改進(jìn)的主題聚類同傳統(tǒng)LSI及LDA話題聚類的F-Score值對(duì)比結(jié)果。
圖4 話題聚類效果Fig.4 Topic clustering results
結(jié)合提出的關(guān)鍵詞連接圖表示方法基礎(chǔ)上,在3個(gè)主題文本上進(jìn)行了文本情感極性判定,并把方法同傳統(tǒng)的SVM方法[2]和基于點(diǎn)互信息的SO-PMI[9]方法進(jìn)行了比較,結(jié)果如圖4所示。說明基于關(guān)鍵詞的圖模型能更好的表征詞匯之間的語義關(guān)系。
圖5 話題情感極性判別效果Fig.5 Sentiment polarity discrimination for topics
4結(jié)論
社交網(wǎng)絡(luò)開放數(shù)據(jù)的復(fù)雜性應(yīng)用場(chǎng)景導(dǎo)致了常規(guī)的話題模型存在一定的局限性,本文結(jié)合有效的預(yù)處理及話題標(biāo)簽信息改進(jìn)話題聚類的精度,與此同時(shí),提出了基于關(guān)鍵詞圖模型構(gòu)建話題特征,并利用支持向量機(jī)進(jìn)行文本情感極性分類。實(shí)驗(yàn)證明了有效的關(guān)鍵詞圖模型能進(jìn)一步克服中文語義的模糊性和歧義性。但由于中文語義的復(fù)雜性,其語義理解及情感分析非常困難,特別是社交短文本信息更是極具挑戰(zhàn),因此,高質(zhì)量的語料數(shù)據(jù)集和利用網(wǎng)絡(luò)模型構(gòu)建有效的上下文情景信息非常重要。
研究基于傳統(tǒng)模型框架上進(jìn)行了探索和實(shí)踐,近年來,隨著社交事件在網(wǎng)絡(luò)的傳播及影響,各類圍繞社交文本的研究也方興未艾,而其中圍繞某一主題的語義情感分析仍需得到更進(jìn)一步相關(guān)應(yīng)用實(shí)踐[10]。
參考文獻(xiàn):
[1] BLEI D M,Ng A Y,JORDAN M I.Latent dirichlet allocation[J].The Journal of machine Learning research,2003,3:993-1022.
[2] CORTES C,VAPNIK V.Support-vector networks[J].Machine learning,1995,20(3):273-297.
[3] HOFMANN T.Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machine Learning,2001,42(1-2):177-196.
[4] HOFMANN T.Probabilistic latent smantic analysis[J].Uncertainty in Artificial Intelligence,1999,38(11):155-162.
[5] PEROTTE A,BARTLETT N,ELHADAD N,et al.Hierarchically Supervised Latent Dirichlet Allocation[J].Advances in Neural Information Processing Systems,2011,24:2609-2617.
[6] LIU Z,ZHANG Y,CHANG E Y,et al.Plda+: Parallel latent dirichlet allocation with data placement and pipeline processing [J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):389-396.
[7] BLEI D M.Probabilistic Topic Models[EB/OL].(2012-01-01)[2014-10-28].http://www.cs.princeton.edu/~blei/topicmodeling.html.
[8] 張華平.漢語分詞[EB/OL].(2012-01-01)[2014-3-25].http://ictclas.nlpir.org/.
[9] TURNEY P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics,July,2002,Association for Computational Linguistics(ACL),Philadelphia,USA:417-424.
[10]NGUYEN T H,SHIRAI K.Topic Modeling based Sentiment Analysis on Social Media for Stock Market Prediction[C]//The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP),July,26-31,2015, Association for Computational Linguistics(ACL),Beijing:1354-1364.
Topic extraction and graph based sentiment polarity discrimination
YIN Lan1,2,LEI Pei1,2,ZHOU Jing2
(1.Big Data and Computer Science School, Guizhou Normal University, Guiyang, Guizhou 550001,China;2.Computer School of Wuhan University, Wuhan, Hubei 430072,China)
Abstract:Social media is the platform for our daily digital life, social topic detection is a hot but difficult issue for data in social media is with the complexity in heterogeneity, timing and linguistic ambiguity. In this paper, we apply Maximum Entropy on tag texts and LDA model on social contents for social topic detection, meanwhile, a key word graph based method is proposed for text sentiment analysis with SVM. Experiments on open Weibo data and COAE2014 data show the effectiveness of our proposed strategy for Chinese semantic analysis.
Key words:LDA; social topic; key word graph; SVM
文章編號(hào):1004—5570(2016)02-0076-04
收稿日期:2016-03-18
基金項(xiàng)目:貴州省科技廳聯(lián)合基金(黔科合J字LKS[2012]33號(hào), LKS[2012]37號(hào))
作者簡(jiǎn)介:尹蘭(1979-),女,副教授,研究方向:自然語言處理,知識(shí)表示,復(fù)雜網(wǎng)絡(luò),E-mail:yl@gznu.edu.cn.
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A