朱艷輝, 張永平, 杜 銳, 徐葉強(qiáng)
(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)
基于LDA與評(píng)價(jià)對(duì)象的微博觀點(diǎn)摘要
朱艷輝1, 張永平1, 杜 銳2, 徐葉強(qiáng)2
(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 湖南 株洲 421001; 2.廣州索答信息科技有限公司 廣東 廣州 510663)
針對(duì)微博話題觀點(diǎn)摘要問(wèn)題,提出一種基于LDA與評(píng)價(jià)對(duì)象相結(jié)合的微博觀點(diǎn)摘要方法.首先,利用LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,把兩個(gè)矩陣的乘積作為各個(gè)詞在句子中的權(quán)重分布矩陣,再利用詞頻與詞權(quán)重分布矩陣的乘積作為詞的重要度;然后,通過(guò)詞的詞性標(biāo)注規(guī)則從句子中選擇候選評(píng)價(jià)對(duì)象,再計(jì)算句子中候選評(píng)價(jià)對(duì)象的穩(wěn)定性;最后,把句子中所有詞的重要度與句子中所有候選評(píng)價(jià)對(duì)象的穩(wěn)定性的總和作為句子權(quán)重,并從大到小排序,再進(jìn)行觀點(diǎn)句識(shí)別,并去除相似性較大的句子,抽取前20個(gè)句子作為話題觀點(diǎn)摘要.實(shí)驗(yàn)結(jié)果表明,此方法可以有效地抽取微博觀點(diǎn)摘要.
微博觀點(diǎn)摘要; LDA; 評(píng)價(jià)對(duì)象
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來(lái)越多的用戶喜歡在網(wǎng)絡(luò)中發(fā)表自己對(duì)某些事件的看法.微博作為重要的自媒體平臺(tái),是用戶對(duì)熱點(diǎn)事件發(fā)表評(píng)論和表達(dá)觀點(diǎn)的主要途徑,因此,研究如何快速準(zhǔn)確地獲取熱點(diǎn)微博話題的觀點(diǎn)摘要具有重要意義.自動(dòng)摘要的抽取方法主要分為兩大類:抽取式(extractive)和理解式(abstractive)[1].目前基于抽取式的文摘是主流方法.文獻(xiàn)[2]在對(duì)文檔進(jìn)行聚類的基礎(chǔ)上,加入句子位置、長(zhǎng)度等特征對(duì)句子進(jìn)行權(quán)重計(jì)算,從而抽取出權(quán)重較高的句子作為摘要.文獻(xiàn)[3-5]基于LDA模型中主題的概率分布和句子的概率分布來(lái)計(jì)算句子的主題相似性,并結(jié)合句子長(zhǎng)度、位置等特征抽取文檔摘要.
以上方法都在文摘研究上取得一定效果,但是針對(duì)微博話題形成的文本,長(zhǎng)度、位置等特征并不能取得很好的效果;且微博文本帶有一定的觀點(diǎn)性,抽取出具有觀點(diǎn)性的句子作為摘要更合適.因此,本文提出了一種基于LDA和評(píng)價(jià)對(duì)象相結(jié)合的微博觀點(diǎn)摘要抽取方法,以微博幾個(gè)話題下的評(píng)論作為研究對(duì)象,把某個(gè)話題下的評(píng)論每20條一組作為一個(gè)文檔.首先,根據(jù)LDA模型得到話題的詞分布矩陣和文檔的話題分布矩陣,并把這兩個(gè)矩陣相乘,得到各個(gè)詞在句子中的權(quán)重分布矩陣,詞的權(quán)重分布矩陣再與詞頻相乘得到詞的重要度;然后,通過(guò)詞的詞性標(biāo)注規(guī)則從句子中抽取候選評(píng)價(jià)對(duì)象,隨后計(jì)算句子中候選評(píng)價(jià)對(duì)象的穩(wěn)定性;最后,計(jì)算出一個(gè)句子中所有詞的重要度,再計(jì)算出句子中所有候選評(píng)價(jià)對(duì)象的穩(wěn)定性,把兩個(gè)結(jié)果的和作為句子的權(quán)重,按權(quán)重從大到小對(duì)句子進(jìn)行排序,并判斷句子的觀點(diǎn)傾向,抽取具有觀點(diǎn)性的前20個(gè)句子作為觀點(diǎn)摘要.
LDA(latent Dirichlet allocation)是一種概率主題模型,通過(guò)使用聯(lián)合分布來(lái)計(jì)算在給定觀測(cè)變量下隱藏變量的條件分布的概率模型,其中觀測(cè)變量為詞的集合,隱藏變量為主題.在已知語(yǔ)料和話題個(gè)數(shù)的情況下,可以通過(guò)LDA模型計(jì)算出話題的詞分布矩陣和文檔的話題分布矩陣,因此,我們通過(guò)這兩個(gè)分布矩陣的乘積來(lái)定義句子中詞權(quán)重分布矩陣,并把這個(gè)矩陣與詞頻向量相乘,所得結(jié)果作為詞的重要度矩陣.
根據(jù)LDA的定義,文檔生成過(guò)程中對(duì)應(yīng)的觀測(cè)變量和隱藏變量的聯(lián)合分布為
(1)
在LDA模型中,最重要的就是文檔的主題分布概率θd和主題的詞分布概率βK,這兩個(gè)參數(shù)在給定語(yǔ)料和已知話題K的情況下可以用Gibbs sampling[6]公式訓(xùn)練得到,算法如下:
Step 1 隨機(jī)初始化,對(duì)語(yǔ)料中每篇文檔的每個(gè)詞w,隨機(jī)賦一個(gè)topic編號(hào)z;
Step 2 重新掃描語(yǔ)料庫(kù),對(duì)每個(gè)詞w,按照Gibbs sampling公式重新采樣它的topic,在語(yǔ)料中進(jìn)行更新;
Step 3 重復(fù)以上語(yǔ)料庫(kù)的重新采樣過(guò)程直到Gibbs sampling收斂;
Step 4 統(tǒng)計(jì)語(yǔ)料庫(kù)話題下詞的分布矩陣,該矩陣就是LDA的模型.
在得到話題的詞分布矩陣之后,可以計(jì)算出相應(yīng)的文檔的話題分布矩陣.
根據(jù)LDA的概念,一篇文檔的話題分布概率為
(2)
其中:Tj為第j個(gè)話題;Di為文檔i,則文檔的話題分布矩陣為
(3)
同理,話題下的詞分布概率為
(4)
其中:Tj為第j個(gè)話題;Wk為詞k,則話題的詞分布矩陣為
(5)
把矩陣X和Y相乘則可以得到詞在句子中的權(quán)重分布度矩陣,記為Z.雖然Z已經(jīng)體現(xiàn)了句子中詞的重要度,但微博語(yǔ)料中一個(gè)文檔由約20個(gè)評(píng)價(jià)句組成,詞頻較高的詞往往是討論熱點(diǎn),所以計(jì)算文檔的詞頻向量f,則所有詞組成的重要度矩陣可以表示為
(6)
通過(guò)公式(6)就可以算出一個(gè)句子的重要度了.
在微博語(yǔ)料中,一個(gè)話題下句子所討論的對(duì)象越多,則表達(dá)的內(nèi)容也就越多,句子在文檔中權(quán)重也就越大,基于此思想,我們通過(guò)詞性規(guī)則抽取句子中的詞組作為候選評(píng)價(jià)對(duì)象,然后分別計(jì)算各個(gè)候選評(píng)價(jià)對(duì)象的穩(wěn)定性,最后計(jì)算句子中候選評(píng)價(jià)對(duì)象的穩(wěn)定性之和.
2.1 候選評(píng)價(jià)對(duì)象的抽取
表1 詞性規(guī)則(部分)
根據(jù)句子中詞語(yǔ)的詞性標(biāo)注出現(xiàn)的規(guī)則對(duì)候選評(píng)價(jià)對(duì)象進(jìn)行抽取,規(guī)則選用文獻(xiàn)[7]所總結(jié)的30組規(guī)則,部分規(guī)則見(jiàn)表1.
2.2 候選評(píng)價(jià)對(duì)象的穩(wěn)定性計(jì)算
定義1 評(píng)價(jià)對(duì)象object通常是由多個(gè)詞(w1w2…wn)組成,用各個(gè)詞之間的緊密耦合程度,來(lái)衡量object的穩(wěn)定性.本文采用公式(7)來(lái)計(jì)算評(píng)價(jià)對(duì)象的穩(wěn)定性:
(7)
其中:object表示某個(gè)候選評(píng)價(jià)對(duì)象;f(object)表示object在文檔中出現(xiàn)的頻率;f(wi)表示組成object的詞wi在文檔中出現(xiàn)的頻率;m表示組成該object的詞個(gè)數(shù);S(object)表示評(píng)價(jià)對(duì)象的穩(wěn)定性.若S(object)的值越接近1,則object是一個(gè)評(píng)價(jià)對(duì)象的概率就越大.
則句子中所有候選評(píng)價(jià)對(duì)象之和為
(8)
其中:n表示句子中候選評(píng)價(jià)對(duì)象的個(gè)數(shù);S(objecti)表示第i個(gè)候選評(píng)價(jià)對(duì)象的穩(wěn)定性.
根據(jù)公式(6)和(8),則一個(gè)句子的權(quán)重計(jì)算公式為
Weight(sentence)=WeightLDA(sentence)+Weightobject(sentence),
(9)
通過(guò)公式(9)計(jì)算出話題下每個(gè)句子的權(quán)重后對(duì)句子進(jìn)行觀點(diǎn)識(shí)別,具體步驟是:首先,選用知網(wǎng)[8]的情感詞典和評(píng)價(jià)觀點(diǎn)詞典合并去重,得到觀點(diǎn)詞庫(kù)8 746個(gè),采用文獻(xiàn)[9]的方法對(duì)詞典進(jìn)行擴(kuò)建,最后得到觀點(diǎn)詞14 064個(gè);然后,判斷句子中是否包含觀點(diǎn)詞;最后,把包含觀點(diǎn)詞的句子按照句子權(quán)重從大到小排序,并選出前40個(gè)句子.
在經(jīng)過(guò)了觀點(diǎn)句識(shí)別之后,句子按照權(quán)重從大到小排序.這些排序的句子中有可能出現(xiàn)前幾個(gè)句子所描述的意思相近,這就需要對(duì)這些句子進(jìn)行相似性排除.本文的句子相似性排除算法如下:
Step 1 選擇權(quán)重最高的句子并抽取候選評(píng)價(jià)對(duì)象;
Step 2 將剩下的所有句子也抽取出各自的候選評(píng)價(jià)對(duì)象;
Step 3 把各個(gè)句子的候選評(píng)價(jià)對(duì)象與Step 1中的候選評(píng)價(jià)對(duì)象進(jìn)行對(duì)比,若相同的個(gè)數(shù)越多,則懲罰越大,計(jì)算公式為
(10)
其中:m是句子中候選評(píng)價(jià)對(duì)象相同的個(gè)數(shù),并且m≤10,若m>10,則s=0;
Step 4 根據(jù)公式(10)把句子進(jìn)行重新排序,從40個(gè)觀點(diǎn)句中選擇前20個(gè)句子作為微博摘要.
4.1 實(shí)驗(yàn)語(yǔ)料及評(píng)價(jià)指標(biāo)
本文采用COAE2016任務(wù)1發(fā)布的10個(gè)微博話題語(yǔ)料,每個(gè)話題由約20個(gè)文檔組成,每個(gè)文檔由約20個(gè)評(píng)論句組成.
評(píng)價(jià)指標(biāo)采用COAE2016任務(wù)1制定的評(píng)價(jià)指標(biāo)[9],該評(píng)價(jià)指標(biāo)采用評(píng)測(cè)工具ROUGE,廣泛應(yīng)用于DUC(document understanding conference)的摘要評(píng)測(cè)任務(wù)中,挑選其中的3個(gè)指標(biāo):R_1、R_2、R_SU4,每個(gè)指標(biāo)又分別有召回率、準(zhǔn)確率和F值,分別為:R_1_R、R_1_P、R_1_F、R_2_R、R_2_P、R_2_F、R_SU4_R、R_SU4_P和R_SU4_F共9個(gè)指標(biāo).
R_N的計(jì)算公式為
(11)
在本次實(shí)驗(yàn)中N的取值為1和2,即R_1和R_2.在公式(11)中,S表示候選摘要組成的集合;n表示n-gram的長(zhǎng)度;referenceSummaries是候選摘要;Countmatch(gramn)表示同時(shí)出現(xiàn)在一篇候選摘要和參考摘要的n-gram個(gè)數(shù);Count(gramn)表示參考摘要中n-gram的個(gè)數(shù).
R_SU4的計(jì)算公式為
(12)
其中:skip2(A,B)表示候選摘要A與參考摘要B的skip-bigram匹配次數(shù);C(m,2)的計(jì)算公式為
(13)
其中:m表示skip-bigram的最長(zhǎng)跳躍距離,COAE2016任務(wù)1選擇的跳躍距離為4.
4.2 語(yǔ)料預(yù)處理
預(yù)處理過(guò)程為:先用文獻(xiàn)[5]的方法對(duì)語(yǔ)料進(jìn)行分詞標(biāo)注,然后過(guò)濾停用詞、符號(hào)、網(wǎng)址等噪聲,最后建立詞袋模型.
4.3 實(shí)驗(yàn)結(jié)果
本文共做了兩組實(shí)驗(yàn),一組是本文提出的方法,另一組是文獻(xiàn)[3]的方法.實(shí)驗(yàn)結(jié)果見(jiàn)表2和表3.
表2中,topic ID從1~10分別是:“58同城”、“起亞K5”、“捷豹XFL”、“盜墓筆記”、“封神演義”、“郭德綱”、“iphone7”、“梅西退出國(guó)家隊(duì)”、“姚明”和“支付寶”.
從表2可以看出,本文方法在各個(gè)話題中的結(jié)果都比文獻(xiàn)[3]要好很多,特別在話題“封神演義”中,本文方法的R_1_P值達(dá)到0.447 37,在話題“姚明”中,本文方法的R_1_R、R_1_P和R_1_F值分別是0.412 44、0.343 70和0.374 95.表3的平均結(jié)果中,本文方法都優(yōu)于文獻(xiàn)[3].實(shí)驗(yàn)結(jié)果表明,本文方法可以有效識(shí)別出微博話題下的觀點(diǎn)摘要.
本文以COAE2016任務(wù)1提供的微博話題語(yǔ)料進(jìn)行研究,提出了一種基于LDA和評(píng)價(jià)對(duì)象的微博話題觀點(diǎn)摘要抽取方法.實(shí)驗(yàn)結(jié)果表明,將評(píng)價(jià)對(duì)象作為特征加入文本摘要中能提高實(shí)驗(yàn)效果,但本文的不足在于對(duì)句子相似性的排除不是很理想,這也是今后我們努力的方向.
[1] XU Y D. Multi-document automatic summarization technique based on information fusion[J]. Chinese journal of computers, 2007, 30(11):2048-2054.
[2] 林立, 胡俠, 朱俊彥. 基于譜聚類的多文檔摘要新方法[J]. 計(jì)算機(jī)工程, 2010, 36(22):64-65.
[3] 吳登能, 袁貞明, 李星星. 基于組合特征LDA的文檔自動(dòng)摘要算法[J].計(jì)算機(jī)科學(xué)與應(yīng)用, 2013,3(2):145-148.
[4] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003(3):993-1022.
[5] 于江德, 王希杰, 樊孝忠. 基于最大熵模型的詞位標(biāo)注漢語(yǔ)分詞[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2011,43(1):70-74.
[6] SHONKWILER R W, MENDIVIL F. Introduction to monte carlo methods[M].New York:Springer, 2011.
[7] 徐葉強(qiáng), 朱艷輝, 王文華,等. 中文產(chǎn)品評(píng)論中評(píng)價(jià)對(duì)象的識(shí)別研究[J]. 計(jì)算機(jī)工程, 2012, 38(20):140-143.
[8] 中國(guó)知網(wǎng). 《知網(wǎng)》情感分析詞語(yǔ)集:Beta版 [EB/OL].(2007-10-22)[2016-11-01].http://www.keenage.com.
[9] 杜銳, 朱艷輝, 魯琳,等. 基于SVM的中文微博觀點(diǎn)句識(shí)別算法[J]. 湖南工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013, 27(2):89-93.
(責(zé)任編輯:王浩毅)
Micro-blog View Summary Based on LDA and Evaluation Object
ZHU Yanhui1, ZHANG Yongping1, DU Rui2, XU Yeqiang2
(1.SchoolofComputerScience,HunanUniversityofTechnology,Zhuzhou421001,China;2.SUMMBA,Guangzhou510663,China)
A micro-blog view summarization method based on LDA and evaluation object was proposed for micro-blog topic. Firstly, the importance of words was calculated by multiplying word frequency and word weight matrix of each word, and the weight matrix was calculated by multiplying the doc-topic matrix and the topic-word matrix which obtained from LDA model.Secondly, the cadidate evaluation objects were extracted before the stability of a candidate object was calculated by a defined formula; Finally, the topic summary was extracted from the sentences which had more evaluation objects and high score of word weight. This method was proved to be effective with experiments.
view summarization; LDA; evaluation object
2016-11-10
國(guó)家自然科學(xué)基金項(xiàng)目(61402165);國(guó)家社會(huì)科學(xué)基金項(xiàng)目(12BYY045);湖南省教育廳重點(diǎn)項(xiàng)目(15A049).
朱艷輝(1968—),女,湖南湘潭人,教授,主要從事自然語(yǔ)言處理研究,E-mail: swayhzhu@163.com;通訊作者:張永平(1989—),男,貴州遵義人,碩士研究生,主要從事自然語(yǔ)言處理研究,E-mail:780235260@qq.com.
TP391.4
A
1671-6841(2017)01-0045-05
10.13705/j.issn.1671-6841.2016333