黃煒++姚嘉威
〔摘要〕隨著網(wǎng)絡(luò)時(shí)代的到來(lái),網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)爆炸式增長(zhǎng),主題的模糊性越來(lái)越明顯。同時(shí)多元非結(jié)構(gòu)性的數(shù)據(jù)使得傳統(tǒng)的聚類算法在網(wǎng)絡(luò)輿情事件的發(fā)現(xiàn)越來(lái)越困難,不能滿足高效,精準(zhǔn),及時(shí)、有效的感知需求。本文引入LDA聚類算法,基于主題生成模型,挖掘數(shù)據(jù)背后的語(yǔ)義關(guān)聯(lián),設(shè)計(jì)并且實(shí)現(xiàn)輿情事件的熱點(diǎn)主動(dòng)感知系統(tǒng)。通過(guò)數(shù)據(jù)實(shí)驗(yàn)表明,該系統(tǒng)能夠快速、高效地發(fā)現(xiàn)事件主題,克服偏移詞的干擾,從而實(shí)現(xiàn)網(wǎng)絡(luò)輿情事件熱點(diǎn)的主動(dòng)感知。
〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;熱點(diǎn)事件;LDA;聚類
DOI:10.3969/j.issn.1008-0821.2015.10.002
〔中圖分類號(hào)〕TP391〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2015)10-0007-05
Research on Detection of Network Public Opinion EventHuang Wei1,2Yao Jiawei1
(1.School of Economy and Management,Hubei University of Technology,Wuhan 430068,China;
2.School of Management,Wuhan University of Technology,Wuhan 430070,China)
〔Abstract〕With the era of cloud computing and data arrival,the amount of data the exponential explosion,ambiguity and complexity increase and the theme of the more obvious,and massive multiple non-structured data,the traditional clustering algorithm is found and perceived significantly more and more limitations in the event of network public opinion,can not meet the high efficiency,accurate,timely,effective demand.This paper introduced the modern LDA clustering algorithm,which was based on the theme of generation model,capable of semantic association mining behind the data,through the continuous evolution of reasoning,in order to explore the data hidden value,design and implementation of public opinion events hot perception system.Through a large number of experimental data obtained,the system could efficiently and quickly found the data subject,accurately grasp the core essentials,and ignore the interference of individual words,so as to determine the perception of Internet public opinion hotspot.
〔Key words〕network public opinion;hot topic event;LDA;clustering
網(wǎng)絡(luò)信息的爆發(fā)式增長(zhǎng),傳統(tǒng)的分析方法已經(jīng)不能適用這樣的環(huán)境。很多垃圾信息充斥著互聯(lián)網(wǎng),導(dǎo)致越來(lái)越多的信息資源并沒(méi)有被人們所利用。與此同時(shí),泛在網(wǎng)絡(luò)和自媒體的快速發(fā)展正改變著傳統(tǒng)信息傳播的媒介和方式,憑借其開放性、實(shí)時(shí)性和自由性,迅速占領(lǐng)了網(wǎng)絡(luò)應(yīng)用市場(chǎng),例如微博和微信。人們利用這些工具進(jìn)行隨時(shí)隨地的信息發(fā)布和傳播,從而使社會(huì)的各種矛盾通過(guò)網(wǎng)絡(luò)不斷展現(xiàn)和放大,產(chǎn)生了較大的負(fù)面影響。如何及時(shí)發(fā)現(xiàn)和感知人民群眾所關(guān)心和關(guān)注的熱點(diǎn),促進(jìn)網(wǎng)絡(luò)文明社會(huì)的和諧發(fā)展,在新形勢(shì)下顯得格外重要。
基于主題發(fā)現(xiàn)的LDA[1]文本聚類在此需求下應(yīng)運(yùn)而生,旨在輔助用戶快速有效地找到所需資源,提供更精準(zhǔn)的主題信息服務(wù)。本文引入LDA聚類算法進(jìn)行海量數(shù)據(jù)處理,分類匯總,提煉數(shù)據(jù)背后的關(guān)聯(lián)主題,從而提高信息檢索和主題發(fā)現(xiàn)的精準(zhǔn)率,為準(zhǔn)確把握網(wǎng)絡(luò)輿情事件的熱點(diǎn)主題服務(wù)。
1LDA與輿情熱點(diǎn)感知
11LDA主題模型
一般傳統(tǒng)聚類算法按照處理方式的不同通??梢苑譃?類:層次法,劃分法,密度法,網(wǎng)格法,模型法和約束法[2]。而基于概率法的LDA(Latent Dirichlet Allocation),簡(jiǎn)稱隱含狄利克雷分配,是近年來(lái)發(fā)展起來(lái)的一種重要的離散數(shù)據(jù)集合的建模方法[3]。LDA基于一個(gè)常識(shí)性假設(shè),文檔集合中的所有文本均共享一定數(shù)量的隱含主題?;谠摷僭O(shè),它將整個(gè)文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。LDA作為新型數(shù)據(jù)挖掘和人工智能領(lǐng)域已經(jīng)成為熱門技術(shù),廣泛應(yīng)用于信息檢索,機(jī)器學(xué)習(xí),自然語(yǔ)言處理研究,已經(jīng)取得一些成果[4-7]。在文本聚類領(lǐng)域引入LDA算法,是一種在無(wú)監(jiān)督學(xué)習(xí)下,突破傳統(tǒng)聚類方法以詞語(yǔ)重復(fù)度作為相似計(jì)算的依據(jù),發(fā)現(xiàn)文字背后的語(yǔ)義關(guān)聯(lián),解決同義詞和多義詞噪聲問(wèn)題,完成大數(shù)據(jù)計(jì)算環(huán)境下的降維。在海量數(shù)據(jù)中提取精準(zhǔn)的主題,使信息檢索與主題發(fā)現(xiàn)更加智能化,網(wǎng)絡(luò)輿情事件熱點(diǎn)特征的感知與提取更加精準(zhǔn)[8]。endprint
2015年10月第35卷第10期現(xiàn)?代?情?報(bào)Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期網(wǎng)絡(luò)輿情事件的主動(dòng)感知實(shí)踐Oct,2015Vol35No1012輿情熱點(diǎn)感知
隨著網(wǎng)絡(luò)自媒體數(shù)據(jù)量的不斷增加,網(wǎng)民逐漸成為互聯(lián)網(wǎng)主宰者,他們的言論往往是實(shí)時(shí)的最有影響的輿論來(lái)源。話題發(fā)現(xiàn)與跟蹤技術(shù)(TDT)[9]就是在這種環(huán)境下產(chǎn)生,它是針對(duì)信息發(fā)現(xiàn)和信息過(guò)載提出一套解決方案,目的是通過(guò)對(duì)文章主題的發(fā)現(xiàn)與跟蹤,把各種分散的信息有效地進(jìn)行匯集并組織線索,以提供給用戶進(jìn)行查閱等高層次服務(wù),文本聚類方法是TDT重要組成部分。網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[10-11]是從各種網(wǎng)絡(luò)源信息中發(fā)現(xiàn)某段時(shí)間內(nèi)各個(gè)領(lǐng)域發(fā)生的引起人們較大關(guān)注的話題,發(fā)現(xiàn)并監(jiān)控?zé)狳c(diǎn)話題有助于讓大眾知曉某段時(shí)間內(nèi)的社會(huì)焦點(diǎn)。網(wǎng)絡(luò)輿情[12]具有內(nèi)容多元、主體主導(dǎo)、群體極化和虛實(shí)互動(dòng)等特征,容易導(dǎo)致群體性事件的產(chǎn)生。及時(shí)地發(fā)現(xiàn)社會(huì)輿情,為政府監(jiān)管部門制定相關(guān)政策提供理論依據(jù),對(duì)提高虛擬社會(huì)管理水平具有重要意義。
2基于LDA的網(wǎng)絡(luò)輿情事件熱點(diǎn)感知方法
網(wǎng)絡(luò)輿情事件熱點(diǎn)感知的本質(zhì)就是文本集自動(dòng)聚類技術(shù),發(fā)現(xiàn)內(nèi)部隱藏主題。熱點(diǎn)發(fā)現(xiàn)往往采用這4個(gè)模型[13]:布爾模型、向量空間模型、概率模型、語(yǔ)言模型。布爾模型采用兩個(gè)文檔共現(xiàn)的索引項(xiàng),通常作為聚類算法的輔助工具。向量空間模型將文章以向量形式表示,文章相似性采用向量之間的距離,權(quán)值通常采用TF-IDF,兩篇文章共現(xiàn)詞越多,權(quán)重越大,相似距離越近,但容易丟掉文章的語(yǔ)義關(guān)聯(lián)。概率模型使用概率構(gòu)建主題模型,通過(guò)特定算法進(jìn)行主題模型驅(qū)動(dòng),自動(dòng)生成歸類,非常適用在網(wǎng)絡(luò)輿情信息源數(shù)據(jù)量大、主題模糊性高、事件個(gè)數(shù)不確定性的情況[14]。本文使用的LDA屬于概率模型。
21網(wǎng)絡(luò)輿情事件熱點(diǎn)分析
網(wǎng)絡(luò)輿情事件,一般屬于敏感話題范疇,與廣大人民群眾的利益相關(guān),即或者人們感興趣的話題。因此一經(jīng)發(fā)布,他的影響力和擴(kuò)散力是不可估量的。大多數(shù)輿情事件都有這樣的特征:速度傳播快、影響力大、轉(zhuǎn)發(fā)轉(zhuǎn)載用戶比較多。由于網(wǎng)絡(luò)數(shù)據(jù)更新速度快,網(wǎng)絡(luò)輿情熱點(diǎn)事件生存周期更短,因此對(duì)網(wǎng)絡(luò)資源的處理速度也需要與時(shí)俱進(jìn),時(shí)時(shí)更新,并挖掘數(shù)據(jù)背后隱藏的內(nèi)容[15]。一般網(wǎng)絡(luò)輿情事件以新聞形式出現(xiàn),或由門戶網(wǎng)站轉(zhuǎn)發(fā),因此它的關(guān)注度比較大。其熱點(diǎn)往往以時(shí)間、地點(diǎn)、人物、事件的形式出現(xiàn)[16]。為了精準(zhǔn)地發(fā)現(xiàn)熱點(diǎn),熱點(diǎn)對(duì)應(yīng)特征詞的識(shí)別很重要。本文采用將事件的熱點(diǎn)由若干特征詞構(gòu)成的序列方案,詞與詞之間的關(guān)系集合構(gòu)成一個(gè)熱點(diǎn)事件。
22網(wǎng)絡(luò)輿情事件熱點(diǎn)感知的LDA方法
221文本預(yù)處理
LDA采用詞作為特征項(xiàng),通常文本可以看成特證詞的數(shù)組構(gòu)成,因此進(jìn)行文本聚類之前,首先采用特殊數(shù)據(jù)結(jié)構(gòu)來(lái)構(gòu)造特定的數(shù)據(jù)集。輿情事件熱點(diǎn)系統(tǒng)分詞子系統(tǒng)中采用ICTCLAS 2014版本,ICTCLAS(又稱NLPIR漢語(yǔ)分詞系統(tǒng))主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;用戶詞典等功能。ICTCLAS 2014新增了微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取,而且效率高,分詞速度快,準(zhǔn)確率好。由于ICTCLAS采用持續(xù)共享模式,便于通過(guò)調(diào)用API進(jìn)行二次開發(fā)。ICTCLAS的API功能強(qiáng)大,可以去除標(biāo)點(diǎn)符號(hào),引入用戶詞典進(jìn)行特定分詞,進(jìn)行新詞的提取等任務(wù)。因此本研究只需建立一個(gè)過(guò)濾詞表進(jìn)行常用詞過(guò)濾,形成網(wǎng)絡(luò)輿情特征數(shù)據(jù)集,并且可以降低文本特征的維數(shù),提高文本處理速度。
222文本特征抽取
分詞過(guò)濾之后,剩下的就是文本的核心數(shù)據(jù),但是并不是所有單詞都能準(zhǔn)確反應(yīng)文本信息、時(shí)間、地點(diǎn)、人物、事件等不同時(shí)期不同熱點(diǎn)具有不同側(cè)重點(diǎn)。我們不能肯定地說(shuō)文本中的某一個(gè)單詞就能100%表征這篇文檔,只能說(shuō)這個(gè)單詞能以某種程度來(lái)“表征”[17]這篇文檔,這個(gè)程度具體衡量的標(biāo)準(zhǔn)就是概率。概率越大,說(shuō)明這個(gè)單詞越能表征這篇文檔;反之則越不能表征這篇文檔,當(dāng)概率小到一個(gè)閥值(人為設(shè)定)的時(shí)候,這個(gè)單詞就可以舍棄了,通過(guò)此方法可以適當(dāng)降低文本特征維數(shù)。
(1)主題概率化分析
LDA是一個(gè)3層貝葉斯概率模型,采用主題生成模型。它是在傳統(tǒng)的聚類算法文本——詞分布引入主題空間,形成3層架構(gòu),認(rèn)為文本是有很多主題構(gòu)成的,且各主題之間都有一定的概率。 文檔到主題服從Dirichlet分布,主題到詞服從多項(xiàng)式分布 。一篇文章的每個(gè)詞都是通過(guò)“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語(yǔ)[18],一篇文章3層貝葉斯結(jié)構(gòu)(隱含主題)模型示意圖如圖1。
圖1文檔3層貝葉斯結(jié)構(gòu)模型示意圖因此如果我們要生成一篇文檔,它里面的每個(gè)詞語(yǔ)出現(xiàn)的概率為:
文檔序列概率化表示:D={d1,d2,d3,…,dn};
主題序列概率化表示:T={t1,t2,t3,…,tn};
單詞序列概率化表示:W={w1,w2,w3,…,wn},P{WjDt}=P{WjTj}P{TjDt}。
LDA對(duì)主題的混合權(quán)重θ進(jìn)了Dirichlet先驗(yàn),用一個(gè)超參數(shù)α來(lái)產(chǎn)生參數(shù)θ,即參數(shù)的參數(shù)。
(2)主題詞抽取
基于LDA主題模型,是利用統(tǒng)計(jì)學(xué)的知識(shí),分析文檔集內(nèi)部信息,將文本映射到基于隱含主題的特征空間[19]。對(duì)于每一篇文檔,從主題分布中抽取一個(gè)網(wǎng)絡(luò)輿情主題,從被抽取的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)主題詞,重復(fù)上述過(guò)程直至遍歷文檔中的每一個(gè)單詞。這就是推理演化前期的準(zhǔn)備工作,提供迭代的數(shù)據(jù)。
(3)推理演化
主題模型的初始化
輸入:文檔——主題分布概率;單詞——主題分布概率
迭代推理:更新主題和估計(jì)參數(shù),直至收斂
對(duì)于任意文本:基于主題模型中參數(shù)Beta以及文檔——主題分布;endprint
計(jì)算該文檔中每個(gè)單詞在主題上的分布;
基于LDA模型參數(shù)Alpha和單詞——主題分布;
計(jì)算文檔的主題分布
輸出:優(yōu)化的LDA主題模型Beta和Alpha參數(shù)
完成LDA主題模型的參數(shù)推演
(4)中間產(chǎn)品
經(jīng)過(guò)推理演化,生成文本——主題概率分布和主題——單詞概率分布產(chǎn)品,他們都是迭代收斂的最終結(jié)果,以矩陣形式存在,包含主題概率的詳細(xì)信息。
(5)聚類結(jié)果
聚類的產(chǎn)品屬于矩陣,可以按照矩陣處理算法和相關(guān)的對(duì)應(yīng)關(guān)系,將主題、文本、單詞概率分布有機(jī)的整合起來(lái),形成最終的聚類結(jié)果[20]。文本文件按主題分類歸并以文件夾形式存放,并且對(duì)應(yīng)的文件夾包含特定的主題文件,包含相應(yīng)的單個(gè)類的準(zhǔn)確率和總準(zhǔn)確率。
3原型系統(tǒng)與實(shí)驗(yàn)
31基于LDA的網(wǎng)絡(luò)輿情事件熱點(diǎn)感知原型系統(tǒng)
原型系統(tǒng)采用java語(yǔ)言開發(fā),使用Eclipse集成開發(fā)環(huán)境設(shè)計(jì)并且實(shí)現(xiàn)熱點(diǎn)感知系統(tǒng),系統(tǒng)流程如圖2所示。
圖2基于LDA的網(wǎng)絡(luò)輿情事件熱點(diǎn)感知原型系統(tǒng)
本系統(tǒng)借助LDA開源架構(gòu)進(jìn)行二次開發(fā),實(shí)現(xiàn)熱點(diǎn)的感知具有較高的準(zhǔn)確率。
32實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
321實(shí)驗(yàn)環(huán)境
CPU,Intel雙核15GMHz以上;內(nèi)存2G;硬盤320G;操作系統(tǒng)Windows Xp sp2以上。編程語(yǔ)言Java;集成開發(fā)平臺(tái)Eclipse;開源工具ictclas 2014分詞系統(tǒng)。
322實(shí)驗(yàn)數(shù)據(jù)
新浪中文新聞文本分類語(yǔ)料,包括環(huán)境、計(jì)算機(jī)、交通、教育等十大類別的27 816條網(wǎng)頁(yè)文本。
323實(shí)驗(yàn)結(jié)果
LDA中文聚類測(cè)試數(shù)據(jù),同時(shí)均迭代40次,結(jié)果如表1所示。
K-means聚類測(cè)試結(jié)果,同時(shí)均迭代10次,結(jié)果如圖4所示。
33實(shí)驗(yàn)結(jié)果分析
LDA聚類算法利用主題模型的特性,在傳統(tǒng)機(jī)械統(tǒng)計(jì)詞頻的基礎(chǔ)上加入了文本的深層語(yǔ)義知識(shí),從而讓聚類過(guò)程更加精準(zhǔn),降低錯(cuò)誤率。通過(guò)實(shí)驗(yàn)筆者發(fā)現(xiàn)聚類算法需要基于文本的主題分布,事先了解主題向量的維度,準(zhǔn)確率才會(huì)達(dá)到更高。作為測(cè)試數(shù)據(jù),已知Topic number是個(gè)準(zhǔn)確的常量,通過(guò)測(cè)試Alpha,Beta兩個(gè)參數(shù)的變化,可知LDA基于語(yǔ)義算法效率有所提升。而且發(fā)現(xiàn)準(zhǔn)確率的分布圖4K-means迭代結(jié)果圖
呈現(xiàn)不確定性和隨機(jī)性,這是由于采用貝葉斯概率統(tǒng)計(jì)方法所決定的。Alpha,Beta之間沒(méi)有直接關(guān)系,通過(guò)分析得知01~09分布效果最好,至少在70%。
而傳統(tǒng)的k-means聚類算法的初始點(diǎn)選擇不穩(wěn)定,是隨機(jī)選取的,這就引起聚類結(jié)果的不穩(wěn)定。VSM模型僅利用詞頻建立向量,同樣也會(huì)丟失部分語(yǔ)義信息,通過(guò)實(shí)驗(yàn)可以看出在面對(duì)新聞?wù)Z料長(zhǎng)文本中丟失的信息量很大,導(dǎo)致準(zhǔn)確率較低,最低在20%。
4結(jié)語(yǔ)
本文將LDA主題模型引入網(wǎng)絡(luò)輿情文本聚類領(lǐng)域,性能和效果都優(yōu)于傳統(tǒng)K-means算法。文本聚類主要在文本建模、文本相似度計(jì)算以及聚簇描述3個(gè)方面。LDA能夠比較精準(zhǔn)提煉并且發(fā)現(xiàn)主題。文本相似度計(jì)算可以嘗試將傳統(tǒng)VSM模型與LDA主題模型進(jìn)行結(jié)合,使用連續(xù)性方式或非連續(xù)性方式,建立多個(gè)文本特征空間,增強(qiáng)文本的向量表示,從而提高文本聚類的質(zhì)量。在網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)領(lǐng)域,為了進(jìn)一步提高準(zhǔn)確率,今后考慮使用外部語(yǔ)義資源庫(kù),嘗試引入本體語(yǔ)義知識(shí)。
參考文獻(xiàn)
[1]Blei David M.,Ng Andrew Y.,Jordan Michael I.,Lafferty John.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4):993-1022.
[2]范云滿,馬建霞.利用LDA的領(lǐng)域新興主題探測(cè)技術(shù)綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2012,(12):58-65.
[3]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào),2010,24(6):43-49.
[4]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報(bào)學(xué)報(bào),2013,32(3):281-287.
[5]胡勇軍,江嘉欣,常會(huì)友.基于LDA高頻詞擴(kuò)展的中文短文本分類[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(6):42-48.
[6]阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014,33(3):161-164.
[7]劉振鹿,王大玲,馮時(shí),等.一種基于LDA的潛在語(yǔ)義區(qū)劃分及Web文檔聚類算法[J].中文信息學(xué)報(bào),2011,25(1):60-65.
[8]林萍,黃衛(wèi)東.基于LDA模型的網(wǎng)絡(luò)突發(fā)事件話題演化路徑研究[J].情報(bào)科學(xué),2014,32(10):20-23.
[9]Huang,B.,Yang,Y.,Mahmood,A.,& Wang,H..Microblog topic detection based on LDA model and single-pass clustering[J].In Rough Sets and Current Trends in Computing.Springer Berlin Heidelberg,2012:166-171.
[10]李青,朱恒民,楊東超.微博網(wǎng)絡(luò)中輿情話題傳播演化模型[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(12):74-80.
[11]浦嬌華,朱恒民,劉凱.基于動(dòng)態(tài)網(wǎng)絡(luò)的微博輿論觀點(diǎn)演化模型研究[J].情報(bào)雜志,2014,33(8):168-172.endprint
[12]唐曉波,宋承偉.基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析[J].情報(bào)學(xué)報(bào),2012,31(11):1153-1162.
[13]胡吉明,陳果.基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J].圖書情報(bào)工作,2014,58(2):138-142.
[14]Chen,Y.,Amiri,H.,Li,Z.,& Chua,TS..Emerging topic detection for organizations from microblogs[C].In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:43-52.
[15]唐曉波,向坤.基于LDA模型和微博熱度的熱點(diǎn)挖掘[J].圖書情報(bào)工作,2014,58(5):58-63.
[16]王勇,肖詩(shī)斌,郭?秀,等.中文微博突發(fā)事件檢測(cè)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(2):57-62.
[17]Efron,M..Information search and retrieval in microblogs[J].Journal of the American Society for Information Science and Technology,2011,62(6):996-1008.
[18]Vosecky,J.,Jiang,D.,Leung,KWT.,& Ng,W..Dynamic multi-faceted topic discovery in twitter[C].In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management,ACM,2013:879-884.
[19]Damak,F(xiàn).,Pinel-Sauvagnat,K.,Boughanem,M.,& Cabanac,G..Effectiveness of State-of-the-art Features for Microblog Search[C].In Proceedings of the 28th Annual ACM Symposium on Applied Computing,ACM,2013:914-919.
[20]Miyanishi,T.,Seki,K.,& Uehara,K..Combining recency and topic-dependent temporal variation for microblog search[J].Advances in Information Retrieval,Lecture Notes in Computer Science,2013,7814:331-343.
(本文責(zé)任編輯:馬卓)endprint