• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多源文本下結合實體的事件發(fā)現(xiàn)方法ESP

    2019-02-15 11:20:44秦宇君史存會劉悅俞曉明程學旗
    山西大學學報(自然科學版) 2019年1期
    關鍵詞:文檔實體聚類

    秦宇君,史存會,劉悅,俞曉明,程學旗

    (1.中國科學院大學,北京 100049;2.中國科學院計算技術研究所,北京 100190)

    0 引言

    隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們越來越多地通過網(wǎng)絡進行信息的發(fā)布和接收,這也導致網(wǎng)絡輿論對社會穩(wěn)定的影響程度與日俱增,如Twitter在北非和西亞的“阿拉伯之春”的社會運動中,起到了重要作用;國內(nèi)社會生活中的食品安全、自然災害、懲治腐敗、房市調(diào)控、法治熱點、春運、高考等各種事件在網(wǎng)絡用戶間被熱烈的討論和傳播,并最終對人們的現(xiàn)實社會生活產(chǎn)生了實質(zhì)性的影響。基于國際社會對網(wǎng)絡輿情的需求,輿情系統(tǒng)應運而生,這類系統(tǒng)的主要功能包括突發(fā)事件發(fā)現(xiàn),熱點話題分析,有害信息識別等。

    在實際的輿情系統(tǒng)中,社會事件往往是系統(tǒng)關注的重點?;ヂ?lián)網(wǎng)當前已經(jīng)成為報道和傳播各種社會事件的重要信息平臺。在互聯(lián)網(wǎng)中存在眾多的信息發(fā)布通道,如微博、微信、新聞等。不同的信息發(fā)布通道有各自的特點,例如對于微博、微信等網(wǎng)絡自媒體通道所發(fā)布的信息具有及時性、多樣性等特點,許多社會事件的第一報道地點往往都來自于這些網(wǎng)絡自媒體,而對于同一事件的報道者越多,觀點越豐富,則能從側(cè)面反映出該事件的輿論熱度和潛在的輿論影響力。相對于微博發(fā)布信息的短、平、快的特點,許多來自新聞網(wǎng)站等通道的事件發(fā)布則更側(cè)重事件的完整性、事實性,這些新聞媒體通道對于事件的描述更加詳細,內(nèi)容更加真實可靠。

    對于網(wǎng)絡輿情系統(tǒng)而言,系統(tǒng)所發(fā)現(xiàn)的事件如果能既具備很高的輿論熱度和潛在影響力,也能有詳盡的事件信息與很好的可靠程度,則能為后續(xù)相關事件的及時處理提供更好的幫助。鑒于微博等網(wǎng)絡自媒體通道具有反映事件熱度和影響力的能力,而新聞網(wǎng)站等通道具有規(guī)范化、可信度高等特點,如果能將這些不同通道的信息進行關聯(lián)與綜合利用,從而發(fā)現(xiàn)事件,則將會對網(wǎng)絡輿情系統(tǒng)的效果有很大的提高。

    目前事件發(fā)現(xiàn)領域[1]的研究大多是針對同種類型文檔進行研究,研究方法主要分為以文檔為事件中心和以詞為事件中心。以文檔為中心的事件發(fā)現(xiàn)方法主要采用分類和聚類的方式,將文檔歸為不同的文檔集合,形成事件;以詞為中心的事件發(fā)現(xiàn)方法則利用信號處理或主題模型等方式獲取事件代表詞,將包含代表詞的文檔歸為同一集合,形成事件。無論是以文檔為中心還是以詞為中心的方式,其核心都是將文檔轉(zhuǎn)換成另一種表達形式,然后再利用新的表達方式將文檔歸納到不同的集合中從而形成事件。對于單一通道,數(shù)據(jù)的結構和內(nèi)容形式往往相同,因此在用相同的方法進行映射之后,在原空間相似的文檔在新空間仍然相似,事件發(fā)現(xiàn)的效果相對較好。然而在多源文本中,新聞報道和微博消息在內(nèi)容形式上具有較大區(qū)別,新聞報道往往用詞規(guī)范,內(nèi)容相對充實,微博消息則口語化較嚴重,內(nèi)容相對短小精煉,如果采用相同的映射方法,很難保證在原空間相似的文檔在新空間仍然相似。

    本文則針對傳統(tǒng)事件發(fā)現(xiàn)方法在處理多源文本時遇到的困難,提出了結合實體的事件發(fā)現(xiàn)方法ESP。首先提出了事件核心實體的概念,給出了事件核心實體的獲取方法,并通過在經(jīng)典的Single Pass方法中引入事件核心實體信息,豐富了多源文本中的各類文本的表達,使得多源文本中來自不同通道的文檔能夠在新的映射空間中具有更多的信息,從而提高了多源文本事件發(fā)現(xiàn)的效果。

    傳統(tǒng)的事件發(fā)現(xiàn)方法大概分為兩類:以文檔為事件核心和以文檔的代表詞為事件核心。前者是通過將文檔映射到語義特征空間,通過分類或聚類的方法來發(fā)現(xiàn)事件[2-4];后者則是先利用詞頻突變,關鍵詞篩選等方法獲得代表文檔特點的詞語,再對詞進行聚類或關聯(lián),從而發(fā)現(xiàn)事件[5]。

    從文檔角度出發(fā)的事件發(fā)現(xiàn),傳統(tǒng)的方法有層次聚類(Hierarchical Clustering)、K-means聚類、Single-Pass[6]聚類和局部敏感哈希[7](Locality-Sensitive Hashing,LSH)等,這些方法首先都是將文檔映射到語義特征空間,然后進行相似度計算。

    層次聚類需要人為指定最終期望的結果個數(shù),但是在實際的事件發(fā)現(xiàn)系統(tǒng)中,事件的個數(shù)往往不能預先確定,并且在計算簇內(nèi)相似度時要對簇內(nèi)的所有文檔兩兩計算相似度,時間復雜度和空間復雜度都較高,不太適宜大量數(shù)據(jù)的場景。與層次聚類相似的方法還有K-means聚類,但它需要提前確定k個聚類中心,實際應用中k的確定十分困難,同時初始點的選擇也極大地影響事件發(fā)現(xiàn)的結果。

    Single-Pass聚類方法則是將每一篇新到來的文章與之前的事件相比較,如果通過兩兩比較,當前的文章與之前的任何一篇均不相似,則視為新的事件,否則加入現(xiàn)有事件列表中。此方法的優(yōu)點是可以處理流式數(shù)據(jù),增量式發(fā)現(xiàn)事件。但是相似閾值的設定以及文檔到達的順序會直接影響事件發(fā)現(xiàn)的效果。

    局部敏感哈希方法則是利用多組哈希函數(shù),將文檔從高維空間向低維空間進行投影,再利用投影后的低維向量進行數(shù)據(jù)分桶索引,對于屬于同一個桶中的數(shù)據(jù)進行相似度計算,從而縮小比較的次數(shù),這種方式對于大量的數(shù)據(jù)能夠很大程度上降低計算時間復雜度。但是在實際應用中,相似文檔并不能很大程度的映射到相同的數(shù)據(jù)分桶中。

    除了以上這些將文檔進行特征映射后進行聚類的方法,分類方法也被應用在事件發(fā)現(xiàn)領域。當系統(tǒng)的主要任務是發(fā)現(xiàn)特定類別的事件時,通過合理的特征設置,可以利用分類方法定向的發(fā)現(xiàn)事件[8]。但是這種方法只能用于某些指定類別的事件,很難擴展應用到大范圍事件發(fā)現(xiàn)系統(tǒng)中。

    從詞的角度出發(fā)的事件發(fā)現(xiàn),主要是從詞在時域和頻域的變化進行事件代表詞的篩選,將最終得到的一些詞的集合作為事件的代表。

    Kleinberg[9]提出消息的到達是有時序關系的,他提出二元狀態(tài)自動機和無限狀態(tài)自動機兩種建模方法,通過模型可以得到某個詞的狀態(tài)變化序列,從而獲得爆發(fā)詞和相關文檔。

    Fung[10]等人則針對現(xiàn)有聚類方式的問題,提出了通過構造詞的分布,判斷某一詞是否屬于爆發(fā)詞。獲取到爆發(fā)詞后,根據(jù)文檔包含爆發(fā)詞的情況,形成爆發(fā)事件。最終還可以通過跟蹤爆發(fā)詞的變化,獲得事件爆發(fā)的周期。

    Ge等[11]則提出了一種利用詞頻的突變以及詞與詞之間的共現(xiàn)關系,構造消息爆發(fā)網(wǎng)絡,網(wǎng)絡中的節(jié)點是符合突變性質(zhì)的詞,網(wǎng)絡中的邊則是代表詞的共現(xiàn)關系,并且邊上的權重隨著共現(xiàn)次數(shù)的增多而增大。網(wǎng)絡構造完成后再利用TextRank的方式發(fā)現(xiàn)網(wǎng)絡中的關鍵詞,作為最終事件的代表性詞匯。

    綜上可知,無論是以文檔為核心還是以詞為核心的事件發(fā)現(xiàn)方法,都是獲取文檔在特征空間的一種表達,然后再利用特征空間的相似性將相似文檔聚到一起形成事件。這種方法雖然可以在很大程度上將相似文檔聚到一起,但是在針對“事件”這一特殊領域,還有可以提升的空間。

    1 結合實體的多源文本事件發(fā)現(xiàn)算法ESP

    Fig.1 Flow chart of ESP圖1 事件發(fā)現(xiàn)算法流程示意圖

    ESP算法是基于Single-Pass流式聚類算法進行的改進。前人[12]的研究認為事件是指在某個特定的時間和環(huán)境下發(fā)生的,由若干角色參與,表現(xiàn)出若干動作特征的一件事情。形式上可以表示為由時間、地點、人物、機構等實體構成的多元組形式。由于實體對事件有很強的表達能力,如果能準確地識別文檔中的核心實體,并將其作為文檔在事件域的表達,則能更好地進行事件發(fā)現(xiàn)。因此,ESP算法首先要對每篇文檔進行核心實體識別。在獲得每篇文檔的核心實體集合后,進行文檔間核心實體集合間相似度計算。最終將文檔間核心實體相似度引入現(xiàn)有的事件發(fā)現(xiàn)算法Single-Pass中,進行事件發(fā)現(xiàn)。算法流程見圖1。

    1.1 事件核心實體識別方法

    由于目前對于事件核心實體尚未有統(tǒng)一的定義,因此本文首先對事件核心實體進行定義。

    定義:事件核心實體是指對于描述、刻畫一個事件起到重要作用的人名、地名、機構名等實體。

    根據(jù)以上定義,本文提出的事件核心實體識別方法,流程分為以下兩步:(1)對事件文本進行命名實體識別,獲得事件的候選實體集合,候選實體集合中的每個實體都包含了實體的類型信息和位置信息。(2)利用本文提出的EntityRank算法對實體集合中的實體進行重要度排序,將重要度最高的實體作為核心實體。針對第一步中的命名實體識別,可直接利用現(xiàn)有命名實體識別方法獲得,在此不再贅述。

    EntityRank算法是在TextRank的基礎上針對實體進行的改進算法。與TextRank類似,EntityRank首先要對文檔中出現(xiàn)的實體進行構圖,構圖方法如下。

    (1)按照段落作為實體共現(xiàn)的窗口,處于同一段落中的實體相互連邊。原始的算法中兩點之間有連邊即表示兩點之間有一定的相關關系。在一篇報道中,一個段落往往對應著一個相關主題,處于一個段落中的實體則通常具有相關關系,利用段落作為實體共現(xiàn)的窗口既能避免人為設定k值導致的偏差,又能使相關實體能夠建立起聯(lián)系。

    (2)處于同一窗口內(nèi)的實體按照距離遠近關系計算,如式(1)所示。由于實體往往具有稀疏性,處于同一窗口內(nèi)的實體并不會像普通詞匯一樣密集,此時如果再利用共現(xiàn)詞頻等作為連邊權重往往不能起到相應的作用。但是根據(jù)語言學的規(guī)律,相關的實體往往會距離比較近,因此利用實體在段落中的距離來衡量實體之間的相關關系比較符合連邊權重的意義。

    (1)

    其中Wij表示連邊權重,dis(i,j)表示實體i和實體j之間的距離,max_distance為整篇文章的所有段落中最長段落的長度。

    得到了連邊權重Wij后,便可以按照公式(2)進行迭代運算,最終獲得每個實體的重要度。

    (2)

    其中d是抑制因子,d∈(0,1),In(Vi)為與Vi有連邊的所有節(jié)點,Out(Vj)為與Vj有連邊的所有節(jié)點,WS(Vi)為節(jié)點Vi的重要度。

    EntityRank算法的主要步驟總結如下。

    算法:EntityRank輸入:帶有位置信息的實體集合S=[(entity1,loc1),(entity2,loc2),…,(entityn,locn)]輸出:實體對應權重信息Res=[(entity1,weight1),(entity2,weight2),…,(entityn,weightn)] step1step2step3step4將實體集合按照段落進行切分,分成若干子集。S1, S2,…, Sn,Si∈S.針對每個子集Si,進行構圖。構圖規(guī)則為:(1)子集中的實體為圖中的節(jié)點。(2)屬于同一子集中的實體相互建立連邊。(3)連邊權重由公式(1)得到。針對步驟2得到的圖,按照公式(2)進行節(jié)點權重迭代計算。返回結果Res。

    1.2 實體集合間相似度計算方法

    (1)字形字序法

    字形字序法的主要作用是計算兩個實體在字面上的相似度,主要借鑒現(xiàn)有的詞形詞序法[13]。設sameCC(A,B)為實體A和B中相同字的個數(shù),當同一個字在A和B中出現(xiàn)的次數(shù)不同時,以出現(xiàn)次數(shù)少的計數(shù),則實體A和B的字形相似度為:

    (3)

    可知,0≤WordSim(A,B)≤1.

    設OnceCS(A,B)表示A和B中都出現(xiàn)且只出現(xiàn)一次的字的集合。Pfirst(A,B)表示OnceCS(A,B)中的每個字在A中的位置序號構成的數(shù)字排列,Psecond(A,B)表示Pfirst(A,B)中的分量按對應字在B中的字序排列生成的數(shù)字排列,RevOrd(A,B)表示Psecond(A,B)各相鄰分量的逆序數(shù)。則A和B的字序相似度為

    (4)

    可知0≤OrdSim(A,B)≤1.綜合字形相似度和字序相似度,詞語A和B的相似度為:

    Simword(A,B)=α1×WordSim(A,B)+α2×WordSim(A,B) ,

    (5)

    其中α1和α2均為常數(shù)并且滿足α1+α2=1,因此0≤Simword(A,B)≤1.由于詞形相似度相對詞序相似度更能代表詞的相似程度,所以一般有α1>α2.

    (2)語義相關法

    語義相關法的主要作用是計算兩個實體在語義上的相似度,主要利用Word2Vec[14-16]的方式對實體進行向量化表示,然后利用余弦相似度對兩個實體的向量表示進行計算。

    Simsem(A,B)=cos(Ai,Bi) ,

    (6)

    其中A和B為兩個實體,Ai和Bi則為A和B對應的向量,Simsem(A,B)為實體A和B的語義相似度。

    (3)實體集合相似度計算

    兩篇文本包含的實體之間的相關性是這兩篇文本之間相關性的重要反映。最大實體關聯(lián)法是計算兩個實體集合之間相似度的方法,是在最大詞語關聯(lián)法[17]的基礎上針對實體進行的改善。對于兩個實體集合A和B,針對集合中的實體獲得詞向量A′={a1,a2,…,am}和B′={b1,b2,…,bn},不失一般性,可令n≥m.構建兩個文檔的實體特征相關矩陣為:

    (7)

    其中Sij表示實體Ai和Bj之間的綜合相關度值,由字形字序法和語義相關度共同決定:

    Sij=α3×Simword(Ai,Bj)+α4×Simsem(Ai,Bj) ,

    (8)

    其中Simsem(Ai,Bj)為實體Ai和實體Bj對應詞向量的余弦相似度的值,α3和α4均為常數(shù)并且滿足α3+α4=1,因此0≤sij≤1.可知矩陣S第i行中的最大值是實體集合A中實體Ai與實體集合B中實體相關度最大的實體的相關度值。取S中每一行具有最大值的元素,構成文檔A和B的最大實體關聯(lián)序列:

    maxL={S1,x1,S2,x2,…,Sm,xm} ,

    (9)

    然后,由式(10)計算A和B之間的實體相關度:

    (10)

    其中,wi和wxi分別是Ai和Bxi在實體集合A和B中的權重,其定義如下:

    (11)

    (12)

    其中size(A)表示實體集合中包含實體的數(shù)量,t為當前實體在實體列表中的位置,L代表衰減周期,k則為衰減系數(shù)。

    由于在多源文本中,來自不同通道的數(shù)據(jù)具有的事件實體數(shù)量多少不一、種類不同,不同類型的事件實體之間顯然不能進行相似度計算,而在同種類型事件實體計算相似度時則既要考慮到字面的相似性,又要結合語義相似度。除此之外,例如某些微博數(shù)據(jù)中只會包含少量類型的事件實體,而新聞報道中包含的事件實體類型相對較多,這種情況下,如果兩種文本共同含有的實體相似度很高,則兩篇文章的整體相似度可能依舊很高,因此在文檔間實體集合相似度計算方法設計的過程中不能簡單地將不同類型的實體相似度進行疊加?;谝陨系目紤],本文設計的文檔間實體集合相似度計算方法主要有以下幾個步驟。

    1)共同出現(xiàn)的同類型實體之間計算相似度。

    2)相似度計算方法選用最大實體關聯(lián)法。

    3)對于不同實體類型的相似度計算結果取平均。

    根據(jù)以上幾點,本文提出的文檔間實體集合相似度計算方法可以用下式表示:

    (13)

    其中A,B表示兩篇文檔,Ae和Be表示兩篇文檔中屬于類型e的實體集合,EntitySim表示文檔間實體集合相似度,entitys為兩篇文檔中共同出現(xiàn)的實體類型,entitys-num為兩篇文檔中共同出現(xiàn)的實體類型的數(shù)量,Siment即上文中的最大實體關聯(lián)法。

    1.3 結合實體的多源文本事件發(fā)現(xiàn)算法ESP

    ESP算法的核心在于利用兩篇文檔在事件實體間的相似度,輔助進行事件發(fā)現(xiàn)。事件核心實體的具體使用方式可以分多種情況:(1)當事件核心實體間相似度大于某個閾值時,直接判定為相似,歸為一類,否則通過文本相似度進行判斷。(2)當事件核心實體間相似度小于某個閾值時,直接判斷為不相似,否則通過文本相似度進行判斷。(3)將事件核心實體相似度與文本相似度進行結合之后再和閾值進行比較等。

    在利用以上幾種方式進行輔助事件發(fā)現(xiàn)的過程中,事件核心實體間相似度是指當前文檔與現(xiàn)有事件中所有文檔的事件核心實體相似度的平均值。如果當前文檔能夠加入現(xiàn)有事件,則用當前文檔的向量更新事件代表向量,即

    (14)

    其中n為當前事件所包含的文檔數(shù),V為當前文檔向量,VEold為當前事件代表向量,VEnew為更新后的事件代表向量。

    Entity Single-Pass算法的核心偽代碼如下。

    算法:Entity Single-Pass 輸入:documents,SIM-THRESH,ENTITY-THRESH 輸出:eventSet 123456789 101112131415161718192021222324252627FOREACH doc in documents max-sim=0.0 matchEvent=NUL matchFlag=False doc-entity=getEntitys(doc) doc-vec=getDocVec(doc) FOREACH event in eventSet event-entitys=getEntitys(event) event-vec=getEventVec(event) entity-sim=GetEntitySimilarity(doc-entity,event-entitys) IF entity-sim> ENTITY-THRESH THEN UpdateEvent(event,doc,doc-entity,eventSet) matchFlag=True BREAK END IF vec-sim=getCosinSim(doc-vec,event-vec) IF vec-sim> max-sim THEN max-sim=vec-sim matchEvent=event END IF END FOR IF not matchFlag and max-sim> SIM-THRESH THEN UpdateEvent(event,doc,doc-entity,eventSet) ELSE CreateEvent(doc,doc-entity,eventSet) END IFEND FORReturn eventSet

    算法:GetEntitySimilarity 輸入:doc-entity,event-entitys 輸出:similarity 1INIT: sim-sum=0 2 FOREACH event-ent in event-entitys 3 sim-sum=sim-sum+siment(doc-entity,event-entity) 4 END FOR 5Return sim-sum/size(event-entitys)

    2 實驗結果及分析

    本節(jié)利用真實的微博事件語料和新聞事件語料對所提算法進行驗證。

    2.1 實驗數(shù)據(jù)集

    實驗數(shù)據(jù)來自于新聞報道和微博數(shù)據(jù),其中包含臺灣花蓮地震、云南九寨溝地震、四川涼山山洪、遼寧災害天氣、青海地震、美國槍擊案等30個事件共2 000條數(shù)據(jù),其中新聞數(shù)據(jù)和微博數(shù)據(jù)各1 000條。

    實驗中核心實體的獲取方式根據(jù)文章所屬通道的類型不同而有所區(qū)別。對于新聞報道等數(shù)據(jù),利用事件核心實體識別方法進行核心實體識別。對于微博等數(shù)據(jù),首先根據(jù)微博數(shù)據(jù)格式的特點,對于微博間格符“##”之間的內(nèi)部實體進行識別和提取,將其直接作為事件核心實體。如果并未存在特殊結構,則同樣利用事件核心實體識別方法進行識別。

    2.2 評價標準

    實驗的評價指標采用聚類算法常用的標準化互信息(Normalized Mutual Information,NMI)和蘭德指數(shù)(Rand Index,RI),其定義分別為:

    (15)

    其中I為互信息,H代表熵:

    (16)

    (17)

    其中p(xi)表示文檔屬于簇xi的概率,p(x,y)表示文檔屬于簇x∩y的概率。

    (18)

    2.3 實驗設計

    K-means和Single-Pass是經(jīng)典的事件發(fā)現(xiàn)算法,因此本文選擇K-means和Single-Pass作為baseline。由于事件核心實體與傳統(tǒng)的Single-Pass方法有多種結合方式,本文分別針對以下情況作了實驗。

    (1) 當事件核心實體間相似度大于某個閾值時,直接判定為相似,歸為一類,否則通過文本相似度進行判斷。

    (2) 當事件核心實體間相似度小于某個閾值時,直接判斷為不相似,否則通過文本相似度進行判斷。

    (3) 將事件核心實體相似度與文本相似度進行結合之后再和閾值進行比較,如果相似度大于閾值,則歸為一類,否則不能歸為一類。

    同時,為避免閾值設置導致的結果偏差,本文在實驗過程中,針對實驗(1)和實驗(2)分別按照事件核心實體相似度閾值以0.1為間隔,從0.1到1共10組閾值,文本相似度閾值以0.1為間隔,從0.1到1共10組閾值,排列組合共100種閾值組合中選取最優(yōu)組合作為最終的實驗結果。針對實驗(3),按照閾值以0.1為間隔,從0.1到2共20種結果中選取最優(yōu)組合作為最終的實驗結果。K-means方法中聚類中心K分別取20,25,30,35,40,選取最優(yōu)結果作為最終的實驗結果。

    2.4 實驗結果

    實驗對比結果如圖2。

    Fig.2 Result of text clustering圖2 事件聚類結果圖

    5種方法取得最好結果時的參數(shù)設置如表1所示。其中Textsim為文本相似度閾值,Entitysim為實體集合相似度閾值。

    表1 五種方法最優(yōu)閾值表

    可以看出,與K-means和原始Single-Pass方法相比,在結合了事件核心實體間相似度之后,各次實驗的結果均好于原始Single-Pass方法。其中方法1和方法3相比原始Single-Pass結果在NMI和RI評價指標下均有較明顯提高。方法2的最優(yōu)結果則與原方法有一定的提升。

    針對方法1的效果提升,可以看出當事件核心實體相似度大于某閾值時,即使不計算文本相似度,直接歸為一類,也能達到準確發(fā)現(xiàn)事件的效果,并且相對于只利用文本相似度,消除了一些文本中的噪音,提高了事件發(fā)現(xiàn)的準確性。

    針對方法2的效果提升,可以看出在原始Single-Pass方法中,存在某些文本相似度上較高,但屬于不同事件的文檔被判斷為同一事件。而通過利用實體相似度進行過濾,將這些錯誤聚類到一起的文檔更好的分開。

    針對方法3的效果提升,可以看出事件核心實體相似度可以彌補文本相似度的不足,兩種相似度結合后,同一事件下的文檔能更好地結合在一起。但是同樣,由于某些不屬于同一事件的文檔其文本相似程度偏高,使得結合實體相似度后,仍舊使得總體相似度高于閾值,導致聚類錯誤。

    此外,方法1的效果相對于方法3有更好的表現(xiàn),說明了在新聞報道和微博消息在一起進行聚類時,文章長度的不同使得文本在表達后進行相似度計算的效果并不理想,同時也說明了事件實體能夠更好地對事件進行表達,從而使得多源數(shù)據(jù)一起聚類時效果更好。

    在Single-Pass算法的改進過程中,事件核心實體間的相似度作為閾值起到了過濾作用。根據(jù)實驗結果來看,以上改進的方法相對于原始Single-Pass的事件發(fā)現(xiàn)方法的效果有所提升,因此可以說明結合事件實體的改進事件發(fā)現(xiàn)算法是有效的,同時文檔間實體集合相似度計算方法也是可行的。

    3 結論

    本文提出了一種適用于多源文本場景下的結合實體的事件發(fā)現(xiàn)算法ESP,算法針對傳統(tǒng)事件發(fā)現(xiàn)方法在處理多源文本事件發(fā)現(xiàn)問題中的缺陷,提出并設計了事件核心實體識別方法,同時設計了實體集合間相似度計算方法,并給出了將實體集合相似度與Single-Pass結合的多種方式。算法通過引入事件核心實體的信息,豐富了多源文本中原始文檔的表達信息,從而提高了事件發(fā)現(xiàn)算法的效果。在微博、微信和新聞等多源數(shù)據(jù)上對算法的有效性做了驗證。通過與K-means和Single-Pass方法的比較,我們的方法在NMI和RI兩項評價指標上分別提高了0.2和0.3,證明了ESP算法的有效性。

    猜你喜歡
    文檔實體聚類
    有人一聲不吭向你扔了個文檔
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    基于RI碼計算的Word復制文檔鑒別
    基于改進的遺傳算法的模糊聚類算法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一種層次初始的聚類個數(shù)自適應的聚類方法研究
    精品久久久久久久末码| 国内精品久久久久久久电影| 国产亚洲av嫩草精品影院| 欧美黑人欧美精品刺激| 嫩草影院入口| 午夜亚洲福利在线播放| or卡值多少钱| www.www免费av| 精品熟女少妇八av免费久了| 国产精品久久久久久人妻精品电影| 日本 欧美在线| 俺也久久电影网| 母亲3免费完整高清在线观看| 18美女黄网站色大片免费观看| 天天躁日日操中文字幕| 精品欧美国产一区二区三| 性色avwww在线观看| 亚洲欧美日韩无卡精品| 亚洲国产精品sss在线观看| 国产免费av片在线观看野外av| 小说图片视频综合网站| 欧美区成人在线视频| 精品福利观看| av在线蜜桃| 国产精品亚洲一级av第二区| 欧美日韩精品网址| 中文亚洲av片在线观看爽| 欧美日韩黄片免| 午夜免费成人在线视频| 少妇丰满av| 亚洲成人中文字幕在线播放| 草草在线视频免费看| 九色成人免费人妻av| 日本a在线网址| 麻豆国产av国片精品| 女人被狂操c到高潮| 制服人妻中文乱码| 欧美中文综合在线视频| 午夜免费男女啪啪视频观看 | 狂野欧美激情性xxxx| 夜夜夜夜夜久久久久| 亚洲精品乱码久久久v下载方式 | 男女之事视频高清在线观看| 一区二区三区免费毛片| 男人和女人高潮做爰伦理| 在线看三级毛片| 色尼玛亚洲综合影院| 国产精品一区二区免费欧美| 成人一区二区视频在线观看| 国产精品99久久99久久久不卡| 免费看a级黄色片| 亚洲精品国产精品久久久不卡| 午夜老司机福利剧场| 国产日本99.免费观看| 级片在线观看| 欧美精品啪啪一区二区三区| 亚洲国产高清在线一区二区三| 亚洲国产精品sss在线观看| 免费电影在线观看免费观看| 国产精品自产拍在线观看55亚洲| 99国产精品一区二区蜜桃av| 最近最新免费中文字幕在线| 99热6这里只有精品| 成年免费大片在线观看| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 国产黄色小视频在线观看| 波多野结衣高清作品| 天堂动漫精品| АⅤ资源中文在线天堂| 草草在线视频免费看| 69人妻影院| 久久性视频一级片| 少妇的丰满在线观看| 99精品在免费线老司机午夜| 999久久久精品免费观看国产| 国产精品香港三级国产av潘金莲| 亚洲欧美一区二区三区黑人| 美女高潮的动态| 一区二区三区国产精品乱码| 欧美三级亚洲精品| 亚洲,欧美精品.| 日本 欧美在线| 国产av一区在线观看免费| 白带黄色成豆腐渣| 国内少妇人妻偷人精品xxx网站| 男人舔女人下体高潮全视频| 亚洲aⅴ乱码一区二区在线播放| 99久国产av精品| 一个人看视频在线观看www免费 | 精品欧美国产一区二区三| 亚洲在线观看片| 成年女人看的毛片在线观看| 99热只有精品国产| a在线观看视频网站| 国内久久婷婷六月综合欲色啪| 亚洲一区二区三区不卡视频| 亚洲美女黄片视频| 99国产综合亚洲精品| 国产亚洲欧美98| 免费在线观看日本一区| av在线蜜桃| 哪里可以看免费的av片| 精品欧美国产一区二区三| 免费在线观看日本一区| 精品不卡国产一区二区三区| 免费电影在线观看免费观看| 亚洲aⅴ乱码一区二区在线播放| 欧美另类亚洲清纯唯美| 少妇熟女aⅴ在线视频| 美女大奶头视频| 18禁美女被吸乳视频| 午夜免费观看网址| 日韩成人在线观看一区二区三区| 免费看美女性在线毛片视频| 在线观看日韩欧美| 国产精品野战在线观看| 国产亚洲精品久久久久久毛片| 亚洲精品在线观看二区| 岛国视频午夜一区免费看| 久久天躁狠狠躁夜夜2o2o| 国产成人av教育| xxx96com| av天堂中文字幕网| 国产真实伦视频高清在线观看 | 亚洲中文日韩欧美视频| 九九在线视频观看精品| 男女午夜视频在线观看| 床上黄色一级片| 成年人黄色毛片网站| 一本精品99久久精品77| www日本在线高清视频| 日韩精品青青久久久久久| 午夜免费观看网址| 久久6这里有精品| av片东京热男人的天堂| 9191精品国产免费久久| 国产免费一级a男人的天堂| 色吧在线观看| 91在线精品国自产拍蜜月 | 村上凉子中文字幕在线| 99在线人妻在线中文字幕| 国产精品免费一区二区三区在线| 亚洲熟妇中文字幕五十中出| 91在线精品国自产拍蜜月 | 国产亚洲精品一区二区www| 熟女电影av网| 亚洲自拍偷在线| 国产精品久久久人人做人人爽| or卡值多少钱| 好男人在线观看高清免费视频| 成熟少妇高潮喷水视频| 美女被艹到高潮喷水动态| 久久国产精品影院| 人人妻人人澡欧美一区二区| 国产国拍精品亚洲av在线观看 | 久久国产精品影院| 黄色视频,在线免费观看| 人妻久久中文字幕网| 麻豆成人av在线观看| 亚洲av成人av| 国产成人av教育| 欧美精品啪啪一区二区三区| 亚洲精品美女久久久久99蜜臀| 变态另类丝袜制服| 免费电影在线观看免费观看| 国产精品日韩av在线免费观看| 一边摸一边抽搐一进一小说| 人妻久久中文字幕网| 免费无遮挡裸体视频| 国内揄拍国产精品人妻在线| 亚洲黑人精品在线| 亚洲一区高清亚洲精品| 在线播放无遮挡| 精品一区二区三区人妻视频| 美女黄网站色视频| 精品久久久久久久末码| 在线看三级毛片| 丁香六月欧美| 中文亚洲av片在线观看爽| eeuss影院久久| 亚洲内射少妇av| 日本一二三区视频观看| 成人亚洲精品av一区二区| 一本综合久久免费| 精华霜和精华液先用哪个| 天堂动漫精品| 嫩草影院精品99| 国产真实乱freesex| 国内精品久久久久精免费| 看片在线看免费视频| 女同久久另类99精品国产91| 午夜福利18| 国产精品,欧美在线| 国产私拍福利视频在线观看| 国产精品爽爽va在线观看网站| 成人亚洲精品av一区二区| 亚洲第一欧美日韩一区二区三区| 91九色精品人成在线观看| 国产精品久久久久久亚洲av鲁大| 男女做爰动态图高潮gif福利片| 久久香蕉国产精品| 真人一进一出gif抽搐免费| 特大巨黑吊av在线直播| av天堂中文字幕网| 在线免费观看的www视频| 午夜福利免费观看在线| 国产极品精品免费视频能看的| 亚洲 国产 在线| 日韩欧美在线乱码| 婷婷六月久久综合丁香| 男人舔女人下体高潮全视频| 母亲3免费完整高清在线观看| 亚洲在线自拍视频| 成人国产综合亚洲| 高清日韩中文字幕在线| 成人无遮挡网站| 性欧美人与动物交配| www日本在线高清视频| 又爽又黄无遮挡网站| 午夜免费男女啪啪视频观看 | 亚洲中文日韩欧美视频| 国产野战对白在线观看| 露出奶头的视频| 一级黄片播放器| 免费在线观看日本一区| 欧美中文综合在线视频| 欧洲精品卡2卡3卡4卡5卡区| 高潮久久久久久久久久久不卡| 久久香蕉精品热| 日本 av在线| 母亲3免费完整高清在线观看| 色av中文字幕| 国产精品乱码一区二三区的特点| 搡老岳熟女国产| 免费看十八禁软件| 精品人妻一区二区三区麻豆 | 精品日产1卡2卡| 小蜜桃在线观看免费完整版高清| 久久久久久久久中文| 又黄又粗又硬又大视频| 不卡一级毛片| 99热只有精品国产| 日韩欧美精品免费久久 | 日本三级黄在线观看| 亚洲av二区三区四区| 久久精品国产自在天天线| 日韩av在线大香蕉| 狂野欧美激情性xxxx| 国产免费男女视频| 国产三级在线视频| av在线天堂中文字幕| 色视频www国产| 日韩国内少妇激情av| www日本黄色视频网| 69av精品久久久久久| 亚洲人成网站在线播| 婷婷亚洲欧美| 最新中文字幕久久久久| 免费观看的影片在线观看| 成人一区二区视频在线观看| 日本与韩国留学比较| 精品久久久久久久末码| 97人妻精品一区二区三区麻豆| 亚洲18禁久久av| 国产成人影院久久av| 久久人妻av系列| 伊人久久大香线蕉亚洲五| 搡老妇女老女人老熟妇| 亚洲第一电影网av| 国产视频一区二区在线看| 搡女人真爽免费视频火全软件 | 久久午夜亚洲精品久久| 人人妻人人看人人澡| 午夜影院日韩av| 午夜老司机福利剧场| 中文字幕高清在线视频| 久久精品国产自在天天线| 亚洲国产色片| 国产免费男女视频| 五月玫瑰六月丁香| 性欧美人与动物交配| 三级男女做爰猛烈吃奶摸视频| 最近视频中文字幕2019在线8| 在线免费观看不下载黄p国产 | 免费观看人在逋| 岛国在线免费视频观看| 久久久国产成人免费| 国产 一区 欧美 日韩| 免费在线观看影片大全网站| 日韩欧美三级三区| 亚洲aⅴ乱码一区二区在线播放| 免费在线观看成人毛片| 香蕉久久夜色| 国产真人三级小视频在线观看| 亚洲五月天丁香| xxx96com| 欧美+亚洲+日韩+国产| av国产免费在线观看| 听说在线观看完整版免费高清| 亚洲第一欧美日韩一区二区三区| 手机成人av网站| 99久久精品热视频| 免费观看的影片在线观看| 国产伦精品一区二区三区四那| 在线视频色国产色| 国产高清有码在线观看视频| 久久久久久久亚洲中文字幕 | 中文字幕人妻丝袜一区二区| 国产精品 欧美亚洲| 成人三级黄色视频| 中出人妻视频一区二区| 久久人人精品亚洲av| 别揉我奶头~嗯~啊~动态视频| 在线天堂最新版资源| 日韩av在线大香蕉| 日本熟妇午夜| 精品免费久久久久久久清纯| 欧美+日韩+精品| or卡值多少钱| 在线国产一区二区在线| 九九热线精品视视频播放| 免费人成在线观看视频色| 99热只有精品国产| 久久久精品大字幕| 日本精品一区二区三区蜜桃| 亚洲人成网站高清观看| 亚洲国产欧洲综合997久久,| 免费观看精品视频网站| 波多野结衣高清作品| 观看免费一级毛片| 欧美黑人欧美精品刺激| 啦啦啦观看免费观看视频高清| 91麻豆精品激情在线观看国产| 99久国产av精品| 无遮挡黄片免费观看| 在线免费观看不下载黄p国产 | 日韩中文字幕欧美一区二区| 国产精华一区二区三区| 亚洲国产高清在线一区二区三| 中国美女看黄片| 国产精品98久久久久久宅男小说| 免费看十八禁软件| 成人特级黄色片久久久久久久| 中亚洲国语对白在线视频| 白带黄色成豆腐渣| 中国美女看黄片| 亚洲专区国产一区二区| 久久久久九九精品影院| 亚洲电影在线观看av| 最后的刺客免费高清国语| 亚洲av五月六月丁香网| 老鸭窝网址在线观看| 成年版毛片免费区| 亚洲七黄色美女视频| 国产精品亚洲美女久久久| 中文字幕熟女人妻在线| 91九色精品人成在线观看| 亚洲狠狠婷婷综合久久图片| 欧美日本视频| 一夜夜www| 亚洲va日本ⅴa欧美va伊人久久| av在线天堂中文字幕| 欧美乱码精品一区二区三区| 天美传媒精品一区二区| 色精品久久人妻99蜜桃| 人人妻人人看人人澡| 欧美性猛交黑人性爽| 九色国产91popny在线| 国产私拍福利视频在线观看| 欧美国产日韩亚洲一区| 欧美最新免费一区二区三区 | 精品久久久久久,| 少妇人妻一区二区三区视频| 男女下面进入的视频免费午夜| 一区二区三区免费毛片| 天堂av国产一区二区熟女人妻| 亚洲美女黄片视频| 国产真实乱freesex| 国产精品99久久久久久久久| 一区二区三区激情视频| 欧美成人性av电影在线观看| 欧美一级毛片孕妇| 国产伦一二天堂av在线观看| 久久久久久久久久黄片| 一个人观看的视频www高清免费观看| 窝窝影院91人妻| 国产男靠女视频免费网站| 一夜夜www| 亚洲天堂国产精品一区在线| 97人妻精品一区二区三区麻豆| 女警被强在线播放| 欧美日韩黄片免| 欧美日韩中文字幕国产精品一区二区三区| 色尼玛亚洲综合影院| 美女大奶头视频| 一本一本综合久久| 国产精品一区二区三区四区免费观看 | 亚洲av第一区精品v没综合| 看免费av毛片| 一a级毛片在线观看| 男人的好看免费观看在线视频| 亚洲无线观看免费| 亚洲激情在线av| 国内精品久久久久久久电影| 欧美日韩精品网址| 久久香蕉国产精品| 国内久久婷婷六月综合欲色啪| 亚洲 国产 在线| 成人午夜高清在线视频| 国产激情欧美一区二区| 亚洲成人中文字幕在线播放| 久9热在线精品视频| 岛国在线观看网站| 久久国产乱子伦精品免费另类| 亚洲国产色片| 婷婷精品国产亚洲av| 亚洲国产欧美人成| 尤物成人国产欧美一区二区三区| 成年版毛片免费区| 性色av乱码一区二区三区2| 99久久99久久久精品蜜桃| 长腿黑丝高跟| 国产aⅴ精品一区二区三区波| 国产三级在线视频| 午夜老司机福利剧场| 97超级碰碰碰精品色视频在线观看| 亚洲精品一卡2卡三卡4卡5卡| 亚洲中文字幕日韩| 亚洲五月婷婷丁香| 一级黄色大片毛片| 亚洲av第一区精品v没综合| 亚洲va日本ⅴa欧美va伊人久久| 超碰av人人做人人爽久久 | 在线观看免费视频日本深夜| 欧美成人a在线观看| 欧美日韩瑟瑟在线播放| 欧美一区二区亚洲| 久久精品亚洲精品国产色婷小说| 美女高潮喷水抽搐中文字幕| 国产久久久一区二区三区| av国产免费在线观看| 蜜桃亚洲精品一区二区三区| 欧美+亚洲+日韩+国产| 欧美日韩福利视频一区二区| 亚洲 欧美 日韩 在线 免费| 日日干狠狠操夜夜爽| 啪啪无遮挡十八禁网站| 18禁美女被吸乳视频| 99热6这里只有精品| 在线观看av片永久免费下载| 日韩欧美三级三区| 美女 人体艺术 gogo| 国产精品久久久久久久电影 | 禁无遮挡网站| 天堂影院成人在线观看| 99久久综合精品五月天人人| 欧美三级亚洲精品| 午夜免费激情av| 国产精品99久久99久久久不卡| 色综合站精品国产| 99热精品在线国产| av欧美777| 国产视频内射| 国内精品美女久久久久久| 精品国产三级普通话版| 日韩中文字幕欧美一区二区| 有码 亚洲区| 久久久久久久亚洲中文字幕 | 欧美中文综合在线视频| 亚洲美女视频黄频| 欧洲精品卡2卡3卡4卡5卡区| 久久久久亚洲av毛片大全| 亚洲人成电影免费在线| 三级国产精品欧美在线观看| 亚洲国产精品成人综合色| 国产精品亚洲美女久久久| 淫秽高清视频在线观看| 看黄色毛片网站| 综合色av麻豆| 蜜桃久久精品国产亚洲av| 国产精品久久久久久亚洲av鲁大| 88av欧美| 脱女人内裤的视频| www.999成人在线观看| 国产 一区 欧美 日韩| 久久久久久人人人人人| av女优亚洲男人天堂| 午夜福利高清视频| 成年女人看的毛片在线观看| 午夜免费激情av| 在线十欧美十亚洲十日本专区| 亚洲七黄色美女视频| 国产精品亚洲美女久久久| av在线天堂中文字幕| 午夜日韩欧美国产| 久久久精品欧美日韩精品| 国产亚洲精品av在线| 国语自产精品视频在线第100页| 成年女人永久免费观看视频| 中文字幕久久专区| 老汉色av国产亚洲站长工具| 成人一区二区视频在线观看| 黄片小视频在线播放| 免费看日本二区| 搡老岳熟女国产| 亚洲精品乱码久久久v下载方式 | 麻豆国产av国片精品| 老汉色∧v一级毛片| 久久午夜亚洲精品久久| 国产免费一级a男人的天堂| 欧美日韩福利视频一区二区| av中文乱码字幕在线| 国产精品久久久久久久久免 | 无遮挡黄片免费观看| 欧美极品一区二区三区四区| 国产主播在线观看一区二区| 丰满人妻熟妇乱又伦精品不卡| 亚洲精品成人久久久久久| 色综合欧美亚洲国产小说| 男人舔女人下体高潮全视频| 成年女人毛片免费观看观看9| 午夜免费成人在线视频| 夜夜夜夜夜久久久久| 午夜免费成人在线视频| 一个人免费在线观看电影| 99久久综合精品五月天人人| 神马国产精品三级电影在线观看| 美女 人体艺术 gogo| 国产三级中文精品| 非洲黑人性xxxx精品又粗又长| 亚洲av成人不卡在线观看播放网| 麻豆国产av国片精品| 国产极品精品免费视频能看的| 黄片大片在线免费观看| 女同久久另类99精品国产91| 在线观看午夜福利视频| 亚洲精品一卡2卡三卡4卡5卡| 国产精品久久视频播放| 欧美不卡视频在线免费观看| 两个人视频免费观看高清| 亚洲色图av天堂| 亚洲国产欧美人成| 亚洲,欧美精品.| 国产亚洲欧美98| 国产精品影院久久| 亚洲最大成人手机在线| 国产乱人伦免费视频| 搡老妇女老女人老熟妇| 亚洲va日本ⅴa欧美va伊人久久| 国产一区二区亚洲精品在线观看| 亚洲av中文字字幕乱码综合| 99国产综合亚洲精品| 日韩国内少妇激情av| 有码 亚洲区| 成人精品一区二区免费| 国产精品女同一区二区软件 | 久久香蕉国产精品| 真人做人爱边吃奶动态| 午夜福利免费观看在线| 亚洲午夜理论影院| 午夜亚洲福利在线播放| 搞女人的毛片| 欧美性感艳星| 久久久久国产精品人妻aⅴ院| 亚洲av熟女| 欧美不卡视频在线免费观看| 18美女黄网站色大片免费观看| 亚洲电影在线观看av| 在线观看免费午夜福利视频| 午夜免费成人在线视频| 国产精品久久久久久久久免 | 国内少妇人妻偷人精品xxx网站| 很黄的视频免费| 国产一区在线观看成人免费| 日韩欧美在线二视频| 日韩欧美三级三区| 少妇的逼水好多| 亚洲av第一区精品v没综合| 一级黄色大片毛片| 久9热在线精品视频| 国产男靠女视频免费网站| 精品日产1卡2卡| 在线免费观看的www视频| 免费一级毛片在线播放高清视频| 99国产综合亚洲精品| 亚洲色图av天堂| 亚洲av免费高清在线观看| 国产一区二区在线观看日韩 | 亚洲av成人av| 国产精品98久久久久久宅男小说| e午夜精品久久久久久久| 一二三四社区在线视频社区8| 精品福利观看| 夜夜夜夜夜久久久久| АⅤ资源中文在线天堂| av天堂中文字幕网| 国产成人欧美在线观看| 亚洲国产欧美人成| 亚洲人成网站在线播放欧美日韩| 国产69精品久久久久777片| 亚洲熟妇熟女久久| 麻豆成人av在线观看| 久久草成人影院| 国产精品三级大全| 亚洲成人免费电影在线观看| 成人亚洲精品av一区二区| 噜噜噜噜噜久久久久久91| 亚洲国产高清在线一区二区三| 成熟少妇高潮喷水视频| 嫩草影院精品99| 两个人的视频大全免费| www.熟女人妻精品国产| 免费观看人在逋| 亚洲 国产 在线| 亚洲在线自拍视频|