梁月仙,陳自巖,王 洋,張 躍,郭 智
(1.中國(guó)科學(xué)院 空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2.中國(guó)科學(xué)院電子學(xué)研究所,北京 100190;3.中國(guó)科學(xué)院大學(xué),北京 100190)
近年來(lái),世界各地頻繁地發(fā)生地震、恐怖襲擊等突發(fā)事件,突發(fā)事件的發(fā)生嚴(yán)重影響社會(huì)秩序的安定和人們生命的安全。互聯(lián)網(wǎng)上呈現(xiàn)的突發(fā)事件信息通常被淹沒(méi)在眾多的普通事件中,人們難以發(fā)現(xiàn)潛在的突發(fā)性事件,因此,迫切需要一種有效的工具檢測(cè)出突發(fā)性事件。突發(fā)事件指在短時(shí)間內(nèi)出現(xiàn),且其信息量迅速膨脹并隨后消亡的事情。突發(fā)事件檢測(cè)旨在從文本中抽取出相關(guān)的事件信息并檢測(cè)其突發(fā)性,包括事件抽取和突發(fā)性檢測(cè)兩部分。事件抽取指從非結(jié)構(gòu)化的文本中抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)。
事件抽取主要實(shí)現(xiàn)特定事件類型的識(shí)別以及事件元素的發(fā)現(xiàn),現(xiàn)有事件抽取方法可分為基于規(guī)則匹配的方法、基于監(jiān)督學(xué)習(xí)的方法和基于無(wú)監(jiān)督學(xué)習(xí)的方法?;谝?guī)則匹配或監(jiān)督學(xué)習(xí)的方法[1-4]依賴于標(biāo)注語(yǔ)料,存在領(lǐng)域移植性問(wèn)題,無(wú)法有效地運(yùn)用于開(kāi)放領(lǐng)域的網(wǎng)絡(luò)文本。面向開(kāi)放領(lǐng)域的非監(jiān)督學(xué)習(xí)方法采用離線的方式進(jìn)行事件抽取[5-7],無(wú)法實(shí)時(shí)地處理在線的網(wǎng)絡(luò)數(shù)據(jù)流。
突發(fā)事件檢測(cè)主要實(shí)現(xiàn)事件的突發(fā)權(quán)重、突發(fā)時(shí)間段和突發(fā)空間區(qū)域的識(shí)別,已有工作基于事件的詞頻信息進(jìn)行突發(fā)性檢測(cè)[8-10],忽略了事件的重要性。另外,事件的突發(fā)性不僅與時(shí)間序列有關(guān),而且也受地理位置的影響,但是現(xiàn)有大多數(shù)工作只考慮事件的突發(fā)時(shí)間性或突發(fā)空間性[11-15]。雖然一些研究[16-17]同時(shí)考慮了事件的時(shí)空突發(fā)性,但是它們以孤立的方式看待事件的突發(fā)時(shí)間域和突發(fā)空間域,未能充分挖掘事件的時(shí)空關(guān)聯(lián)性。
針對(duì)上述方法存在的問(wèn)題,本文提出一種聯(lián)合時(shí)空要素綜合分析的突發(fā)事件檢測(cè)方法。該方法通過(guò)引入數(shù)據(jù)立方體結(jié)構(gòu)存儲(chǔ)事件詞,綜合分析事件的時(shí)空要素并且挖掘事件的時(shí)空關(guān)聯(lián)性。同時(shí),給出一種基于語(yǔ)義相似性的實(shí)時(shí)事件聚類算法,可實(shí)時(shí)地處理在線的網(wǎng)絡(luò)數(shù)據(jù)流,從而擺脫特定領(lǐng)域的限制。在聚類過(guò)程中,采用GloVe模型挖掘事件詞之間的語(yǔ)義關(guān)聯(lián)性,使同一事件類的事件詞具有較強(qiáng)的語(yǔ)義相關(guān)性,并基于事件類在時(shí)空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型識(shí)別時(shí)空突發(fā)事件。
本文基于時(shí)空要素綜合分析的框架,提出一種新穎的突發(fā)事件檢測(cè)方法。該方法首先利用爬蟲(chóng)技術(shù)獲取大規(guī)模的未標(biāo)注網(wǎng)絡(luò)文本數(shù)據(jù),并通過(guò)數(shù)據(jù)預(yù)處理獲取時(shí)間表達(dá)式、地名實(shí)體和事件詞。其次基于事件詞的時(shí)空特性,采用數(shù)據(jù)立方體存儲(chǔ)事件詞。然后提出一種基于語(yǔ)義相似性的實(shí)時(shí)事件聚類算法抽取出重要事件。最后基于事件在時(shí)空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型,建模事件的突發(fā)特性。突發(fā)事件檢測(cè)的系統(tǒng)框架如圖1所示。
圖1 突發(fā)事件檢測(cè)系統(tǒng)
通過(guò)數(shù)據(jù)預(yù)處理,從網(wǎng)絡(luò)文本中抽取出事件詞、時(shí)間表達(dá)式和地名實(shí)體。
事件觸發(fā)詞是表達(dá)事件發(fā)生的性質(zhì)或狀態(tài)的詞[18],例如“由于電池門問(wèn)題,三星Galaxy Note7 發(fā)生爆炸”,本文將事件觸發(fā)詞作為事件詞。為了抽取出事件觸發(fā)詞,將事件觸發(fā)詞的識(shí)別視為一個(gè)二分類任務(wù)。首先隨機(jī)選取200篇新聞文檔作為訓(xùn)練語(yǔ)料,這些文檔涵蓋政治、社會(huì)、經(jīng)濟(jì)、體育、軍事等領(lǐng)域。為了確保訓(xùn)練語(yǔ)料的可靠性,按照Timebank Corpus[19]標(biāo)注指導(dǎo)對(duì)語(yǔ)料進(jìn)行人工標(biāo)注。在眾多的分類器中,CRF模型考慮了文本的語(yǔ)境特征和詞性特征,在序列標(biāo)注任務(wù)和分類任務(wù)中能夠取得較好的效果,因此本文采用CRF(Conditinal Random Fields)模型[20]抽取出最合適的事件觸發(fā)詞。
一篇文檔通常包含多個(gè)時(shí)間表達(dá)式、多個(gè)地名實(shí)體,新聞媒體或社交網(wǎng)絡(luò)網(wǎng)站是一個(gè)實(shí)時(shí)報(bào)道當(dāng)天事件的平臺(tái),本文將文檔的生成時(shí)間作為事件詞的發(fā)生時(shí)間,將距離事件詞最近的地名實(shí)體作為該事件詞的發(fā)生地點(diǎn)。為了將地名實(shí)體轉(zhuǎn)換成空間信息,構(gòu)建一個(gè)完善且全面的地理空間知識(shí)庫(kù),該知識(shí)庫(kù)包括地名本體子庫(kù)、規(guī)則子庫(kù)等輔助數(shù)據(jù)源,并提供相應(yīng)的查詢接口。在地名-空間信息轉(zhuǎn)換過(guò)程中,采用了地名消歧和地名經(jīng)緯度轉(zhuǎn)換等技術(shù)。地名消歧通過(guò)啟發(fā)式的規(guī)則方法實(shí)現(xiàn)[21],通過(guò)計(jì)算地名和上下文地名之間的地理關(guān)聯(lián)度進(jìn)行地名的消歧,首先識(shí)別出文檔中的所有地名,并確定歧義地名對(duì)應(yīng)的所有地理位置,構(gòu)成候選位置集合,然后設(shè)置啟發(fā)式規(guī)則方法,從候選位置集合中確定唯一的地理位置。地名經(jīng)緯度轉(zhuǎn)換通過(guò)啟發(fā)式的規(guī)則匹配方法實(shí)現(xiàn)。將事件詞的時(shí)間信息和空間信息結(jié)合,即可獲取事件詞的時(shí)空信息。最后基于事件詞的時(shí)空信息,將事件詞存儲(chǔ)于數(shù)據(jù)立方體中,如圖2所示。
圖2 數(shù)據(jù)立方體示意圖
在1.1節(jié)的基礎(chǔ)上,由于事件詞已存儲(chǔ)于立方體中,但立方體的事件詞是雜亂無(wú)章的,需要對(duì)這些事件詞進(jìn)行有效的聚類以抽取出重要事件。現(xiàn)有方法研究事件聚類通常采用K-means和Latent Dirichlet Allocatio等的改進(jìn)方法[5-7],但它們都是離線的批處理聚類方式,不適用于動(dòng)態(tài)的網(wǎng)絡(luò)數(shù)據(jù)流。近年來(lái),隨著網(wǎng)絡(luò)文本數(shù)據(jù)的興起,研究者提出了許多在線的聚類算法[22-24],但是當(dāng)涉及到相似性計(jì)算時(shí),這些方法通常只考慮詞之間的空間距離,未挖掘詞的語(yǔ)義關(guān)聯(lián)性。
針對(duì)現(xiàn)有聚類方法存在的問(wèn)題,本文提出一種基于語(yǔ)義相似性的實(shí)時(shí)事件聚類算法,該算法是一種增量式的聚類方式。隨著數(shù)據(jù)流的到來(lái),聚類結(jié)果將會(huì)動(dòng)態(tài)地改變,該聚類算法如算法1所示。
算法1事件聚類(E,w)
輸入詞w,現(xiàn)有事件集E={e1,e2,…,eK}
輸出更新事件集E
If E is null
e1=w,c1=w
Else
For each event eiin the E do
Si=Sim(ci,w)
Return the biggest Sb
If Sb>threshold T then
Add w to the existing event eb
Update the center vector cbof event eb
For word wiin the ebdo
Else
add w to E as a new event
考慮一個(gè)新到達(dá)的事件詞w,假如w是第一個(gè)到來(lái)的事件詞,那么將其作為第一個(gè)事件類;否則,將w分別與已有的事件類進(jìn)行相似性計(jì)算,然后對(duì)所有相似值做降序排序,獲得最大的相似值Sb,假設(shè)Sb為w與事件類eb的相似值,如果Sb大于閾值T,w被聚到事件類eb中,同時(shí)更新事件類eb的質(zhì)心向量cb,否則w被作為一個(gè)新的事件類添加到事件集E中,算法1中的相似性計(jì)算采用余弦相似度公式:
(1)
上述聚類算法的一個(gè)核心環(huán)節(jié)為事件詞間的相似性計(jì)算。目前最流行的計(jì)算詞相似性的方法為詞向量的方式。已有的許多表證詞的向量空間法,例如文獻(xiàn)[25]提出一種全局向量模型(GloVe)訓(xùn)練詞向量。GloVe模型充分利用詞的全局共現(xiàn)統(tǒng)計(jì)和語(yǔ)境特征來(lái)挖掘詞之間的語(yǔ)義關(guān)聯(lián)性,在語(yǔ)義相似性任務(wù)上,GloVe模型的實(shí)驗(yàn)結(jié)果優(yōu)于Word2Vec模型[26],因此,本文采用GloVe模型挖掘事件詞之間的語(yǔ)義關(guān)聯(lián)性。GloVe模型的詳細(xì)推導(dǎo)過(guò)程見(jiàn)文獻(xiàn)[25]。
在突發(fā)性檢測(cè)中,具有代表性的方法為文獻(xiàn)[9]提出的有限狀態(tài)機(jī)模型,該模型基于文檔的到達(dá)時(shí)間間隔,使用有限狀態(tài)機(jī)建模事件的突發(fā)性,從而識(shí)別出突發(fā)的開(kāi)始時(shí)間和結(jié)束時(shí)間。該模型為一個(gè)隱馬爾可夫鏈,模型的隱變量是詞所處的狀態(tài)(突發(fā)態(tài)或普通態(tài)),其假設(shè)文檔的到達(dá)速率服從指數(shù)分布,當(dāng)文檔的到達(dá)速率加快時(shí),模型會(huì)依據(jù)狀態(tài)轉(zhuǎn)換代價(jià)判定是否發(fā)生狀態(tài)轉(zhuǎn)換,通過(guò)對(duì)模型的狀態(tài)序列進(jìn)行推理最終獲得一條最優(yōu)的狀態(tài)序列,序列中2個(gè)時(shí)間點(diǎn)的狀態(tài)改變代表著突發(fā)時(shí)間段的邊界。文獻(xiàn)[8]借鑒Kleinberg的思想,基于時(shí)間序列中話題的出現(xiàn)頻率,假設(shè)話題的出現(xiàn)頻率服從泊松分布,并采用有限狀態(tài)機(jī)-泊松分布模型識(shí)別突發(fā)性話題。Kleinberg和Diao的方法研究重點(diǎn)在于檢測(cè)突發(fā)事件和突發(fā)時(shí)間段,未考慮事件的突發(fā)區(qū)域性,并且它們依據(jù)事件的頻率信息進(jìn)行突發(fā)性檢測(cè),忽略了事件的重要性。本文基于Kleinberg和Diao識(shí)別突發(fā)性的方法,提出綜合分析事件的時(shí)間要素和空間要素,依據(jù)事件在時(shí)空維度上的出現(xiàn)權(quán)重,采用有限狀態(tài)機(jī)-高斯分布模型建模事件的時(shí)空突發(fā)特性。
1.3.1 事件在時(shí)空維度上的重要性計(jì)算
現(xiàn)有方法通常依據(jù)特征項(xiàng)在時(shí)間序列上的出現(xiàn)頻率,構(gòu)建相應(yīng)的模型判斷事件是否為突發(fā)性事件。但是特征項(xiàng)的頻率信息并不能有效地將某一個(gè)特征與其他特征區(qū)分開(kāi),即頻率統(tǒng)計(jì)法并不具備很好的區(qū)分能力。事件間的重要程度有一定的差異,現(xiàn)有方法考慮事件的出現(xiàn)頻率而忽略了事件的重要性,因此,無(wú)法有效突顯事件的重要程度。詞頻反文檔頻率(TFIDF)則可克服該缺點(diǎn),TFIDF是一種有效體現(xiàn)特征重要性的值。TFIDF的思想是:如果詞w在某一類別中出現(xiàn)的頻率高,而在別的類別中出現(xiàn)的頻率低,則說(shuō)明該詞能夠很好地代表該類別的特征,即可以有效地將某一類別與別的類別區(qū)分開(kāi)。
本文采用TFIDF計(jì)算事件在時(shí)間維度、空間維度上的出現(xiàn)權(quán)重,用以評(píng)估事件在整個(gè)事件集中的重要程度。對(duì)于事件集E={e1,e2,…,ei,eN}中的事件ei,計(jì)算其在不同的地理位置r,不同的單位時(shí)間點(diǎn)t上的權(quán)重Weights(ei,t,r)。其中,t∈[1:T]為時(shí)間序列中某個(gè)單位時(shí)間點(diǎn),r∈[1:R]為空間區(qū)域中某個(gè)地理位置。假設(shè)一個(gè)事件ei由K個(gè)事件詞{w1,w2,…,wi,wk}組成,考慮事件元素wj,令Weights(wj,t,r)為事件詞在單位時(shí)間點(diǎn)t、地理位置r上的權(quán)重值,則有:
(2)
1.3.2 事件突發(fā)性的檢測(cè)
本文提出采用有限狀態(tài)機(jī)-高斯分布模型對(duì)事件的狀態(tài)進(jìn)行建模。該模型是一個(gè)隱馬爾可夫鏈,模型中的隱變量是詞所處的狀態(tài),觀測(cè)數(shù)據(jù)是事件在時(shí)間序列上單位時(shí)間點(diǎn)的權(quán)重值。該有限狀態(tài)機(jī)模型如圖3所示,其中,qt為自動(dòng)機(jī)的隱狀態(tài),“0”代表正常態(tài),“1”代表突發(fā)態(tài),模型處在不同的隱狀態(tài),就以不同強(qiáng)度的概率來(lái)生成觀測(cè)數(shù)據(jù),即狀態(tài)轉(zhuǎn)移鏈的發(fā)射概率服從高斯分布。
圖3 有限狀態(tài)機(jī)模型
p(Weights(ei,t,r)/qt=l)=
(3)
其中,qt為事件在單位時(shí)間點(diǎn)t的狀態(tài),l=0或者l=1,qt=0為正常態(tài),qt=1為突發(fā)態(tài)。高斯分布的4個(gè)參數(shù)為u0、u1、σ0、σ1。設(shè)置u0為事件在時(shí)序上的權(quán)重均值:
(4)
其中,設(shè)置u1=3u0,σ0為事件在時(shí)序上的權(quán)重均方差,σ1=σ0。
狀態(tài)序列Q={q1,q2,…,qT}為狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移鏈,其轉(zhuǎn)移規(guī)律服從隱馬爾科夫假設(shè),由狀態(tài)轉(zhuǎn)移矩陣M和先驗(yàn)概率θ控制。在狀態(tài)q1之前,假設(shè)有一個(gè)虛擬的正常態(tài)q0,則狀態(tài)機(jī)的先驗(yàn)概率為θl=(p00,p01),狀態(tài)轉(zhuǎn)移矩陣為:
(5)
其中,設(shè)置超參數(shù)θ0=0.7,θ1=0.6。
采用維特比算法獲取最優(yōu)的狀態(tài)轉(zhuǎn)移序列Q*。序列中的突發(fā)態(tài)對(duì)應(yīng)的連續(xù)時(shí)間段為突發(fā)時(shí)間段。對(duì)于突發(fā)時(shí)間段T=[t1:t2],其突發(fā)權(quán)重為:
p(Weights(ei,t,r)/qt=0))
(6)
為了識(shí)別出合理的突發(fā)時(shí)空區(qū)域,采用矩形R表征事件的突發(fā)空間區(qū)域,時(shí)空窗W表征事件的突發(fā)時(shí)空域。定義事件e在突發(fā)時(shí)間段T矩形區(qū)域R上的突發(fā)權(quán)重值為事件詞落在時(shí)間段T和矩形R上的突發(fā)權(quán)重值之和,并取多個(gè)區(qū)間的交疊區(qū)段為事件的突發(fā)時(shí)空域,突發(fā)權(quán)值為多個(gè)區(qū)間的權(quán)重值之和。事件e在時(shí)間序列和空間區(qū)域上的突發(fā)區(qū)間如圖4所示,突發(fā)區(qū)間在時(shí)序上是非交疊的,而在空間區(qū)域上存在著交疊。對(duì)于突發(fā)時(shí)間段T=[t1:t2]、突發(fā)區(qū)域R=[r1:r2],獲取事件的突發(fā)時(shí)空窗權(quán)重分?jǐn)?shù)為:
(7)
通過(guò)式(7)可獲取任意時(shí)空窗的權(quán)重分?jǐn)?shù),對(duì)權(quán)重分?jǐn)?shù)排序,即可獲取Top-rank 突發(fā)事件。
圖4 事件在多個(gè)地理位置上的突發(fā)時(shí)間段示意圖
采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取2015年3月1日—2015年8月30日的121篇、157篇新聞文檔。這些文檔涵蓋政治、經(jīng)濟(jì)、體育等領(lǐng)域。通過(guò)數(shù)據(jù)預(yù)處理,獲取184個(gè)事件的發(fā)生時(shí)間、7 494個(gè)地名實(shí)體和10 022個(gè)事件詞,然后基于事件詞的時(shí)空信息構(gòu)建立方體。在事件聚類中,基于數(shù)據(jù)集的相似性統(tǒng)計(jì)分析,設(shè)置相似度閾值為0.76。在事件突發(fā)性檢測(cè)中,設(shè)置時(shí)序上的單位時(shí)間為d。
2.2.1 對(duì)比方法
為了證明本文提出的事件抽取方法的有效性,設(shè)置基于StreamCube方法[27]和DTM(Dynamic Topic Models)模型[28]的對(duì)比實(shí)驗(yàn)。StreamCube方法基于層級(jí)時(shí)空的hashtags聚類實(shí)現(xiàn)事件搜索,該方法將hashtags作為事件詞,考慮了hashtags之間的時(shí)空關(guān)聯(lián)性,采用在線的聚類算法實(shí)現(xiàn)事件搜索。在聚類過(guò)程中,StreamCube采用one-hot模型表征詞的向量空間,因此未能充分挖掘hashtags之間的語(yǔ)義相似性。DTM是一種離線的主題生成模型,旨在研究基于時(shí)間維度的話題演化過(guò)程,體現(xiàn)話題隨時(shí)間變化的特性。DTM關(guān)注了話題隨時(shí)間變化的演化過(guò)程,但是它忽略了話題的空間特性。
2.2.2 評(píng)價(jià)分析
本文引入3個(gè)評(píng)價(jià)聚類質(zhì)量的指標(biāo):NMI(Normalized Mutual Information),RI(Rand Index)和F1值。這3個(gè)評(píng)價(jià)指標(biāo)的含義及計(jì)算公式如下所示。
NMI(X,Y)=2×I(X,Y)/(H(X)+H(Y))
(8)
其中,I(X,Y)為向量X與向量Y的互信息,H(X)為向量X的信息熵,同理,H(Y)為向量Y的信息熵。
RI=(TP+TN)/(TP+FP+FN+TN)
(9)
F1=2TP/(2TP+FP+FN)
(10)
表1列舉了每種方法的測(cè)評(píng)結(jié)果,StreamCube方法在聚類過(guò)程中,采用one-hot模型表征事件詞的詞向量,即只考慮事件詞之間的空間距離,沒(méi)有挖掘出事件詞的語(yǔ)義關(guān)聯(lián)性,因此聚類效果最差。另外,one-hot模型產(chǎn)生的將是一個(gè)高維度的稀疏共現(xiàn)矩陣,容易導(dǎo)致維數(shù)災(zāi)難的問(wèn)題。DTM對(duì)隨著時(shí)間變化的文檔集進(jìn)行主題建模,由文檔-詞語(yǔ)-主題的生成過(guò)程判明出時(shí)間片段內(nèi)文檔所包含的主題。從聚類結(jié)果可以看出,DTM可以較為有效地抽取出文檔所包含的事件類。但是DTM需在整個(gè)數(shù)據(jù)集上迭代計(jì)算,是一種離線的抽取方式,因此并不能有效地處理動(dòng)態(tài)的網(wǎng)絡(luò)數(shù)據(jù)流。另外,DTM忽略了話題的空間概念,無(wú)法處理事件的空間信息。本文事件抽取方法采用Glove模型訓(xùn)練事件詞之間的語(yǔ)義相關(guān)性,使聚在同一事件類的事件詞具有強(qiáng)的語(yǔ)義關(guān)聯(lián)性,因此聚類效果優(yōu)于StreamCube方法和DTM方法。另外,本文方法能夠用較少的向量維度(200維、300維、400維等)表征事件詞的向量空間,因此占用較少的內(nèi)存空間和聚類時(shí)間。
表1 3種方法的事件聚類效果
2.3.1 對(duì)比方法
為了證明本文提出的突發(fā)事件檢測(cè)方法的有效性,與Diao的方法進(jìn)行對(duì)比,Diao的方法旨在研究從微博數(shù)據(jù)流中發(fā)現(xiàn)突發(fā)性話題,其通過(guò)結(jié)合用戶對(duì)話題的關(guān)注度以及話題在時(shí)序上的出現(xiàn)頻率,采用基于有限狀態(tài)機(jī)-泊松分布模型檢測(cè)出突發(fā)性話題。
2.3.2 評(píng)價(jià)分析
采用本文的突發(fā)事件檢測(cè)方法進(jìn)行實(shí)驗(yàn),列舉了Top-5突發(fā)事件的實(shí)驗(yàn)結(jié)果,其中,每個(gè)事件列舉了Top-8個(gè)事件詞,如表2所示。可以看出,所有的突發(fā)事件都是有意義的,這些突發(fā)事件不僅具有一定的突發(fā)時(shí)間段,而且還具有一定的突發(fā)區(qū)域。另外,不同突發(fā)事件的突發(fā)時(shí)間段和突發(fā)區(qū)域都是不同的,表明了突發(fā)時(shí)空特性的重要性。
表2 突發(fā)事件檢測(cè)結(jié)果
設(shè)置基于Diao的方法的對(duì)比實(shí)驗(yàn)。圖5和圖6分別為自然災(zāi)難事件基于時(shí)間序列的事件強(qiáng)度變化過(guò)程,其中,圖5為Diao的方法基于事件在單位時(shí)間內(nèi)的出現(xiàn)頻率以及,建模有限狀態(tài)機(jī)-泊松分布模型獲取的事件強(qiáng)度變化過(guò)程。圖6為STBEvent模型中基于事件的TFIDF權(quán)重以及建模有限狀態(tài)機(jī)-高斯分布模型獲取的事件強(qiáng)度變化過(guò)程。從圖5、圖6可以看出,采用Diao的方法檢測(cè)出該自然災(zāi)害事件有4個(gè)異常高頻段,模型認(rèn)為此事件并非一個(gè)突發(fā)事件,而是一個(gè)周期性事件。而采用STBEvent模型可正確檢測(cè)出一個(gè)異常高頻段,并認(rèn)為其是一個(gè)突發(fā)事件。因此,采用STBEvent模型檢測(cè)事件的突發(fā)性更為有效。
圖5 采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌事件強(qiáng)度
圖6 采用有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌事件強(qiáng)度
圖7為采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌災(zāi)難事件(突發(fā)事件)和體育競(jìng)技事件(非突發(fā)事件)分別基于時(shí)間序列的事件強(qiáng)度變化過(guò)程,其中,實(shí)線為自然災(zāi)難事件的事件強(qiáng)度變化過(guò)程,虛線為體育競(jìng)技事件的事件強(qiáng)度變化過(guò)程圖。圖8為采用STBEvent基于事件的TFIDF權(quán)重,以及建模有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌災(zāi)難事件(突發(fā)事件)和體育競(jìng)技事件(非突發(fā)事件)分別基于時(shí)間序列的事件強(qiáng)度變化過(guò)程,其中,實(shí)線為自然災(zāi)難事件的事件強(qiáng)度變化過(guò)程,虛線為體育競(jìng)技事件的事件強(qiáng)度變化過(guò)程。Diao的方法對(duì)于突發(fā)事件,其與普通事件的頻率分布并不具有很強(qiáng)的區(qū)分性。而STBEvent模型,對(duì)于坍塌災(zāi)難事件,在非突發(fā)態(tài),其TFIDF值是低的;在突發(fā)態(tài),其TFIDF值驟然增高,并急劇降低,符合突發(fā)事件的定義,這表明了STBEvent模型檢測(cè)出的突發(fā)性事件與普通事件具有更為明顯的區(qū)分性。
圖7采用有限狀態(tài)機(jī)-泊松分布模型獲取的坍塌事件(突發(fā)事件)與體育競(jìng)技事件(非突發(fā)事件)強(qiáng)度
圖8采用有限狀態(tài)機(jī)-高斯分布模型獲取的坍塌事件(突發(fā)事件)與體育競(jìng)技事件(非突發(fā)事件)強(qiáng)度
本文方法不僅能識(shí)別出突發(fā)時(shí)間段,而且可以識(shí)別出突發(fā)空間區(qū)域。圖9為坍塌事件(突發(fā)事件)在不同地理位置序號(hào)的TFIDF值變化情況,圖10為體育競(jìng)技事件(非突發(fā)事件)在不同地理位置序號(hào)的TFIDF值變化情況??梢钥闯?坍塌事件的突發(fā)區(qū)域?yàn)?個(gè)(上海、遼寧、山西),而體育競(jìng)技事件無(wú)明顯的突發(fā)區(qū)域。
圖9 坍塌事件(突發(fā)事件)基于地理區(qū)域的權(quán)重值變化
圖10 體育競(jìng)技事件(非突發(fā)事件)基于地理區(qū)域的權(quán)重值變化
傳統(tǒng)的突發(fā)事件檢測(cè)方法依賴人工標(biāo)注數(shù)據(jù)集,以孤立的方式看待事件的時(shí)空要素,且忽略事件的重要性等問(wèn)題。為此,本文提出一種基于時(shí)空要素綜合分析的突發(fā)事件檢測(cè)方法。該方法首先引入數(shù)據(jù)立方體結(jié)構(gòu)存儲(chǔ)事件詞,綜合分析事件的時(shí)空要素,并且挖掘出事件的時(shí)空關(guān)聯(lián)性。然后給出一種基于語(yǔ)義相似性的實(shí)時(shí)事件聚類算法,實(shí)時(shí)地處理在線的動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)流,從而擺脫了特定領(lǐng)域的限制。同時(shí),采用GloVe模型挖掘出事件詞之間的語(yǔ)義關(guān)聯(lián)性,使聚在同一事件類的事件詞具有強(qiáng)的語(yǔ)義相關(guān)性。其次采用TFIDF計(jì)算事件的出現(xiàn)權(quán)重,評(píng)估某一事件在整個(gè)事件集中的重要程度。最后采用有限狀態(tài)機(jī)-高斯分布模型識(shí)別出時(shí)空突發(fā)事件。實(shí)驗(yàn)結(jié)果表明,該方法能夠較為準(zhǔn)確地抽取出重要的事件,并取得77.4%的抽取準(zhǔn)確率;在突發(fā)性檢測(cè)時(shí),該方法比現(xiàn)有方法更能準(zhǔn)確地檢測(cè)出突發(fā)事件,且能夠有效地識(shí)別出事件的突發(fā)時(shí)間段和突發(fā)空間區(qū)域。下一步將研究事件抽取和突發(fā)性檢測(cè)的聯(lián)合學(xué)習(xí)算法。
[1] BETHART S,MARTIN J H.Identification of event mentions and their semantic class[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Sydney,Australia:[s.n.],2006:146-154.
[2] LI P,ZHOU G,ZHU Q.Minimally supervised Chinese event extraction from multiple views[J].ACM Transactions on Asian and Low-resource Language Information Processing,2016,6(2):13.
[3] NGUYEN M T,NGUYEN T T.Extraction of disease events for a real-time monitoring system[C]//Proceedings of Symposium on Information and Communication Technology.Washington D.C.,USA:IEEE Press,2013:139-147.
[4] 侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件識(shí)別研究[J].計(jì)算機(jī)工程,2012,38(24):191-195.
[5] TSOLMON B,LEE K S.An event extraction model based on timeline and user analysis in latent dirichlet allocation[M].New York,USA:ACM Press,2014.
[6] SILVA J D A,HRUSCHKA E R.A support system for clustering data streams with a variable number of clusters[J].ACM Transactions on Autonomous & Adaptive Systems,2016,11(2):11.
[7] LIN C X,ZHAO B,MEI Q.PET:a statistical model for popular events tracking in social communities[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:929-938.
[8] DIAO Q,JIANG J,ZHU F,et al.Finding bursty topics from microblogs[C]//Proceedings of Association for Computational Linguistics.[S.1.]:Association for Computational Linguistics,2012:536-544.
[9] KLEINBERG J.Bursty and hierarchical structure in streams[J].Data Mining & Knowledge Discovery,2003,7(4):373-397.
[10] LAPPAS T,ARAI B,PLATAKIS M,et al.On burstiness-aware search for document sequences[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2009:477-486.
[11] ALVES R A D S,ASSUNCAO R M,STANCIOLI V D M P O.Burstiness scale:a parsimonious model for characterizing random series of events[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York,USA:ACM Press,2016:1405-1414.
[12] KALOGERATOS A,ZAGORISIOS P,LIKAS A.Improving text stream clustering using term burstiness and co-burstiness[C]//Proceedings of Hellenic Conference on Artificial Intelligence.Athens,Hellenic:[s.n.],2016:1-9.
[13] ZHAO L,CHEN F,LU C T,et al.Online spatial event forecasting in microblogs[J].ACM Transactions on Spatial Algorithms & Systems,2016,2(4):15.
[14] SCHUBERT E,WEILER M,KRIEGEL H P.SPOTHOT:scalable detection of geo-spatial events in large textual streams[C]//Proceedings of International Conference on Scientific & Statistical Database Management.Washington D.C.,USA:IEEE Press,2016:1-12.
[15] QUEZADA M,POBLETE B.Location-aware model for news events in social media[C]//Proceedings of International ACM SIGIR Conference.New York,USA:ACM Press,2015:935-938.
[16] LAPPAS T,VIEIRA M R,GUNOPULOS D,et al.On the spatiotemporal burstiness of terms[J].Proceedings of the VLDB Endowment,2012,5(9).
[17] TAMURA K,MATSUI T,KITAKAMI H,et al.Identifying local temporal burstiness using MACD histogram[C]//Proceedings of IEEE International Conference on Systems,Man,and Cybernetics.Washington D.C.,USA:IEEE Press,2015:2666-2671.
[18] DODDINGTON G,MITCHELL A,PRZYBOCKI M,et al.The automatic content extraction program-tasks,data,and evaluation[C]//Proceedings of LREC’04.Washington D.C.,USA:IEEE Press,2004:158-165.
[19] PUSTEJOVSKY J,HANKS P,SAURI R,et al.The timebank corpus[C]//Proceedings of Corpus Linguistics Conference.Washington D.C.,USA:IEEE Press,2003:215-222.
[20] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence Data[J].Machine Learning 2002,3(2):282-289.
[21] 馬雷雷,李宏偉,連世偉,等.地名知識(shí)輔助的中文地名消歧方法[J].地理與地理信息科學(xué),2016,32(4):5-10.
[22] SILVA J A,FARIA E R,BARROS R C,et al.Data stream clustering:a survey[J].ACM Computing Surveys,2014,46(1):13.
[23] 蔡偃武.面向大規(guī)模數(shù)據(jù)的在線新事件檢測(cè)[D].上海:華東理工大學(xué),2014.
[24] YIN J,WANG J.A text clustering algorithm using an online clustering scheme for initialization[C]//Proceedings of ACM SIGKDD International Conference.New York,USA:ACM Press,2016:1995-2004.
[25] PENNINGTON J,SOCHER R,MANNING C.Glove:global vectors for word representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Washington D.C.,USA:IEEE Press,2014:1532-1543.
[26] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[EB/OL].[2013-01-12].https://www.mendeley.com.
[27] FENG W,ZHANG C,ZHANG W,et al.STREAMCUBE:hierarchical spatio-temporal hashtag clustering for event exploration over the twitter stream[C]//Proceedings of IEEE International Conference on Data Engineering.Washington D.C.,USA:IEEE Press,2015:1561-1572.
[28] BLER D M,LAFFERTY J D.Dynamic topic models[C]//Proceedings of DBLP’06.Washington D.C.,USA:IEEE Press,2006:113-120.