黃細(xì)鳳,廖泓舟
(中國電子科技集團(tuán)公司第十研究所,四川 成都 610036)
群體性事件[1]是指由某些社會矛盾引發(fā),特定群體通過規(guī)模性聚集、對社會造成負(fù)面影響的群體活動(dòng),因而對社會秩序和社會穩(wěn)定造成重大負(fù)面影響的各種事件。由于群體性事件大多以現(xiàn)有公共次序的對立面所出現(xiàn),所以通常無法利用傳統(tǒng)的新聞媒介公開進(jìn)行大規(guī)模的組織和傳播,其傳播的隱蔽性使得提前預(yù)知相關(guān)信息十分困難。近年來隨著網(wǎng)絡(luò)社交媒體的廣泛應(yīng)用,群體性事件的組織策劃者得以利用其強(qiáng)大的信息傳播能力和組織動(dòng)員能力推動(dòng)群體性事件的發(fā)生。這一方面極大地推動(dòng)了群體性事件在全球許多地區(qū)愈演愈烈,而另一方面,社交媒體的公開性也使得獲取群體性事件的相關(guān)線索,甚至進(jìn)行提前預(yù)測成為了可能。
該文從自然語言處理的角度研究了針對社交網(wǎng)絡(luò)文本的事件挖掘任務(wù)。事件挖掘旨在從文本中挖掘出結(jié)構(gòu)化的事件信息,包括是否包含事件、事件類型、事件參與者、事件發(fā)生的時(shí)間和地點(diǎn)等。所有這些信息被稱為事件要素。通過標(biāo)準(zhǔn)化之后的事件要素可以將事件信息以結(jié)構(gòu)化的形式進(jìn)行關(guān)聯(lián),形成事件知識圖譜,從而為下一步利用知識圖譜相關(guān)技術(shù)對事件分析處理提供基礎(chǔ)。
筆者在對事件挖掘的研究過程中發(fā)現(xiàn),社交網(wǎng)絡(luò)上所挖掘出的事件,有相當(dāng)一部分其發(fā)布時(shí)間會早于事件的實(shí)際發(fā)生時(shí)間,例如在圖1中所展示的從Twitter中挖掘到的事件信息。這一現(xiàn)象也很容易解釋:社交網(wǎng)絡(luò)作為群體性事件的重要組織工具,理所當(dāng)然地會發(fā)布大量的事件召集信息。也就是說,社交網(wǎng)絡(luò)上的信息也許可以作為群體性事件預(yù)測的指示信息?;谶@一觀察結(jié)果,重點(diǎn)研究利用社交網(wǎng)絡(luò)挖掘得到的結(jié)構(gòu)化事件信息作為精確事件預(yù)測指標(biāo)的可行性。
首先給出基于社交網(wǎng)絡(luò)事件挖掘的完整流程,逐一詳細(xì)描述所采用的處理步驟和方法,包括事件預(yù)處理、事件要素抽取、事件要素信息標(biāo)準(zhǔn)化和事件歸并等具體流程;接下來會詳細(xì)測試事件挖掘的整體流程以及各個(gè)步驟的性能,給出定量的評測結(jié)果;最后探討基于所挖掘的結(jié)構(gòu)化事件信息進(jìn)行群體性事件預(yù)測的效果,并針對香港地區(qū)近年來多發(fā)的群體性事件,給出了具體的預(yù)測結(jié)果;之后討論與該文相關(guān)的其他事件挖掘和預(yù)測的最新研究工作,與該文研究工作進(jìn)行對比探討;最終給出結(jié)論和未來研究方向。
事件庫是以結(jié)構(gòu)化事件的方式對歷史信息進(jìn)行收集和記錄的一種重要工具,事件庫的構(gòu)建需要從粗糙的非結(jié)構(gòu)化數(shù)據(jù)批量生成結(jié)構(gòu)化的事件數(shù)據(jù)。相關(guān)的學(xué)術(shù)研究和實(shí)際應(yīng)用經(jīng)歷了手動(dòng)集成到大規(guī)模自動(dòng)提取和集成的發(fā)展過程。Correlates of War event data (COW)[2]是最早的互聯(lián)網(wǎng)事件庫,采用手動(dòng)的方式收集和整理了一系列國家間軍事爭端事件。Global Terrorism Database (GTD)[3]收集了全球15萬條恐怖事件的完整數(shù)據(jù),是垂直領(lǐng)域上人工構(gòu)建事件庫的優(yōu)秀成果。Integrated Conflict Early Warning System (ICEWS)[4]是第一個(gè)有著全球影響力的自動(dòng)事件數(shù)據(jù)庫,它也是針對暴力沖突類事件,收集了超過2.5億條事件數(shù)據(jù),并免費(fèi)向公眾開放。由Google支持的Global Dataset of Events, Location, and Tone (GDELT)把這些工作提升到一個(gè)新的高度,它監(jiān)控了全球超過1.5萬個(gè)新聞源,以15分鐘更新一次的方式實(shí)時(shí)地向公眾發(fā)布事件庫信息。除此之外,針對特定領(lǐng)域和地區(qū)的事件庫還包括News Reader、Event Registry、EMBERS等。這些現(xiàn)有的事件庫大多以新聞或者專業(yè)文檔(如維基百科)作為事件源,但是目前還沒有發(fā)現(xiàn)以社交網(wǎng)絡(luò)作為主要信息源的事件數(shù)據(jù)庫。Tweet事件挖掘示例如圖1所示。
圖1 Tweet事件挖掘示例
結(jié)構(gòu)化的事件抽取是事件數(shù)據(jù)庫自動(dòng)化構(gòu)建的核心技術(shù),可以分為數(shù)據(jù)驅(qū)動(dòng)和知識驅(qū)動(dòng)兩大基本途徑。數(shù)據(jù)驅(qū)動(dòng)的事件抽取采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,通過“標(biāo)注—學(xué)習(xí)—抽取”的范式來開展事件抽取工作。與之對應(yīng),知識驅(qū)動(dòng)的事件抽取依賴于專家知識,通常采用“模式編寫—模式匹配”的方式開展工作。早期的結(jié)構(gòu)化事件抽取工作大多采用知識驅(qū)動(dòng)的技術(shù)途徑,利用詞匯句法模式(Lexical Syntactic Patterns)的匹配來抽取事件[5]。由于其高性能和有效性,在之后的各個(gè)事件抽取工作中也大都作為其中的一個(gè)處理步驟[6]。文中系統(tǒng)中的事件發(fā)現(xiàn)部分就是采用這種傳統(tǒng)而行之有效的方法。由于早期統(tǒng)計(jì)模型的計(jì)算能力不足,數(shù)據(jù)驅(qū)動(dòng)的事件抽取的準(zhǔn)確率大多較低,但是其優(yōu)勢在于領(lǐng)域的普適性。近年來隨著深度神經(jīng)網(wǎng)絡(luò)的大發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的事件抽取逐漸成為了主流,CNN、RNN、LSTM、Transformer等最新的神經(jīng)網(wǎng)絡(luò)架構(gòu)被應(yīng)用到事件抽取中,極大地提高了事件抽取的準(zhǔn)確性。但是在面對大規(guī)模數(shù)據(jù)的時(shí)候,神經(jīng)網(wǎng)絡(luò)方法大多存在計(jì)算開銷過大的劣勢,需要與傳統(tǒng)方法融合使用。
事件預(yù)測是一個(gè)還有待研究人員進(jìn)一步深入探索的領(lǐng)域。隨著事件庫構(gòu)建技術(shù)的逐漸成熟,已經(jīng)有不少研究者將下一步的研究目標(biāo)瞄準(zhǔn)了事件預(yù)測。這類研究大多以統(tǒng)計(jì)模型為基礎(chǔ),通過大量地提取事件的各種潛在特征和前期征兆來構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)事件預(yù)測[7-17]。但是這些方法準(zhǔn)確率和召回率都極低,不存在實(shí)際應(yīng)用的可能性。這是由于事件預(yù)測這一任務(wù)本身所具備的復(fù)雜性決定的。與前述的這些方法不同,該文瞄準(zhǔn)群體性事件這一特定的事件類型,采用社交網(wǎng)絡(luò)這一特殊的數(shù)據(jù)源,用文本挖掘的方式較好地實(shí)現(xiàn)了事件預(yù)測這一困難任務(wù)。
事件挖掘指從已獲取的社交網(wǎng)絡(luò)文本語料中挖掘歷史事件,識別事件類型,提取事件要素,歸并不同來源的結(jié)構(gòu)化事件表示,最終得到事件庫。事件庫是一個(gè)大規(guī)模的結(jié)構(gòu)化知識庫,可以導(dǎo)出到知識圖譜系統(tǒng)進(jìn)行可視化查詢,檢索,分析和瀏覽。
事件挖掘系統(tǒng)的輸入為非結(jié)構(gòu)化的文本信息,輸出為完整的事件要素五元組Event:(Actor1,Actor2,Type,Time,Location)。這種五元組的事件表示是國際通用的表示框架,并且在CAMEO(Conflict and Mediation Event Observations)[18]中得到了明確定義。CAMEO是一個(gè)事件編碼框架,是為了研究國際爭端中的重大事件而優(yōu)化,同時(shí)也包括政治,經(jīng)濟(jì),民生領(lǐng)域的幾乎所有重要事件類型。其中的141和144類型即為該文所關(guān)注的群體性事件類型。該文的事件挖掘系統(tǒng)將會遵循CAMEO的事件框架定義。
實(shí)現(xiàn)事件挖掘的整體流程如圖2所示,其核心步驟包括:文本預(yù)處理、事件類型判斷、要素抽取、地理位置抽取及標(biāo)準(zhǔn)化、時(shí)間抽取及標(biāo)準(zhǔn)化等。
圖2 事件挖掘系統(tǒng)工作流程
在進(jìn)行事件要素抽取和事件類型判斷之前,需要對文本進(jìn)行預(yù)處理,對語料進(jìn)行切割,以便對句子級別的文本進(jìn)行事件分析。要素抽取的過程依賴于語法樹的建立,使用基于StanfordNLP[19]的短語分析工具對句子進(jìn)行預(yù)處理,生成樹狀結(jié)構(gòu)以對句子中的句法關(guān)系進(jìn)行描述。將語法關(guān)系統(tǒng)一表示為類型依賴關(guān)系。語法解析以一個(gè)完整的句子作為輸入,以一顆對應(yīng)的語法解析樹作為輸出。使用統(tǒng)計(jì)的方法生成語法分析樹,如概率上下文無關(guān)語法(Probabilistic Context-Free Grammar,PCFG)。
PCFG是一個(gè)監(jiān)督學(xué)習(xí)方法,需要對PCFG的參數(shù)進(jìn)行估計(jì)。其訓(xùn)練數(shù)據(jù)為一個(gè)句子及其解析樹,通常把這樣的標(biāo)注數(shù)據(jù)稱為樹庫(Tree Bank)。PCFG的參數(shù)就是某種規(guī)則的概率,當(dāng)給定一個(gè)Tree Bank后,統(tǒng)計(jì)相應(yīng)的規(guī)則轉(zhuǎn)移的概率。StanfordNLP利用PCFG對輸入句子進(jìn)行分析,分析結(jié)果包含句子中單詞的基本形式、依存關(guān)系、詞性、命名實(shí)體等。在事件挖掘過程中,依賴其詞性標(biāo)注方法生成詞性語法樹,并對語法樹進(jìn)行建模分析。
在文本預(yù)處理得到解析樹后,對解析樹進(jìn)行觸發(fā)詞判斷,發(fā)現(xiàn)事件要素和事件類型。
本模塊以句子及其解析樹作為輸入,以三元組(Actor1,Actor2,Type)作為輸出。解析核心基于觸發(fā)詞,在進(jìn)行事件識別時(shí),本模塊將解析樹的核心動(dòng)詞與事件觸發(fā)詞表進(jìn)行匹配,從而實(shí)現(xiàn)事件的發(fā)現(xiàn)以及類型識別。
人物要素抽取與事件類型判斷的核心邏輯基于對語法樹的解析。其接收句子的句法分析樹作為輸入,并且將分析樹存儲為鏈接節(jié)點(diǎn)的樹形結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)都是一個(gè)短語。語法樹在數(shù)據(jù)結(jié)構(gòu)中是一個(gè)簡單的樹形結(jié)構(gòu),每個(gè)短語或單詞都是其自己的節(jié)點(diǎn),并帶有指向父節(jié)點(diǎn)的指針以及子節(jié)點(diǎn)集。每個(gè)句子都由多個(gè)部分組成,一個(gè)組成部分可以是單個(gè)單詞或整個(gè)短語(構(gòu)成要素的組成部分),每個(gè)組成部分都有特定的句法角色。對語法樹進(jìn)行迭代處理并將樹中的單詞類型轉(zhuǎn)化為短語類型,單詞被組合在一起直到形成一個(gè)名詞或動(dòng)詞短語。動(dòng)詞短語包含了當(dāng)前句子的大部分含義,并解釋了句子中相關(guān)名詞以及動(dòng)詞的交互過程。若短語可以產(chǎn)生符合CAMEO觸發(fā)詞字典的正確交互關(guān)系,則將該句判斷為事件句,并輸出事件基礎(chǔ)三元組。
句法樹的遞歸過程,可以抽象為以下步驟:
(1)使用Pharse類將句法解析讀取到內(nèi)存中;
(2)識別名詞短語中的參與者編碼;
(3)根據(jù)字典確定動(dòng)詞短語;
(4)識別動(dòng)詞如何與其他詞性短語進(jìn)行交互;
(5)使用CAMEO詞庫進(jìn)行判斷;
(6)返回事件編碼和參與者編碼。
在得到事件句及其所對應(yīng)的要素三元組(Actor1,Actor2,Type)后,需要進(jìn)行地點(diǎn)要素抽取。由于文本中地理位置信息描述的多樣性,該文采用三段式的處理方式:首先對文本中所有的地理位置信息進(jìn)行抽取;然后對所抽取的地理信息進(jìn)行分類,判斷其是否描述了目標(biāo)事件的地理位置;最后采用GeoNames[20]數(shù)據(jù)庫進(jìn)行地理位置信息標(biāo)準(zhǔn)化。
(1)地理位置信息抽取。
使用spaCy命名實(shí)體識別框架進(jìn)行地理位置識別,抽取事件地點(diǎn),選擇事件句實(shí)體抽取結(jié)果中所有標(biāo)注為GEO的實(shí)體作為地理位置要素候選集。
(2)事件地理位置信息識別。
地理位置信息抽取后,針對地理位置候選集,選擇最可能的地理位置作為事件地理要素。使用在Keras中實(shí)現(xiàn)的分類神經(jīng)網(wǎng)絡(luò),并接受了帶有Prodigy標(biāo)簽的新注釋數(shù)據(jù)進(jìn)行訓(xùn)練,以推斷每個(gè)地名的正確國家和地名詞典條目。
(3)地理位置信息標(biāo)準(zhǔn)化。
在得到事件的地理位置信息后,使用GeoNames庫提取地名的坐標(biāo)和位置代碼。根據(jù)事件地理要素,使用Elasticsearch快速檢索GeoNames地理數(shù)據(jù)庫得到地理位置信息和編碼。
事件的時(shí)間要素抽取的流程與地點(diǎn)要素抽取的流程一致,也存在著抽取、識別和標(biāo)準(zhǔn)化三個(gè)階段,其中抽取和識別的階段處理流程與地點(diǎn)要素抽取是一致的,這里不再贅述。時(shí)間要素抽取的難點(diǎn)在于時(shí)間要素的標(biāo)準(zhǔn)化,由于時(shí)間表達(dá)方式更加多樣化,因此不能采用查表的方式進(jìn)行時(shí)間要素的標(biāo)準(zhǔn)化。
時(shí)間表達(dá)式歸一化的目標(biāo)是計(jì)算機(jī)能夠理解它們得到的時(shí)間信息,比如,在一個(gè)文本里出現(xiàn)1962.3.1,而另一篇出現(xiàn)的是1962/3/1或3/1/1962,計(jì)算機(jī)應(yīng)該能夠知道它們說的都是同一時(shí)間。
在龐大的互聯(lián)網(wǎng)上,時(shí)間信息的表示是多種多樣的,導(dǎo)致對文本信息的理解非常困難,如果將時(shí)間信息統(tǒng)一到同一種表示方式,將會對機(jī)器的自動(dòng)內(nèi)容識別有很大幫助,同時(shí)對信息檢索、文摘生成等領(lǐng)域都發(fā)揮重要作用。具體的,在時(shí)間抽取任務(wù)中,使用SUTIME庫[21]實(shí)現(xiàn)事件時(shí)間抽取,產(chǎn)生事件時(shí)間的歸一化表達(dá)。
事件歸并是指將生成的對所抽取的多個(gè)事件進(jìn)行歸并。同一事件在不同數(shù)據(jù)來源會獲取多個(gè)不同角度的事件描述,事件歸并將多個(gè)不同來源的同一事件的不同描述歸并為一個(gè)統(tǒng)一的事件描述,從而避免系統(tǒng)的二義性,提高事件挖掘和預(yù)測的準(zhǔn)確率。
事件歸并依賴于事件要素抽取結(jié)果。一個(gè)事件可以描述為一個(gè)五元組(Actor1,Actor2,Type,Time,Location)。不同來源的新聞可能對同一事件有不同的描述,事件描述元組相同的事件為同一事件。若不同來源的新聞描述了同一事件,引入事件提及數(shù)作為參考量,表示同一事件在不同新聞源的提及數(shù),作為衡量事件重要程度的指標(biāo)。
為了分析通過社交網(wǎng)絡(luò)進(jìn)行事件挖掘的有效性,特別是其中的群體性事件的可挖掘性和可預(yù)測性,爬取中國香港地區(qū),從2019年1月1日到2020年6月30日的所有Twitter推文,共計(jì)370萬條文本數(shù)據(jù),然后對其進(jìn)行了基本的過濾,僅選取其中的英文數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),共計(jì)1 302 801條。需要指出的是,由于訪問量限制過于苛刻,并沒有采用Twitter所提供的API,而是利用了搜索接口進(jìn)行數(shù)據(jù)獲取。不同的數(shù)據(jù)獲取方式所得的數(shù)據(jù)量可能會有一定的出入,但是作為驗(yàn)證性實(shí)驗(yàn)數(shù)據(jù)筆者認(rèn)為是足夠的。
為了驗(yàn)證社交網(wǎng)絡(luò)時(shí)間挖掘的真實(shí)性,使用全球語言數(shù)據(jù)庫[22](Global Database of Events, Language,and Tone,GDELT)作為時(shí)間挖掘的對比結(jié)果。GDELT是一個(gè)最初由喬治敦大學(xué)建立,并被Google資助和運(yùn)行的全球最大的事件數(shù)據(jù)庫。它通過監(jiān)控全球超過100種語言的上萬個(gè)新聞源來進(jìn)行事件獲取,分析并得到結(jié)構(gòu)化的事件信息。和該系統(tǒng)一樣,GDELT也遵循CAMEO事件框架,所以兩個(gè)系統(tǒng)的事件挖掘結(jié)果能夠相互印證。雖然GDELT也存在著事件遺漏的情況,但仍然足以給該系統(tǒng)提供一個(gè)可行的評估依據(jù)。
(1)評測指標(biāo)。
在所收集的130萬條的實(shí)驗(yàn)數(shù)據(jù)之上開展事件挖掘?qū)嶒?yàn),通過準(zhǔn)確率、召回率和F值三個(gè)指標(biāo)對該系統(tǒng)進(jìn)行評價(jià)。具體如下:
準(zhǔn)確率是指系統(tǒng)挖掘到事件的準(zhǔn)確性。這里的判斷依據(jù)是挖掘結(jié)果是否符合文本信息,以及是否符合真實(shí)情況,稱之為字面準(zhǔn)確率,表示為Precisionliteraly。由于缺乏一個(gè)標(biāo)準(zhǔn)事件數(shù)據(jù)集,所以這里采用GDELT作為參考依據(jù),這種準(zhǔn)確率也可以稱為GDELT準(zhǔn)確率,表示為PrecisionGDELT。對于字面準(zhǔn)確率,采用抽樣人工評價(jià)的方式進(jìn)行測試,隨機(jī)抽取1 000條系統(tǒng)挖掘的事件結(jié)果,人工對比源文本,判斷挖掘結(jié)果是否準(zhǔn)確。對于GDELT準(zhǔn)確率,則是比較該系統(tǒng)所挖掘的結(jié)果在GDELT數(shù)據(jù)庫中是否存在,如果存在則認(rèn)為是準(zhǔn)確的。
召回率是指實(shí)際發(fā)生的事件中被系統(tǒng)挖掘到的數(shù)量,同樣分為字面召回率Recallliteraly和GDELT召回率RecallGDELT。字面召回率的統(tǒng)計(jì)也是人工進(jìn)行,隨機(jī)抽取測試數(shù)據(jù)中的語料,抽取1 000條事件數(shù)據(jù),與系統(tǒng)挖掘的結(jié)果進(jìn)行對比判斷是否被系統(tǒng)召回。對于GDELT召回率,則是比較GDELT數(shù)據(jù)庫中的特定地點(diǎn)和特定類型的事件是否被該系統(tǒng)所挖掘到,如果被挖掘到則認(rèn)為是成功召回的。
F值是準(zhǔn)確率和召回率的調(diào)和平均值,其計(jì)算公式為:
該文取β=1,即為F-1值。
(2)實(shí)驗(yàn)結(jié)果和分析。
表1給出了針對上述實(shí)驗(yàn)數(shù)據(jù)的測試結(jié)果,其中Events列給出了挖掘到的事件數(shù)量,為1 532件。這說明基于社交網(wǎng)絡(luò)的事件挖掘是非常有效的,確實(shí)能夠挖掘得到大量的事件。特別要注意的是,這里的事件不僅僅是群體性事件,但是其中的群體性事件數(shù)量占有較大比例。在所有的GDELT事件中,群體性事件(對應(yīng)于CAMEO的141和144類型)僅僅占比大約2%左右,而社交網(wǎng)絡(luò)挖掘得到的事件有一大半都是群體性事件。
表1 測試結(jié)果
事件挖掘結(jié)果同樣保持了不錯(cuò)的準(zhǔn)確率,基本能達(dá)到預(yù)期設(shè)想。就字面準(zhǔn)確率而言,該系統(tǒng)的事件挖掘子系統(tǒng)準(zhǔn)確率能到達(dá)約80%。對于GDELT準(zhǔn)確率而言,相比字面準(zhǔn)確率都有了一定程度的下降,但是差距并不明顯。這兩種之間的比值可以認(rèn)為是GDELT事件收錄的召回率,這一定程度上說明GDELT事件集的召回率相當(dāng)?shù)母摺?/p>
該系統(tǒng)事件挖掘的字面召回率也保存了不錯(cuò)的水平,達(dá)到了80%以上。但是,GDELT召回率則相當(dāng)?shù)牡汀_@是由于GDELT監(jiān)控了大量的新聞源,能夠獲取到非常豐富的事件信息,其信息豐富程度遠(yuǎn)高于社交網(wǎng)絡(luò)。另一方面,社交網(wǎng)絡(luò)作為事件挖掘的信息源能夠達(dá)到約58%的召回率,這意味著在群體性事件挖掘方面可以在一定程度上作為GDELT的補(bǔ)充。
(1)評價(jià)指標(biāo)。
采用準(zhǔn)確率和召回率作為系統(tǒng)的評價(jià)指標(biāo),同樣采用GDELT事件數(shù)據(jù)庫作為評價(jià)標(biāo)準(zhǔn)。計(jì)算預(yù)測事件在GDELT中是否會發(fā)生,記為PrecisionGDELT;以及GDELT中的事件是否會被社交網(wǎng)絡(luò)預(yù)測到,記為RecallGDELT。
圖3 事件預(yù)測提前期計(jì)算方法說明
對于事件預(yù)測而言,預(yù)測提前期(Lead Time)是一個(gè)重要的指標(biāo)。所謂預(yù)測提前期是指發(fā)出事件預(yù)測的日期和事件被報(bào)道的日期之差。這里的“發(fā)出事件預(yù)測的日期”就是該系統(tǒng)通過社交網(wǎng)絡(luò)信息發(fā)現(xiàn)事件的日期;“事件被報(bào)道的日期”采用GDELT中事件的報(bào)到日期為依據(jù)。兩種相減得到事件預(yù)測的預(yù)測提前期,如圖3所示。
(2)實(shí)驗(yàn)結(jié)果和分析。
表2給出了針對香港地區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù)群體性事件預(yù)測實(shí)驗(yàn)結(jié)果。
表2 針對香港地區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù)群體性 事件預(yù)測實(shí)驗(yàn)結(jié)果
其中第一列LT=n表明的是不同的事件預(yù)測提前期,LT=1即是提取一天預(yù)測,此時(shí)的預(yù)測的事件數(shù)量最多,準(zhǔn)確率和召回率也都較高。隨著LT數(shù)值的增加,能夠預(yù)測到的事件數(shù)量降低,這一定程度上意味著大量的群體性事件都并沒有經(jīng)過長時(shí)間的準(zhǔn)備,而僅僅是在2~5天內(nèi)短期召集形成的。
根據(jù)準(zhǔn)確率和召回率進(jìn)行分析,可以看到基于社交網(wǎng)絡(luò)的群體性事件預(yù)測準(zhǔn)確率較高,也是符合預(yù)期的:社交網(wǎng)絡(luò)線索相對明確,一旦出現(xiàn)了社交網(wǎng)絡(luò)上的群體性事件召集信息,就會有比較大的概率真實(shí)發(fā)生該事件。另一方面,事件預(yù)測召回率在LT=1時(shí)達(dá)到了0.45,這意味著有接近一半的群體性事件都可以在社交網(wǎng)絡(luò)上找到明確線索。還有一點(diǎn)值得注意的是,對于LT>10的情況,準(zhǔn)確率和召回率都較低,尚不足以作為可靠的預(yù)測線索。
社交網(wǎng)絡(luò)的群體性事件挖掘是一個(gè)自動(dòng)化的信息抽取任務(wù)。該文設(shè)計(jì)并實(shí)現(xiàn)了對社交網(wǎng)路信息進(jìn)行事件挖掘和事件預(yù)測的系統(tǒng)。其中包括事件發(fā)現(xiàn)、事件要素抽取、事件分類、地理位置抽取、事件歸并等子任務(wù)。基于所挖掘到的社交網(wǎng)絡(luò)群體性事件相對于事件發(fā)生日期有一定提前性的這一發(fā)現(xiàn),探索了將所挖掘到的結(jié)構(gòu)化事件信息用于事件預(yù)測的可能性,實(shí)驗(yàn)證明這一探索有較好的效果,能夠以較高的準(zhǔn)確率和召回率提前預(yù)測特定地區(qū)的群體性事件。