李志鵬, 高振遠(yuǎn), 周 陽, 馬 政, 胡志強(qiáng), 石 珺, 易 勇
(1. 深圳市網(wǎng)聯(lián)安瑞網(wǎng)絡(luò)科技有限公司,深圳 518038; 2. 中國科學(xué)技術(shù)大學(xué),安徽 合肥 230027)
世界上各國家和地區(qū)每天都在不停地發(fā)生著動(dòng)亂沖突事件,給人們的生產(chǎn)生活、相關(guān)部門的社會(huì)管理以及整個(gè)社會(huì)的平穩(wěn)運(yùn)行帶來了不同程度的動(dòng)蕩。對(duì)社會(huì)事件進(jìn)行持續(xù)監(jiān)控和挖掘分析,已經(jīng)成為計(jì)算社會(huì)學(xué)的研究熱點(diǎn)?!坝?jì)算社會(huì)學(xué)”這一概念,由哈佛大學(xué)等機(jī)構(gòu)的15名國際頂級(jí)學(xué)者[1]于2009年在《科學(xué)》雜志上共同提出,文中預(yù)言的以互聯(lián)網(wǎng)為基礎(chǔ),通過收集和分析數(shù)據(jù),揭示個(gè)人和群體行為模式的具有無限可能的計(jì)算社會(huì)科學(xué)的產(chǎn)生正在成為現(xiàn)實(shí)。2020年8月,文獻(xiàn)[2]再次在《科學(xué)》雜志上撰文探討了計(jì)算社會(huì)學(xué)提出后十多年來的突飛猛進(jìn)的研究進(jìn)展,以及遇到的研究挑戰(zhàn)和機(jī)遇。2021年7月,《自然》雜志也發(fā)表了關(guān)于計(jì)算社會(huì)學(xué)的專刊[3],說明相關(guān)研究至今一直是學(xué)術(shù)研究熱點(diǎn)。
隨著社交網(wǎng)絡(luò)技術(shù)的發(fā)展以及大數(shù)據(jù)時(shí)代的來臨,互聯(lián)網(wǎng)已經(jīng)成為公眾信息來源的重要平臺(tái)。人類的社會(huì)活動(dòng)往往是由事件驅(qū)動(dòng)的,對(duì)互聯(lián)網(wǎng)新聞媒體等開源數(shù)據(jù)進(jìn)行事件自動(dòng)檢測和跟蹤,具有重要現(xiàn)實(shí)意義。美國、歐盟近年來資助大量項(xiàng)目進(jìn)行社會(huì)沖突、軍事叛亂、恐怖活動(dòng)、傳染病爆發(fā)、選舉等事件的監(jiān)控,構(gòu)建了全球事件、語言與語調(diào)數(shù)據(jù)庫(Global Database of Events, Language, and Tone,GDELT)[4]、綜合危機(jī)早期預(yù)警系統(tǒng)(Integrated Crisis Early Warning System,ICEWS)[5]、基于早期模型并使用代理的事件識(shí)別系統(tǒng)(Early Model Based Event Recognition using Surrogates,EMBERS)[6]、地緣政治事件協(xié)同預(yù)測系統(tǒng)(Synergistic Anticipation of Geopolitical Events,SAGE)[7]等一系列全球事件庫和事件預(yù)警預(yù)測系統(tǒng),同時(shí)在KDD、IJCAI等數(shù)據(jù)挖掘與人工智能頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表多篇論文。美國情報(bào)高級(jí)研究計(jì)劃局(IARPA)資助的OSI項(xiàng)目成功預(yù)測巴西之春巴西,漢坦病毒爆發(fā),委內(nèi)瑞拉暴力示威,哥倫比亞總統(tǒng)大選等事件。IARPA作為未來情報(bào)科技的風(fēng)向標(biāo),部署的項(xiàng)目具有高度的戰(zhàn)略前瞻性和參考價(jià)值。
隨著研究的深入,大規(guī)模自動(dòng)構(gòu)建的結(jié)構(gòu)化事件庫[8]逐漸成熟,通過事件庫能夠全面記錄人類現(xiàn)實(shí)活動(dòng),大量事件數(shù)據(jù)被記錄到事件庫,實(shí)現(xiàn)了現(xiàn)實(shí)世界和人類活動(dòng)的全面映射。其中,Google Jigsaw贊助的GDELT事件庫最為著名,GDELT從超過100種語言的全球新聞媒體數(shù)據(jù)中發(fā)現(xiàn)并記錄了從1979年以來發(fā)生的人類社會(huì)主要事件,掀起了計(jì)算社會(huì)學(xué)的研究熱潮,截至2021年11月,通過Google Scholar能夠檢索到的基于GDELT事件庫進(jìn)行研究的學(xué)術(shù)文獻(xiàn)已超過2 200篇,顯示出事件監(jiān)測和預(yù)測領(lǐng)域的巨大研究前景。另外一個(gè)受到研究人員廣泛關(guān)注的事件庫是綜合危機(jī)早期預(yù)警系統(tǒng),由洛克希德馬丁公司創(chuàng)建并維護(hù)的。ICEWS和GDELT已經(jīng)成為事件分析、事件圖譜、趨勢(shì)預(yù)測、事件預(yù)警以及計(jì)算社會(huì)學(xué)研究中使用最廣泛的公開數(shù)據(jù)集。
然而,現(xiàn)有文獻(xiàn)大多直接使用ICEWS和GDELT中的事件數(shù)據(jù),缺少對(duì)ICEWS和GDELT這兩個(gè)全球事件庫的數(shù)據(jù)驗(yàn)證和對(duì)比分析[9-10]。本文對(duì)ICEWS和GDELT這兩個(gè)全球事件庫進(jìn)行了系統(tǒng)的分析、對(duì)比和評(píng)估,以期為事件庫構(gòu)建、事件抽取和事件圖譜等領(lǐng)域提供幫助和參考。
在過去的40年里,研究人員一直在努力使用新聞、報(bào)紙、雜志等來源創(chuàng)建發(fā)生在世界每個(gè)角落的全球規(guī)模的事件數(shù)據(jù)庫,以幫助理解和應(yīng)對(duì)全球問題。盡管大多數(shù)項(xiàng)目都受到當(dāng)時(shí)技術(shù)的限制,但是,隨著大數(shù)據(jù)時(shí)代的到來,最近兩個(gè)利用新聞媒體自動(dòng)編碼提供全球?qū)崟r(shí)事件數(shù)據(jù)的開創(chuàng)性項(xiàng)目受到了廣泛關(guān)注和認(rèn)可:ICEWS和GDELT。這兩個(gè)事件庫項(xiàng)目規(guī)模空前,已經(jīng)收獲了學(xué)者、媒體和多國政府的重點(diǎn)關(guān)注。ICEWS和GDELT可以說是目前最大的兩個(gè)事件數(shù)據(jù)集合,它們收集的資源來自世界各地各個(gè)領(lǐng)域。就對(duì)學(xué)術(shù)研究和政策建議的影響而言,ICEWS和GDELT一直是最具影響力的事件數(shù)據(jù)集。本文中,我們主要研究分析這兩個(gè)事件數(shù)據(jù)集。
ICEWS是一個(gè)綜合、集成、自動(dòng)化、可推廣和經(jīng)過驗(yàn)證的系統(tǒng)[11],用于監(jiān)測、評(píng)估和預(yù)測國家、地區(qū)和內(nèi)部危機(jī)。ICEWS系統(tǒng)支持如何分配資源以緩解危機(jī)的決策。通過使用ICEWS,戰(zhàn)斗指揮官(Combatant Commanders,COCOM)能夠具備強(qiáng)大的預(yù)測和應(yīng)對(duì)穩(wěn)定性挑戰(zhàn)的能力,可以根據(jù)設(shè)定的旨在減輕風(fēng)險(xiǎn)的目標(biāo)來分配資源,并實(shí)時(shí)跟蹤和衡量資源分配,達(dá)到最終狀態(tài)穩(wěn)定的有效性目標(biāo)。
ICEWS使用混合方法進(jìn)行不穩(wěn)定預(yù)測,在集成框架中結(jié)合異構(gòu)統(tǒng)計(jì)和基于代理的模型,總預(yù)測準(zhǔn)確度超過80%。ICEWS公開的部分為事件數(shù)據(jù)集[5],這些數(shù)據(jù)從100多個(gè)數(shù)據(jù)源和250個(gè)國際和區(qū)域新聞源中近乎實(shí)時(shí)地得到。數(shù)以百萬計(jì)的新聞?dòng)蓜?chuàng)新的Jabari的shallow-parsing技術(shù)和BBN的Serif NLP技術(shù)處理。ICEWS事件數(shù)據(jù)集在時(shí)間上有一定限制,只包含1995年至今的事件,自1995年以來每月掃描一次,自2018年10月以來每天掃描新聞。
GDELT項(xiàng)目對(duì)來自地球上幾乎每個(gè)國家/地區(qū)各個(gè)角落的新聞、廣播、印刷品等進(jìn)行監(jiān)控,并對(duì)這些用100多種語言書寫的信息進(jìn)行識(shí)別,自動(dòng)抽取、編碼這些事件中的人物、地點(diǎn)、組織、主題、來源、情感等,旨在為全世界社會(huì)計(jì)算研究創(chuàng)造一個(gè)免費(fèi)的開放平臺(tái),以推動(dòng)全球社會(huì)發(fā)展。
GDELT包括從1979年至今的數(shù)據(jù)。數(shù)據(jù)以制表符分隔值格式的zip文件形式提供,文件格式使用csv擴(kuò)展名,可以輕松導(dǎo)入 Microsoft Excel或類似的電子表格軟件,或者用pandas等軟件包方便處理。1979—2005年的數(shù)據(jù)以每年一個(gè)zip文件的形式提供,文件大小從1979年的14.3 MB逐漸增加到2005年的125.9 MB,這也反映了新聞媒體數(shù)量逐年增加,以及事件的頻率的增長。2006年1月—2013年3月的數(shù)據(jù)文件按月粒度提供,壓縮文件大小從2006年1月的11 MB增加到2013年3月的103.2 MB。2013年4月1日以后的數(shù)據(jù)文件按日粒度提供。每個(gè)日期的數(shù)據(jù)文件在次日東部標(biāo)準(zhǔn)時(shí)間早上6點(diǎn)之前可用。2015年2月19日以后,GDELT升級(jí)2.0版本,每個(gè)日期的數(shù)據(jù)按15 min粒度更新提供。GDELT數(shù)據(jù)文件使用沖突和調(diào)解事件觀察 (CAMEO) 編碼來記錄事件。
GDELT數(shù)據(jù)集也可在Google Cloud Platform上使用,并可使用Google BigQuery訪問。截至2021年11月22日,Google Cloud Platform上GDELT數(shù)據(jù)集中EVENTS表大小為242.71 GB,一共604 170 458條事件數(shù)據(jù),GKG表數(shù)據(jù)量為13.45 TB,共1 261 381 853條數(shù)據(jù)。
由于GDELT和ICEWS全量事件數(shù)據(jù)集較大,本文利用采樣的方式進(jìn)行對(duì)比分析。IARPA資助的OSI項(xiàng)目公開了MITRE公司專家人工整理的社會(huì)事件數(shù)據(jù)集[12],稱為GSR(Gold Standard Report)。GSR的時(shí)間范圍為2013年5月—2015年3月,事件發(fā)生的地理位置是拉丁美洲,因此可以將GSR數(shù)據(jù)作為對(duì)比的基準(zhǔn)數(shù)據(jù)。首先,從GDELT和ICEWS數(shù)據(jù)集中采樣獲取數(shù)據(jù),數(shù)據(jù)采樣的時(shí)間為2014年全年,即時(shí)間跨度區(qū)間為2014年1月1日—2014年12月31日;然后,分析GDELT和ICEWS近期的事件數(shù)據(jù),ICEWS已經(jīng)公開2019年全年的事件數(shù)據(jù),所以我們獲取了GDELT和ICEWS在2019年全年的事件數(shù)據(jù),即2019年1月1日—2019年12月31日。綜上,我們一共采樣得到5個(gè)數(shù)據(jù)集:GDELT2014、ICEWS2014、GSR2014、GDELT2019、ICEWS2019。針對(duì)GSR和ICEWS事件數(shù)據(jù),直接從Harvard Dataverse官方維護(hù)的網(wǎng)址手動(dòng)下載。對(duì)于GDELT數(shù)據(jù),采用基于Python的GDELT事件庫檢索框架gdeltPyR,調(diào)用該框架的接口下載獲取2014年和2019年的數(shù)據(jù)。
針對(duì)GDELT、ICEWS、GSR的2014年數(shù)據(jù),首先,計(jì)算GDELT和ICEWS之間的數(shù)據(jù)關(guān)聯(lián)性,如表1所示,關(guān)聯(lián)值的大小很大程度上依賴于國家被新聞?wù){(diào)查和互聯(lián)網(wǎng)相關(guān)內(nèi)容的聚合程度。那些具有較多西方媒體覆蓋的國家(例如阿根廷、巴西和委內(nèi)瑞拉),在GDELT和ICEWS數(shù)據(jù)上具有更高的關(guān)聯(lián)性。這主要是因?yàn)?,在GDELT數(shù)據(jù)集中,英文新聞媒體的數(shù)據(jù)具有更高的可靠性。另外一個(gè)結(jié)論是月事件數(shù)量關(guān)聯(lián)性一般大于周事件數(shù)量關(guān)聯(lián)性,周事件數(shù)量關(guān)聯(lián)性一般大于日事件數(shù)量關(guān)聯(lián)性,這說明事件數(shù)據(jù)在較大的時(shí)間尺度上,關(guān)聯(lián)性更大,數(shù)據(jù)也更為準(zhǔn)確。
表1 2014年GDELT 和ICEWS關(guān)聯(lián)性
GDELT和GSR數(shù)據(jù)集之間的關(guān)聯(lián)性,如表2所示,從結(jié)果可以看出,GDELT 與GSR之間的關(guān)聯(lián)性低于GDELT與ICEWS之間的關(guān)聯(lián)性。產(chǎn)生這種現(xiàn)象的原因是ICEWS和GDELT事件庫的數(shù)據(jù)源來自國際英文媒體,而且兩個(gè)事件庫利用了很相似的編碼框架。
表2 2014年GDELT和GSR關(guān)聯(lián)性
表3展示了ICEWS和GSR事件數(shù)據(jù)之間的關(guān)聯(lián)性,由結(jié)果可得,其相似性亦小于GDELT和ICEWS,這也是因?yàn)閮烧呔哂邢嗨凭幋a框架和主要的英語語料。
表3 2014年ICEWS 和 GSR關(guān)聯(lián)性
針對(duì)GDELT、ICEWS事件庫2019年的數(shù)據(jù),計(jì)算得到的關(guān)聯(lián)值如表4所示,可以得到相似的結(jié)論,那些具有較多西方媒體覆蓋的國家具有更高的關(guān)聯(lián)性,月事件數(shù)量相比于周事件數(shù)量、日事件數(shù)量,具有更高的關(guān)聯(lián)性。
表4 2019年ICEWS和GDELT關(guān)聯(lián)性
圖1展示了2014年全年,GDELT、ICEWS和GSR事件庫中,委內(nèi)瑞拉每周所發(fā)生抗議事件數(shù)量的曲線圖,由圖可得,GDELT事件庫中抗議類事件數(shù)量相對(duì)較多,GSR其次,ICEWS最少,但是三個(gè)曲線的趨勢(shì)很相似,表明了在不同事件庫中每周發(fā)生抗議類事件數(shù)量具有較大的關(guān)聯(lián)性。GDELT由于數(shù)據(jù)來源更多,可能存在事件重復(fù)計(jì)算的情況,ICEWS的數(shù)據(jù)相比GDELT,與專家人工整理的基準(zhǔn)數(shù)據(jù)更為接近,表明ICEWS的數(shù)據(jù)量級(jí)更為準(zhǔn)確。
圖1 各事件庫2014年每周事件數(shù)量曲線
圖2展示了2019年全年,GDELT和ICEWS事件庫中,在委內(nèi)瑞拉每周所發(fā)生抗議事件數(shù)量的曲線圖,由圖可以看出,與2014年的數(shù)據(jù)具有類似的結(jié)論,GDELT事件庫中抗議類事件數(shù)量相對(duì)較多,兩個(gè)事件庫中抗議類每周事件數(shù)量曲線具有相似的形狀,表明了在GDELT和ICEWS事件庫中每周發(fā)生抗議類事件數(shù)量具有較大的關(guān)聯(lián)性。
圖2 GDELT和ICEWS 2019年每周事件數(shù)量曲線
構(gòu)建全球事件庫的兩個(gè)開創(chuàng)性項(xiàng)目ICEWS和GDELT獲得了研究人員的廣泛關(guān)注,本文對(duì)這兩個(gè)全球事件庫進(jìn)行了系統(tǒng)的分析、對(duì)比和評(píng)估。通過與專家人工整理的事件數(shù)據(jù)集GSR進(jìn)行對(duì)比,說明了三個(gè)數(shù)據(jù)集在整體事件趨勢(shì)上存在較大的關(guān)聯(lián)性,其中GDELT事件數(shù)據(jù)集可能由于數(shù)據(jù)來源較多,數(shù)據(jù)存在重復(fù)統(tǒng)計(jì)的情況,相比ICEWS和GSR數(shù)據(jù)量更大。通過本文的研究分析,以期為事件庫構(gòu)建、事件抽取和事件圖譜等領(lǐng)域提供幫助和參考。