耿小航,彭冬亮,張 震,谷 雨
(杭州電子科技大學(xué) 通信信息傳輸與融合技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,浙江 杭州 310018)
在國際政治關(guān)系研究領(lǐng)域,重大事件一般指對國家或地區(qū)間會(huì)產(chǎn)生重大影響的一類事件,如:朝鮮核行為[1]、中東恐襲等。重大事件趨勢預(yù)測將事件發(fā)展趨勢劃分為不同等級,利用已發(fā)生事件預(yù)測未來趨勢等級[2],目前主要研究方法可分為基于事件數(shù)據(jù)分析法的定量分析和基于機(jī)器學(xué)習(xí)分類的方法兩類[3,4]。
利用事件數(shù)據(jù)分析法進(jìn)行重大事件趨勢預(yù)測主要包括確定信息來源、確立編碼體系并賦值、統(tǒng)計(jì)分析[5]4個(gè)主要步驟,這種方法預(yù)測的可解釋性強(qiáng),但依賴專家知識構(gòu)建領(lǐng)域?qū)n}數(shù)據(jù)及特征指標(biāo)量化,同時(shí)存在特征維度有限、時(shí)效性較弱等問題[5]。文獻(xiàn)[6]搜集了2006年至2018年間朝鮮官方媒體所有關(guān)于其核行為的報(bào)道,借鑒專家知識確定特征集,運(yùn)用相關(guān)性分析和Probit回歸方法選擇了朝核問題相關(guān)最優(yōu)特征指標(biāo)集,采用樸素貝葉斯建立關(guān)于朝鮮核行為的趨勢預(yù)測模型。
隨著自然語言處理、深度學(xué)習(xí)和大數(shù)據(jù)處理等相關(guān)技術(shù)的發(fā)展[7],使得基于海量公開新聞數(shù)據(jù)進(jìn)行特征學(xué)習(xí),自動(dòng)化構(gòu)建重大事件趨勢預(yù)測模型成為可能。本課題組在這方面開展了初步研究,目前主要集中在特征的構(gòu)建和優(yōu)化方面。文獻(xiàn)[8]提出了一種結(jié)合逆文檔頻率(inverse document frequency,IDF)和隱狄利克雷分布[9,10](latent Dirichlet allocation,LDA)的特征抽取方法,為與文獻(xiàn)[6]進(jìn)行對比分析,同樣采用樸素貝葉斯分類器進(jìn)行趨勢預(yù)測,實(shí)驗(yàn)結(jié)果表明,基于主題模型[11]抽取出的特征與基于專家經(jīng)驗(yàn)確定的特征預(yù)測精度相當(dāng),驗(yàn)證了基于公開新聞數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的可行性。文獻(xiàn)[12]針對LDA算法中主題詞個(gè)數(shù)需要人工確定的問題,首先通過融合單詞貢獻(xiàn)度提高抽取的主題詞的判別性,然后采用層次聚類方法對主題詞分布數(shù)目進(jìn)行優(yōu)化,采用多項(xiàng)式邏輯回歸模型作為分類器,提高了重大事件趨勢預(yù)測精度。上述方法采用的主題詞分布[13]特征僅考慮了詞頻特征,通過事件抽取技術(shù)[14]對新聞報(bào)道進(jìn)行解析,獲取各事件的發(fā)起者、承受者和事件類型等核心要素,能夠有助于趨勢預(yù)測模型的構(gòu)建。文獻(xiàn)[15]利用事件類型頻次信息構(gòu)建了語義與事件融合的特征,這種融合事件特征的方法已經(jīng)嘗試?yán)檬录?shù)據(jù)來提升文檔語義理解程度,在統(tǒng)計(jì)事件類型頻次信息時(shí),對發(fā)起者和承受者進(jìn)行約束,但僅考慮到高頻事件的頻次信息,并未充分利用事件信息數(shù)據(jù),割裂了詞匯間或事件屬性間的關(guān)聯(lián),仍然存在對文檔特征語義理解不足的問題,因此,需要考慮以新的形式組織利用事件信息數(shù)據(jù),豐富特征中的文檔事件語義關(guān)聯(lián)信息。
受知識圖譜[16,17]以圖的形式組織概念知識的啟發(fā),將事件的多維度要素信息圖譜化有助于更好地理解新聞文本傳遞的語義信息,把握事件發(fā)展的趨勢。事件信息建模為圖數(shù)據(jù)后,需要將其進(jìn)行特征表示以輔助重大事件趨勢預(yù)測,考慮圖這一非結(jié)構(gòu)化數(shù)據(jù)的特殊性,采用針對圖的卷積網(wǎng)絡(luò)能夠提取事件信息關(guān)聯(lián)的多維特征。圖卷積網(wǎng)絡(luò)[18](graph convolution network,GCN)由Kipf等提出,在半監(jiān)督的節(jié)點(diǎn)分類任務(wù)上取得了較好的效果。圖卷積網(wǎng)絡(luò)當(dāng)前在推薦系統(tǒng)領(lǐng)域應(yīng)用較廣,Pinterest公司和斯坦福大學(xué)的研究人員將圖卷積網(wǎng)絡(luò)應(yīng)用于在線網(wǎng)站圖片推薦[19]。也有學(xué)者將圖卷積網(wǎng)絡(luò)應(yīng)用于文本分類[20],利用文檔與詞的共現(xiàn)關(guān)系建圖,并構(gòu)建文本圖卷積網(wǎng)絡(luò),取得了優(yōu)于傳統(tǒng)卷積網(wǎng)絡(luò)的結(jié)果。
針對文獻(xiàn)[15]在特征選擇時(shí)依賴關(guān)鍵詞與事件類型頻次,忽略了詞匯間的關(guān)聯(lián)信息,造成文檔所傳遞語義丟失的問題,本文基于結(jié)構(gòu)化事件信息數(shù)據(jù),構(gòu)建了以事件為中心的事件語義關(guān)聯(lián)圖(event semantic association graph,ESAG);然后在從事件語義關(guān)聯(lián)圖中分割出局部圖,利用圖卷積網(wǎng)絡(luò)聚合局部圖的節(jié)點(diǎn)特征并讀出圖特征,最終對局部圖的趨勢等級分類。采用圖卷積網(wǎng)絡(luò)構(gòu)建的趨勢預(yù)測模型,由于充分利用了事件要素的語義關(guān)聯(lián)信息,故能夠提高趨勢預(yù)測的精度。采用朝鮮核行為等級作為預(yù)測目標(biāo),驗(yàn)證了提出方法的有效性。
與當(dāng)前國際政治關(guān)系領(lǐng)域的重大事件趨勢預(yù)測方法[6,8,12,15]一致,本文將重大事件趨勢預(yù)測定義為趨勢等級分類問題,提出了基于圖卷積網(wǎng)絡(luò)的重大事件趨勢預(yù)測方法,整體流程如圖1所示。首先將事件數(shù)據(jù)集根據(jù)事件要素的重疊建立事件語義關(guān)聯(lián)圖;由于全時(shí)間段關(guān)聯(lián)網(wǎng)絡(luò)巨大,且事件趨勢等級與事件語義關(guān)聯(lián)圖是局部相關(guān)的,因此采用分而治之的思想將事件語義關(guān)聯(lián)圖切分為等時(shí)間區(qū)間的局部圖;對于非結(jié)構(gòu)化的圖,采用圖卷積網(wǎng)絡(luò)聚合局部圖中的節(jié)點(diǎn)關(guān)聯(lián)信息,讀出圖特征輸入分類器,預(yù)測趨勢等級。
圖1 基于圖卷積網(wǎng)絡(luò)的重大事件趨勢預(yù)測流程
基于圖卷積網(wǎng)絡(luò)的重大事件趨勢預(yù)測方法主要分為以下兩個(gè)模塊。
數(shù)據(jù)處理模塊,主要實(shí)現(xiàn)以下功能:
(1)從關(guān)系型數(shù)據(jù)庫讀取結(jié)構(gòu)化事件信息數(shù)據(jù),生成全局事件語義關(guān)聯(lián)圖并存入圖數(shù)據(jù)庫;
(2)選擇時(shí)間片粒度分割出局部圖,利用預(yù)訓(xùn)練詞向量初始化節(jié)點(diǎn)特征;
(3)為每一張局部圖標(biāo)記趨勢等級,劃分訓(xùn)練集與測試集。
模型訓(xùn)練與預(yù)測模塊,主要實(shí)現(xiàn)以下功能:
(1)按批次分別輸入多張事件語義關(guān)聯(lián)圖,聚合節(jié)點(diǎn)特征;
(2)對聚合后的所有節(jié)點(diǎn)特征取均值讀出局部圖特征表示;
(3)將圖特征表示輸入分類器,分類趨勢等級;
(4)計(jì)算損失并更新參數(shù),訓(xùn)練趨勢預(yù)測模型;
(5)加載訓(xùn)練好的模型,輸入測試集局部圖,預(yù)測趨勢等級。
利用基于模式匹配的事件抽取技術(shù)抽取出事件描述、時(shí)間、地點(diǎn)、參與者、事件類型等結(jié)構(gòu)化的事件信息數(shù)據(jù)。將原始單篇新聞文檔解析為多條事件數(shù)據(jù),為事件語義關(guān)聯(lián)圖中的節(jié)點(diǎn)服務(wù)。
受制于中文的事件及事件間關(guān)系的標(biāo)注語料匱乏、標(biāo)注體系不統(tǒng)一,目前,難以準(zhǔn)確識別事件間直接關(guān)系。本文所構(gòu)建的事件語義關(guān)聯(lián)圖側(cè)重于事件屬性關(guān)聯(lián),即事件間通過共有事件屬性(如:時(shí)間、地點(diǎn)、發(fā)起者、承受者等)相關(guān)聯(lián)。節(jié)點(diǎn)類型有事件句、時(shí)間、地點(diǎn)、參與者、事件類型、事件所屬領(lǐng)域、事件來源7種,邊的類型有時(shí)間、地點(diǎn)、發(fā)起、承受、事件類型、領(lǐng)域、來源7種。事件語義關(guān)聯(lián)圖示例如圖2所示。
圖2 事件語義關(guān)聯(lián)圖示例
事件語義關(guān)聯(lián)圖中的中心節(jié)點(diǎn)為事件描述,其直接關(guān)聯(lián)的節(jié)點(diǎn)為事件屬性,由重疊的事件屬性擴(kuò)展鏈路關(guān)聯(lián)到其它事件。例如,北韓媒體報(bào)道了美北首腦2018年6月12日會(huì)談及其聯(lián)合聲明的內(nèi)容。從原始新聞報(bào)道中抽取出兩條事件數(shù)據(jù),兩事件共有的事件屬性有新聞來源、時(shí)間、地點(diǎn)、發(fā)起者、事件所屬領(lǐng)域,進(jìn)而將兩事件通過共有屬性間接關(guān)聯(lián)起來。
圖的存儲(chǔ)過程如下:從事件數(shù)據(jù)庫中逐條讀數(shù)據(jù),字段名對應(yīng)節(jié)點(diǎn)類型、字段值對應(yīng)節(jié)點(diǎn),以事件句為核心節(jié)點(diǎn)、事件屬性為從節(jié)點(diǎn)建立關(guān)聯(lián),存儲(chǔ)到Neo4 J圖數(shù)據(jù)庫中;在每次存入新的節(jié)點(diǎn)數(shù)據(jù),查詢節(jié)點(diǎn)是否已存在,若已存在,則不重復(fù)在圖數(shù)據(jù)庫中存儲(chǔ)節(jié)點(diǎn),進(jìn)而擁有相同事件屬性的事件建立起了間接關(guān)聯(lián)。將事件數(shù)據(jù)庫中所有數(shù)據(jù)經(jīng)過上述處理過程后,事件語義關(guān)聯(lián)圖構(gòu)建完成,可對事件語義關(guān)聯(lián)圖進(jìn)行檢索及進(jìn)一步利用。
本文所研究的面向國際政治領(lǐng)域的重大事件趨勢一般以月為單位進(jìn)行預(yù)測,按2.1節(jié)方法構(gòu)建的事件語義關(guān)聯(lián)圖是包含整個(gè)時(shí)間段的,而某一階段的重大事件趨勢僅與前一個(gè)月或幾個(gè)月發(fā)生的事件有關(guān);因此,需要按時(shí)間片從事件語義關(guān)聯(lián)圖中分割出局部圖作為當(dāng)前階段的特征圖gt={VT,ET,T∈[t-n,t-1]}, 其中,t屬于事件數(shù)據(jù)集中某一月,n表示時(shí)間片粒度,T表示時(shí)間片,V表示節(jié)點(diǎn)集,E表示邊集。以預(yù)測2018年3月趨勢等級為例,假設(shè)時(shí)間片粒度n為2,即從事件語義關(guān)聯(lián)圖中檢索出事件時(shí)間屬性在2018年1至2018年2月間的所有節(jié)點(diǎn)及邊,生成局部事件語義關(guān)聯(lián)圖(local-event semantic association graph,L-ESAG)。
圖中節(jié)點(diǎn)均為中文描述,事件描述節(jié)點(diǎn)一般為長句,取分詞后的文本詞向量均值,其余直接成詞的屬性節(jié)點(diǎn)直接獲取詞向量,未登陸詞用零向量代替。采用涵蓋八百萬詞匯的騰訊預(yù)訓(xùn)練詞向量將圖中的文本節(jié)點(diǎn)特征向量化表示vi=[0.001,0.365,0.128,…], 為后續(xù)模型輸入服務(wù)。若兩節(jié)點(diǎn)間存在邊,則將鄰接關(guān)系矩陣相應(yīng)位置置1,否則置0,局部圖分割與節(jié)點(diǎn)特征初始化如圖3所示。
圖3 局部圖分割與節(jié)點(diǎn)特征初始化
區(qū)別于以往預(yù)測方法輸入的結(jié)構(gòu)化特征向量,本文趨勢預(yù)測模型輸入為非結(jié)構(gòu)化的圖,傳統(tǒng)的深度卷積網(wǎng)絡(luò)可以對結(jié)構(gòu)化數(shù)據(jù)(圖像、語音、序列等)進(jìn)行特征提取,但圖數(shù)據(jù)具有非結(jié)構(gòu)化、無序、隨機(jī)的特點(diǎn),本文構(gòu)建的L-ESAG節(jié)點(diǎn)及關(guān)系數(shù)不是固定的,表達(dá)形式更靈活,無法將其對齊成固定尺度的特征矩陣,利用傳統(tǒng)卷積網(wǎng)絡(luò)進(jìn)行特征提取,因此,需要采用針對圖的卷積網(wǎng)絡(luò),圖卷積網(wǎng)絡(luò)在捕獲特征時(shí)不受限于二維結(jié)構(gòu)上的依賴關(guān)系,能夠聚合更豐富的關(guān)聯(lián)節(jié)點(diǎn)信息。本文結(jié)合圖卷積網(wǎng)絡(luò),構(gòu)建了基于GCN的趨勢預(yù)測模型。將重大事件趨勢預(yù)測轉(zhuǎn)化為分類問題,模型輸入為局部事件語義關(guān)聯(lián)圖,輸出為趨勢等級。
基于GCN的趨勢預(yù)測模型構(gòu)建過程如下:首先,選擇時(shí)間片粒度n, 即利用前n個(gè)月的事件數(shù)據(jù)生成L-ESAG,預(yù)測當(dāng)前月趨勢值;其次,將訓(xùn)練集中多組L-ESAG輸入到圖卷積網(wǎng)絡(luò)并選擇卷積層數(shù),利用圖卷積網(wǎng)絡(luò)聚合節(jié)點(diǎn)領(lǐng)域信息,不斷迭代更新節(jié)點(diǎn)特征,每張圖中節(jié)點(diǎn)數(shù)不一,對圖中所有節(jié)點(diǎn)特征讀出后取平均得到圖的特征表示;再次,將圖的表示輸入分類器,分類器對圖的表示做線性變換后計(jì)算每類的概率,訓(xùn)練過程采用反向傳播和梯度下降更新權(quán)重參數(shù);最后,將測試集的事件語義關(guān)聯(lián)圖輸入訓(xùn)練好的模型進(jìn)行分類并輸出預(yù)測結(jié)果。
定義一個(gè)時(shí)間片粒度為n的L-ESAG為無向圖G=(V,E), 其中,每個(gè)節(jié)點(diǎn)vi∈V, 每條邊(vi,vj)∈E。 在GCN中,定義每個(gè)節(jié)點(diǎn)的隱藏狀態(tài)為hi, 每個(gè)節(jié)點(diǎn)的鄰居集合為N(vi)。 對于圖中的每個(gè)節(jié)點(diǎn)v, 它的信息傳播公式如式(1)所示。圖卷積的目的是聚合鄰居節(jié)點(diǎn)的屬性特征,得到節(jié)點(diǎn)在圖中的表示
(1)
式中:h為節(jié)點(diǎn)特征,N為節(jié)點(diǎn)集合,l表示GCN層的數(shù)量,w(l)表示l層上共享的可學(xué)習(xí)的權(quán)重向量,b為偏置項(xiàng),Relu為線性激活函數(shù)。
通過圖卷積網(wǎng)絡(luò)得到的是每個(gè)節(jié)點(diǎn)的特征表示,而最終的任務(wù)是對圖進(jìn)行分類,本文對單個(gè)圖經(jīng)過圖卷積后需要讀出圖的表示,通常L-ESAG中節(jié)點(diǎn)數(shù)是不一致的,本文對所有經(jīng)過信息聚合后的節(jié)點(diǎn)取平均讀出圖特征,如式(2)所示
(2)
式中:hg為圖特征表示向量, |N(v)| 為節(jié)點(diǎn)數(shù)目。
再將讀出的圖特征表示經(jīng)過全連接層線性變換再輸入softmax層進(jìn)行多分類,如式(3)所示
(3)
訓(xùn)練時(shí)采用交叉熵?fù)p失函數(shù),如式(4)所示
(4)
以圖卷積層數(shù)l=2為例,單張局部事件語義關(guān)聯(lián)圖的分類過程如圖4所示。
圖4 局部事件語義關(guān)聯(lián)圖分類過程
分類過程具體步驟如下:
(1)將帶有節(jié)點(diǎn)屬性的局部事件語義關(guān)聯(lián)圖輸入第一層圖卷積網(wǎng)絡(luò),聚合事件一階自相關(guān)屬性節(jié)點(diǎn)信息;
(2)為聚合事件間的關(guān)聯(lián)特征,將第一層圖卷積的結(jié)果輸入到第二層圖卷積網(wǎng)絡(luò)中,聚合二階節(jié)點(diǎn)信息;
(3)獲取經(jīng)過最后一層圖卷積后的每個(gè)節(jié)點(diǎn)表示,對所有節(jié)點(diǎn)特征取平均獲得圖的特征表示;
(4)對圖的表示做線性變換,得到為歸一化前每一類的概率;
(5)經(jīng)過softmax計(jì)算每一類的概率,并用交叉熵計(jì)算損失;
(6)訓(xùn)練過程采用反向傳播和梯度下降更新權(quán)重參數(shù)。
為驗(yàn)證本文提出預(yù)測方法的有效性,也為了與基于專家知識和自動(dòng)提取關(guān)鍵詞特征的預(yù)測方法進(jìn)行對比。本文對朝鮮核行為趨勢進(jìn)行預(yù)測研究,鑒于該研究問題的敏感性,國內(nèi)新聞網(wǎng)站報(bào)道較少,本文數(shù)據(jù)源選擇韓國國際廣播電臺(tái)北韓專題頁,爬取了該網(wǎng)站2006年1月至2018年3月間的4774條原始新聞報(bào)道。根據(jù)文獻(xiàn)[6]專家知識在朝核問題上的分析結(jié)果確定如表1所示的事件趨勢量化標(biāo)準(zhǔn)。
表1 事件趨勢量化標(biāo)準(zhǔn)
結(jié)合趨勢量化公式與原始新聞報(bào)道,對各月的朝核行為趨勢進(jìn)行量化打分。例如2006年10月所有新聞報(bào)道中,朝鮮于10月9日進(jìn)行了一次核實(shí)驗(yàn),對照量化標(biāo)準(zhǔn),2006年10月的朝鮮核行為趨勢值為15。進(jìn)一步,對各月下量化的趨勢值進(jìn)行離散化表示,與文獻(xiàn)[6]及文獻(xiàn)[15]保持一致,本文將朝核行為分值由0至15劃分成3類趨勢等級:0為無核行為(C1)、1-14為輕度核行為(C2)、≥15為重度核行為(C3)。
本文針對朝鮮核行為問題驗(yàn)證所提出趨勢預(yù)測方法的有效性,該問題背景屬于軍事政治領(lǐng)域,為保證事件抽取的準(zhǔn)確性,在確定領(lǐng)域內(nèi),一般采用基于模式匹配的事件抽取技術(shù)對原始非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行事件抽取。由領(lǐng)域?qū)<掖_定事件類型、制定事件描述模板,根據(jù)專家制定的模式抽取,得到結(jié)構(gòu)化的事件信息數(shù)據(jù),抽取后的事件信息數(shù)據(jù)見表2。
表2 事件信息數(shù)據(jù)示例
對結(jié)構(gòu)化的事件信息數(shù)據(jù),采用2.2節(jié)的方法取時(shí)間片粒度n個(gè)月范圍內(nèi)的局部事件語義關(guān)聯(lián)圖,每批次訓(xùn)練樣本為12個(gè)帶有節(jié)點(diǎn)特征的圖,標(biāo)簽為相應(yīng)的趨勢等級,將訓(xùn)練數(shù)據(jù)輸入圖卷積網(wǎng)絡(luò)提取圖特征,再輸入分類器分類,并計(jì)算損失,利用反向傳播更新權(quán)重值,得到訓(xùn)練好的分類模型后,對測試集和全時(shí)間段數(shù)據(jù)進(jìn)行測試并輸出結(jié)果。
與文獻(xiàn)[6]一致,選擇2006年4月至2017年2月間數(shù)據(jù)進(jìn)行訓(xùn)練,選擇不同時(shí)間片粒度進(jìn)行訓(xùn)練并測試,例如時(shí)間片粒度n為1,則將前一個(gè)月的局部事件語義關(guān)聯(lián)圖輸入圖卷積網(wǎng)絡(luò)提取特征,實(shí)驗(yàn)共測試了時(shí)間片粒度n從1到6變化對預(yù)測結(jié)果的影響;同時(shí)考慮了卷積層數(shù)的影響,共對比了卷積層數(shù)從1到3準(zhǔn)確率變化情況。測試集(2017年3月至2018年3月)以及全時(shí)間段(2006年4月至2018年3月)測試結(jié)果的準(zhǔn)確率(accuracy)及召回率(recall)對比如圖5所示。
圖5 不同偏移量及不同卷積層數(shù)下預(yù)測結(jié)果對比
根據(jù)多組實(shí)驗(yàn),在時(shí)間片粒度n為4個(gè)月,卷積層數(shù)l為2時(shí),預(yù)測效果最佳。首先,考慮時(shí)間片粒度對預(yù)測結(jié)果的影響,由圖5可以看出,當(dāng)n為1時(shí),即以前一個(gè)月數(shù)據(jù)預(yù)測當(dāng)前月趨勢等級時(shí),預(yù)測結(jié)果準(zhǔn)確率與專家知識基本相當(dāng),隨著n的增加,準(zhǔn)確率出現(xiàn)局部下降之后又反彈,在n為4時(shí)達(dá)到了最高點(diǎn),之后在n增加到5至6后,呈現(xiàn)下降趨勢。究其原因,新聞的報(bào)道存在一定的滯后性,且針對朝核問題的相關(guān)報(bào)道尤為稀疏,因此在隨著時(shí)間片粒度的增加,局部事件語義關(guān)聯(lián)圖中囊括了更多的事件信息,預(yù)測準(zhǔn)確率也隨之上升;但并不是事件知識包含的越多越好,在局部事件語義關(guān)聯(lián)圖擴(kuò)展到5至6個(gè)月時(shí),會(huì)出現(xiàn)事件冗余,相應(yīng)的準(zhǔn)確率也隨之下降。
另一方面,考慮到圖卷積層數(shù)l對預(yù)測結(jié)果的影響,將卷積層數(shù)l設(shè)置了1至3進(jìn)行對比,從預(yù)測結(jié)果來看,當(dāng)l為2時(shí),在測試集與全時(shí)間段的預(yù)測準(zhǔn)確率上均優(yōu)于l為1和3。當(dāng)l為1時(shí),圖特征聚集了節(jié)點(diǎn)的1階鄰域信息,即事件與事件屬性間的關(guān)聯(lián)信息;當(dāng)l為2時(shí),可以聚集節(jié)點(diǎn)的2鄰域信息,即可關(guān)聯(lián)事件—事件屬性—事件間的信息,從而獲得事件與事件間的關(guān)聯(lián);當(dāng)l增加到3時(shí),圖中節(jié)點(diǎn)會(huì)進(jìn)行三重關(guān)聯(lián),即關(guān)聯(lián)事件屬性間的關(guān)聯(lián),此時(shí)可能產(chǎn)生部分冗余特征。
本文預(yù)測方法測試集準(zhǔn)確率為76.92%、召回率為62.50%,全時(shí)間段準(zhǔn)確率為89.58%、召回率為71.74%均高于文獻(xiàn)[6]基于專家知識的傳統(tǒng)方法、基于改進(jìn)主題模型HC-TC-LDA[12]、IDFLDA-EVENT[15]兩種自動(dòng)選取特征詞的方法,驗(yàn)證了本文所提預(yù)測方法的有效性,預(yù)測結(jié)果準(zhǔn)確率對比見表3。與文獻(xiàn)[6]預(yù)測結(jié)果對比見表4,以2018年3月數(shù)據(jù)為例,預(yù)測出C1的概率為0.9202,C2的概率為0.0377,C3的概率為0.0421,概率最大值對應(yīng)的標(biāo)簽即為當(dāng)月趨勢等級,則預(yù)測該月趨勢為無核行為發(fā)生,與實(shí)際情況相符。
表3 預(yù)測結(jié)果準(zhǔn)確率對比/%
由表4可以看出,本文方法預(yù)測結(jié)果的提升主要是由于虛警的降低,即無核行為C1等級未出現(xiàn)誤判,全部預(yù)測正確?;谥黝}詞特征提取的方法在核行為趨勢等級較低的月份,也會(huì)出現(xiàn)與高趨勢等級月份相同的特征詞,造成誤分類,導(dǎo)致虛警上升。以2017年12月為例,有報(bào)道關(guān)于北韓最高領(lǐng)導(dǎo)人在平壤舉行的第8屆軍需工業(yè)大會(huì)上的講話內(nèi)容,報(bào)道中出現(xiàn)了導(dǎo)彈、核武器、核力量、軍事強(qiáng)國等與高趨勢等級強(qiáng)相關(guān)的主題詞,而報(bào)道本身傳遞的語義信息是領(lǐng)導(dǎo)人對過往取得成績的總結(jié),并非暗示核行為趨勢等級的提升,因此基于主題詞提取特征方式造成了斷章取義的現(xiàn)象,導(dǎo)致2018年1月預(yù)測結(jié)果的誤判;本文構(gòu)建以事件為中心的與語義圖建立起詞匯間事件語義關(guān)聯(lián),對
表4 與文獻(xiàn)[6]預(yù)測結(jié)果對比
于上述報(bào)道語義重心落在領(lǐng)導(dǎo)人講話總結(jié)過往取得的成績,并非講話內(nèi)容中列舉出的相關(guān)武器,因此可以更準(zhǔn)確地表征文檔傳遞的事件語義信息,進(jìn)而更好地輔助趨勢等級分類。
為進(jìn)一步驗(yàn)證本文所提出方法在朝鮮核行為趨勢預(yù)測問題上的可行性,以2006年1月至2018年3月間數(shù)據(jù)為訓(xùn)練集,預(yù)測了2018年4月至2019年5月間的趨勢等級,預(yù)測結(jié)果見表5。
表5 2018年4月至2019年5月預(yù)測結(jié)果
如表5所示,在預(yù)測的14個(gè)月中,預(yù)測正確13個(gè)月,整體預(yù)測準(zhǔn)確率為92.86%,再次驗(yàn)證了本文所提預(yù)測方法的可行性。預(yù)測錯(cuò)誤的月份為2019年4月,標(biāo)記趨勢值為1,趨勢等級為C2,預(yù)測結(jié)果為C1,考慮到前幾個(gè)月的新聞事件中并未出現(xiàn)與核行為潛在的相關(guān)事件,2018年4月20日朝鮮最高領(lǐng)導(dǎo)人宣布停止核和導(dǎo)彈實(shí)驗(yàn),且在2018年9月朝鮮最高領(lǐng)導(dǎo)人承諾實(shí)現(xiàn)半島無核化,因此,2019年4月的射導(dǎo)帶有突發(fā)性質(zhì)。
本文針對重大事件趨勢預(yù)測的研究思路從傳統(tǒng)基于頻次統(tǒng)計(jì)的角度轉(zhuǎn)換到面向事件認(rèn)知的角度,構(gòu)建了事件語義關(guān)聯(lián)圖,提出了基于圖卷積網(wǎng)絡(luò)的重大事件趨勢預(yù)測方法,在朝鮮核行為趨勢預(yù)測問題上,測試集準(zhǔn)確率達(dá)到76.92%,全時(shí)段準(zhǔn)確率為89.58%,驗(yàn)證了所提出方法的有效性與可行性。隨著事件抽取技術(shù)的發(fā)展,事件數(shù)據(jù)信息有進(jìn)一步優(yōu)化的空間,本文所構(gòu)建的事件語義關(guān)聯(lián)圖是利用事件屬性相關(guān)聯(lián)的間接事件關(guān)聯(lián)圖,對于事件間直接關(guān)系的識別也是當(dāng)前研究的熱點(diǎn)與難點(diǎn),如何建立事件間的直接關(guān)聯(lián),提升事件語義關(guān)聯(lián)圖的置信度,將是下一階段研究的重點(diǎn)。