孫小川,吳 警,尹浩然,蘆天亮
(中國人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院, 北京 102600)
近年來,伴隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,自然語言處理領(lǐng)域中的事件抽取技術(shù)在很多方面有了新的進(jìn)展,并得到了廣泛應(yīng)用,如搜索引擎、文本分類和輿情分析等[1]?;ヂ?lián)網(wǎng)中公開文本語料庫和大規(guī)模真實書面文本語料庫的廣泛使用,使得事件抽取技術(shù)越來越依賴于統(tǒng)計機(jī)器學(xué)習(xí)的方法,進(jìn)一步促進(jìn)了事件抽取技術(shù)發(fā)展。
事件是由事件觸發(fā)詞標(biāo)識,關(guān)聯(lián)了參與者、時間和環(huán)境等要素組成[2],而事件抽取是從非結(jié)構(gòu)化信息中抽取出用戶關(guān)注的事件,并且以一定的形式呈現(xiàn)給用戶。事件抽取主要包含兩個步驟[3]:一是對事件的識別,二是對識別出的事件進(jìn)行分析,進(jìn)而抽取事件要素。而事件識別中,觸發(fā)詞識別是事件抽取的核心任務(wù)之一,也是判定事件類型的基礎(chǔ)[4]。因此,事件觸發(fā)詞的識別既能表征事件識別,也能奠定事件抽取基礎(chǔ)。網(wǎng)絡(luò)文本中存在海量、篇幅較短且原創(chuàng)性較高的數(shù)據(jù)文本,但文本數(shù)據(jù)規(guī)范性程度較低,存在大量文本片段指向同一事件主題或社會現(xiàn)象。當(dāng)前事件抽取主要通過觸發(fā)詞示別、文本聚類和關(guān)鍵詞抽取等方法進(jìn)行事件檢測,存在抽取精度不足,事件冗余和事件粒度較粗等問題,無法精細(xì)化描述事件信息。為此,文中提出一種融合模型進(jìn)行事件觸發(fā)詞識別方法,旨在從低規(guī)范化的網(wǎng)絡(luò)文本中準(zhǔn)確抽取突發(fā)事件信息,提升觸發(fā)詞識別準(zhǔn)確率,進(jìn)而提高事件檢測精度。
近年來,觸發(fā)詞識別研究已經(jīng)取得許多成果,研究大致分成如下兩大類:基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法。
模式匹配方法是通過尋求一定的模式匹配規(guī)則,在文本數(shù)據(jù)串中尋求一個模式串的匹配結(jié)果,是數(shù)據(jù)檢索的核心[5]。李培峰等[6]采用基于核心論元和輔助論元的規(guī)則構(gòu)建方法進(jìn)行了觸發(fā)詞的識別實驗,F(xiàn)值為70.4%;孟環(huán)建等[7]采用基于依存句法的規(guī)則匹配方法進(jìn)行了事件識別實驗,F(xiàn)值為67.1%?;谀J狡ヅ涞姆椒ㄓ|發(fā)詞識別中人工工作量大、效率和識別率偏低。當(dāng)前,觸發(fā)詞研究集中于采用機(jī)器學(xué)習(xí)的方式。
基于機(jī)器學(xué)習(xí)的方法通常將詞向量做為輸入特征進(jìn)行模型訓(xùn)練,并進(jìn)行觸發(fā)詞的識別,模型訓(xùn)練中又有單一模型和融合模型識別。基于單一模型的方法中,王紅斌等[8]采用神經(jīng)網(wǎng)絡(luò)作為分類器,將詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入對事件句的語義進(jìn)行分類,并在CEC語料庫進(jìn)行實驗,取得較好結(jié)果;何馨宇等[9]采用了雙向長短時記憶神經(jīng)網(wǎng)絡(luò),將詞向量以及所有單詞對應(yīng)的預(yù)訓(xùn)練詞向量和微調(diào)后詞向量的差值求和取平均得到的句子向量做為特征輸入,進(jìn)行觸發(fā)詞識別,并在MLEE語料庫中進(jìn)行了觸發(fā)詞的識別實驗,F(xiàn)值分別為73.62%和77.13%;Yubo Chen等[10]使用動態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)對句子中的每個單詞進(jìn)行分類從而識別觸發(fā)詞,并在ACE語料庫中進(jìn)行了實驗,F(xiàn)值為69.1%。基于單一模型的方法中,雖然事件觸發(fā)詞識別模型訓(xùn)練快捷,識別率較傳統(tǒng)有所提高,但是建立準(zhǔn)確的模型需要進(jìn)行大量實驗和學(xué)習(xí),學(xué)習(xí)周期長,實驗效果并不是很理想。
基于融合模型的方法一般將多種識別方法相結(jié)合,構(gòu)建一個融合多種方法的新模型。蘇曉丹等[11]采用了一種將規(guī)則與二值分類相結(jié)合的混合模型方法,并在人民日報的年全語料中隨機(jī)抽取500篇文本進(jìn)行實驗,F(xiàn)值為68%;陳亞東等[12]將高置信度詞典的特征分別加入到最大熵和條件隨機(jī)場模型當(dāng)中,融合兩個模型進(jìn)行觸發(fā)詞的識別,并在KBP2015英文語料庫中進(jìn)行實驗,實驗結(jié)果相比于ME最大熵模型的F值59.03%,融合模型進(jìn)行觸發(fā)詞識別F值為65.46%,F(xiàn)值提高了6.43%?;谌诤夏P偷姆椒ㄖ校|發(fā)詞識別模型訓(xùn)練高效,同時避免了大量人工工作,兼顧了識別準(zhǔn)確率,也是本文采用的觸發(fā)詞識別方法。
本節(jié)實現(xiàn)基于擴(kuò)展觸發(fā)詞表的觸發(fā)詞識別,其主要包括以下兩個步驟[13]:
(1)語料庫中去除停用詞后采用統(tǒng)計學(xué)習(xí)計算出高頻詞,以此構(gòu)建出原始觸發(fā)詞表,進(jìn)而采用同義詞林[14]擴(kuò)展技術(shù)在語料庫中進(jìn)行擴(kuò)展,得到擴(kuò)展觸發(fā)詞表;
(2)在擴(kuò)展觸發(fā)詞表基礎(chǔ)上創(chuàng)建候選觸發(fā)詞集,通過計算候選觸發(fā)詞權(quán)重比,選取權(quán)重比較大的候選觸發(fā)詞作為事件觸發(fā)詞。
文中沿用對中文事件和事件要素標(biāo)注較全面的CEC語料庫[15]構(gòu)建原始觸發(fā)詞表。通過統(tǒng)計學(xué)習(xí)對CEC語料庫進(jìn)行統(tǒng)計研究,并整理出語料中出現(xiàn)頻率較高5類事件及各類事件的觸發(fā)詞,原始觸發(fā)詞統(tǒng)計結(jié)果如表1所示。
表1 原始觸發(fā)詞統(tǒng)計表
文中結(jié)合人工檢查并采用哈爾濱工業(yè)大學(xué)同義詞林[16]對原始觸發(fā)詞表進(jìn)行擴(kuò)展,擴(kuò)展規(guī)則如下:
(1)從原始觸發(fā)詞表中提取事件類型主題詞,對其進(jìn)行同義詞林?jǐn)U展,得到其相對應(yīng)的詞匯集;
(2)為避免原始觸發(fā)詞過度擴(kuò)展,篩選詞語編碼的前三級詞語,篩選后的詞語表達(dá)意義相似,符合原始觸發(fā)詞擴(kuò)展;
(3)最后進(jìn)行人工篩選,選擇事件觸發(fā)詞,得到擴(kuò)展后的事件觸發(fā)詞表。
經(jīng)過擴(kuò)展后的觸發(fā)詞表如表2所示:
首先,對文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,文中使用結(jié)巴分詞[17]工具,包括分詞、詞性標(biāo)注和分句等步驟;其次,從預(yù)處理后的按照文獻(xiàn)[18]的研究結(jié)果從文本中篩選出觸發(fā)詞詞性,縮小候選觸發(fā)詞集范圍;最后,計算并選取觸發(fā)詞權(quán)重比較高的詞作為事件觸發(fā)詞。
詞語是表達(dá)文本處理的最基本單元,因此,文中基于word2vec技術(shù)[19]生成詞向量,采用詞頻- 逆文檔頻次算法來計算詞權(quán)重,計算公式如下[20]:
其中wi為候選觸發(fā)詞,ni為候選觸發(fā)詞wi在語料庫中觸發(fā)的事件總數(shù),mi為訓(xùn)練語料中該類事件總數(shù),Ni為全部訓(xùn)練語料中句子總數(shù),Mi為含有觸發(fā)詞wi為的句子總數(shù),scorei代表觸發(fā)詞的權(quán)重。
上述公式中,TF為詞頻,它反映觸發(fā)詞對整個事件的貢獻(xiàn)程度;IDF為逆文本頻率指數(shù),它過濾掉常見的詞語。將權(quán)重較大的候選觸發(fā)詞作為突發(fā)事件觸發(fā)詞。該方式基于詞向量模型,僅考慮數(shù)據(jù)統(tǒng)計特征信息,收斂速度快,但是選取特征單一,人工工作量較大,觸發(fā)詞識別率偏低。
鑒于詞向量模型中觸發(fā)詞識別率偏低,文中借鑒融合模型的方式提出基于P- Multi模型的觸發(fā)詞識別,并在特征選取中考慮文本語義信息[21],對微博突發(fā)事件進(jìn)行觸發(fā)詞識別。本節(jié)在擴(kuò)展觸發(fā)詞表的基礎(chǔ)上,構(gòu)建事件觸發(fā)詞模式匹配規(guī)則,分析文本中潛在語義,進(jìn)而完成對微博突發(fā)事件中觸發(fā)詞的識別,基于P- Multi模型的觸發(fā)詞識別總體流程圖如圖1所示:
圖1 基于P- Multi模型觸發(fā)詞識別流程圖
基于P- Multi模型的觸發(fā)詞識別,其主要包括以下3個步驟:
(1)對數(shù)據(jù)進(jìn)行預(yù)處理,分析語料庫中數(shù)據(jù)統(tǒng)計特征信息,并進(jìn)行依存句法分析[22],凝練出詞對間依存關(guān)系,建立模式匹配規(guī)則;
(2)對預(yù)處理后的文本數(shù)據(jù)逐一進(jìn)行模式規(guī)則匹配和語義信息提取,模式匹配基礎(chǔ)上結(jié)合潛在語義分析,得到候選觸發(fā)詞集;
(3)重復(fù)以上步驟,并對得到的候選觸發(fā)詞集與基于擴(kuò)展觸發(fā)詞表識別出的觸發(fā)詞集進(jìn)行相似度比較,篩選出權(quán)重較大的候選觸發(fā)詞作為事件觸發(fā)詞。
句子的構(gòu)成單元是詞,文中利用哈爾濱工業(yè)大學(xué)的語言云平臺[23]對語料庫進(jìn)行依存句法分析后發(fā)現(xiàn)觸發(fā)詞是滿足一定的句法關(guān)系,且這些句法關(guān)系有規(guī)律可循,并非雜亂無章[24]。因此,本文根據(jù)依存句法分析結(jié)果,總結(jié)出以下6種主要依存關(guān)系,如表3所示。
根據(jù)上面分析,利用詞對間依存關(guān)系,本文制定了如下抽取規(guī)則:
(1)規(guī)則1:當(dāng)句中存在ATT關(guān)系類型,候選觸發(fā)詞可能處于謂語位置,那么識別〈ATT的核心詞〉;
(2)規(guī)則2:當(dāng)句中存在CMP關(guān)系類型,候選觸發(fā)詞可能處于動補(bǔ)結(jié)構(gòu)中,那么識別〈CMP的核心詞〉;
(3)規(guī)則3:當(dāng)句中存在SBV關(guān)系類型,候選觸發(fā)詞可能處于主語、謂語位置,那么識別〈SBV的修飾詞,SBV的核心詞〉;
(4)規(guī)則4:當(dāng)句中存在VOB關(guān)系類型,候選觸發(fā)詞可能為SBV的核心詞和VOB的核心詞,那么識別〈VOB的核心詞〉;
(5)規(guī)則5:當(dāng)句中存在FOB關(guān)系類型,候選觸發(fā)詞可能為FOB的核心詞和ADV的核心詞,那么識別〈FOB的核心詞〉;
(6)規(guī)則6:當(dāng)句中存在ADV關(guān)系類型,候選觸發(fā)詞可能處于狀中結(jié)構(gòu)中,那么識別〈ADV的核心詞〉。
根據(jù)主要依存關(guān)系,對語料庫進(jìn)行訓(xùn)練,按照抽取規(guī)則初步篩選出候選觸發(fā)詞詞對,下一步篩選出候選觸發(fā)詞集。
LSA(Latent Semantic Analysis,潛在語義分析)算法[25]是為了解決傳統(tǒng)向量空間模型對文本的語義信息利用能力匱乏的問題,由美國貝爾通訊實驗室S.T.Dumais首次提出,全面和完整的闡述了潛在語義分析在提取文本語義上的實現(xiàn)方法,主要步驟包括以下4個步驟:
(1)對文本進(jìn)行向量化;
(2)將所有的詞向量拼接起來構(gòu)成詞- 文本矩陣,并進(jìn)行SVD(奇異值分解)操作;
(3)根據(jù)SVD結(jié)果將詞- 文本矩陣降維到一個低維度的語義空間中,以此近似表達(dá)SVD結(jié)果,通常情況下會考慮降維過程中數(shù)據(jù)保留方差百分比,用語義維度權(quán)重K表示;
(4)每個詞和文本都可以表示為低維度空間中的一個點,通過計算KL相似度[26],選取相似度低于語義維度權(quán)重K的詞加入候選觸發(fā)詞集。
文中在盡可能減少信息損失的情況下對特征數(shù)據(jù)進(jìn)行降維,因此文中采用PCA[27](Principal Component Analysis,主成分分析)方法對犯罪數(shù)據(jù)進(jìn)行降維,該算法會考慮降維過程中數(shù)據(jù)保留方差百分比,其計算公式為:
其中,k為數(shù)據(jù)保留方差百分比,λj為協(xié)方差矩陣的第j個特征值。
降維過程中數(shù)據(jù)保留方差百分比越大,語義信息保存越完整,文中當(dāng)K=0.5時,基于潛在語義分析識別候選觸發(fā)詞集如表4所示。
表4 潛在語義分析識別候選觸發(fā)詞集表
在結(jié)合模式匹配和潛在語義分析基礎(chǔ)上得到基于多值(P- Multi)確定的候選觸發(fā)詞集,為進(jìn)一步提升觸發(fā)詞識別準(zhǔn)確率,將該候選觸發(fā)詞集與基于擴(kuò)展觸發(fā)詞表識別出的觸發(fā)詞進(jìn)行相似度分析,文中基于哈爾濱工業(yè)大學(xué)同義詞詞林?jǐn)U展版計算詞語相似度[28],選取相似度較高的候選觸發(fā)詞作為觸發(fā)詞。
本文實驗階段所采用文本數(shù)據(jù)主要來源于微博和CEC語料庫,其中模型訓(xùn)練階段實驗數(shù)據(jù)選用中文突發(fā)事件語料庫進(jìn)行訓(xùn)練,突發(fā)事件語料庫的分類體系包括3個層次,標(biāo)注的中文突發(fā)事件語料庫主要包括地震、交通事故、恐怖襲擊、食物中毒和火災(zāi)5個類別,總共332篇;微博數(shù)據(jù)通過爬蟲爬取,剔除無效數(shù)據(jù),保留了14 257條微博文本數(shù)據(jù)作為測試集。
模型評價標(biāo)準(zhǔn)采用通用的評價指標(biāo):準(zhǔn)確率(precision)、召回率(recall)以及兩者結(jié)合計算得到的F值(F1-measure)對事件觸發(fā)詞識別性能進(jìn)行評價。具體定義如下[29]:
Correct:如果模型識別為觸發(fā)詞與人工標(biāo)注為觸發(fā)詞相同;
Incorrect:如果模型識別為觸發(fā)詞與人工標(biāo)注為觸發(fā)詞不同;
Missing:如果人工標(biāo)注為觸發(fā)詞,但模型未識別;
Spurious:如果模型識別為觸發(fā)詞,但人工未標(biāo)注;
通過使用以下參數(shù)評價模型性能:
文中對語料庫進(jìn)行數(shù)據(jù)預(yù)處理并統(tǒng)計分析,多次訓(xùn)練語料庫,使模型趨于穩(wěn)定,而后針對人工標(biāo)注的微博數(shù)據(jù)進(jìn)行測試,通過實驗結(jié)果衡量和評估模型性能。
實驗中在觸發(fā)詞識別中涉及到的語義維度權(quán)重,需要設(shè)置閾值提取文本語義信息,參數(shù)設(shè)置對實驗結(jié)果具有一定影響,模型中語義維度權(quán)重因子對實驗結(jié)果影響如圖2,圖3所示。
圖2 語義維度權(quán)重—準(zhǔn)確率關(guān)系圖
圖3 語義維度權(quán)重—召回率關(guān)系圖
從圖中分析可知,當(dāng)設(shè)置語義維度權(quán)重較大時,觸發(fā)詞識別準(zhǔn)確率呈現(xiàn)上升趨勢;相反,觸發(fā)詞識別召回率卻呈現(xiàn)下降趨勢。由此可見,觸發(fā)詞識別中考慮文中語義信息多時,對觸發(fā)詞精準(zhǔn)識別具有明顯提升。
但是在事件觸發(fā)詞識別中,僅僅考慮識別準(zhǔn)確率是不夠的,還應(yīng)考慮召回率,模型訓(xùn)練中涉及到的觸發(fā)詞相似度權(quán)重因子對實驗結(jié)果同樣具有一定影響,相似度權(quán)重因子對實驗結(jié)果影響如圖4、圖5所示。
圖4 相似度權(quán)重—準(zhǔn)確率影響圖
圖5 相似度權(quán)重—召回率影響圖
進(jìn)一步分析可知,當(dāng)相似度權(quán)重較大時,觸發(fā)詞識別準(zhǔn)確率呈現(xiàn)下降趨勢,觸發(fā)詞識別召回率呈現(xiàn)上升趨勢。當(dāng)相似度權(quán)重接近于1時,基于融合模型方法與基于模式匹配方法結(jié)果接近。
文中進(jìn)行多次實驗,進(jìn)一步衡量模型優(yōu)劣,實驗結(jié)果取多次實驗結(jié)果平均值,實驗結(jié)果如表5所示。
表5 模型衡量指標(biāo)表
文中通過突發(fā)事件觸發(fā)詞識別率之和來描述事件檢測的準(zhǔn)確性,通過表5可以看出,基于P- Multi模型在觸發(fā)詞檢測階段P值之和為2.83,基于擴(kuò)展觸發(fā)詞表在觸發(fā)詞檢測階段P值之和為2.59,P值提高了0.24;同理,R值提高了0.35,F(xiàn)值提高了0.28。為進(jìn)一步衡量模型的有效性,文中將觸發(fā)詞識別結(jié)果進(jìn)行均值化處理并與其他觸發(fā)詞識別方法的實驗結(jié)果進(jìn)行對比,對比結(jié)果如表6所示。
表6 實驗結(jié)果對比表
通過表6中分析可知,定義模式規(guī)則,采用模式匹配方法對事件觸發(fā)詞進(jìn)行識別中將文本數(shù)據(jù)規(guī)范化,在文本數(shù)據(jù)中查找所有符合規(guī)則定義的字符串,雖然方法簡單易行,但是識別準(zhǔn)確率偏低,P值為45.01%;為此,對模式匹配方式中抽取出的觸發(fā)詞進(jìn)行觸發(fā)詞擴(kuò)展,充實原始觸發(fā)詞列表,以期提升觸發(fā)詞識別準(zhǔn)確率,此方法較與模式匹配方式有所改進(jìn),局限在識別思路同樣基于規(guī)則匹配,觸發(fā)詞識別準(zhǔn)確率對比模式匹配方法實驗結(jié)果略有提升,P值為51.84%。以上兩種方式僅關(guān)注于觸發(fā)詞本身特征,在識別準(zhǔn)確率上均較低;文中結(jié)合機(jī)器學(xué)習(xí)和模式匹配方法形成融合模型,融入語義特征識別觸發(fā)詞并進(jìn)行多分類,觸發(fā)詞識別準(zhǔn)確率較前兩種方法有所提高,P值為56.72%,實驗結(jié)果表明,基于P- Multi模型的觸發(fā)詞識別較傳統(tǒng)擴(kuò)展觸發(fā)詞表的識別方法準(zhǔn)確率、召回率和F值均有所提高,通過實驗證明了文中觸發(fā)詞識別方法的有效性。
本文的工作在語料庫處理和機(jī)器學(xué)習(xí)模型訓(xùn)練方面做了初步改進(jìn),語料庫處理不僅要注重觸發(fā)詞本身還需要融合其他特征對觸發(fā)詞進(jìn)行學(xué)習(xí)、訓(xùn)練,并對測試集中觸發(fā)詞進(jìn)行抽取識別,實驗結(jié)果基本令人滿意。但是實驗方法仍然有待改善,一方面,語料庫選取著重針對突發(fā)事件,選取面并不廣泛;另一方面,觸發(fā)詞識別和權(quán)重計算過程中涉及的權(quán)重因子對實驗結(jié)果也具有一定影響,特別是融合模型中容易造成級聯(lián)誤差,影響模型性能。下一步研究工作是選取合適方法對微博數(shù)據(jù)進(jìn)行噪聲過濾,保證高質(zhì)量數(shù)據(jù)。同時,嘗試采用多種機(jī)器學(xué)習(xí)模型進(jìn)行對比實驗,減少實驗誤差,進(jìn)一步改善觸發(fā)詞識別模型。
微博作為用戶關(guān)系信息分享平臺,逐漸成為突發(fā)事件傳播的主要載體,對于曾經(jīng)發(fā)生過突發(fā)事件的輿情爆發(fā),應(yīng)該予以重視[30]。文中通過對語料庫進(jìn)行數(shù)據(jù)統(tǒng)計分析,并采用融合模型訓(xùn)練的方法對微博文本數(shù)據(jù)進(jìn)行了觸發(fā)詞識別,以此來及時發(fā)現(xiàn)微博中的突發(fā)事件,為輿情指導(dǎo)提供相應(yīng)理論支撐,實驗結(jié)果還有待提升。在下一步的工作中會對觸發(fā)詞的精準(zhǔn)識別和事件要素抽取等問題進(jìn)行更加深入研究,以期找到一種能融合觸發(fā)詞識別和事件要素抽取的快速尋優(yōu)方法來改善模型。