孫小川,吳 警,尹浩然,蘆天亮
(中國(guó)人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院, 北京 102600)
近年來(lái),伴隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,自然語(yǔ)言處理領(lǐng)域中的事件抽取技術(shù)在很多方面有了新的進(jìn)展,并得到了廣泛應(yīng)用,如搜索引擎、文本分類(lèi)和輿情分析等[1]?;ヂ?lián)網(wǎng)中公開(kāi)文本語(yǔ)料庫(kù)和大規(guī)模真實(shí)書(shū)面文本語(yǔ)料庫(kù)的廣泛使用,使得事件抽取技術(shù)越來(lái)越依賴(lài)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,進(jìn)一步促進(jìn)了事件抽取技術(shù)發(fā)展。
事件是由事件觸發(fā)詞標(biāo)識(shí),關(guān)聯(lián)了參與者、時(shí)間和環(huán)境等要素組成[2],而事件抽取是從非結(jié)構(gòu)化信息中抽取出用戶(hù)關(guān)注的事件,并且以一定的形式呈現(xiàn)給用戶(hù)。事件抽取主要包含兩個(gè)步驟[3]:一是對(duì)事件的識(shí)別,二是對(duì)識(shí)別出的事件進(jìn)行分析,進(jìn)而抽取事件要素。而事件識(shí)別中,觸發(fā)詞識(shí)別是事件抽取的核心任務(wù)之一,也是判定事件類(lèi)型的基礎(chǔ)[4]。因此,事件觸發(fā)詞的識(shí)別既能表征事件識(shí)別,也能奠定事件抽取基礎(chǔ)。網(wǎng)絡(luò)文本中存在海量、篇幅較短且原創(chuàng)性較高的數(shù)據(jù)文本,但文本數(shù)據(jù)規(guī)范性程度較低,存在大量文本片段指向同一事件主題或社會(huì)現(xiàn)象。當(dāng)前事件抽取主要通過(guò)觸發(fā)詞示別、文本聚類(lèi)和關(guān)鍵詞抽取等方法進(jìn)行事件檢測(cè),存在抽取精度不足,事件冗余和事件粒度較粗等問(wèn)題,無(wú)法精細(xì)化描述事件信息。為此,文中提出一種融合模型進(jìn)行事件觸發(fā)詞識(shí)別方法,旨在從低規(guī)范化的網(wǎng)絡(luò)文本中準(zhǔn)確抽取突發(fā)事件信息,提升觸發(fā)詞識(shí)別準(zhǔn)確率,進(jìn)而提高事件檢測(cè)精度。
近年來(lái),觸發(fā)詞識(shí)別研究已經(jīng)取得許多成果,研究大致分成如下兩大類(lèi):基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法。
模式匹配方法是通過(guò)尋求一定的模式匹配規(guī)則,在文本數(shù)據(jù)串中尋求一個(gè)模式串的匹配結(jié)果,是數(shù)據(jù)檢索的核心[5]。李培峰等[6]采用基于核心論元和輔助論元的規(guī)則構(gòu)建方法進(jìn)行了觸發(fā)詞的識(shí)別實(shí)驗(yàn),F(xiàn)值為70.4%;孟環(huán)建等[7]采用基于依存句法的規(guī)則匹配方法進(jìn)行了事件識(shí)別實(shí)驗(yàn),F(xiàn)值為67.1%?;谀J狡ヅ涞姆椒ㄓ|發(fā)詞識(shí)別中人工工作量大、效率和識(shí)別率偏低。當(dāng)前,觸發(fā)詞研究集中于采用機(jī)器學(xué)習(xí)的方式。
基于機(jī)器學(xué)習(xí)的方法通常將詞向量做為輸入特征進(jìn)行模型訓(xùn)練,并進(jìn)行觸發(fā)詞的識(shí)別,模型訓(xùn)練中又有單一模型和融合模型識(shí)別?;趩我荒P偷姆椒ㄖ?,王紅斌等[8]采用神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,將詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入對(duì)事件句的語(yǔ)義進(jìn)行分類(lèi),并在CEC語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),取得較好結(jié)果;何馨宇等[9]采用了雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),將詞向量以及所有單詞對(duì)應(yīng)的預(yù)訓(xùn)練詞向量和微調(diào)后詞向量的差值求和取平均得到的句子向量做為特征輸入,進(jìn)行觸發(fā)詞識(shí)別,并在MLEE語(yǔ)料庫(kù)中進(jìn)行了觸發(fā)詞的識(shí)別實(shí)驗(yàn),F(xiàn)值分別為73.62%和77.13%;Yubo Chen等[10]使用動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子中的每個(gè)單詞進(jìn)行分類(lèi)從而識(shí)別觸發(fā)詞,并在ACE語(yǔ)料庫(kù)中進(jìn)行了實(shí)驗(yàn),F(xiàn)值為69.1%?;趩我荒P偷姆椒ㄖ?,雖然事件觸發(fā)詞識(shí)別模型訓(xùn)練快捷,識(shí)別率較傳統(tǒng)有所提高,但是建立準(zhǔn)確的模型需要進(jìn)行大量實(shí)驗(yàn)和學(xué)習(xí),學(xué)習(xí)周期長(zhǎng),實(shí)驗(yàn)效果并不是很理想。
基于融合模型的方法一般將多種識(shí)別方法相結(jié)合,構(gòu)建一個(gè)融合多種方法的新模型。蘇曉丹等[11]采用了一種將規(guī)則與二值分類(lèi)相結(jié)合的混合模型方法,并在人民日?qǐng)?bào)的年全語(yǔ)料中隨機(jī)抽取500篇文本進(jìn)行實(shí)驗(yàn),F(xiàn)值為68%;陳亞?wèn)|等[12]將高置信度詞典的特征分別加入到最大熵和條件隨機(jī)場(chǎng)模型當(dāng)中,融合兩個(gè)模型進(jìn)行觸發(fā)詞的識(shí)別,并在KBP2015英文語(yǔ)料庫(kù)中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果相比于ME最大熵模型的F值59.03%,融合模型進(jìn)行觸發(fā)詞識(shí)別F值為65.46%,F(xiàn)值提高了6.43%?;谌诤夏P偷姆椒ㄖ?,觸發(fā)詞識(shí)別模型訓(xùn)練高效,同時(shí)避免了大量人工工作,兼顧了識(shí)別準(zhǔn)確率,也是本文采用的觸發(fā)詞識(shí)別方法。
本節(jié)實(shí)現(xiàn)基于擴(kuò)展觸發(fā)詞表的觸發(fā)詞識(shí)別,其主要包括以下兩個(gè)步驟[13]:
(1)語(yǔ)料庫(kù)中去除停用詞后采用統(tǒng)計(jì)學(xué)習(xí)計(jì)算出高頻詞,以此構(gòu)建出原始觸發(fā)詞表,進(jìn)而采用同義詞林[14]擴(kuò)展技術(shù)在語(yǔ)料庫(kù)中進(jìn)行擴(kuò)展,得到擴(kuò)展觸發(fā)詞表;
(2)在擴(kuò)展觸發(fā)詞表基礎(chǔ)上創(chuàng)建候選觸發(fā)詞集,通過(guò)計(jì)算候選觸發(fā)詞權(quán)重比,選取權(quán)重比較大的候選觸發(fā)詞作為事件觸發(fā)詞。
文中沿用對(duì)中文事件和事件要素標(biāo)注較全面的CEC語(yǔ)料庫(kù)[15]構(gòu)建原始觸發(fā)詞表。通過(guò)統(tǒng)計(jì)學(xué)習(xí)對(duì)CEC語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)研究,并整理出語(yǔ)料中出現(xiàn)頻率較高5類(lèi)事件及各類(lèi)事件的觸發(fā)詞,原始觸發(fā)詞統(tǒng)計(jì)結(jié)果如表1所示。
表1 原始觸發(fā)詞統(tǒng)計(jì)表
文中結(jié)合人工檢查并采用哈爾濱工業(yè)大學(xué)同義詞林[16]對(duì)原始觸發(fā)詞表進(jìn)行擴(kuò)展,擴(kuò)展規(guī)則如下:
(1)從原始觸發(fā)詞表中提取事件類(lèi)型主題詞,對(duì)其進(jìn)行同義詞林?jǐn)U展,得到其相對(duì)應(yīng)的詞匯集;
(2)為避免原始觸發(fā)詞過(guò)度擴(kuò)展,篩選詞語(yǔ)編碼的前三級(jí)詞語(yǔ),篩選后的詞語(yǔ)表達(dá)意義相似,符合原始觸發(fā)詞擴(kuò)展;
(3)最后進(jìn)行人工篩選,選擇事件觸發(fā)詞,得到擴(kuò)展后的事件觸發(fā)詞表。
經(jīng)過(guò)擴(kuò)展后的觸發(fā)詞表如表2所示:
首先,對(duì)文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,文中使用結(jié)巴分詞[17]工具,包括分詞、詞性標(biāo)注和分句等步驟;其次,從預(yù)處理后的按照文獻(xiàn)[18]的研究結(jié)果從文本中篩選出觸發(fā)詞詞性,縮小候選觸發(fā)詞集范圍;最后,計(jì)算并選取觸發(fā)詞權(quán)重比較高的詞作為事件觸發(fā)詞。
詞語(yǔ)是表達(dá)文本處理的最基本單元,因此,文中基于word2vec技術(shù)[19]生成詞向量,采用詞頻- 逆文檔頻次算法來(lái)計(jì)算詞權(quán)重,計(jì)算公式如下[20]:
其中wi為候選觸發(fā)詞,ni為候選觸發(fā)詞wi在語(yǔ)料庫(kù)中觸發(fā)的事件總數(shù),mi為訓(xùn)練語(yǔ)料中該類(lèi)事件總數(shù),Ni為全部訓(xùn)練語(yǔ)料中句子總數(shù),Mi為含有觸發(fā)詞wi為的句子總數(shù),scorei代表觸發(fā)詞的權(quán)重。
上述公式中,TF為詞頻,它反映觸發(fā)詞對(duì)整個(gè)事件的貢獻(xiàn)程度;IDF為逆文本頻率指數(shù),它過(guò)濾掉常見(jiàn)的詞語(yǔ)。將權(quán)重較大的候選觸發(fā)詞作為突發(fā)事件觸發(fā)詞。該方式基于詞向量模型,僅考慮數(shù)據(jù)統(tǒng)計(jì)特征信息,收斂速度快,但是選取特征單一,人工工作量較大,觸發(fā)詞識(shí)別率偏低。
鑒于詞向量模型中觸發(fā)詞識(shí)別率偏低,文中借鑒融合模型的方式提出基于P- Multi模型的觸發(fā)詞識(shí)別,并在特征選取中考慮文本語(yǔ)義信息[21],對(duì)微博突發(fā)事件進(jìn)行觸發(fā)詞識(shí)別。本節(jié)在擴(kuò)展觸發(fā)詞表的基礎(chǔ)上,構(gòu)建事件觸發(fā)詞模式匹配規(guī)則,分析文本中潛在語(yǔ)義,進(jìn)而完成對(duì)微博突發(fā)事件中觸發(fā)詞的識(shí)別,基于P- Multi模型的觸發(fā)詞識(shí)別總體流程圖如圖1所示:
圖1 基于P- Multi模型觸發(fā)詞識(shí)別流程圖
基于P- Multi模型的觸發(fā)詞識(shí)別,其主要包括以下3個(gè)步驟:
(1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分析語(yǔ)料庫(kù)中數(shù)據(jù)統(tǒng)計(jì)特征信息,并進(jìn)行依存句法分析[22],凝練出詞對(duì)間依存關(guān)系,建立模式匹配規(guī)則;
(2)對(duì)預(yù)處理后的文本數(shù)據(jù)逐一進(jìn)行模式規(guī)則匹配和語(yǔ)義信息提取,模式匹配基礎(chǔ)上結(jié)合潛在語(yǔ)義分析,得到候選觸發(fā)詞集;
(3)重復(fù)以上步驟,并對(duì)得到的候選觸發(fā)詞集與基于擴(kuò)展觸發(fā)詞表識(shí)別出的觸發(fā)詞集進(jìn)行相似度比較,篩選出權(quán)重較大的候選觸發(fā)詞作為事件觸發(fā)詞。
句子的構(gòu)成單元是詞,文中利用哈爾濱工業(yè)大學(xué)的語(yǔ)言云平臺(tái)[23]對(duì)語(yǔ)料庫(kù)進(jìn)行依存句法分析后發(fā)現(xiàn)觸發(fā)詞是滿(mǎn)足一定的句法關(guān)系,且這些句法關(guān)系有規(guī)律可循,并非雜亂無(wú)章[24]。因此,本文根據(jù)依存句法分析結(jié)果,總結(jié)出以下6種主要依存關(guān)系,如表3所示。
根據(jù)上面分析,利用詞對(duì)間依存關(guān)系,本文制定了如下抽取規(guī)則:
(1)規(guī)則1:當(dāng)句中存在ATT關(guān)系類(lèi)型,候選觸發(fā)詞可能處于謂語(yǔ)位置,那么識(shí)別〈ATT的核心詞〉;
(2)規(guī)則2:當(dāng)句中存在CMP關(guān)系類(lèi)型,候選觸發(fā)詞可能處于動(dòng)補(bǔ)結(jié)構(gòu)中,那么識(shí)別〈CMP的核心詞〉;
(3)規(guī)則3:當(dāng)句中存在SBV關(guān)系類(lèi)型,候選觸發(fā)詞可能處于主語(yǔ)、謂語(yǔ)位置,那么識(shí)別〈SBV的修飾詞,SBV的核心詞〉;
(4)規(guī)則4:當(dāng)句中存在VOB關(guān)系類(lèi)型,候選觸發(fā)詞可能為SBV的核心詞和VOB的核心詞,那么識(shí)別〈VOB的核心詞〉;
(5)規(guī)則5:當(dāng)句中存在FOB關(guān)系類(lèi)型,候選觸發(fā)詞可能為FOB的核心詞和ADV的核心詞,那么識(shí)別〈FOB的核心詞〉;
(6)規(guī)則6:當(dāng)句中存在ADV關(guān)系類(lèi)型,候選觸發(fā)詞可能處于狀中結(jié)構(gòu)中,那么識(shí)別〈ADV的核心詞〉。
根據(jù)主要依存關(guān)系,對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,按照抽取規(guī)則初步篩選出候選觸發(fā)詞詞對(duì),下一步篩選出候選觸發(fā)詞集。
LSA(Latent Semantic Analysis,潛在語(yǔ)義分析)算法[25]是為了解決傳統(tǒng)向量空間模型對(duì)文本的語(yǔ)義信息利用能力匱乏的問(wèn)題,由美國(guó)貝爾通訊實(shí)驗(yàn)室S.T.Dumais首次提出,全面和完整的闡述了潛在語(yǔ)義分析在提取文本語(yǔ)義上的實(shí)現(xiàn)方法,主要步驟包括以下4個(gè)步驟:
(1)對(duì)文本進(jìn)行向量化;
(2)將所有的詞向量拼接起來(lái)構(gòu)成詞- 文本矩陣,并進(jìn)行SVD(奇異值分解)操作;
(3)根據(jù)SVD結(jié)果將詞- 文本矩陣降維到一個(gè)低維度的語(yǔ)義空間中,以此近似表達(dá)SVD結(jié)果,通常情況下會(huì)考慮降維過(guò)程中數(shù)據(jù)保留方差百分比,用語(yǔ)義維度權(quán)重K表示;
(4)每個(gè)詞和文本都可以表示為低維度空間中的一個(gè)點(diǎn),通過(guò)計(jì)算KL相似度[26],選取相似度低于語(yǔ)義維度權(quán)重K的詞加入候選觸發(fā)詞集。
文中在盡可能減少信息損失的情況下對(duì)特征數(shù)據(jù)進(jìn)行降維,因此文中采用PCA[27](Principal Component Analysis,主成分分析)方法對(duì)犯罪數(shù)據(jù)進(jìn)行降維,該算法會(huì)考慮降維過(guò)程中數(shù)據(jù)保留方差百分比,其計(jì)算公式為:
其中,k為數(shù)據(jù)保留方差百分比,λj為協(xié)方差矩陣的第j個(gè)特征值。
降維過(guò)程中數(shù)據(jù)保留方差百分比越大,語(yǔ)義信息保存越完整,文中當(dāng)K=0.5時(shí),基于潛在語(yǔ)義分析識(shí)別候選觸發(fā)詞集如表4所示。
表4 潛在語(yǔ)義分析識(shí)別候選觸發(fā)詞集表
在結(jié)合模式匹配和潛在語(yǔ)義分析基礎(chǔ)上得到基于多值(P- Multi)確定的候選觸發(fā)詞集,為進(jìn)一步提升觸發(fā)詞識(shí)別準(zhǔn)確率,將該候選觸發(fā)詞集與基于擴(kuò)展觸發(fā)詞表識(shí)別出的觸發(fā)詞進(jìn)行相似度分析,文中基于哈爾濱工業(yè)大學(xué)同義詞詞林?jǐn)U展版計(jì)算詞語(yǔ)相似度[28],選取相似度較高的候選觸發(fā)詞作為觸發(fā)詞。
本文實(shí)驗(yàn)階段所采用文本數(shù)據(jù)主要來(lái)源于微博和CEC語(yǔ)料庫(kù),其中模型訓(xùn)練階段實(shí)驗(yàn)數(shù)據(jù)選用中文突發(fā)事件語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,突發(fā)事件語(yǔ)料庫(kù)的分類(lèi)體系包括3個(gè)層次,標(biāo)注的中文突發(fā)事件語(yǔ)料庫(kù)主要包括地震、交通事故、恐怖襲擊、食物中毒和火災(zāi)5個(gè)類(lèi)別,總共332篇;微博數(shù)據(jù)通過(guò)爬蟲(chóng)爬取,剔除無(wú)效數(shù)據(jù),保留了14 257條微博文本數(shù)據(jù)作為測(cè)試集。
模型評(píng)價(jià)標(biāo)準(zhǔn)采用通用的評(píng)價(jià)指標(biāo):準(zhǔn)確率(precision)、召回率(recall)以及兩者結(jié)合計(jì)算得到的F值(F1-measure)對(duì)事件觸發(fā)詞識(shí)別性能進(jìn)行評(píng)價(jià)。具體定義如下[29]:
Correct:如果模型識(shí)別為觸發(fā)詞與人工標(biāo)注為觸發(fā)詞相同;
Incorrect:如果模型識(shí)別為觸發(fā)詞與人工標(biāo)注為觸發(fā)詞不同;
Missing:如果人工標(biāo)注為觸發(fā)詞,但模型未識(shí)別;
Spurious:如果模型識(shí)別為觸發(fā)詞,但人工未標(biāo)注;
通過(guò)使用以下參數(shù)評(píng)價(jià)模型性能:
文中對(duì)語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理并統(tǒng)計(jì)分析,多次訓(xùn)練語(yǔ)料庫(kù),使模型趨于穩(wěn)定,而后針對(duì)人工標(biāo)注的微博數(shù)據(jù)進(jìn)行測(cè)試,通過(guò)實(shí)驗(yàn)結(jié)果衡量和評(píng)估模型性能。
實(shí)驗(yàn)中在觸發(fā)詞識(shí)別中涉及到的語(yǔ)義維度權(quán)重,需要設(shè)置閾值提取文本語(yǔ)義信息,參數(shù)設(shè)置對(duì)實(shí)驗(yàn)結(jié)果具有一定影響,模型中語(yǔ)義維度權(quán)重因子對(duì)實(shí)驗(yàn)結(jié)果影響如圖2,圖3所示。
圖2 語(yǔ)義維度權(quán)重—準(zhǔn)確率關(guān)系圖
圖3 語(yǔ)義維度權(quán)重—召回率關(guān)系圖
從圖中分析可知,當(dāng)設(shè)置語(yǔ)義維度權(quán)重較大時(shí),觸發(fā)詞識(shí)別準(zhǔn)確率呈現(xiàn)上升趨勢(shì);相反,觸發(fā)詞識(shí)別召回率卻呈現(xiàn)下降趨勢(shì)。由此可見(jiàn),觸發(fā)詞識(shí)別中考慮文中語(yǔ)義信息多時(shí),對(duì)觸發(fā)詞精準(zhǔn)識(shí)別具有明顯提升。
但是在事件觸發(fā)詞識(shí)別中,僅僅考慮識(shí)別準(zhǔn)確率是不夠的,還應(yīng)考慮召回率,模型訓(xùn)練中涉及到的觸發(fā)詞相似度權(quán)重因子對(duì)實(shí)驗(yàn)結(jié)果同樣具有一定影響,相似度權(quán)重因子對(duì)實(shí)驗(yàn)結(jié)果影響如圖4、圖5所示。
圖4 相似度權(quán)重—準(zhǔn)確率影響圖
圖5 相似度權(quán)重—召回率影響圖
進(jìn)一步分析可知,當(dāng)相似度權(quán)重較大時(shí),觸發(fā)詞識(shí)別準(zhǔn)確率呈現(xiàn)下降趨勢(shì),觸發(fā)詞識(shí)別召回率呈現(xiàn)上升趨勢(shì)。當(dāng)相似度權(quán)重接近于1時(shí),基于融合模型方法與基于模式匹配方法結(jié)果接近。
文中進(jìn)行多次實(shí)驗(yàn),進(jìn)一步衡量模型優(yōu)劣,實(shí)驗(yàn)結(jié)果取多次實(shí)驗(yàn)結(jié)果平均值,實(shí)驗(yàn)結(jié)果如表5所示。
表5 模型衡量指標(biāo)表
文中通過(guò)突發(fā)事件觸發(fā)詞識(shí)別率之和來(lái)描述事件檢測(cè)的準(zhǔn)確性,通過(guò)表5可以看出,基于P- Multi模型在觸發(fā)詞檢測(cè)階段P值之和為2.83,基于擴(kuò)展觸發(fā)詞表在觸發(fā)詞檢測(cè)階段P值之和為2.59,P值提高了0.24;同理,R值提高了0.35,F(xiàn)值提高了0.28。為進(jìn)一步衡量模型的有效性,文中將觸發(fā)詞識(shí)別結(jié)果進(jìn)行均值化處理并與其他觸發(fā)詞識(shí)別方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如表6所示。
表6 實(shí)驗(yàn)結(jié)果對(duì)比表
通過(guò)表6中分析可知,定義模式規(guī)則,采用模式匹配方法對(duì)事件觸發(fā)詞進(jìn)行識(shí)別中將文本數(shù)據(jù)規(guī)范化,在文本數(shù)據(jù)中查找所有符合規(guī)則定義的字符串,雖然方法簡(jiǎn)單易行,但是識(shí)別準(zhǔn)確率偏低,P值為45.01%;為此,對(duì)模式匹配方式中抽取出的觸發(fā)詞進(jìn)行觸發(fā)詞擴(kuò)展,充實(shí)原始觸發(fā)詞列表,以期提升觸發(fā)詞識(shí)別準(zhǔn)確率,此方法較與模式匹配方式有所改進(jìn),局限在識(shí)別思路同樣基于規(guī)則匹配,觸發(fā)詞識(shí)別準(zhǔn)確率對(duì)比模式匹配方法實(shí)驗(yàn)結(jié)果略有提升,P值為51.84%。以上兩種方式僅關(guān)注于觸發(fā)詞本身特征,在識(shí)別準(zhǔn)確率上均較低;文中結(jié)合機(jī)器學(xué)習(xí)和模式匹配方法形成融合模型,融入語(yǔ)義特征識(shí)別觸發(fā)詞并進(jìn)行多分類(lèi),觸發(fā)詞識(shí)別準(zhǔn)確率較前兩種方法有所提高,P值為56.72%,實(shí)驗(yàn)結(jié)果表明,基于P- Multi模型的觸發(fā)詞識(shí)別較傳統(tǒng)擴(kuò)展觸發(fā)詞表的識(shí)別方法準(zhǔn)確率、召回率和F值均有所提高,通過(guò)實(shí)驗(yàn)證明了文中觸發(fā)詞識(shí)別方法的有效性。
本文的工作在語(yǔ)料庫(kù)處理和機(jī)器學(xué)習(xí)模型訓(xùn)練方面做了初步改進(jìn),語(yǔ)料庫(kù)處理不僅要注重觸發(fā)詞本身還需要融合其他特征對(duì)觸發(fā)詞進(jìn)行學(xué)習(xí)、訓(xùn)練,并對(duì)測(cè)試集中觸發(fā)詞進(jìn)行抽取識(shí)別,實(shí)驗(yàn)結(jié)果基本令人滿(mǎn)意。但是實(shí)驗(yàn)方法仍然有待改善,一方面,語(yǔ)料庫(kù)選取著重針對(duì)突發(fā)事件,選取面并不廣泛;另一方面,觸發(fā)詞識(shí)別和權(quán)重計(jì)算過(guò)程中涉及的權(quán)重因子對(duì)實(shí)驗(yàn)結(jié)果也具有一定影響,特別是融合模型中容易造成級(jí)聯(lián)誤差,影響模型性能。下一步研究工作是選取合適方法對(duì)微博數(shù)據(jù)進(jìn)行噪聲過(guò)濾,保證高質(zhì)量數(shù)據(jù)。同時(shí),嘗試采用多種機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比實(shí)驗(yàn),減少實(shí)驗(yàn)誤差,進(jìn)一步改善觸發(fā)詞識(shí)別模型。
微博作為用戶(hù)關(guān)系信息分享平臺(tái),逐漸成為突發(fā)事件傳播的主要載體,對(duì)于曾經(jīng)發(fā)生過(guò)突發(fā)事件的輿情爆發(fā),應(yīng)該予以重視[30]。文中通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,并采用融合模型訓(xùn)練的方法對(duì)微博文本數(shù)據(jù)進(jìn)行了觸發(fā)詞識(shí)別,以此來(lái)及時(shí)發(fā)現(xiàn)微博中的突發(fā)事件,為輿情指導(dǎo)提供相應(yīng)理論支撐,實(shí)驗(yàn)結(jié)果還有待提升。在下一步的工作中會(huì)對(duì)觸發(fā)詞的精準(zhǔn)識(shí)別和事件要素抽取等問(wèn)題進(jìn)行更加深入研究,以期找到一種能融合觸發(fā)詞識(shí)別和事件要素抽取的快速尋優(yōu)方法來(lái)改善模型。
中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年4期