文/尹雪婷
隨著Internet和社會(huì)的飛速發(fā)展,各種新聞數(shù)量呈指數(shù)增長,如何準(zhǔn)確地從海量、混亂無序且結(jié)構(gòu)性差的的新聞中獲取到人們所關(guān)心的信息成為急需要解決的問題。事件抽取就是在這種需求背景下應(yīng)運(yùn)而生。本文擬在構(gòu)建當(dāng)代新媒體新聞事件抽取算法,以期能夠?qū)π侣勑畔⑦M(jìn)行有效的抽取,推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步。
本文當(dāng)代新媒體新聞事件抽取算法構(gòu)建如圖1所示。
事件觸發(fā)詞的識(shí)別方法主要有三種,分別是:基于統(tǒng)計(jì)的方法、基于規(guī)則的方法和機(jī)器學(xué)習(xí)方法?;诮y(tǒng)計(jì)的方法是利用人工統(tǒng)計(jì)出文本中的所有觸發(fā)詞,進(jìn)而構(gòu)建較為完整的觸發(fā)詞集。此方法簡單易行,但是一方面要求訓(xùn)練語料規(guī)模足夠大,另一方面,在實(shí)施的過程中主要依靠經(jīng)驗(yàn),主觀性大。基于規(guī)則的方法是指根據(jù)定義一定的規(guī)則來選取觸發(fā)詞,此方法能夠在一定程度上提高觸發(fā)詞的識(shí)別效率,但是該方法主要依靠指定的規(guī)則?;跈C(jī)器學(xué)習(xí)的方法主要利用特征集來訓(xùn)練觸發(fā)詞識(shí)別分類器,把觸發(fā)詞識(shí)別問題轉(zhuǎn)化為分類問題。該方法引入自動(dòng)化模式,能夠大量減少人工干預(yù),但是對(duì)語料的規(guī)模要求較高。通過對(duì)實(shí)驗(yàn)語料的分析,將觸發(fā)詞分類并進(jìn)行匯總整理成初始觸發(fā)詞表,然后可以通過此觸發(fā)詞表,為事件類別識(shí)別提供一定的參考價(jià)值。
圖1:算法基本構(gòu)建示意圖
通常情況下,一篇新聞報(bào)道有許多個(gè)句子構(gòu)成。并不是所有的句子都是人們所關(guān)心的內(nèi)容,所以,本文通過事件觸發(fā)詞選擇出人們所需要的信息。本文把這些含有觸發(fā)詞的句子認(rèn)為是候選事件,并將其所包含的觸發(fā)詞對(duì)應(yīng)的事件類型作為該事件的類別標(biāo)簽。但是,并不是所有候選事件為真正的候選事件(候選事件并不屬于其所對(duì)應(yīng)的類別標(biāo)簽,即不是子事件)。
由于事件抽取是根據(jù)是否包含觸發(fā)詞來判斷是否是候選事件的,所以在候選事件獲取時(shí)觸發(fā)詞識(shí)別是否正確對(duì)結(jié)果影響很大。其次,由于實(shí)驗(yàn)語料的限制,觸發(fā)詞的數(shù)量更是少之又少。導(dǎo)致候選事件獲取的召回率很低,對(duì)觸發(fā)詞集不進(jìn)行擴(kuò)展時(shí),會(huì)導(dǎo)致大量事件流失,所以對(duì)觸發(fā)詞集進(jìn)行擴(kuò)充,從而獲得很多的候選事件,使候選事件獲取的召回率提高。本文利用觸發(fā)詞-候選事件同步獲取算法對(duì)進(jìn)行觸發(fā)詞進(jìn)行擴(kuò)展同時(shí)獲取候選事件集,該算法的具體描述如下:
(1)根據(jù)實(shí)驗(yàn)語料建立初始觸發(fā)詞集T,T={t1,t2……tp},對(duì)實(shí)驗(yàn)語料進(jìn)行預(yù)處理得到句子集 S={s1,s2……sn},其中 si={wi1,wi2……wim},wij表示組成句子si的某個(gè)詞語。
(2)對(duì)于句子集S中每一個(gè)句子si,計(jì)算wij與tk的相似度,如果相似度大于閾值λ,執(zhí)行步驟(5),否則執(zhí)行步驟(3)。
(3)k=k+1,若k≤p,執(zhí)行步驟(2),否則,執(zhí)行步驟(4)。
(4)j=j+1,若j≤m,k=1,執(zhí)行步驟(2),否則,執(zhí)行步驟(6)。
(5)將wij存進(jìn)觸發(fā)詞集T中,將句子si存進(jìn)候選事件集C中,二者的類別均定義為Typek。
(6)結(jié)束
本文之前利用觸發(fā)詞-候選事件同步獲取法,獲取了觸發(fā)詞集并得到了很多的候選事件,并給這些候選事件賦予了唯一的類別標(biāo)簽。但是,并不是所有的候選事件都是真正的候選事件,即候選事件并不屬于當(dāng)前的類別標(biāo)簽。所以,本文將候選事件是否為真當(dāng)成是一個(gè)二元分類問題,利用當(dāng)前相應(yīng)的分類算法過濾出真正的候選事件。
支持向量機(jī)(Support Vector Machine)SVM主要解決得是線性可分的情況,對(duì)于線性不可分的情況,可以通過利用一些常見的映射方法將線性不可分的實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)化為線性可分,再用線性的應(yīng)對(duì)方法解決問題。從候選事件集中獲取到了真正的候選事件和其所對(duì)應(yīng)的類別標(biāo)簽。如何正確地抽取出真正的事件元素,完成事件元素識(shí)別的過程,則需要遵循以下步驟:
首先需要識(shí)別出子事件中每一個(gè)實(shí)體元素。通過本文之前制作好的抽取模板抽取出候選實(shí)體元素。將按模板從事件中抽取出的每一個(gè)實(shí)體元素看做成候選Argument,按照抽取模板給每一個(gè)候選Argument一個(gè)角色標(biāo)簽。然后,選取相應(yīng)的特征,利用最大熵模型識(shí)別出真正的事件元素。
事件抽取是當(dāng)前信息抽取領(lǐng)域的熱點(diǎn)研究之一,具有很好的前景并在很多方面都有廣泛的應(yīng)用。目前,當(dāng)代新媒體新聞事件抽取算法的研究研究才剛起步,本文也僅僅對(duì)事件抽取的關(guān)鍵環(huán)節(jié)做了一定的研究。未來還需要更多的方面需要去改進(jìn)和發(fā)展。
參考文獻(xiàn)
[1]彭籍沖,王紅斌.基于跨語言信息投影的泰語新聞事件抽取[J].信息技術(shù),2017(12):10-13+17.
[2]裴東輝.中文新聞事件抽取方法研究[D].昆明理工大學(xué),2015.
[3]潘清清.越南語新聞事件元素抽取方法研究[D].昆明理工大學(xué),2014.