• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于混合模型的新聞事件要素提取方法①

      2019-01-07 02:41:12虞金中楊先鳳
      關(guān)鍵詞:語料實體要素

      虞金中,楊先鳳,陳 雁,李 娟

      (西南石油大學(xué) 計算機(jī)科學(xué)學(xué)院,成都 610500)

      1 概述

      近年來,隨著數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,新聞文本數(shù)據(jù)增長迅速,數(shù)據(jù)的種類也逐漸增多.在這些海量的文本信息中,僅有很少的一部分信息是刻畫新聞事件的主要信息,因此對于每天接觸大量信息的現(xiàn)代人,快速篩選有用信息,提取事件要素,提高閱讀效率,無疑是很有意義的.

      現(xiàn)有的新聞事件要素提取方法容易受到新聞數(shù)據(jù)稀疏性的影響,雖然基于語義分析實現(xiàn)效果不錯,但是可移植性差、對語料庫有很大的依賴性.針對提取新聞事件要素存在的不足,許多研究者提出了改進(jìn)的算法.裴東輝等人[1]提出了通過新聞中的子事件與事件因素的關(guān)聯(lián)性抽取新聞要素的方法,以子事件元素與元素間關(guān)聯(lián)關(guān)系分別表征為節(jié)點(diǎn)、邊,構(gòu)建新聞事件提取無向圖模型.最后,求解無向圖中節(jié)點(diǎn)的權(quán)重,實現(xiàn)對新聞事件要素的提取.該方法沒有涉及新聞中的子事件之間的關(guān)聯(lián)關(guān)系.朱青等人[2]提出了一種通過生成標(biāo)題的要素關(guān)聯(lián)樹對包含地點(diǎn)進(jìn)行關(guān)聯(lián)度評價的方法,依次從新聞?wù)闹谐槿〉攸c(diǎn)要素.該方法由于依賴于地名關(guān)系數(shù)據(jù)庫,因此具有對地名因素抽取的細(xì)粒度有限、可移植性不高的缺點(diǎn).涂子令等人[3]提出了一種基于超圖的PageRank隨機(jī)游走的方法提取新聞話題要素,通過該方法計算后,對新聞事件要素集合給出一個信息重要性的排序.由于這類方法沒有考慮新聞數(shù)據(jù)中的指代,容易產(chǎn)生錯誤.

      通過對中文新聞數(shù)據(jù)進(jìn)行提取關(guān)聯(lián)事件要素方面的分析與研究,本文提出了一種混合模型提取事件要素的方法 ERCDSPEE(Extraction of event elements entity recognition combining dependency syntactic parsing),實質(zhì)是綜合新聞內(nèi)容實體識別、依存句法分析提取新聞事件要素.本文以提取事件人名要素為例對方法進(jìn)行分析驗證,首先,通過命名實體識別[4,5]技術(shù)識別出相關(guān)新聞事件中的人名實體,對新聞數(shù)據(jù)中的實體進(jìn)行加權(quán),然后使用依存句法樹[6,7]分析實體在新聞事件中扮演的角色,并且對關(guān)于要素的指代現(xiàn)象進(jìn)行消解,進(jìn)一步根據(jù)改進(jìn)的Sigmoid函數(shù)對事件要素賦予權(quán)重,有效地提取出新聞事件關(guān)聯(lián)性較為重要的人名要素.

      2 相關(guān)工作

      2.1 挖掘要素的方法

      新聞文本中通常包含一些描述事件發(fā)生的對象、時間、地點(diǎn)等要素信息,但是怎么對數(shù)據(jù)所隱藏的價值進(jìn)行充分挖掘和利用,帶著這樣的思路對新聞數(shù)據(jù)進(jìn)行深入分析,有利于找到解決問題的關(guān)鍵.考慮到新聞事件中人名實體的比重以及人名實體與事件的關(guān)聯(lián)關(guān)系,本文提出得研究方法ERCDSPEE是在實體識別[8]和依存句法算法的基礎(chǔ)上構(gòu)建一個抽取刻畫事件要素的模型,實現(xiàn)了新聞要素的提取.

      2.2 命名實體識別方法與依存句法分析

      2.2.1 命名實體識別

      命名實體識別(NER)是自然語言處理(NLP)的一個基礎(chǔ)任務(wù),它的目的是識別文本數(shù)據(jù)中時間、人名、地名、組織機(jī)構(gòu)名等命名實體.本文使用條件隨機(jī)場[9](Conditional Random Field,CRF)模型進(jìn)行實體識別,條件隨機(jī)場是由 Lafferty[10]等人在最大熵模型和HMM模型的基礎(chǔ)上提出的統(tǒng)計序列標(biāo)注算法.條件隨機(jī)場模型不僅放寬了HMM模型的條件獨(dú)立性,在一定程度上,還解決了標(biāo)記偏置的問題,并且具有時間復(fù)雜度低、準(zhǔn)確度高等優(yōu)點(diǎn).

      CRF是一種概率無向圖模型,它能夠被用來定義在給定一個觀察序列x的條件下,標(biāo)記序列y的條件概率P(y|x),是一種判別模型.但在現(xiàn)實應(yīng)用中,尤其是對標(biāo)記序列建模時,最常采用線性鏈(linear-chain)CRF模型,其圖模型如下圖1所示的結(jié)構(gòu).

      圖1 鏈?zhǔn)綏l件隨機(jī)場的圖結(jié)構(gòu)

      給定觀測序列x,圖1所示的鏈?zhǔn)紺RF[11]主要包括單個標(biāo)記變量{yi}和其相鄰的標(biāo)記變量{yi-1,yi}兩種.關(guān)于標(biāo)記變量的團(tuán)在條件隨機(jī)場中,λj通過選用指數(shù)勢函數(shù)并引入特征函數(shù),條件概率被定義為:

      其中,tj{yi+1,yi,x,i}是在觀測序列的兩個相鄰標(biāo)記位置處定義的轉(zhuǎn)移特征函數(shù),其目的是表示相鄰標(biāo)記變量之間的相關(guān)性和觀測序列對它們的影響,sk{yi,x,i}是定義在觀測序列的標(biāo)記位置i處的狀態(tài)特征函數(shù),以此表示觀測序列對標(biāo)簽標(biāo)量的影響,λj和uk為參數(shù),Z為規(guī)范化因子,用于確保式(1)是正確定義的概率.

      2.2.2 依存句法分析

      依存句法分析是基于依存句法的一種自動句法分析方法,它將句子解析成一顆依存句法樹,描述出句子中詞與詞之間直接關(guān)系,這種關(guān)系被稱為依存關(guān)系,一個依存關(guān)系連接兩個詞(核心詞和修飾詞).在依存句法樹中不含終節(jié)點(diǎn),只有由具體詞構(gòu)成的終結(jié)點(diǎn),一條依存邊連接兩個節(jié)點(diǎn),核心詞所對應(yīng)的節(jié)點(diǎn)為父親節(jié)點(diǎn),而修飾詞所對應(yīng)的節(jié)點(diǎn)為樹中的孩子節(jié)點(diǎn).兩個詞之間的依存關(guān)系可以細(xì)分為十幾種類型,如主謂關(guān)系(SBV)、并列關(guān)系(COO)、動賓關(guān)系(VOB)等等.例如,

      依存句法分析的任務(wù)是針對已經(jīng)分詞和詞性標(biāo)注完成的句子,進(jìn)行其依存句法結(jié)構(gòu)的分析.給定輸入為一個分詞、詞性標(biāo)注完的句子,進(jìn)行依存句法分析后,得到一個依存句法樹.依存句法分析器的輸入如圖3所示.

      經(jīng)過依存句法分析之后,結(jié)果如圖2所示.其中小海(修飾詞)和吃(核心詞)之間存在依存關(guān)系SBV(主謂關(guān)系),Root(核心詞)和吃(修飾詞)之間存在依存關(guān)系HED(核心關(guān)系),吃(核心詞)和魚(修飾詞)之間存在依存關(guān)系VOB(動賓關(guān)系).

      圖2 依存句法分析例子

      圖3 依存句法分析器輸入格式

      3 提取中文新聞事件要素

      3.1 語料收集與語料自動標(biāo)注方法

      首先抽取中文新聞實體,然后分析新聞事件句[12]中的重要要素.本文選用1998年人民日報語料作為實驗語料,將該語料分成訓(xùn)練語料和測試語料,大小為80%和20%.通過訓(xùn)練語料建立實體識別模型,使用測試語料測試模型,準(zhǔn)確率達(dá)到97%.以網(wǎng)絡(luò)爬蟲抓取的新聞數(shù)據(jù)作為實驗測試數(shù)據(jù),其來源網(wǎng)站包括微博、頭條、搜狐新聞、網(wǎng)易新聞、新華網(wǎng),該數(shù)據(jù)有86 655篇新聞.

      托人打聽到的情況讓表姐更是絕望。陶水旺東營陶莊人不假,這個人名聲不好,出了名的好吃懶做,四十多歲了還沒娶到媳婦。

      由于中文新聞文本內(nèi)部人名[13]關(guān)系不多,名稱形成的規(guī)律性不突出,單詞詞性的識別需要基于準(zhǔn)確的分詞結(jié)果.如果分析不明確,相反,它會干擾識別過程和結(jié)果,因此這個實驗任務(wù)是在單詞級粒度進(jìn)行建模,1個單詞是一個標(biāo)記.中文實體識別任務(wù)是一個序列標(biāo)注任務(wù),本文使用4tag(S表示單個詞、B表示詞首、M表示詞中、E表示詞尾)的標(biāo)注方式來確定序列標(biāo)注集.通過1998年人民日報語料訓(xùn)練的模型識別新聞文本實體的效果并不是很理想,其原因是當(dāng)今新聞文本中出現(xiàn)很多新穎的名字等因素.為解決此問題,本文采用增加新語料來提高模型準(zhǔn)確率的方法[14],首先使用已訓(xùn)練好的模型測試少量的新聞數(shù)據(jù),并對其錯誤的詞性標(biāo)注進(jìn)行手動修改標(biāo)注,然后把修改后的語料擴(kuò)充到已有的訓(xùn)練數(shù)據(jù)來訓(xùn)練新模型,再使用新模型測試少量的新聞數(shù)據(jù),循環(huán)往復(fù),最終獲得性能良好的模型.

      3.2 提取刻畫新聞事件要素

      為了從大量且繁雜的數(shù)據(jù)中挖掘出與新聞事件關(guān)聯(lián)性較為強(qiáng)的人名,本文基于ERCDSPEE方法構(gòu)建出提取刻畫新聞事件人名要素的模型.提取刻畫新聞事件要素的對象即針對新聞文本數(shù)據(jù),提取刻畫新聞事件要素的具體流程如圖4所示.在識別新聞實體的基礎(chǔ)上,通過對新聞文本進(jìn)行依存分析,消除不同關(guān)系類型的人稱代詞,進(jìn)一步調(diào)整模型的參數(shù),使模型能夠有效識別新聞人物與新聞事件的關(guān)聯(lián)性;最后,把依存分析的要素與實體要素權(quán)重相融合,實現(xiàn)新聞事件人名要素的抽取.

      圖4 提取新聞事件要素的流程

      3.2.1 構(gòu)建識別新聞實體模型

      首先基于命名實體規(guī)則挖掘的相關(guān)概念、過程和方法,使用了工具CRF++(CRF++是一個CRFs模型的實現(xiàn))提取新聞文本中的實體.

      單一的CRF是根據(jù)詞之間關(guān)系、詞性等特征來區(qū)分專有名詞和非專有名詞,難以識別一些特征不明顯的專有名詞.結(jié)合具有新詞的自定義詞典的CRF能識別出來一些特征不明顯的人名,詞典可以自定義擴(kuò)充那些特征不明顯的人名和新穎的人名新詞,在正確分詞方面具有良好的可控性,可以提高了抽取實體人名的準(zhǔn)確率.針對人名實體識別存在的不足,本文采用詞典與CRF相結(jié)合的方法來識別實體;通過生成的命名實體識別模型,實現(xiàn)了對新聞文檔人名實體的抽取,進(jìn)一步進(jìn)行實體消岐,從而對相同的實體進(jìn)行統(tǒng)計并通過公式(2)和(3)對實體特征賦予權(quán)重.

      關(guān)于新詞的識別,根據(jù)Qiu[15]等提出一種中文未知單詞自動POS猜測的方法建模.首先使用機(jī)器學(xué)習(xí)方法根據(jù)其內(nèi)部組件特征預(yù)測未知詞的POS,然后測量預(yù)測結(jié)果的可信度,對于低可信度的單詞,進(jìn)一步根據(jù)這些單詞的全局上下文信息對標(biāo)注結(jié)果進(jìn)行校正.使用模型對當(dāng)代的新聞文本數(shù)據(jù)抽取出新詞,進(jìn)一步結(jié)合詞典更新詞語.

      3.2.2 依存句法分析及指代消解

      雖然識別出了某新聞事件中大量的人名,但是哪些人物是此新聞事件句主要刻畫的人?通過依存句法樹分析實體在新聞事件中扮演的角色,并根據(jù)其角色有效地提取出新聞事件關(guān)聯(lián)性較為重要的要素.本文由于依存樹的結(jié)構(gòu)復(fù)雜,分析文本句子時間復(fù)雜度比較高,因此使用基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器[16]來分析實體之間的依存關(guān)系.

      通過依存句法分析器提取新聞事件的因素、因素詞性、關(guān)系類型.雖然根據(jù)句中的詞與詞之間的關(guān)系可以分析出這一句話中的事件人物,但是句中含有一些動賓關(guān)系、介賓關(guān)系、主謂關(guān)系等的人稱代詞,它對提取刻畫事件人物有一定影響.結(jié)合以上描述,本文考慮到人稱代詞的詞性及不同的關(guān)系類型對句中事件關(guān)聯(lián)性人物的影響,可以通過對人稱代詞的處理來加重事件人物權(quán)重的方法,不僅對人稱代詞進(jìn)行了消解,而且更能考慮到人物在事件中扮演角色的重要性.綜上所述,消除人稱代詞方法如下:

      (1)首先如果句中人名是主謂關(guān)系或者非主謂關(guān)系,并且句子中含有人稱代詞,然后對此人名的權(quán)重增加1.

      (2)在句中沒有人名且含有人稱代詞的基礎(chǔ)上,盡管句中含有一系列的職位及稱呼的名詞,但是考慮到事件人物的多樣性,實行零代詞消解,更能提高識別的容錯率.

      (3)句中含有人名和人稱代詞,經(jīng)判斷得知識別的人名是一個單個姓氏詞,為減少人名識別的錯誤率,使用jieba抽取的人名,同(1)可以達(dá)到消除人稱代詞的效果.

      3.2.3 權(quán)重融合及要素提取

      一般一篇人物報道新聞講究綠葉配紅花的原則,在人物報道中,主要人物是紅花,次要人物是綠葉,通過次要人物的活動襯托主要人物,可以使主要人物形象更加鮮明.如果文檔中的人物是事件關(guān)聯(lián)的主要人物,他(她)一定會在文檔重復(fù)出現(xiàn)(至少兩次)且在句中做主語;如果主要人物的人名僅在文中出現(xiàn)一次,一般是次要人物來襯托主要人物的.有些新聞報道為了突出主要人物,常常多次提及次要人物,本文根據(jù)主謂關(guān)系和非主謂關(guān)系來區(qū)分主要人物和次要人物,達(dá)到提取事件關(guān)聯(lián)性人物要素的目的.

      本文稱主謂關(guān)系的人物為主語(簡稱主),非主謂關(guān)系的人物稱為賓語(簡稱賓).相同人名不同關(guān)系所占的比例計算大概分為四個方面:有主無賓、無主有賓、有主有賓和無主無賓.通過上面的指代消解,再根據(jù)不同方面的主賓人名比率以及分別所占個數(shù)的范圍設(shè)置不同的權(quán)重.結(jié)合以上特點(diǎn),分析出此新聞中主謂關(guān)系的人名數(shù)目和非主謂關(guān)系的人名數(shù)目,并對同時含有主謂和非主謂關(guān)系的人名進(jìn)行消解,根據(jù)新聞人物報道的特點(diǎn),使非主謂關(guān)系權(quán)重的0.4倍相疊加到主謂關(guān)系人名的權(quán)重.根據(jù)相同人名不同關(guān)系所占的比例設(shè)置一定的權(quán)值W,W的計算方法如下:

      (1)使用Sigmoid函數(shù)把輸入值(主謂關(guān)系類型的不同人名個數(shù))“壓縮”到0~1之間,輸出的值是相對應(yīng)于人名的權(quán)重.公式如下:

      personmax表示此新聞人名權(quán)重的最大值,intervalθ表示使用Sigmoid函數(shù)的區(qū)間長度,xi表示統(tǒng)計的主謂關(guān)系的人名個數(shù);通過式(3)對重要性不同程度的人名賦予權(quán)值,根據(jù)權(quán)值抽取刻畫新聞事件的人名.

      (2)如果不考慮實體本身的權(quán)值,直接對(1)所得人名根據(jù)權(quán)值抽取新聞事件人名要素;否則,(1)所得與其對應(yīng)的實體人名的權(quán)值(權(quán)值獲取的方法與主謂關(guān)系人名計算權(quán)值一樣)相融合,然后抽取與事件關(guān)聯(lián)密切的人名.

      考慮到兩個人名的個數(shù)都很大,經(jīng)過Sigmoid函數(shù)輸出的值基本上接近于1且兩者之間的差異性不明顯,然而又基于實體的權(quán)值有可能會造成偏差.為了避免丟失新聞事件的主要人物信息,并放大主要人物和次要人物的差距,所以本文把統(tǒng)計的主謂關(guān)系的人名個數(shù)xi歸一化到0~6區(qū)間的φi值作為Sigmoid函數(shù)的輸入值.

      4 實驗結(jié)果及分析

      實驗1提出基于條件隨機(jī)場方法來識別新聞文本中的實體,本文以人名實體識別為例對訓(xùn)練模型進(jìn)行分析驗證.以人民日報數(shù)據(jù)和擴(kuò)展新聞數(shù)據(jù)的語料庫作為訓(xùn)練語料訓(xùn)練模型,選取預(yù)處理后的86 655篇新聞作為測試數(shù)據(jù).基于訓(xùn)練完成的模型進(jìn)行實驗,多次隨機(jī)選取100條新聞實驗結(jié)果進(jìn)行分析.

      實驗結(jié)果表明,只使用人民日報新聞作為訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型對應(yīng)的F值為63%,而添加當(dāng)今新聞數(shù)據(jù)后的語料庫訓(xùn)練出的模型,對新聞數(shù)據(jù)進(jìn)行測試,準(zhǔn)確率明顯提高了22%,其原因是現(xiàn)今的新聞文本和1998年的人民日報語料存在一些新意的專有名詞和語境環(huán)境的偏差,擴(kuò)展語料庫進(jìn)一步提高了模型的預(yù)測能力.

      實驗2提取刻畫新聞事件的要素,以提取事件人名為例對方法進(jìn)行驗證.首先,在實驗1識別出人名實體的基礎(chǔ)上,通過依存句法算法分析人名實體在新聞事件中扮演的角色,根據(jù)實體之間的依存關(guān)系,通過提取刻畫事件要素模型對新聞事件要素設(shè)置不同的權(quán)重,根據(jù)權(quán)重進(jìn)行排序,并提取出新聞事件關(guān)聯(lián)性較為重要的人名.實驗把測試數(shù)據(jù)分成社會、時政、財經(jīng)、娛樂與體育五大類別.No weight表示基于實體不帶權(quán)值的基礎(chǔ)上提取事件人名要素的準(zhǔn)確率,Weight是基于人名實體(有權(quán)值)的基礎(chǔ)上提取人名要素的準(zhǔn)確率.實驗2結(jié)果如表1所示.

      通過對實驗結(jié)果和新聞人物報道的研究與分析,最后,通過提取刻畫新聞事件人名要素的模型抽取前三項要素作為與事件密切相關(guān)的人物,經(jīng)過多次實驗結(jié)果表明提出的方法能夠有效地提取事件要素.

      表1 基于實體的事件要素提取

      從表1可以看出,基于實體識別和依存句法算法兩者產(chǎn)生的新思路(建立一個提取刻畫事件要素的模型)比傳統(tǒng)提取事件要素的算法更能體現(xiàn)新聞事件的主題,更符合用戶的需求,且算法的性能較優(yōu);在帶有權(quán)值實體的基礎(chǔ)上提取新聞要素的準(zhǔn)確率有明顯的提升,主要是因為本文除了考慮實體之間的關(guān)系外,還考慮了事件要素與新聞事件關(guān)聯(lián)性;測試數(shù)據(jù)分為社會、時政、財經(jīng)、娛樂與體育五大類別,關(guān)于社會生活新聞的要素識別準(zhǔn)確率明顯低于娛樂、時政新聞,其主要原因是娛樂與時政新聞刻畫事件人物比較明顯、深刻.

      5 結(jié)束語

      本文提出基于混合模型的新聞事件要素提取方法,該方法借鑒命名實體識別方法的構(gòu)建思想,提取出新聞事件中關(guān)鍵要素(專有名詞),進(jìn)一步提取匹配概括新聞事件最為接近的要素,取得了一個較好的實現(xiàn)效果.面向新聞事件要素的分析研究迫切需要解決的問題就是新聞文本的要素語料的收集和標(biāo)注問題.隨著半監(jiān)督和監(jiān)督學(xué)習(xí)方法不斷引入該領(lǐng)域,使用未標(biāo)注語料集的方法將逐步解決語料庫不足的問題,也為新聞數(shù)據(jù)挖掘方面的研究提供了較好的基礎(chǔ).提取新聞要素之間的關(guān)系類型比較耗時,如何提高模型的性能并保證提取要素的效果,是我們下一步需要研究的工作之一.我們下一步的探討工作將圍繞新聞事件發(fā)生的時間、地點(diǎn)、內(nèi)容以及對事件人物的情感色彩[18]展開研究,用這些要素來表達(dá)整個新聞的核心思想.

      猜你喜歡
      語料實體要素
      掌握這6點(diǎn)要素,讓肥水更高效
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      觀賞植物的色彩要素在家居設(shè)計中的應(yīng)用
      論美術(shù)中“七大要素”的辯證關(guān)系
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      也談做人的要素
      山東青年(2016年2期)2016-02-28 14:25:36
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      五大连池市| 崇仁县| 峡江县| 杭锦旗| 宁乡县| 姚安县| 贵定县| 城市| 吉安县| 二连浩特市| 扶风县| 龙川县| 老河口市| 开化县| 柳州市| 乌拉特后旗| 罗源县| 闸北区| 沭阳县| 阳江市| 类乌齐县| 云阳县| 华蓥市| 墨脱县| 郎溪县| 都江堰市| 封开县| 项城市| 孙吴县| 巴南区| 浦城县| 贵港市| 栾川县| 长海县| 青铜峡市| 铜山县| 东山县| 兰溪市| 楚雄市| 大名县| 牡丹江市|