• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT-CRF模型的中文事件檢測(cè)方法研究

      2021-06-11 10:16:24田梓函
      關(guān)鍵詞:分類器向量檢測(cè)

      田梓函,李 欣

      中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京100038

      近年來(lái),隨著網(wǎng)絡(luò)的持續(xù)普及,技術(shù)的不斷發(fā)展,使用網(wǎng)絡(luò)的用戶越來(lái)越多,網(wǎng)絡(luò)中的信息量隨著用戶頻繁的交互行為的增加而增加,互聯(lián)網(wǎng)成為傳播大量信息的新媒介,由于信息多數(shù)是非結(jié)構(gòu)化的,且一個(gè)領(lǐng)域的信息散布在浩瀚的信息海洋中,致使網(wǎng)絡(luò)中的信息很難處理,因此快速?gòu)拇罅啃畔⒅刑崛∮袃r(jià)值的信息顯得越來(lái)越重要。許多信息一般是以事件的形式存在,事件指的是由特定關(guān)鍵詞觸發(fā)的、包含一個(gè)或多個(gè)參與者參與的、特定類型的事情,事件抽取技術(shù)是從純文本中提取人們關(guān)心的事件信息,并以結(jié)構(gòu)化的形式展現(xiàn)出來(lái)[1],是構(gòu)建特定領(lǐng)域的事件庫(kù)以及建立知識(shí)圖譜的基礎(chǔ)。事件抽取分為兩個(gè)步驟,事件檢測(cè)和元素抽取,事件檢測(cè)指從一段文本中提取可以標(biāo)志事件發(fā)生的觸發(fā)詞,包括事件觸發(fā)詞識(shí)別與事件觸發(fā)詞分類兩部分。元素抽取主要針對(duì)一句話中與觸發(fā)詞相關(guān)的元素進(jìn)行抽取和角色匹配。本文的重點(diǎn)是針對(duì)事件檢測(cè)部分。

      事件檢測(cè)中的觸發(fā)詞是指直接引起事件發(fā)生的詞語(yǔ),一般觸發(fā)詞的詞性為動(dòng)詞,也可能是表示動(dòng)作或狀態(tài)的名詞。事件檢測(cè)任務(wù)面臨著許多挑戰(zhàn),一是一句話中不僅只有一個(gè)事件,有多個(gè)事件就會(huì)有多個(gè)事件觸發(fā)詞。例如,在句子1中有兩個(gè)事件觸發(fā)詞,分別是“離”和“暗殺”,并且是兩種不同的子事件類型“Transport”和“Attack”。

      句子1:根據(jù)警方消息來(lái)源,法官與其子在上午交通高峰時(shí)間離家時(shí),遭到暗殺。

      二是由于中文沒有自然分隔符,詞語(yǔ)的邊界不明確,存在觸發(fā)詞可能是詞語(yǔ)的特定部分,也可能包含多個(gè)詞語(yǔ),造成觸發(fā)詞不匹配的問題。例如,在句子2中,“砍傷”是一個(gè)詞語(yǔ),但“砍”和“傷”分別是不同的觸發(fā)詞類型,“砍”屬于“Attack”事件類型,“傷”屬于“Injure”事件類型;在句子3中,“生命”和“危險(xiǎn)”雖然是兩個(gè)詞組,但他們合并屬于“Injure”事件類型。在ACE中文數(shù)據(jù)集中,觸發(fā)詞不匹配占據(jù)了所有觸發(fā)詞的14.61%。

      句子2:其中一人因?yàn)榛奖淮跬娇硞巢俊?/p>

      句子3:目前3個(gè)人仍有生命危險(xiǎn)。

      本文的工作主要體現(xiàn)在三個(gè)方面,提出一種將預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)[2]與條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[3]相結(jié)合的中文事件觸發(fā)詞檢測(cè)模型;引入基于詞的BIO標(biāo)注機(jī)制來(lái)解決中文事件檢測(cè)中觸發(fā)詞的識(shí)別與分類問題;通過實(shí)驗(yàn)結(jié)果的比較體現(xiàn)本文提出方法的優(yōu)越性。

      1 相關(guān)工作

      事件抽取任務(wù)與實(shí)體抽取、關(guān)系抽取一樣,是信息抽取的關(guān)鍵子任務(wù)之一,也是當(dāng)前自然語(yǔ)言處理的研究發(fā)展方向之一,本文將事件檢測(cè)的方法分成三個(gè)部分:基于模式匹配的事件檢測(cè)、基于機(jī)器學(xué)習(xí)的事件檢測(cè)和基于神經(jīng)網(wǎng)絡(luò)的事件檢測(cè)。

      基于模式匹配的方法是利用恰當(dāng)?shù)钠ヅ渌惴?,在一段文本中找尋符合預(yù)定義模式的事件。Kim等[4]利用WordNet語(yǔ)義數(shù)據(jù)庫(kù)與模式獲取相結(jié)合的方法進(jìn)行事件抽取。Grishman等[5]提出基于模式匹配和分類器的事件抽取系統(tǒng)AceJet。姜吉發(fā)[6]提出一種針對(duì)飛行事故領(lǐng)域的IEPAM系統(tǒng)。但是,基于模式匹配的方法需要針對(duì)不同的特定需求制定相應(yīng)的規(guī)則和模板,可移植性差,所以該方法更適合于特定領(lǐng)域。

      基于機(jī)器學(xué)習(xí)的方法一般被看成多分類問題,利用最大熵、隱馬爾科夫、支持向量機(jī)等分類器提取特征。Hai等[7]在事件檢測(cè)任務(wù)中使用最大熵分類器。Ahn[1]在事件檢測(cè)任務(wù)使用了MegaM分類器和TiMBL分類器。Saha等[8]在生物事件檢測(cè)中使用支持向量機(jī)分類器。雖然傳統(tǒng)機(jī)器學(xué)習(xí)避免了預(yù)先制定許多的規(guī)則,并將事件檢測(cè)問題看作序列標(biāo)注問題,但其不可以自主學(xué)習(xí)新的特征,使得模型的泛化能力較差。

      近年來(lái),深度學(xué)習(xí)已成為最新研究趨勢(shì)之一,在各個(gè)領(lǐng)域都有應(yīng)用。Nguyen等[9]和Chen等[10]提出將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到事件檢測(cè)任務(wù)中,前者使用CNN自動(dòng)地從預(yù)先訓(xùn)練好的詞嵌入、位置嵌入和實(shí)體類型嵌入中學(xué)習(xí)多種特征表示,從而減少錯(cuò)誤傳播。后者提出動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)模型(DMCNN),該模型可自動(dòng)地提取詞語(yǔ)級(jí)特征和句子級(jí)特征。Nguyen等[11]提出一種基于離散短語(yǔ)的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)事件識(shí)別與分類。Nguyen等[12]新穎地引入句子結(jié)構(gòu)信息,在事件檢測(cè)任務(wù)中利用圖卷積神經(jīng)網(wǎng)絡(luò)提取結(jié)構(gòu)特征。而對(duì)于中文的事件檢測(cè),Zeng等[13]利用雙向長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)與CRF相結(jié)合提取句子級(jí)特征,利用卷積神經(jīng)網(wǎng)絡(luò)提取上下文特征,將兩種特征結(jié)合對(duì)中文事件檢測(cè)。Lin等[14]提出NPNs模型,將字與詞混合表示模型,包含觸發(fā)詞識(shí)別與觸發(fā)詞分類兩個(gè)功能模塊,將每個(gè)詞看作是一個(gè)觸發(fā)詞塊,并結(jié)合了Chen等[10]提出的DMCNN網(wǎng)絡(luò)結(jié)構(gòu)。Ding等[15]提出TLNN模型,模型中引用了外部知識(shí)庫(kù)HowNet獲取字與詞的所有語(yǔ)義信息,并使用了lattice LSTM框架將所有信息動(dòng)態(tài)合并。Xu等[16]提出將語(yǔ)義、句法依存等特征信息結(jié)合到詞向量中,再將詞向量輸入到BiLSTM中捕獲句子級(jí)信息。

      隨著對(duì)自然語(yǔ)言處理領(lǐng)域的研究更加深入,Word2Vec詞向量訓(xùn)練工具已不能滿足學(xué)者們的需求。Peters等[17]提出了ELMo模型,ELMo基本結(jié)構(gòu)是一個(gè)雙層的Bi-LSTM,采用正向編碼器和反向編碼器的雙向拼接方式提取特征信息,使上下文無(wú)關(guān)的靜態(tài)向量變?yōu)樯舷挛南嚓P(guān)的動(dòng)態(tài)向量。Radford等[18]提出了GPT模型,與ELMo模型的不同點(diǎn)是GPT采用Transformer而不是RNN作為特征提取器,但GPT只利用了單向編碼。BERT[2]相對(duì)于GPT的創(chuàng)新在于使用了Transformer的Self-attention機(jī)制實(shí)現(xiàn)雙向編碼,并且構(gòu)造了更加通用的輸入層和輸出層,只需修改模型下游任務(wù),就可以應(yīng)用在多種任務(wù)中,豐富了GPT原有的任務(wù)種類,包括句子間關(guān)系判斷、句子分類任務(wù)、閱讀理解任務(wù)和序列標(biāo)注任務(wù)。

      2 基于BERT-CRF的事件檢測(cè)模型

      2.1 BERT預(yù)訓(xùn)練模型

      BERT的輸入表示是三種Embedding的直接相加,其中,Token Embeddings表示為詞向量,對(duì)中文語(yǔ)句處理時(shí),可以是針對(duì)字的向量,也可以是針對(duì)詞的向量,本文使用的是字向量,Position Embeddings表示位置信息,由于基于自注意力機(jī)制的模型不能感知每個(gè)字之間的位置關(guān)系,因此需要使用Position Embeddings給每個(gè)字標(biāo)記序列順序信息,Segment Embeddings是用于針對(duì)多個(gè)句子間的分割向量,本文的實(shí)驗(yàn)中只在每個(gè)句子的開頭和結(jié)尾加上[CLS]與[SEP]。

      BERT是采用基于微調(diào)的多層雙向Transformer作為編碼器,在Encoder和Decoder部分都使用了Transformer,可以讓一句話中的每個(gè)字無(wú)論方向前后或距離遠(yuǎn)近,直接和句子中的任何一個(gè)字進(jìn)行編碼,每個(gè)字都能融合字左右兩邊的信息。Encoder的每個(gè)模塊包括多頭自注意力機(jī)制(multi-head self-attention)和全連接前饋網(wǎng)絡(luò),multi-head attention意味著對(duì)多個(gè)attention計(jì)算,每一個(gè)attention關(guān)注句子中的不同信息,再將所有的attention信息拼接在一起,如下式所示:

      而self-attention是對(duì)Q、K、V三個(gè)向量計(jì)算,將Encoder中輸入的每個(gè)字向量在整個(gè)輸入序列中進(jìn)行點(diǎn)積與加權(quán)求和得到在此位置的輸出結(jié)果,如下式所示:

      Decoder的每個(gè)模塊都比Encoder多了一個(gè)Encoder-Decoder attention,雖然也是利用multi-head attention機(jī)制,但它與self-attention的不同是它的輸入分別是Decoder的輸入和Encoder的輸出。

      由于self-attention的注意力只放在每個(gè)詞的自身,為了訓(xùn)練雙向Transformer模型,需要隨機(jī)掩蓋一定比例的詞語(yǔ),讓模型用正確的詞預(yù)測(cè)被掩蓋的詞,在訓(xùn)練的過程中,與CBOW將每一個(gè)詞都預(yù)測(cè)一遍不同,而是隨機(jī)選擇數(shù)據(jù)集中15%的原始詞語(yǔ),這樣就可以融合到上下文相關(guān)的信息。在掩蓋的詞中有80%會(huì)直接用MASK代替,10%用另外一個(gè)詞代替,剩下10%不變還使用原詞。

      2.2 CRF模型

      對(duì)于本文的序列標(biāo)注問題,在預(yù)測(cè)階段通常采用softmax分類器對(duì)標(biāo)簽進(jìn)行預(yù)測(cè),但softmax分類器在序列標(biāo)注任務(wù)中沒有考慮標(biāo)簽與標(biāo)簽間存在的依賴關(guān)系,而條件隨機(jī)場(chǎng)CRF可以使用對(duì)數(shù)線性模型來(lái)表示整個(gè)特征序列的聯(lián)合概率,能更好地預(yù)測(cè)序列標(biāo)注中的標(biāo)簽。

      假定句子長(zhǎng)度為n,句子序列為X=(x1,x2,…,xn),對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列為Y=(y1,y2,…,yn),預(yù)測(cè)序列最終的總分?jǐn)?shù)為:

      其中,T表示標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù),Pi,yi表示每個(gè)字到對(duì)應(yīng)yi標(biāo)簽的分?jǐn)?shù)。

      由于預(yù)測(cè)序列有多種可能性,其中只有一種是最正確的,應(yīng)對(duì)所有可能序列做全局歸一化,產(chǎn)生原始序列到預(yù)測(cè)序列的概率:

      2.3 BERT-CRF模型

      傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型需要用NLP工具對(duì)語(yǔ)料進(jìn)行預(yù)處理,例如分詞,并以分割后的詞語(yǔ)作為輸入向量,會(huì)造成誤差的累積與傳遞,預(yù)測(cè)的標(biāo)簽不準(zhǔn)確。為了避免這種誤差傳遞,本實(shí)驗(yàn)將觸發(fā)詞抽取與檢測(cè)看作字級(jí)別的標(biāo)注任務(wù),采用BIO序列標(biāo)注規(guī)則,其中,“B”表示為事件觸發(fā)詞的起始,“I”表示為事件觸發(fā)詞的中間,“O”表示為非事件觸發(fā)詞。模型的輸入包括字向量、位置向量和分割向量,但由于輸入中只有一個(gè)句子,所以分割向量為0。輸出為每個(gè)字的標(biāo)注結(jié)果。BERTCRF模型是在BERT模型后添加一層CRF線性層,模型如圖1所示。

      圖1 基于BERT與CRF相結(jié)合的事件檢測(cè)模型

      本文實(shí)驗(yàn)中使用的是Google發(fā)布的針對(duì)中文語(yǔ)料訓(xùn)練好的BERT Base版本,該模型采用12層的Transformer,隱藏大小為768,自注意力的multi-head為12,模型的所有參數(shù)為1.1×108。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      本文的實(shí)驗(yàn)數(shù)據(jù)是采用ACE2005中的中文數(shù)據(jù)集,ACE2005定義了8種事件類型,每種事件類型還包含不同的子事件類型,共有33種子事件類型,如表1所示。為了與前人的實(shí)驗(yàn)方法相比較,本文選擇了64篇文章作為驗(yàn)證集,64篇文章作為測(cè)試集,余下的569篇作為訓(xùn)練集。

      表1 ACE2005中的事件類型與事件子類型

      3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      實(shí)驗(yàn)環(huán)境是采用Tensorflow對(duì)模型進(jìn)行搭建。實(shí)驗(yàn)中的參數(shù)設(shè)置為:輸入序列長(zhǎng)度seq_length為256,訓(xùn)練集的batch_size為8,訓(xùn)練學(xué)習(xí)率learning rate為2×10?5。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      本文使用事件檢測(cè)的精確度(P)、召回率(R)和F值(F-score)來(lái)評(píng)估模型的性能:

      將本文提出的BERT-CRF模型與BiLSTM-CRF、NPNs、TLNN等多種模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示。

      表2 不同事件檢測(cè)模型性能比較%

      從表2中可以看出,本文提出的模型在ACE2005數(shù)據(jù)集上得到了相對(duì)不錯(cuò)的結(jié)果,通過BERT動(dòng)態(tài)提取字的詞向量特征,并直接利用BIO機(jī)制進(jìn)行標(biāo)注,避免了使用NLP工具造成錯(cuò)誤傳播的可能,使得在觸發(fā)詞識(shí)別和觸發(fā)詞分類任務(wù)中都有很好的效果。

      NPN模型雖然新穎地提出以字為中心的觸發(fā)詞塊,但將候選觸發(fā)詞的范圍規(guī)定在一個(gè)固定的大小,不靈活且不能將所有的可能性包含,并且會(huì)有觸發(fā)詞重疊的問題,TLNN模型只是將信息從前往后單方向地整合。BiLSTM-CRF模型是經(jīng)典的處理序列標(biāo)注問題的神經(jīng)網(wǎng)絡(luò)模型,模型中使用的是靜態(tài)的詞向量,相較于本文提出的預(yù)訓(xùn)練模型中的動(dòng)態(tài)詞向量,不能獲得每個(gè)字所有的有效信息。本文提出的模型可以將一句話中的觸發(fā)詞盡可能提取出來(lái),并且模型是雙向的編碼,可以很好地利用從前往后和從后至前的信息,使模型在觸發(fā)詞識(shí)別和分類的任務(wù)中檢測(cè)更準(zhǔn)確。

      針對(duì)觸發(fā)詞不匹配問題,用BERT連接softmax與本文提出的模型進(jìn)行比較,從表2可以看到本文提出的模型在各項(xiàng)指標(biāo)比較中略有優(yōu)勢(shì),表3用例子比較觸發(fā)詞問題的解決效果。例1中針對(duì)一句話中多個(gè)觸發(fā)詞,僅使用BERT的沒有識(shí)別出“育”字為“Be-born”事件類別,例2中針對(duì)觸發(fā)詞匹配問題,“殺死”在中文中雖然是一個(gè)詞組,但“殺”和“死”指代兩個(gè)不同的事件,應(yīng)分別對(duì)應(yīng)“Attack”和“Die”這兩種事件類型。

      表3 不同模型的觸發(fā)詞分類結(jié)果

      4 結(jié)束語(yǔ)

      本文提出了一種基于預(yù)訓(xùn)練模型的中文事件檢測(cè)模型,針對(duì)中文語(yǔ)言的特定問題,將句中的每個(gè)字作為輸入向量,不需要可能造成錯(cuò)誤傳遞的NLP工具,利用BERT預(yù)訓(xùn)練模型抽取特征,條件隨機(jī)場(chǎng)CRF進(jìn)行多標(biāo)簽分類。實(shí)驗(yàn)結(jié)果顯示,與現(xiàn)有的中文事件檢測(cè)方法進(jìn)行比較,本文提出的模型在ACE2005中文數(shù)據(jù)集上實(shí)驗(yàn)效果較好。在接下來(lái)的工作中,將模型與現(xiàn)實(shí)需求相結(jié)合,針對(duì)社會(huì)安全領(lǐng)域事件觸發(fā)詞的特定問題,優(yōu)化事件檢測(cè)模型,為建立社會(huì)安全相關(guān)的知識(shí)圖譜提供技術(shù)支撐。

      猜你喜歡
      分類器向量檢測(cè)
      向量的分解
      “不等式”檢測(cè)題
      “一元一次不等式”檢測(cè)題
      “一元一次不等式組”檢測(cè)題
      聚焦“向量與三角”創(chuàng)新題
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      小波變換在PCB缺陷檢測(cè)中的應(yīng)用
      向量垂直在解析幾何中的應(yīng)用
      廊坊市| 井研县| 兰西县| 通河县| 晋城| 龙里县| 乳源| 理塘县| 西城区| 海晏县| 斗六市| 波密县| 册亨县| 革吉县| 金昌市| 河津市| 和平区| 庄浪县| 泸水县| 乌苏市| 宜良县| 广元市| 宜黄县| 密山市| 阿拉善右旗| 积石山| 太湖县| 和田县| 淅川县| 噶尔县| 友谊县| 鄯善县| 阿坝县| 龙游县| 米泉市| 廊坊市| 奉化市| 铜鼓县| 仙游县| 磐石市| 宣城市|