劉一鳴
摘要:命名實(shí)體識(shí)別是信息抽取中基礎(chǔ)且關(guān)鍵的一項(xiàng)子任務(wù)。本文根據(jù)不同領(lǐng)域文本的特性,設(shè)置了通用的特征模板,利用半監(jiān)督學(xué)習(xí)的方法,對(duì)新聞文本和橋梁文本分別進(jìn)行了命名實(shí)體識(shí)別。實(shí)驗(yàn)表明,僅使用少量標(biāo)注的語(yǔ)料也可以達(dá)到較好的識(shí)別效果。
關(guān)鍵詞:命名實(shí)體識(shí)別;自學(xué)習(xí)方法;半監(jiān)督學(xué)習(xí)
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)01-0207-02
命名實(shí)體識(shí)別概述
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)飛速增長(zhǎng)的趨勢(shì),并呈現(xiàn)出多源異構(gòu)等大數(shù)據(jù)特征。對(duì)其進(jìn)行信息抽取,獲得有效信息對(duì)于文本數(shù)據(jù)分析具有重要的研究意義。
命名實(shí)體識(shí)別是信息抽取過(guò)程中十分基礎(chǔ)且關(guān)鍵的一項(xiàng)子任務(wù)。命名實(shí)體識(shí)別是指識(shí)別出文本中例如人名,地名,時(shí)間或組織名等具有特定意義的實(shí)體。
大多數(shù)命名實(shí)體識(shí)別的方法都是基于規(guī)則[1]的方法或基于監(jiān)督學(xué)習(xí)[2]的方法。其中基于規(guī)則的方法需要專業(yè)人員去設(shè)置規(guī)則模板,但是規(guī)則之間可能會(huì)出現(xiàn)沖突,且可移植性和擴(kuò)展性差。基于監(jiān)督學(xué)習(xí)的方法十分依靠大量的標(biāo)注文本,在通常情況下標(biāo)注文本是極難獲取的,且使用人工標(biāo)注的成本較大。因此,只需要少量標(biāo)注語(yǔ)料的基于半監(jiān)督學(xué)習(xí)的命名實(shí)體識(shí)別方法成為了領(lǐng)域內(nèi)研究的熱門。
2 研究現(xiàn)狀
命名實(shí)體識(shí)別一直是自然語(yǔ)言處理領(lǐng)域研究的基礎(chǔ)性問(wèn)題,其本質(zhì)可看作序列化數(shù)據(jù)標(biāo)記問(wèn)題[3]。
早期的命名實(shí)體方法是在限定文本領(lǐng)域、限定語(yǔ)義單元類型的條件下進(jìn)行的,采用的是基于規(guī)則與詞典的方法。Rau等人采用啟發(fā)式算法與人工編寫規(guī)則相結(jié)合的方法,首次實(shí)現(xiàn)了從文本中自動(dòng)抽取公司名,但擴(kuò)展性差,規(guī)則制定費(fèi)時(shí)費(fèi)力。
Wang等人采用有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法,針對(duì)于臨床醫(yī)學(xué)的記錄進(jìn)行命名實(shí)體識(shí)別,利用大量的標(biāo)注樣本進(jìn)行條件隨機(jī)場(chǎng)模型(conditional random fields,CRF)的學(xué)習(xí),并最終取得了F值81.48%的成績(jī)。
條件隨機(jī)場(chǎng)是Lafferty等人于在隱馬爾可夫模型(HMM)和最大熵模型(MEMM)的基礎(chǔ)上提出的一種概率式判別模型。它可以充分結(jié)合觀察序列中的多種特征信息,來(lái)克服HMM中嚴(yán)格的強(qiáng)獨(dú)立性假設(shè)問(wèn)題。以上的方法都需要大量的標(biāo)注語(yǔ)料作為數(shù)據(jù)支撐,僅需少量語(yǔ)料的半監(jiān)督學(xué)習(xí)方法[4]也取得一定成就。Jonnalagadda等人在醫(yī)學(xué)領(lǐng)域采用了半監(jiān)督CRF的方法對(duì)臨床醫(yī)學(xué)實(shí)體進(jìn)行識(shí)別,并提出了分布式語(yǔ)義方法,最終實(shí)驗(yàn)F值為0.823%。Ke等人在少量標(biāo)注語(yǔ)料的情況下, 結(jié)合大量的未標(biāo)注語(yǔ)料,應(yīng)用協(xié)同訓(xùn)練算法實(shí)現(xiàn)中文組織名的識(shí)別, 協(xié)同訓(xùn)練CRF模型和SVM模型,最終模型F值比單個(gè)模型F值高出10%。
設(shè)X與Y為隨機(jī)變量,P(Y|X)是在給定X的條件下,Y的條件概率分布。設(shè)P(Y|X)為條件隨機(jī)場(chǎng),X取值為x的條件下,Y取值為y的條件概率如下公式:
自學(xué)習(xí)方法是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,其可通過(guò)大量未標(biāo)注語(yǔ)料與少量已標(biāo)注語(yǔ)料自行進(jìn)行訓(xùn)練及分類,整個(gè)過(guò)程不需要人工來(lái)干預(yù)。而其中自舉法(Bootstrapping)是自學(xué)習(xí)中常用的一種方法,具體的流程如圖1所示。自學(xué)習(xí)算法流程如圖1所示,首先,利用獲得的少量標(biāo)注語(yǔ)料L放入CRF模型中學(xué)習(xí),用訓(xùn)練好的CRF模型c0對(duì)大量的未標(biāo)注預(yù)料U進(jìn)行預(yù)測(cè),將置信度高于80%的句子u加入到標(biāo)注集L中并在未標(biāo)注集U中刪除,重復(fù)此過(guò)程直到模型收斂,最終得到模型Cn。
在CRF模型的訓(xùn)練中,選取合適的特征并創(chuàng)建特征模板是影響模型性能的關(guān)鍵[5]。為了設(shè)置適合于多領(lǐng)域的文本特征模板,我們選取了以下5個(gè)特征。
(1)上下文特征:本文選擇上下文2個(gè)詞作為上下文特征,例如,“造就一支穩(wěn)定的基礎(chǔ)研究的隊(duì)伍”這句話中,“研究”一詞上文兩個(gè)詞特征為“的”和“基礎(chǔ)”兩個(gè)詞。(2)位置特征:詞語(yǔ)在句子的位置在命名實(shí)體識(shí)別中起到了關(guān)鍵的作用,在“開(kāi)展各種形式的科學(xué)普及教育”一句中,“科學(xué)”一詞位置為5。(3)長(zhǎng)度特征:本文選取詞語(yǔ)的長(zhǎng)度作為基礎(chǔ)特征之一,例如,“新年”詞語(yǔ)的長(zhǎng)度為2。(4)字符特征:在命名實(shí)體中,通常存在詞語(yǔ)中包含數(shù)字、符號(hào)或者英文字母的實(shí)體。例如,“3#人行天橋”和“1994年”兩詞語(yǔ)中都包含數(shù)字,前者還包含了特殊符號(hào)。(5)詞向量特征:利用詞向量工具Word2Vec對(duì)大量未標(biāo)注數(shù)據(jù)進(jìn)行詞向量訓(xùn)練并進(jìn)行聚類,類別作為特征的一部分加入到模板中。例如,“遼寧省”聚類類別為64。
為測(cè)試自學(xué)習(xí)方法在不同領(lǐng)域語(yǔ)料的效果,我們選擇了橋梁語(yǔ)料和新聞?wù)Z料兩個(gè)領(lǐng)域的語(yǔ)料,分別為1998年人民日?qǐng)?bào)語(yǔ)料庫(kù)和自標(biāo)注的橋梁語(yǔ)料庫(kù)。
本文使用爬蟲技術(shù),在網(wǎng)絡(luò)上爬取了兩個(gè)領(lǐng)域的大量未標(biāo)注語(yǔ)料,利用分詞工具jieba對(duì)其分詞,并利用詞向量工具Word2Vec進(jìn)行詞向量訓(xùn)練和聚類。
實(shí)驗(yàn)結(jié)果如表1所示,在使用特征模板后,模型的效果獲得較大幅度提升,通過(guò)自學(xué)習(xí)算法,最終模型效果進(jìn)一步加強(qiáng),根據(jù)文本特性選取適合的特征和選取的學(xué)習(xí)方式同樣重要,在僅有少量語(yǔ)料的情況下使用自學(xué)習(xí)方法可以提高模型的質(zhì)量。
本文針對(duì)不同領(lǐng)域語(yǔ)料,采用CRF模型,選取上下文特征、位置特征、長(zhǎng)度特征、字符特征,同時(shí)利用大規(guī)模的未標(biāo)注數(shù)據(jù),通過(guò)詞向量訓(xùn)練和聚類獲取詞向量特征,并進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)表明,利用半監(jiān)督學(xué)習(xí)的方式,無(wú)論在橋梁領(lǐng)域還是新聞?lì)I(lǐng)域效果都有所提升,詞向量特征能夠從大規(guī)模的未標(biāo)注數(shù)據(jù)集中獲取詞的語(yǔ)義信息,并且相比于人工選取和設(shè)置的特征,無(wú)監(jiān)督學(xué)習(xí)可以減少大量的工作量,提高命名實(shí)體識(shí)別的性能。
[1] 閆丹輝,畢玉德.基于規(guī)則的越南語(yǔ)命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào),2014,28(05):198-205+214.
[2] 潘清清,周楓,余正濤,等.基于條件隨機(jī)場(chǎng)的越南語(yǔ)命名實(shí)體識(shí)別方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(01):76-79.
[3] 張海楠,伍大勇,劉悅,等.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2017,31(04):28-35.
[4] 蔡月紅,朱倩,程顯毅.基于Tri-training半監(jiān)督學(xué)習(xí)的中文組織機(jī)構(gòu)名識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2010,27(01):193-195.
[5] 邱泉清,苗奪謙,張志飛.中文微博命名實(shí)體識(shí)別[J].計(jì)算機(jī)科學(xué),2013,40(06):196-198.