加羊吉,李亞超,于洪志
(西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030)
CRF與規(guī)則相結(jié)合的藏文人名識(shí)別方法
加羊吉,李亞超,于洪志
(西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030)
文章就藏文人名本身的特性分析了人名識(shí)別的難點(diǎn),提出了CRF與規(guī)則相結(jié)合的藏文人名識(shí)別方法.該方法首先以CRF作為機(jī)器學(xué)習(xí)模型,充分利用藏文人名的各類特征,然后針對(duì)人名不能全面召回的問(wèn)題,利用規(guī)則方法進(jìn)行后處理,最終建立了一種優(yōu)勢(shì)互補(bǔ)的識(shí)別模型.實(shí)驗(yàn)結(jié)果表明,該文提出的方法具有較好的性能,F(xiàn)-值可達(dá)91.55.
藏文人名識(shí)別;命名實(shí)體;CRF模型;規(guī)則
命名實(shí)體(Named Entity)是文本中具有特定意義的名詞或名詞短語(yǔ),包括人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期等實(shí)體.命名實(shí)體識(shí)別是將準(zhǔn)確發(fā)現(xiàn)并標(biāo)注文本序列中的命名實(shí)體,是機(jī)器翻譯、信息檢索、問(wèn)答系統(tǒng)等許多自然語(yǔ)言處理的基礎(chǔ)工作.人名是藏文命名實(shí)體的重要組成部分,它的識(shí)別結(jié)果會(huì)影響藏文未登錄詞識(shí)別的效果,因此藏文人名識(shí)別是藏文文本分析和理解的重點(diǎn)和關(guān)鍵.
目前,英文與中文命名實(shí)體識(shí)別的文獻(xiàn)較多,主要有基于語(yǔ)料庫(kù)統(tǒng)計(jì)和規(guī)則[1-2]的識(shí)別方法、基于統(tǒng)計(jì)的識(shí)別以及統(tǒng)計(jì)與規(guī)則相結(jié)合的識(shí)別:在統(tǒng)計(jì)方法中如隱馬爾可夫模型[3-4](Hidden Markov Model,HMM)、條件隨機(jī)場(chǎng)[6-7](Conditional Random Fields,CRF)、最大熵[8-9](Maximum Entropy,ME)、支持向量機(jī)[10](Support Vector Machines,SVM)等都被用于人名識(shí)別中,取得了較高的召回率.
藏文命名實(shí)體識(shí)別工作比較落后,華卻才讓等[11]通過(guò)對(duì)命名實(shí)體構(gòu)詞規(guī)律及分詞歧義進(jìn)行分析,提出基于音節(jié)特征感知機(jī)訓(xùn)練模型的藏文命名實(shí)體識(shí)別方案.加羊吉等[12]分析藏文人名構(gòu)成規(guī)律和特點(diǎn),提出了一種最大熵和條件隨機(jī)場(chǎng)相融合的藏文人名識(shí)別方法.康才畯等[13]提出基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別方法.另外,《常見藏語(yǔ)人名地名詞典》[14]中收錄10470個(gè)人名、地名、寺廟、旅游景點(diǎn)等實(shí)體名稱,為藏文命名實(shí)體識(shí)別任務(wù)提供了基礎(chǔ)工具.
近幾年來(lái),CRF模型成為自然語(yǔ)言處理領(lǐng)域最常見的機(jī)器學(xué)習(xí)方法之一.由于該方法簡(jiǎn)便易行,而且可以獲得較好的性能,因此受到很多學(xué)者的青睞,已被廣泛地應(yīng)用于人名、地名、組織機(jī)構(gòu)名等各種類型命名實(shí)體的識(shí)別,并在具體的應(yīng)用中不斷得到改進(jìn),可以說(shuō)是命名實(shí)體識(shí)別中最成功的方法[15].本文充分利用人名用詞特征,采用CRF模型進(jìn)行藏文人名識(shí)別,并通過(guò)規(guī)則方法進(jìn)行后處理,得到了較好的準(zhǔn)確率和召回率,證明了方法的可行性.
本文其余部分按如下方式組織:第1部分介紹藏文人名的特點(diǎn);第2部分介紹基于CRF的藏語(yǔ)人名識(shí)別方法;第3部分介紹基于規(guī)則的后處理方法;第5部分為實(shí)驗(yàn);第6部分為結(jié)論.
2.1 CRF簡(jiǎn)介
CRF模型是由Lafferty于2001年提出,是一種新的分類方法,也是目前比較先進(jìn)的機(jī)器學(xué)習(xí)模型之一[17].CRF是一種無(wú)向圖模型或者馬爾可夫隨機(jī)域,它采用一階鏈?zhǔn)綗o(wú)向圖結(jié)構(gòu)計(jì)算給定觀察值條件下輸出狀態(tài)的條件概率.如圖1所示:
CRF在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,定義{O=O1,O1,…OT}為被觀察的輸入數(shù)據(jù)序列,S={S1,S2,…,ST}為被預(yù)測(cè)的狀態(tài)序列,那么,在給定一個(gè)輸入數(shù)據(jù)序列的情況下,參數(shù)為A={λ1,λ2,…,λT}的線性連CRF,其輸出的狀態(tài)序列的條件概率為:
圖1
其中,fk(St-1,St,O,t)是一個(gè)任意的特征函數(shù),λk是對(duì)應(yīng)于每個(gè)特征函數(shù)的權(quán)值,Z0是歸一化因子,定義為:
2.2 藏文人名特征抽取
根據(jù)藏文人名的構(gòu)成特點(diǎn),本文使用了以下5個(gè)特征進(jìn)行人名識(shí)別.
表1 藏文人名CRF模型特征描述
在CRF模型中所說(shuō)的“上下文”指的是包含當(dāng)前詞在內(nèi)的及其前后若干個(gè)詞所組成的觀察窗口.理論上來(lái)說(shuō),窗口越大,能夠利用的上下文信息就越豐富,但是窗口開的過(guò)大所選擇的特征就會(huì)急劇增加,除了會(huì)嚴(yán)重影響運(yùn)行效率,也會(huì)產(chǎn)生過(guò)擬合現(xiàn)象;而窗口過(guò)小,特征利用的就不夠充分,會(huì)由于過(guò)于簡(jiǎn)單而丟失重要的上下文信息,進(jìn)而影響識(shí)別的效果[18].針對(duì)藏語(yǔ)人名的特點(diǎn),我們選取邊界窗口大小為± 1,即觀察包含當(dāng)前詞在內(nèi)以及其前后各一個(gè)詞.
1)詞形特征(TWord(wi)),即詞本身.TWord(wi-1)表示左邊界詞,TWord(wi)表示當(dāng)前詞,TWord(wi+1)表示右邊界詞.
2)詞性特征(TPOS(wi)):TPOS(wi-1)表示左邊界詞詞性,TPOS(wi)表示當(dāng)前詞詞性,TPOS(wi)表示右邊界詞詞性.
3)位置特征(TSentp(wi)),藏語(yǔ)是屬于SOV型語(yǔ)序結(jié)構(gòu),在一個(gè)完整的藏語(yǔ)句子中,謂語(yǔ)動(dòng)詞始終位于句子的結(jié)尾部分.因此,藏文中人名位置相對(duì)固定,一般可以出現(xiàn)在句首或句中,但不能出現(xiàn)在句尾.
4)詞長(zhǎng)特征(TLen(wi)):藏文人名最少只有一個(gè)音節(jié)(如:),最長(zhǎng)的有20幾個(gè)音節(jié).但是,我們統(tǒng)計(jì)《西藏日?qǐng)?bào)》2007年1月的語(yǔ)料,發(fā)現(xiàn)雙音節(jié)、三音節(jié)和四音節(jié)的人名約占人名總數(shù)的95%.因此,本文抽取的詞長(zhǎng)特征注重考慮雙音節(jié)、三音節(jié)和四音節(jié)人名.
藏文人名識(shí)別的目的是要得到較好的準(zhǔn)確率和召回率,通過(guò)條件隨機(jī)場(chǎng)模型進(jìn)行人名識(shí)別能夠獲得較好的準(zhǔn)確率,但是當(dāng)實(shí)體特征不是很明顯或不具備上述特征時(shí),人名識(shí)別就會(huì)有困難,召回率也隨之降低.然而,規(guī)則的方法可以有效地彌補(bǔ)條件隨機(jī)場(chǎng)模型的這一不足,從而提高整個(gè)系統(tǒng)的性能.我們認(rèn)為,利用規(guī)則對(duì)機(jī)器模型的識(shí)別結(jié)果進(jìn)行后處理是很有必要的.
設(shè)地名字串wi-1wiwi+1中,wi表示候選地名,wi-1表示候選地名的左邊界詞,wi+1表示候選地名的右邊界詞.根據(jù)藏語(yǔ)語(yǔ)言學(xué)及藏文地名本身的特性,我們將定義以下集合:
4.1 實(shí)驗(yàn)結(jié)果
本文的實(shí)驗(yàn)采用了《西藏日?qǐng)?bào)》2007年1月的語(yǔ)料(大小約3.5MB),用做訓(xùn)練語(yǔ)料,《西藏日?qǐng)?bào)》2007年2月1日至10日的語(yǔ)料(大小約1.3MB)用作開放測(cè)試.測(cè)試中我們采取了以下三個(gè)評(píng)測(cè)指標(biāo):
1)準(zhǔn)確率(Precision)
2)召回率(Recall)
3)F測(cè)試值(F-measure)
在實(shí)驗(yàn)中我們分別測(cè)試了CRF模型識(shí)別方法和CRF+規(guī)則的方法兩種情況下的藏文人名識(shí)別性能,實(shí)驗(yàn)結(jié)果如表2所示:
表2 識(shí)別結(jié)果
從表2可以看出,用CRF模型能夠獲得較好的識(shí)別結(jié)果,但是,加上規(guī)則后處理的方法,不但系統(tǒng)的準(zhǔn)確率有所提高,而且許多由模型不能被召回的人名也得以召回,從而整個(gè)系統(tǒng)F-值也比單一模型提高了1.55%.實(shí)驗(yàn)結(jié)果表明,我們提出的CRF模型與規(guī)則相結(jié)合的藏文人名識(shí)別方法是很有效的.
4.2 實(shí)驗(yàn)分析
通過(guò)整個(gè)實(shí)驗(yàn)數(shù)據(jù)的分析,藏文人名識(shí)別錯(cuò)誤主要?dú)w納為如下4類:
2)邊界特征不明顯.人名無(wú)左邊界,右邊界又沒有明顯的邊界特征時(shí),識(shí)別錯(cuò)誤率較高,這時(shí)需要擴(kuò)充邊界信息庫(kù).
4)譯名識(shí)別錯(cuò)誤.由于譯名用詞庫(kù)較小,譯名用字比較分散,訓(xùn)練語(yǔ)料很難覆蓋,對(duì)于這種錯(cuò)誤,一方面,充分利用邊界信息;另一方面,擴(kuò)大譯名用詞庫(kù).
本文針對(duì)藏文人名本身的特性,分析了人名識(shí)別的難點(diǎn),提出了CRF與規(guī)則相結(jié)合的藏語(yǔ)人名識(shí)別方法.本文的主要貢獻(xiàn)在于:首次將CRF與規(guī)則相結(jié)合的方法應(yīng)用于藏文人名識(shí)別工作中,首先采用CRF作為機(jī)器學(xué)習(xí)模型,然后針對(duì)人名不能全面召回的問(wèn)題,利用規(guī)則方法進(jìn)行后處理,建立了一種優(yōu)勢(shì)互補(bǔ)的識(shí)別模型.實(shí)驗(yàn)結(jié)果表明,本文提出的方法獲得了較好的識(shí)別效果.
[1]鄭家恒,李鑫,譚紅葉.基于語(yǔ)料庫(kù)的中文姓名識(shí)別方法研究[J].中文信息學(xué)報(bào),2000,14(1):7-12.
[2]Li Jianhua,Wang X.L.An Effective Method on Automatic Identification of Chinese Name[J].High Technology Letters.2000,10(2):46-49.
[3]王丹,樊興華.面向短文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2009(1):143-145.
[4]Guo Yimo,Gao Huanping.A Chinese person name recognition system based o n agent-based HMM position tagging model[C]//Proceedings of the 6th Word Congress on Intelligent Control and Automation.Dalian,2006:4069-4072.
[5]張素香,高國(guó)洋,戚銀城.基于條件隨機(jī)場(chǎng)的中國(guó)人名識(shí)別方法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2009,41(2):40-43.
[6]王志強(qiáng).基于條件隨機(jī)域的中文命名實(shí)體識(shí)別研究[D].南京:南京理工大學(xué),2006.8.
[7]Mao Xinnian,He Saike,Bao Sencheng,et al.Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields[C]//Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing,Hyderabad,India,2008:90-93.
[8]錢晶,張玥杰,張濤.基于最大熵的漢語(yǔ)人名地名研究[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(9):1701-1765.
[9]賈寧,張全.基于最大熵模型和規(guī)則的中文姓名識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(45):1-4.
[10]李麗雙,黃德根,陳春榮,楊元生.SVM與規(guī)則相結(jié)合的中文地名自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2006,20.
[11]陳觀勝,安才旦.常見藏語(yǔ)人名地名詞典[Z].北京:外文出版社,2004.
[12]華卻才讓,姜文斌,趙海興,等.基于感知機(jī)模型藏文命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(15):172-176.
[13]加羊吉,李亞超,宗成慶,等.最大熵和條件隨機(jī)場(chǎng)模型相融合的藏文人名識(shí)別[J].中文信息學(xué)報(bào),2014,28(1):107-112.
[14]康才畯,龍從軍,江荻.基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(3):109-111.
[15]宗成慶,統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.
[16]王貴.藏族人名研究[M].北京:民族出版社,1991.
[17]J.Lafferty,A.McCallum,F(xiàn).Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceeding of ICML-2001,2001:282-289.
[18]張佳寶基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)研究生院,2010,10
TP391
A
1009-2102(2016)03-0041-05
2016-06-02
國(guó)家社科青年基金項(xiàng)目(15CYY043);國(guó)家自然基金地區(qū)基金項(xiàng)目(61363057).
加羊吉(1985—),女,副教授,博士,主要從事藏文信息處理方面的研究.