張 磊
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
命名實(shí)體(Named Entity,NE)[1]是文本中的基本信息單元,是文本中固有名稱、縮寫及其他唯一標(biāo)識(shí),其往往指示了文章的主要內(nèi)容。命名實(shí)體識(shí)別(Named Entity Recognition,NER)[2]是目前文本信息自動(dòng)化處理過(guò)程中一個(gè)基礎(chǔ)而又關(guān)鍵的技術(shù)。近年來(lái),對(duì)特定領(lǐng)域的命名實(shí)體進(jìn)行識(shí)別已較為普遍,文獻(xiàn)[3-4]針對(duì)生物領(lǐng)域分別使用了支持向量機(jī),基于隱馬爾可夫?qū)ι镝t(yī)學(xué)命名實(shí)體進(jìn)行了識(shí)別;文獻(xiàn)[5]針對(duì)商務(wù)信息提出了一種基于層級(jí)隱馬爾可夫模型的產(chǎn)品命名實(shí)體識(shí)別方法,實(shí)現(xiàn)了漢語(yǔ)自由文本中產(chǎn)品命名實(shí)體的識(shí)別;文獻(xiàn)[6-7]針對(duì)軍事領(lǐng)域均提出了使用條件隨機(jī)場(chǎng)與規(guī)則相結(jié)合的方式對(duì)軍事命名實(shí)體進(jìn)行識(shí)別;文獻(xiàn)[8]針對(duì)音樂(lè)領(lǐng)域提出使用統(tǒng)計(jì)模型隱馬爾可夫模型和規(guī)則相結(jié)合的方式對(duì)歌手名、歌曲名、專輯名進(jìn)行了實(shí)體識(shí)別;文獻(xiàn)[9-10]針對(duì)醫(yī)學(xué)領(lǐng)域均使用基于條件隨機(jī)場(chǎng)和規(guī)則相結(jié)合的方式對(duì)命名實(shí)體進(jìn)行識(shí)別。上述各個(gè)領(lǐng)域的命名實(shí)體識(shí)別方法主要是基于規(guī)則、基于統(tǒng)計(jì)、基于規(guī)則和統(tǒng)計(jì)相結(jié)合的識(shí)別方法[13]。
由于各個(gè)領(lǐng)域的文本具有其特有的文本特點(diǎn),上述領(lǐng)域提出的命名實(shí)體識(shí)別方法只能適應(yīng)其各自領(lǐng)域。若將這些方法遷移到其他特定領(lǐng)域,識(shí)別效果將會(huì)嚴(yán)重下降。本文針對(duì)該問(wèn)題,提出一種將條件隨機(jī)場(chǎng)、半監(jiān)督和主動(dòng)學(xué)習(xí)相結(jié)合的算法,從而形成一個(gè)統(tǒng)一的適應(yīng)于特定領(lǐng)域的命名實(shí)體識(shí)別的技術(shù)框架。該方法首先選取特定文本的基本通用特征構(gòu)建特征集合,訓(xùn)練條件隨機(jī)場(chǎng)對(duì)特定領(lǐng)域進(jìn)行命名實(shí)體的基礎(chǔ)識(shí)別,再通過(guò)主動(dòng)選取置信度低于選定閾值的樣本進(jìn)行人工標(biāo)注,并迭代擴(kuò)展訓(xùn)練樣本來(lái)達(dá)到高識(shí)別效果。為驗(yàn)證本文所提方法的正確性,本文在實(shí)驗(yàn)部分進(jìn)行了實(shí)驗(yàn),以軌道交通文本為實(shí)驗(yàn)對(duì)象進(jìn)行了對(duì)比實(shí)驗(yàn)。其準(zhǔn)確率、召回率和F-值分別達(dá)到了87.78%,86.05%,86.91%。實(shí)驗(yàn)數(shù)據(jù)表明該算法在軌道交通領(lǐng)域取得了較好的識(shí)別效果,驗(yàn)證了該方法的有效性。
條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是由Lafferty等人[14]于2001年在隱馬爾可夫模型(HMM)和最大熵模型(MEMM)的基礎(chǔ)上提出的一種概率式判別模型。它可以充分結(jié)合觀察序列中的多種特征信息,來(lái)克服HMM中嚴(yán)格的強(qiáng)獨(dú)立性假設(shè)問(wèn)題。同時(shí),CRF進(jìn)行全局歸一化得出的全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,能夠克服MEMM中出現(xiàn)的標(biāo)記偏置的問(wèn)題。
CRFs也是一種無(wú)向圖學(xué)習(xí)模型或稱馬爾可夫隨機(jī)場(chǎng),其用來(lái)定義:在給定一組被標(biāo)記的觀察序列(記為X)的情況下,一個(gè)標(biāo)記序列(記為Y)的聯(lián)結(jié)概率分布。則CRFs(X,Y)可以表示為以觀察序列X為條件的無(wú)向圖模型。該圖模型的結(jié)構(gòu)是任意的,但由于一階鏈結(jié)構(gòu)在訓(xùn)練和計(jì)算時(shí)最為簡(jiǎn)單,因此建立CRFs時(shí)會(huì)采用一階鏈結(jié)構(gòu)。CRFs假設(shè)一階鏈狀無(wú)向圖模型的各輸出點(diǎn)之間存在一階馬爾可夫獨(dú)立性,如圖1所示。
圖1 一階鏈狀無(wú)向圖模型
那么一階鏈結(jié)構(gòu)的標(biāo)記序列Y的條件概率為:
(1)
其中,
(2)
其中,z(X)為歸一化因子,n表示給定的詞序列長(zhǎng)度,f是特征函數(shù),λ是其對(duì)應(yīng)的權(quán)值。求解序列標(biāo)記的任務(wù)就是求得一個(gè)Y*從而使得p(Y|X)最大,其中Y*表示為全局最優(yōu)解。
Self-training(自訓(xùn)練)算法隸屬于半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,其可通過(guò)大量未標(biāo)注語(yǔ)料與少量已標(biāo)注語(yǔ)料自行進(jìn)行訓(xùn)練及分類,整個(gè)過(guò)程不需要人工來(lái)干預(yù)。對(duì)于軌道交通領(lǐng)域文本,標(biāo)注語(yǔ)料比較缺乏,而人工進(jìn)行大量標(biāo)注費(fèi)時(shí)費(fèi)力,同時(shí)在時(shí)間上也不夠高效。因此,若要通過(guò)少量的標(biāo)注語(yǔ)料進(jìn)行CRF訓(xùn)練,必須結(jié)合半監(jiān)督學(xué)習(xí)才能獲得一個(gè)泛化能力強(qiáng)的模型。
本文采用Self-training算法,算法流程如下:
輸入:已標(biāo)注訓(xùn)練集L;特征集合V;未標(biāo)注訓(xùn)練集U
1)利用已標(biāo)注訓(xùn)練集L在特征集合V上訓(xùn)練出模型Ci;
2)利用模型Ci對(duì)未標(biāo)注訓(xùn)練集U進(jìn)行命名實(shí)體識(shí)別,并計(jì)算置信度;
3)選擇出置信度高于一個(gè)閾值的樣本u加入到已標(biāo)注訓(xùn)練集L中,并從U中刪除u;
4)按照上述3個(gè)步驟迭代n次,直至模型收斂。
輸出:收斂模型Ci+n
然而Self-training算法要求初始分類器具有一定的分類準(zhǔn)確性,這一點(diǎn)如若不能保證,同時(shí)也因?yàn)閷W(xué)習(xí)過(guò)程沒(méi)有人工參與,那么在迭代學(xué)習(xí)過(guò)程中錯(cuò)誤將會(huì)累積,最終將導(dǎo)致分類器訓(xùn)練失效。
Active-learning(主動(dòng)學(xué)習(xí))[15]算法的特點(diǎn)在于主動(dòng)選擇有利于模型訓(xùn)練的未標(biāo)注樣本來(lái)標(biāo)注,從而盡可能地減少標(biāo)注成本和分類器學(xué)習(xí)的計(jì)算規(guī)模。其思想已經(jīng)成功地應(yīng)用到自然語(yǔ)言處理領(lǐng)域,例如文本分塊[16]、構(gòu)建語(yǔ)料庫(kù)[17]、實(shí)體識(shí)別[18]。相對(duì)比Self-training算法,兩者的區(qū)別在于樣本的選擇:Self-training算法不需要人工干預(yù),通過(guò)自身選取置信度高的未標(biāo)注數(shù)據(jù)加以利用;而Active-learning算法則是人工選擇出最有價(jià)值的標(biāo)注樣本來(lái)加入到已標(biāo)注樣本集。
本文采用目前國(guó)內(nèi)權(quán)威的中文分詞系統(tǒng)ICTCLAS,對(duì)軌道交通文本進(jìn)行分詞處理,同時(shí)其詞性標(biāo)注結(jié)果也將作為CRF學(xué)習(xí)的重要特征。本文使用字母符號(hào){B,I,E,O}集合對(duì)特定領(lǐng)域文本實(shí)體的第一字符、中間字符、尾字符及非實(shí)體部分進(jìn)行標(biāo)注。句子中的每一個(gè)字符都是{B,I,E,O}字母符號(hào)集中的一種。
在CRF模型的訓(xùn)練中,選取合適的特征并創(chuàng)建特征模板是影響模型性能的關(guān)鍵。特定領(lǐng)域文本具有其獨(dú)特的文本特征,為適應(yīng)各個(gè)特定領(lǐng)域,本文使用以下4種基本特征建立特征函數(shù)。
1)詞特征。使用分詞后的每一個(gè)詞本身作為模型特征,詞特征本身能夠較為完整地反應(yīng)文本基本特征。
2)詞性特征。本文用ICTCLAS工具分詞的同時(shí)也對(duì)每個(gè)詞進(jìn)行了詞性標(biāo)注處理。研究表明[13],用詞性作為特征來(lái)建立條件隨機(jī)場(chǎng)的模型能夠有效地提高模型性能。
3)英文字母以及數(shù)字特征。多數(shù)特定領(lǐng)域的命名實(shí)體都含有數(shù)字,例如農(nóng)業(yè)領(lǐng)域的“玉米壟高L2”、軌道交通領(lǐng)域的“和諧號(hào)CRH380A”、軍事領(lǐng)域的“ZTZ-99式主戰(zhàn)坦克”等。因此把英文字母和數(shù)字作為特征有助于一些特定領(lǐng)域的專業(yè)詞匯的識(shí)別。
4)上下文特征。觀察值源于輸入的觀察序列本身,能夠包含許多語(yǔ)言及文本信息。通過(guò)大量實(shí)驗(yàn)證明,在訓(xùn)練范圍較大的前提下,只用上下文特征也能夠訓(xùn)練出性能較好的模型。
表1 原子特征模板
序號(hào)模板模板意義1Wi當(dāng)前詞2Wi-1當(dāng)前詞左面第一詞3Wi-2當(dāng)前詞左面第二詞4Wi+1當(dāng)前詞右面第一詞5Wi+2當(dāng)前詞右面第二詞6Pi當(dāng)前詞詞性7Pi-1當(dāng)前詞左面第一詞詞性8Pi-2當(dāng)前詞左面第二詞詞性9Pi+1當(dāng)前詞右面第一詞詞性10Pi+2當(dāng)前詞右面第二詞詞性11Li當(dāng)前詞是否為字母12Li-1當(dāng)前詞左面第一詞是否為字母13Li+1當(dāng)前詞右面第一詞是否為字母14Ni當(dāng)前詞是否為數(shù)字15Ni-1當(dāng)前詞左面第一詞是否為數(shù)字16Ni+1當(dāng)前詞右面第一詞是否為數(shù)字
本文將上述幾種特征進(jìn)行融合從而建立多個(gè)特征模板。特征模板的建立就是為了獲取所需要的特征函數(shù),而特征函數(shù)也一定程度上決定著本文對(duì)軌道交通文本的識(shí)別效果。本文將特征模板的活動(dòng)窗口設(shè)為3,其中W代表詞特征,L代表字母特征,N代表數(shù)字特征,P代表詞性特征,下標(biāo)i,i+1,i+2,i-1,i-2分別代表當(dāng)前詞、當(dāng)前詞右面第一詞、當(dāng)前詞右面第二詞、當(dāng)前詞左面第一詞、當(dāng)前詞左面第二詞。通過(guò)表1和表2給出部分原子特征模板以及復(fù)合特征模板。
表2 復(fù)合特征模板
序號(hào)模板1Wi-2,Wi-1,Wi,Wi+1,Wi+22Pi-2,Pi-1,Pi,Pi+1,Pi+23Wi-2,Wi-1,Wi,Wi+1,Wi+2,Pi-2,Pi-1,Pi,Pi+1,Pi+24Wi-2,Wi-1,Wi,Wi+1,Wi+2,Pi-2,Pi-1,Pi,Pi+1,Pi+2,Li-1,Li,Li+15Wi-2,Wi-1,Wi,Wi+1,Wi+2,Pi-2,Pi-1,Pi,Pi+1,Pi+2,Li-1,Li,Li+1,Ni,Ni-1,Ni+1
在現(xiàn)有的各特定領(lǐng)域命名實(shí)體識(shí)別方法之中,基于CRF和Self-training算法相結(jié)合的識(shí)別方法應(yīng)用得較為廣泛。正如上文所講,Self-training算法會(huì)從未標(biāo)注樣本集U中挑選置信度高于一個(gè)選定閾值的樣本u來(lái)加入已標(biāo)注訓(xùn)練集L。理論上,訓(xùn)練集的數(shù)量擴(kuò)大后,使用訓(xùn)練集訓(xùn)練得出的新模型λn更為準(zhǔn)確。然而,在新添加的訓(xùn)練樣本里,有一部分?jǐn)?shù)據(jù)μ(μ∈u)對(duì)于提高新模型λn的性能并無(wú)很大作用。因?yàn)閿?shù)據(jù)μ可以由原模型正確標(biāo)注出來(lái),添加數(shù)據(jù)μ到原有訓(xùn)練集之中是冗余的。除此之外,特定領(lǐng)域分詞標(biāo)注語(yǔ)料較為匱乏,使得現(xiàn)有基于通用領(lǐng)域的分詞系統(tǒng)對(duì)特定領(lǐng)域文本分詞和詞性標(biāo)注時(shí)會(huì)降低準(zhǔn)確性。綜上2點(diǎn)所述,如若僅使用Self-training算法和CRF相結(jié)合,模型在迭代過(guò)程中不僅性能提升較慢,更會(huì)不斷累積錯(cuò)誤。然而,與Active-learning算法相結(jié)合可以克服這一弊端。針對(duì)那些并不能被原模型λ0使用通用領(lǐng)域正確標(biāo)注的樣本數(shù)據(jù),對(duì)其人工標(biāo)注后,再將標(biāo)注好的數(shù)據(jù)放入訓(xùn)練集中重新訓(xùn)練模型,依次迭代。這樣一方面可以減少分類器學(xué)習(xí)時(shí)間,另一方面可以實(shí)現(xiàn)原模型λ0對(duì)特定領(lǐng)域文本的適應(yīng)。
本文將那些不能被原模型λ0正確標(biāo)注的樣本稱為有效數(shù)據(jù),該樣本存在于未標(biāo)注數(shù)據(jù)中。在這里,將通過(guò)置信度來(lái)選擇出有效數(shù)據(jù)。上文中,條件隨機(jī)場(chǎng)p(Y|X)是樣本標(biāo)注序列Y的條件概率。當(dāng)p(Y|X)的值越小,說(shuō)明在已知觀察序列X的前提下,獲得的最優(yōu)解Y*的概率越小,即模型對(duì)序列Y的識(shí)別結(jié)果越?jīng)]有把握;反之則越有把握。因此,p(Y|X)可以充分表示使用條件隨機(jī)場(chǎng)模型對(duì)標(biāo)注結(jié)果的置信度,且有效數(shù)據(jù)的選擇依據(jù)就是選擇置信度低,也就是p(Y|X)值最小的n組數(shù)據(jù)。
算法框架如圖2所示。
圖2 軌道交通文本的命名實(shí)體識(shí)別技術(shù)框架
算法的流程如下:
輸入:已標(biāo)注訓(xùn)練樣本集L;未標(biāo)注訓(xùn)練樣本集U
1)獲取少量的已標(biāo)注語(yǔ)料來(lái)作為L(zhǎng);
2)使用CRF對(duì)L進(jìn)行訓(xùn)練學(xué)習(xí),產(chǎn)生CRF模型Ci;
3)使用模型Ci對(duì)U命名實(shí)體識(shí)別,并且對(duì)U的標(biāo)注結(jié)果估算其置信度,即條件概率p(Y|X);
4)選擇U中置信度低于選定閾值的多組數(shù)據(jù)作為有效數(shù)據(jù),記為Useful;
5)對(duì)Useful進(jìn)行人工標(biāo)注,標(biāo)注好的數(shù)據(jù)記為u;
6)將u加入到L中,并從U中刪除;
7)迭代上述過(guò)程,直至模型Ci性能指標(biāo)達(dá)到收斂狀態(tài)。
輸出:收斂模型Ci
為驗(yàn)證本文方法,采用軌道交通領(lǐng)域文本進(jìn)行實(shí)驗(yàn)。軌道交通包含地鐵、輕軌、磁懸浮、高鐵、有軌電車、動(dòng)車等,該領(lǐng)域文本的命名實(shí)體包含軌道路線名(深圳地鐵空港線3B號(hào)線)、車站名(北京地鐵公主墳站)、隧道名(祁山長(zhǎng)道隧道)、車輛名(和諧號(hào)CRH380A)等。由于目前沒(méi)有比較權(quán)威而且統(tǒng)一的軌道交通語(yǔ)料庫(kù),因此人工收集構(gòu)建軌道交通語(yǔ)料庫(kù)。數(shù)據(jù)來(lái)源為網(wǎng)絡(luò)軌道交通網(wǎng)站以及軌道交通刊物,共200篇文章,總計(jì)62948字。其中,訓(xùn)練語(yǔ)料集和測(cè)試語(yǔ)料集分別選取150篇和50篇。本實(shí)驗(yàn)中采用著名的CRF開(kāi)源工具CRF++進(jìn)行訓(xùn)練和測(cè)試,再結(jié)合Active-learning算法和Self-training算法實(shí)現(xiàn)對(duì)軌道交通文本的命名實(shí)體識(shí)別。
本文針對(duì)軌道交通文本進(jìn)行了4組實(shí)驗(yàn)對(duì)比。
實(shí)驗(yàn)1采用本文方法,使用Self-training算法、Active-learning算法以及CRF三者相結(jié)合的方式進(jìn)行迭代式學(xué)習(xí),其中置信度的閾值選為25%,且對(duì)置信度低于25%的數(shù)據(jù),即有效數(shù)據(jù)進(jìn)行人工重新標(biāo)注后加入到訓(xùn)練集進(jìn)行下一次模型訓(xùn)練。
實(shí)驗(yàn)2采用隨機(jī)主動(dòng)學(xué)習(xí)方法,每次迭代過(guò)程中隨機(jī)選擇與實(shí)驗(yàn)1數(shù)量相同的樣本進(jìn)行人工標(biāo)注,再將標(biāo)注數(shù)據(jù)擴(kuò)展到訓(xùn)練集中。
實(shí)驗(yàn)3采用半監(jiān)督完全自學(xué)習(xí)方法,使用Self-training算法和CRF相結(jié)合的方式對(duì)訓(xùn)練語(yǔ)料進(jìn)行迭代式學(xué)習(xí),每次選擇置信度高于95%的樣本直接加入到訓(xùn)練樣本集中進(jìn)行下一輪迭代訓(xùn)練,直至收斂。
實(shí)驗(yàn)4采用完全標(biāo)注訓(xùn)練集識(shí)別方法,將所有的訓(xùn)練集標(biāo)注,訓(xùn)練成模型進(jìn)行實(shí)體識(shí)別。
本實(shí)驗(yàn)采用正確率(P)、召回率(R)、F-值這3個(gè)指標(biāo)對(duì)軌道交通文本命名實(shí)體的識(shí)別結(jié)果進(jìn)行性能衡量。其計(jì)算公式為:
(3)
(4)
(5)
對(duì)以上4個(gè)實(shí)驗(yàn)的軌道交通文本命名實(shí)體識(shí)別結(jié)果如表3所示。
表3 軌道交通文本命名實(shí)體識(shí)別結(jié)果
實(shí)驗(yàn)實(shí)體總數(shù)識(shí)別個(gè)數(shù)正確個(gè)數(shù)正確率/%召回率/%F-值/%實(shí)驗(yàn)155254147587.7886.0586.91實(shí)驗(yàn)255253039975.3372.4173.84實(shí)驗(yàn)355254135848.9246.7747.82實(shí)驗(yàn)455254549190.0888.9289.50
圖3是4種實(shí)驗(yàn)方式中的F-值與迭代次數(shù)的關(guān)系,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為F-值。
圖3 F-值與迭代次數(shù)關(guān)系表
從以上實(shí)驗(yàn)數(shù)據(jù)可以看出,實(shí)驗(yàn)3半監(jiān)督完全自學(xué)習(xí)方法僅使用CRF和Self-training算法進(jìn)行訓(xùn)練得到的結(jié)果并不理想,F(xiàn)-值基本在水平線上波動(dòng),這是因?yàn)槊看芜x擇置信度較高的樣本加入到已標(biāo)注樣本集,其訓(xùn)練效用與已標(biāo)注訓(xùn)練集訓(xùn)練效用相似。同時(shí)因?yàn)檐壍澜煌I(lǐng)域?yàn)樘囟I(lǐng)域,具有其獨(dú)特的文本特點(diǎn),然而使用的是基于通用領(lǐng)域的分詞系統(tǒng),從而使得其對(duì)軌道交通文本進(jìn)行分詞和詞性標(biāo)注的時(shí)候會(huì)降低準(zhǔn)確性。因此,在不斷迭代學(xué)習(xí)過(guò)程中錯(cuò)誤將會(huì)被累積,從而將導(dǎo)致分類器的效果不佳。
實(shí)驗(yàn)2相較于實(shí)驗(yàn)3,F(xiàn)-值有了大幅提升,這表明主動(dòng)學(xué)習(xí)算法應(yīng)用于此的確是有效的,對(duì)一部分?jǐn)?shù)據(jù)人工進(jìn)行重新標(biāo)注一定程度上克服了實(shí)驗(yàn)3遇到的初始分類器標(biāo)注錯(cuò)誤的問(wèn)題。但是隨機(jī)選擇樣本會(huì)遺漏一部分有效數(shù)據(jù),并重復(fù)選擇與訓(xùn)練集有相似效用的無(wú)效數(shù)據(jù),所以其識(shí)別結(jié)果仍不理想。
實(shí)驗(yàn)1使用本文提出的方法,人工標(biāo)注置信度低的有效數(shù)據(jù),克服了實(shí)驗(yàn)3和實(shí)驗(yàn)2的2個(gè)弊端,既能避免分類器在不斷迭代學(xué)習(xí)過(guò)程中積累錯(cuò)誤,又能重新標(biāo)注有效數(shù)據(jù)。實(shí)驗(yàn)1相較于實(shí)驗(yàn)2的F-值又提升了13%,這表明本文所提方法,選擇置信度低于閾值的有效數(shù)據(jù)在重新標(biāo)注后加入訓(xùn)練集訓(xùn)練學(xué)習(xí)得到的分類器,能夠較好地對(duì)軌道交通文本進(jìn)行命名實(shí)體識(shí)別。
實(shí)驗(yàn)4相對(duì)于實(shí)驗(yàn)3在F-值上提高了將近42%,而本文所提方法相較于實(shí)驗(yàn)3提高了近39%,但是后者的標(biāo)注語(yǔ)料明顯少于前者,從而證明了本文所提方法在特定文本分詞系統(tǒng)匱乏、標(biāo)注語(yǔ)料較少情況下的有效性。
由圖3可以看出,4個(gè)實(shí)驗(yàn)基本上在第5輪迭代時(shí),模型的性能就趨于最優(yōu),之后在一個(gè)小范圍內(nèi)穩(wěn)定地波動(dòng)。本文對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了McNemar測(cè)試,測(cè)試結(jié)果p<0.01,表明本文所提方法與傳統(tǒng)方法的差異具有統(tǒng)計(jì)顯著性。
本文提出一種基于CRF前提下,將半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的方法對(duì)特定領(lǐng)域文本進(jìn)行命名實(shí)體識(shí)別,該方法使用半監(jiān)督學(xué)習(xí)中常用的Self-training算法對(duì)條件隨機(jī)場(chǎng)模型進(jìn)行迭代,其在迭代過(guò)程中選擇置信度低的有效數(shù)據(jù)加入到已標(biāo)注樣本,這結(jié)合了主動(dòng)學(xué)習(xí)算法的思想。該方法在軌道交通文本的命名實(shí)體識(shí)別上取得了較好的識(shí)別結(jié)果。本文實(shí)驗(yàn)中僅使用了基礎(chǔ)的文本特征構(gòu)建特征集合對(duì)特定領(lǐng)域文本進(jìn)行條件隨機(jī)場(chǎng)的訓(xùn)練,選取和增加更多合適的特征對(duì)識(shí)別結(jié)果進(jìn)一步提升將是下一步的研究重點(diǎn)。同時(shí)在實(shí)驗(yàn)1和實(shí)驗(yàn)3中發(fā)現(xiàn)置信度閾值的選擇不同對(duì)實(shí)驗(yàn)結(jié)果影響也較為明顯,后續(xù)工作中也將對(duì)此進(jìn)行深入研究。
[1] Sang E F T K, Meulder F D. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition[C]// Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL. 2003,4:142-147.
[2] Mccallum A, Li Wei. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]// Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL. 2003,4:188-191.
[3] 王浩暢,趙鐵軍. 基于SVM的生物醫(yī)學(xué)命名實(shí)體的識(shí)別[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2006,27(z1):570-574.
[4] 陳錦,常致全,許軍. 基于HMM的生物醫(yī)學(xué)命名實(shí)體的識(shí)別與分類[J]. 計(jì)算機(jī)時(shí)代, 2006(10):40-42.
[5] 劉非凡,趙軍,呂碧波,等. 面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究[J]. 中文信息學(xué)報(bào), 2006,20(1):7-13.
[6] 馮蘊(yùn)天,張宏軍,郝文寧. 面向軍事文本的命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)科學(xué), 2015,42(7):15-18.
[7] 姜文志,顧佼佼,叢林虎. CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識(shí)別研究[J]. 指揮控制與仿真, 2011,33(4):13-15.
[8] 佘俊,張學(xué)清. 音樂(lè)命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用, 2010,30(11):2928-2931.
[9] 栗偉,趙大哲,李博,等. CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究, 2015,32(4):1082-1086.
[10] 張金龍,王石,錢存發(fā). 基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識(shí)別[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014(3):159-162.
[11] 鞠久朋,張偉偉,寧建軍,等. CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)工程, 2011,37(7):210-212.
[12] 何炎祥,羅楚威,胡彬堯. 基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2015,32(1):179-185.
[13] Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007,30(1):3-26.
[14] Lafferty J D, Mccallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. 2001:282-289.
[15] Engelbrecht A P, Cloete I. Incremental learning using sensitivity analysis[C]// International Joint Conference on Neural Networks. 1999,2:1350-1355.
[16] Ngai G, Yarowsky D. Rule writing or annotation: Cost-efficient resource usage for base noun phrase chunking[J]. Computer Science, 2001:117-125.
[17] Engelson S P, Dagan I. Minimizing manual annotation cost in supervised training from corpora[C]// Proceedings of the 34th Annual Meeting on Association for Computational Linguistics. 1996:319-326.
[18] 馮沖,陳肇雄,黃河燕. 采用主動(dòng)學(xué)習(xí)策略的組織機(jī)構(gòu)名識(shí)別[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2006,27(4):710-714.