黃 德 根, 李 澤 中, 萬 如
(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)
命名實體識別是許多自然語言處理任務的基本要求,其識別效果直接影響文本信息的深層次處理.機構(gòu)名識別是命名實體識別的主要任務之一.與人名和地名相比,機構(gòu)名具有長度較長而且不固定、用詞復雜并且未登錄詞較多、具有嵌套結(jié)構(gòu)等特點,因此其識別難度相對較大.
早期的機構(gòu)名識別采用的多是基于規(guī)則的方法.文獻[1]針對高校名稱建立了一個規(guī)則模型,而規(guī)則的獲取往往依賴于特定的領域,成為該類方法的瓶頸;文獻[2]采用決策樹的方法進行命名實體識別,但識別精度較低;文獻[3、4]采用隱馬模型(HMM)進行命名實體識別,該模型需要嚴格的獨立性假設,而事實上絕大多數(shù)的數(shù)據(jù)并不能表示為一系列獨立的元素;文獻[5]采用SVM進行命名實體識別;文獻[6、7]采用CRF進行機構(gòu)名識別,識別效果比較理想,但仍有改進的余地;文獻[8]提出了一個基于角色標注的方法,不足之處是角色集對實驗結(jié)果影響較大,需要反復實驗才可以確定合適的角色集;文獻[9]將機器學習和人工知識結(jié)合起來進行機構(gòu)名識別.
本文將機構(gòu)名分為簡單機構(gòu)名和復雜機構(gòu)名兩大類.簡單機構(gòu)名即僅由一個詞組成的機構(gòu)名,如新華社、國安隊、中共中央等;復雜機構(gòu)名即由多個詞組成的機構(gòu)名,可定義為P+S的形式,P為機構(gòu)名前部詞,S為機構(gòu)名特征詞(如公司、大學等),即復雜機構(gòu)名是由一個或一個以上的機構(gòu)名前部詞加上機構(gòu)名特征詞組成的.
假設原始輸入空間XRn(其中n為輸入空間的維數(shù)),定義訓練集
其中xi∈X;yi∈ {-1,1}是xi的標記,若xi屬于正類,則yi=1,若xi屬于負類,則yi=-1;l為樣本的個數(shù).SVM即尋找能夠?qū)⒂柧殧?shù)據(jù)劃分為兩類的最優(yōu)超平面[10],該超平面可以通過求下面的凸二次規(guī)劃方程的解得到:
其中k(xi,xj)= (xi)· (xj),為Kernel函數(shù),其滿足Mercer條件, (x)為原始輸入空間到高維特征空間的非線性映射;αi為與每個樣本對應的Lagrange乘子;c>0,是自定義的懲罰系數(shù).給定一個測試實例x,它的類別由下面的決策函數(shù)決定:
其中sv為支持向量,b是分類閾值,可用任一支持向量或通過兩類中任一對支持向量取中值求得.
針對機構(gòu)名右邊界的識別任務來講,識別對象是存在于特征詞表中的詞,對這些詞提取出支持向量集.每個向量均對應一個權值,對其應用式(2)進行循環(huán)計算并求和,得到的值即為x到超平面的距離.若該值大于0,表示該詞識別為模型中定義的+1類,即確定為右邊界;若小于0,表示該詞識別為-1類,即確定為非右邊界.
條件隨機場是在給定輸入節(jié)點值時計算指定輸出節(jié)點值的條件概率的無向圖模型[11],其中線性條件隨機場(CRFs)是最簡單的一種形式.對于給定觀測序列X= {x1,x2,…,xT},CRFs定義其對應的狀態(tài)序列Y= {y1,y2,…,yT}的條件概率為
其中Z(X)是歸一化因子,使得所有狀態(tài)序列的概率和為1,fk(yi-1,yi,xi)是關于觀測序列和位置i及i-1標記的轉(zhuǎn)移特征函數(shù),f′k(yi,xi)是關于觀測序列和位置i的標記的狀態(tài)特征函數(shù),λk和λ′k是與相應的特征函數(shù)相關的權值.則最大可能的標記序列為
對機構(gòu)名識別的任務來說,觀測序列X為分詞和詞性標注后的序列,對應的狀態(tài)序列Y為標記集序列,其中標記集的選擇詳見下一節(jié).例如在句子“呼市/jn/B 物資/n/I集團/n/L 曾/d/O有/vx/O 過/uo/O 輝煌/a/O 的/ud/O 歷史/n/O”中,對當前詞“呼市”考慮其詞形特征時定義特征函數(shù)如下:
對“集團”考慮詞性的組合特征時定義特征函數(shù)如下:
當特征函數(shù)取特定值時,特征模板被實例化,就可以得到具體的特征.通過CRF++(V0.49)工具包的訓練就可以得到特征函數(shù)對應的權值.
從訓練語料中自動提取機構(gòu)名識別所需的各詞表,詳細介紹如下.
(1)特征詞表Df
特征詞指的是機構(gòu)名末尾具有一定表征意義的詞,如“廠、大學、公司”等.對中文機構(gòu)名的識別首先是從機構(gòu)名右邊界開始的,所以建立該詞表可作為機構(gòu)名識別的觸發(fā)條件.
(2)前部詞表Db
前部詞是指機構(gòu)名中除特征詞之外的詞,地名性名詞和普通名詞的比重較大,但總體來說用詞比較復雜,有很強的隨意性.
(3)左右指界詞表
左指界詞即出現(xiàn)在機構(gòu)名前面的第一個詞,比如“代表”“考入”;右指界詞即出現(xiàn)在機構(gòu)名后面的第一個詞;比如“局長”“主辦”.不同指界詞對機構(gòu)名邊界的指示作用不同,因此在統(tǒng)計指界詞表時,需同時統(tǒng)計出各詞作為指界詞出現(xiàn)的次數(shù),并根據(jù)次數(shù)將其分為不同的級別.
(4)簡單機構(gòu)名表
主要用于簡單機構(gòu)名的識別,存在于該詞表中的詞均被認為是簡單機構(gòu)名候選詞.
機構(gòu)名的識別最終可以轉(zhuǎn)化為序列標注的任務,首先要定義適合該任務的標記集合,不同的標記集對識別結(jié)果也有一定的影響[12],通過分析和實驗定義標記集,如表1所示.
表1 標記集的選擇Tab.1 Selection of tag set
該機構(gòu)名識別模型分兩層,第一層采用CRF識別簡單機構(gòu)名,并將識別結(jié)果傳至第2層;第二層采用基于驅(qū)動式標注的方法,結(jié)合SVM和CRF進行復雜機構(gòu)名的識別,即用SVM識別機構(gòu)名右邊界,對識別為右邊界的詞向前采用CRF進行前部標注.然后將兩層的識別結(jié)果進行合并.圖1為機構(gòu)名識別轉(zhuǎn)換為序列標注的實例,圖2為模型結(jié)構(gòu).
圖1 雙層模型的識別過程Fig.1 Recognition process of cascaded model
圖2 雙層混合模型結(jié)構(gòu)圖Fig.2 Architecture of hybrid cascaded model
2.3.1 簡單機構(gòu)名識別 CRF模型中非常重要的一步是針對特定的任務選擇合適的特征集[13].原則上是選擇的特征越多越好,但特征過多又會產(chǎn)生冗余信息,反而降低識別精度.通過對簡單機構(gòu)名分析確定的原子特征如表2所示.
其中n為表示位置的變量,取值為-2、-1、0、1、2.n=0表示當前位置,n=-1表示當前位置的前一位置,n=1表示當前位置的后一位置,依此類推.
表2 簡單機構(gòu)名識別的原子特征Tab.2 Atomic feature of simple organization name recognition
為更好地利用復雜的上下文信息,構(gòu)建組合特征為Word(n-1)Word(n)、Pos(n-1)Pos(n)、L_spe(n-1)Smp_org(n)、Smp_org(n-1)R_spe(n),其中n=-1,0,1.
2.3.2 SVM和CRF結(jié)合識別復雜機構(gòu)名
(1)SVM確定機構(gòu)名右邊界
右邊界的確定是個二值分類問題,而SVM是優(yōu)秀的二值分類器,因此采用SVM進行右邊界確定.對于出現(xiàn)在特征詞表中的詞均作為右邊界候選詞,利用SVM進行篩選,確定是否確實為機構(gòu)名右邊界詞.SVM也需要針對特定的任務選擇合適的特征,考慮到效率和識別效果兩方面的因素,選擇詞形和詞性這兩個特征.定義的11維向量的格式如下:其中S∈{-1,+1}表示類別,在右邊界識別的任務中,S=-1代表該詞不是機構(gòu)名右邊界,S=+1代表該詞是機構(gòu)名右邊界.W表示詞形,P表示詞性,數(shù)字表示所考核的詞相對當前詞的位置,0表示當前詞,1表示當前詞右側(cè)第一個詞,-1表示當前詞左側(cè)第一個詞.例如,在句子“呼市/jn物資/n集團/n曾/d有/vx過/uo輝煌/a的/ud歷史/n”中,對“集團”構(gòu)建向量如下:
通過SVM_light的工具包對向量集進行訓練,即可以得到各向量對應的Lagrange乘子.
(2)CRF進行前部標注
右邊界確定后,用CRF進行前部標注.以往的識別方法都是對文本進行全標注,本文考慮到機構(gòu)名的比重較小,使用全標注策略會造成大量的資源浪費,決定采用驅(qū)動式標注,即以右邊界為驅(qū)動,只對候選詞進行標注.候選詞的確定規(guī)則如下:假設最長的機構(gòu)名的長度為N,每確定一個右邊界,則該詞直接標注為“L”,該詞前面的N-1個詞就成為機構(gòu)名候選詞,除非碰到標點符號(其中“、”、《、》、‘、’等除外)、另一個右邊界或者一行的開頭.然后對確定為候選詞的詞進行標注,其他的詞均直接標注為非機構(gòu)名成分.這一策略的采用,在一定程度上縮短了訓練和標注時間,提高了識別的效率,并且由于減少了冗余信息,識別精度也有所提高.
此處選用的原子特征除了第一層中采用的Word、Pos、L_spe、R_spe外還需如下特征,如表3所示.
表3 前部標注增加的原子特征Tab.3 Additional atomic feature of tagging foreside
表中n的取值為-2、-1、0、1、2,所有的地名不管是否存在于前部詞表中,均標為“Y”.組合特征 定 義 為Word(n- 1)Word(n)、Pos(n-1)Pos(n)、L_spe(n- 1)Former_word(n)、Is_candidate(n- 1)R_spe(n)、L_spe(n- 1)Is_smp(n)Former_word(n)、Is_smp(n- 1)Is_candidate(n-1)R_spe(n),其中n= -1、0、1.
該方法比較適合于完整機構(gòu)名的識別,針對不同的語料需要在方法上作一些調(diào)整.若文本中不完整的機構(gòu)名占有一定的比重,則采用兩種方法進行識別,第一種采用本文的方法,第二種直接用CRF進行識別,然后比較兩個識別結(jié)果,對不同的識別結(jié)果選擇置信度較高的作為最終結(jié)果.
后續(xù)處理包括兩部分,第一部分為構(gòu)建概率模型,對識別結(jié)果中置信度低于某閾值的字串計算其可信度,并通過實驗選擇一個合適的閾值,可信度高于該閾值的確定為機構(gòu)名,否則確定為非機構(gòu)名.機構(gòu)名的可信度T(org)包括機構(gòu)名特征詞可信度T(S)和機構(gòu)名前部詞可信度T(P),計算如下:
其中NS為建立機構(gòu)名特征詞表時特征詞S出現(xiàn)的次數(shù);NP為建立機構(gòu)名前部詞表時前部詞P出現(xiàn)的次數(shù);Cn為調(diào)整系數(shù),n為機構(gòu)名前部詞的個數(shù).
第二部分為構(gòu)建規(guī)則模型,主要用于識別不完整的機構(gòu)名和兼類機構(gòu)名,并修正一些明顯的識別錯誤.規(guī)則舉例如下.
(1)并列關系詞(如:和、與、及其、“、”、“;”等)前后的標注應保持一致,出現(xiàn)不一致的情況時將標注結(jié)果統(tǒng)一為置信度較高的一方.
(2)從訓練語料中提取機構(gòu)名框架,比如:(考入、應聘到等)+機構(gòu)名+(上學、讀書、工作等),并根據(jù)出現(xiàn)次數(shù)進行精簡,對置信度低于某閾值的識別結(jié)果進行匹配,能匹配上的確定為機構(gòu)名,否則確定為非機構(gòu)名.
(3)體育新聞中經(jīng)常出現(xiàn)和地名兼類的機構(gòu)名,比如“中國對巴西”中的中國和巴西應標為機構(gòu)名.首先提取一個體育新聞常用詞表,比如半決賽、錦標賽等,當句子中出現(xiàn)“地名”對“地名”、(小勝、平等)+地名這一類的模式時,向前搜索,看前N個詞中是否存在著體育新聞常用詞,若存在,則把該處的地名標為機構(gòu)名.該規(guī)則正確修正了一些兼類詞的識別錯誤,但同時也把一些地名錯誤地標成了機構(gòu)名.
根據(jù)語料的不同,還有一些其他的規(guī)則,在此不再一一贅述.
本文選取的語料是北大標注的《人民日報》2000年1~4月和9~10月語料,所需資源是從1~4月及9月的語料中提取的,SVM和CRF的訓練語料是1月份的語料,約9.51 MB,測試語料是10月份的語料,約8.66 MB.
本文方法的實驗結(jié)果如表4所示.
表4 識別結(jié)果Tab.4 Recognition result %
針對復雜機構(gòu)名采用不同的方法進行實驗,實驗結(jié)果比較如表5所示.
表5 復雜機構(gòu)名的識別結(jié)果Tab.5 Results of complicated organization namerecognition %
從實驗結(jié)果可以看出,驅(qū)動式標注的SVM+CRF的識別效果最好,雖然相對于全標注的SVM+CRF在精度上的提高不太明顯,但由于冗余信息的減少而使訓練時間有所減少.
文獻[6]采用基于層疊CRF的方法進行中文機構(gòu)名識別,精確率和召回率分別為88.12%和90.05%,本文的識別結(jié)果好于文獻[6]的識別結(jié)果,但是由于本文的識別是基于正確的分詞和詞性標注之上的,而實際上分詞的錯誤會降低識別精度.
文獻[7]采用的訓練語料和本文一樣,測試語料是北大1998年的語料,該方法也是基于正確的分詞和詞性標注之上的,精確率和召回率分別為94.20%和93.11%.
本文建立了一個基于SVM和CRF的雙層模型進行機構(gòu)名識別,根據(jù)簡單機構(gòu)名和復雜機構(gòu)名的不同特點,在不同的層次中分別采用不同的方法進行識別.復雜機構(gòu)名中經(jīng)常包含有簡單機構(gòu)名,因此兩層的識別不是孤立的.首先在第一層采用CRF進行簡單機構(gòu)名識別,并將結(jié)果傳至下一層,在第二層采用驅(qū)動的SVM和CRF進行復雜機構(gòu)名識別,然后將兩層的識別結(jié)果進行合并,最后通過后續(xù)處理對置信度較低的結(jié)果進行修正.
實驗表明該方法有較好的中文機構(gòu)名識別效果,不足之處就是對復雜機構(gòu)名的識別依賴于右邊界的確定,因此無法識別不含特征詞的機構(gòu)名.此外,對于不完整的機構(gòu)名、地名與機構(gòu)名兼類的識別還有待進一步的深入研究.
[1]張小衡,王玲玲.中文機構(gòu)名稱的識別與分析[J].中文信息學報,1997,11(4):21-32
[2]ISOZAKI Hideki.Japanese named entity recognition based on a simple rule generator and decision tree learning [C]// Proceedings of the 39th Annual Meeting Association for Computational Linguistics.San Francisco:Morgan Kaufmann,2001:314-321
[3]ZHOU Guo-dong,SU Jian.Named entity recognition using an HMM-based Chunk Tagger [C] //Proceedings of the 40th Annual Meeting Association for Computational Linguistics. San Francisco:Morgan Kaufmann,2002:473-480
[4]俞鴻魁,張華平,劉 群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-93
[5]TAKEUCHI Koichi,COLLIER N.Use of support vector machines in extended named entity recognition[C]//Proceedings of the 6th Conference on Natural Language Learning. Morristown:Association for Computational Linguistics,2002:167-170
[6]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J].電子學報,2006,34(5):804-809
[7]ZHANG Su-xiang, ZHANG Su-xian, WANG Xiao-jie. Automatic recognition of Chinese organization name based on conditional random fields[C]//Natural Language Processing and Knowledge Engineering. Washington D C:IEEE Signal Processing Society,2007:229-233
[8]YU Hong-kui, ZHANG Hua-ping, LIU Qun.Recognition of Chinese organization name based on role tagging[C]//20th International Conference on Computer Processing of Oriental Languages.Beijing:Tsinghua University Press,2003:79-87
[9]WU You-zheng,ZHAO Jun,XU Bo.Chinese named entity recognition combining statistical model with human knowledge [C]//Proceedings of the ACL Workshop on Multilingual and Mixed-language Named Entity Recognition. Morristown:Association for Computational Linguistics,2003:65-72
[10]李麗雙,黃德根,陳春榮,等.基于支持向量機的中文文本中地名識別[J].大連理工大學學報,2007,47(3):433-438(LI Li-shuang, HUANG De-gen, CHEN Chun-rong,etal.Identification of location names from Chinese texts based on support vector machine[J].Journal of Dalian University of Technology,2007,47(3):433-438)
[11]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publisher Inc.,2001:282-289
[12]ZHAO Hai,HUANG Chang-ning,LI Mu,etal.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]// The 20th Pacific Asia Conference on Language,Information and Computation.Beijing:Tsinghua University Press,2006:87-94
[13]MCCALLUM A,LI W.Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL.Morristown:Association for Computational Linguistics,2003:188-191