鄧麗萍,羅智勇
(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083; 2. 北京語言大學(xué) 語言信息處理研究所,北京 100083)
基于半監(jiān)督CRF的跨領(lǐng)域中文分詞
鄧麗萍1,羅智勇2
(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083; 2. 北京語言大學(xué) 語言信息處理研究所,北京 100083)
中文分詞是中文信息處理領(lǐng)域的一項關(guān)鍵基礎(chǔ)技術(shù)。隨著中文信息處理應(yīng)用的發(fā)展,專業(yè)領(lǐng)域中文分詞需求日益增大。然而,現(xiàn)有可用于訓(xùn)練的標(biāo)注語料多為通用領(lǐng)域(或新聞領(lǐng)域)語料,跨領(lǐng)域移植成為基于統(tǒng)計的中文分詞系統(tǒng)的難點。在跨領(lǐng)域分詞任務(wù)中,由于待分詞文本與訓(xùn)練文本構(gòu)詞規(guī)則和特征分布差異較大,使得全監(jiān)督統(tǒng)計學(xué)習(xí)方法難以獲得較好的效果。該文在全監(jiān)督CRF中引入最小熵正則化框架,提出半監(jiān)督CRF分詞模型,將基于通用領(lǐng)域標(biāo)注文本的有指導(dǎo)訓(xùn)練和基于目標(biāo)領(lǐng)域無標(biāo)記文本的無指導(dǎo)訓(xùn)練相結(jié)合。同時,為了綜合利用各分詞方法的優(yōu)點,該文將加詞典的方法、加標(biāo)注語料的方法和半監(jiān)督CRF模型結(jié)合起來,提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。實驗表明,半監(jiān)督CRF較全監(jiān)督CRF OOV召回率提高了3.2個百分點,F(xiàn)-值提高了1.1個百分點;將多種方法混合使用的分詞系統(tǒng)相對于單獨在CRF模型中添加標(biāo)注語料的方法OOV召回率提高了2.9個百分點,F(xiàn)-值提高了2.5個百分點。
跨領(lǐng)域;中文分詞;半監(jiān)督CRF
Abstract: Applying the minimum entropy regularization framework to the supervised CRF model, this paper proposes a semi-supervised CRF model that combing the supervised learning on the labeled text in common domain with the unsupervised learning on the unlabeled text in the target professional domain. The domain adaptation is further improved by introducing a domain dictionary and a tagged corpus. Experiments on a cross domain segmentation task show that proposed method out-performs supervised CRF in terms of OOV recall and F-value.
Key words: cross domain; Chinese word segmentation; semi-supervised conditional random field
收稿日期: 2016-03-01 定稿日期: 2016-05-16
基金項目: 北京市哲學(xué)社會科學(xué)規(guī)劃研究基地項目(13JDZHB005);中央高?;究蒲袠I(yè)務(wù)費專項資金(09YB09)
中文分詞(chinese word segmentation,CWS)是指將組成句子的漢字序列用分隔符切分成單獨的詞語序列的過程。中文分詞是其他中文信息處理應(yīng)用(如機器翻譯、信息檢索、信息抽取等)的基礎(chǔ),其結(jié)果直接影響以此為基礎(chǔ)的中文信息處理應(yīng)用的性能。
近十年來,中文分詞技術(shù)發(fā)展迅速,特別是將文本中局部上下文信息引入統(tǒng)計機器學(xué)習(xí)模型中,歧義切分和未登錄詞(out-of-vocabulary,OOV)識別相對于傳統(tǒng)基于詞典和規(guī)則的方法有了較大的提升[1]。
目前,基于統(tǒng)計的中文分詞方法中最具代表性的是基于字標(biāo)注的全監(jiān)督分詞方法(character-based tagging approach)[2]。該方法需要大量標(biāo)注訓(xùn)練語料,一般在處理和訓(xùn)練語料相似的文本時,分詞效果較好。歷次SIGHAN CWS BACKOFF的評測結(jié)果顯示,使用同一領(lǐng)域的語料進行測試時,全監(jiān)督分詞方法已經(jīng)能夠取得很好的結(jié)果,F(xiàn)-值高達95%*http://www.sighan.org/bakeoff2005/data/results.php.htm。但是,當(dāng)測試語料和訓(xùn)練語料領(lǐng)域不一致時,分詞準(zhǔn)確率會大幅降低。中文信息處理應(yīng)用可能涉及諸多領(lǐng)域,為每個領(lǐng)域都標(biāo)注大量的訓(xùn)練語料,需要耗費極大的人力物力。然而,大量通用領(lǐng)域標(biāo)注語料和專業(yè)領(lǐng)域無標(biāo)記文本卻極易獲得。因此,中文分詞方法的領(lǐng)域適應(yīng)性問題,成為一個值得關(guān)注的研究課題。
在跨領(lǐng)域分詞任務(wù)中,由于文本領(lǐng)域內(nèi)容的變化,許多在測試語料中出現(xiàn)的特征信息不在訓(xùn)練語料中出現(xiàn)(據(jù)統(tǒng)計,本文使用的Chemistry語料約有55%的特征不在SIGHAN CWS BACKOFF 2005提供的PKU訓(xùn)練語料中出現(xiàn)),導(dǎo)致未登錄詞識別困難;同時,由于文本的上下文變化,也使得測試語料和訓(xùn)練語料中共同出現(xiàn)的特征在分布上也存在較大的差異,從而導(dǎo)致已登錄詞(in-vocabulary,IV)的識別性能下降。為了解決專業(yè)領(lǐng)域文本特征缺失和已有特征分布不一致的問題,本文提出: 在訓(xùn)練過程中,將特征模板同時作用于通用領(lǐng)域訓(xùn)練文本和專業(yè)領(lǐng)域測試文本,以彌補專業(yè)領(lǐng)域文本特征缺失的問題;同時,通過最小化專業(yè)領(lǐng)域無標(biāo)記文本上的條件熵將專業(yè)領(lǐng)域文本的分布信息和通用領(lǐng)域的標(biāo)注信息納入到統(tǒng)一的學(xué)習(xí)框架中,以提高跨領(lǐng)域分詞性能。
本文第二節(jié)介紹中文分詞領(lǐng)域適應(yīng)性相關(guān)研究;第三節(jié)介紹條件隨機場模型;第四節(jié)介紹基于序列標(biāo)注的中文分詞建模;第五節(jié)介紹半監(jiān)督CRF分詞模型;第六節(jié)通過實驗說明半監(jiān)督CRF在跨領(lǐng)域中文分詞中的有效性;第七節(jié)總結(jié)并提出下一步工作。
隨著中文信息處理應(yīng)用的發(fā)展,分詞方法的領(lǐng)域適應(yīng)性逐漸引起了學(xué)者們的關(guān)注和重視。近年來,研究者提出了許多方法,其中,常見的方法主要有數(shù)據(jù)加權(quán)算法和半監(jiān)督學(xué)習(xí)方法。張梅山[3]等人提出統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞方法,訓(xùn)練階段將通用領(lǐng)域詞典的詞長信息以特征的方式融入CRF模型,而在對不同領(lǐng)域的文本進行分詞時,需要通過加載相應(yīng)領(lǐng)域的詞典提取詞長特征以輔助分詞系統(tǒng)進行分詞。許華婷[4]等人提出Active Learning算法與n-gram統(tǒng)計特征相結(jié)合的領(lǐng)域自適應(yīng)方法,從專業(yè)領(lǐng)域無標(biāo)記文本中選擇比較有代表性的句子進行人工標(biāo)注并加入訓(xùn)練語料,以提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。該方法能夠顯著提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性,但每當(dāng)領(lǐng)域變化時,均需要抽取和人工標(biāo)注對應(yīng)領(lǐng)域的語料。Fan Yang[5]等人提出將部分標(biāo)記學(xué)習(xí)引入CRF模型,通過半監(jiān)督學(xué)習(xí)方法學(xué)習(xí)維基百科詞條的邊界信息,從而提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。該方法只能提高在維基百科詞條中出現(xiàn)的詞匯的識別率,對于維基百科中未出現(xiàn)的詞語幫助有限。
針對以上工作中領(lǐng)域知識(專業(yè)詞典、標(biāo)注語料等)依賴問題,本文在不引入任何人工干預(yù)的情況下,直接將專業(yè)領(lǐng)域待切分文本的特征信息加入到訓(xùn)練模型中,從而解決專業(yè)領(lǐng)域文本特征缺失的問題;同時,為了學(xué)習(xí)專業(yè)領(lǐng)域無標(biāo)記文本的特征分布信息,本文將最小熵正則化框架[6]引入CRF模型,將基于通用領(lǐng)域標(biāo)注文本的有指導(dǎo)訓(xùn)練和基于目標(biāo)領(lǐng)域無標(biāo)記文本的無指導(dǎo)訓(xùn)練相結(jié)合,生成半監(jiān)督CRF模型,并將其應(yīng)用于跨領(lǐng)域分詞任務(wù)中,實驗結(jié)果表明該方法能顯著提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。但是,單獨使用半監(jiān)督CRF模型的分詞系統(tǒng)僅能在一定程度上提高未登錄詞的召回率,無法降低未登錄詞比例。同時,已有研究工作中的“加詞典”的方法和基于Active Learning算法的語料選擇方法均能夠有效降低測試語料中未登錄詞所占的比例,對分詞系統(tǒng)性能提升有較大的幫助。因此,本文將半監(jiān)督CRF模型和“加詞典”的方法及加標(biāo)注語料的方法結(jié)合起來,達到既能夠降低未登錄詞比例,又能夠提高未登錄詞召回率的目的,進一步提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。實驗表明,單獨使用本文所提半監(jiān)督CRF模型便能夠在全監(jiān)督CRF模型的基礎(chǔ)上使 OOV召回率提高3.2個百分點,F(xiàn)-值提高1.1個百分點,并達到和人工加入“領(lǐng)域詞典”的方法相當(dāng)?shù)男阅?。同時,將半監(jiān)督CRF模型和“加詞典”以及加標(biāo)注語料的方法結(jié)合的分詞系統(tǒng),相對于單獨在CRF模型中添加標(biāo)注語料的方法性能有較大的提升,OOV召回率提高了2.9個百分點,F(xiàn)-值提高了2.5個百分點。
條件隨機場(conditional random filed, CRF)[7-8]在建模時考慮了數(shù)據(jù)的內(nèi)容信息和數(shù)據(jù)標(biāo)簽之間的變化信息,其相關(guān)模型在許多自然語言處理任務(wù)中取得了較好的結(jié)果。CRF已成功應(yīng)用于中文分詞、詞性標(biāo)注、命名實體識別等任務(wù)中。在序列標(biāo)記任務(wù)中,CRF要學(xué)習(xí)一個從觀察序列x=(x1,x2,…,xT)到標(biāo)記序列y=(y1,y2,…,yT)的概率函數(shù)映射關(guān)系,本文采用簡單的線性鏈?zhǔn)紺RF模型,該模型的條件概率公式[8]為:
(1)
其中,fk(yi-1,yi,x,i)為狀態(tài)特征函數(shù)或轉(zhuǎn)移特征函數(shù),θk為待估計的模型參數(shù),Z(x)為標(biāo)準(zhǔn)化因子,是所有可能的標(biāo)記序列情況之和,如式(2)所示。
(2)
(3)
4.1 序列標(biāo)注問題建模 由于中文詞語具有上下文的序列特征,因此本文將中文分詞問題轉(zhuǎn)化為序列標(biāo)注問題[2]。其序列標(biāo)注模型定義為: 給定一個長度為T的中文句子x=(x1,x2,…,xT),從所有可能的標(biāo)記序列中,挑出最有可能的標(biāo)記序列y=(y1,y2,…,yT),從解得的標(biāo)記序列y中還原分詞結(jié)果。
一個字符在詞語中的位置通常有四種: 詞首(B,Begin),詞中(M,Middle),詞尾(E,End)和單字詞(S,Single)。一個詞語應(yīng)是以B開頭、以E結(jié)尾、中間可能有M的標(biāo)記,或是以單字詞S標(biāo)記。一個簡單的中文分詞標(biāo)記序列示例如圖1所示。
圖1 中文分詞標(biāo)記序列示例
4.2 中文分詞特征定義
綜合考慮訓(xùn)練時間和分詞效果兩方面的因素,本文采用大小為3的文本窗口定義特征。特征定義方式以某字符相對于當(dāng)前字符在文本中的偏移位置標(biāo)記。本文使用六種字符特征模板,包括一元字符特征模板C0(當(dāng)前字符)、C-1(當(dāng)前字符的前一個字符)、C1(當(dāng)前字符的后一個字符)和二元字符特征模板C-1C0、C0C1和C-1C1。同時,加入了二元標(biāo)記轉(zhuǎn)移特征模板y-1y0(前一個字符的標(biāo)記到當(dāng)前字符標(biāo)記的轉(zhuǎn)移特征)。
由于數(shù)據(jù)稀疏問題,以及訓(xùn)練文本和目標(biāo)領(lǐng)域文本之間的差異,僅在訓(xùn)練語料中使用上述基本特征模板難以獲取目標(biāo)領(lǐng)域文本的構(gòu)詞信息。因此,在抽取特征實例時,本文將上述基本特征模板應(yīng)用于訓(xùn)練語料的同時,將除y-1y0外其他六種字符特征模板應(yīng)用于目標(biāo)領(lǐng)域未標(biāo)記文本,并引入半監(jiān)督CRF模型,將從標(biāo)記語料和未標(biāo)記文本中獲取的特征聯(lián)合進行訓(xùn)練,以提高跨領(lǐng)域分詞效果。
5.1 半監(jiān)督CRF介紹 在面向分類的半監(jiān)督學(xué)習(xí)方法[9]中經(jīng)常采用低密度劃分原則,從大量未標(biāo)注實例中獲取分類信息。由于未標(biāo)注實例缺少類別標(biāo)注信息,該原則要求選取的分割面盡量穿過樣本點較為稀疏的區(qū)域,即讓樣本點盡可能遠(yuǎn)離分割面。
給定標(biāo)記樣本Dl={(x(1),y(1)),(x(2),y(2)),…,(xN,yN)}和未標(biāo)記樣本Du={x(N+1),x(N+2),…,x(M)},訓(xùn)練的目標(biāo)函數(shù)為:
(4)
最后,半監(jiān)督CRF的參數(shù)估計為:
(5)
參數(shù)θ的初始值為對應(yīng)超參數(shù)取值的全監(jiān)督CRF的最優(yōu)解。
最大化RL(θ)即最大化對數(shù)似然并最小化條件熵H(Y|x(i)),在盡量擬合標(biāo)注數(shù)據(jù)的同時保證了未標(biāo)注數(shù)據(jù)的標(biāo)記序列概率區(qū)分度最大。
測試階段,對于給定的觀測序列x,最佳標(biāo)記序列y*由式(6)給出:
(6)
5.2 半監(jiān)督CRF訓(xùn)練過程優(yōu)化
(7)
其中,Y-(i..j)=〈Y1..(i-1)Y(j+1)..T〉。
未標(biāo)記數(shù)據(jù)的條件熵可展開為:
(8)
由于線性CRF遵循馬爾科夫性質(zhì),yi+2獨立于yi,因此可以得到式(9)。
(9)
根據(jù)熵的分解運算規(guī)則:
可將Hα和Hβ分別遞推成前向和后向運算的形式,遞推公式如式(12)、式(13)所示。
初始取值為:Hα(φ|y1,x)=0,Hβ(φ|yT,x)=0。優(yōu)化后,目標(biāo)函數(shù)及梯度的計算復(fù)雜度均為O(TS2)(S為標(biāo)記種類數(shù),本文為四種;T為觀察序列長度),與全監(jiān)督CRF的時間復(fù)雜度相同。
6.1 實驗數(shù)據(jù) 本文使用的標(biāo)記訓(xùn)練語料為SIGHAN CWS BACKOFF 2005 提供的PKU訓(xùn)練語料(包括19 056條句子,1 109 947個詞語),該語料為《人民日報》新聞?wù)Z料;專業(yè)領(lǐng)域語料包括《中國大百科全書》生物卷鳥類(Bird)語料和化學(xué)卷有機化學(xué)類(Chemistry)語料。鳥類語料主要是對鳥的分類、形態(tài)、習(xí)性等的描述說明,有機化學(xué)類語料主要包括對某一化學(xué)物質(zhì)的組成、作用、反應(yīng)等的說明。
為了進行對比實驗,本文根據(jù)文獻[4]中語料打分方法(其中,w1、w2、w3、w4分別取值為0.1、0.2、0.3和0.4)從未標(biāo)注的Bird和Chemistry語料中各選取得分排名前50的句子進行人工標(biāo)注作為少數(shù)的專業(yè)領(lǐng)域標(biāo)注語料,Bird語料和Chemistry語料去掉得分排名前50的句子后,剩下的句子人工標(biāo)注作為測試集,標(biāo)注規(guī)范為北大分詞標(biāo)注規(guī)范[12]。表1給出了各個測試語料的統(tǒng)計信息。從表1中能夠看出,Bird和Chemistry語料相對于PKU訓(xùn)練語料差異較大,OOV召回率最高可達26.4%。
表1 測試語料統(tǒng)計信息
由于語料中英文、數(shù)字和標(biāo)點符號種類有限,為了避免數(shù)據(jù)稀疏并減少特征數(shù)量,訓(xùn)練和測試之前,用“A”替換所有的大寫英文字母,“a”替換所有的小寫英文字母,“0”替換所有的阿拉伯?dāng)?shù)字,“?!碧鎿Q掉常用的標(biāo)點符號。
6.2 實驗設(shè)置
表2列出了各種分詞方法的評測對比結(jié)果,表中數(shù)據(jù)為選擇最優(yōu)超參數(shù)的結(jié)果,超參數(shù)的選擇見6.4節(jié)。
表2 不同分詞方法的評測結(jié)果
為了驗證本文所提半監(jiān)督CRF模型的有效性,我們將半監(jiān)督CRF和全監(jiān)督CRF的實驗結(jié)果進行了對比。
為了考察半監(jiān)督CRF在領(lǐng)域自適應(yīng)方面的性能,我們復(fù)現(xiàn)了“加詞典”的方法和添加標(biāo)注語料的方法。其中,“加詞典”的方法所用專業(yè)領(lǐng)域詞典通過文獻[13]的新詞發(fā)現(xiàn)算法在測試語料中挖掘新詞,取得分排名前300的詞語進行人工篩選、并去掉訓(xùn)練語料中已有的詞語。為了解決文獻[3]中的領(lǐng)域詞匯在訓(xùn)練語料中不出現(xiàn)導(dǎo)致特征缺失的問題,本文所做實驗直接將領(lǐng)域詞表加入訓(xùn)練語料進行訓(xùn)練。添加標(biāo)注語料的方法通過文獻[4]的語料選擇方法分別從Bird語料和Chemistry語料中選取得分排名前50的句子進行人工標(biāo)注后加入訓(xùn)練語料進行訓(xùn)練。
為了進一步考察半監(jiān)督CRF的可擴展性能,我們在加入專業(yè)詞典和標(biāo)注語料后,仍然使用半監(jiān)督CRF進行訓(xùn)練,結(jié)果表明分詞性能仍有顯著提升。
由于“加詞典”的方法和添加標(biāo)注語料的方法能夠有效降低測試語料中未登錄詞的比例,為了綜合利用本文所提半監(jiān)督CRF模型和“加詞典”及添加標(biāo)注語料的方法的優(yōu)點,本文在加入“領(lǐng)域詞典”和專業(yè)領(lǐng)域標(biāo)注語料的基礎(chǔ)上,采用半監(jiān)督CRF模型進行訓(xùn)練,進一步提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性。
6.3 實驗結(jié)果
通過對比表2中的評測結(jié)果,可以得出以下結(jié)論。
(1) 加入詞典、加入標(biāo)注語料和本文所提半監(jiān)督CRF方法均能對分詞系統(tǒng)的性能進行改善;
(2) 加入詞典和加入標(biāo)注語料的方法均使得部分未登錄詞成為已登錄詞,從而降低了測試語料的未登錄詞比率,提高了分詞系統(tǒng)的性能。從結(jié)果來看, 在Bird語料上,加入詞典和加入標(biāo)注語料對未登錄詞的召回率提升并不明顯,加入詞典的方法甚至有下降的趨勢,它的主要作用是提升了已登錄詞的召回率;在Chemistry語料上加入句子的方法對未登錄詞召回率的提升有較大的幫助,但卻明顯降低了已登錄詞的召回率;
(3) 本文提出的半監(jiān)督CRF模型通過簡單的添加特征和條件熵最小化,便能達到和加入詞典的方法相當(dāng)?shù)男Ч?,從?可以看出,半監(jiān)督CRF在全監(jiān)督CRF的基礎(chǔ)上保證了已登錄詞召回率不下降的情況下,還能顯著提高未登錄詞的召回率,在Bird語料上,未登錄詞召回率提升幅度高達3.2個百分點,F(xiàn)-值提升幅度達1.1個百分點;
(4) 在加入詞典和標(biāo)注語料的情況下,半監(jiān)督CRF仍能在全監(jiān)督CRF的基礎(chǔ)上進一步提升性能,由此證明了半監(jiān)督CRF模型在領(lǐng)域自適應(yīng)中的有效性;
(5) 將加詞典、加標(biāo)注語料和半監(jiān)督CRF模型結(jié)合起來的分詞系統(tǒng),既降低了測試語料中未登錄詞的比例,又提高了未登錄詞的識別率,在Chemistry語料上相對于在全監(jiān)督CRF模型中添加標(biāo)注語料的方法,OOV召回率提高了2.9個百分點,F(xiàn)-值提高了2.5個百分點。
6.4 超參數(shù)選擇
本文使用分步策略確定超參數(shù)α和β的取值。
第一步: 將β固定為0,在全監(jiān)督CRF模型上調(diào)整α的值。表3給出了α取值對應(yīng)的全監(jiān)督CRF識別結(jié)果。從表中數(shù)據(jù)看出,α取值較小時,對全監(jiān)督CRF的性能影響較小。α取值在0.001到0.1之間時,在Bird語料上的F-值呈現(xiàn)先增大后減小的趨勢,并在α=0.01處分詞效果最好;α取值在0.0001到0.01之間變化時,在Chemistry語料上的F-值也同樣呈現(xiàn)先增大后減小的趨勢,并在α=0.001處分詞效果最好。
第二步: 將α取值固定為上一步中F-值最高時的取值,在半監(jiān)督CRF模型上調(diào)整β的值,待估計參數(shù)θ初始值為對應(yīng)α取值的全監(jiān)督CRF的最優(yōu)解。表4給出了β取值對半監(jiān)督CRF分詞性能的影響。從表中數(shù)據(jù)看出,β取值對分詞性能有較大的影響。當(dāng)β取值在0.01到1之間變化時,半監(jiān)督CRF的分詞效果呈現(xiàn)先增大后減小的趨勢,并且分詞效果均高于或者等于全監(jiān)督CRF的分詞效果。當(dāng)β=0.1時,分詞效果最好。
表3 α取值對應(yīng)全監(jiān)督CRF的分詞結(jié)果對比
表4 β取值對應(yīng)半監(jiān)督CRF的分詞結(jié)果對比
續(xù)表
6.5 特征分析
為了進一步了解在半監(jiān)督CRF模型中,特征權(quán)重變化對分詞結(jié)果的影響,本文以Bird語料為例對特征權(quán)重在模型迭代過程中的變化情況進行分析。如圖2所示,對于漢字序列“具棕色橫斑”,全監(jiān)督CRF將其誤切分為“具棕色/橫斑”,半監(jiān)督CRF則將其正確切分為“具/棕色/橫斑”。從圖2中標(biāo)注結(jié)果看出,半監(jiān)督CRF相對于全監(jiān)督CRF,字符“具”和“棕”的標(biāo)記發(fā)生了變化。
圖2 全監(jiān)督CRF和半監(jiān)督CRF切分結(jié)果對比
圖3和圖4給出了當(dāng)前字符為“具”時,特征C0和C-1C0在“具”字取不同標(biāo)記時權(quán)重隨迭代次數(shù)變化的趨勢圖(橫軸為半監(jiān)督CRF迭代次數(shù),取0時即為全監(jiān)督CRF;縱軸為特征權(quán)重取值)。其中,圖4中標(biāo)記為E和標(biāo)記為M的特征權(quán)重變化曲線在0附近重合。從圖中來看,對于特征C0和C-1C0來說,“具”的標(biāo)記為S的特征權(quán)重增大的同時,標(biāo)記為B的特征權(quán)重在逐漸減小。雖然還有其他特征權(quán)重的變化影響,但圖2的切分結(jié)果表明,隨著迭代次數(shù)增加,字符“具”的所有特征總體上使“具”的標(biāo)記最終偏向正確答案S。
同樣,圖5和圖6給出了當(dāng)前字符為“棕”時,特征C-1和C1對應(yīng)不同標(biāo)記的權(quán)重變化圖。從圖5、圖6的特征權(quán)重變化和圖2的切分結(jié)果看出,“棕”的所有特征總體上使得“棕”的標(biāo)記偏向正確答案B。
圖3 “具”的特征權(quán)重變化趨勢圖(1)
圖4 “具”的特征權(quán)重變化趨勢圖(2)
圖5 “棕”的特征權(quán)重變化趨勢圖(1)
圖6 “棕”的特征權(quán)重變化趨勢圖(2)
本文通過引入最小熵正則化框架,提出半監(jiān)督CRF分詞模型,將標(biāo)注數(shù)據(jù)的標(biāo)注信息和未標(biāo)注數(shù)據(jù)的分布信息結(jié)合起來,對跨領(lǐng)域分詞效果進行了改進。同時,為了綜合利用各個分詞方法的優(yōu)點,本文將加詞典的方法、添加標(biāo)注語料的方法和半監(jiān)督CRF模型三種方法結(jié)合起來,進一步提高了分詞系統(tǒng)的領(lǐng)域適應(yīng)性。實驗結(jié)果表明,本文所提方法能夠有效改善跨領(lǐng)域分詞系統(tǒng)的性能。
本文提出的方法雖然能夠?qū)珙I(lǐng)域分詞結(jié)果進行有效改善,但還有進一步改進的空間。同時,研究測試發(fā)現(xiàn): (1)基于簡單文本窗口的特征提取方法并不能較好地挖掘?qū)I(yè)領(lǐng)域文本特征,后續(xù)工作中,將在模型中加入專業(yè)領(lǐng)域文本重復(fù)字串及邊界特征; (2)現(xiàn)有研究中,帶標(biāo)記訓(xùn)練語料和未標(biāo)記語料仍使用同一套特征和權(quán)重,以后的研究中將引入更靈活的學(xué)習(xí)框架。
[1] 黃昌寧,趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報,2007,21(3): 8-20.
[2] Xue Nianwen. Chinese word segmentation as character tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1): 29-48.
[3] 張梅山,鄧知龍,車萬翔,等.統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報, 2012, 26(2): 8-12.
[4] 許華婷,張玉潔,楊曉暉,等.基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J].中文信息學(xué)報, 2015, 29(5): 55-62.
[5] Fan Yang, Paul Vozila. Semi-supervised chinese word segmentation using partial-label learning with conditional random fields[C]//Proceedings of the 2014 conference on empirical methods in natural language processing(EMNLP), 2014: 90-98.
[6] Y Grandvalet, Y Bengio. Semi-supervised learning by entropy minimization[C]//Proceedings of the Advances in neural information processing systems 17, Cambridge, MA: MIT Press, 2005: 529-536.
[7] Lafferty, A. McCallum, F. Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning, 2001: 282-289.
[8] 李航. 統(tǒng)計學(xué)習(xí)方法[M]. 北京: 清華大學(xué)出版社,2012: 191-209.
[9] O. Chapelle, B. Sch?lkopf, A. Zien. Semi-supervised learning[M]. Cambridge, MA: The MIT Press, London, 2006.
[10] 宗成慶. 統(tǒng)計自然語言處理[M]. 北京: 清華大學(xué)出版社,2008: 19-20.
[11] Mann G S, McCallum A. Efficient computation of entropy gradient for semi-supervised conditional random fields[C]//Proceedings of the 2007 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2007.
[12] 俞士汶,段慧明,朱學(xué)鋒,等. 北大語料加工規(guī)范: 切分·詞性標(biāo)注·注音[J]. 漢語語言與計算學(xué)報,2004,13(2): 121-158.
[13] 羅智勇,宋柔.基于多特征的自適應(yīng)新詞識別[J].北京工業(yè)大學(xué)學(xué)報, 2007, 33(7): 718-725.
[14] Jiao Feng, Wang Shaojun, Lee Chi-Hoon, et al. Semi supervised conditional random fields for improved sequence segmentation and Labeling[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Sydney, Australia: Association for Computational Linguistics, 2006.
[15] Stephen P. Boyd, Lieven Vandenberghe.Convex optimization [M]. Cambridge University Press, 2004.
鄧麗萍(1990—),碩士,主要研究領(lǐng)域為自然語言處理。
E-mail: dengliping_blcu@126.com
羅智勇(1975—),通信作者,博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、機器學(xué)習(xí)。
Email: luo_zy@blcu.edu.cn
Domain Adaptation of Chinese Word Segmentation on Semi-Supervised Conditional Random Fields
DENG Liping1,LUO Zhiyong2
(1. College of Information Science,Beijing Language and Culture University,Beijing 100083,China; 2. Institute of Linguistic Information Processing,Beijing Language and Culture University,Beijing 100083,China)
1003-0077(2017)04-0009-11