許華婷,張玉潔,楊曉暉,單 華,徐金安,陳鈺楓
(北京交通大學 計算機與信息技術學院,北京 100044)
?
基于Active Learning的中文分詞領域自適應
許華婷,張玉潔,楊曉暉,單 華,徐金安,陳鈺楓
(北京交通大學 計算機與信息技術學院,北京 100044)
在新聞領域標注語料上訓練的中文分詞系統在跨領域時性能會有明顯下降。針對目標領域的大規(guī)模標注語料難以獲取的問題,該文提出Active learning算法與n-gram統計特征相結合的領域自適應方法。該方法通過對目標領域文本與已有標注語料的差異進行統計分析,選擇含有最多未標記過的語言現象的小規(guī)模語料優(yōu)先進行人工標注,然后再結合大規(guī)模文本中的n-gram統計特征訓練目標領域的分詞系統。該文采用了CRF訓練模型,并在100萬句的科技文獻領域上,驗證了所提方法的有效性,評測數據為人工標注的300句科技文獻語料。實驗結果顯示,在科技文獻測試語料上,基于Active Learning訓練的分詞系統在各項評測指標上均有提高。
中文分詞;領域自適應;主動學習
傳統的中文分詞方法是基于詞典的方法,主要有正向最大匹配算法、逆向最大匹配算法、N-最短路徑分詞算法等。隨著標注語料庫的建立和統計機器學習的發(fā)展,基于統計的中文分詞方法成為主流方法。常用的統計機器方法包括:基于隱馬爾可夫模型(Hidden Markov Model,HMM)的中文分詞方法[1]、基于最大熵模型(Maximum Entropy, ME)的中文分詞方法[2]和基于條件隨機場模型(Conditional Random Fields, CRF)的中文分詞方法[3]等。
當中文分詞任務的領域發(fā)生變化時,未登錄詞的比例會上升,導致中文分詞系統的精度大幅下降。為了解決分詞系統領域自適應的問題,近些年來,研究者提出了很多方法,主要有數據加權算法和半監(jiān)督學習算法。張梅山等采用了領域詞典與統計方法相結合的方法,分詞系統針對不同領域的文本進行分詞時,通過加載相關領域的詞典輔助分詞系統進行分詞[4]。但是以上這些方法都受到了標注語料或特定詞典的限制,相關資源不易獲得。針對這一問題,有研究者提出可以通過從大規(guī)模生語料中抽取n-gram統計特征的方法改善由于領域變化導致的分詞性能下降問題[5]。但是這種僅利用計算機的統計方法未考慮到領域專有詞也具有一定的中文構詞規(guī)律,造成了在一些專有詞上分詞不準確,影響了分詞精度。為了進一步提高領域變化后中文分詞系統的分詞精度,有研究者提出在利用n-gram統計特征的基礎上,增加平行語料語言知識,一般來講是中英文平行語料,通過英文單詞的邊界輔助對應的中文字符串劃定詞語界線[6]。但是,對于大多數中文語料來講,并不是都有對應的英文譯文,所以這種方法不適合推廣。但是它為中文分詞提供了一個新的思路,也就是利用不同資源的疊加來提高分詞精度。在對比前人研究結果的基礎上,我們考慮利用大規(guī)模生語料中的統計特征與少量人工標注相結合的方法,以提高中文分詞領域自適應能力。
本文的工作圍繞中文分詞領域自適應的問題,針對大規(guī)模人工分詞標注語料難以獲取的現狀,提出基于Active learning的中文分詞領域自適應方法。該方法通過對目標領域文本與已有標注語料之間差異性的統計分析,選擇出小規(guī)模的包含目標領域中特有語言現象的語句,進行人工標注;然后結合大規(guī)模生語料中的n-gram統計特征調整已有分詞模型的領域適應性,從而達到通過標注少量語料,改善分詞精度的目的。
Active learning算法由耶魯大學Angluin教授提出[7]。它選擇部分未標記樣例進行標記,然后把它們放入之前已有的標記樣例集合,重新訓練分類器,利用分類器再次選擇未標記樣例。通過有選擇地擴大有標記樣例集合和循環(huán)訓練,使得分類器逐步獲得更強的泛化能力。與以往的算法相比,它具有模擬人的學習過程的特點,因此受到廣泛關注,近年來被大量地應用于信息檢索和文本分類等自然語言處理領域,成為機器學習領域中最重要的方向之一。
為了更加直觀地展示Active learning算法的有效性和它對分類器訓練精度的提高程度,下面用一個對二維空間中的點進行分類的問題為例來介紹Active learning[8]。假設有一個布滿紅綠兩種共400個點的平面,欲找到紅綠兩種點的分界線。已知紅綠兩種點在坐標x=0附近產生分界。下面分別利用被動學習和主動學習兩種方法,各自選擇和標記30個點,并利用標記的點找到分界線。常規(guī)的被動學習的方法,隨機選擇并標記點,通常它標記的點比較分散,只有很少的點分布在x=0附近,這樣很難找到正確的分界線。用這種方法分類的精度較低,據統計結果顯示正確率只有70%。而Activelearning方法是通過選擇運算,最終選擇紅綠兩種點混合分布比較緊密的位置,也就是位于x=0附近的點進行標記,這就為找到正確的分界線提供了有效的信息。利用這種方法訓練得到的分類器的精度較高,據統計結果顯示正確率可達到90%。這個例子充分說明,Activelearning選擇的樣本點比盲目選擇的樣本點更有利于高精度分類器的訓練,在同等的標注代價下能夠得到更多的區(qū)分信息,有利于提高分類模型的精確度。
假設我們有一個在分詞標注語料(原領域)上訓練得到的中文分詞模型,現在需要對一個不同領域(目標領域)的文本進行分詞處理,為此需要將中文分詞模型從原領域調整到目標領域。
為了更好地處理領域內專有名詞及特殊句式的分詞問題,本文提出基于Activelearning的中文分詞領域自適應方法,借助Activelearning算法,選擇目標領域中最具有領域特點的小規(guī)模語句進行人工標注,再與該領域大規(guī)模生語料n-gram統計特征相融合,從而實現分詞精度更高的領域自適應的中文分詞系統。系統的總體框圖如圖1所示,虛線框部分表示實現領域自適應的核心部分。
相對于原領域的詞語分布,目標領域的詞語分布中出現的漢字以及構詞模式會有很大差異。如果將含有差異多的句子篩選出來進行人工標注,將為分詞模型的重新訓練優(yōu)先提供目標領域特有的訓練語料,使得分詞模型可以快速獲取目標領域特有的分詞知識,從而有效提高在目標領域的分詞精度。因此,如何篩選出這樣含有差異多的句子成為關鍵。
為了從大規(guī)模目標領域的生語料中抽取在構詞規(guī)律和詞匯分布上具有目標領域特征的語句進行人工標注,本文采用基于n-gram加權統計的方法來計算每個句子相對于原領域在n-gram上的分布差異性,具體計算如公式(1)所示。
(1)
圖 1 基于Active learning中文分詞領域自適應的整體框架
利用上述方法對目標領域生語料的所有語句進行評分計算后,按評分對語句進行排序。根據在人工標注上的投入預算或者需要達到的精度要求,選擇小規(guī)模的高位語句,按照目標領域分詞標注標準進行人工標注。標注好的語料與原領域的標注語料構成新的訓練語料,然后采用CRF模型在新的語料進行訓練,構建適應目標領域的分詞模型。
本節(jié)以科技領域為例,利用上面提出的方法,對如何構建科技領域上的中文分詞自適應系統做詳細介紹。
4.1 科技領域分詞系統的建立
已有的中文分詞模型是在賓州中文樹庫 (PennChineseTreebank,CTB)上訓練獲得的,原領域為新聞領域。目標領域的語料是NTCIR-10中的1 000 000句中文科技文獻語句。我們從中隨機選出一部分語句作為測試數據。
為了獲取科技領域的分詞特征,一方面利用語言模型對科技領域生語料的所有語句進行評分排序,篩選出一小部分得分高的語句,依據科技領域分詞標注標準進行人工分詞??萍碱I域分詞標注標準的建立將在第4.2節(jié)做詳細介紹。標注結果將加入新聞領域的標注語料形成新的訓練數據;另一方面,從科技領域的大規(guī)模生語料中抽取n-gram統計特征生成特征文件。然后采用CRF模型在這兩方面生成的訓練數據和特征文件上進行訓練,得到適用于科技領域的中文分詞模型?;贏ctivelearning實現中文分詞在科技領域上適應的總體框圖如圖2所示。
圖2 基于Active learning中文分詞方法在科技領域上的應用框架圖
4.2 科技領域分詞標注標準的制定
“詞是什么(詞的抽象定義)”,“什么是詞(詞的具體界定)”,這兩個基本問題有點飄忽不定,至今都沒有一個公認的、具有權威性的定義。同時,對于中文“詞”的認定,普通人的標準和語言學家的標準在認定上也有比較大的差異。有關專家的調查結果表明,在母語是中文的被測試者之間,對中文文本中出現的詞語的認同率大約只有70%。研究人員曾做過一個實驗[9],一共邀請了258名文理科大學生對同一篇約300字的短文進行手工分詞。結果表明,在其中的45個中文雙音節(jié)和三音節(jié)結構的詞語上,分詞的結果與專家給出的標準分詞結果相同的人甚少。1992年國家標準局頒布了作為國家標準的《信息處理用現代漢語分詞規(guī)范》[10]。在這個規(guī)范中,大部分都是通過舉例和定性描述來定義分詞規(guī)范的。例如,規(guī)范4.2規(guī)定:“二字或三字詞,以及結合緊密、使用穩(wěn)定的二字或三字詞組,一律為分詞單位。”但是,沒有明確定義如何判斷“緊密”以及如何判斷“穩(wěn)定”,這樣的形容在很多規(guī)定中都有出現。這樣規(guī)定的判斷準則極易受到主觀因素的影響,具體判斷起來非常困難,因此,建立一個易于操作能夠保證標注者之間較高一致性的分詞標注標準遠沒有想象中的容易。
目前具有廣泛影響的中文分詞標注標準中,有
CTB的中文分詞規(guī)范[11]和北京大學的中文分詞規(guī)范[12]。前者是針對新聞領域的分詞規(guī)范,后者是面對一般領域的分詞規(guī)范,它們對科技領域的專業(yè)詞匯并沒有十分明確詳細的標注標準。實際上,科技文本中的詞語和構詞的漢字與新聞或一般領域有很大不同。面對這一特點,本文制定了面向科技領域的中文分詞標注標準,其中,一般詞匯的分詞標準與CTB中文分詞規(guī)范保持一致。針對專業(yè)詞語,我們分析了CTB中文分詞規(guī)范中各種類別的漢字構成詞語的模式,制定相應的標注標準。我們以化學、藥物的中文文本為例,對增添的分詞標注規(guī)則舉例說明,規(guī)則在表1中顯示。其中,“+”表示“任何非空漢字字符串”,“*”表示“任何漢字字符串,包括空串”,“|”表示“或者”,“”表示“詞語的邊界”。下面對化學類詞匯的標注規(guī)則進行解釋:
(1) 當遇到“+基*酸*酯”時,規(guī)定切分為“+基*酸*酯”;當遇到“+酸*酯”時,規(guī)定切分為“+酸*酯”;
(2) 當遇到“+菌霉”時,如果“+”中是形容詞的時候,規(guī)定切分成“+菌霉”,否則切分為“+菌霉”;
(3) 當遇到“+劑”時,如果“+”只是一個漢字,且“+劑”是出現在新聞領域的詞語,規(guī)定“+劑”當作一個詞語來切分;如果“+”是兩個或以上的漢字,那么規(guī)定切分為“+劑”。
表1 科技領域人工分詞標注標準舉例
4.3 科技領域n-gram統計特征
n-gram是指文本中連續(xù)出現的n個連續(xù)漢字組成的串。從形式上看,詞是穩(wěn)定的字串,即組成詞的字之間凝固度較高。當訓練語料足夠豐富時,詞的出現次數一般高于不成詞的n元字串。從直觀的角度考慮,詞一般是高頻n元字串,但是高頻n元字串并非一定是詞。例如,“巧克力”在未標注的語料中出現了m次,那么“巧克”出現的次數一定不小于m,但“巧克”并不是一個詞。一個完整的詞單元應能適應多樣的上下文,如“吃巧克力”、“黑/白巧克力”、“巧克力糖”、“精致的巧克力鍵盤”等等,“巧克力”作為詞單元有豐富的上下文,而“巧克”在多數情況下與“力”搭配,它的下文環(huán)境單一??梢灾庇^地認為成詞(包括未登錄詞)的字串應當同時具備出現次數多和上下文環(huán)境豐富的特點。
在不同領域的語料中,字與字連在一起構成詞的情況是不一樣的。我們希望通過統計大規(guī)模生語料中n元字串的一些特征供統計模型學習,以達到分詞系統領域自適應的目的。基于詞單元在未標注語料中所體現的特性,所采用的統計特征包括: n-gram頻度特征和n-gram AV特征。
n-gram頻度特征
n-gram的頻度值即n元字串在語料中的出現次數。本文統計了目標領域生語料中所有2元、3元、4元和5元字串的頻度,其中頻度小于5的字串被過濾。由于n元字串的頻度值取值范圍從5到幾千甚至幾萬,為了避免數據稀疏影響CRF學習的效果,本文采用離散化的方法將n元字串的頻度歸為三類: 高頻(H)、中頻(M)、低頻(L): n元字串按照頻度值從高到低排序,前5%的n元字串歸為高頻,表示為H;排名低于5%但高于20%的n元字串歸為中頻,表示為M;最后80%的n元字串的頻度值歸為低頻,用L表示。
字串的特征只有轉化為字的特征才能供CRF模型學習。在給定句子中的當前漢字產生n-gram頻度特征時,依次考察句子中包含當前漢字的所有候選詞。該字在詞中的位置信息在前,頻度信息在后,用“-”把它們連接起來。最后,按照當前漢字所處候選詞中的位置從前到后的順序——即B, B1, B2, M, E的順序——把前面記錄的信息用“|”連接起來作為當前漢字最終的n-gram頻度特征。
n-gram AV特征
AV (Accessor Variety)是從生語料中提取詞語判斷一個字串是否是詞的統計標準。與n-gram頻度值不同的是,n-gram AV值對頻度值進行了篩選。AV的主要思想是: 若一個字串在多種語境下出現,那么該字串成為詞的可能性就高。AV的定義如式(2)所示。
(2)
Lav(s)和Rav(s)分別表示字串s的不同前驅和后繼的數量。
與n-gram頻度特征的使用類似,首先統計目標領域生語料中的所有2元串、3元串、4元串和5元串的AV值,同樣過濾掉AV值小于5的n元字串;然后采用與n-gram頻度值相同的分類標準,將n元字串按照其AV值分成三類: H、M和L三個頻檔;最后將字串的特征轉化為字的特征供CRF訓練和解碼。
為了評測上節(jié)介紹的在科技領域上適應的中文分詞模型的性能,驗證本文所提方法的有效性,我們在NTCIR-10的英中科技專利數據上設計了一組實驗。通過對其中的大規(guī)模中文語料的分詞處理,從中文分詞精度方面進行評測,并分析人工標注數據規(guī)模對基于Active learning的中文分詞系統的影響。
5.1 實驗數據
NTCIR-10英中科技專利數據包括1 000 000句中文語句,我們把這個語料作為科技領域的大規(guī)模生語料。為了制作測試集(TS),我們隨機選出300句,利用第4.2節(jié)制定的科技領域分詞標注標準進行人工分詞標注,作為原領域的標注語料利用新聞領域上CTB5.0中的第1~270篇、400~931篇和1 001~1 151篇的標注數據。
從除去TS語料中,利用第4.1節(jié)描述的方法對所有語句計算與原領域的標注語料的差異性,并進行評分排序,選出高位的前300個句子(AS),并根據第4.2節(jié)制定的分詞標注標準進行人工標注。為了考察標注語料的規(guī)模對分詞系統的影響,我們按如下方式構成四個標注語料集: 前50句記作AS1、前100句記作AS2、前200句記作AS3、前300句記作AS4。
另外,為了對比基于Active learning的語句篩選方法,我們在除去TS與AS的語料中,隨機抽取300句(RS),同樣地進行人工分詞標注,并以同樣方式構建四個標注語料集,分別記為RS1、RS2、RS3、RS4。
5.2 實驗設置
首先為了驗證本文所提方法的有效性,我們利用基于Active learning方法制作小規(guī)模標注語料,并從科技領域的大規(guī)模生語料中抽取n-gram統計特征,將科技領域小規(guī)模標注語料與抽取的n-gram特征加入原有新聞領域的標注語料,訓練出科技領域上的中文分詞模型;然后利用該模型在測試集上進行評測。該系統記為Our(Active learning +n-gram+原領域語料)。為了考察目標領域上標注語料的規(guī)模對分詞系統的影響,我們利用四個語料集AS1、AS2、AS3、AS4,分別進行模型訓練和評測,評測結果顯示在表2中。
為了考察基于Active learning的中文分詞系統的優(yōu)越性,我們進行了與上述相同的實驗和評測,但加入的小規(guī)模標注語料是隨機選取的RS1、RS2、RS3、RS4。該系統記為Baseline(隨機+n-gram+原領域語料)。同樣,評測結果也顯示在表2中。
為了與其他領域自適應方法進行對比,我們重現了Su的方法[6]并訓練了中文分詞模型,其中同樣利用了生語料的n-gram特征和原有新聞領域的標注語料,另外利用了NTCIR英中專利平行語料中的英文部分和英中對齊處理抽取了新的特征。該系統記為Su(英文+n-gram+原領域語料)。相同測試集上的測試結果顯示在表2中。
為了對比沒有進行領域自適應的分詞系統,我們選取了利用原有新聞領域的標注語料訓練的分詞模型,該系統記為無領域自適應分詞模型(原有新聞領域),并進行了相同測試集上的實驗和評測,評測結果顯示在表2中。
最后,我們還利用了公開的斯坦福中文分詞系統在相同的測試集上進行了評測,該系統記為無領域自適應分詞模型(斯坦福),評測結果顯示在表2中。
評測實驗采用準確率(P)、召回率(R)、綜合性能指標(F1值)對中文分詞系統進行測評。各個系統的評測結果如表2所示。
5.3 結果與分析
表2 不同分詞系統的評價結果
通過對比表2中的評測結果,我們分析如下:
(1) 通過對比表中雙線以上的有領域自適應的三個分詞系統和雙線以下的無領域自適應的兩個分詞系統的評測結果,我們可以看出,有領域自適應的分詞系統的各項評測結果均高于無領域自適應的分詞系統,說明了領域自適應對改進中文分詞系統性能的重要性。
(2) 在領域自適應的三個分詞系統中,通過對比加入目標領域的300句標注語料的分詞系統和未加入標注語料的Su的分詞系統的評測結果,我們可以看出,前者的各項評測結果均高于后者。說明了目標領域人工標注語料對分詞模型領域自適應有重要幫助,少量的300句語料就有明顯效果。
(3) 在加入人工標注的領域自適應的兩個分詞系統中,通過對比利用Active learning方法篩選語料的分詞系統和隨機篩選語料的分詞系統,我們可以看出,在加入數量相同的標注語料的前提下,前者的各項指標的評測結果均高于后者,甚至前者添加100句標注語料得到的分詞系統的評測結果高于后者添加300句標注語料得到的分詞系統。由此,我們可以看出,本文提出的基于Active learning的中文領域自適應方法具有明顯效果。
(4) 在我們的系統(Our)中,通過對比在不同規(guī)模的標注語料上的分詞模型的評測結果,可以看出,隨著標注語料的增大,系統的分詞精度一直有所提升,300句的標注語料還未達到飽和狀態(tài),我們預測隨著經過篩選的標注語料的加入,系統的性能還有提升空間。
本文工作圍繞中文分詞領域自適應方法的探索,針對大規(guī)模人工分詞訓練語料難以獲取的問題,提出了基于Active learning的中文分詞領域自適應方法,并應用于科技領域自適應的任務中,制定了科技領域的人工標注標準,進行了小規(guī)模的人工標注。在NTCIR-10的專利數據上,充分驗證了該方法可以快速獲取領域特有的分詞知識,有效提高分詞系統的領域適應性能。
綜上所述,本文針對中文分詞領域自適應的任務,做出了一些探索,并取得了初步的研究成果。然而,中文分詞還面臨很多問題,例如,在面對不同領域時,分詞粒度的確定問題。今后我們將選取其他代表性的領域,對中文分詞領域適應方法進行更深入的探索。
[1] Rabiner L, Juang B. An introduction to hidden Markov models[J]. ASSP Magazine, 1986: 4-16.
[2] Adam L B, Della P V J, Della P S A. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996,22(1): 39-71.
[3] John L, Andrew M, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the ICML, 2001: 45-54.
[4] 張梅山,鄧知龍,車萬翔,等.統計與詞典相結合的領域自適應中文分詞[J].中文信息學報,2012,26(2): 8-12.
[5] Guo Z, Zhang Y, Su C, et al. Exploration of n-gram Features for the Domain Adaptation of Chinese Word Segmentation[J]. Nature Language Processing and Chinese Computing. Springer Berlin Heidelberg, 2012: 121-131.
[6] 蘇晨, 張玉潔, 郭振, 等. 適用于特定領域機器翻譯的漢語分詞方法[J]. 中文信息學報, 2013, 27(5): 184-190.
[7] Angluin D. Queries and concept learning[J]. Machine Learning, 1988, 2(4):319-342.
[8] Burr S. Active Learning Literature Survey[J]. University of Wisconsinmadison, 2009, 39(2): 127-131.
[9] 宗成慶.統計自然語言處理[M].北京: 清華大學出版社,2008.
[10] GB/T 13715-1992.信息處理用現代漢語分詞規(guī)范[S].北京:中國標準出版社,1992:
[11] Xia F. The Segmentation Guidelines for the Penn Chinese Treebank (3.0)[J]. 2000.
[12] 段慧明,松井久人於,徐國偉,等.大規(guī)模漢語標注語料庫的制作與使用[J]. 語言文字應用,2000,(2):72-77.
Active Learning Based Domain Adaptation for Chinese Word Segmentation
XU Huating, ZHANG Yujie, YANG Xiaohui, SHAN Hua, XU Jin’an, CHEN Yufeng
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
Chinese word segmentation systems trained on annotated corpus of newspaper would drop in performance when faced with a new domain. Since there is no large scale annotated corpus on the target domain, this paper describes a domain adaptation of Chinese word segmentation by active learning. The idea is to select a small amount of data for annotation to bridge the gap from the target domain to the News. The word segmentation model is re-trained by inlduing the newly annotated data. We use the CRF model for the training and a raw corpus of one million sentences on patent description as the target domain. For test data, 300 sentences are randomly selected and manually annotated. The experimental results show that the performances of the Chinese word segmentation system based on our approach are improved on each evaluation metrics.
Chinese word segmentation; domain adaptation; active learning
許華婷(1991—),助理實驗師,主要研究領域為自然語言處理。E-mail:xuhuating91@163.com張玉潔(1961—),通信作者,教授,主要研究領域為自然語言處理。E-mail:yjzhang@bjtu.edu.cn楊曉暉(1962—),副教授,主要研究領域為計算機應用。E-mail:xhyang@bjtu.edu.cn
1003-0077(2015)05-0055-08
2015-08-15 定稿日期: 2015-10-09
國家國際科技合作專項資助(2014DFA11350);國家自然科學基金(61370130)
TP391
A