錢濤 姬東鴻? 戴文華
(1.武漢大學(xué) 計(jì)算機(jī)學(xué)院, 湖北 武漢 430072; 2.湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 湖北 咸寧 437100)
基于遷移的微博分詞和文本規(guī)范化聯(lián)合模型*
錢濤1姬東鴻1?戴文華2
(1.武漢大學(xué) 計(jì)算機(jī)學(xué)院, 湖北 武漢 430072; 2.湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 湖北 咸寧 437100)
傳統(tǒng)的分詞器在微博文本上不能達(dá)到好的性能,主要?dú)w結(jié)于:(1)缺少標(biāo)注語料;(2)存在大量的非規(guī)范化詞.針對(duì)這兩類問題,文中提出一個(gè)分詞和文本規(guī)范化的聯(lián)合模型,該模型在遷移分詞基礎(chǔ)上,通過擴(kuò)充遷移行為來實(shí)現(xiàn)文本規(guī)范化,進(jìn)而對(duì)規(guī)范的文本進(jìn)行分詞.在實(shí)驗(yàn)中,采用大量的規(guī)范標(biāo)注文本及少量的微博標(biāo)注文本進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果顯示,該模型具有較好的域適應(yīng)性,其分詞錯(cuò)誤率比傳統(tǒng)的方法減少了10.35%.
分詞;文本規(guī)范化;域適應(yīng);遷移模型;微博
微博已成為當(dāng)前自然語言處理(NLP)領(lǐng)域的一個(gè)研究重點(diǎn),但傳統(tǒng)的NLP工具在微博域上并不能獲得較好的性能[1- 2].中文分詞是NLP最基礎(chǔ)的任務(wù),它的好壞決定了其他NLP任務(wù)的性能.
微博分詞通??醋魇且粋€(gè)域適應(yīng)問題,大多數(shù)方法從微博中抽取域特征[3],擴(kuò)充域詞典[4],然后采用傳統(tǒng)的方法(如CRF、Transition-Based等方法)來學(xué)習(xí)模型.然而,當(dāng)前的標(biāo)注語料大都是基于規(guī)范文本的,而微博域缺少相關(guān)的標(biāo)注語料,使得傳統(tǒng)的分詞工具在微博域并不能獲得較好的分詞性能,其中,最主要的原因之一是微博中存在大量的非規(guī)范詞,如“給力”、“妹紙”、“雞動(dòng)”等.
文本規(guī)范化是微博的一個(gè)預(yù)處理過程,其目的是把非規(guī)范詞轉(zhuǎn)化為規(guī)范詞,進(jìn)而轉(zhuǎn)化為規(guī)范文本.它通常被看作是一個(gè)噪音信道問題[5]和翻譯問題[6].大多數(shù)工作主要研究英語的規(guī)范化,它們通常采用分階段的非監(jiān)督方法,先檢測(cè)再規(guī)范化.
不同于英文依據(jù)詞是否在詞典中來判斷一個(gè)詞是否為非規(guī)范詞,中文非規(guī)范詞的判斷是非常困難的.中文非規(guī)范詞的構(gòu)成形式具有多樣性,如同音詞、縮寫、音譯、重復(fù)、釋義等,由于這種多樣性,人們?cè)谔幚砦谋疽?guī)范化時(shí),通常根據(jù)不同的變化類型訓(xùn)練不同的模型[7- 8].當(dāng)前的研究結(jié)果顯示,文本規(guī)范化有助于提升微博域中其他NLP任務(wù)的性能[2,8].
對(duì)于中文微博,由于文本規(guī)范化需要預(yù)先分詞,且規(guī)范化有助于分詞,因此有必要將分詞和規(guī)范化任務(wù)進(jìn)行聯(lián)合.Wang等[9]提出了一個(gè)聯(lián)合分詞和非規(guī)范詞的檢測(cè)模型,但并沒有對(duì)非規(guī)范詞做規(guī)范化處理;Kaji等[10]提出了基于日文的聯(lián)合分詞、詞性標(biāo)注和文本規(guī)范化的模型.這些模型采用大量標(biāo)注的非規(guī)范文本進(jìn)行訓(xùn)練,因而實(shí)現(xiàn)代價(jià)較大.
文中提出一個(gè)分詞和規(guī)范化聯(lián)合模型.該模型采用基于遷移的分詞模型,擴(kuò)充遷移行為以實(shí)行文本規(guī)范化;同時(shí),采用規(guī)范標(biāo)注文本進(jìn)行訓(xùn)練,克服了缺少標(biāo)注語料的問題;另外,該模型融合少量的微博標(biāo)注文本進(jìn)行訓(xùn)練,能同時(shí)獲取非規(guī)范及規(guī)范文本特征,自然地實(shí)行特征擴(kuò)充[11],因此具有較好的域適應(yīng)性.
該聯(lián)合模型基于一個(gè)自動(dòng)構(gòu)建的非規(guī)范詞典來檢索非規(guī)范詞所對(duì)應(yīng)的候選規(guī)范詞.該詞典由〈非規(guī)范詞,規(guī)范詞〉對(duì)組成,其構(gòu)建基于如下假設(shè):非規(guī)范化詞通常都有相應(yīng)的規(guī)范詞與之對(duì)應(yīng)[7- 8],如妹紙——妹子、海龜——海歸、童鞋——同學(xué)等.
中文分詞輸入一個(gè)未分割的句子,輸出一個(gè)已分割的序列,可表示成如下最優(yōu)化問題:給一個(gè)句子x,輸出F(x)滿足:
(1)式中:Gen(x)為可能的分割序列集;目標(biāo)函數(shù)f(y,w)評(píng)估生成的分割序列,其中y表示生成的序列,w表示序列所對(duì)應(yīng)的特征權(quán)重向量.
文中把Z&C模型[12]作為基線系統(tǒng).Z&C模型是一個(gè)基于遷移的分詞模型,它將分詞看作是一個(gè)遷移序列生成過程,其主要優(yōu)點(diǎn)在于特征選擇更靈活,不僅可利用字的特征,還可利用詞及狀態(tài)序列的特征.基于遷移的分詞模型的目標(biāo)函數(shù)可表示為
(2)
其值為分割遷移行為評(píng)估值之和.式(2)中,|x|表示句子x的長度,i表示字符的序號(hào),Φ(x,yi,ai)表示在字符i處遷移行為ai時(shí)的特征向量.
一個(gè)遷移分詞模型被定義為一個(gè)四元組M=〈C,T,W,Ct〉,其中:C是狀態(tài)空間;T是轉(zhuǎn)換集,每一個(gè)轉(zhuǎn)換表示為一個(gè)函數(shù)C→Ct,Ct是一個(gè)終態(tài)集;W是一個(gè)輸入句子w0…wn-1,其中wi表示一個(gè)字符.模型學(xué)習(xí)時(shí),對(duì)每一個(gè)可能遷移(即從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài))進(jìn)行評(píng)估打分.每一個(gè)狀態(tài)是一個(gè)四元組ST=〈Si,u,v,c〉,其中Si表示已被分割的前i個(gè)字符序列,u表示最后一個(gè)被分割的詞在句子中的索引,v表示倒數(shù)第二個(gè)被分割的詞在句子中的索引,c表示分割序列Si的評(píng)估值.
圖1給出了分詞模型的演繹推理系統(tǒng).該系統(tǒng)的處理過程如下:系統(tǒng)從左至右對(duì)每個(gè)字進(jìn)行處理,處理每個(gè)字時(shí),分別執(zhí)行以下2種遷移行為(或推理規(guī)則):
(1)APP(i),把字符wi從未分割隊(duì)列中刪除,并加到已分割的最后一個(gè)詞的后面構(gòu)成一個(gè)新詞,其評(píng)估值c=c+α,其中α為行為APP時(shí)新增的局部評(píng)估值.
(2)SEP(i),把wi從未分割隊(duì)列中去除,把它與最后一個(gè)詞分割,作為一個(gè)可能的新詞.其評(píng)估值c=c+β,其中β為行為SEP時(shí)新增的局部評(píng)估值.
例如,給定句子“工作壓力啊!”,一個(gè)可能的遷移行為序列可表示如下:SEP(工)、APP(作)、SEP(壓)、APP(力)、SEP(啊)、SEP(!).
圖1 基于遷移的分詞模型的演繹推理系統(tǒng)
Fig.1 Deductive system of transition-based segmentation model
文中所提聯(lián)合模型擴(kuò)展自基于遷移的分詞模型,其處理過程與基于遷移的分詞模型類似.主要區(qū)別是除了前述兩種遷移行為(APP和SEP)外,為了實(shí)現(xiàn)文本規(guī)范化,該模型還引入了另一種遷移行為——SEPS.執(zhí)行該行為時(shí),如果最后一個(gè)分割的詞在詞典中存在它的規(guī)范詞,則用該規(guī)范詞代替非規(guī)范詞.圖2給出了該模型的一個(gè)遷移例子.
圖2 聯(lián)合模型的遷移行為示例
如圖2所示,在處理當(dāng)前字“大”時(shí),首先把它從隊(duì)列中去除掉,然后分別執(zhí)行以下3種行為:
(1)APP(“大”):在非規(guī)范化分割序列中把“大”加到最后一個(gè)單詞“鴨梨”后作一個(gè)詞.
(2)SEP(“大”):“大”與“鴨梨”分割作為一個(gè)新的單詞.
(3)SEPS(“大”,“壓力”):執(zhí)行SEP(“大”),且在規(guī)范文本分割序列中用“壓力”替換上一次SEP行為分割的最后一個(gè)詞“鴨梨”.
例如,給定句子“工作鴨梨啊!”,一個(gè)可能的遷移行列序列可表示如下:SEP(工)、APP(作)、SEP(壓)、APP(力)、SEPS(啊,壓力)、SEP(!).
詞典替換基于一個(gè)非規(guī)范詞典,詞典的每一項(xiàng)由〈非規(guī)范化詞、規(guī)范詞〉對(duì)組成.由于是使用已存在的詞典,因此模型并不需考慮非規(guī)范詞的多樣性.2.1 形式化
文中所提聯(lián)合模型與分詞模型的另一個(gè)主要區(qū)別在于聯(lián)合模型生成一個(gè)分割序列對(duì):規(guī)范及非規(guī)范序列對(duì),可表示為公式(3).對(duì)一個(gè)句子x,模型的輸出F(x)滿足:
(3)
式中,Gen(x)表示可能的輸出序列對(duì).使用目標(biāo)函數(shù)f(y,y′,w)評(píng)估生成的分割序列對(duì),其中y、y′分別表示生成的規(guī)范及非規(guī)范序列,目標(biāo)函數(shù)表示如下:
(4)
由于該聯(lián)合模型生成了規(guī)范及非規(guī)范分割序列對(duì),它能獲得兩類特征——非規(guī)范和規(guī)范文本特征,因此該模型具有以下優(yōu)點(diǎn):
(1)采用規(guī)范文本特征,該模型能直接使用大量已標(biāo)注的規(guī)范語料文本進(jìn)行訓(xùn)練,克服了微博文本缺少語料的問題;
(2)使用兩類特征,其中規(guī)范文本特征作為公共特征,非規(guī)范文本作為域特征,自然地實(shí)現(xiàn)了特征擴(kuò)充[11],模型具有較好的域適應(yīng)性.
后面的實(shí)驗(yàn)顯示,利用大量的規(guī)范語料和少量的微博語料進(jìn)行訓(xùn)練后,模型的性能得到較大提升.
2.2 解碼和訓(xùn)練
解碼算法采用基于束的寬度搜索算法.對(duì)于待分詞的句子,從左至右地處理每個(gè)字符,在處理一個(gè)字符時(shí),分別執(zhí)行3種遷移行為(APP、SEP和SEPS);接著,產(chǎn)生新的輸出序列集,同時(shí)保留N個(gè)評(píng)分最高的候選輸出序列;然后,在當(dāng)前候選輸出序列的基礎(chǔ)上處理下一個(gè)字符,直到處理完所有字符;最后輸出評(píng)分最高的候選輸出序列.算法1給出了詳細(xì)的偽代碼.其中:agenda儲(chǔ)存當(dāng)前的候選輸出序列集,N-Best從當(dāng)前的agenda返回前N個(gè)分?jǐn)?shù)最高的候選項(xiàng),GetNorWord在非規(guī)范詞典中檢索非規(guī)范詞所對(duì)應(yīng)的候選規(guī)范詞.
算法1:解碼器
輸入:sent:Infomalsentence,Dictionary
輸出:Bestnormalizationsentence
1.agenda←NULL
2.forindexin[0..LEN(sent)]:
3.forcandinagenda:
4.APP(agenda,cand,sent[index])
5.SEP(agenda,cand,sent[index])
6.norWords←GetNorWord(cand.lastWord)
7.forwordinnorWords
8.SEPS(agenda,cand,insent[index],word)
9.agenda←N-BEST(agenda)
10.returnBEST(agenda)
訓(xùn)練過程與解碼算法過程類似,區(qū)別在于當(dāng)訓(xùn)練結(jié)果與標(biāo)準(zhǔn)不一致時(shí),學(xué)習(xí)算法會(huì)對(duì)參數(shù)進(jìn)行更新.學(xué)習(xí)算法是一個(gè)基于泛化的感知機(jī)算法[13],參數(shù)更新采用Collins等[14]提出的“提前更新”策略.
2.3 特征
文中模型使用了Z&C模型[12]所使用的全部特征模板,包括基于字、詞的特征模板.由于缺少標(biāo)注語料,這些特征對(duì)于文本標(biāo)準(zhǔn)化任務(wù)來說所包含的信息太少.許多研究指出,語言統(tǒng)計(jì)信息對(duì)文本規(guī)范化有著重要的作用[8,10].
文中從基于詞的語言模型抽取語言統(tǒng)計(jì)特征.語言模型從標(biāo)準(zhǔn)的規(guī)范文本中構(gòu)建.在實(shí)驗(yàn)中,學(xué)習(xí)了3個(gè)語言模型,分別是一元、二元、三元模型,其對(duì)應(yīng)的特征模板依次為word-1-gram、word-2-gram、word-3-gram.
每類模型按概率分成10個(gè)等級(jí),分別對(duì)應(yīng)于10個(gè)特征模板.例如,二元單詞“壓力-大”的概率在第二級(jí)中,則其特征表示為“word-2-gram=2”.
在實(shí)驗(yàn)中,采用SRILMtools(見http:∥www.speech.sri.com/projects/srilm/)在GigawordCorpus(見https:∥catalog.ldc.upenn.edu/LDC2003T05)上訓(xùn)練語言模型.實(shí)驗(yàn)結(jié)果顯示,語言統(tǒng)計(jì)特征同時(shí)提升了文本標(biāo)準(zhǔn)化和分詞的性能.
雖然構(gòu)建大規(guī)模的非規(guī)范詞典是非常困難的,但“非規(guī)范-規(guī)范”詞對(duì)關(guān)系能從大模型的Web語料中獲取[7],且非規(guī)范詞的構(gòu)成具有一定規(guī)律.基于此,文中采用兩種方法構(gòu)建和擴(kuò)充非規(guī)范詞典.由于篇幅原因,這里僅給出簡要介紹.
第1種方法是從大規(guī)模微博文本中抽取“非規(guī)范-規(guī)范”詞對(duì)關(guān)系.許多非規(guī)范詞和規(guī)范詞通常在相同的的文本中共現(xiàn),從文本中能抽取出它們的關(guān)系模式.如表1所示,從第1個(gè)例子能抽取出模式“formal也稱informal”,從第2個(gè)例子中能抽取出模式“informal(formal)”.文中使用Bootstrapping算法來抽取“非規(guī)范-規(guī)范”詞對(duì).首先手動(dòng)收集一個(gè)小的詞對(duì)集,然后使用這些詞對(duì)作為種子,抽取關(guān)系模式,再利用這些模式識(shí)別更多的關(guān)系,并把它們擴(kuò)充至詞典.由于抽取的詞對(duì)有大量的噪音,一個(gè)基于相似度的分類器被用于打分并過濾噪音,最后前n個(gè)得分最高的詞對(duì)加入詞典.
表1 “非規(guī)范-規(guī)范”詞共現(xiàn)例子
第2種方法是利用非規(guī)范詞的生成規(guī)律來生成新的非規(guī)范詞.雖然非規(guī)范詞具有多樣性,但是其生成具有一定的規(guī)律,如采用組合、音借、縮寫、同音、重復(fù)等方式生成.文中利用已識(shí)別的“非規(guī)范-規(guī)范”詞對(duì)學(xué)習(xí)出生成模式,從而構(gòu)建更多可能的“非規(guī)范-規(guī)范”詞對(duì).例如:在“妹子-妹紙”中,采用模式:子→紙,把“妹子”變成“妹紙”.使用這種方式,能生成更多的詞對(duì),如“漢子-漢紙”、“男子-男紙”、“孫子-孫紙”.
為了保證詞典質(zhì)量,兩種方法都采用人工輔助監(jiān)督.在實(shí)驗(yàn)中,一共構(gòu)建了32 787個(gè)非規(guī)范詞對(duì).
對(duì)每個(gè)“非規(guī)范-規(guī)范”詞對(duì),統(tǒng)計(jì)出替換概率.考慮到在缺乏上下文的情況下無法判斷是否應(yīng)該替換,例如對(duì)“鴨梨好大啊”,是否用“壓力”替換“鴨梨”?可根據(jù)替換概率來判斷,這樣可部分彌補(bǔ)訓(xùn)練語料不足的缺點(diǎn).
4.1 語料標(biāo)注
為了訓(xùn)練和評(píng)估文中所提模型,開發(fā)了一個(gè)微博語料庫,從新浪微博中抽取語料,對(duì)網(wǎng)址、情感符、用戶名、標(biāo)簽作預(yù)處理,最后得到了5 894個(gè)微博文本,包含32 061個(gè)詞.
兩個(gè)具有語言學(xué)背景的學(xué)生手工標(biāo)注了上述語料的詞邊界并進(jìn)行文本規(guī)范化.分詞采用CTB(見https:∥catalog.ldc.upenn.edu/LDC2010T07)標(biāo)準(zhǔn).非規(guī)范詞一共標(biāo)注了1 071個(gè),其中包含616個(gè)不同的非規(guī)范詞對(duì).非規(guī)范詞占整個(gè)語料的1.34%.為了驗(yàn)證前面的假設(shè)——每一個(gè)非規(guī)范詞通常有一個(gè)對(duì)應(yīng)的規(guī)范詞,文中分析了標(biāo)注的一致性.其Cohen’s Kappa值為0.95,這說明非規(guī)范詞是很容易被標(biāo)注的.
4.2 實(shí)驗(yàn)設(shè)置
標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)按7∶1∶2的比例分成3部分:訓(xùn)練集、開發(fā)集、測(cè)試集.實(shí)驗(yàn)中采用兩類訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練:一是直接用CTB進(jìn)行訓(xùn)練;二是融合CTB和微博語料進(jìn)行訓(xùn)練.由于微博語料太少,在實(shí)驗(yàn)中沒有單獨(dú)采用微博語料用于訓(xùn)練.
實(shí)驗(yàn)中,采用傳統(tǒng)的F值對(duì)分詞、文本規(guī)范化進(jìn)行評(píng)估.
4.3 基線
為了和聯(lián)合模型進(jìn)行比較,文中采用以下兩個(gè)基線系統(tǒng):
(1)Stanford分詞器.采用Standford分詞器直接對(duì)開發(fā)和測(cè)試數(shù)據(jù)進(jìn)行分詞.
(2)S;N分詞.先用基于遷移的分詞模型分詞,然后在分詞的基礎(chǔ)上直接進(jìn)行文本規(guī)范化.
每個(gè)系統(tǒng)按是否采用語言模型特征分為兩個(gè)子系統(tǒng).
4.4 開發(fā)集結(jié)果
開發(fā)集主要用來確定束搜索的寬度及訓(xùn)練次數(shù).實(shí)驗(yàn)顯示,當(dāng)寬度為16、循環(huán)次數(shù)為32時(shí),開發(fā)集測(cè)試性能最好.另外,開發(fā)集也用來分析與基線的比較、詞典對(duì)性能的影響等.表2給出了開發(fā)集的實(shí)驗(yàn)結(jié)果.其中,S;N表示Pipe-Line模型,SN表示文中提出的聯(lián)合模型,“模型”+lm表示在原模型的基礎(chǔ)上增加語言模型特征.可以看出,傳統(tǒng)NLP工具在微博域上并不能獲得較好的性能,采用Stanford分詞器,其分詞性能為87.55%.
表2 開發(fā)集結(jié)果1)
1)Seg-F1—分詞的F值;Nor-F1—規(guī)范化的F值.
(1)與Pipe-Line的比較
實(shí)驗(yàn)的主要目標(biāo)之一是驗(yàn)證文本規(guī)范化是否有助于提升微博域的分詞性能.從表2可以看到,聯(lián)合模型的性能要比Pipe-Line的性能高.說明文本規(guī)范化有助于提高分詞效果,且兩個(gè)任務(wù)彼此受益.
總體而言,分詞性能提升不是很高,這主要是由于非規(guī)范詞在語料中所占比重太小(只占語料的1.6%).此外,表3也給出了開發(fā)集中規(guī)范詞和非規(guī)范詞的識(shí)別精度(即召回率).使用詞典后,非規(guī)范化詞的識(shí)別精度大大提高,規(guī)范詞的識(shí)別精度也有小幅提升,說明非規(guī)范詞不僅有助于非規(guī)范詞性能的提升,而且有助于規(guī)范詞的分割.
表3 開發(fā)集上規(guī)范詞、非規(guī)范詞及所有詞的識(shí)別精度1)
Table 3 Recalls of formal,informal and all words on development set
系統(tǒng)CTB訓(xùn)練CTB+微博訓(xùn)練NRIRRNRIRRS;N0.86110.50000.85240.89090.74240.8873SN0.86140.65530.85520.89110.84470.8890S;N+lm0.90430.41290.89250.92510.61740.9177SN+lm0.90450.76520.90090.92550.87880.9244
1)NR—規(guī)范詞的召回率;IR—非規(guī)范詞的召回率;R—所有詞的召回率.
(2)語言模型的影響
從表2可以看出,當(dāng)使用語言統(tǒng)計(jì)特征時(shí),分詞和文本規(guī)范化性能得到較大提升,說明使用語言統(tǒng)計(jì)信息不僅有助于文本規(guī)范化,而且能幫助微博分詞.
此外,由表3可知,使用語言模型特征后,聯(lián)合模型SN+lm中非規(guī)范詞的分詞性能得到較大提升;但對(duì)于Pipe-Line模型S;N+lm,非規(guī)范詞的分詞性能反而下降了.產(chǎn)生這種現(xiàn)象的主要原因是非規(guī)范詞的低頻性——在使用語言特征時(shí),含有非規(guī)范詞的文本評(píng)估得分會(huì)較低,導(dǎo)致不能正確地分詞,甚至影響規(guī)范詞的分割.而當(dāng)把它規(guī)范化后,評(píng)估分?jǐn)?shù)會(huì)相應(yīng)地提升.這說明直接在微博文本中使用語言統(tǒng)計(jì)特征會(huì)產(chǎn)生副作用,而文中所提聯(lián)合模型更適合使用語言模型特征.
(3)詞典的影響
非規(guī)范詞典在聯(lián)合模型中起著重要作用.使用詞典本質(zhì)上有助于減少測(cè)試語料中的未登錄詞.此外,詞典對(duì)語料中非規(guī)范詞的覆蓋率也是非常重要的.覆蓋率越高,則性能越好.文中所構(gòu)建的詞典在開發(fā)集和測(cè)試集的覆蓋率分別是47.8%和49.5%.
為了調(diào)查覆蓋率對(duì)分詞性能的影響,手動(dòng)構(gòu)建了10個(gè)詞典,其覆蓋率分別為10%,20%,…,100%.圖3顯示了模型對(duì)不同詞典的分詞性能.隨著詞典覆蓋率的增加,分詞性能得到進(jìn)一步的提升.因此,構(gòu)建合適的詞典對(duì)文中所提模型是非常重要的.
圖3 開發(fā)集采用不同覆蓋詞典的分詞F值
Fig.3Fvalue of segmentation with different cover word dictionaries on development set
4.5 測(cè)試集結(jié)果
表4給出了在測(cè)試集上的實(shí)驗(yàn)結(jié)果,它驗(yàn)證了4.4節(jié)的結(jié)論:聯(lián)合模型的性能要比Pipe-Line模型的高.比較實(shí)驗(yàn)結(jié)果,在CTB+微博訓(xùn)練模型基礎(chǔ)上,采用語言模型特征后,聯(lián)合模型的分詞錯(cuò)誤率比Pipe-Line模型的減少了10.35%.
表4 測(cè)試集結(jié)果
從開發(fā)集及測(cè)試集結(jié)果可以看出,直接采用標(biāo)準(zhǔn)文本進(jìn)行訓(xùn)練時(shí),文中所提聯(lián)合模型能提高分詞性能;實(shí)驗(yàn)結(jié)果也顯示,采用標(biāo)準(zhǔn)文本及少量的微博文本進(jìn)行訓(xùn)練,模型的域適應(yīng)性更好.這說明了微博標(biāo)注語料在微博分詞模型學(xué)習(xí)中的重要性.
4.6 錯(cuò)誤分析
對(duì)于存在于規(guī)范詞典中的非規(guī)范詞,主要存在以下兩類錯(cuò)誤:
(1)對(duì)于一對(duì)多的詞容易產(chǎn)生分詞錯(cuò)誤.例如:美偶-美國偶像.由于“美國偶像”包含兩個(gè)詞“美國”和“偶像”,在將“美偶”規(guī)范化為“美國偶像”時(shí),沒有作進(jìn)一步分詞處理.
(2)數(shù)字音借詞識(shí)別錯(cuò)誤.例如,“7456”在上下文中應(yīng)規(guī)范化為“氣死我了”,但被識(shí)別為數(shù)字.這類錯(cuò)誤是非常難避免的,識(shí)別時(shí)需要更多的上下文信息.
文中提出了一個(gè)基于遷移的分詞和規(guī)范化聯(lián)合模型,該模型能有效利用標(biāo)準(zhǔn)的標(biāo)注語料進(jìn)行訓(xùn)練,克服了缺少語料的問題.使用兩類特征對(duì)模型打分,其中規(guī)范文本特征作為公共特征,非規(guī)范文本作為域特征,自然地實(shí)現(xiàn)了特征擴(kuò)充,使模型具有較好的域適應(yīng)性.實(shí)驗(yàn)結(jié)果顯示,聯(lián)合模型能使兩個(gè)任務(wù)彼此受益,且語言統(tǒng)計(jì)特征的采用有助于提高模型的性能.該模型性能依賴于所構(gòu)建的非規(guī)范詞典,今后擬將進(jìn)一步研究如何有效地?cái)U(kuò)充詞典.
[1] Foster Jennifer,Cetinoglu ?zlem,Wagner Joachim,et al.#hardtoparse:POS tagging and parsing the twitter-verse [C]∥AAAI 2011 Workshop on Analyzing Microtext.San Francisco:AAAI,2011:20- 25.
[2] Gimpel Kevin,Schneider Nathan,O’Connor Brendan,et al.Part-of-speech tagging for twitter:annotation,features,and experiments [C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland:ACL,2011:42- 47.
[3] Xi Ning,Li Bin,Tang Guangchao,et al.Adapting conventional Chinese word segmenter for segmenting micro-blog text:combining rule-based and statistic-based approaches [C]∥Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:ACL,2012:63- 68.
[4] Duan Huiming,Sui Zhifang,Tian Ye,et al.The cips-sighan CLP 2012 Chinese word segmentation on microblog corpora bakeoff [C]∥Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:ACL,2012:35- 40.
[5] Pennell L Deana,Liu Yang.Normalization of informal text [J].Computer Speech & Language:2014,28(1):256- 277.
[6] Contractor Danish,Faruquie A Tanveer,Subramaniam L Venkata.Unsupervised cleansing of noisy text [C]∥Proceedings of the 23rd International Conference on Computational Linguistics.Beijing:ACL,2010:189- 196.
[7] Li Zhifei,Yarowsky David.Mining and modeling relations between formal and informal Chinese phrases from web corpora [C]∥Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing.Hawaii:ACL,2008:1031- 1040.
[8] Wang Aobo,Kan Min-Yen,Andrade Daniel,et al.Chinese informal word normalization:an experimental study [C]∥Proceedings of the Sixth International Joint Conference on Natural Language Processing.Nagoya:Asian Federation of Natural Language Processing,2013:127- 135.
[9] Wang Aobo,Kan Min-Yen.Mining informal language from Chinese microtext:joint word recognition and segmentation [C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Sofia:ACL,2011:731- 741.
[10] Kaji Nobuhiro,Kitsuregawa Masaru.Accurate word segmentation and pos tagging for Japanese microblogs:corpus annotation and joint modeling with lexical normalization [C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2014:99- 109.
[11] Hal Daumé III.Frustratingly easy domain adaptation [C]∥Proceedings of the 45th Annual Meeting of the Asso-ciation for Computational Linguistics.Sofia:ACL,2007:256- 263.
[12] Zhang Y,Clark S.Chinese segmentation with a word-based perceptron algorithm [C]∥Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.Sofia:ACL,2007:840- 847.
[13] Collins Michael.Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms [C]∥Proceedings of the 2002 Confe-rence on Empirical Methods in Natural Language Processing.Danfo:ACL,2002:1- 8.
[14] Collins Michael,Roark Brian.Incremental parsing with the perceptron algorithm [C]∥Proceedings of the 42nd Meeting of the Association for Computational Linguistics.Barcelona:ACL,2004:111- 118.
A Transition-Based Word Segmentation Model on Microblog with Text Normalization
QianTao1JiDong-hong1DaiWen-hua2
(1.Computer School,Wuhan University,Wuhan 430072,Hubei,China;2.College of Computer Science and Technology,Hubei University of Science and Technology,Xianning 437100,Hubei,China)
Traditional word segmentation methods fail to achieve good performance on microblog texts,which can be attributed to the lack of annotated corpora and the existence of a large number of informal words.In order to solve the two kinds of problems,a joint model of word segmentation and text normalization is proposed.In this model,on the basis of the transition-based word segmentation,the texts are normalized by extending transition actions and then the words are segmented on the normalized texts.By experiments,the proposed model is trained on both a large number of annotated standard corpora and a small number of microblog corpora.The results show that the proposed model is of better domain adaptability,and it reduces the error rate of word segmentation by 10.35% in comparison with traditional methods.
word segmentation;text normalization;domain adaptation;transition-based model;microblog
2015- 06- 11
國家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61133012);國家自然科學(xué)基金資助項(xiàng)目(61173062,61373108);國家社會(huì)科學(xué)基金重點(diǎn)資助項(xiàng)目(11&ZD189) Foundation items: Supported by the Key Program of National Natural Science Foundation of China(61133012),the National Natural Science Foundation of China(61173062,61373108) and the Key Program of National Social Science Foundation of China(11&ZD189)
錢濤(1975-),男,博士生,現(xiàn)任職于湖北科技學(xué)院,主要從事自然語言處理研究.E-mail: taoqian@whu.edu.cn
? 通信作者: 姬東鴻(1967-),男,教授,博士生導(dǎo)師,主要從事計(jì)算語言學(xué)、機(jī)器學(xué)習(xí)研究.E-mail: dhj@whu.edu.cn
1000- 565X(2015)11- 0047- 07
TP 391
10.3969/j.issn.1000-565X.2015.11.007