?
利用AdaBoost-SVM集成算法和語(yǔ)塊信息的韻律短語(yǔ)識(shí)別*
通信地址:030006 山西省太原市山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院Address:School of Computer & Information Technology, Shanxi University, Taiyuan 030006, Shanxi,P.R.China
錢揖麗1,2,馮志茹1
(1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;
2.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
摘要:提出一種基于漢語(yǔ)語(yǔ)塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法的漢語(yǔ)韻律短語(yǔ)識(shí)別方法。首先,對(duì)語(yǔ)料進(jìn)行自動(dòng)分詞、詞性標(biāo)注和初語(yǔ)塊標(biāo)注,然后基于結(jié)合緊密度獲取語(yǔ)塊歸并規(guī)則并利用規(guī)則對(duì)初語(yǔ)塊進(jìn)行歸并,得到最終的語(yǔ)塊結(jié)構(gòu)。其次,基于語(yǔ)塊結(jié)構(gòu)并利用AdaBoost-SVM集成算法,構(gòu)建漢語(yǔ)韻律短語(yǔ)識(shí)別模型。同時(shí),該文利用多種算法分別構(gòu)建了利用語(yǔ)塊信息和不利用語(yǔ)塊的多個(gè)模型,對(duì)比實(shí)驗(yàn)結(jié)果表明,表示淺層句法信息的語(yǔ)塊能夠在韻律短語(yǔ)識(shí)別中做出積極有效的貢獻(xiàn);利用AdaBoos-SVM集成算法實(shí)現(xiàn)的模型性能更佳。
關(guān)鍵詞:漢語(yǔ)語(yǔ)塊;AdaBoost-SVM;韻律短語(yǔ);識(shí)別
1引言
語(yǔ)音合成是制造語(yǔ)音的技術(shù)。它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。目前機(jī)器合成的語(yǔ)音與人講的話之間還有明顯的差距,其自然度還有待進(jìn)一步的提高。韻律的差距是影響語(yǔ)音自然度的重要因素之一,合成的語(yǔ)音單調(diào)枯燥,且在節(jié)奏、輕重、停頓等方面的處理不當(dāng)使其聽(tīng)起來(lái)非常別扭。充分掌握和運(yùn)用自然語(yǔ)言的韻律信息,是提高合成語(yǔ)音自然度的關(guān)鍵。
人在說(shuō)話時(shí)往往會(huì)按照話語(yǔ)表達(dá)的核心、語(yǔ)義和發(fā)音的生理機(jī)能等,自然地在話語(yǔ)中添加必要的停歇。停歇的位置、時(shí)長(zhǎng)等對(duì)于語(yǔ)義表達(dá)、語(yǔ)流的生動(dòng)性和自然度等有著很大的影響。
語(yǔ)音上的停歇與文本的韻律結(jié)構(gòu)緊密相關(guān)。目前比較公認(rèn)的是將韻律結(jié)構(gòu)從下到上分為三個(gè)級(jí)別,即:韻律詞、韻律短語(yǔ)和語(yǔ)調(diào)短語(yǔ)。在韻律結(jié)構(gòu)邊界會(huì)出現(xiàn)長(zhǎng)短不同的停歇,韻律層次越高,停歇的時(shí)間就越長(zhǎng)。由于韻律詞往往與語(yǔ)法詞相對(duì)應(yīng),而語(yǔ)調(diào)短語(yǔ)則通常是一個(gè)完整的分句,因此,韻律短語(yǔ)是人們研究的重點(diǎn)。針對(duì)韻律短語(yǔ)識(shí)別研究,已有的工作有基于語(yǔ)言學(xué)規(guī)則的方法[1],這類方法復(fù)用度低且很容易受到人為因素的限制;有基于統(tǒng)計(jì)的方法,如基于二叉樹[2,3]、馬爾科夫模型[4]、最大熵模型[5]、決策樹[6]等等,這些方法使用的特征大多為詞、詞性等詞法特征,或者使用依賴人工標(biāo)注的語(yǔ)法特征;還有規(guī)則和統(tǒng)計(jì)相結(jié)合的方法等,這些工作使得韻律結(jié)構(gòu)劃分問(wèn)題取得了一定的進(jìn)展。
通過(guò)對(duì)大量語(yǔ)料的分析可知,韻律結(jié)構(gòu)和句法結(jié)構(gòu)之間存在著一定的聯(lián)系。韻律結(jié)構(gòu)是以句法結(jié)構(gòu)為基礎(chǔ)的,在句法上不能夠出現(xiàn)停頓的地方(如詞內(nèi)音節(jié)之間),韻律上也不允許出現(xiàn)停頓;而在句法上的高層結(jié)構(gòu)之間,特別是標(biāo)點(diǎn)符號(hào)出現(xiàn)的地方,韻律上一定會(huì)出現(xiàn)停頓[7]。但是,由于漢語(yǔ)句子和句法結(jié)構(gòu)的復(fù)雜性和靈活多變性,往往存在著一定的嵌套關(guān)系,且句法分析器的生成較為復(fù)雜,對(duì)隨機(jī)的句子進(jìn)行分析得到的結(jié)果還不甚理想。為了降低句法分析難度,語(yǔ)塊在CoNLL-2000被提出。語(yǔ)塊分析能夠?qū)浞ǚ治銎鸬胶芎玫闹薪樽饔茫楹罄m(xù)的句法分析提供依據(jù)。另外,通過(guò)觀察和統(tǒng)計(jì)發(fā)現(xiàn),人們?cè)诶首x或說(shuō)話的時(shí)候往往會(huì)自然地將句子切分成一定長(zhǎng)度的語(yǔ)塊流,語(yǔ)塊的切分還會(huì)把句法上相關(guān)的詞進(jìn)行整合,對(duì)韻律短語(yǔ)的識(shí)別起到積極作用。所以,本文在漢語(yǔ)語(yǔ)塊識(shí)別的基礎(chǔ)上,提出將語(yǔ)塊結(jié)構(gòu)這種非遞歸嵌套的淺層句法結(jié)構(gòu)應(yīng)用于韻律短語(yǔ)的識(shí)別。
另外,要實(shí)現(xiàn)韻律短語(yǔ)的自動(dòng)識(shí)別,就需要構(gòu)造一個(gè)具有較高泛化能力的高精度學(xué)習(xí)機(jī)。但是,由于尋找一種較強(qiáng)的分類算法用于韻律短語(yǔ)識(shí)別較為困難,基于強(qiáng)、弱學(xué)習(xí)算法的等價(jià)性問(wèn)題,利用集成學(xué)習(xí)方法能夠使多個(gè)準(zhǔn)確率略高于隨機(jī)猜測(cè)的弱分類器進(jìn)行加權(quán)融合,形成一個(gè)強(qiáng)學(xué)習(xí)算法,達(dá)到比強(qiáng)分類器更好的分類效果。所以,本文使用AdaBoost集成學(xué)習(xí)算法,用SVM方法訓(xùn)練生成多個(gè)基分類器,再將多個(gè)基分類器用加權(quán)投票的方法集成,形成一個(gè)新的強(qiáng)分類器完成對(duì)韻律短語(yǔ)的預(yù)測(cè)。多項(xiàng)對(duì)比實(shí)驗(yàn)結(jié)果顯示,基于語(yǔ)塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法構(gòu)建的模型性能更佳。
2AdaBoost-SVM集成算法
實(shí)現(xiàn)韻律短語(yǔ)的自動(dòng)識(shí)別,需要構(gòu)造出一個(gè)具有較高泛化能力的高精度學(xué)習(xí)機(jī)。而領(lǐng)域知識(shí)和學(xué)習(xí)數(shù)據(jù)集本身及其分布對(duì)泛化能力的制約較大。傳統(tǒng)的數(shù)理統(tǒng)計(jì)與模式識(shí)別的方法需要盡可能精確地找到預(yù)測(cè)的規(guī)則,故構(gòu)造精度高的學(xué)習(xí)機(jī)很難;而集成學(xué)習(xí)的思想大大改變了以往研究的思路。
集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,對(duì)于分類問(wèn)題其主要思想是:使用一些分類效率只需略高于隨機(jī)猜測(cè)的弱分類學(xué)習(xí)算法,學(xué)習(xí)生成多個(gè)不同的基分類學(xué)習(xí)機(jī),然后將多個(gè)基分類學(xué)習(xí)機(jī)組合成強(qiáng)分類學(xué)習(xí)機(jī)[8],這個(gè)新形成的分類學(xué)習(xí)機(jī)具有較強(qiáng)的泛化能力。
從Schapire R E[9]證明一個(gè)強(qiáng)分類學(xué)習(xí)機(jī)可以被多個(gè)弱分類學(xué)習(xí)機(jī)通過(guò)某些方法得到開(kāi)始,Boosting算法便得以出現(xiàn)。此后,F(xiàn)reund Y[10]提出了一種更有效的Boost-by-majority算法。但是,這兩種算法在解決實(shí)際問(wèn)題時(shí)就會(huì)有許多問(wèn)題產(chǎn)生。在使用弱分類學(xué)習(xí)算法前,必須先知道其最差正確率。1997年,Schapire R E和Freund Y[11]提出的AdaBoost算法解決了這一問(wèn)題,且其算法效率與Boosting-by-majority相當(dāng),而且極易應(yīng)用于實(shí)際問(wèn)題中。之后,又提出了可以控制投票機(jī)制的AdaBoost.M1、AdaBoost.M2和AdaBoost.R算法。
雖然AdaBoost方法自適應(yīng)能力強(qiáng)且實(shí)現(xiàn)簡(jiǎn)單,可以提高任意一種弱分類器的分類精度,但卻特別容易受到噪聲數(shù)據(jù)的影響[12]。這是由于AdaBoost算法強(qiáng)調(diào)分類錯(cuò)誤的數(shù)據(jù)更為重要,所以在每次訓(xùn)練結(jié)束后會(huì)對(duì)訓(xùn)練錯(cuò)誤的數(shù)據(jù)賦予更大的權(quán)重。這種現(xiàn)象在迭代多次后更為明顯,因此導(dǎo)致最終的集成分類器效果下降。所以,為了保證和提高算法效果,本文在使用AdaBoost算法訓(xùn)練時(shí)對(duì)數(shù)據(jù)權(quán)重的賦值加入了一個(gè)參數(shù)進(jìn)行調(diào)節(jié)。
AdaBoost-SVM集成算法的主要思想是:選用SVM作為基分類器,再用AdaBoost算法進(jìn)行迭代生成T個(gè)子SVM分類器,在迭代的過(guò)程中為保證每次生成的子SVM分類器之間的差異性,對(duì)每個(gè)子分類器輸入大小相同但內(nèi)容包含前面分類器給出的錯(cuò)分樣本的子訓(xùn)練集。這樣使得算法更關(guān)注錯(cuò)分樣本,并不像AdaBoost算法使用的是原始訓(xùn)練數(shù)據(jù)集。最后將這些子SVM分類器按照加權(quán)投票的方法組合生成最終的集成分類器。
本文中的AdaBoost-SVM算法描述為:
輸入:訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)},其中xi∈Rn,yi={1,-1},迭代次數(shù)T,基分類算法SVM。
輸出:用于韻律短語(yǔ)識(shí)別的集成分類器H(x)。
初始化訓(xùn)練集樣本權(quán)重φ1(xi)=1/N,i=1,2,…,N;迭代次數(shù)t=1。
Fort=1,…,T:
②在得到的訓(xùn)練集Lt上利用SVM分類算法訓(xùn)練生成一個(gè)基分類器ht:x→{-1,1},并計(jì)算分類器在整個(gè)訓(xùn)練集L上的分類誤差:
⑤更新樣本權(quán)重:
其中,Zt為歸一化因子,β表示權(quán)重。
EndFor
輸出最終集成分類器:
3語(yǔ)塊結(jié)構(gòu)及其處理
語(yǔ)塊是指介于詞匯和句子之間的模式化的短語(yǔ)。語(yǔ)塊的識(shí)別和分析屬于淺層句法分析的范疇。目前中文語(yǔ)塊的定義主要有兩大類:一類是從進(jìn)行了句法標(biāo)記的句法樹庫(kù)中直接抽取出句法樹的非終結(jié)點(diǎn)作為語(yǔ)塊[12,13],另一類是根據(jù)具體的中文語(yǔ)法現(xiàn)象對(duì)句子進(jìn)行分析,構(gòu)造出具有獨(dú)立性和完整性的語(yǔ)塊定義[14]。
本文建立的語(yǔ)塊屬于第二類,共分八種類型,分別是:名詞語(yǔ)塊(NC)、動(dòng)詞語(yǔ)塊(VC)、形容詞語(yǔ)塊(JC)、副詞語(yǔ)塊(AC)、介詞語(yǔ)塊(PC)、連詞語(yǔ)塊(CC)、數(shù)量詞語(yǔ)塊(QC)和方位語(yǔ)塊(LC)。它們具備兩個(gè)特征:一是語(yǔ)塊之間無(wú)重疊,句子中的任一詞都只能屬于一個(gè)語(yǔ)塊,且語(yǔ)塊之間無(wú)嵌套,若有歧義則按照最長(zhǎng)匹配的原則進(jìn)行劃分[10];二是句子中的每個(gè)詞都必須進(jìn)行語(yǔ)塊標(biāo)注,且語(yǔ)塊內(nèi)部不再進(jìn)行細(xì)分。
初始語(yǔ)塊的標(biāo)注方法為:首先根據(jù)漢語(yǔ)的句法特征總結(jié)歸納出各類語(yǔ)塊的具體特征,如:助詞“的”往往依附于其前面的成分,數(shù)詞和量詞往往是一個(gè)整體等;然后利用正則文法,設(shè)置不同的子文法限制,各子文法結(jié)合有限狀態(tài)自動(dòng)機(jī)嵌套遞歸對(duì)文本中的句子進(jìn)行正則匹配,從而完成初始語(yǔ)塊的標(biāo)注。
例如,經(jīng)過(guò)分詞和詞性標(biāo)注的句子為:
我們/r 從/p 實(shí)際/n 出發(fā)/v,大力/d 種植/v 石榴/n,摸索/v 出/v 了/u 一/m 條/q 治理/v 水土/n和/c 治窮/v 致富/v 相/d 結(jié)合/v 的/u 成功/a 之/u 路/n
上述例句的初始語(yǔ)塊標(biāo)注結(jié)果為:
【NC 我們/r】【PC 從/p】【NC 實(shí)際/n】【VC 出發(fā)/v】,【AC 大力/d】【VC 種植/v】【NC 石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v】【NC 水土/n】【CC 和/c】【VC 治窮/v】【VC 致富/v】【AC 相/d】【VC 結(jié)合/v的/u】【JC 成功/a之/u】【NC 路/n】其中,位于每個(gè)“【】”之間的部分就是語(yǔ)塊。
將各類語(yǔ)塊間的結(jié)合緊密度定義為:
(1) VC+NC→VC;
(2) JC+NC/VC→JC;
(3) QC+NC/JC→QC;
(4) CC+NC/VC/JC →CC;
(5) xC+LC→LC,xC表示任意語(yǔ)塊類型;
(6) PC+yC→PC,yC表示除介詞語(yǔ)塊PC外的其余任意語(yǔ)塊類型;
(7) AC+zC→AC,zC表示除連詞語(yǔ)塊CC外的其余任意語(yǔ)塊類型;
(8) mC+xC →mC,mC為以“的”結(jié)尾的任意語(yǔ)塊類型。
例如,3.2.1節(jié)中例句經(jīng)過(guò)初始語(yǔ)塊歸并后的結(jié)果為:
【NC 我們/r】【PC 從/p實(shí)際/n】【VC 出發(fā)/v】,【AC 大力/d種植/v】【石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v水土/n】【CC 和/c治窮/v】【VC 致富/v】【AC 相/d結(jié)合/v的/u】【JC 成功/a之/u路/n】
在初始句子中,共有22個(gè)詞間邊界,它們都是潛在的韻律短語(yǔ)邊界;經(jīng)過(guò)語(yǔ)塊標(biāo)注和歸并后,最終待預(yù)測(cè)的邊界縮減至12個(gè),共有10個(gè)結(jié)合緊密的詞間邊界被首先剔除。
4利用AdaBoost-SVM和語(yǔ)塊信息的韻律短語(yǔ)識(shí)別
考慮到SVM具有良好的泛化能力,且本文使用SVM主要用于AdaBoost算法的基分類算法,也就是說(shuō),只要SVM分類效果好于隨機(jī)猜測(cè)的結(jié)果就行,所以基分類器選取的特征為:當(dāng)前語(yǔ)塊內(nèi)容c、當(dāng)前語(yǔ)塊的類型t、當(dāng)前語(yǔ)塊所含詞的個(gè)數(shù)wlen和當(dāng)前語(yǔ)塊所含字的個(gè)數(shù)clen。特征向量表示為:
另外,為了進(jìn)行對(duì)比實(shí)驗(yàn),本文也實(shí)現(xiàn)了不利用語(yǔ)塊信息的分離器,選用的特征為:當(dāng)前詞的內(nèi)容w、當(dāng)前詞的詞性p和當(dāng)前詞的長(zhǎng)度l。特征向量表示為:
使用LibSVM工具包作為SVM分類器進(jìn)行實(shí)驗(yàn),由于SVM只能處理數(shù)值型的特征數(shù)據(jù),而本文采用的特征:語(yǔ)塊內(nèi)容、語(yǔ)塊類型、詞、詞性均為文本型數(shù)據(jù),所以本文首先采用構(gòu)建詞袋和詞性袋等方法,對(duì)數(shù)據(jù)集中的文本數(shù)據(jù)進(jìn)行數(shù)值化處理,使其適用于SVM分類器的數(shù)據(jù)處理過(guò)程。
在利用2.2節(jié)中描述的算法進(jìn)行韻律短語(yǔ)識(shí)別時(shí),令yi=1表示當(dāng)前邊界是韻律短語(yǔ)邊界,yi=-1表示當(dāng)前邊界不是韻律短語(yǔ)邊界;在利用語(yǔ)塊信息時(shí),xi表示不同類型的語(yǔ)塊;不使用語(yǔ)塊信息時(shí),xi則表示語(yǔ)法詞。
為了使算法更精確,引入?yún)?shù)β來(lái)降低被正確分類個(gè)體上賦予權(quán)重減少的量,或被錯(cuò)誤分類個(gè)體上賦予權(quán)重增加的量。β的值不宜過(guò)大,隨著β的增大算法的誤差有上升趨勢(shì)[16],所以本文將β設(shè)定為5。
(6) 上層時(shí)鐘源為2套設(shè)備,采用Windows time的SNTP協(xié)議,下一層采用NTP協(xié)議Meinberg工具,此時(shí)會(huì)出現(xiàn)下層時(shí)鐘不能同步上層時(shí)鐘源。因?yàn)樯蠈?個(gè)時(shí)鐘源采用的SNTP協(xié)議,時(shí)鐘精度僅能保持在秒級(jí),很容易相差50 ms,當(dāng)2個(gè)時(shí)鐘源相差50 ms,下一層時(shí)鐘源采用NTP協(xié)議,將會(huì)停止向上一層時(shí)鐘源同步。
使用AdaBoost算法每生成一個(gè)子SVM分類器,該分類器就會(huì)在整個(gè)訓(xùn)練集上測(cè)試其分類效果,根據(jù)測(cè)試結(jié)果更新訓(xùn)練集上樣本的權(quán)重,若錯(cuò)分則增加權(quán)重,若分類正確則降低權(quán)重,并由分類結(jié)果計(jì)算出每個(gè)分類器的權(quán)重αt。若分類錯(cuò)誤的樣本較多,說(shuō)明分類器的分類效果不好,αt的值較小;若分類錯(cuò)誤的樣本較少,則說(shuō)明分類器的分類效果好,αt的值較大。為了保證AdaBoost做種生成的集成分類器的效果,往往更多地集成比較好的分類算法,所以以αt作為各個(gè)基分類器ht的權(quán)重。
在進(jìn)行韻律短語(yǔ)邊界預(yù)測(cè)時(shí),對(duì)于一個(gè)測(cè)試語(yǔ)料集L,輸入未標(biāo)注韻律結(jié)構(gòu)的句子s訓(xùn)練過(guò)程中生成的T個(gè)子SVM分類器ht,會(huì)生成T個(gè)韻律短語(yǔ)標(biāo)注結(jié)果。若ht(x)=yi(i=1,…,N),代表第t個(gè)子SVM分類器分類正確,則對(duì)子SVM分類器ht投一票。最后,根據(jù)投票結(jié)果,將得票最多的分類作為AdaBoost-SVM對(duì)輸入句子s的集成分類結(jié)果。
5實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)語(yǔ)料是來(lái)源于1998年《人民日?qǐng)?bào)》的3 200個(gè)句子,經(jīng)過(guò)分詞、詞性標(biāo)注以及人工韻律結(jié)構(gòu)標(biāo)注,平均每句含有34.61個(gè)詞,10.36個(gè)韻律短語(yǔ)。隨機(jī)抽取2 800句作為訓(xùn)練集,400句用于開(kāi)放測(cè)試。
基于不同加工粒度的實(shí)驗(yàn)語(yǔ)料,即顆粒大小為“詞”的詞標(biāo)注語(yǔ)料和以“語(yǔ)塊”為單位的語(yǔ)塊標(biāo)注語(yǔ)料,分別統(tǒng)計(jì)和計(jì)算自然邊界(詞邊界或語(yǔ)塊邊界)與韻律短語(yǔ)邊界的對(duì)應(yīng)關(guān)系,得到結(jié)果如表1所示。
Table 1 Word/block boundary and prosodic phrase boundary
從表1可以看出:一方面,實(shí)驗(yàn)語(yǔ)料經(jīng)過(guò)分詞后,韻律邊界僅占所有詞邊界的19.55%;而進(jìn)行語(yǔ)塊標(biāo)注和歸并后,由于大量詞邊界被包含到語(yǔ)塊內(nèi)部自然剔除,韻律邊界所占比例大幅提高到54.69%,語(yǔ)塊的引入剔除了大量的噪聲邊界,帶來(lái)了積極的影響。另一方面,語(yǔ)塊也會(huì)帶來(lái)一些負(fù)面影響,有4.23%的韻律短語(yǔ)邊界會(huì)因被歸并在語(yǔ)塊內(nèi)部而丟失,這類情況大多是多個(gè)名詞或多個(gè)動(dòng)詞同時(shí)出現(xiàn)導(dǎo)致的,可利用如長(zhǎng)度約束機(jī)制等來(lái)解決。
在生成AdaBoost-SVM的過(guò)程中,本文將子訓(xùn)練集大小設(shè)定為N*3/4(N為總訓(xùn)練集的大小)并進(jìn)行迭代,直到達(dá)到訓(xùn)練次數(shù)或分類誤差εt>0.5為止。不同分類器個(gè)數(shù)下AdaBoost-SVM的韻律短語(yǔ)識(shí)別結(jié)果如表2所示。
Table 2 Comparison of recognition results
從表2中可以看出,隨著分類器個(gè)數(shù)的增加,AdaBoost-SVM的分類效果也越來(lái)越好?;诸惼鱾€(gè)數(shù)為5時(shí)韻律短語(yǔ)識(shí)別的F值為70.24%;當(dāng)基分類器數(shù)增加到40個(gè)時(shí),其F值提高到88.56%,提升了18.32%。但是,基分類器個(gè)數(shù)的增加也會(huì)增加時(shí)間開(kāi)銷,導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng)。
基于詞標(biāo)注和語(yǔ)塊標(biāo)注兩類語(yǔ)料,分別采用CRFs、SVM、AdaBoost-SVM方法構(gòu)建實(shí)現(xiàn)了六個(gè)相應(yīng)的韻律短語(yǔ)識(shí)別模型。各個(gè)模型的實(shí)驗(yàn)結(jié)果對(duì)比情況如表3所示。
Table 3 Comparison of experimental results of different models
利用語(yǔ)塊前后CRFs、SVM、Adaboost-SVM這三類模型韻律短語(yǔ)識(shí)別F值的比較如圖1所示,同樣利用語(yǔ)塊時(shí)SVM算法與Adaboost-SVM算法的性能比較如圖2所示。
Figure 1 F-value comparison of 3 models before and after the use of chunks圖1 利用語(yǔ)塊前后三類模型F值的比較
Figure 2 Performance comparison between the SVM and the Adaboost-SVM圖2 SVM算法與Adaboost-SVM算法性能比較
從以上圖表中可以看出:(1)對(duì)于上述三種方法,引入并利用語(yǔ)塊信息之后,模型的總體性能都得到了明顯的提升,CRFs模型韻律短語(yǔ)識(shí)別F值提高了9.41%,SVM方法提高了8.35%,AdaBoost-SVM方法提高了11.87%;(2)利用語(yǔ)塊信息的模型,韻律短語(yǔ)識(shí)別的正確率都大大提高,這是通過(guò)語(yǔ)塊標(biāo)注將大量的噪聲邊界自然剔除的結(jié)果;(3)同樣基于語(yǔ)塊結(jié)構(gòu),與SVM方法相比,Adaboost-SVM集成算法獲得了更好的效果,召回率、正確率都得到了大幅的提高,其F值提高了約18%。
綜上所述,反映淺層句法信息的語(yǔ)塊結(jié)構(gòu)能夠被應(yīng)用于漢語(yǔ)韻律結(jié)構(gòu)的分析,并做出積極有效的貢獻(xiàn);而且,集成學(xué)習(xí)方法的識(shí)別效果高于其他強(qiáng)分類器的識(shí)別效果。通過(guò)語(yǔ)塊結(jié)構(gòu)的標(biāo)注和歸并,實(shí)現(xiàn)了對(duì)語(yǔ)料中結(jié)合緊密語(yǔ)法詞的整合,從而準(zhǔn)確縮小了待識(shí)別邊界的范圍。另外,由于語(yǔ)塊的粒度較大,選用語(yǔ)塊特征相當(dāng)于縮小了訓(xùn)練空間上的大小,模型訓(xùn)練的時(shí)間開(kāi)銷也會(huì)明顯縮減,尤其在使用集成學(xué)習(xí)算法時(shí),表現(xiàn)更為明顯。
6結(jié)束語(yǔ)
正確劃分句子的韻律結(jié)構(gòu)對(duì)于提高機(jī)器合成語(yǔ)音的自然度具有重要的意義和作用。本文基于語(yǔ)塊結(jié)構(gòu)并利用AdaBoost-SVM算法實(shí)現(xiàn)了一個(gè)漢語(yǔ)韻律短語(yǔ)識(shí)別模型。首先,對(duì)語(yǔ)料進(jìn)行自動(dòng)分詞、詞性標(biāo)注、初語(yǔ)塊標(biāo)注和歸并處理,建立以“語(yǔ)塊”為單位的語(yǔ)料。然后,基于上述語(yǔ)塊標(biāo)注語(yǔ)料并利用AdaBoost-SVM集成算法訓(xùn)練生成最終的分類器用于漢語(yǔ)韻律短語(yǔ)的識(shí)別。本文利用CRFs、SVM、AdaBoost-SVM共三種算法分別構(gòu)建了利用語(yǔ)塊信息和不利用語(yǔ)塊的六個(gè)韻律短語(yǔ)識(shí)別模型,并將測(cè)試結(jié)果進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,不論是上述哪種方法,引入并利用語(yǔ)塊信息之后,其韻律短語(yǔ)識(shí)別效果都能得到明顯的提升,反映淺層句法信息的語(yǔ)塊能夠做出積極有效的貢獻(xiàn)。同時(shí),利用AdaBoos-SVM集成算法實(shí)現(xiàn)的模型性能更佳,其韻律短語(yǔ)識(shí)別的F值為88.56%,比SVM模型提高了18%左右。
由于集成學(xué)習(xí)算法只要求基分類器的效果大于隨機(jī)猜測(cè)的即可,故本文中SVM算法選用的特征僅限于當(dāng)前詞的內(nèi)容、詞性和長(zhǎng)度,沒(méi)有考慮和利用上下文語(yǔ)境信息。而且,在利用LibSVM對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),耗時(shí)較長(zhǎng),導(dǎo)致AdaBoost-SVM算法的時(shí)間復(fù)雜性仍然較高。另外,利用正則匹配的方法進(jìn)行語(yǔ)塊的識(shí)別,不可避免地會(huì)使部分韻律短語(yǔ)邊界包含在語(yǔ)塊結(jié)構(gòu)的內(nèi)部。今后的研究中會(huì)針對(duì)以上問(wèn)題進(jìn)行深入的研究與改進(jìn)。
參考文獻(xiàn):附中文
[1]Cao Jian-fen.Prediction of prosodic organization based on grammatical information[J].Journal of Chinese Information Processing, 2003,17(3):41-46.(in Chinese)
[2]Xun En-dong,Qian Yi-li,Guo Qing, et al.Using binary tree as pruning strategy to identify prosodic phrase breaks[J].Journal of Chinese Information Processing, 2006,20(3):1-5.(in Chinese)
[3]Qian Yi-li,Xun En-dong.Prediction o f speech pauses based on punctuation information and statistical language model[J].Pattern Recognition and Artificial Intelligence, 2008,21(4):541-545.(in Chinese)
[4]Taylor P,Black A W.Assigning phrase breaks from part-of-speech sequences[J].Computer Speech & Language,1998,12(2):99-117.
[5]Li Jian-feng,Hu Guo-ping,Wang Ren-hua.Prosody phrase break prediction based on maximum entropy model[J].Journal of Chinese Information Processing, 2004,18(5):56-63.(in Chinese)
[6]Wang Yong-xin,Cai Lian-hong.Syntactic information and analysis and prediction of prosody structure[J].Journal of Chinese Information Processing, 2010,24 (1):65-70.(in Chinese)
[7]Cao Jian-fen.The linguistic and phonetic clues in Chinese prosodic segmentation[C]∥Proc of the 5th National Conference on Modern Phonetics(PCC’2001),2001,:176-179.(in Chinese)
[8]Li Xiang.Application and research of Boosting classification algorithm[D].Lanzhou:Lanzhou Jiaotong University,2012.(in Chinese)
[9]Schapire R E.The strength of weak learnability[J].Machine Learning,1990,52:197-227.
[10]Freund Y.Boosting a weak learning algorithm by majority[J].Information and Computation,1995,121(2):256-285.
[11]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139.
[12]Zhou Qiang,Zhan Wei-dong,Ren Hai-bo.Building a large scale Chinese functional chunk bank [C]∥Proc of the 6th National Conference on Computational Linguistics (JSCL’2001),2001:102-107.(in Chinese)
[13]Zhou Qiang,Li Yu-mei.Chinese chunk parsing evaluation tasks[J].Journal of Chinese Information Processing, 2010,24(1):123-128.(in Chinese)
[14]Li Su-jian,Liu Qun.Research on definition and acquisition of chunk[C]∥Proc of the 7th National Conference on Computational Linguistics (JSCL’2003),2003:110-115.(in Chinese)
[15]Qian Yi-li,Feng Zhi-ru.Identification of Chinese prosodic phrase based on chunk and CRF[J].Journal of Chinese Information Processing, 2014,28(5):32-38.(in Chinese)
[16]Zhang Chun-xia.Research on the algorithm of ensemble learning[D].Xi’an:Xi’an Jiaotong University,2010.(in Chinese)
[1]曹劍芬.基于語(yǔ)法信息的漢語(yǔ)韻律結(jié)構(gòu)預(yù)測(cè)[J].中文信息學(xué)報(bào),2003,17(3):41-46.
[2]荀恩東,錢揖麗,郭慶,等.應(yīng)用二叉樹剪枝識(shí)別韻律短語(yǔ)邊界[J].中文信息學(xué)報(bào),2006,20(3):1-5.
[3]錢揖麗,荀恩東.基于標(biāo)點(diǎn)信息和統(tǒng)計(jì)語(yǔ)言模型的語(yǔ)音停頓預(yù)測(cè)[J].模式識(shí)別與人工智能,2008,21(4):541-545.
[5]李劍鋒,胡國(guó)平,王仁華.基于最大熵模型的韻律短語(yǔ)邊界預(yù)測(cè)[J].中文信息學(xué)報(bào),2004,18(5):56-63.
[6]王永鑫,蔡蓮紅.語(yǔ)法信息與韻律結(jié)構(gòu)的分析與預(yù)測(cè)[J].中文信息學(xué)報(bào),2010,24 (1):65-70.
[7]曹劍芬.漢語(yǔ)韻律切分的語(yǔ)音學(xué)和語(yǔ)言學(xué)線索[C]∥新世紀(jì)的現(xiàn)代語(yǔ)音學(xué)—第五屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議,2001:176-179.
[8]李想.Boosting分類算法的應(yīng)用與研究[D].蘭州:蘭州交通大學(xué),2012.
[12]周強(qiáng),李玉梅.漢語(yǔ)塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24 (1):123-128.
[13]周強(qiáng),詹衛(wèi)東,任海波.構(gòu)建大規(guī)模的漢語(yǔ)語(yǔ)塊庫(kù)[C]∥自然
語(yǔ)言理解與機(jī)器翻譯—全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議,2001:102-107.
[14]李素建,劉群.漢語(yǔ)組塊的定義和獲取[C]∥語(yǔ)言計(jì)算與基于內(nèi)容的文本處理—全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議,2003:110-115.
[15]錢揖麗,馮志茹.基于語(yǔ)塊和條件隨機(jī)場(chǎng)(CRFs)的韻律短語(yǔ)識(shí)別[J].中文信息學(xué)報(bào),2014,28(5):32-38.
[16]張春霞.集成學(xué)習(xí)中有關(guān)算法的研究[D].西安:西安交通大學(xué),2010.
錢揖麗(1977-),女,山西平遙人,博士,副教授,CCF會(huì)員(E200022706M),研究方向?yàn)樽匀徽Z(yǔ)言處理。E-mail:qyl@sxu.edu.cn
QIAN Yi-li,born in 1977,PhD,associate professor,CCF member(E200022706M),her research interest includes natural language processing.
馮志茹(1988-),女,山西代縣人,碩士,研究方向?yàn)樽匀徽Z(yǔ)言處理。E-mail:fengzhiru0321@126.com
FENG Zhi-ru,born in 1988,MS,her research interest includes natural language processing.
Recognition of Chinese prosodic phrasesbased on AdaBoost-SVM algorithm and chunk information
QIAN Yi-li1,2,FENG Zhi-ru1
(1.School of Computer & Information Technology,Shanxi University,Taiyuan 030006;
2.Key Laboratory of Computational Intelligence and
Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China)
Abstract:We propose a recognition method for Chinese prosodic phrases based on Chunk and the AdaBoost-SVM algorithm. Firstly, the initial chunks are marked on the corpus of automatic word segmentation and the part of speech tagging, and then they are merged using the rules based on the closeness between initial Chunks. Secondly, based on the block structure and the AdaBoost-SVM integrated algorithm, a Chinese prosodic phrase recognition model is constructed. Meanwhile we utilize various algorithms to build different models which use or not use Chunk information. Comparative experimental results show that the shallow syntactic information chunks make a positive and effective contribution to Chinese prosodic phrase recognition, and the performance of the AdaBoost-SVM model is better.
Key words:Chinese chunk;AdaBoost-SVM;prosodic phrase;recognition
作者簡(jiǎn)介:
doi:10.3969/j.issn.1007-130X.2015.12.020
中圖分類號(hào):TP391.43
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61175067);國(guó)家自然科學(xué)青年基金資助項(xiàng)目(61005053,61100138);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2015091001-0102);山西省青年科技研究基金資助項(xiàng)目(2012021012-1);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-022)
收稿日期:修回日期:2015-10-19
文章編號(hào):1007-130X(2015)12-2324-07