錢(qián)小飛,侯 敏
(1.上海大學(xué) 文學(xué)院,上海200444;2.中國(guó)傳媒大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言分中心,北京100024)
最長(zhǎng)名詞短語(yǔ)(Maximal Noun Phrase,MNP)是句子中不被其他名詞短語(yǔ)包含的名詞短語(yǔ),是一種內(nèi)部構(gòu)造復(fù)雜的長(zhǎng)距離依賴結(jié)構(gòu),平均占據(jù)句子長(zhǎng)度的60%以上。識(shí)別MNP可以為完全句法分析、機(jī)器翻譯、指代消解等基礎(chǔ)研究和應(yīng)用技術(shù)提供有力的支持。
MNP識(shí)別有三種基本方法:基于規(guī)則的方法[1]、基于統(tǒng)計(jì)的方法[2]和基于機(jī)器學(xué)習(xí)的方法[3]。其中,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法是當(dāng)前的主流方法。從識(shí)別策略看,2-phase策略[4]的和分類器集成的方法[5]取得了較好效果。以往研究關(guān)注算法改進(jìn),對(duì)MNP的語(yǔ)言學(xué)特性關(guān)注不夠,使得識(shí)別系統(tǒng)過(guò)于依賴線性特征,復(fù)雜MNP和簡(jiǎn)單MNP識(shí)別F1值往往相差13%~22%[5-6];從識(shí)別策略看,兩階段(2-phase)的策略以較高訓(xùn)練代價(jià)提高識(shí)別精度,但也引入了級(jí)聯(lián)錯(cuò)誤[7];而分類器集成方法多基于經(jīng)驗(yàn)或數(shù)學(xué)手段獲取基本分類器權(quán)重,系統(tǒng)復(fù)雜性因此大大提高,變得更加難以解釋,分類對(duì)象的特點(diǎn)也很難得到充分的考慮。
針對(duì)以上問(wèn)題,本文提出一種基于語(yǔ)言知識(shí)評(píng)價(jià)的分類器集成方法,融合非歸約和歸約的MNP識(shí)別結(jié)果,并基于確定性規(guī)則識(shí)別易出錯(cuò)的特殊結(jié)構(gòu),提高了MNP識(shí)別效果。
集成系統(tǒng)做出一個(gè)分類判斷,并不一定以對(duì)象本身的運(yùn)作規(guī)律為依據(jù),我們難以知道,數(shù)學(xué)上的分類判斷與識(shí)別對(duì)象本身的特點(diǎn)存在哪些必然聯(lián)系。特別是當(dāng)多數(shù)或全部基本分類器都做出錯(cuò)誤分類時(shí),沒(méi)有機(jī)制能夠提醒目標(biāo)分類器,基本分類器作出了錯(cuò)誤選擇。
MNP是一種復(fù)雜結(jié)構(gòu)類型,涉及諸多歧義結(jié)構(gòu)問(wèn)題。我們想針對(duì)分類器容易出錯(cuò)的具體類型,特別是一些典型歧義結(jié)構(gòu),利用更多的語(yǔ)言資源進(jìn)行評(píng)價(jià),得到一個(gè)基于語(yǔ)言知識(shí)評(píng)價(jià)的集成系統(tǒng)(圖1)。
圖1 基于語(yǔ)言知識(shí)評(píng)價(jià)的集成系統(tǒng)
盡管仍然要在基本分類器的分類結(jié)果之間做出選擇,但不確定性已大大降低,我們有更確切的語(yǔ)言學(xué)證據(jù)說(shuō)明,某些分類可能存在錯(cuò)誤,應(yīng)該如何進(jìn)行選擇,并且,在多數(shù)或全部基本分類器都發(fā)生錯(cuò)誤的情況下,基于規(guī)則針對(duì)基本分類器的共同錯(cuò)誤類型進(jìn)行評(píng)價(jià),仍然有可能取得正確的分類結(jié)果。
基于語(yǔ)言知識(shí)評(píng)價(jià)的集成方法把研究重點(diǎn)放到語(yǔ)言知識(shí)獲取和評(píng)價(jià)規(guī)則設(shè)計(jì)上,有針對(duì)性解決難點(diǎn)問(wèn)題,系統(tǒng)也具備了更好的可解釋性;當(dāng)然,語(yǔ)言知識(shí)和評(píng)價(jià)規(guī)則的分辨能力及覆蓋率直接影響系統(tǒng)性能,因此,該方法與基于分類數(shù)據(jù)的評(píng)價(jià)方法各有優(yōu)勢(shì)。
具體來(lái)說(shuō),需要重點(diǎn)解決三個(gè)方面的問(wèn)題:(1)如何獲取語(yǔ)言知識(shí),本文主要采用搭配知識(shí);(2)如何設(shè)計(jì)評(píng)價(jià)規(guī)則;(3)如何基于語(yǔ)言知識(shí)進(jìn)行評(píng)價(jià)。
2.1.1 搭配類型
詞語(yǔ)搭配對(duì)識(shí)別復(fù)雜MNP非常有效,但由于詞形數(shù)據(jù)稀疏和長(zhǎng)距離依賴,在ML模型中難以充分利用。我們希望借助第三方資源,在分類器集成過(guò)程中發(fā)揮詞語(yǔ)搭配的作用。針對(duì)MNP識(shí)別問(wèn)題,選取動(dòng)名搭配、介詞搭配兩種類型,五種搭配關(guān)系作為消歧資源,如表1所示。
動(dòng)名搭配收錄兩種搭配關(guān)系:(1)動(dòng)賓關(guān)系。確定動(dòng)詞賓語(yǔ)位置上MNP左邊界。(2)定中關(guān)系。判定直接作定語(yǔ)的動(dòng)詞或狀動(dòng)結(jié)構(gòu),甄別錯(cuò)誤的MNP左邊界。
介詞搭配收錄三種搭配關(guān)系:(1)介賓搭配。判別介詞賓語(yǔ)位置上MNP左邊界。(2)介詞框架。(3)介動(dòng)搭配。后兩者限定MNP范圍,不可跨越介詞搭配或介動(dòng)搭配。
表1 動(dòng)名搭配示例
2.1.2 搭配獲取
采用2004年《北京青年報(bào)》為語(yǔ)料,調(diào)用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS2009接口進(jìn)行分詞和詞類標(biāo)注,分類獲取搭配。
(一)介詞搭配獲取
采用互信息方法獲取關(guān)系較緊密的搭配實(shí)例和數(shù)據(jù),并進(jìn)行人工甄別。如果搭配統(tǒng)一表示為<preItem,postItem>,候選介詞搭配自動(dòng)獲取方法如下:
(1)掃描文本,計(jì)算詞頻f(wi),語(yǔ)料總詞數(shù)wordCount
(2)反向掃描文本
(a)如找到滿足詞類約束的postItem,在小句范圍內(nèi)向前尋找preItem,否則返回(2)
(b)如找到preItem,計(jì)數(shù)搭配頻率f(preItem,postItem)
(3)對(duì)每一組搭配<preItem,postItem>
(a)計(jì)算詞語(yǔ)出現(xiàn)概率P(preItem),P(postItem),搭配概率P(preItem,postItem)
(b)計(jì)算互信息 MI(preItem,postItem)
(c)如果 MI(preItem,postItem)>α,輸出搭配對(duì)
(二)動(dòng)詞搭配獲取
采用互信息和規(guī)則相結(jié)合的方法獲取。為了盡可能獲得長(zhǎng)距離搭配,針對(duì)名詞短語(yǔ)左遞歸的句法構(gòu)造特征,設(shè)計(jì)了一個(gè)加權(quán)互信息獲取模型(圖2)。
圖2 加權(quán)互信息搭配獲取方法示意圖
以“改善/v”為例,在小句范圍內(nèi)分兩步獲取搭配:(1)識(shí)別一級(jí)候選搭配詞“狀況/n”,“依據(jù)/n”,初始化最近候選搭配詞“狀況/n”的頻次為1,右部一級(jí)候選搭配詞的頻次依次乘以加權(quán)因子f1,“依據(jù)”的權(quán)值為f1;(2)以各一級(jí)候選搭配詞為起點(diǎn),反向掃描獲取二級(jí)候選搭配詞“科學(xué)/n”和“營(yíng)養(yǎng)/n”,頻次依次乘以加權(quán)因子f2,分別為f2和f1*f2。第(1)步如遇到結(jié)構(gòu)助詞“的”,重新以1為基礎(chǔ)頻次進(jìn)行加權(quán)。
基于互信息的方法適用于高頻實(shí)例,規(guī)則方法能獲取稀疏搭配。搭配獲取過(guò)程采用標(biāo)注方式進(jìn)行,保證句中搭配不被多條規(guī)則重復(fù)獲取數(shù)據(jù),分為兩步:首先,標(biāo)注動(dòng)詞邊界有效性,識(shí)別“n|vN|aN+連詞|語(yǔ)氣詞|標(biāo)點(diǎn)|”等形式中的名詞為中心名詞N。其次,基于十條規(guī)則識(shí)別動(dòng)賓搭配,推理定中搭配。動(dòng)賓搭配規(guī)則包括:
(1)對(duì)“v+ 了|著|過(guò) +x+ [的 +x1]+N”,如果x中不存在“的/u”、動(dòng)詞、介詞等中斷成分,識(shí)別“v N”為動(dòng)賓搭配;
(2)對(duì)“v v1N”結(jié)構(gòu),如果“v N”或“v1N”為動(dòng)賓搭配,搭配頻次加1;
(3)對(duì)“[vix]+的 N”結(jié)構(gòu),如果“viN”為動(dòng)賓搭配,搭配頻次加1;
(4)對(duì)“v x的N”結(jié)構(gòu),如果x中不存在中斷成分,識(shí)別“v N”為動(dòng)賓搭配;
(5)對(duì)“v x N”,如果x中不存在中斷成分,識(shí)別“v N”為動(dòng)賓搭配。
定中搭配規(guī)則在獲取動(dòng)賓搭配后調(diào)用,包括:
(1)對(duì)“v的 N”結(jié)構(gòu),識(shí)別“v N”為定中搭配;
(2)對(duì)“的 +v1N”,識(shí)別“v1N”為定中搭配;
(3)對(duì)“v v1N”結(jié)構(gòu),如果“v N”為動(dòng)賓搭配,識(shí)別“v1N”為定中搭配;
(4)對(duì)“v+x+ [的 ]+v1N”,如果“v N”為動(dòng)賓搭配,識(shí)別“v1N”為定中搭配;
(5)對(duì)“v x v1x n1的 N”結(jié)構(gòu),如果“v N”為動(dòng)賓搭配,識(shí)別“v1n1”為定中搭配。
基于規(guī)則獲取的動(dòng)賓搭配ruleVO,從基于統(tǒng)計(jì)獲取的搭配中取得互信息數(shù)據(jù)。為減少錯(cuò)誤搭配的干擾,采用ruleVO中互信息>5的搭配(16 827條)進(jìn)行實(shí)驗(yàn),不進(jìn)行任何人工干預(yù)。
評(píng)價(jià)規(guī)則分為兩種:詞匯搭配規(guī)則、結(jié)構(gòu)化規(guī)則。評(píng)價(jià)采用投票方式,分為得分和否決兩種投票機(jī)制,否決票以-β(β=10)的形式表達(dá)。下文word表示單詞,下標(biāo)f表示MNP首詞位置,下標(biāo)h表示MNP尾詞位置,Score(MNP)表示對(duì)MNP的評(píng)分。
2.2.1 詞匯搭配規(guī)則
由兩個(gè)部分組成:搭配信息和分值評(píng)價(jià);主要有兩個(gè)作用:評(píng)價(jià)當(dāng)前MNP的可靠性;劃分語(yǔ)塊,評(píng)價(jià)當(dāng)前MNP的合法性。
(1)邊界有效性規(guī)則
邊界有效性指動(dòng)詞或介詞在當(dāng)前語(yǔ)境下是否可以充當(dāng)MNP左邊界鄰接詞,包括兩種類型。靜態(tài)有效性由動(dòng)詞配價(jià)信息決定,如一價(jià)動(dòng)詞、能愿動(dòng)詞等一般不帶名詞性賓語(yǔ);動(dòng)態(tài)有效性由詞語(yǔ)在句中的位置決定,如重疊式的第一個(gè)動(dòng)詞不能充當(dāng)MNP左邊界。
適用環(huán)境:preItemMNP//合同/d作戰(zhàn)/v[理論/n]
評(píng)價(jià)規(guī)則:如果preItem是無(wú)效邊界,Score(MNP)=Score(MNP)-β
(2)框式搭配規(guī)則:介詞框架、介動(dòng)搭配等對(duì)應(yīng)的規(guī)則
適用環(huán)境A:preItemMNP postItem//在/p[結(jié)構(gòu)/n和/c性能/n]上/f
評(píng)價(jià)規(guī)則:如果preItem,postItem構(gòu)成框式搭配,Score(MNP)=Score(MNP)+1
適用 環(huán) 境 B:wordf...preItem...wordh...postItem 或 preItem...wordf...postItem...wordh//在/p[教師/n工作/n中/f存在/v的/u一些/m問(wèn)題/n]
評(píng)價(jià)規(guī)則:如果preItem,postItem構(gòu)成框式搭配,wordf...wordh構(gòu) 成 MNP,Score(MNP)=Score(MNP)-β
(3)交式搭配規(guī)則:動(dòng)賓搭配、介賓搭配等對(duì)應(yīng)的規(guī)則
適用環(huán)境 A:preItemwordf...postItemh//付出/v[全部/n心血/n]
評(píng)價(jià)規(guī)則:如果preItem,postItemh構(gòu)成交式搭配,wordf...postItemh構(gòu) 成 MNP,Score(MNP)=Score(MNP)+1
2.2.2 結(jié)構(gòu)化規(guī)則
通過(guò)考慮歧義結(jié)構(gòu)與MNP可能存在的位置關(guān)系,利用詞匯搭配規(guī)則對(duì)不同的位置關(guān)系進(jìn)行打分,優(yōu)選最可能的位置關(guān)系。
令head(phrase)表示短語(yǔ)phrase的中心詞;syn(word1,word2)表示word1和word2構(gòu)成搭配,關(guān)系為syn;以 MNP首詞位置為0,tag=tagi表示tag位于位置i,符號(hào)!表示否定。包括五組典型的結(jié)構(gòu)或邊界歧義模式,其中,bnp包含baseNP和單詞塊。
(1)p bnp De v.構(gòu)成名詞短語(yǔ),例如,對(duì)/p敵人/n的/u仇恨/v;或者“bnp De v”位于介詞框架內(nèi),如:在/p他/rN 的/u倡導(dǎo)/v下/f。評(píng)價(jià)規(guī)則如下:
當(dāng)p=p0,vo(v,head(bnp)),則Score(MNP)=Score(MNP)+1
當(dāng)p=p-1,vo(v,head(bnp)),則Score(MNP)=Score(MNP)-β
(2)v bnp1De bnp2.構(gòu)成名詞短語(yǔ),例如,沒(méi)有/v愛(ài)情/n的/u婚姻/n;或者作為動(dòng)賓結(jié)構(gòu),例如,揣摩/v對(duì)方/n的/u心理/n。評(píng)價(jià)規(guī)則如下:
當(dāng)v=v0,vo(v,head(bnp1)),則Score(MNP)=Score(MNP)+1
當(dāng)v=v-1,vo(v,head(bnp1)),則Score(MNP)=Score(MNP)-β
(3)v n1n2.構(gòu)成名詞短語(yǔ),例如,處理/v問(wèn)題/n能力/n;或者作為動(dòng)賓結(jié)構(gòu),例如,保護(hù)/v國(guó)家/n財(cái)產(chǎn)/n。評(píng)價(jià)規(guī)則如下:
當(dāng)v=v0,!dz(v,n1),vo(v,n2),則 Score(MNP)=Score(MNP)-β
當(dāng)v=v-1,dz(v,n1),!vo(v,n2),則 Score(MNP)=Score(MNP)-β
(4)v n.構(gòu)成名詞短語(yǔ),例如,作戰(zhàn)/v理論/n;或者動(dòng)賓結(jié)構(gòu),例如,度過(guò)/v難關(guān)/n。評(píng)價(jià)規(guī)則如下:
當(dāng)v=v0,!dz(v,n),vo(v,n),則 Score(MNP)=Score(MNP)-β
當(dāng)v=v-1,dz(v,n),!vo(v,n),則 Score(MNP)=Score(MNP)-β
(5)(v|p)+MNP.連續(xù)動(dòng)詞和介詞分布造成的邊界歧義,基于單一語(yǔ)料消歧,假設(shè)每個(gè)動(dòng)詞或介詞都可作為左鄰接詞候選,調(diào)用前四條規(guī)則依次評(píng)價(jià),取最優(yōu)評(píng)價(jià)結(jié)果。
分類器集成有利于發(fā)現(xiàn)識(shí)別錯(cuò)誤,但兩個(gè)基本分類器的相同錯(cuò)誤難以發(fā)現(xiàn)和糾正,通常的辦法是增加更多的基本分類器,不僅增加了系統(tǒng)復(fù)雜性,也缺少語(yǔ)言學(xué)依據(jù)。確定性規(guī)則針對(duì)易發(fā)生錯(cuò)誤的結(jié)構(gòu)類型,基于單個(gè)分類結(jié)果決斷邊界位置。主要處理以下六種情況。
(1)“的”字結(jié)構(gòu)。當(dāng)右邊界為“的/u”時(shí),向前尋找左鄰接特征詞“是、有、凡是、凡、像、如、為、特別是”等,如果找到,將左邊界調(diào)整至左鄰接特征詞之后。
(2)“者”字結(jié)構(gòu)。當(dāng)右邊界為“者/k”時(shí),向前尋找左鄰接特征詞“凡是、凡”等,如果找到,將左邊界調(diào)整至左鄰接特征詞之后。
(3)雙賓結(jié)構(gòu)。分類器常捆綁間接賓語(yǔ)和直接賓語(yǔ)。一些線性特征可作為重新劃分賓語(yǔ)的判別依據(jù),如出現(xiàn)雙賓動(dòng)詞vSB,間接賓語(yǔ)是人稱代詞或稱謂名詞等。利用雙賓動(dòng)詞詞典vSBDic,間接賓語(yǔ)中心詞詞典N(xiāo)1Dic,規(guī)則如下:
在 “vSB wordfwordf+1...wordiwordi+1wordi+2...wordh”序列中,如果wordi∈N1Dic,且wordi+1和wordi+2構(gòu)成數(shù)量結(jié)構(gòu)或指量結(jié)構(gòu),原序列調(diào)整為:vSB wordfwordf+1...wordhwordfwordi+1...wordh。
例如,“交給/vSB[我/rN 一/m 份/qN 材料/n]”,根據(jù)規(guī)則調(diào)整為,“交給/vSB[我/rN][一/m 份/qN 材料/n]”。
(4)主謂謂語(yǔ)句。分類器常捆綁大主語(yǔ)和小主語(yǔ),應(yīng)重新劃出大小主語(yǔ)。兩者的語(yǔ)義距離可作為判別主謂謂語(yǔ)句的依據(jù),距離大的相鄰名詞成分難以構(gòu)成定中結(jié)構(gòu):A.人及其部分(HmPart),如“我腿”;B.人及其心理(Mind),如“爸爸 心情”;C.實(shí)體與實(shí)體,如“今天 中國(guó)”。短語(yǔ)在句中的位置影響主謂謂語(yǔ)句的判定,當(dāng)“我 心情”位于句首主語(yǔ)位置時(shí),常為大小主語(yǔ)關(guān)系,而處在賓語(yǔ)位置時(shí),常作為名詞短語(yǔ)。
主謂謂語(yǔ)句規(guī)則處理前兩種情況,實(shí)體關(guān)系在相鄰實(shí)體模塊中處理。通過(guò)語(yǔ)義類別和語(yǔ)義關(guān)系判定語(yǔ)義距離,語(yǔ)義詞典semDic記錄詞語(yǔ)語(yǔ)義類別,如條目“我/rN Human”等,關(guān)系詞典relDic記錄詞語(yǔ)與詞語(yǔ)、詞語(yǔ)與語(yǔ)義類別的關(guān)系,如條目“@Human心情/n Mind”,“*/nP腿/n HmPrt”,其中@標(biāo)識(shí)語(yǔ)義類別。規(guī)則表述如下:
在句首或者小句首位置,wordfwordf+1...wordiwordi+1...wordh序列 中,如 果 wordi和wordh在3個(gè)詞的窗口內(nèi)滿足relDic中的語(yǔ)義關(guān)系,則原序列重新劃分為:wordfwordf+1...wordhwordf...wordh。
例如,“[群龍/nP眼珠/n]略微/dD一/d轉(zhuǎn)/v”,根據(jù)規(guī)則調(diào)整為,“[群龍/nP][眼珠/n]略微/dD一/d轉(zhuǎn)/v”。
(5)相鄰實(shí)體??梢孕纬啥喾N句法關(guān)系,如聯(lián)合關(guān)系、修飾關(guān)系,也可以不形成句法關(guān)系,如大小主語(yǔ),句子主語(yǔ)和狀語(yǔ)等。調(diào)整規(guī)則分為合并規(guī)則和劃分規(guī)則。
合并規(guī)則針對(duì)時(shí)間實(shí)體,如果基本分類器所識(shí)別的連續(xù)MNP中心詞均為時(shí)間詞,那么將連續(xù)的多個(gè)MNP合并為一個(gè)MNP。而劃分規(guī)則處理三種情況:
A.人名|地名+時(shí)間短語(yǔ)。如果wordf...wordiwordi+1...wordh序列不包含動(dòng)詞和 De,且wordi是人名,地名或處所詞,wordi+1是時(shí)間詞,或數(shù)詞,wordh是時(shí)間詞或時(shí)間量詞,則原序列重新劃分為:wordf...wordhwordf...wordh。
B.時(shí)間短語(yǔ)+指人代詞序列。如果wordf...wordiwordi+1...wordh序列不包含動(dòng)詞和 De,且wordi是時(shí)間詞,wordi+1不是時(shí)間詞,wordh是指人代詞,則原序列重新劃分為:wordf...wordhwordf...wordh。
C.時(shí)間短語(yǔ)+指人名詞|地名|機(jī)構(gòu)名。在時(shí)間詞表中對(duì)時(shí)間詞與指人名詞、地名、機(jī)構(gòu)名及普通名詞的組合能力進(jìn)行標(biāo)注,并對(duì)不可修飾關(guān)系從嚴(yán)標(biāo)注。
如果wordf...wordiwordi+1...wordh序列不包含動(dòng)詞和De,且wordi是時(shí)間詞,在以下四組條件下,原序列重新劃分為 wordf...wordhwordf...wordh:
(a)時(shí)間短語(yǔ)+人名。wordi不可修飾人名,wordi+1是人名、數(shù)詞或代詞,wordh是人名、指人代詞或名詞;(b)時(shí)間短語(yǔ)+地名。wordi不可修飾地名,wordi+1是地名、數(shù)詞或代詞,wordh是地名、處所詞或代詞;(c)時(shí)間短語(yǔ)+機(jī)構(gòu)名。wordi不可修飾機(jī)構(gòu)名,wordi+1是機(jī)構(gòu)名、數(shù)詞或代詞,wordh是機(jī)構(gòu)名;(d)時(shí)間短語(yǔ)+普通名詞短語(yǔ)。wordi不可修飾名詞性成分,wordi+1是命名實(shí)體、數(shù)詞或普通名詞,wordh是命名實(shí)體或普通名詞。
例如,“[過(guò)后/t你們/rN 一/m 位/qN 同志/n]找/v[我/rN ]要去/v了/u”,根據(jù)規(guī)則(a)調(diào)整為“[過(guò)后/t][你們/rN 一/m 位/qN 同志/n]找/v[我/rN]要去/v了/u”。
(6)括號(hào)匹配。如果MNP跨越匹配括號(hào)的單個(gè)括號(hào),則以右邊界為基準(zhǔn),搜索第一個(gè)合法的動(dòng)詞介詞或者中斷標(biāo)點(diǎn)(逗號(hào)等),作為左鄰接詞。如果右邊界在右括號(hào)內(nèi),則左邊界在括號(hào)內(nèi)搜索;如果右邊界在右括號(hào)外,則左邊界從對(duì)應(yīng)的左括號(hào)開(kāi)始搜索。
鑒萍[8]采用雙向SVM作為基本分類器。我們的想法是,基于CRFs和基于SVMs的標(biāo)注器,一個(gè)具有全局最優(yōu)特性,一個(gè)具有確定性特點(diǎn),其識(shí)別結(jié)果應(yīng)該具有互補(bǔ)性;并且歸約和非歸約方法、正向標(biāo)注和逆向標(biāo)注策略也應(yīng)該具有互補(bǔ)性。系統(tǒng)流程圖如圖3所示。
圖3 系統(tǒng)流程圖
集成系統(tǒng)采用兩個(gè)MNP基本分類器。為了增加基本分類器的差異性,分別采用基于CRF模型的歸約識(shí)別系統(tǒng)和基于SVM的非歸約反向識(shí)別系統(tǒng)。前者基于2-phase策略,先識(shí)別baseNP,歸約為中心詞后識(shí)別 MNP,并選擇詞形、詞類、詞長(zhǎng)、義類(同義詞詞林三級(jí)義類)、baseNP核心為特征;后者優(yōu)選了3元?dú)v史特征,詞性和詞類特征。集成系統(tǒng)和基于確定性規(guī)則識(shí)別的算法流程如下:
(1)標(biāo)注動(dòng)詞、介詞的邊界有效性和介詞搭配信息
(2)反向掃描兩組分析結(jié)果:
(a)如果左右邊界相同,評(píng)價(jià)連續(xù)的動(dòng)詞和介詞
(b)如果右邊界相同,左邊界不同,評(píng)價(jià)左邊界鄰接詞
(c)取評(píng)價(jià)最高的一個(gè)詞語(yǔ)作為左鄰接詞,返回(2)
(3)正向掃描兩組分析結(jié)果
(a)如果左邊界相同,右邊界不同,評(píng)價(jià)右邊界鄰接詞
(b)取評(píng)價(jià)最高的一個(gè)詞語(yǔ)右鄰接詞,返回(3)
(4)使用確定性規(guī)則識(shí)別,輸出識(shí)別結(jié)果
其中,詞語(yǔ)作為邊界鄰接詞的評(píng)分首先使用詞匯化規(guī)則和結(jié)構(gòu)化規(guī)則,得分相同時(shí)使用詞匯搭配數(shù)據(jù)(如互信息)評(píng)價(jià)。
對(duì)清華大學(xué)TCT樹(shù)庫(kù)進(jìn)行5次無(wú)重復(fù)隨機(jī)抽樣,每個(gè)樣本容量為2 000句。實(shí)驗(yàn)將每4個(gè)樣本合并為訓(xùn)練語(yǔ)料,剩余1個(gè)樣本作測(cè)試語(yǔ)料,構(gòu)造5組訓(xùn)練測(cè)試對(duì),進(jìn)行交叉驗(yàn)證。5組樣本記作sample5,每組訓(xùn)練測(cè)試對(duì)記為samj,j∈[1,5]。
采用正確率(prc)、召回率(rec)和調(diào)和平均值(F1-val)作為評(píng)價(jià)指標(biāo),基于混合策略的方法取得了89.30%正確率和89.62%的召回率(表2)。
表2 混合策略的實(shí)驗(yàn)結(jié)果
相比兩個(gè)子系統(tǒng),基于混合策略的方法較SVM逆向識(shí)別方法提高約2%,較CRF歸約方法提高約0.5%(表3)。
表3 三種方法的比較
由于融合規(guī)則和確定性規(guī)則更多地針對(duì)復(fù)雜MNP,專門(mén)考察多詞結(jié)構(gòu)的識(shí)別效果,新的系統(tǒng)相比CRF歸約方法提高了0.75%左右(表4)。盡管是小幅提高,但系統(tǒng)在每組樣本上都有穩(wěn)定的改善,并且所針對(duì)的需要實(shí)例搭配決策和特殊語(yǔ)言結(jié)構(gòu)造成的問(wèn)題正是統(tǒng)計(jì)識(shí)別的難點(diǎn)。
表4 混合策略方法的實(shí)驗(yàn)結(jié)果(多詞結(jié)構(gòu))
系統(tǒng)錯(cuò)誤有兩種:未能識(shí)別基本分類器的錯(cuò)誤,以及錯(cuò)誤地修改基本分類器的識(shí)別結(jié)果。前者是主要錯(cuò)誤類型,一方面由于實(shí)驗(yàn)用的規(guī)則和搭配資源數(shù)量有限,一些錯(cuò)誤搭配未能被發(fā)現(xiàn);另一方面,主語(yǔ)位置以及部分賓語(yǔ)位置MNP的上下文并不存在很強(qiáng)的詞匯搭配關(guān)聯(lián),句法組織在其中發(fā)揮了主要作用,即使基本分類器發(fā)生錯(cuò)誤也難以被系統(tǒng)發(fā)現(xiàn)。由于采用了嚴(yán)格的融合規(guī)則和確定性規(guī)則,后者類型的錯(cuò)誤較少,多為搭配數(shù)據(jù)稀疏所致。
以性能最優(yōu)的基本分類器(CRF歸約方法)為baseline,評(píng)價(jià)混合策略中的集成系統(tǒng)和確定性規(guī)則兩組模塊,每次遞加一個(gè)模塊進(jìn)行測(cè)試(表5)。
表5 模塊評(píng)測(cè)(F1-val)
兩組模塊都提高了識(shí)別效果,具體而言,集成系統(tǒng)和確定性規(guī)則分別改善了單賓語(yǔ)位置MNP和非賓語(yǔ)位置、雙賓語(yǔ)位置MNP的識(shí)別效果。例(1)、(2)修正了單賓語(yǔ)位置的識(shí)別結(jié)果,例(3)和例(4)分別修正了主語(yǔ)位置和雙賓語(yǔ)位置的識(shí)別結(jié)果。其中,“【”表示相對(duì)應(yīng)的修正位置。
(1)“[不少/m 國(guó)家/n]采取/v促進(jìn)/vJY 【計(jì)算機(jī)/n產(chǎn)業(yè)/n興旺發(fā)達(dá)/iV 的/u政策/n]”修正為“[不少/m國(guó)家/n]采?。痸【促進(jìn)/vJY計(jì)算機(jī)/n產(chǎn)業(yè)/n興旺發(fā)達(dá)/iV 的/u政策/n]”
(2)“加強(qiáng)/v對(duì)/p【黨員/n的/u思想/n政治/n教育/vN]”修正為“加強(qiáng)/v【對(duì)/p黨員/n的/u思想/n政治/n教育/vN]”
(3)“打/v【補(bǔ)?。痭的/u褲子/n]挽到/v[膝頭/n]”修正為“【打/v補(bǔ)?。痭的/u褲子/n]挽到/v[膝頭/n]”
(4)“反正/d沒(méi)/v[人/n]給/vSB[我/rN 一/m 分/qN 錢(qián)/n]”修正為“反正/d沒(méi)/v[人/n]給/vSB[我/rN】【一/m 分/qN 錢(qián)/n]”
本文提出了一種基于混合策略的MNP識(shí)別方法,包括基于語(yǔ)言知識(shí)評(píng)價(jià)的分類器集成和基于確定性規(guī)則的識(shí)別方法。前者利用自動(dòng)獲得語(yǔ)言學(xué)資源和人工總結(jié)的規(guī)則,融合了基于SVM逆向識(shí)別和基于CRF歸約識(shí)別的結(jié)果;后者主要針對(duì)部分連續(xù)名詞邊界歧義問(wèn)題,這是以往研究所沒(méi)有關(guān)注到的,也是統(tǒng)計(jì)方法難以解決的問(wèn)題。從識(shí)別難點(diǎn)看,僅使用少量自動(dòng)獲取的動(dòng)賓搭配,使動(dòng)詞邊界歧義和結(jié)構(gòu)化歧義有所改善,但搭配覆蓋率低、質(zhì)量不夠高是限制識(shí)別效果進(jìn)一步提高的重要原因;此外,通過(guò)分析識(shí)別難點(diǎn)制定針對(duì)性的規(guī)則,如結(jié)構(gòu)化規(guī)則(5),部分解決了連續(xù)動(dòng)詞造成的邊界歧義。進(jìn)一步的工作包括提高動(dòng)賓搭配的數(shù)量和質(zhì)量,以及發(fā)掘更多的語(yǔ)言評(píng)價(jià)知識(shí),如量名搭配知識(shí),提高識(shí)別效果。
感謝清華大學(xué)周強(qiáng)老師為本文研究提供了TCT樹(shù)庫(kù)。
[1]周強(qiáng),孫茂松,黃昌寧.漢語(yǔ)最長(zhǎng)名詞短語(yǔ)的自動(dòng)識(shí)別[J].軟件學(xué)報(bào),2000,(2):195-201.
[2]李文捷,周明,潘海華,等.基于語(yǔ)料庫(kù)的中文最長(zhǎng)名詞短語(yǔ)的自動(dòng)提取 [C].陳力為,袁琦.計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用.北京:清華大學(xué)出版社,1995:119-124.
[3]馮沖,陳肇雄,黃河燕,等.基于條件隨機(jī)域的復(fù)雜最長(zhǎng)名詞短語(yǔ)識(shí)別[J].小型微型計(jì)算機(jī)系統(tǒng),2006,(6):1134-1139.
[4]Chang-h(huán)ao Yin.Identification of Maximal Noun Phrase in Chinese:Using the Head of Base Phrases [D].POSTECH,Korea,2005.
[5]Gui-ping Zhang,Wenjing Lang,Qiaoli Zhou,et al.I-dentification of Maximal-Length Noun Phrases Based on Maximal-Length Preposition Phrases in Chinese[C]//Proceedings of IALP 2010:65-68.
[6]代翠,周俏麗,蔡?hào)|風(fēng),等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)最長(zhǎng)名詞短語(yǔ)自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2008,(6):110-115.
[7]Xue-Mei Bai,Jin-Ji Li,Dong-Il Kim,et al.Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese[C]//Proceedings of the 21st ICCPOL,2006:268-276.
[8]鑒萍,宗成慶.基于雙向標(biāo)注融合的漢語(yǔ)最長(zhǎng)短語(yǔ)識(shí)別方法[J].智能系統(tǒng)學(xué)報(bào),2009,(5):406-413.