班瑪寶,才智杰,拉瑪扎西
(1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016; 2. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008; 3. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008)
隨著信息技術(shù)的不斷進(jìn)步,藏語(yǔ)自然語(yǔ)言處理已經(jīng)發(fā)展到了“句”的層面。但是由于多種原因,藏文句法分析的研究還未取得重大突破。若要深層次地理解藏文,就必須對(duì)藏文句子進(jìn)行句法分析[1]。迄今為止,有關(guān)藏文句法分析方面的文章都是針對(duì)所有藏文句型展開(kāi)。然而不同類型的藏文句子在結(jié)構(gòu)特征方面存在明顯差異,從而導(dǎo)致藏文句法分析效果不夠理想。針對(duì)不同類型的句子,研究其句法,可以提高藏文句法分析的整體性能。
疑問(wèn)句是一種常見(jiàn)的藏文句型,也是藏文問(wèn)答系統(tǒng)、搜索引擎、信息的抽取和檢索等問(wèn)題中的主要句型。本文通過(guò)分析藏文疑問(wèn)句的構(gòu)成特點(diǎn),對(duì)藏文疑問(wèn)句進(jìn)行了分類,并歸納了結(jié)構(gòu)特征,進(jìn)而利用PCFG研究了藏文疑問(wèn)句的句法分析。經(jīng)測(cè)試,在封閉測(cè)試集上的準(zhǔn)確率、召回率和F1值分別達(dá)97.6%、97.3%和97.4%,在開(kāi)放測(cè)試集上的準(zhǔn)確率、召回率和F1值分別達(dá)96.0%、95.4%和95.7%。
自20世紀(jì)50年代開(kāi)始,句法分析作為自然語(yǔ)言處理領(lǐng)域的核心任務(wù)之一,一直是研究人員關(guān)注的熱點(diǎn)問(wèn)題[2]。目前用于句法分析的主要方法有規(guī)則法、統(tǒng)計(jì)法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,統(tǒng)計(jì)法中又有基于最大熵的依存句法分析和基于深度學(xué)習(xí)的句法分析等方法。文獻(xiàn)[3]采用規(guī)則的方法,作者從分析漢語(yǔ)的句法特點(diǎn)出發(fā),規(guī)定了漢語(yǔ)句法規(guī)則,進(jìn)而研究了漢語(yǔ)句法分析方法。文獻(xiàn)[4]采用了統(tǒng)計(jì)方法研究了漢文句法,在正確分詞的前提下,句法分析的準(zhǔn)確率和召回率分別為86.9%和85.7%[4]。文獻(xiàn)[5-6]采用了規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,其中文獻(xiàn)[5]分析了PCFG獨(dú)立假設(shè)的局限性,從而在句法結(jié)構(gòu)共現(xiàn)概率中引入了上下文信息,利用Inside-Outside算法進(jìn)行迭代,最后提出了一個(gè)基于統(tǒng)計(jì)模型的自頂向下的漢語(yǔ)句法分析器,在封閉測(cè)試下,其標(biāo)記準(zhǔn)確率和標(biāo)記召回率分別為88.1%和86.8%;文獻(xiàn)[6]從單個(gè)句法分析標(biāo)記錯(cuò)誤和句法分析層次結(jié)構(gòu)標(biāo)注錯(cuò)誤兩個(gè)角度進(jìn)行了探究,利用規(guī)則和統(tǒng)計(jì)的理論,發(fā)現(xiàn)自動(dòng)修正不一致,其一致性檢驗(yàn)的準(zhǔn)確率為87.6%,召回率為94.8%。文獻(xiàn)[7]采用最大熵的依存句法分析方法,比較了自頂向下(Up2Down)算法、自底向上(Down2Up)算法和最大生成樹(shù)(MST)算法的效果,得出最大熵模型的依存句法分析算法中MST算法效果最好的結(jié)論。文獻(xiàn)[2]采用深度學(xué)習(xí)的方法,介紹了前饋神經(jīng)網(wǎng)絡(luò)的依存句法分析模型和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的依存句法分析模型,并對(duì)基于這兩種模型的句法分析效果進(jìn)行了比較;實(shí)驗(yàn)表明,基于前饋神經(jīng)網(wǎng)絡(luò)的依存句法分析模型在賓州樹(shù)庫(kù)開(kāi)發(fā)集上無(wú)標(biāo)記依存正確率(UAS)和帶標(biāo)記依存正確率分別為91.4%和89.8%,測(cè)試集上無(wú)標(biāo)記依存正確率(UAS)和帶標(biāo)記依存正確率分別為90.2%和88.5%;基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的依存句法分析模型在賓州樹(shù)庫(kù)開(kāi)發(fā)集上的無(wú)標(biāo)記依存正確率(UAS)和帶標(biāo)記依存正確率分別為91.9%和90.5%,測(cè)試集上的無(wú)標(biāo)記依存正確率(UAS)和帶標(biāo)記依存正確率分別為90.7%和89.0%。
用于藏文句法分析的主要方法有基于規(guī)則和基于判別式的依存句法分析方法。文獻(xiàn)[1,8]采用規(guī)則的方法對(duì)藏文句法分析的算法進(jìn)行了研究,并設(shè)計(jì)和實(shí)現(xiàn)了句法分析器,但未考察句法分析效果。文獻(xiàn)[9]提出基于判別式的藏語(yǔ)依存句法分析方法,采用感知機(jī)方法訓(xùn)練句法分析模型,CYK自底向上算法解碼生成最大生成樹(shù),句法分析正確率達(dá)到81.2%。文獻(xiàn)[10]采用判別式的依存句法分析方法,提出了一種基于判別式的藏文復(fù)合句切分標(biāo)注方法,句法分析的準(zhǔn)確率達(dá)到了88.7%。文獻(xiàn)[11]通過(guò)分析藏語(yǔ)判斷句的特征,構(gòu)造了其句法樹(shù)生成規(guī)則,并通過(guò)PCFG解決句法歧義問(wèn)題,最后通過(guò)CYK算法進(jìn)行解碼,自動(dòng)生成判斷句句法結(jié)構(gòu)樹(shù)。
在藏文書(shū)面語(yǔ)中,每個(gè)疑問(wèn)句至少會(huì)有一個(gè)疑問(wèn)代詞,而且不同的疑問(wèn)代詞通過(guò)與其上下文相結(jié)合可以構(gòu)成不同類型的疑問(wèn)句。藏文疑問(wèn)句的結(jié)構(gòu)特征如表1所示。
句法分析指通過(guò)某種方式對(duì)句子結(jié)構(gòu)進(jìn)行自動(dòng)分析。上下文無(wú)關(guān)語(yǔ)法CFG(context-free grammar)是一種較好的句法分析模型,但它不能解決有歧義句子的語(yǔ)法樹(shù)解析問(wèn)題。從統(tǒng)計(jì)上看,一個(gè)語(yǔ)法樹(shù)解析是否正確,主要與句法規(guī)則出現(xiàn)概率有關(guān)。概率上下文無(wú)關(guān)語(yǔ)法PCFG(probabilistic context-free grammar)在CFG的基礎(chǔ)上增加了句法規(guī)則概率,提升了句法分析的性能,是一種句法分析的好模型。CYK(Cocke-Younger-Kasami)是基于動(dòng)態(tài)規(guī)劃思想設(shè)計(jì)的一種自底向上對(duì)上下文無(wú)關(guān)文法CFG進(jìn)行句法分析的算法,也是適用于PCFG剖析的一種標(biāo)準(zhǔn)的動(dòng)態(tài)規(guī)劃算法,對(duì)給定的句子進(jìn)行自底向上分析并生成廣義的句法結(jié)構(gòu)樹(shù)。本文在藏文疑問(wèn)句句法分析時(shí),選擇了PCFG模型,并以CYK算法解碼。
基于PCFG的句法分析模型主要包括語(yǔ)法規(guī)則初始概率值和結(jié)構(gòu)共現(xiàn)概率兩個(gè)參數(shù),其計(jì)算方法如下。
3.1.1 語(yǔ)法規(guī)則的初始概率計(jì)算方法
統(tǒng)計(jì)訓(xùn)練語(yǔ)料中各規(guī)則出現(xiàn)的次數(shù),利用最大似然估計(jì)求出每條規(guī)則出現(xiàn)的頻率,作為語(yǔ)法規(guī)則的初始概率值,計(jì)算如式(1)所示。
(1)
其中,C(A→X)表示規(guī)則A→X在樹(shù)庫(kù)中出現(xiàn)的次數(shù),其中A表示非終結(jié)符(nonterminal symbols)集,X表示終結(jié)符(terminal symbols)集,P(A→X)表示規(guī)則A→X的概率估計(jì)值。
本文在沿用已有算法的基礎(chǔ)上,對(duì)訓(xùn)練語(yǔ)料進(jìn)行迭代訓(xùn)練,從而得到一個(gè)收斂的語(yǔ)法規(guī)則。為了盡量減少語(yǔ)法規(guī)則概率的估計(jì)對(duì)語(yǔ)料庫(kù)的依賴,對(duì)語(yǔ)法規(guī)則的初始估計(jì)概率值進(jìn)行再次估算,方法如下:
設(shè)置一個(gè)閾值γ,將語(yǔ)法規(guī)則分為高頻規(guī)則集HFR和低頻規(guī)則集LFR,分別如式(2)、式(3)所示。
設(shè)M為L(zhǎng)FR集合中規(guī)則的個(gè)數(shù),N為HFR中所有規(guī)則的概率值總和,即:
(4)
利用如下公式得開(kāi)始迭代的初始概率值:
(5)
(6)
這里a的取值范圍為0~1,是再次估計(jì)后HFR集合中所有規(guī)則的估計(jì)概率值的總和;同樣1-a為L(zhǎng)FR集合中規(guī)則的概率值總和。
3.1.2 結(jié)構(gòu)共現(xiàn)概率計(jì)算方法
結(jié)構(gòu)共現(xiàn)概率的計(jì)算采用最大似然估計(jì)的方法。處于句首的句法范疇F向前共現(xiàn)概率P(ε,F(xiàn))、非句首的句法范疇F向前共現(xiàn)概率P(v,F(xiàn))、處于句尾的句法范疇E向后共現(xiàn)概率P(ε,E)和非句尾的句法范疇E向后共現(xiàn)概率P(v,E)計(jì)算分別如式(7)~式(10)所示。
從實(shí)際的語(yǔ)言現(xiàn)象來(lái)看,對(duì)于一個(gè)確定的訓(xùn)練語(yǔ)料,即使語(yǔ)料規(guī)模再大,也會(huì)遇到數(shù)據(jù)稀疏問(wèn)題。其原因在于進(jìn)行句法分析時(shí),測(cè)試語(yǔ)料中會(huì)遇到訓(xùn)練語(yǔ)料中從未出現(xiàn)過(guò)且合法的新語(yǔ)法規(guī)則,從而出現(xiàn)零概率問(wèn)題。
圖1 句法樹(shù)S
數(shù)據(jù)平滑的基本原則是適當(dāng)減少藏文訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的語(yǔ)法規(guī)則概率,而把減少的那部分概率賦予訓(xùn)練語(yǔ)料中未出現(xiàn)的合法的新的語(yǔ)法規(guī)則,過(guò)程如下:
設(shè)N為訓(xùn)練的標(biāo)識(shí)數(shù),nr為語(yǔ)料中出現(xiàn)r次的事件個(gè)數(shù),則式(11)成立:
N=∑rr×nr
(11)
按最大似然估計(jì)原理,出現(xiàn)r次的語(yǔ)法規(guī)則A→X的概率為:
(12)
根據(jù)式(12)中Turing公式,調(diào)整出現(xiàn)r次的規(guī)則A→X的概率為:
(13)
使用Good-Turing公式,可以得到訓(xùn)練語(yǔ)料中所有語(yǔ)法規(guī)則的概率和為:
(14)
C(A→X)>0表示該語(yǔ)法規(guī)則在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)大于零,訓(xùn)練語(yǔ)料中從未出現(xiàn)過(guò)的語(yǔ)法規(guī)則的概率和為:
(15)
C(A→X)=0表示在訓(xùn)練語(yǔ)料中出現(xiàn)的語(yǔ)法規(guī)則次數(shù)為零。
藏文疑問(wèn)句句法分析中的句法排歧是主要難點(diǎn),人腦可以通過(guò)考慮各種綜合因素來(lái)避免歧義產(chǎn)生,但計(jì)算機(jī)難以解決歧義問(wèn)題。由于本文對(duì)藏文疑問(wèn)句進(jìn)行句法分析時(shí),測(cè)試語(yǔ)料已分好詞,故排歧時(shí)不需要考慮分詞歧義,文章中句法排歧主要解決的是節(jié)點(diǎn)的標(biāo)記。本文利用統(tǒng)計(jì)的方法來(lái)計(jì)算歧義句中每個(gè)詞與上下文之間的概率之積,通過(guò)找出概率最大的句法結(jié)構(gòu)樹(shù)來(lái)實(shí)現(xiàn)消解歧義的目的。
UP->uc#0.024
可得兩個(gè)符合語(yǔ)法規(guī)則的句法樹(shù),如圖2和圖3所示。
圖2 句法結(jié)構(gòu)樹(shù)1
圖3 句法結(jié)構(gòu)樹(shù)2
分別計(jì)算以上兩個(gè)句法結(jié)構(gòu)樹(shù)的概率值:
句法結(jié)構(gòu)樹(shù)1中:
句法結(jié)構(gòu)樹(shù)2中:
(1) 規(guī)則集及其概率值:
(2) 利用概率CYK句法解碼算法后生成的句法結(jié)構(gòu)樹(shù)如圖4所示。
圖4 句法結(jié)構(gòu)樹(shù)
我們從青海師范大學(xué)建立的藏語(yǔ)語(yǔ)料庫(kù)[14]中選擇了500個(gè)疑問(wèn)句,對(duì)此人工標(biāo)注句法標(biāo)記,得到500個(gè)結(jié)構(gòu)樹(shù)庫(kù)作為實(shí)驗(yàn)語(yǔ)料。實(shí)驗(yàn)過(guò)程為:
① 用CFG模型生成規(guī)則;
② 用PCFG模型計(jì)算由CFG模型生成的各種規(guī)則的概率值;
③ 用CNF模型計(jì)算由PCFG模型輸出結(jié)果中結(jié)構(gòu)共現(xiàn)概率;
④ 用概率CYK算法對(duì)藏文疑問(wèn)句進(jìn)行句法分析并生成廣義的句法結(jié)構(gòu)樹(shù)。
實(shí)驗(yàn)包括封閉式測(cè)試和開(kāi)放式測(cè)試。封閉測(cè)試時(shí),對(duì)訓(xùn)練語(yǔ)料中的500個(gè)原句進(jìn)行了測(cè)試;開(kāi)放式測(cè)試時(shí),隨機(jī)找了100個(gè)未在訓(xùn)練語(yǔ)料中出現(xiàn)的疑問(wèn)句進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。
表2 藏文疑問(wèn)句句法分析實(shí)驗(yàn)結(jié)果
表2中的準(zhǔn)確率、召回率和F1值是自然語(yǔ)言處理領(lǐng)域常用的評(píng)價(jià)標(biāo)準(zhǔn),其計(jì)算方法如下:
從表2中的實(shí)驗(yàn)結(jié)果可以看出,基于PCFG的藏文疑問(wèn)句句法分析在封閉測(cè)試集上的準(zhǔn)確率、召回率和F1值分別達(dá)到了97.6%、97.3%和97.4%,在開(kāi)放測(cè)試集上的準(zhǔn)確率、召回率和F1值分別達(dá)到了96.0%、95.4%和95.7%,句法分析效果比文獻(xiàn)[9-10]有明顯的提高,表明根據(jù)具體句型及其特征,針對(duì)性的研究句子的句法,其性能有很大的提高。由于訓(xùn)練語(yǔ)料較少,影響了實(shí)驗(yàn)結(jié)果。主要有以下兩種錯(cuò)誤:
疑問(wèn)句是一種常見(jiàn)的藏文句型,也是藏文問(wèn)答系統(tǒng)、搜索引擎、信息抽取和檢索等問(wèn)題中的主要研究句型。本文通過(guò)分析藏文疑問(wèn)句的構(gòu)成特點(diǎn),對(duì)藏文疑問(wèn)句進(jìn)行了分類,并歸納了各類藏文疑問(wèn)句的結(jié)構(gòu)特征,在此基礎(chǔ)上利用PCFG對(duì)藏文疑問(wèn)句進(jìn)行句法分析。經(jīng)測(cè)試,在封閉測(cè)試集上的準(zhǔn)確率、召回率和F1值分別達(dá)97.6%、97.3%和97.4%,在開(kāi)放測(cè)試上的準(zhǔn)確率、召回率和F1值分別達(dá)96.0%、95.4%和95.7%,句法分析效果比現(xiàn)有藏文句法分析有了明顯的提高。測(cè)試中主要出現(xiàn)了短語(yǔ)節(jié)點(diǎn)標(biāo)記錯(cuò)誤和詞節(jié)點(diǎn)標(biāo)記錯(cuò)誤兩種類型,究其原因是由于訓(xùn)練語(yǔ)料規(guī)模較小而造成。
PCFG模型屬于監(jiān)督式學(xué)習(xí)方法,對(duì)訓(xùn)練語(yǔ)料的質(zhì)量要求很高。為了能更好地研究藏文句法,今后一方面需不斷擴(kuò)建藏文疑問(wèn)句句法標(biāo)記樹(shù)庫(kù)來(lái)提高句法分析效果,另一方面應(yīng)研究并嘗試無(wú)監(jiān)督式的基于神經(jīng)網(wǎng)絡(luò)模型的藏文句法分析技術(shù),以提高藏文句法分析的性能。