袁 里 馳
(江西財(cái)經(jīng)大學(xué) 麥廬園校區(qū)信息管理學(xué)院,南昌 330013)E-mail:yuanlichi@sohu.com
句子語法結(jié)構(gòu)分析屬于自然語言處理根本技術(shù)問題之一.句子語法結(jié)構(gòu)分析依據(jù)一定的語法規(guī)則,自動(dòng)推測(cè)句子的語法組成結(jié)構(gòu),即句子所具有的句法成分和句法成分相互聯(lián)系.句子語法結(jié)構(gòu)分析方法主要有兩種:統(tǒng)計(jì)方法[1-6]及規(guī)則方法.句子語法結(jié)構(gòu)分析統(tǒng)計(jì)方法由給定的語法規(guī)則體系決定語法結(jié)構(gòu)分析樹的表達(dá)形式.依存語法及短語結(jié)構(gòu)語法是當(dāng)前廣泛應(yīng)用的句子語法結(jié)構(gòu)分析方法.
短語結(jié)構(gòu)句法分析通?;谏舷挛臒o關(guān)概率語法.在以上下文無關(guān)語法為基礎(chǔ)的短語結(jié)構(gòu)分析方法先前研究中,語法規(guī)則由專家標(biāo)記的語料庫中抽取,其概率由相對(duì)頻率決定.此種模型實(shí)現(xiàn)簡(jiǎn)便,然而此類模型并不能獲得好的實(shí)驗(yàn)效果,獨(dú)立性假定在自然語言中不總是成立.
依存語法[7-10]具有形式簡(jiǎn)潔、便于應(yīng)用、易于標(biāo)記等優(yōu)點(diǎn),漸漸引起注意.中文依存句法分析當(dāng)前研究雖然獲得了可喜的進(jìn)步,然而其效率及準(zhǔn)確性依然難以達(dá)到應(yīng)用要求.Collins[11]等在語法中引入詞語依存關(guān)系,在上下文無關(guān)語法的基礎(chǔ)提出了一種詞匯化的句法分析方法,推進(jìn)了句子語法結(jié)構(gòu)分析理論的快速發(fā)展.其重要思路即是將短語中心詞及詞匯信息融合上下文無關(guān)語法,語義信息的融合改進(jìn)了句法分析的消歧效果,但卻無法規(guī)避地產(chǎn)生了嚴(yán)峻的數(shù)據(jù)稀疏缺陷.
句法分析結(jié)合語義內(nèi)容分析和句法形式分析.越深刻、越完整對(duì)句子語法結(jié)構(gòu)的語義內(nèi)容進(jìn)行分析,就越能夠合理科學(xué)地解釋句法形式上的種種情況.詞匯化句子語法結(jié)構(gòu)分析的現(xiàn)有方法如頭驅(qū)動(dòng)句法分析方法[11]、依存語法只利用了詞語語義依存聯(lián)系,而語義匹配、語義類這些語義知識(shí)對(duì)語義計(jì)算和句子語法結(jié)構(gòu)分析是非常有用的.
語義角色標(biāo)記[12-15]作為淺層語義分析,是自然語言處理的研究熱點(diǎn),其任務(wù)是在句子層面實(shí)現(xiàn)淺顯的語義關(guān)系分析,即標(biāo)記給定句子中的謂詞及其所有的語義成分,并標(biāo)記對(duì)應(yīng)的語義類別,如受事、施事、附加語及工具等.
句法分析當(dāng)前理論不能準(zhǔn)確描繪中文的主要特點(diǎn),使得中文語義分析和語法分析的性能相比英文有一定的差距.中文配價(jià)語法[16,17]能準(zhǔn)確描繪句子的語義構(gòu)成及語法結(jié)構(gòu).針對(duì)當(dāng)前句法分析方法具有的缺陷,本文進(jìn)而提出了一種融合語義信息的句子語法結(jié)構(gòu)分析統(tǒng)計(jì)模型,從3個(gè)方面提高模型的系統(tǒng)性能:首先融合配價(jià)信息進(jìn)行語義角色標(biāo)記及句子語法結(jié)構(gòu)分析,并將條件獨(dú)立性假定替換了頭驅(qū)動(dòng)句子語法結(jié)構(gòu)分析方法中的獨(dú)立性假定.條件獨(dú)立性假定比獨(dú)立性假定更相符語言實(shí)際,因而本文的句子語法結(jié)構(gòu)分析方法更相符語言現(xiàn)象.其次提出一種語義角色標(biāo)記與句子語法結(jié)構(gòu)分析的聯(lián)合學(xué)習(xí)方法,同時(shí)提高兩者性能.最后給出了基于語義類的句子語法結(jié)構(gòu)分析統(tǒng)計(jì)模型,解決引入詞匯信息所產(chǎn)生的稀疏數(shù)據(jù)問題.
論文后續(xù)內(nèi)容的安排如下:第二部分介紹融合配價(jià)信息的語義角色標(biāo)記;第三節(jié)提出了一種語義角色標(biāo)記與語法結(jié)構(gòu)分析并行學(xué)習(xí)方法;第四部分給出模型的試驗(yàn)結(jié)果及分析;第五部分是總結(jié).
語義角色標(biāo)記(SRL)[12-15]作為淺層語義分析,是自然語言處理的研究熱點(diǎn),其任務(wù)是在句子層面實(shí)現(xiàn)淺顯的語義關(guān)系分析,即標(biāo)記給定句子中的謂詞及其所有的語義成分,并標(biāo)記對(duì)應(yīng)的語義類別,包含附屬語義角色(如時(shí)間、原因、地點(diǎn)、方式等)及核心語義角色(如受事者、施事者等).依據(jù)不一樣的謂詞種類,SRL包含名詞性謂詞SRL及動(dòng)詞性謂詞SRL.語義角色標(biāo)記在自動(dòng)問答、自動(dòng)文摘、信息抽取、機(jī)器翻譯、信息檢索等方面已普遍應(yīng)用.語義角色標(biāo)記主要基于統(tǒng)計(jì)方法,包含基于樹核函數(shù)的方法、基于特征向量的方法.
伴隨格語法、配價(jià)語法的提出,語言學(xué)專家開始重視語義角色問題,并運(yùn)用配價(jià)語法等理論研究語義角色,提出了一些語義角色標(biāo)記新方法.當(dāng)前,語義角色標(biāo)記大多利用NomBank、PropBank語料庫及相應(yīng)的標(biāo)記體系進(jìn)行研究.
圖1 動(dòng)詞性謂詞“觀察”及其語義角色Fig.1 Verbal predicate“觀察”and its semantic arguments
本文基于PropBank標(biāo)記體系,利用配價(jià)理論補(bǔ)充了ArgM-Mat、ArgM-Tool兩種附加角色,相應(yīng)代表材料、工具,且將介詞附屬名詞標(biāo)記為ArgM-NMat角色、ArgM-Tool角色.如句子“天文學(xué)家用望遠(yuǎn)鏡觀察天空”[15]、“工廠用大米生產(chǎn)白酒”[15]在改進(jìn)后的PropBank體系下的語義標(biāo)記相應(yīng)為圖1、圖2.
圖2 動(dòng)詞性謂詞“生產(chǎn)”及其語義角色Fig.2 Verbal predicate“生產(chǎn)”and its semantic arguments
依據(jù)PropBank語義角色標(biāo)記體系,句子“王冕七歲上死了父親”的一種可能的語義角色標(biāo)記結(jié)果見圖3.
圖3 句子“王冕七歲上死了父親”的一種語義角色標(biāo)記[15]Fig.3 A semantic role labeling of sentence“王冕七歲上死了父親” [15]
在配價(jià)語法中,領(lǐng)主屬賓句指“王冕七歲上死了父親”這種句子[15].在 “王冕七歲上死了父親”[15]句子中,一價(jià)詞有“父親”、“死了”,零價(jià)詞有“王冕”,而時(shí)間副詞“七歲上”說明“誰七歲”并且修飾動(dòng)詞“死了”.有了這些詞語的配價(jià)信息,就可以比較準(zhǔn)確地對(duì)語義角色標(biāo)記結(jié)果進(jìn)行改進(jìn).改進(jìn)后的語義角色標(biāo)記結(jié)果見圖4.
根據(jù)語義角色標(biāo)記圖可以進(jìn)一步知道詞語“王冕”、 “死了”、“父親”之間的配價(jià)關(guān)系如下:“死了” 支配“父親”,“父親” 支配“王冕”.
我們的基本思想是:在句子短語結(jié)構(gòu)分析樹和句子語義角色標(biāo)注的基礎(chǔ)上,利用基于配價(jià)理論開發(fā)的語義詞典(在我們的模型中,主要利用的信息是詞典中有關(guān)“動(dòng)詞、形容詞、名詞的配價(jià)數(shù)”方面的語義知識(shí).)將動(dòng)名詞性謂詞本身的配價(jià)數(shù)作為基準(zhǔn)特征,對(duì)句子語義角色標(biāo)記實(shí)施必要的修正,名詞只考慮與其內(nèi)部語義角色之間的配價(jià)關(guān)系.我們?cè)谘芯恐邪l(fā)現(xiàn),可利用統(tǒng)計(jì)方法從語義角色標(biāo)記語料庫中計(jì)算動(dòng)名詞的配價(jià)數(shù).由于中文配價(jià)理論的分歧和不完善,不但在引入詞語配價(jià)數(shù)等外部資源時(shí)有不一致性問題:在外部資源之間,如不同的配價(jià)詞典定義同一個(gè)詞的配價(jià)不同;并且使用統(tǒng)計(jì)方法從語義角色標(biāo)記語料庫中計(jì)算的詞配價(jià)也可能不一致.(我們?cè)谘芯恐羞€發(fā)現(xiàn),動(dòng)詞不但與其核心語義角色之間可能有配價(jià)關(guān)系,而且與其附加語義角色之間也可能有配價(jià)關(guān)系;名詞不但與其內(nèi)部語義角色之間可能有配價(jià)關(guān)系,而且與其外部語義角色之間也可能有配價(jià)關(guān)系.)使用統(tǒng)計(jì)方法從語義角色標(biāo)記語料庫中計(jì)算詞配價(jià)將是我們下一步的研究課題.
圖4 修正后的句子“王冕七歲上死了父親”的語義角色標(biāo)記Fig.4 Correction semantic role labeling of sentence“王冕七歲上死了父親”
普通的語言處理工作(詞性標(biāo)記、句子語法結(jié)構(gòu)分析、語義角色標(biāo)記、信息抽取等)一般依照順序?qū)嵤?即后一個(gè)處理工作在前一個(gè)處理工作之后實(shí)施,比方語義角色標(biāo)記一般在句子語法結(jié)構(gòu)分析之后實(shí)施.按順序進(jìn)行處理并非唯一可取方案,并且通常來說有一些不足:前面處理的錯(cuò)誤可能在后來處理中累積,乃至擴(kuò)大,嚴(yán)重制約后續(xù)處理的性能;前面處理不能使用后續(xù)處理的有用信息,而一般來說前后處理密切相關(guān),后續(xù)處理信息有利于前面處理.因而,假如兩個(gè)或多個(gè)處理工作能夠聯(lián)合實(shí)施[18,19],處理工作可以互相使用信息,因而能夠互相受益.語義角色記、句子語法結(jié)構(gòu)分析的聯(lián)合進(jìn)行就是一個(gè)成功的聯(lián)合學(xué)習(xí).本文的基本思路是:在句子語法結(jié)構(gòu)分析的進(jìn)程中,當(dāng)新的產(chǎn)生式p→c1,c2,…,cn形成時(shí),實(shí)施配價(jià)結(jié)構(gòu)等語義信息分析和標(biāo)記.并在產(chǎn)生式的概率計(jì)算中融入相關(guān)語義信息.
設(shè)P(h)表示句法結(jié)構(gòu)分析樹中當(dāng)前中心詞h所依存的上層中心詞、當(dāng)前中心詞的兄弟結(jié)點(diǎn),其它符號(hào)的意義參照文獻(xiàn)[11].在本文的句子語法結(jié)構(gòu)分析模型中,語法規(guī)則形式如下:
P(ht,hw|P(h))-Lm(ltm,lwm)…L1(lt1,lw1) ·H(ht,hw|P(h))R1(rt1,rw1)…Rn(rtn,rwn)
(1)
形如公式(1)的文法規(guī)則的概率可近似為:
(2)
其中Lm+1和Rn+1分別為左右兩邊的停止符號(hào);SLi(tLi,wLi)表示成份Li-2,…L1,Rm,…,R1,P(h)中與當(dāng)前成份Li中心詞lwi存在語義聯(lián)系的成份組合;Δl(i-1),Δr(i-1)為距離函數(shù),補(bǔ)償結(jié)構(gòu)信息的缺失.公式(2)中的概率:
Pi(Li(lti,lwi)|Li-1(lti-1,lwi-1),
SLi(tLi,wLi),H(ht,hw),Δl(i-1))
可近似分解為下面三個(gè)概率:
Pi(Li|Li-1,H(ht,hw),Δl(i-1))
(3)
Pi(lwi|H(ht,hw),SLi(wLi))
(4)
Pi(lti|lwi)
(5)
的乘積.再假定H(ht,hw),SLi(wLi)關(guān)于lwi條件獨(dú)立有:
Pi(lwi|H(ht,hw),SLi(wLi))=
(6)
即為lwi,SLi(wLi)間的互信息,因而整個(gè)公式(6)概率意義十分明確,符合語言現(xiàn)象.可用同樣的方法分解概率Pi(Li|Li-1,H(ht,hw),Δl(i-1))為:
Pi(Li|Li-1,H(ht,hw),Δl(i-1))=
(7)
可以看到,上下文無關(guān)概率語法當(dāng)前做出了與中英文語言實(shí)際不相符合的獨(dú)立性假定.在本文的句子語法結(jié)構(gòu)分析方法中,頭驅(qū)動(dòng)句法分析方法中的獨(dú)立性假定被條件獨(dú)立性假定代替.利用修改和分解Collins方法的語法規(guī)則,在句子語法結(jié)構(gòu)分析統(tǒng)計(jì)模型融入語義信息,改進(jìn)句子語法結(jié)構(gòu)分析的結(jié)果.
詞類語言模型替換詞語言模型,能夠克服數(shù)據(jù)稀疏缺陷.令C(w)代表w所在的語義類[24],則公式(6)可近似為:
Pi(lwi|H(ht,hw),SLi(wLi))≈
·Pi(lwi|C(lw)i)
(8)
其中0<λw<1為平滑參數(shù).
句法分析實(shí)驗(yàn)語料來自漢語PropBank2.0、NomBank1.0.依據(jù)Xue[14]的試驗(yàn)語料劃分,平衡訓(xùn)練語料、測(cè)試語料及開發(fā)語料中各種來源 分別取漢語NomBank1.0、PropBank2.0中的各648個(gè)文件共1296個(gè)文件用作訓(xùn)練語料,各40個(gè)文件共80個(gè)文件用作開發(fā)語料,各72個(gè)文件共144個(gè)文件用作測(cè)試語料.在句法結(jié)構(gòu)分析試驗(yàn)中,語言模型的重要參數(shù)均可以利用極大似然法、平滑方法從訓(xùn)練語料中計(jì)算.
句法分析測(cè)試選擇綜合指標(biāo)、召回率、準(zhǔn)確率及交叉括號(hào)等4個(gè)常用評(píng)價(jià)指標(biāo).相關(guān)定義如下:
精確率(Precision)用來衡量句子語法結(jié)構(gòu)分析系統(tǒng)所有分析成份中正確的成份的比例.
召回率(Recall)用來衡量句法分析系統(tǒng)分析出的所有正確成份在實(shí)際成份中的比例.
綜合指標(biāo):F=(P×R×2)/(P+R).
交叉括號(hào)CB:給出了在一棵樹中與其他樹的成分邊界交叉的成分?jǐn)?shù)目的平均數(shù).
試驗(yàn)選取Daniel M.Bikel根據(jù)Collins方法完成的DBParser用作句法分析參照方法.Petrov[20]將自動(dòng)發(fā)現(xiàn)隱藏的組塊子類算法運(yùn)用于漢語樹庫,在分詞正確情況下,利用CTB5.0得到了該時(shí)期已知的漢語句法分析單方法的最好結(jié)果.Petrov方法、參照方法及改進(jìn)方法的試驗(yàn)數(shù)據(jù)如表1所示.
表1 句子語法結(jié)構(gòu)分析試驗(yàn)數(shù)據(jù)Table 1 Experimental data of syntactic parsing
模型1(Model1)為融合配價(jià)信息的語義角色標(biāo)記及句子語法結(jié)構(gòu)分析聯(lián)合學(xué)習(xí)模型.該模型由公式(1)-公式(7)計(jì)算,通過將條件獨(dú)立性假定替換頭驅(qū)動(dòng)句子語法結(jié)構(gòu)分析方法中的獨(dú)立性假定,并分解和修改Collins方法的語法規(guī)則,將標(biāo)記的配價(jià)結(jié)構(gòu)等語義信息集成到句子語法結(jié)構(gòu)分析統(tǒng)計(jì)模型的概率計(jì)算中.從表1可以發(fā)現(xiàn):本文的句子語法結(jié)構(gòu)分析方法對(duì)語法規(guī)則實(shí)施分解,將相鄰短語標(biāo)記(或詞性標(biāo)記)等信息融入概率計(jì)算,而相鄰短語標(biāo)記(或詞性標(biāo)記)等信息的引入對(duì)提高句法分析的系統(tǒng)性能是非常有用的;同時(shí)通過語法規(guī)則的分解,在概率計(jì)算中既使用了語義依存信息,也使用了配價(jià)結(jié)構(gòu)等語義匹配知識(shí)[15].方法1的召回率R、交叉括號(hào)、準(zhǔn)確率P、綜合指標(biāo)相比頭驅(qū)動(dòng)句子語法結(jié)構(gòu)分析方法、Petrov方法有了顯著的改進(jìn).試驗(yàn)數(shù)據(jù)證明語義信息的運(yùn)用能明顯提高統(tǒng)計(jì)句子語法結(jié)構(gòu)分析的性能.稀疏數(shù)據(jù)問題是嚴(yán)重制約句子語法結(jié)構(gòu)分析性能的另一個(gè)主要因素,在模型1的基礎(chǔ)上,根據(jù)公式(8),應(yīng)用基于語義類的平滑技術(shù)建立模型2((Model2),比較成功解決了稀疏數(shù)據(jù)問題,系統(tǒng)性能有了明顯的進(jìn)一步提高.哈工大的曹海龍[1]等提出了一種漢語句法分析兩級(jí)方法,選取哈工大樹庫作為試驗(yàn)語料,獲得了準(zhǔn)確率87.5%,召回率88.0%的良好試驗(yàn)結(jié)果.本文方法2的結(jié)果與曹海龍等人[1,21]的句子語法結(jié)構(gòu)分析方法相比也有一定的改進(jìn).
本文還在改進(jìn)方法2、頭驅(qū)動(dòng)句法分析方法基礎(chǔ)上研究了組合方法,令句法分析結(jié)果依據(jù)改進(jìn)方法2、頭驅(qū)動(dòng)句法分析方法計(jì)算的概率分別為P1,P2,則組合方法的概率P為:
P=λP1+(1-λ)P2
(9)
其中λ取值為0≤λ≤1,調(diào)整λ的值,能夠改變方法2和頭驅(qū)動(dòng)句法分析方法相應(yīng)的作用.開發(fā)語料的實(shí)驗(yàn)結(jié)果綜合指標(biāo)依圖5所示.當(dāng)λ取值0.6時(shí),組合方法的綜合指標(biāo)最佳,準(zhǔn)確率P、召回率R、綜合指標(biāo)F值、交叉括號(hào)分別為89.14%、88.42%、88.78%、1.81.
1)句法分析結(jié)合語義內(nèi)容分析和句法形式分析.越深刻、越完整對(duì)句子語法結(jié)構(gòu)的語義內(nèi)容進(jìn)行分析,就越能夠合理科學(xué)地解釋句法形式上的種種情況.語義角色標(biāo)記一般在句子語法結(jié)構(gòu)分析的基礎(chǔ)上進(jìn)行,我們提出了一種語義角色標(biāo)記與句子語法結(jié)構(gòu)分析并行學(xué)習(xí)方法:在語法分析的進(jìn)程中,實(shí)施語義分析及標(biāo)記;并把語義融入語法規(guī)則的概率計(jì)算,聯(lián)合學(xué)習(xí)方法能同時(shí)提高句法分析和語義角色標(biāo)記[15]性能.
圖5 組合方法的綜合指標(biāo)F值Fig.5 Comprehensive index F of combination method
2)中文配價(jià)結(jié)構(gòu)能準(zhǔn)確描繪句子的語義構(gòu)成及語法結(jié)構(gòu),因而本文深入地考察了配價(jià)結(jié)構(gòu)理論,探索了融合配價(jià)信息的語義角色標(biāo)記,并以此為基礎(chǔ)構(gòu)建語義角色標(biāo)記與句子語法結(jié)構(gòu)分析聯(lián)合學(xué)習(xí)模型.利用語法規(guī)則的分解融入語義依存信息和配價(jià)結(jié)構(gòu)等語義匹配知識(shí),明顯地改進(jìn)了句子語法結(jié)構(gòu)分析結(jié)果.
3)將語義信息[22,23]融入句子語法結(jié)構(gòu)分析,而語義依存聯(lián)系、語義匹配、語義類等都是語義信息.詞匯化句子語法結(jié)構(gòu)分析的現(xiàn)有方法如頭驅(qū)動(dòng)句法分析方法、依存語法只利用了詞語語義依存聯(lián)系,而語義匹配、語義類[24]這些語義知識(shí)對(duì)語義計(jì)算和句子語法結(jié)構(gòu)分析是非常有用的.