龍從軍,康才畯,李 琳,江 荻
(1. 中國(guó)社科院民族所,北京 100081;2. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810004;3. 中國(guó)科學(xué)院軟件研究所,北京 100190)
自動(dòng)語(yǔ)義角色標(biāo)注(Semantic Role Labeling,縮寫為SRL)是自然語(yǔ)言處理的重要任務(wù),對(duì)提高語(yǔ)言信息處理系統(tǒng)的性能具有重要的意義。語(yǔ)義角色標(biāo)注的過程可以表述為: 設(shè)立一套標(biāo)簽體系(角色分類體系),部分地標(biāo)注句子的成分結(jié)構(gòu)(能承載語(yǔ)義角色),使計(jì)算機(jī)自動(dòng)的獲得一定的“理解”能力。
最早研究SRL的是Gildea和Jurafsky,他們開發(fā)了一套SRL系統(tǒng),經(jīng)對(duì)不同的兩套語(yǔ)料測(cè)試,實(shí)驗(yàn)結(jié)果準(zhǔn)確率分別約為82%和65%[1]。在CoNLL2004會(huì)議中,他們提交的論文強(qiáng)調(diào)對(duì)句法組塊進(jìn)行分類,在訓(xùn)練語(yǔ)料相同的情況下,比較了詞到詞與短語(yǔ)到短語(yǔ)的標(biāo)注結(jié)果,測(cè)試結(jié)果為準(zhǔn)確率72.43%、召回率66.77%和F值為69.49[2]。CoNLL2007會(huì)議設(shè)立一個(gè)Session討論SRL[3]。CoNLL2008又把SRL作為主要的評(píng)測(cè)任務(wù),并以依存句法分析為基礎(chǔ),考察SRL和句法分析結(jié)果[4]。我國(guó)學(xué)者也較早地參與SRL研究,在2005的CoNLL會(huì)議的評(píng)測(cè)會(huì)上,劉挺等采用了最大熵模型進(jìn)行英語(yǔ)SRL研究,以句法成分為標(biāo)注單元,并加入了規(guī)則后處理模塊,標(biāo)注的結(jié)果為: 準(zhǔn)確率79.65%,召回率71.34%和F值75.27[5]。漢語(yǔ)語(yǔ)義角色標(biāo)注研究也取得了一系列的成果[6-8],尤其是丁偉偉等人嘗試了基于語(yǔ)義組塊的漢語(yǔ)語(yǔ)義角色標(biāo)注研究,獲得了不錯(cuò)的效果[9]。
藏語(yǔ)目前沒有公開可用的句法樹庫(kù)資源,難以采用句法成分和依存句法的語(yǔ)義角色標(biāo)注研究。但是藏語(yǔ)具有比較豐富的句法標(biāo)記,這些標(biāo)記可以把一個(gè)藏語(yǔ)句子天然地切分成一定數(shù)目的塊(語(yǔ)義組塊),文獻(xiàn)[10-13]從不同的角度對(duì)藏語(yǔ)的組塊進(jìn)行了討論,但是未討論組塊與語(yǔ)義角色之間的對(duì)應(yīng)關(guān)系。本文嘗試采用統(tǒng)計(jì)和規(guī)則相結(jié)合的多策略的方法進(jìn)行基于語(yǔ)義塊的語(yǔ)義角色標(biāo)注研究。規(guī)則的獲得主要通過手工編制初始規(guī)則集,利用錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)的方法獲得擴(kuò)充規(guī)則集,然后利用這些規(guī)則對(duì)基于條件隨機(jī)場(chǎng)模型的語(yǔ)義角色標(biāo)注結(jié)果進(jìn)行校正。
語(yǔ)義組塊的分類需要關(guān)注兩個(gè)問題: 塊的邊界和塊的類型,藏語(yǔ)中的標(biāo)記兼顧了塊邊界識(shí)別與塊的類型識(shí)別兩大功能,下面以例句1來(lái)說(shuō)明。
khos ngavi rlangs vkhor gsar bar bstod pa byed kyin yod.
他對(duì)我的新汽車夸贊。
SRL具有語(yǔ)言工程研究特點(diǎn),語(yǔ)義角色的分類將應(yīng)用到語(yǔ)料標(biāo)注中去,實(shí)踐性強(qiáng)。如果分類過細(xì),對(duì)語(yǔ)言研究來(lái)說(shuō)當(dāng)然是件好事,但在實(shí)際語(yǔ)料標(biāo)注中,會(huì)遇到很多困難。如果分類過粗,也許達(dá)不到研究的目的。因此一個(gè)大致合適的語(yǔ)義角色分類體系是十分必要的。袁毓林專門對(duì)語(yǔ)義角色分類的精細(xì)等級(jí)進(jìn)行了探討,現(xiàn)有的語(yǔ)義角色分類可以粗略的分為微觀、中觀和宏觀三個(gè)等級(jí)。微觀分類包括基于特定動(dòng)詞和基于特定領(lǐng)域的語(yǔ)義角色。中觀層級(jí)的分類包括各種語(yǔ)義格的分類,它是基于動(dòng)詞類而不是具體的動(dòng)詞。宏觀層級(jí)的分類包括原型施事(Proto-Agent)與原型受事(Proto-Patient)[14]。藏語(yǔ)的語(yǔ)義角色分類需要關(guān)注格及助詞的標(biāo)記特征以及動(dòng)詞的類型特征,因此分類的結(jié)果與中觀層級(jí)的分類相近。同時(shí)本文作者還擬定了如下的3個(gè)分類原則:
(1) 參照性原則。所謂參照性就是充分借鑒現(xiàn)有英、漢語(yǔ)中語(yǔ)義角色分類體系的成功經(jīng)驗(yàn)[15-20],結(jié)合藏語(yǔ)語(yǔ)言實(shí)際特點(diǎn),加工改造。
(2) 注重標(biāo)記特征原則。一種語(yǔ)言中的句法標(biāo)記特征越多,計(jì)算機(jī)對(duì)這種語(yǔ)言的句法理解就更容易把握。藏語(yǔ)與漢語(yǔ)相比,以格標(biāo)記為核心的句法標(biāo)記十分豐富, 是語(yǔ)義角色分類 的 重 要 依 據(jù)。表1列 示了句法標(biāo)記與可能的語(yǔ)義角色的對(duì)應(yīng)關(guān)系。
表1 句法標(biāo)記與語(yǔ)義角色對(duì)應(yīng)關(guān)系
(3) 角色配對(duì)原則。句法標(biāo)記并不能與語(yǔ)義角色構(gòu)成一一對(duì)應(yīng)關(guān)系,仍然存在部分無(wú)標(biāo)記的語(yǔ)義組塊。針對(duì)這種情況,本文作者在對(duì)語(yǔ)義角色分類時(shí)充分考慮了無(wú)標(biāo)記與有標(biāo)記的語(yǔ)義角色塊在一個(gè)句子中的配對(duì)關(guān)系,例如,施事與受事,領(lǐng)事與屬事,系事與類事,使役與受役之間存在配對(duì)關(guān)系;特殊句型與語(yǔ)義角色的關(guān)系,例如,領(lǐng)事、屬事與領(lǐng)有句有關(guān),系事與類事與判斷句有關(guān),使役與受役與使動(dòng)句有關(guān)等。
綜合以上的各種因素,本文作者最終為藏語(yǔ)設(shè)計(jì)了22個(gè)語(yǔ)義角色類型,具體如表2所示。
表2 藏語(yǔ)語(yǔ)義角色分類體系
與統(tǒng)計(jì)方法相比,規(guī)則方法在自然語(yǔ)言處理中并無(wú)明顯優(yōu)勢(shì),這對(duì)于資源豐富、數(shù)據(jù)獲取便利的大語(yǔ)種來(lái)說(shuō)更是如此。但是對(duì)于資源少、句法標(biāo)記較豐富的藏語(yǔ)來(lái)說(shuō),在現(xiàn)階段,也不失為一種有益的嘗試。為此,本文采用手工編制初始規(guī)則集和利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法(Transformation-Based Error-driven Learning, TBL)對(duì)規(guī)則庫(kù)進(jìn)行泛化,從而獲得擴(kuò)充規(guī)則集。
初始規(guī)則包括語(yǔ)義塊邊界規(guī)則和語(yǔ)義角色與格標(biāo)記及助詞的對(duì)應(yīng)規(guī)則。規(guī)則的獲得主要由人工總結(jié)歸納。語(yǔ)義塊邊界規(guī)則由左邊界、右邊界、雙邊界和左右邊界例外四個(gè)部分組成。其中左右邊界例外是一個(gè)調(diào)節(jié)規(guī)則,就是對(duì)左右及雙邊界標(biāo)注結(jié)果進(jìn)行糾錯(cuò)。四個(gè)部分規(guī)則共有271個(gè),右邊界特征114個(gè),雙邊界特征119個(gè),左邊界特征15個(gè)(包括全部動(dòng)詞和否定副詞等特征詞),左右邊界例外特征35個(gè)。語(yǔ)義角色與格標(biāo)記及助詞的對(duì)應(yīng)規(guī)則63個(gè)。
在初始規(guī)則集的基礎(chǔ)上,本文作者采用TBL算法自動(dòng)從語(yǔ)料中學(xué)習(xí)并建立擴(kuò)充規(guī)則集。TBL算法利用學(xué)習(xí)器從語(yǔ)料中自動(dòng)獲取轉(zhuǎn)換規(guī)則集,因此建立一個(gè)高效的學(xué)習(xí)器是TBL算法的關(guān)鍵。學(xué)習(xí)所需資源主要包括以下三方面: (1)正確標(biāo)注語(yǔ)義角色的語(yǔ)料; (2)經(jīng)初始標(biāo)注的語(yǔ)義角色語(yǔ)料; (3)轉(zhuǎn)換規(guī)則模板集合。通過比較資源(1)和資源(2)之間的標(biāo)注差異,得到擴(kuò)充規(guī)則集。
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)是一種判別式概率模型,多用于標(biāo)注或者分析序列材料。在基于統(tǒng)計(jì)的標(biāo)注方法中,條件隨機(jī)場(chǎng)模型具有很好的效果,其模型思想主要來(lái)源于最大熵模型,但又不存在最大熵模型的數(shù)據(jù)稀疏問題;同時(shí)也無(wú)需對(duì)數(shù)據(jù)進(jìn)行不必要的獨(dú)立性假設(shè),在這個(gè)方面也優(yōu)于隱馬爾科夫模型(Hidden Markov Model,HMM)。CRFs通常采用如圖1的一階鏈?zhǔn)浇Y(jié)構(gòu)。
圖1 CRFs鏈?zhǔn)綀D
語(yǔ)義角色標(biāo)注的標(biāo)簽設(shè)計(jì)十分關(guān)鍵,在訓(xùn)練語(yǔ)料不豐富的前提下,標(biāo)簽的數(shù)量會(huì)直接影響標(biāo)注的效果。本文的語(yǔ)義角色標(biāo)注所使用的語(yǔ)料經(jīng)人工標(biāo)注,標(biāo)注語(yǔ)料能夠提供詞性信息、語(yǔ)義組塊邊界信息和語(yǔ)義角色標(biāo)記信息。如果把這些信息結(jié)合起來(lái)考慮,設(shè)計(jì)一套聯(lián)合標(biāo)簽,在一定程度上,可能會(huì)提高標(biāo)注效果。邊界標(biāo)記使用了BIE標(biāo)記法,單詞成塊或者塊外標(biāo)點(diǎn)為S,塊開始用B,塊結(jié)尾用E, 塊中間用I。
語(yǔ)義角色以角色類型作為標(biāo)簽。聯(lián)合標(biāo)簽還包括詞形和詞性,具體情況如表3所示。
表3 語(yǔ)義角色標(biāo)注聯(lián)合標(biāo)簽
條件隨機(jī)場(chǎng)算法中,數(shù)據(jù)的很多重要信息是通過特征函數(shù)給出的。CRF工具以特征模板的方式,給出這些特征函數(shù)的定義,使選取特征和定義特征函數(shù)非常方便。本文所使用的特征包括詞形信息、詞性信息、語(yǔ)義組塊音節(jié)長(zhǎng)度信息、謂語(yǔ)動(dòng)詞類型信息以及謂語(yǔ)動(dòng)詞與語(yǔ)義組塊之間的距離信息。這些信息的具體描述如下:
音節(jié)長(zhǎng)度: 是指一個(gè)語(yǔ)義組塊的音節(jié)數(shù)量,語(yǔ)義組塊的平均音節(jié)數(shù)量可以作為語(yǔ)義組塊邊界識(shí)別的參考。
謂語(yǔ)動(dòng)詞類型: 是指謂語(yǔ)動(dòng)詞的語(yǔ)義類型,本項(xiàng)研究按照動(dòng)詞必有論元的數(shù)量對(duì)動(dòng)詞分類,分為一元?jiǎng)釉~、二元?jiǎng)釉~和三元?jiǎng)釉~。動(dòng)詞語(yǔ)義類型可以影響動(dòng)詞攜帶語(yǔ)義角色的數(shù)量。
謂語(yǔ)動(dòng)詞與語(yǔ)義塊的距離: 是指謂語(yǔ)動(dòng)詞與承載語(yǔ)義角色塊之間間隔的音節(jié)數(shù),一般來(lái)說(shuō)受事語(yǔ)義角色與謂語(yǔ)動(dòng)詞近,施事語(yǔ)義角色離動(dòng)詞遠(yuǎn),這些特征可能有效地輔助推斷語(yǔ)義角色。
本文使用由日本松本實(shí)驗(yàn)室的Taku Kudo博士開發(fā)的CRF++軟件包[21]。首先構(gòu)建一個(gè)Baseline系統(tǒng),該系統(tǒng)只選擇詞形及詞性作為特征,其識(shí)別結(jié)果作為后續(xù)實(shí)驗(yàn)比較的基準(zhǔn)。在后續(xù)實(shí)驗(yàn)中增加新特征,通過與Baseline結(jié)果的比較,確定添加的特征對(duì)語(yǔ)義塊的識(shí)別是否有效。添加的特征分別是語(yǔ)義塊音節(jié)長(zhǎng)度、謂語(yǔ)動(dòng)詞類型和謂語(yǔ)動(dòng)詞與語(yǔ)義塊的距離三個(gè)特征。選取約5 000個(gè)手工標(biāo)注語(yǔ)義組塊邊界和語(yǔ)義角色類型的句子作為訓(xùn)練語(yǔ)料,用同類型的500個(gè)句子作為測(cè)試語(yǔ)料來(lái)檢驗(yàn)算法的性能。
本文采用語(yǔ)言信息處理通用評(píng)價(jià)指標(biāo)來(lái)檢驗(yàn)語(yǔ)義組塊標(biāo)注結(jié)果的效率,這些指標(biāo)是準(zhǔn)確率(P)、召回率(R)和F值,計(jì)算公式如式(1)~(3)所示。
實(shí)驗(yàn)結(jié)果表明,利用詞形和詞性的baseline模板的語(yǔ)義角色標(biāo)注準(zhǔn)確率、召回率和F值分別為68.88%、63.10%和64.85%。當(dāng)分別加入語(yǔ)義組塊音節(jié)特征、謂語(yǔ)動(dòng)詞類型特征和語(yǔ)義塊與謂語(yǔ)動(dòng)詞的距離特征后,獲得的標(biāo)注效果都有明顯的提升,其中加入語(yǔ)義組塊音節(jié)特征效果最為明顯,準(zhǔn)確率、召回率和F值分別提高到78.60%、71.34%和74.80%。第二個(gè)具有明顯作用的特征是謂語(yǔ)動(dòng)詞與語(yǔ)義角色塊的距離特征,謂語(yǔ)動(dòng)詞類型特征同樣也能提高標(biāo)注效果,具體情況如圖2所示。
圖2 加入不同特征測(cè)試指標(biāo)的變化情況
基于統(tǒng)計(jì)的方法在邊界識(shí)別與語(yǔ)義角色標(biāo)注中出現(xiàn)的錯(cuò)誤類型可以概括為如下幾種:
(1) 邊界識(shí)別錯(cuò)誤。如例句2:
這個(gè)句子的邊界識(shí)別結(jié)果為:
這個(gè)句子的邊界識(shí)別結(jié)果為:
(2) 邊界識(shí)別正確,語(yǔ)義角色標(biāo)注錯(cuò)誤。語(yǔ)義角色標(biāo)注的錯(cuò)誤表現(xiàn)有: 語(yǔ)義角色未標(biāo)注,語(yǔ)義角色標(biāo)注的位置錯(cuò)誤和語(yǔ)義角色選擇錯(cuò)誤。如例句4、5。
利用已經(jīng)建立的邊界規(guī)則庫(kù)和語(yǔ)義角色標(biāo)注規(guī)則來(lái)優(yōu)化統(tǒng)計(jì)標(biāo)注的結(jié)果,在訓(xùn)練語(yǔ)料規(guī)模有限的情況下可能會(huì)產(chǎn)生一定的效果。因此我們利用手工編制初始規(guī)則集和利用TBL方法獲得的擴(kuò)充規(guī)則集對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行校正。在進(jìn)行第二次實(shí)驗(yàn)時(shí),本文選擇了統(tǒng)計(jì)標(biāo)注最好結(jié)果作為規(guī)則校正的對(duì)象。圖3表示baseline統(tǒng)計(jì)方法標(biāo)注、加入語(yǔ)義組塊音節(jié)數(shù)統(tǒng)計(jì)方法標(biāo)注以及統(tǒng)計(jì)和規(guī)則相結(jié)合的標(biāo)注三種實(shí)驗(yàn)結(jié)果的對(duì)比。
從圖3可以看到,利用規(guī)則方法對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行校正,與單純依靠統(tǒng)計(jì)方法相比,實(shí)驗(yàn)結(jié)果有大幅度的提升,準(zhǔn)確率、召回率和F值分別達(dá)到了82.78%、85.71%和83.91%,可見規(guī)則方法的調(diào)節(jié)效果還是比較明顯的。
圖3 三種方法標(biāo)注結(jié)果對(duì)比圖
語(yǔ)義角色標(biāo)注研究屬于淺層句法分析的主要內(nèi)容之一,在當(dāng)前完全句法分析存在諸多困難的情況下,開展淺層句法分析可以有效地提高機(jī)器分析與理解自然語(yǔ)言的能力。語(yǔ)義角色標(biāo)注研究的成果在機(jī)器翻譯、自動(dòng)問答、信息抽取等諸多領(lǐng)域都可以得到廣泛使用。本文探討了藏語(yǔ)語(yǔ)義角色標(biāo)注研究,通過利用統(tǒng)計(jì)和規(guī)則相融合的策略,提升了語(yǔ)義角色標(biāo)注的效果,實(shí)驗(yàn)結(jié)果準(zhǔn)確率達(dá)到了82.78%。但是本項(xiàng)研究中,對(duì)嵌套語(yǔ)義組塊和長(zhǎng)距離語(yǔ)義組塊的標(biāo)注效果并不理想,這類錯(cuò)誤拉低了標(biāo)注的準(zhǔn)確率。在后續(xù)研究中,除了擴(kuò)充大規(guī)模的訓(xùn)練語(yǔ)料和精細(xì)化規(guī)則集之外,還需要對(duì)嵌套語(yǔ)義組塊和長(zhǎng)距離語(yǔ)義組塊進(jìn)行專門的糾錯(cuò)處理。
[1] Daniel Gildea, Daniel Jurafsky. Automatic Labeling of Semantic Roles, Computational Linguistics[J], 2002,28(3): 245-288.
[2] Kadri Hacioglu, Sameer Pradhan, Wayne Ward, et al. Semantic Role Labeling by Tagging Syntactic Chunks[C]//Proceedings of ConNLL-2004.
[3] http://www.cs.jhu.edu/EMNLP-CoNLL-2007/.
[4] http://www.clips.ua.ac.be/conll2008/.
[5] Ting Liu, Wanxiang Che, Sheng Li, et al.Semantic Role Lableing System using Maximum Entropy Classifer[C]//Proceedings of ConNLL-2005.
[6] Yu Jiangde, Fan Xiaozhong,Pang Wenbo, et al. Semantic Role Labeling Based on Conditional Random Fields, Journal of Southeast University[J]. 2007,23(3): 361-364.
[7] 王步康,王紅玲等. 基于依存句法分析的中文語(yǔ)義角色標(biāo)注[J],中文信息學(xué)報(bào),2010,24(1): 25-47.
[8] 劉挺,車萬(wàn)翔等. 基于最大熵分類器的語(yǔ)義角色標(biāo)注[J], 軟件學(xué)報(bào),2007,18(3): 565-573.
[9] 丁偉偉,常寶寶. 基于語(yǔ)義組塊分析的漢語(yǔ)語(yǔ)義角色標(biāo)注[J],中文信息學(xué)報(bào),2009,23(5): 53-74.
[10] 江荻. 現(xiàn)代藏語(yǔ)的句法組塊與形式標(biāo)記[A].語(yǔ)言計(jì)算與基于內(nèi)容的文本處理,孫茂松,陳群秀主編.北京:清華大學(xué)出版社.2003: 160-166.
[11] 江荻. 面向機(jī)器處理的現(xiàn)代藏語(yǔ)句法規(guī)則和詞類,組塊標(biāo)注集[A], 江荻,孔江平主編, 中國(guó)民族語(yǔ)言工程研究新進(jìn)展, 北京: 社會(huì)科學(xué)文獻(xiàn)出版社,2005: 13-106.
[12] 李琳,龍從軍,江荻. 藏語(yǔ)句法功能組塊的邊界識(shí)別[J]. 中文信息學(xué)報(bào), 2013,27(6): 165-168.
[13] 龍從軍,江荻.現(xiàn)代藏語(yǔ)帶助動(dòng)詞謂語(yǔ)組塊的識(shí)別方法[A].第2屆青年計(jì)算語(yǔ)言學(xué)會(huì)議論文[C].2004.
[14] 袁毓林. 語(yǔ)義角色的精細(xì)等級(jí)及其在信息處理中的應(yīng)用[J],中文信息學(xué)報(bào),2007,2(4): 10-20.
[15] 周強(qiáng),詹衛(wèi)東,任海波. 構(gòu)建大規(guī)模的漢語(yǔ)語(yǔ)塊庫(kù)[A],清華大學(xué)出版社. 自然語(yǔ)言理解與機(jī)器翻譯,2001: 102-107.
[16] 周強(qiáng),孫茂松. 漢語(yǔ)句子的組塊分析體系[J],計(jì)算機(jī)學(xué)報(bào),1999, 22(11): 1158-1165.
[17] 楊敏,常寶寶. 基于北京大學(xué)中文網(wǎng)庫(kù)的語(yǔ)義角色分類[J],中文信息學(xué)報(bào),2011,25(2): 3-8.
[18] http://www.keenage.com/.
[19] 魯川. 漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)[M],商務(wù)印書館,2001: 111.
[20] 林杏光. 詞匯語(yǔ)義和計(jì)算語(yǔ)言學(xué)[M],語(yǔ)文出版社,1999: 184.
[21] http://CRFspp.googlecode.com/svn/trunk/doc/index.html.