王智強,李 茹,2,陰志洲,劉海靜,李雙紅
(1.山西大學計算機與信息技術(shù)學院,山西太原030006;2.計算智能與中文信息處理教育部重點實驗室,山西太原030006;3.School of Information Technologies,University of Sydney)
語義角色標注是對一個句子中謂詞所支配的論元進行識別、分類,其實質(zhì)是在句子級進行淺層語義分析。該標注任務是自然語言處理中的一項重要任務,由于語義角色標注可以直接獲得句子層面“謂詞—論元”形式的語義結(jié)構(gòu)信息,因此它能夠有效應用于自然語言處理的許多領(lǐng)域,如問答系統(tǒng)、信息抽取、機器翻譯、文本摘要等。
語義角色標注按語料庫資源劃分,主要有基于英文的PropBank[1]、NomBank[2]、FrameNet[3]以及漢語的PropBank、FrameNet。英文方面,最早是Dan Gildea與Dan Jurafsky[4]在FrameNet上的工作,在完全句法分析基礎上,選取短語類型、句法功能、位置、語態(tài)、中心詞、路徑等大量特征,使用條件概率估計方法,最終取得了65%的準確率(precision)和61%的召回率(recall)。隨著賓夕法尼亞大學的英文PropBank的建立,語義角色標注任務越來越受到國際自然語言處理領(lǐng)域的關(guān)注。許多統(tǒng)計學習的方法被應用于語義角色標注任務中,其中包括J Chen[5]、Prandhan[6]、Cohn[7]、Surdeanu[8]、劉挺[9]等的工作。劉挺[9]等基于PropBank,以句法成分為基本標注單元,使用最大熵分類模型在開發(fā)集和測試集上分別獲得了75.49%和75.60%的F值。國際上也先后舉行了多次語義角色標注任務的評測,其中在基于FrameNet的語義角色標注評測任務(SemEval 2007)[10]中,達到了86.9%的準確率與75.2%的召回率。
漢語方面,有Xue等[11]基于Chinese PropBank的研究,通過使用人工標記的句法樹,獲得了94.1%的F值,但如果采用自動句法分析,只能達到71.9%的F值。這說明句法分析性能很大程度上制約了語義角色標注。為了克服這種制約,丁偉偉等[12]基于語義組塊進行漢語語義角色標注,將傳統(tǒng)的“句法分析—語義角色識別—語義角色分類”簡化為“語義組塊識別—語義組塊分類”,突破了漢語句法分析器的時間和性能限制,取得了一定的結(jié)果。王鑫等[13]將中文語義角色標注建立在淺層句法分析基礎上,利用構(gòu)詞法獲得目標動詞的語素特征,在細粒度上描述了動詞本身的結(jié)構(gòu),為角色標注提供了更多的信息,相比前人工作有顯著的提升。王步康等[14]實現(xiàn)了一個基于依存句法的漢語語義角色標注系統(tǒng),該系統(tǒng)通過抽取依存句法樹上的特征進行角色標注。針對漢語FrameNet的框架語義角色標注,有劉開瑛等[15]基于層疊條件隨機場對句子進行的框架元素、短語類型、句法功能的三層標注。李濟洪等[16]采用條件隨機場模型,以詞為基本標注單元,在25個框架的6 692個例句中獲得了61.62%的F值。由于框架語義角色種類眾多,類型豐富,加之漢語自身比較靈活,導致漢語框架語義角色標注性能偏低。
本文在詞、詞性層面特征的基礎上,利用樹條件隨機場模型,通過加入依存句法層面的特征進行漢語框架語義角色自動標注。第2節(jié)為框架語義角色標注的相關(guān)概念及任務描述;第3節(jié)為介紹樹條件隨機場及特征選擇;第4節(jié)為實驗設置與結(jié)果分析;最后為總結(jié)與展望。
漢語框架網(wǎng)[17]
漢語框架網(wǎng)(Chinese FrameNet,CFN)是以C J Fillmore的框架語義學為理論基礎、以加州大學伯克利分校的FrameNet為參照、以語料庫為事實依據(jù)的計算詞典編纂工程??蚣苷Z義學認為,“框架”是一個與激活性語境相一致的結(jié)構(gòu)化范疇系統(tǒng),是存儲在人類認知經(jīng)驗中的圖示化情境。
為了便于理解框架語義角色標注任務,以下主要介紹框架語義角色標注中目標詞與框架元素的概念。
框架元素[17]
框架中涉及的各種參與者、外部條件和其他概念角色,稱為框架元素(Frame Elements)??蚣茉胤譃楹诵目蚣茉?、非核心框架元素和通用的非核心框架元素。核心框架元素是一個框架在概念理解上的必有成分,它們在不同框架中的類型和數(shù)量不同,顯示出框架的個性。非核心框架元素并不顯示框架的個性,僅表達時間、空間、環(huán)境條件、原因、目的等外圍語義成分。
與傳統(tǒng)的語義角色或者格角色相比而言,語義角色或者格角色是相對詞匯而言的,而框架元素僅適用于具有相同框架背景的一組詞語,它擺脫了格角色個數(shù)無法確定的問題,因此用其來描述自然語言的語義更為合適,但也增加了標注的難度。
目標詞[17]
框架承擔詞,它包括動詞、形容詞和名詞,它們是標注工作的著眼點,與通常所說的謂詞相當。
例如:
<前幾年time>,<一名大學生cog><tgt=“發(fā)明”發(fā)明>了<一種電腦病毒inv>。
其中,詞語“發(fā)明”屬于“發(fā)明”框架的詞元集合,是句子的目標詞(tgt)。<一名大學生cog>則表示“一名大學生”是句子中“發(fā)明”框架的核心框架元素“認知者[cog]”。核心元素和非核心元素都是與所給定的框架密切相關(guān)的,框架不相同時,對應的核心元素和非核心元素也不相同。
CFN中的一個框架下通常包含多個目標詞,即一個框架可以被多個目標詞激起。對于一個目標詞來說,當它存在多個義項時,它又可以激起多個框架。一般地,把確定句子中目標詞所屬框架的任務稱之為框架識別任務,框架語義角色標注任務有時將框架識別任務合在一起,例如SemEval 2007 Task-19;也有在直接給定目標詞及所屬框架的基礎上進行語義角色標注。本文的框架語義角色標注任務為后者,且將框架語義角色的邊界識別與分類合為一步,具體如下:
例句:前幾年,一名大學生發(fā)明了一種電腦病毒。
給定目標詞“發(fā)明”及其所述框架“發(fā)明”,在此框架下所包含的框架語義角色類型有:
核心框架元素:
Cog:認知者Inv:發(fā)明
非核心框架元素:
Degr:程度Depic:形容Loc_apr:出現(xiàn)地點Manr:修飾Mat:材料Mns:方法Place:空間Purp:目的Result:結(jié)果Time:時間
框架語義角色標注的目的是:在給定目標詞及其所屬框架下識別并賦予目標詞所支配的角色與角色類型。
此例的標注結(jié)果為:
<前幾年time>,<一名大學生cog><tgt=發(fā)明>了<一種電腦病毒inv>。
一般地,框架語義角色與通常所講的“語義角色”“格角色”在標注工作中等同對待,不同之處在于框架語義角色(框架元素)是建立在框架概念之上。
近年來,條件隨機場模型被廣泛地應用于自然語言處理序列標注的問題中。條件隨機場模型Conditional Random Fields(CRF)由Lafferty和McCallum等[18]于2001年提出。它將無向圖中的團函數(shù)和最大熵有機地融合到一起,得到一個用來解決序列標注和分割的概率模型。條件隨機場模型不存在隱馬爾科夫模型[19]的強獨立性假設,也不具有最大熵馬爾科夫模型[20]的標注偏執(zhí)問題。繼CRF模型之后,Tree Structured Conditional Random Fields(TCRF)[21-23]越來越多地被應用于語義角色標注任務中,它主要借助層次依賴特征來提高標注的準確性,適用于本文基于依存特征的框架語義角色標注。具體地,我們抽取依存句法樹中的依存特征,對于特征向量:
其中,fj、gk、sl分別表示當前節(jié)點、當前節(jié)點的父節(jié)點、當前節(jié)點的子節(jié)點的特征函數(shù),分別乘以其相應的特征權(quán)重向量λ= (λ1,λ2,…,λn)T,η=(η1,η2,…,ηn)T,σ= (σ1,σ2,…,σn)T可得式(1)、式(2)和式(3)。
v表示句中詞語對應在樹中的節(jié)點,v′表示v的父節(jié)點,v″表示v的子節(jié)點。則對于觀察值x,最終輸出y的概率為式(4)。
在框架語義角色標注的任務中,觀察值x代表句子中的當前詞,y則代表當前詞x所承擔的框架語義角色。
基于統(tǒng)計機器學習的語義角色標注中,特征選擇是關(guān)鍵。條件隨機場模型中的特征選擇可以通過定義特征的窗口,來描述標注單元與其上下文的某種依賴關(guān)系。通過各種特征窗口大小的組合來構(gòu)成相應的特征模板,因此特征選擇實際上是特征模板的設置。本文主要關(guān)注不同依存特征對框架語義角色標注的影響,首先選擇基本特征來設置基線模板,在此基礎上加入依存特征,針對加入的不同依存特征設置相應的擴展特征模板,這樣能夠通過比較不同模板下的標注結(jié)果來分析不同依存特征對標注結(jié)果的影響。
文獻[16]以詞為基本標注單元,通過選取基于詞、詞性層面的特征研究了漢語框架語義角色標注,驗證了詞、詞性層面特征對于漢語框架語義角色標注的有效性。因此本文借鑒了其中詞、詞性層面的特征來構(gòu)建基線特征模板。本文選取的依存特征包括依存節(jié)點、依存關(guān)系及其組合特征,并設置了相應的特征模板。
表1為基線模板與擴展模板的特征選取與模板設置情況。
表1 特征選取及模板設置情況
表1共列出了8類特征,每一行表示一類特征。每類特征按窗口大小不同([-1,1]、[-2,2]、[-3,3]),又包含3個特征模板,共計24個特征模板。其中第1類T1、T2、T3為基線模版,其余屬于擴展模版?;€模版中包含詞、詞性及其組合特征,擴展模版則是在基線特征的基礎上加入依存層面特征,所加入的依存特征依次為:當前詞的父節(jié)點、當前詞與父節(jié)點間的依存關(guān)系、“當前詞的父節(jié)點”與“當前詞與父節(jié)點間的關(guān)系”組合特征、當前節(jié)點的子節(jié)點、當前節(jié)點與子節(jié)點間的依存關(guān)系、“當前詞的子節(jié)點”與“當前詞與子節(jié)點間的關(guān)系”組合特征,最后一類模板T22、T23、T24包含以上所有依存特征。
實驗所用測試與訓練語料均來自山西大學構(gòu)建的CFN語料庫及擴充語料。由于目前CFN的語料規(guī)模有限,實驗前期將現(xiàn)有CFN句子庫中“發(fā)明”、“查看”、“擁有”框架下的句子進行擴充,針對每個詞元擴充20條句子,從原有的688條擴充至1 188條。表2為擴充后3個框架下語料規(guī)模及分配情況。
實驗采用哈爾濱工業(yè)大學LTP平臺[24]來對語料進行依存句法分析,并對其中明顯的句法錯誤進行人工校正。語料在分詞、詞性標注、句法分析的基礎上,使用O-S-B-I-E策略對框架語義角色進行標注,記標注集合為{S-X,B-X,I-X,E-X,O},示例如下:
表2 語料規(guī)模及分配情況
我們S-cog設計tgt了O社會B-inv貢獻率I-inv和I-inv社會I-inv積累率I-inv兩個I-inv指標E-inv。O
其中S-cog表示當前詞單獨承擔一個框架語義角色“cog”,B-inv表示當前詞是框架語義角色“inv”的開始,I-inv表示當前詞是框架語義角色“inv”的延續(xù),E則代表當前詞是框架語義角色“inv”的終止,O則表示當前詞不承擔框架語義角色。
實驗中將所選語料例句拆分為5份,為了避免由詞元分配不均所帶來的數(shù)據(jù)稀疏影響,我們將每個框架下不同詞元的例句進行平均分配。實驗采用5-fold交叉驗證,具體做法為:任取語料的4份作為訓練集,其他1份作為測試集,最終的評價指標以交叉驗證實驗結(jié)果的平均值(mP、mR、mF)來評價標注模型的性能。其中mP、mR與mF分別表示為平均準確率、平均召回率及平均F值。實驗主要從以下兩個角度對結(jié)果進行比較分析:
(1)不同依存特征對最終標注結(jié)果的影響;
(2)不同特征對與不同長度的框架語義角色標注影響。
為了比較標注結(jié)果間是否存在顯著性差異時,對模型間的F值進行了差異的顯著性檢驗。具體做法為:假設模型A,B在交叉驗證下的平均F值為mFA,mFB,當兩個模型mFA,mFB的1-α的置信區(qū)間沒有交叉、重疊時,則認為兩模型在置信水平α下有顯著差異,本文取α=0.05。
4.2.1 不同依存特征下的框架語義角色標注情況
實驗對24個特征模板進行逐一測試,在8類不同的特征組合中分別選出標注結(jié)果最好的特征模板為:T3、T4、T7、T10、T13、T16、T19、T22。實驗結(jié)果如表3,其中帶星號的數(shù)字表示該值相對于基線最優(yōu)模版T3的提升具有統(tǒng)計顯著性。
從表中可以看出,擴展模版中的多數(shù)標注結(jié)果比基線模板有所提升。尤其是“發(fā)明”與“查看”框架在T16模版(基線特征中加入當前詞與子節(jié)點間的依存關(guān)系特征)上的測試結(jié)果比基線模板T3(僅包含詞、詞性層面的特征,未加入依存特征)有近3%的顯著提高。可見依存句法層面特征的加入能夠一定程度上改善基于詞層面特征的框架語義角色標注。還可以看到,三個框架在T7模版(基線特征中加入當前節(jié)點與父節(jié)點間的依存關(guān)系特征)上的測試結(jié)果都優(yōu)于T4模版(基線特征中加入當前節(jié)點的父節(jié)點特征);在T16模版(基線特征加入當前節(jié)點與子節(jié)點間的依存關(guān)系特征)上的測試結(jié)果都優(yōu)于T13模版(基線特征中加入當前節(jié)點的子節(jié)點特征),這說明依存節(jié)點間的關(guān)系特征相比依存節(jié)點的特征更有效。另外,三個框架在T4模版(基線特征中加入當前節(jié)點的父節(jié)點特征)上的測試結(jié)果都優(yōu)于T13模板(基線特征加入當前節(jié)點的子節(jié)點特征);在T16模版(基線特征中加入當前節(jié)點與子節(jié)點間的依存關(guān)系特征)上的測試結(jié)果都優(yōu)于T7模板(基線特征中加入當前節(jié)點與父節(jié)點間的依存關(guān)系)。說明依存特征中子節(jié)點層面特征比父節(jié)點層面特征更有效。
4.2.2 依存特征對不同長度框架語義角色的標注影響
追蹤錯誤的標注結(jié)果發(fā)現(xiàn),較長的框架語義角色在邊界識別時錯誤較多。統(tǒng)計了語料中不同長度的框架語義角色在不同特征模板下的標注情況,如圖1所示。
圖1 不同長度的框架語義角色標注情況(模板T3、T4、T13中的測試結(jié)果)
圖1為模板T3(僅包含詞、詞性層面特征未加入依存特征)、T4模版(基線特征中加入當前節(jié)點的父節(jié)點特征)、T13模版(基線特征中加入當前節(jié)點的子節(jié)點特征)下的結(jié)果??梢钥吹?,隨著依存節(jié)點特征的加入,較長框架語義角色的標注情況有所改善,特別是加入子節(jié)點特征之后的改善效果更好。
圖2為模板T3(僅包含詞、詞性層面特征未加入依存特征)、T7模版(基線特征中加入當前節(jié)點與父節(jié)點間的依存關(guān)系)、T16模版(基線特征中加入當前節(jié)點與子節(jié)點間的依存關(guān)系)的測試結(jié)果??梢钥闯觯腹?jié)點關(guān)系與子節(jié)點關(guān)系特征的加入,對較長框架語義角色的標注結(jié)果都有一定的改善,其中加入子節(jié)點關(guān)系特征的改善最為明顯。
圖2 不同長度的框架語義角色標注情況(模板T3、T7、T16中的測試結(jié)果)
本文提出了一種基于依存特征的框架語義角色標注方法,該方法在詞、詞性及其組合特征的基礎上融入依存句法層面的特征,相比僅依賴詞、詞性層面特征的框架語義角色標注,標注結(jié)果有一定提升。進一步比較了依存特征對不同長度框架語義角色的標注影響,發(fā)現(xiàn)依存特征對較長框架語義角色標注結(jié)果有一定改善,這其中子節(jié)點比父節(jié)點特征更為重要,依存關(guān)系比依存節(jié)點更為重要。這些結(jié)論都將為進一步深入的語義角色標注研究提供重要的特征選擇依據(jù)。
模型與特征的選擇只能解決語義角色標注中的部分問題,數(shù)據(jù)稀疏同樣是影響標注結(jié)果的一個重要因素。目前漢語框架語義角色標注性能整體偏低,很大程度是受數(shù)據(jù)稀疏的影響。針對這些問題,今后將進一步擴充標注語料,并嘗試用半監(jiān)督學習方法來提高框架語義角色標注的結(jié)果。
[1] Palmer M,Gildea D,Kingbury P.The Proposition Bank:An Annotated Corpus of Semantic Roles[J].Computational Linguistics,2005,31(1):71-106.
[2] Meyers A,Reeves R,Macleod C.The NomBank Project:An Interim Report[C]//HLT-NAACL Workshop:Frontiers in Corpus Annotation,2004:24-31.
[3] Baker C F,F(xiàn)illmore C J,Lowe J B.The Berkeley FrameNet Project[C]//Proceedings of the ACL,1998:86-90.
[4] Gildea D,Jurafsky D.Automatic Labeling of Semantic Roles[J].Computational Linguistics,2002,28(3):245-288.
[5] Chen J,Rambow O.Use of Deep Linguistic Features for the Recognition and Labeling of Semantic Arguments[C]//Proceedings of EMNLP,2003.
[6] Pradhan S,Hacioglu K,Krugler V,et al.Support vector learning for semantic argument classification[J].Machine Learning,2005,60(1):11-39.
[7] Cohn T,Blunsom P.Semantic role labelling with tree conditional random fields[C]//Proceedings of CoNLL-2005,2005.
[8] Surdeanu M,Màrquez L,Carreras X,et al.Combination Strategies for Semantic Role Labeling[J].Journal of Artificial Intelligence Research,2007,29:105-151.
[9] 劉挺,車萬翔,李生.基于最大熵分類器的語義角色標注[J].軟件學報,2007,18(3):565-573.
[10] Baker CF,Ellsworth M,Erk K.SemEval 2007Task 19:Frame Semantic Structure Extraction[C]//Proceedings of the 4th International Workshop on Semantic Evaluations,2007:99-104.
[11] Xue N W,Palmer M.Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence,2005.
[12] 丁偉偉,常寶寶.基于最大熵原則的漢語語義角色分類[J].中文信息學報,2009,23(5):53-61.
[13] 王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語義角色標注研究[J].中文信息學報,2011,25(1):116-121.
[14] 王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語義角色標注[J].中文信息學報,2010,24(1):25-29.
[15] 劉開瑛,陳雪艷,李濟洪.漢語框架元素自動標注實驗報告[C]//第四屆全國信息檢索與內(nèi)容安全學術(shù)會議,2008,1:48-55.
[16] 李濟洪,王瑞波,王蔚林,等.漢語框架語義角色自動標注[J].軟件學報,2010,21(4):597-611.
[17] 郝曉燕,李茹,劉開瑛.漢語框架語義知識庫及軟件描述體系[J].中文信息學報,2007,21(5):96-100,138.
[18] Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conference on Machine Learning,2001:282-289.
[19] Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proceedings of the IEEE,1989,77(2):257-286.
[20] Mccallum A,F(xiàn)reitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]//Proceedings of ICML,2000:591-598.
[21] Jie Tang,Mingcai Hong,Juanzi Li,et al.Treestructured Conditional Random Fields for Semantic Annotation[C]//Proceedings of 5th International Conference of Semantic Web,2006.
[22] Awasthi,P,Gagrani A,Ravindran B.Image modeling using tree structured conditional random fields[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence.2007:2060-2065.
[23] Trevor Cohn,Philip Blunsom.Semantic role labeling with tree conditional random fields[C]//Proceedings of CoNLL2005.
[24] http://ir.hit.edu.cn/demo/ltp/[EB/OL]