余婧思,師佳璐,楊麟兒,肖 丹,楊爾弘
(1. 北京語言大學 國家語言資源監(jiān)測與研究平面媒體中心,北京 100083;2. 北京語言大學 信息科學學院,北京 100083;3. 信陽學院 文學院,河南 信陽 464000)
句法分析是自然語言處理中的關(guān)鍵技術(shù)之一,它是對輸入文本的句子進行分析以得到其句法結(jié)構(gòu)的過程。依存句法分析是其中的一種表示形式,其用于分析輸入的句子的句法結(jié)構(gòu),將詞語序列轉(zhuǎn)化為樹狀的依存結(jié)構(gòu)[1],來捕獲句子內(nèi)部詞語之間的修飾或搭配關(guān)系,描述句法結(jié)構(gòu)。依存句法分析廣泛應(yīng)用于自然語言處理的多個領(lǐng)域,如在搭配抽取中,通過大規(guī)模的語料進行依存句法分析,從中抽取想要的依存弧以獲得具有句法關(guān)系的詞對,再通過詞對之間的共現(xiàn)頻次、互信息、聯(lián)合熵等統(tǒng)計方法來說明詞對之間的相關(guān)性;再如在信息抽取中,利用依存句法分析來抽取關(guān)系三元組,進而達到信息抽取的目的。
依存句法分析在準確地反映句法關(guān)系、描述句法結(jié)構(gòu)的同時,也帶有一些淺層的語義表示,但語義關(guān)系還不夠明確,一些實詞之間的關(guān)系沒有直接明確地表示出來,且缺乏對句法轉(zhuǎn)換的抽象。此外,一些依存標簽被用于多種情況,難以區(qū)分,在自然語言理解的下游任務(wù),如信息抽取、文本挖掘、語義分析中,就需要投入許多工作來處理語法樹。因此,研究人員在依存句法的基礎(chǔ)上提出了增強依存句法,來滿足依存句法反映語義信息的需求。目前,增強依存句法在英語上已獲得了有益的探索,并在信息抽取、關(guān)系抽取上得到了應(yīng)用,但在漢語中還未見相關(guān)研究。
本文在斯坦福依存句法規(guī)范的基礎(chǔ)之上,制定了增強的依存句法規(guī)范,從利于搭配抽取和自然語言理解的角度重新構(gòu)建依存圖,將實詞之間的語義關(guān)系顯性地展示出來,并統(tǒng)一句式轉(zhuǎn)換中的依存句法關(guān)系,以便于進一步的研究和應(yīng)用(1)本文代碼已公開在GitHub平臺上,網(wǎng)址為: https://github.com/blcuicall/chinese-enhanced-dependencies。
斯坦福依存句法框架中提出了幾種對句法結(jié)構(gòu)進行面向語義修改的方案,引入了Collapsed Dependencies和CCprocessed Dependencies兩種形式[2]。Collapsed Dependencies折疊了涉及介詞(包括功能類似于介詞的多詞結(jié)構(gòu))、連詞以及關(guān)系從句所指信息的依存關(guān)系,從而得到實詞之間的直接依存關(guān)系,這對于關(guān)系抽取應(yīng)用很有用。此外,該方案還考慮了其他依存關(guān)系,如關(guān)系子句及其先行詞、xsubj關(guān)系和pobj關(guān)系,甚至破壞了樹結(jié)構(gòu),將依存關(guān)系結(jié)構(gòu)轉(zhuǎn)換為有向圖。CCprocessed Dependencies在Collapsed Dependencies的基礎(chǔ)上,增加了并列詞的傳播,即當句中存在并列連詞時,一個并列詞的依存關(guān)系可以傳播到其他并列詞。這樣,通過額外增添的和增強的關(guān)系,實詞之間的關(guān)系更加明顯,多數(shù)涉及實詞之間關(guān)系的系統(tǒng)通常會采用這兩種形式。
通用依存項目(Universal Dependences, UD)在第一個版本(UD v1)中[3]同樣提出了增強依存(Enhanced Dependencies)的概念,它增加額外的依存關(guān)系來表示先行詞與關(guān)系從句中某個成分之間的主語關(guān)系,并在并列詞之間傳播關(guān)系。Schuster和Manning[4]詳細描述了增強英語UD(enhanced English UD),并介紹了更適用于自然語言理解任務(wù)的增強++表示(enhanced++ representation),對量名詞短語和輕名詞結(jié)構(gòu)、多詞介詞、并列的介詞或介詞短語、關(guān)系代詞的表示作了改進,并提供了轉(zhuǎn)換器,實現(xiàn)了從基礎(chǔ)依存句法(Basic Dependencies)到增強英語UD圖和增強++英語UD圖的轉(zhuǎn)換。UD v2[5]在先前研究的基礎(chǔ)上,定義了五種增強類型: ①省略謂語的空節(jié)點; ②并列項的傳播; ③控制和提升主語; ④關(guān)系代詞; ⑤case信息。
Candito等人[6]給出了更進一步的改進,他們沿著兩個方向來豐富增強依存框架: 擴展非限定性動詞的論元依存類型(包括分詞、控制名詞和形容詞、非限定動詞以及更多不定式動詞的情況)、中和句法轉(zhuǎn)換(包括被動語態(tài)、中間被動語態(tài)、非人稱和使役)。Nivre等人[7]評估了向UD現(xiàn)有樹庫添加增強依存句法的兩種跨語言技術(shù),分別是為英語開發(fā)的基于規(guī)則的系統(tǒng)和在芬蘭語、瑞典語和意大利語上訓練的數(shù)據(jù)驅(qū)動系統(tǒng)。結(jié)果表明,這兩種系統(tǒng)都足夠精確,可以在現(xiàn)有的UD樹庫中引入增強依存關(guān)系。
由于英語增強UD的轉(zhuǎn)換不支持Python,且覆蓋范圍有限,Tiktinsky等人[8]制定了BART表示,引入了覆蓋范圍廣的、數(shù)據(jù)驅(qū)動的、語言學上合理的增強依存轉(zhuǎn)化集,包括四種結(jié)構(gòu)的增強: 嵌套結(jié)構(gòu)、并列結(jié)構(gòu)、句式轉(zhuǎn)換以及以事件為中心的表示,該轉(zhuǎn)化集使事件結(jié)構(gòu)和許多詞匯關(guān)系更加明確。此外,他們提供了一個易于使用的開源Python庫pyBART(2)該項目已公開在GitHub平臺上,并提供了UD-BART轉(zhuǎn)換網(wǎng)頁演示,網(wǎng)址為: https://allenai.github.io/pybart/,用于將英語UD樹轉(zhuǎn)換為增強UD圖或BART表示。該庫可以作為一個獨立的包工作,也可以集成在一個spaCy流水線中。
當在信息抽取任務(wù)中進行評估時,使用增強依存分析結(jié)果,可以通過更少的訓練樣本得到更多的信息,因此BART表示比英語增強UD產(chǎn)生更高的提取分數(shù)。
本文基于斯坦福依存句法,在借鑒英文增強依存句法思想的基礎(chǔ)上,制定了增強依存句法標注規(guī)范。該規(guī)范通過修改依存標簽、添加弧或節(jié)點的方式,將依存句法樹轉(zhuǎn)換為可以表示更多信息的依存句法圖,顯性地展示實詞之間的語義關(guān)系,從而更有利于自然語言處理下游任務(wù)的應(yīng)用。
介詞和連詞是構(gòu)造句子時較為常用的詞類,對于句意的理解有很大的影響,當一句話中介詞或連詞發(fā)生改變時,句意可能會發(fā)生巨大的改變。
例如,在“我給小王講了個故事”和“我替小王講了個故事”這兩句話中,只有介詞“給”和“替”發(fā)生了改變,但句意卻完全不同,在前一句話中,動作“講”的對象是“小王”,而后一句話中,“講”的對象并沒有在句中出現(xiàn)。
在自然語言理解任務(wù)中,由于依存句法還帶有一定的語義信息,所以常常通過依存句法來識別和提取所需信息,但是,當句中含有介詞或連詞時,基礎(chǔ)依存句法不能完全滿足自然語言理解任務(wù)中直接通過詞之間的依存弧提取信息的需求。因此,需要對介詞和連詞來進行增強,以更好地適應(yīng)自然語言理解及其下游任務(wù)。
介詞的增強在基礎(chǔ)依存句法規(guī)范中,當一個介詞短語修飾其他實詞時,依存弧通常連接在介詞短語中的實詞和被修飾詞上,增強依存句法規(guī)范要求,把介詞添加在該弧的依存標簽上,原標簽與添加的介詞中間用“_”連接,如圖1中將該依存弧的依存標簽修改為“nmod: prep_向”。這有助于消除介詞短語修飾時的歧義,促進實詞之間關(guān)系的提取,特別是當只通過兩個節(jié)點之間的依存弧來提取信息時,增強后的依存句法包含的信息更多,更有利于語義理解。
除了此類單獨出現(xiàn)的介詞,漢語中還有一類特殊的介詞,即框式介詞。劉丹青在《漢語框式介詞》一書中最早引入“框式介詞”的概念,認為“框式介詞是由前置詞和后置詞構(gòu)成的使介詞支配的成分夾在中間的一種介詞類型”[9]。在增強依存句法中,用依存弧連接框式介詞短語與被框式介詞短語修飾的實詞時,依存標簽中也要把框式介詞的兩個部分都加上,兩個部分中間用省略號連接。如圖2中的依存標簽“nmod: prep_在……上”。
圖2 框式介詞的增強標注示例
除了nmod: prep,在被分析為advcl: loc等的從句中,如果從句中存在標簽為case的依存弧,則在增強依存弧中也要將該弧指向的詞添加在連接主句和從句的依存弧advcl: loc上。
連詞的增強并列結(jié)構(gòu)是人類語言中最原始、最普遍的一種結(jié)構(gòu)式,并列連詞可以連接詞、短語或小句之間的并列?;A(chǔ)依存句法中用依存標簽為conj的依存弧來連接句中并列的部分,用依存標簽為cc的依存弧連接并列連詞與并列項的其中一項。
在增強依存句法規(guī)范中,通過在依存標簽conj上添加依存弧cc所指的并列連詞,可以使得并列項之間的語義關(guān)系更加明晰,特別是當句中出現(xiàn)多個并列連詞時,并列結(jié)構(gòu)之間的并列類型就會更加明確,如在圖3中,將依存標簽修改為“conj_和”“conj_或者”,這三組并列結(jié)構(gòu)中并列項之間的關(guān)系可以更加清晰,計算機在提取并列項間的語義信息時也更加便利。
圖3 連詞的增強標注示例
在基礎(chǔ)依存句法規(guī)范中,多個并列項之間由其中一個并列項作為父節(jié)點,來連接其他的句子成分,如主語、賓語。但從語義上來說,并列項之間通常是共享這些句子成分的。因此,在增強依存句法規(guī)范中,兩個并列的結(jié)構(gòu)共享其父節(jié)點和子節(jié)點,且依存標簽相同。
并列成分的傳播主語、謂語、賓語、時間、地點狀語等成分在句中都可能由并列結(jié)構(gòu)來承擔,在基礎(chǔ)依存句法中,只標出其中一個并列項與其支配詞和從屬詞間的依存句法關(guān)系,在增強的依存句法圖中,需要將并列結(jié)構(gòu)中的其他項與支配詞或從屬詞間的依存關(guān)系也表示出來,如圖4為并列謂語的增強。
圖4 并列謂語的傳播標注示例
在偏正短語中,并列修飾語、狀語或中心語也需要傳播其支配詞或從屬詞。如圖5為并列修飾語修飾中心語的情況,圖6為單個狀語修飾并列中心語的情況。這時,在增強依存句法中,就需要補出未被標出修飾關(guān)系的修飾語、狀語與中心語之間的依存弧。
圖5 并列修飾語的傳播標注示例
圖6 并列中心語的傳播標注示例
同位語的傳播由于同位語所指代內(nèi)容相同,在句中承擔的句子成分也相同,因此,本文把它看成是一種特殊的并列形式。在基礎(chǔ)依存句法中,同位語之間用依存弧appos連接,其他句法成分連接在同位語的后一部分上。在增強依存句法中,需要將句中實詞與同位語后一部分之間的依存關(guān)系,通過增加弧的方式添加在同位語的前一部分上,如圖7所示。
圖7 同位語的傳播標注示例
依存句法是從句子的表層語法來進行分析的,缺乏對句式轉(zhuǎn)換的抽象。同樣的語義,采取不同的表述方式,實詞之間的依存關(guān)系就可能會發(fā)生變化。如被動句“書被小王拿走了”和主動句“小王拿走了書”,這兩句的句意是完全相同的,但由于句子形式改變,“書”和“小王”之間的依存關(guān)系也不同,被動句中,它們之間的關(guān)系用nsubjpass來表示,意為書是小王的被動主語,而主動句中,它們之間則用表示賓語的dobj來連接。
上述情況對自然語言理解及其下游任務(wù)造成了一定的局限,為了使語義分析更簡單,本文利用規(guī)則統(tǒng)一了句式轉(zhuǎn)換,借助深層的語義關(guān)系將不同句式中相同實詞間的關(guān)系用同樣的依存關(guān)系來表示。
被動句的轉(zhuǎn)換在基礎(chǔ)依存句法規(guī)范中,被動主語一般為意義上的受事,通常用依存標簽為nsubjpass的依存弧與謂語連接,意義上的施事主語仍用表示主語的nsubj標簽與謂語連接,在被動句轉(zhuǎn)換為主動句之后,原本作為被動主語的對象,即施事主語,在主動句中轉(zhuǎn)變?yōu)橹髡Z,而原本的被動主語則在主動句中扮演賓語的角色。
為了將被動句與主動句中實詞間的依存關(guān)系統(tǒng)一,本文采用更為常用的主動句中的依存關(guān)系作為標準,即被動主語與謂語之間的依存關(guān)系為dobj。因此,在增強依存句法中,添加一條弧從句中的謂語指向被動主語,依存標簽為dobj,如圖8所示。
圖8 被動句的轉(zhuǎn)換標注示例
此外,修飾成分是被動短語的偏正短語,在基礎(chǔ)依存句法規(guī)范中,依存弧從中心語指向被動短語中動詞,依存標簽為acl,對于這種表被動的短語,在語義上,其中心語通常是被動短語中動詞的受事,在轉(zhuǎn)換后的主動句中,中心語是該動詞的賓語。因此,在增強依存句法中,添加一條依存弧,從被動短語的動詞指向中心語,其依存標簽為dobj,如圖9所示。
圖9 被動短語的轉(zhuǎn)換標注示例
有一種比較特殊的被動句,其動詞是認作或任選義的動詞,如句子“小王被選為班長”“被譽為‘中國國酒’的茅臺酒”,將其轉(zhuǎn)換為主動句式,為“選小王為班長?!薄白u茅臺酒為‘中國國酒’?!睂釉~與其后的“為”拆分開來。但在基礎(chǔ)依存句法中,“選為”“譽為”被當作一個詞,難以拆開。面對這種情況,本文尊重了原本的分詞及詞性規(guī)范,在增強的依存句法中,對此類動詞不做特殊考慮。
“把”字句的轉(zhuǎn)換“把”字句是漢語特有的一種句式,其句式語義主要是主語對動詞的受事作了某種處置?!鞍选笔且粋€介詞,它將原來充當動詞賓語的受事成分提到動詞之前,因此,“把”字句可以通過句式轉(zhuǎn)換將“把”引導(dǎo)的賓語還原到動詞賓語的位置。如在圖10中,“我把蘋果吃了?!笨梢赞D(zhuǎn)換為“我吃蘋果?!币虼嗽谠鰪娨来婢浞ㄖ性鎏砹艘粭l依存弧,從該動詞指向“把”引導(dǎo)的賓語,依存標簽為dobj。
圖10 “把”字句的轉(zhuǎn)換標注示例
形容詞修飾語的轉(zhuǎn)換在偏正短語中,形容詞短語修飾名詞中心語,因此這個偏正短語可以轉(zhuǎn)換為以該中心語為主語、以該形容詞為謂語的主謂短語,如在圖11中,“一個漂亮的女孩?!笨梢赞D(zhuǎn)換為“女孩漂亮?!睘榱烁玫夭东@這些語義信息,在增強的依存句法中,為句子增添了一條從該形容詞修飾語指向中心語的依存弧,依存標簽為表示主語的nsubj。
圖11 形容詞修飾語的轉(zhuǎn)換標注示例
動詞短語修飾語的轉(zhuǎn)換在動詞短語修飾語中, 用一個動詞短語修飾名詞中心語。如果在動詞短語中,該動詞不含賓語的話,那么中心語可能為該動詞的受事。如在圖12中,在語義上,“飯”是“做”的受事,那么該句可以轉(zhuǎn)化為“媽媽做飯”,此時,“飯”是“做”的賓語。因此,在增強依存句法中,要增加一條依存弧,由動詞短語中的動詞指向中心語,依存標簽為dobj。
圖12 動詞短語修飾語的轉(zhuǎn)換標注示例
如果修飾名詞中心語的動詞短語有賓語但不含主語的話,那么這種偏正短語也可能轉(zhuǎn)化為一個中心語作主語、動賓短語作謂語和賓語的句子,如在圖13中,“正寫作業(yè)的孩子們”可以轉(zhuǎn)化為“孩子們正寫作業(yè)”,此時,“孩子們”為“寫”的主語。那么,在增強依存句法中,需要增添從修飾語中的動詞指向中心語的依存弧,其依存標簽為nsubj。
圖13 被動短語的轉(zhuǎn)換標注示例
在基礎(chǔ)依存句法中,如果動詞修飾語既不包含nsubj弧,也不包含dobj弧,那么其中心語可能是轉(zhuǎn)化后句子的主語,例如,“漂泊的游子”轉(zhuǎn)化為“游子漂泊”;也可能是賓語,例如,“設(shè)置好的頁面”轉(zhuǎn)化為“設(shè)置頁面”;還可能存在修飾語中謂詞是動賓結(jié)構(gòu),但在分詞時未拆開的情況,例如,“在外打工的父親”中“打工”被看作是一個詞,這些情況本文暫不予考慮。
兼語句兼語句是由兼語短語作謂語的句子,其謂語中第一個動詞的賓語也是后一謂詞的主語[10],這個詞就叫作“兼語”。例如,在“老師通知我開會”一句中,“我”既是“通知”的賓語,也是“開會”的主語。在基礎(chǔ)依存句法中,受限于一個節(jié)點只能有一條入弧的規(guī)則,只標注了第一個動詞和兼語之間的賓語關(guān)系,而沒有標注出后一謂詞與兼語之間的主語關(guān)系。因此,在增強依存句法中,需要增添一條依存弧,由后一謂詞指向兼語,依存標簽為nsubj,如圖14所示。
圖14 兼語句的增強標注示例
連動句連動句是現(xiàn)代漢語里一種特殊的句法結(jié)構(gòu),指的是謂語由兩個或兩個以上動詞構(gòu)成,在動詞短語中間沒有停頓,也沒有關(guān)聯(lián)詞語,兩個動詞短語共用一個主語的句子[11]。如在句子“外商來華投資?!敝?“來華投資”是連動短語,它們的主語都為“外商”。但在基礎(chǔ)依存句法中,只標注出第一個動詞和主語之間的依存關(guān)系,因此,在增強依存句法中,應(yīng)添加一條依存弧,由連動短語中的其他動詞指向主語,依存標簽為nsubj,如圖15所示。
圖15 連動句的增強標注示例
省略句中文是一種話題驅(qū)動語言,為了表達的連貫性和簡潔性,句子中常常省略某些語言成分,即句子存在缺省,本文討論對句子中的主要結(jié)構(gòu)即主語、賓語省略的增強。
在含有動詞性狀語的句子中,存在狀語中的動詞和謂詞共用一個主語的現(xiàn)象,由于漢語中的經(jīng)濟原則,那么狀語或主句就可能省略主語。如在圖16中,時間狀語中省略了主語,但其實“吃飯”和“散步”的主語都為“他”。在基礎(chǔ)依存句法中,只標出了“他”與“散步”之間的主語關(guān)系。那么在增強的依存句法中,還需要添加一條依存弧,由“吃完”指向“他”,依存標簽為nsubj。
在復(fù)句中,除了省略小句主語的情況以外,當幾個小句的賓語相同時,也可能會省略小句中的賓語。如在圖17中,第二個小句中沒有賓語,但根據(jù)語義可知,其賓語仍為第一個小句中的賓語“小明”。因此在增強依存句法中,需要增添一條依存弧,由省略賓語小句中的謂詞“看見”指向其他小句中的賓語“小明”,依存關(guān)系標簽為dobj。
圖17 省略賓語的增強標注示例
在上述的規(guī)則中,也會產(chǎn)生一些不適用的情況,如句子“正睡覺的時候,媽媽回來了”,如果按照增強依存句法規(guī)則,會把缺少主語小句中謂詞“睡覺”的主語指向另一小句中的主語“媽媽”,但是依照現(xiàn)實情況來看,“睡覺”的主語不可能是“媽媽”,其真正的主語需要聯(lián)系上下文來確定。
面對這些情況,本文并未放棄這幾類增強規(guī)則,而是如圖18所示,借用Tiktinsky[8]提出的UNC=TRUE(不確定)這一概念,表示這條依存弧的正確性由用戶來判斷。
圖18 不確定情況的處理示例(1)
同樣的,漢語中也存在復(fù)句中的某個小句省略了主語,但其省略的主語不是其他小句主語的情況,例如在“然而外祖母又怕都是孩子們,不可靠”一句中,“不可靠”的主語是前一小句的賓語“孩子們”,而非前一小句的主語“外祖母”;再例如在“春游的時候,他告訴了我這件事。”一句中,“春游”的主語可能是“他”,也可能是“我”,也可能“他”和“我”都是主語,這需要根據(jù)句子的上下文來決定。此時,本文采取Tiktinsky[8]提出的概念A(yù)LT=X,表示用戶可以從中選擇其一,如在圖19中,其X表示被省略主語或賓語的詞在句子中的位置。
圖19 不確定情況的處理示例(2)
在斯坦福依存句法規(guī)范的基礎(chǔ)上,本文提供了一個可以從基礎(chǔ)依存句法分析到增強依存句法分析的轉(zhuǎn)換器。在觀察大量依存標注語料的基礎(chǔ)上,尋找每類規(guī)則的規(guī)律,利用詞性、依存弧的范圍和指向、依存標簽等約束實現(xiàn)了增強依存句法規(guī)范的規(guī)則轉(zhuǎn)換。
此外,還提供了漢語依存句法增強轉(zhuǎn)換在線平臺(3)https://parser.blcuicall.org,可以將句子分析為基礎(chǔ)依存句法和增強依存句法,并將它們可視化,便于比較和分析。
該界面分為四個部分,分別為輸入句子搜索、選擇示例搜索、基礎(chǔ)句法依存演示、增強依存句法演示。用戶可以在輸入框中自主輸入想要分析的句子,也可以在選擇示例下拉框中選擇,平臺已經(jīng)為17個漢語增強依存句法規(guī)則給出了示例演示。
增強依存句法在基礎(chǔ)依存句法的基礎(chǔ)上擴充了實詞間的依存關(guān)系,包含的句法和語義信息更多,在需要使用依存句法的任務(wù)中,就能更快速、直接、全面地獲取所需要的信息。本節(jié)從搭配檢索、信息抽取兩個方面來說明漢語增強依存句法規(guī)范在語料庫檢索中的實際應(yīng)用。
搭配通常是指兩個或兩個以上的詞語所組成的一種語言表示,這種表示往往是某種語言習慣的表達[12]。通過在語料庫中抽取搭配,一方面便于漢語學習者檢索自己所用搭配是否準確、常用,有利于學習者自學;另一方面,也便于對外漢語教師和研究人員建立搭配庫,通過檢索某個詞的常用搭配及其例句,方便教學和語言本體的研究。此外,搭配也能支持自動翻譯、信息檢索、自動問答等應(yīng)用研究。
依靠人工判斷搭配費時費力,不僅主觀性強,而且耗時巨大。隨著計算機技術(shù)的發(fā)展,搭配抽取技術(shù)也有了長足的進步。目前,一種比較好的方法是基于依存句法分析的搭配自動抽取。通過依存弧來抽取搭配時,需要明確依存關(guān)系表示的搭配關(guān)系。例如,規(guī)定nsubj表示主謂搭配關(guān)系,dobj表示動賓搭配關(guān)系,advmop: dvp表示狀中搭配關(guān)系,compound: nn表示定中搭配關(guān)系,那么在如圖20所示的句子中,通過基礎(chǔ)依存句法抽取到的搭配如表1所示。
表1 利用基礎(chǔ)依存抽取到的搭配
圖20 依存句法標注示例
但若對抽取到的搭配進行人工校對就會發(fā)現(xiàn),由于并列情況的存在,通過基礎(chǔ)依存句法只能抽取到并列項其中之一的搭配關(guān)系,而忽略了其他并列項的搭配,增強依存句法就能很好地解決這個問題,把并列項之間的依存關(guān)系都通過添加依存弧的方式展現(xiàn)出來,用增強依存句法來抽取搭配就能找回那些被遺漏的搭配。這種全面的搭配抽取方式一方面能幫助學習者在用例句學習搭配時找到句中所有搭配,明確可使用的搭配;另一方面,可以擴大搭配庫,便于后續(xù)的統(tǒng)計處理和研究工作,即使原始語料庫較小,也能抽取出更多的搭配范式。如在圖20的例句中,利用增強依存句法還能抽取出的搭配如表2所示。
表2 利用增強依存句法抽取到的搭配
信息抽取的主要功能是從非結(jié)構(gòu)化的文本中自動提取用戶感興趣的結(jié)構(gòu)化信息,是各項自然語言處理任務(wù),例如,知識圖譜構(gòu)建、翻譯、篇章理解等應(yīng)用的基石[13]。目前,信息抽取主要包括命名實體識別、指代消解、關(guān)系抽取以及事件抽取等幾個方面的研究[14]。其中,比較常見的一種方法是利用依存句法來抽取信息。
用基礎(chǔ)依存句法在檢索平臺中進行信息抽取時,如果句中存在大量信息嵌套和成分共享、抽取的信息之間有多層依存弧或存在句式轉(zhuǎn)換的現(xiàn)象時,就需要對不同的情況建立多種抽取模式,甚至可能存在信息漏抽或抽取錯誤的情況。
例如,“小王今年25歲,來自北京。”一句中,由于第二小句缺省主語,直接運用依存句法抽取主謂賓不能抽取到“小王來自北京”這一信息,必須對依存句法樹進行一定的處理才能得到。運用增強依存句法之后,就能直接得到這些實詞之間的語義關(guān)系,在信息抽取中無需花費大量的時間和精力處理句法樹,這在句中存在并列結(jié)構(gòu)、成分省略和轉(zhuǎn)換句式時尤為明顯。
本文基于漢語基礎(chǔ)依存句法制定了增強依存句法規(guī)范,使得句中盡可能多的實詞間的語義關(guān)系更加清晰明確。此外,本文還提供了漢語增強依存句法轉(zhuǎn)換的Python轉(zhuǎn)換器以及方便進行可視化比較的Web Demo,并給出了該規(guī)范在搭配抽取和信息抽取中的實際應(yīng)用,以說明該規(guī)范在這些任務(wù)中的優(yōu)勢。
未來工作中,還應(yīng)進一步完善和補充漢語增強依存句法體系,以滿足規(guī)模更大、句子更長、結(jié)構(gòu)更復(fù)雜的語料。目前增強依存句法規(guī)范在漢語特殊句式中只考慮到了比較常見的一部分,之后還需要將判斷句、倒裝句等句式納入到增強依存句法體系中來。此外,面對不確定情況的處理,也可以更好地進行分類討論,例如,當復(fù)句中省略賓語時,如該謂語動詞為不及物動詞,那么不添加該謂語動詞與其他小句成分間表示賓語的依存弧,因此,就需要對謂語動詞進行及物和不及物的分類處理。最后,還應(yīng)進一步探索其應(yīng)用場景,找到更多適合其發(fā)揮的任務(wù),挖掘其更大的優(yōu)勢。