王 萌,黃居仁,俞士汶,李 斌
(1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;
2. 香港理工大學(xué) 中文及雙語(yǔ)學(xué)系,香港;
3. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
復(fù)合名詞短語(yǔ)(noun compounds)是一種特定類(lèi)型的短語(yǔ),它由相鄰的名詞序列組成,其功能整體上相當(dāng)于一個(gè)名詞[1],如“電子 警察”、“電腦 公司”和“空氣 質(zhì)量 問(wèn)題”。通常把復(fù)合名詞短語(yǔ)中的最后一個(gè)名詞稱(chēng)為中心詞(head),前面的成分稱(chēng)為修飾詞(modifier)。從語(yǔ)法角度來(lái)說(shuō),復(fù)合名詞短語(yǔ)和詞比較相似,整個(gè)復(fù)合名詞短語(yǔ)的功能相當(dāng)于中心名詞的功能。
復(fù)合名詞短語(yǔ)廣泛存在于各種語(yǔ)言,經(jīng)常出現(xiàn)在各種文體中,衍生能力很強(qiáng),組成方式簡(jiǎn)單但是歧義性高。這些特點(diǎn)使得復(fù)合名詞短語(yǔ)在語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)領(lǐng)域成為一個(gè)熱點(diǎn)研究課題,其涉及到的研究范圍也越來(lái)越廣泛,包括復(fù)合名詞短語(yǔ)的自動(dòng)獲取、句法分析、語(yǔ)義解釋、翻譯以及語(yǔ)義焦點(diǎn)分析等等。
復(fù)合名詞短語(yǔ)的語(yǔ)義解釋(noun compound interpretation)的主要目的是自動(dòng)獲取修飾語(yǔ)和中心詞之間隱含的語(yǔ)義關(guān)系。這種語(yǔ)義信息的顯性化對(duì)信息檢索、問(wèn)答系統(tǒng)、機(jī)器翻譯等諸多自然語(yǔ)言處理任務(wù)有所幫助。例如,在問(wèn)答系統(tǒng)中,若用戶的問(wèn)題是“the causes of headaches”,如果已知“caffeine headache”的語(yǔ)義解釋是“headache caused by caffeine”,就可以給出正確的回答。再如,在信息檢索系統(tǒng)中,用戶輸入查詢(xún)“headache pill”,系統(tǒng)可以提供“pill causes the headache”或者“pill prevents the headache”等不同的語(yǔ)義解釋來(lái)幫助用戶改進(jìn)查詢(xún)。
本文主要研究了漢語(yǔ)復(fù)合名詞短語(yǔ)的語(yǔ)義解釋?zhuān)状尾捎脛?dòng)態(tài)的策略,提出了“基于動(dòng)詞的短語(yǔ)釋義”的方法,自動(dòng)獲取復(fù)合名詞短語(yǔ)的語(yǔ)義解釋。本文組織結(jié)構(gòu)如下:第2節(jié)介紹國(guó)內(nèi)外相關(guān)研究,第3節(jié)介紹漢語(yǔ)復(fù)合名詞短語(yǔ)釋義方法的步驟,第4節(jié)至第6節(jié)對(duì)該方法中的每一步進(jìn)行詳細(xì)描述,第7節(jié)報(bào)告了評(píng)價(jià)方法及實(shí)驗(yàn)結(jié)果,最后,第8節(jié)對(duì)本文工作和下一步研究方向進(jìn)行總結(jié)和展望。
目前,英文復(fù)合名詞短語(yǔ)的語(yǔ)義解釋研究得較為充分。總的說(shuō)來(lái),主要有兩大處理策略,一種是自上而下的策略(top-down strategy),這種方法首先要求有一組已經(jīng)定義好的、明確的關(guān)系集合,然后根據(jù)這個(gè)關(guān)系集合,為每個(gè)復(fù)合名詞短語(yǔ)分配適當(dāng)?shù)恼Z(yǔ)義關(guān)系,這實(shí)際上就是一個(gè)分類(lèi)問(wèn)題,也有文獻(xiàn)將這種方法稱(chēng)之為“清單為本法(Inventory-based method)”。
不同的研究者提出的語(yǔ)義關(guān)系集合各不相同,文獻(xiàn)[2]最早提出了九種“可恢復(fù)的刪除謂詞(recoverably deleteable predicates)”,它們表示的語(yǔ)義關(guān)系可以用介詞短語(yǔ)或者關(guān)系從句的方式予以表達(dá),如CAUSE(exam anxiety),HAVE(vegetable soup),MAKE(electricity station),USE(laser printer),BE(player coach),F(xiàn)OR(concert hall),IN(morning class),F(xiàn)ROM(peanut butter),ABOUT(computer expert)。文獻(xiàn)[3]提出了一個(gè)語(yǔ)義關(guān)系的分類(lèi)體系,上層有6個(gè)主要的語(yǔ)義關(guān)系類(lèi)(CONSTITUTE,POSSESSION,LOCATION,PURPOSE,ACTIVITY-ACTOR,RESEMBLANCE),每個(gè)類(lèi)下面包含若干子類(lèi)。文獻(xiàn)[4] 定義了13種語(yǔ)義關(guān)系,提出了判斷復(fù)合名詞短語(yǔ)語(yǔ)義關(guān)系的準(zhǔn)則,即通過(guò)wh-questions(who,what,when,whom,where,whose,how)對(duì)復(fù)合名詞短語(yǔ)進(jìn)行提問(wèn),根據(jù)修飾語(yǔ)能否回答這些問(wèn)題對(duì)短語(yǔ)進(jìn)行語(yǔ)義歸類(lèi)。文獻(xiàn)[5]用8個(gè)介詞(of,for,in,at,on,from,with,about)來(lái)定義語(yǔ)義關(guān)系,如baby car(car for the baby)。2007年SemEval組織了一項(xiàng)評(píng)測(cè)“Classification of Sematic Relations between Nominals”[6],定義了七種語(yǔ)義關(guān)系(Cause-Effect,Content-Container,Instrument-Agency,Origin-Entity,Part-Whole,Product-Producer,Theme-Tool)。
第二種是自下而上的策略(bottom-up strategy),研究者認(rèn)為第一種方法存在一些缺陷:首先復(fù)合名詞短語(yǔ)存在的語(yǔ)義關(guān)系是不能由一組固定的集合窮盡的[1],無(wú)論根據(jù)何種關(guān)系定義,總存在一些短語(yǔ)不能被正確歸類(lèi);其次,固定的關(guān)系集合難以反映復(fù)合名詞短語(yǔ)的多義性;最后,一個(gè)復(fù)合名詞短語(yǔ)根據(jù)不同的解釋可以屬于多個(gè)語(yǔ)義類(lèi),如“l(fā)ab printer”,按照介詞的語(yǔ)義關(guān)系分類(lèi),即可以是“printer in the lab”,也可以是“printer for the lab”。因此研究者采用一種非受限的、開(kāi)放式的方法,不事先定義語(yǔ)義關(guān)系集合,而是通過(guò)大規(guī)模的語(yǔ)料去發(fā)現(xiàn)詞語(yǔ)組合時(shí)隱含的語(yǔ)義關(guān)系,并通過(guò)某種模式進(jìn)行釋義(paraphrase)。
在這種思路下,很多研究者嘗試用動(dòng)詞來(lái)解釋復(fù)合名詞短語(yǔ)的語(yǔ)義關(guān)系[7-10],尋找能夠連接中心詞和修飾詞的“事件框架(event frame)”。例如,“butter knife”和“kitchen knife”,它們的語(yǔ)義解釋分別為“knife for cutting the butter”和“knife used in the kitchen”,其中“cut”和“use”就是釋義動(dòng)詞。2010年的SemEval有一項(xiàng)英文的評(píng)測(cè)任務(wù)“Noun Compound Interpretation Using Paraphrasing Verbs and Prepositions”[11],要求參賽者為每一個(gè)復(fù)合名詞短語(yǔ)提供釋義動(dòng)詞集合,同時(shí)給出這些動(dòng)詞的排名。
在漢語(yǔ)方面,相關(guān)研究成果較少。文獻(xiàn)[12]研究了具有名物化現(xiàn)象(nominalization)的漢語(yǔ)復(fù)合名詞短語(yǔ)的語(yǔ)義分類(lèi)問(wèn)題,如“鳥(niǎo)類(lèi) 遷徙”,“遷徙”是名動(dòng)詞(具有名詞功能的動(dòng)詞),作者參照動(dòng)詞的語(yǔ)義角色(semantic roles)定義了四種粗粒度語(yǔ)義關(guān)系(Proto-Agent, Proto-Patient,Range和Manner),對(duì)300個(gè)復(fù)合名詞短語(yǔ)進(jìn)行了實(shí)驗(yàn)。該方法是屬于第一種策略的,按照定義好的語(yǔ)義類(lèi)別對(duì)復(fù)合名詞短語(yǔ)進(jìn)行分類(lèi),迄今為止,還未見(jiàn)漢語(yǔ)中采用第二種策略處理復(fù)合名詞短語(yǔ)語(yǔ)義關(guān)系的相關(guān)報(bào)道。因此本文則嘗試第二種策略,利用語(yǔ)料庫(kù)及Web數(shù)據(jù),自動(dòng)獲取“基于動(dòng)詞的釋義短語(yǔ)”對(duì)復(fù)合名詞短語(yǔ)進(jìn)行語(yǔ)義解釋。
文獻(xiàn)[13]對(duì)漢語(yǔ)謂詞隱含(implying predicate)進(jìn)行過(guò)詳細(xì)論述,從句法和心理實(shí)現(xiàn)性等方面對(duì)謂詞隱含現(xiàn)象進(jìn)行了驗(yàn)證。動(dòng)詞在復(fù)合名詞短語(yǔ)的語(yǔ)義解釋中起著相當(dāng)關(guān)鍵的作用,對(duì)于一個(gè)復(fù)合名詞短語(yǔ)“n1 n2”,人們首先根據(jù)n1和n2之間的語(yǔ)義聯(lián)系去激活被隱含的動(dòng)詞,進(jìn)而獲得正確的語(yǔ)義解釋。在一定的語(yǔ)境中,這個(gè)隱含的動(dòng)詞是可以復(fù)原的。例如,“紅木 家具”,解釋為“紅木 制造 的 家具”,其中“制造”就是隱含謂詞。“愛(ài)情 故事”,解釋為“描寫(xiě) 愛(ài)情 的 故事”,“描寫(xiě)”是隱含謂詞。隱含謂詞可以有多個(gè),例如,“水果 價(jià)格”,可以解釋為“買(mǎi)/賣(mài)/銷(xiāo)售 水果 的 價(jià)格”等。我們將上述包含動(dòng)詞以及目標(biāo)名詞的短語(yǔ)稱(chēng)之為“基于動(dòng)詞的釋義短語(yǔ)”,本文的目的就是自動(dòng)發(fā)現(xiàn)這些釋義短語(yǔ),并按照釋義的可能性給出排名,即越恰當(dāng)?shù)尼屃x排名越靠前。該過(guò)程分為以下三步:
(1) 動(dòng)詞獲取。對(duì)一個(gè)復(fù)合名詞短語(yǔ)“n1 n2”,找到與n1和n2概念相關(guān)的動(dòng)詞。
(2) 釋義短語(yǔ)生成。將n1、n2以及第一步中獲取的動(dòng)詞放入已定義的釋義模板中,生成所有可能的釋義短語(yǔ)。
(3) 釋義短語(yǔ)過(guò)濾。將第二步中生成的模板作為查詢(xún)(query),送入搜索引擎,得到命中次數(shù),并按照命中次數(shù)的降序?qū)︶屃x短語(yǔ)排序。
名詞通常指涉概念,概念有不同的特征,名詞與名詞組合構(gòu)成復(fù)合名詞短語(yǔ)時(shí),某一方面的特征會(huì)凸顯出來(lái)。例如,“鉆石”作為一種堅(jiān)硬的材質(zhì)可以被切割和打磨,并可以鑲嵌在戒指上作為裝飾物,“鉆石 鋸片”和“鉆石 戒指”分別凸顯了“鉆石”的兩種不同特征,而這種特征可以通過(guò)不同的“動(dòng)詞”進(jìn)行解釋?zhuān)础扒懈?鉆石 的 鋸片”和“鑲嵌 鉆石 的 戒指”。因此,動(dòng)詞獲取的主要目的就是獲取所有可能的與名詞概念相關(guān)的動(dòng)詞,在兩個(gè)名詞組合時(shí),與被凸顯特征相關(guān)的“動(dòng)詞”就是合理的語(yǔ)義解釋。
在自然語(yǔ)言中,任何形式和結(jié)構(gòu)都是為了表達(dá)一定的意義,而任何意義及其關(guān)聯(lián)都要通過(guò)一定的形式和結(jié)構(gòu)表現(xiàn)出來(lái)。從句法層次上看,連接動(dòng)詞與名詞的最為直接的語(yǔ)法關(guān)系就是“述賓(verb-object)”和“主謂(subject-verb)”,即名詞充當(dāng)動(dòng)詞主語(yǔ)或者賓語(yǔ),名詞與動(dòng)詞之間存在語(yǔ)義關(guān)聯(lián)。因此,本文從形式上可以把握的線索——表層的句法結(jié)構(gòu)入手,利用“述賓”和“主謂”兩種語(yǔ)法關(guān)系,獲取與名詞概念相關(guān)的動(dòng)詞。但是,這就要求語(yǔ)料是經(jīng)過(guò)深層加工并標(biāo)記了句法結(jié)構(gòu)的,而目前可以利用的中文短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)資源十分有限,這會(huì)直接影響獲取動(dòng)詞的數(shù)量(覆蓋率)。因此本文采用一種回退的策略,獲取與名詞在指定語(yǔ)法關(guān)系下具有搭配意義的動(dòng)詞,并不要求語(yǔ)料經(jīng)過(guò)深層次的句法加工和標(biāo)注。中文詞匯特征素描系統(tǒng)(Chinese Sketch Engine)*該系統(tǒng)是一個(gè)網(wǎng)絡(luò)在線系統(tǒng),訪問(wèn)地址:http://wordsketch.ling.sinica.edu.tw/.即可以勝任此項(xiàng)任務(wù)。
Sketch Engine是一個(gè)大規(guī)模語(yǔ)料處理系統(tǒng)[14-15],該系統(tǒng)除了提供一般的關(guān)鍵詞及語(yǔ)境查詢(xún)外,還提供了詞匯特征素描(word sketch)、語(yǔ)法關(guān)系(grammatical relation)以及同近義詞分析(thesaurus)等自動(dòng)產(chǎn)生的語(yǔ)法知識(shí)。目前這個(gè)系統(tǒng)已經(jīng)應(yīng)用在英語(yǔ)、漢語(yǔ)、法語(yǔ)、德語(yǔ)、日語(yǔ)等多國(guó)語(yǔ)言,產(chǎn)生了廣泛的影響。中文詞匯特征素描系統(tǒng)(CSE,Chinese Sketch Engine)是Sketch Engine系統(tǒng)與十四億字的Chinese Gigaword語(yǔ)料相結(jié)合的產(chǎn)物[16],提供了絕大部分中文詞匯實(shí)際使用的描述,可以服務(wù)于諸多自然語(yǔ)言處理任務(wù)。
Word Sketch描述了詞語(yǔ)在某些語(yǔ)法關(guān)系下與其他詞語(yǔ)的搭配情況。根據(jù)詞類(lèi)的不同,其對(duì)應(yīng)搭配詞的語(yǔ)法關(guān)系也不同。例如,CSE中名詞的搭配關(guān)系有述賓關(guān)系(object_of)、主謂關(guān)系(subject_of)、領(lǐng)屬關(guān)系(possession/possessor)、修飾關(guān)系(A_modifier/N_modifier/modifies)及并列關(guān)系(and/or)等9種。所有的搭配關(guān)系可以用一個(gè)三元組(triple)表示,即(word1,relation,word2),其中word1是查詢(xún)的關(guān)鍵詞,relation是語(yǔ)法關(guān)系,word2是在這種語(yǔ)法關(guān)系下的搭配詞。
利用CSE中的Word Sketch功能可以方便地獲取某個(gè)名詞的在各種語(yǔ)法關(guān)系下的特征素描,本文只使用“subject_of”和“object_of”兩種關(guān)系。以復(fù)合名詞短語(yǔ)“n1 n2”為例,經(jīng)過(guò)兩步獲取釋義動(dòng)詞。
第一步,將n1和n2作為查詢(xún)關(guān)鍵詞,分別獲取它們?cè)凇皊ubject_of”和“object_of”兩種語(yǔ)法關(guān)系下的搭配詞,本文只為每個(gè)名詞抽取前200個(gè)顯著性最高的搭配詞,這樣分別得到名詞n1和n2的相關(guān)動(dòng)詞集合,記為VerbSetn1和VerbSetn2。
第二步,求VerbSetn1和VerbSetn2的交集,得到名詞n1和n2共有的動(dòng)詞,作為最終的釋義動(dòng)詞獲取結(jié)果。
以“愛(ài)情 故事”為例,表1給出了兩個(gè)名詞在subject_of和object_of語(yǔ)法關(guān)系下的搭配動(dòng)詞樣例,以及它們求交集的結(jié)果。表2給出了其他兩個(gè)復(fù)合名詞短語(yǔ)“水果 價(jià)格、網(wǎng)球 場(chǎng)地”的釋義動(dòng)詞獲取樣例,同時(shí)給出了獲取動(dòng)詞的個(gè)數(shù)。
表1 “愛(ài)情 故事”的釋義動(dòng)詞獲取過(guò)程
表2 釋義動(dòng)詞樣例
文獻(xiàn)[13]提出了典型的謂詞隱含的句法模式,本文借鑒其研究成果,采用四種句法模板來(lái)生成釋義短語(yǔ)。見(jiàn)表3,其中,“n1 n2”是復(fù)合名詞短語(yǔ),“v”是獲取的動(dòng)詞。以“愛(ài)情 故事”為例,根據(jù)釋義模板產(chǎn)生了152個(gè)基于動(dòng)詞的釋義短語(yǔ),表4給出了部分樣例。這里按照釋義模板生成釋義短語(yǔ)時(shí),采用的是一種窮盡的方式,產(chǎn)生所有可能的釋義短語(yǔ),這些釋義短語(yǔ)中除了包含正確的解釋之外,也必然帶來(lái)很多噪音。因此需要對(duì)這些短語(yǔ)進(jìn)行過(guò)濾和排序,盡量把最恰當(dāng)?shù)尼屃x短語(yǔ)排在前面。
表3 釋義模板
表4 “愛(ài)情故事”的釋義短語(yǔ)樣例
釋義短語(yǔ)過(guò)濾的目的是去除噪音(即不合理的解釋),保留合理的解釋?zhuān)⒆钋‘?dāng)?shù)慕忉尳o予較高的排名。為此,最為直觀的解決方法就是在語(yǔ)料中為每個(gè)釋義短語(yǔ)尋找“證據(jù)”,如果該釋義短語(yǔ)經(jīng)常在語(yǔ)料中出現(xiàn),那么就認(rèn)為它是常用的、合理的解釋?zhuān)尚哦容^高;如果出現(xiàn)頻次很低,就認(rèn)為該解釋并不可信。因此,釋義短語(yǔ)過(guò)濾的基本假設(shè)就是:正確的釋義短語(yǔ)應(yīng)該出現(xiàn)在語(yǔ)料中,并且隨著其出現(xiàn)次數(shù)增加,釋義的可信度隨之增加。
然而,在自然語(yǔ)言處理中,數(shù)據(jù)稀疏(Data Sparseness)是基于語(yǔ)料庫(kù)的統(tǒng)計(jì)方法面臨的一大難題。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,網(wǎng)上文本資源越來(lái)越豐富,研究者提出把互聯(lián)網(wǎng)(World Wide Web)看做一個(gè)巨大的語(yǔ)料庫(kù),利用Web數(shù)據(jù)構(gòu)建語(yǔ)言資源[17-18],或者為某些自然語(yǔ)言處理任務(wù)提供參數(shù)平滑(smoothing)以緩解數(shù)據(jù)稀疏問(wèn)題[19-20]。
本文利用海量的Web數(shù)據(jù),對(duì)釋義短語(yǔ)進(jìn)行驗(yàn)證,過(guò)濾掉不合理的短語(yǔ)。做法是:將生成的釋義短語(yǔ)作為查詢(xún)送入搜索引擎,得到命中次數(shù),按照命中次數(shù)的降序進(jìn)行排序。命中次數(shù)越高的短語(yǔ),就越可能是最恰當(dāng)?shù)尼屃x。目前,Google(www.google.com)和Baidu(www.baidu.com)是使用最為普遍的中文搜索引擎,本文利用這兩大搜索引擎進(jìn)行了實(shí)驗(yàn),查詢(xún)的方式都是精確匹配(exact match)。
表5 基于Baidu和Google結(jié)果的釋義短語(yǔ)排名樣例
表5分別給出了復(fù)合名詞短語(yǔ)“愛(ài)情 故事”基于Baidu和Google的結(jié)果樣例,表中顯示的是前10個(gè)命中次數(shù)最高的釋義短語(yǔ),短語(yǔ)后面的數(shù)字是命中次數(shù)??梢钥闯?,由于Google和Baidu對(duì)中文網(wǎng)頁(yè)的索引規(guī)模不一樣,所以?xún)烧邔?duì)于同一查詢(xún)所返回的命中次數(shù)并不一致,導(dǎo)致釋義短語(yǔ)的排名有所差別。
本文共選擇了391個(gè)漢語(yǔ)復(fù)合名詞短語(yǔ)作為實(shí)驗(yàn)對(duì)象,經(jīng)過(guò)上述三個(gè)步驟,為每個(gè)復(fù)合名詞短語(yǔ)獲取可能的釋義短語(yǔ),并給出排名。
為了評(píng)測(cè)該方法的性能,獲取的釋義短語(yǔ)都將經(jīng)過(guò)人工檢查,作出二元判斷(是或否),即該釋義短語(yǔ)與對(duì)應(yīng)的復(fù)合名詞短語(yǔ)是否意義相同或者相近。對(duì)每個(gè)復(fù)合名詞短語(yǔ),返回排名最高的前n個(gè)(Top n)釋義短語(yǔ),分別提供給3位標(biāo)注者進(jìn)行判斷*三位標(biāo)注者,其中一位是語(yǔ)言學(xué)專(zhuān)業(yè)的博士生,其余兩位是計(jì)算語(yǔ)言學(xué)專(zhuān)業(yè)的碩士生。。對(duì)每個(gè)釋義短語(yǔ),如果有2個(gè)或以上標(biāo)注者認(rèn)為正確,則判定為正確。然后對(duì)每個(gè)復(fù)合名詞短語(yǔ),統(tǒng)計(jì)給出的候選釋義短語(yǔ)中是否有正確的釋義出現(xiàn),基于此就可以計(jì)算整個(gè)方法的準(zhǔn)確率,如公式(1)所示。
(1)
表6 基于Google和Baidu結(jié)果的準(zhǔn)確率
本文給出了n取值為1、3、5或10時(shí)的四組評(píng)價(jià)結(jié)果,見(jiàn)表6。表中顯示,使用Google和Baidu所得結(jié)果的準(zhǔn)確率非常接近。當(dāng)只為每個(gè)復(fù)合名詞返回排名最高的一個(gè)釋義短語(yǔ)時(shí),它們的準(zhǔn)確率在70%左右,隨著返回的釋義短語(yǔ)的個(gè)數(shù)增加,準(zhǔn)確率不斷提高。當(dāng)n等于3時(shí),大約90%的復(fù)合名詞短語(yǔ)都可以找到正確的釋義短語(yǔ),比n等于1時(shí)提高了20%多,增幅顯著。當(dāng)n逐步增大到5和10時(shí),準(zhǔn)確率依次提高了3%~4%,增幅不大。實(shí)驗(yàn)結(jié)果說(shuō)明本方法可以有效地為大部分復(fù)合名詞短語(yǔ)提供正確的釋義短語(yǔ), 當(dāng)返回前三個(gè)排名最高的釋義短語(yǔ)時(shí),準(zhǔn)確率已經(jīng)達(dá)到90%。
本文分別列舉了兩組復(fù)合名詞短語(yǔ),每組具有相同中心詞,并給出它們正確的語(yǔ)義解釋?zhuān)?jiàn)表7(a)-(b)??梢钥闯觯瑢?duì)于同一個(gè)復(fù)合名詞短語(yǔ),不同的釋義短語(yǔ)給出了各種可能的語(yǔ)義解釋?zhuān)纭半娪?公司”可以是“制作 電影 的 公司”或“發(fā)行 電影 的 公司”等不同職能的公司。對(duì)于同一組具有相同中心詞的復(fù)合名詞短語(yǔ), 釋義短語(yǔ)分別反映了它們進(jìn)行語(yǔ)義關(guān)聯(lián)的方式,例如,“民間 故事”用“流傳、源于、取材”等動(dòng)詞進(jìn)行釋義,強(qiáng)調(diào)的是故事的來(lái)源或發(fā)生地,而“愛(ài)情 故事”用“描繪、詮釋”等動(dòng)詞進(jìn)行釋義,強(qiáng)調(diào)的故事的內(nèi)容。雖然兩者在結(jié)構(gòu)形式上是一樣的,但是通過(guò)對(duì)比各自的釋義短語(yǔ),就可以發(fā)現(xiàn)語(yǔ)義聯(lián)系是有差別的。
表7(a) 中心詞為“故事”的復(fù)合名詞短語(yǔ)的釋義
表7(b) 中心詞為“公司”的復(fù)合名詞短語(yǔ)的釋義
本文對(duì)沒(méi)有找到正確釋義的復(fù)合名詞短語(yǔ)(當(dāng)n等于10時(shí)沒(méi)有找到)進(jìn)行了分析,造成沒(méi)有找到正確釋義短語(yǔ)的原因主要有兩個(gè)方面:
第一,沒(méi)有獲取到正確的釋義動(dòng)詞,造成由這些動(dòng)詞生成的釋義短語(yǔ)也不正確。例如,“農(nóng)民 習(xí)氣”獲取到的釋義動(dòng)詞只有兩個(gè):“擺脫”和“改變”,都不能正確解釋兩個(gè)名詞的語(yǔ)義關(guān)聯(lián)(正確的應(yīng)該是“來(lái)自”或“存在”類(lèi)動(dòng)詞)。因此,提供的候選釋義短語(yǔ)中沒(méi)有包含正確答案。
第二,搜索引擎Google和Baidu索引的差異,導(dǎo)致釋義短語(yǔ)排名不同,正確的釋義短語(yǔ)可能排名靠后,因此某些復(fù)合名詞短語(yǔ)可以在其中一個(gè)找到正確的釋義短語(yǔ),而在另外一個(gè)失效。例如,“奶油 蛋糕”在Baidu提供的前十個(gè)結(jié)果中沒(méi)有正確釋義,而在Google提供的結(jié)果中,正確的釋義短語(yǔ)“蛋糕 包括 奶油”排名在前十位。
在分析的過(guò)程中,我們發(fā)現(xiàn),漢語(yǔ)復(fù)合名詞短語(yǔ)與英語(yǔ)相比,存在著不少差異。例如,把漢語(yǔ)復(fù)合名詞短語(yǔ)翻譯成英文時(shí),一些名詞的詞性會(huì)發(fā)生變化,變成形容詞。例如,復(fù)合名詞短語(yǔ)“國(guó)際 標(biāo)準(zhǔn)”的英文是“international standard”,名詞“國(guó)際”變成了形容詞“international”。在英文復(fù)合名詞短語(yǔ)的釋義任務(wù)中,這類(lèi)形容詞作為修飾語(yǔ)的復(fù)合名詞短語(yǔ)是不包括在內(nèi)的。而在漢語(yǔ)中,對(duì)于這部分名詞實(shí)際上充當(dāng)了形容詞功能的復(fù)合名詞短語(yǔ),是很難找到合適的動(dòng)詞進(jìn)行釋義的。因此,本文在選詞時(shí)候,并沒(méi)有選擇這部分復(fù)合名詞短語(yǔ)進(jìn)行釋義。這樣就使得中文和英文的釋義任務(wù)有更多的共同點(diǎn),可以相互借鑒和對(duì)比。
本文首次在漢語(yǔ)中采用“基于動(dòng)詞的短語(yǔ)釋義”的方法對(duì)復(fù)合名詞短語(yǔ)進(jìn)行語(yǔ)義解釋?zhuān)摲椒ú粌H可以為復(fù)合名詞短語(yǔ)提供多種可能的語(yǔ)義解釋?zhuān)夷軌蚍磻?yīng)組成相似的復(fù)合名詞短語(yǔ)之間細(xì)微的語(yǔ)義差別。此外,本文的結(jié)果也可以服務(wù)于問(wèn)答系統(tǒng)、信息檢索、詞典編纂等多個(gè)應(yīng)用領(lǐng)域。
本文的方法優(yōu)于以中心語(yǔ)或修飾語(yǔ)分類(lèi)的方法,以表7中的兩組復(fù)合詞為例,中心語(yǔ)相同時(shí)并不表示其構(gòu)成關(guān)系相同,本方法有效地解決了這個(gè)以復(fù)合名詞短語(yǔ)成分展開(kāi)無(wú)法解決的問(wèn)題。下一步,我們將圍繞動(dòng)詞獲取和釋義模板兩個(gè)方向繼續(xù)研究。獲取動(dòng)詞的方法還可以進(jìn)一步改進(jìn),本文利用Chinese Word Sketch獲取在指定語(yǔ)法關(guān)系下具有搭配意義的動(dòng)詞,這樣獲取的動(dòng)詞還是有限的,可以借鑒英文的方法,定義一些模板在Web數(shù)據(jù)(如Google 5-gram web index)上進(jìn)行擴(kuò)充。此外,本文使用的釋義模板還比較簡(jiǎn)單,需要改進(jìn)和完善。例如,一些時(shí)間名詞和地點(diǎn)名詞在釋義短語(yǔ)中實(shí)際上是作狀語(yǔ),“冬季 運(yùn)動(dòng)”解釋成“(在)冬季 參加 運(yùn)動(dòng)”就比較合理,而目前的方法并沒(méi)有將這種情況考慮在內(nèi)。
[1] Downing, Pamela. On the Creation and Use of English Compound Nouns[J]. Language,1997,53(4):810-842.
[2] Levin, Judith. The Syntax and Semantics of Complex Nominals[M]. Academic Press, New York. 1978.
[3] Warren, Beatrice. Semantic patterns of noun-noun compounds[J]. In Gothenburg Studies in English 41, Goteburg, Acta Universtatis Gothoburgensis. 1978.
[4] Vanderwende, Lucy. Algorithm For Automatic Interpretation of Noun Sequences[C]//The 15th International Conference on Computational Linguistics (COLING). 1994.
[5] Lauer, Mark. Designing Statistical Language Learners:Experiments on Compound Nouns[D]. Ph.D. thesis, Macquarie University. Australia.1995.
[6] Girju, Roxana, Preslav Nakov, Vivi Nastase, Stan Szpakowicz, Peter Turney, and Deniz Yuret. Semeval-2007 task 04:Classification of semantic relations between nominals[C]//Proceedings of SemEval, Prague, Czech Republic. 2007:13-18.
[7] Girju, Roxana, Dan Moldovan, Marta Tatu, and Daniel Antohe. On the semantics of noun compounds[J]. Journal of Computer Speech and Language - Special Issue on Multiword Expressions, 2005,4(19):479-496.
[8] Diarmuid O Seaghdha. Learning Compound Noun Semantics[D]. Ph.D. thesis, University of Cambridge. 2008.
[9] Nakov, Preslav. Noun compound interpretation using paraphrasing verbs:Feasibility study[C]//Proceedings of the 13th international conference on Artificial Intelligence:Methodology, Systems and Applications (AIMSA 2008), Springer. 2008:103-117.
[10] Nakov, Preslav and Marti A. Hearst. Using verbs to characterize noun-noun relations[C]//Proceedings of the 12th international conference on Artificial Intelligence:Methodology, Systems and Applications (AIMSA 2006), Springer. 2006:233-244.
[11] Butnariu, Cristina, Su Nam Kim and Preslav Nakov et al. SemEval-2010 Task 9:The Interpretation of Noun Compounds Using Paraphrasing Verbs and Prepositions[C]//Proceedings of the Workshop on Semantic Evaluations:Recent Achievements and Future Directions (SEW-2009).2010.
[12] Zhao, Jinglei, Hui Liu and Ruzhan Lu. Semantic Labeling of Compound Nominalization in Chinese[C]//Proceedings of the Workshop on A Broader Perspective on Multiword Expressions, Prague, June 2007: 73-80.
[13] 袁毓林. 謂詞隱含及其句法后果[J].中國(guó)語(yǔ)文. 1995年,第4期.
[14] Kilgarriff, Adam and David Tugwell. Sketching words. Lexicography and Natural Language Processing:A Festschrift in Honour of B. T. S. Atkins. Marie-Hélène Corréard (Ed.)[M]. EURALEX,2002:125-137.
[15] Kilgarriff, Adam, Pavel Rychly, Pavel Smrz and David Tugwell. The Sketch Engine[C]//Proc. Euralex. Lorient, France, July,2004: 105-116.
[16] Huang, Chu-ren, Adam Kilgarriff, Yiching Wu et al. Chinese Sketch Engine and the Extraction of Grammatical Collocations[C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. 2005.
[17] Grefenstette, G. and J. Nioche. Estimation of English and non-English Language Use on the WWW[J]. Arxiv preprint cs.CL/0006032. 2000.
[18] Jones, R. and R. Ghani. Automatically building a corpus for a minority language from the web[C]//Proceedings of the Student ResearchWorkshop at the 38thAnnual Meeting of the Association for Computational Linguistics, 2000:29-36.
[19] Grefenstette, Gregory. TheWorldWideWeb as a resource for example-based machine translation tasks[C]//Proceedings of the ASLIB Conference on Translating and the Computer. London. 1998.
[20] Keller, Frank and Mirella Lapata. Using the web to obtain frequencies for unseen bigrams[J]. Computational Linguistics.2003, 29(3):459-484.