任 函,萬 菁,吳泓緲,,馮文賀
(1. 武漢大學(xué) 外國語言文學(xué)學(xué)院,湖北 武漢 430072;2. 武漢大學(xué) 湖北省語言與智能信息處理研究基地,湖北 武漢 430072;3. 武漢大學(xué) 計算機學(xué)院,湖北 武漢 430072)
文本蘊含可以看成是一個連貫的文本T和一個被看作是假設(shè)H之間的一種關(guān)系,如果H的意義可以從T的意義中推斷出來,那么就說T蘊含H,即H是T的推斷,記作T→H。文本蘊含識別提供了一種理解自然語言中的多樣化表達的有效手段,可以廣泛應(yīng)用于自動問答、信息抽取、自動文摘等自然語言處理應(yīng)用中。
文本蘊含識別的一種主要策略是采用有監(jiān)督的機器學(xué)習(xí)方法。該方法將文本蘊含問題看作一個兩類(蘊含和不蘊含)或三類(蘊含、矛盾和未知)的分類問題,根據(jù)已標注的訓(xùn)練實例和蘊含特征進行學(xué)習(xí)。在文本蘊含識別的主要評測競賽RTE中,大多數(shù)系統(tǒng)均采用該方法建立自己的文本蘊含識別系統(tǒng)[1-3]。
基于有監(jiān)督學(xué)習(xí)的文本蘊含識別的一個關(guān)鍵問題是分類學(xué)習(xí)的性能。由于蘊含和非蘊含兩個類都比較龐雜,實例間的相似性難以保證,據(jù)此建立的分類器的性能難以進一步提高。造成這一問題的根本原因是訓(xùn)練數(shù)據(jù)不足以及學(xué)習(xí)結(jié)果不充分。為此,可以采取兩種方法: 第一種方法是增加訓(xùn)練數(shù)據(jù),以保證有足夠的相似實例及可區(qū)分實例。然而,標注蘊含數(shù)據(jù)會增加大量的人工成本;第二種方法是選擇更合適的蘊含特征,但是在訓(xùn)練數(shù)據(jù)集無法提供足夠?qū)嵗那闆r下,即使選擇了有效的分類特征,學(xué)習(xí)效果也無法得到有效改進。
訓(xùn)練數(shù)據(jù)不足是機器學(xué)習(xí)的一個普遍問題。為此,可以采用半監(jiān)督學(xué)習(xí)方法應(yīng)對訓(xùn)練數(shù)據(jù)不足的問題。本文提出了一種基于協(xié)同訓(xùn)練(co-training)的半監(jiān)督學(xué)習(xí)方法進行文本蘊含識別。具體而言,協(xié)同訓(xùn)練過程分別利用文本蘊含的改寫與評估兩個視圖考察蘊含關(guān)系。改寫視圖主要考察蘊含關(guān)系的結(jié)構(gòu)化特征,而評估視圖主要考察蘊含關(guān)系的統(tǒng)計特征;然后,利用協(xié)同訓(xùn)練方法在兩個視圖上進行半監(jiān)督學(xué)習(xí)。實驗表明,該方法在一定程度上提升了文本蘊含識別的效果。
協(xié)同訓(xùn)練方法需要定義兩個不同的用于觀察數(shù)據(jù)集的視圖。對于每一個文本—假設(shè)對,我們可以從兩個相對獨立的視圖上去觀察,一個是改寫視圖,另一個是評估視圖。
改寫視圖從蘊含語料構(gòu)建者的角度來看待語料中的文本—假設(shè)對,認為蘊含的本質(zhì)是對文本片斷的改寫,包括詞匯、句法或者語義層面的改寫。改寫視圖是RTE中的一種典型視圖,很多參與RTE評測的蘊含識別系統(tǒng)都利用這種視圖來構(gòu)造分類特征[4-6]。另一方面,改寫過程可由結(jié)構(gòu)變化來表示。例如,圖1中兩句的蘊含關(guān)系體現(xiàn)在兩個方面,一是詞匯的改寫,即buy和acquire具有蘊含關(guān)系,其改寫體現(xiàn)在葉節(jié)點變化上;二是句式的變化,即由一般句式變?yōu)楸粍泳涫?,其改寫體現(xiàn)在非葉節(jié)點變化上。具有深度語義蘊含關(guān)系的文本也可以基于改寫視圖進行觀察,只需用更復(fù)雜的結(jié)構(gòu)變化表示即可。
圖1 詞匯和句法層面改寫
評估視圖從評價蘊含關(guān)系的角度觀察文本—假設(shè)對,即標注者如何去評價一個文本—假設(shè)對是否存在蘊含關(guān)系。其理由是,蘊含關(guān)系并不總是能夠由句法或語義的改寫來判斷。例如,在下例中,T1為列表形式,因此無法采用句法或語義分析得出蘊含關(guān)系。
T1: Rosanjin Kitaoji (KanareadingsforRosanjinKitaoji).
Born in Kyoto in 1883.
Ceramist.
H1: Rosanjin Kitaoji, who was born in Kyoto in 1883, is a ceramist.
人工對該例進行評價時,主要根據(jù)H1中描述的人物的各屬性(姓名、時間、職業(yè)等)是否與T1中的相同,得出是否具有蘊含關(guān)系的結(jié)論。因此,評估視圖主要考察的是詞匯的重疊程度,此時利用統(tǒng)計特征往往是有效的,例如,詞袋(bag-of-words)特征。
一些文本蘊含的研究也證明這種視圖是有效的,如Zanzotto等[7]聯(lián)合這種視圖,從Wikipedia revision corpus中自動學(xué)習(xí)具有蘊含關(guān)系的文本和假設(shè)。Malakasiotis等[8]在RTE-3評測中,利用字串相似性特征和支持向量機判斷文本蘊含。因此,這種視圖也屬于強學(xué)習(xí)器,可以獨立識別蘊含關(guān)系。
在協(xié)同訓(xùn)練方法中,需要對每個視圖單獨訓(xùn)練分類器。這里我們采用SVM作為分類器,依據(jù)是Gaona等[9]對蘊含分類模型的研究,他利用RTE-3的數(shù)據(jù)訓(xùn)練了SVM、樸素貝葉斯等八種機器學(xué)習(xí)模型,并采用10次交叉迭代驗證得到蘊含識別的準確度。實驗結(jié)果表明,SVM的準確度高于其他幾種算法。
分類器設(shè)計包括兩個部分,即核函數(shù)和分類特征的設(shè)計。核函數(shù)的設(shè)計可以圍繞視圖的特點來進行。對于改寫視圖,其主要涉及的是結(jié)構(gòu)化特征,我們采用樹核作為分類器的核函數(shù)。對于評估視圖,其主要涉及的是統(tǒng)計特征,我們可以采用多項式核作為分類器的核函數(shù)。分類特征的選擇同樣圍繞視圖的特點進行,現(xiàn)分別就核函數(shù)及分類特征進行說明。
評估視圖中的統(tǒng)計特征如詞匯重疊等,主要用于表現(xiàn)非結(jié)構(gòu)化信息,因此可采用如線性核、多項式核等核函數(shù)。本文采用多項式核作為分類的核函數(shù)。事實上,在文本蘊含識別系統(tǒng)中,也經(jīng)常采用多項式核作為分類器的核函數(shù)[10-11]。而改寫視圖需要描述數(shù)據(jù)的結(jié)構(gòu)信息,若仍采用多項式核,則可能導(dǎo)致在句法結(jié)構(gòu)上非常相似的兩個句子會被表示成完全不同的特征,由此會造成數(shù)據(jù)稀疏問題。為此,本文采用樹核作為改寫視圖中的分類器核函數(shù)。標準樹核函數(shù)的形式化描述為式(1)。
(1)
其中,N1和N2分別是樹T1和T2中節(jié)點的集合,Δ(n1,n2)表示以n1和n2為根節(jié)點的相同子樹的數(shù)量。
然而,標準樹核函數(shù)無法刻畫語義信息,如圖1中,buy和acquire存在上下位關(guān)系,反映在樹核函數(shù)中則是兩棵不同的子樹。為此,Mehdad等[12]提出了句法語義樹核來考察那些葉節(jié)點上相似(如同義關(guān)系、上下位關(guān)系)的術(shù)語,試圖解決因部分葉子節(jié)點的不同而導(dǎo)致的整個子樹不匹配的問題。受此啟發(fā),我們也將語義信息融入樹核中,以提高子樹匹配的效果。與Mehdad等的方法不同的是,我們不僅考慮了詞義相似性,也考慮了語義相似而結(jié)構(gòu)不同的蘊含關(guān)系。具體而言,Mehdad等的方法僅考慮詞或術(shù)語的相似性,而我們的方法還考慮了具有蘊含關(guān)系的短語。例如,對于以下例子:
T2: Yahoo’s acquisition of Overture
H2: Yahoo acquired Overture
Mehdad等的方法無法得到T2和H2存在語義相同的子樹,而事實上X’s acquisition of Y蘊含了X acquire Y,通過對短語所在子樹進行匹配,我們的樹核函數(shù)可以得到T2與H2存在語義相同子樹的結(jié)論。
本文采用的語義樹核函數(shù)的定義如式(2)所示。
Δ(n1,n2)=λKP(cn1,cn2)KW(chn1,chn2) (n1≠n2)
(2)
其中,KP和KW為短語語義樹核和詞匯語義樹核,cn1和cn2分別為n1和n2的非葉節(jié)點,chn1和chn2分別為n1和n2的葉節(jié)點,λ為衰退因子。KP考察短語的蘊含關(guān)系,若n1和n2的結(jié)構(gòu)具有蘊含關(guān)系,則KP為n1和n2的全部子樹(除葉節(jié)點外)個數(shù)的乘積,否則,KP為0。KW考察詞義蘊含關(guān)系,若葉節(jié)點上的詞匯的詞義完全相同或具有蘊含關(guān)系,KW則為1,否則為0。對于詞義蘊含關(guān)系,可以采用如WordNet等詞義資源,考察兩個詞是否具有上下位或蘊含等關(guān)系;對于短語蘊含關(guān)系,可以利用蘊含規(guī)則庫和外部知識,如DIRT等,考察兩個文本片斷是否存在蘊含規(guī)則。
式(2)修改了標準樹核函數(shù)中n1≠n2情況下的計算方法。對于其它情況,仍可按照標準樹核函數(shù)定義進行計算。
利用2.1節(jié)給出的兩種視圖,我們可以分別構(gòu)造兩個特征集,用于訓(xùn)練兩個分類器。正例和反例則分別是具有和不具有蘊含關(guān)系的文本—假設(shè)對,這些數(shù)據(jù)可以從RTE評測數(shù)據(jù)集中挑選。算法首先從未標注數(shù)據(jù)集中選擇一個子集,然后分別利用兩個分類器進行分類,得到一種類別劃分;然后,從分類結(jié)果中選擇k個最優(yōu)的標注結(jié)果(包括正例和反例),加入到初始標注集中,并且從未標注集中移除。該過程反復(fù)進行,直到達到停止條件。這里的停止條件可以設(shè)定為迭代次數(shù)。
除了兩個視圖下的分類器,我們還需要訓(xùn)練一個綜合分類器,以整合全部未標記數(shù)據(jù)的訓(xùn)練結(jié)果,并對新數(shù)據(jù)進行預(yù)測。綜合分類器將兩種核函數(shù)進行混合,如式(3)所示。
Khybrid=αKpoly+(1-α)Ktree
(3)
其中,Kpoly為多項式核,Ktree為樹核,α為混合系數(shù)。于核函數(shù)在線性運算下是封閉的,因此混合核函數(shù)也滿足Mercer條件。
基于樹核的分類器只需選取適當(dāng)?shù)木浞ㄗ訕?,因此無需細致的特征構(gòu)建和選擇工作。而基于多項式核的分類器主要通過扁平特征進行學(xué)習(xí)(如字串重疊特征和詞義相似度特征),為了增強分類器的學(xué)習(xí)能力,我們引入了句法和語義相似性特征。
句法相似度的算法如下: 首先,統(tǒng)計文本T和H中的依存關(guān)系對,用ST和SH分別表示T和H的依存子樹集合;然后,對每一ph∈SH,計算ph與每一pt∈ST的相似度,并將最大的相似度值作為ph的相似度;最后,計算T與H的整體相似度。公式表示如式(4)所示。
(4)
其中,simp(pt,ph)為依存子樹pt和ph的相似度。一種計算方法是,相似度為依存關(guān)系對是否完全匹配的布爾值。然而當(dāng)葉節(jié)點為同義詞時,這種匹配將失敗。為此,我們利用WordNet計算pt和ph中的詞匯相似度,如式(5)所示。
(5)
語義相似度考察謂詞論元結(jié)構(gòu)的相似性,計算方法與句法相似度類似,只不過將句法依存子樹變成語義依存子樹。
實驗語料來自RTE-5,其中RTE-5中訓(xùn)練集和測試集分別為600個文本—假設(shè)對,訓(xùn)練集和測試集中蘊含和不蘊含的樣本個數(shù)分別為300。實驗的評測指標采用正確率(正確的評價結(jié)果占總測試樣本個數(shù)的比值)、準確率、召回率和F值作為評測指標。各參數(shù)根據(jù)最優(yōu)實驗結(jié)果進行設(shè)置,其中衰退因子λ取0.4,混合系數(shù)α取0.6。
詞義蘊含關(guān)系利用WordNet進行計算,具體方法是: 若兩個詞在WordNet中存在上下位關(guān)系或蘊含關(guān)系,則認為兩詞具有蘊含關(guān)系,否則不具有蘊含關(guān)系。為獲取用于判斷結(jié)構(gòu)蘊含關(guān)系所需的知識,本文利用DIRT復(fù)述庫,用于搜索兩個子樹是否存在蘊含轉(zhuǎn)換規(guī)則。
第一個實驗評測了基于協(xié)同訓(xùn)練的文本蘊含識別系統(tǒng)的性能。協(xié)同訓(xùn)練分類器Co-training采用第3章提出的方法進行協(xié)同訓(xùn)練。SVM1、SVM2和SVM3分別采用混合核、多項式核和樹核作為分類器的核函數(shù)。
標注數(shù)據(jù)隨機從訓(xùn)練樣本中選取50%,即300個樣本作為訓(xùn)練數(shù)據(jù),并保證蘊含和非蘊含的樣本數(shù)大致相同,其余樣本則作為未標注數(shù)據(jù)。測試樣本為全部測試集合。為減少隨機數(shù)據(jù)選擇的影響,每次樣本選擇過程都獨立進行10次,然后進行學(xué)習(xí),最后各評測值取10次各評測值的平均值。協(xié)同訓(xùn)練的迭代次數(shù)設(shè)為30次。實驗結(jié)果如表1所示。
表1 協(xié)同訓(xùn)練分類器、混合核分類器和單核分類器的分類結(jié)果
實驗結(jié)果顯示,基于協(xié)同訓(xùn)練的分類器的正確率比混合核分類器SVM1高出3.78%,比單核分類器SVM2和SVM3分別高出6.45%和11.41%。就準確率、召回率和F值而言,基于協(xié)同訓(xùn)練的分類器的性能比其它分類器也有不同程度的提高。這表明,基于協(xié)同訓(xùn)練的分類器能在蘊含數(shù)據(jù)不足的情況下獲得更好的識別性能。
其次,混合核分類器SVM1的正確率比單核分類器SVM2和SVM3分別高出2.67%和10.6%,蘊含和非蘊含兩類的準確率和召回率也高于單核分類器。另一方面,采用統(tǒng)計特征的分類器SVM2的正確率比基于樹核的分類器SVM3高出7.93%,兩類的準確率和召回率也比SVM3大輻提高。這表明: 1)蘊含關(guān)系的類別豐富,一些蘊含關(guān)系可以由統(tǒng)計特征表現(xiàn)出來,另一些則體現(xiàn)在結(jié)構(gòu)信息中,即蘊含關(guān)系需要從統(tǒng)計信息和結(jié)構(gòu)信息進行綜合評價,因此綜合考察了蘊含數(shù)據(jù)的結(jié)構(gòu)和非結(jié)構(gòu)特征的混合核分類器能夠獲得更好的性能。2)基于統(tǒng)計特征的分類器SVM2,其性能相比基于樹核的分類器SVM3有較大提高,其原因在于,文本與假設(shè)里往往存在大量的字串和詞匯重疊,對于那些具有蘊含關(guān)系而句式結(jié)構(gòu)不一致的文本對,即使難以找出蘊含結(jié)構(gòu),但其中大多數(shù)字串仍然是相同的,因此基于非結(jié)構(gòu)特征的分類器仍然可以得到正確結(jié)果;但對于基于樹核的分類器而言,一旦難以找出蘊含結(jié)構(gòu),分類器就可能給出錯誤的判斷。因此,采用統(tǒng)計特征對實驗數(shù)據(jù)進行分類識別更有效。
從實驗數(shù)據(jù)中還可以看出,各分類器的蘊含類的準確率都低于召回率,而非蘊含類的準確率都高于召回率。顯然,各分類器在將蘊含樣本判斷為蘊含關(guān)系的同時,也將不少非蘊含樣本判斷為蘊含關(guān)系。事實上,蘊含關(guān)系不僅體現(xiàn)在字串重疊、詞義相似和短語結(jié)構(gòu)上的蘊含,還包括數(shù)量、地理信息、背景知識等等。因此,不論是統(tǒng)計特征還是結(jié)構(gòu)信息,都難以應(yīng)對比較復(fù)雜的蘊含關(guān)系。為此,需要對數(shù)據(jù)進行更多的預(yù)處理,以使待分類的數(shù)據(jù)更易于學(xué)習(xí)。
第二個實驗考察不同訓(xùn)練數(shù)據(jù)規(guī)模下基于協(xié)同分類的分類器和混合核分類器的分類性能。本實驗設(shè)置與第一個實驗的設(shè)置基本相同,區(qū)別僅在于所選取的訓(xùn)練樣本占樣本總數(shù)的比例從10%到50%,以5%的比例遞增,剩下的則作為未標記樣本。實驗結(jié)果如圖2所示。
圖2 不同訓(xùn)練數(shù)據(jù)規(guī)模下的Co-training和SVM1的正確率
實驗結(jié)果顯示,在訓(xùn)練集不足的情況下,基于協(xié)同訓(xùn)練的分類器Co-training的性能明顯優(yōu)于基于有監(jiān)督的分類器SVM1。事實上,由于蘊含現(xiàn)象龐雜,而人工標注的訓(xùn)練數(shù)據(jù)非常有限,因此往往難以滿足訓(xùn)練要求。而基于協(xié)同訓(xùn)練的方法能夠利用現(xiàn)有未標注數(shù)據(jù)進行自學(xué)習(xí),在一定程度上克服數(shù)據(jù)不足的問題,因此更適合于文本蘊涵識別。
第三個實驗評估協(xié)同訓(xùn)練算法的迭代次數(shù)對性能的影響。在實驗中,標注數(shù)據(jù)的比例設(shè)為50%。與第一個實驗相同,標注數(shù)據(jù)和未標記數(shù)據(jù)隨機從訓(xùn)練樣本中選取,并保證正例和負例的樣本數(shù)大致相同,每次樣本選擇過程都獨立進行10次,整體的正確率取10次正確率的平均值。實驗結(jié)果如圖3所示。
圖3 不同迭代次數(shù)的協(xié)同訓(xùn)練算法性能
實驗結(jié)果顯示,迭代次數(shù)在25至35次之間時,系統(tǒng)的性能相對穩(wěn)定;當(dāng)?shù)螖?shù)超過35次時,系統(tǒng)的錯誤率開始不穩(wěn)定,這種情況是由于噪音的累積而造成的。雖然我們看到,迭代次數(shù)達到40次時,錯誤率有所下降,但總體上看,隨著噪音不斷累積,其負作用會越來越大。因此,我們需要選擇一個相對穩(wěn)定的迭代次數(shù)。在本實驗中,30次迭代可以將錯誤率維持在較低的水平。
針對文本蘊涵的訓(xùn)練數(shù)據(jù)不足的問題,本文提出了基于協(xié)同訓(xùn)練的文本蘊含識別方法,利用少量已標注的蘊含數(shù)據(jù)和大量未標注數(shù)據(jù)進行半監(jiān)督學(xué)習(xí)。為滿足協(xié)同訓(xùn)練算法的學(xué)習(xí)條件,本文分別采用改寫視圖和評估視圖來考察結(jié)構(gòu)信息和統(tǒng)計信息。針對改寫視圖的分類器,本文提出一種語義核函數(shù),同時考察詞匯和短語的語義蘊含關(guān)系。實驗表明,相比有監(jiān)督的學(xué)習(xí)方法,基于半監(jiān)督的協(xié)同訓(xùn)練方法能讓蘊含識別系統(tǒng)在數(shù)據(jù)不足的情況下獲得更好的識別性能。同時,蘊含關(guān)系需要從統(tǒng)計上的相似度和結(jié)構(gòu)上的蘊含關(guān)系進行綜合評價,因此綜合考察了結(jié)構(gòu)和非結(jié)構(gòu)特征的混合核分類器能夠獲得更好的性能。
另一方面,蘊含關(guān)系非常龐雜,而統(tǒng)計上的相似度和結(jié)構(gòu)上的蘊含關(guān)系僅是蘊含關(guān)系的兩種表現(xiàn)形式。因此,不論是統(tǒng)計特征還是結(jié)構(gòu)信息,都難以應(yīng)對比較復(fù)雜的蘊含關(guān)系。為此,需要對數(shù)據(jù)進行更多的預(yù)處理,以使待分類的數(shù)據(jù)更易于學(xué)習(xí)。
[1] Shachar Mirkin, Roy Bar-Haim, Jonathan Berant, et al. Bar-Ilan University’s Submissions to RTE-5[C]//Proceedings of The Text Analysis Conference 2009. Gaithersburg, Maryland, USA, 2009.
[2] Han Ren, Donghong Ji, Jing Wan. WHU at TAC 2009: A Tri-categorization Approach to Textual Entailment Recognition[C]//Proceedings of Text Analysis Conference 2009. Gaithersburg, Maryland, USA, 2009.
[3] Mark Sammons, V G Vinod Vydiswaran, Tim vieira, et al. Relation Alignment for Textual Entailment Recognition[C]//Proceedings of the Text Analysis Conference 2009. Gaithersburg, Maryland, USA, 2009.
[4] Alicia Ageno, David Farwell, Daniel Ferres, et al. TALP at TAC 20008: A Semantic Approach to Recognizing Textual Entailment[C]//Proceedings of the 4th PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA, 2008.
[5] Eugene Agichtein, Walt Askew, Yandong Liu. Combining Lexical, Syntactic, and Semantic Evidence for Textual Entailment Classification[C]//Proceedings of the 4th PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA, 2008.
[6] Fabio Massimo Zanzotto. PeMoZa submission to TAC 2008[C]//Proceedings of the 4th PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA, 2008.
[7] Fabio Massimo Zanzotto, Marco Pennacchiotti. Expanding Textual Entailment Corpora from Wikipedia using Co-training[C]//Proceedings of the COLING-Workshop on The People’s Web Meets NLP: Collaboratively Constructed Semantic Resources. Beijing, China, 2010.
[8] Prodromos Malakasiotis, Ion androutsopoulos. Learning Textual Entailment using SVMs and String Similarity Measures[C]//Proceedings of the The ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. Prague, Czech, 2007.
[9] Miguel Angel Ríos Gaona, Alexander Gelbukh, Sivaji Bandyopadhyay. Recognizing Textual Entailment Using a Machine Learning Approach[C]//Proceedings of the 9th Mexican International Conference on Artificial Intelligence Conference on Advances in Soft Computing: Part II, Pachuca, Mexico, 2010.
[10] Roy Bar-Haim, Jonathan Berant, Ido Dagan, et al. Efficient Semantic Deduction and Approximate Matching over Compact Parse Forests[C]//Proceedings of the 4th PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA, 2008.
[11] Alvaro Rodrigo, Anselmo Penas, Felisa Verdejo. Towards an Entity-based Recognition of Textual Entailment[C]//Proceedings of the 4th PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA, 2008.
[12] Yashar Mehdad, Alessandro Moschitti, Fabio Massiomo Zanzotto. SemKer: Syntactic/Semantic Kernels for Recognizing Textual Entailment[C]//Proceedings of the Text Analysis Conference 2009. Gaithersburg, Maryland, USA, 2009.
[13] Zhibiao Wu, Martha Palmer. Verb Semantics and Lexical Selection[C]//Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Las Cruces, New Mexico, 1994.