陳學(xué)麗,李 茹,2,王 賽,王智強
(1.山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原030006;2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原030006)
漢語框架網(wǎng)(Chinese FrameNet,簡稱 CFN)[1]的低覆蓋率,制約著漢語框架語義分析任務(wù)。例如,對例句“20年后,他才回到 出生時的老家,看望 了撫養(yǎng)他長大成人的父母。[2]”進(jìn)行多框架語義分析時,依據(jù)現(xiàn)有的詞元庫,只能識別出目標(biāo)詞“回到”激起框架“到達(dá)框架”,目標(biāo)詞“出生”“看望”“撫養(yǎng)”激起相應(yīng)的框架缺失。因此解決未登錄詞元的框架選擇問題是框架語義分析的一個關(guān)鍵環(huán)節(jié)。
針對英文FrameNet[3]低覆蓋率問題,2007年SemEval[4]提 出 了 Lexical Unit Induction Task,“LU induction as the task of assigning unknown lexical units not yet present in the FrameNet database to the correct frames.[5]”,即對于文本中可以激起框架但屬于FrameNet詞元庫中的未登錄詞元,為其分配一個正確的框架。已有研究主要借助了語義資源如VerbNet,WordNet及Wikipediak等來實現(xiàn)此任務(wù),包括德國薩爾蘭大學(xué)的Aljoscha Burchardt等[6]于2005年提出一種基于規(guī)則的未登錄詞元框架識別系統(tǒng),利用WordNet的詞義消歧系統(tǒng)為FrameNet詞元選擇一個WordNet詞義,然后利用權(quán)重體系計算詞元庫中未登錄詞元與候選框架的相似度,依據(jù)相似度結(jié)果為未登錄詞元選擇最優(yōu)框架,獲得39%的框架識別準(zhǔn)確率和87%的覆蓋率。2007年LTH研究小組[7]提出基于機器學(xué)習(xí)的未登錄詞元框架識別方法,通過選取WordNet上下位關(guān)系作為特征,并為每個框架分別構(gòu)建一個LIBSVM分類器,最終獲得31%的覆蓋率和75.8%的框架識別準(zhǔn)確率。M Pennacchiotti等[5]于2008年提出基于分布式模型與WordNet模型的方法,分別對動詞、名詞、形容詞的未登錄詞元進(jìn)行框架選擇,并將兩種模型組合,使框架識別準(zhǔn)確率和覆蓋率得到一個權(quán)衡。也有一些研究者并未借助任何資源,包括Dipanjan Das等[8]于2011提出的基于圖的半監(jiān)督學(xué)習(xí)方法,最終在真實語料上未登錄詞元的框架識別準(zhǔn)確率達(dá)到了62.35%。
針對漢語框架網(wǎng)中未登錄詞元的框架選擇問題,本文提出了基于平均語義相似度計算算法和基于最大熵模型的兩種方法。這兩種方法均借助“哈爾濱工業(yè)大學(xué)信息檢索研究中心同義詞詞林?jǐn)U展版”[9]提供的詞義信息,其中基于最大熵模型的方法采用靜態(tài)特征與動態(tài)特征相結(jié)合的方法,并在真實的新聞?wù)Z料上進(jìn)行了未登錄詞元框架選擇的研究。同時,由于詞元庫中的詞元都與其所屬的框架對應(yīng),因此只要識別出未登錄詞的框架就能將未登錄詞元添加到對應(yīng)的框架中,從而可以實現(xiàn)詞元庫的擴充。
一個框架是它的詞元所激起的特定場景,同一框架下的詞元具有高度的相似性[10],本文利用同義詞詞林的詞義信息來計算詞語間的相似度,最終通過框架中已有詞元判斷其與此框架的相似性。
首先通過映射同義詞詞林中的同義詞集到CFN詞元庫的詞元上,CFN詞元庫中的詞元得到同義詞詞林中的所有詞義編號下的詞,這樣得到一個映射網(wǎng)絡(luò),部分示例見表1。
表1 CFN-同義詞詞林映射網(wǎng)絡(luò)部分示例
形成映射網(wǎng)絡(luò)的具體統(tǒng)計數(shù)據(jù)集見表2。其次,對給定句子 X = {w1,w2,……,wi,……,wn},其中wi是句子X中第i個詞且句子中有n個詞。通過詞性,建立目標(biāo)詞候選集Candidate(X)={tj= wi|wi∈ X,pos(wi)∈ (v,n,a,i)},其 中pos(wi)是wi的詞性,包括CFN詞元庫中詞元的所有詞性:動詞(v)、名詞(n)、形容詞(a)和成語俗語(i)。Candidate(X)是一個候選目標(biāo)詞詞集t=同時tj是句子中第j個候選的目標(biāo)詞,n′表示句子X 中候選目標(biāo)詞的個數(shù)。對于候選目標(biāo)詞中未登錄詞元,利用基于同義詞詞林的詞語間相似度算法[11],得到其與特定框架下所有詞元的相似度,再利用平均相似度的算法(Average Similarity Method)[7]來計算未登錄詞與此框架的相似度,如式(1)所示。由于對句子中的詞都進(jìn)行了詞義消歧,每個候選目標(biāo)詞都有一個特定的詞義,所以式(1)比J&N(2007)[7]中用到的平均相似度的方法具有更低的復(fù)雜度。
表2 CFN-同義詞詞林映射后的數(shù)據(jù)集描述
式(1)中,mj為句子中的候選目標(biāo)詞tj詞義消歧后的唯一詞義,令CFN詞元庫的框架集合F=是詞元庫中的框架個數(shù)。給定框架Fk下的詞元集合為lk=是框架Fk下詞元的個數(shù)。假定skr是lkr在同義詞詞林中的一個義項,即skr∈senses(lkr),其中,senses(lkr)是詞元lkr的義項集合。同時,設(shè)sim(mj,skr)為候選目標(biāo)詞tj和詞元lkr的相似度,simFk(tj)為候選目標(biāo)詞tj與框架Fk的相似度。
針對給定句子X,通過候選目標(biāo)詞與框架的相似度simFk(tj)最終得到與未登錄詞元相似度值排名前k的框架,具體算法見算法1,然后動態(tài)地將滿足如下條件的目標(biāo)詞加入CFN的詞元庫中:simFk(tj)≠1且simFk(tj)≥ 閾值。經(jīng)過多次試驗,設(shè)置閾值為0.5。
算法1 基于同義詞詞林的平均語義相似度計算算法
CFN例句庫涉及180個框架,把每個框架作為一類的話,每個詞可能的框架有180個,可以將此任務(wù)看作一個多分類問題。對于處理多分類問題,最大熵分類器具有較快的訓(xùn)練速度;分類類別數(shù)量的多少對最大熵分類速度和結(jié)果的影響不大;最大熵模型的一個最顯著的特點是對特征沒有獨立性要求[12]。所以最大熵模型能較容易地對多分類問題進(jìn)行建模,本文采用一步多分類的最大熵模型。
詞元是一個詞和它一個義項的組合,一個多義詞屬于多個框架。例如,歧義詞元“叫”的兩個詞義“叫做_所謂”和“喊_叫”屬于兩個框架“命名框架”和“發(fā)聲框架”。如果只考慮詞本身而不考慮詞義,則不能將詞元分配到正確的框架中。CFN數(shù)據(jù)集是由框架組織的,特定框架下的詞元,共享類似的謂詞-論元結(jié)構(gòu),例如,“有Jd04”既屬于“擁有”框架又屬于“存現(xiàn)”框架,但是兩個框架有不同的語境場景,因此上下文語境可以用來判斷當(dāng)前詞屬于哪個框架。在一個句子中,一個詞屬于哪個框架并不僅僅取決于它本身的特征,更取決于它的上下文語境。本文將其本身的特征稱為靜態(tài)特征,上下文環(huán)境稱為動態(tài)特征[13]。
特征描述中約定如下,“當(dāng)前詞”表示正在對其進(jìn)行框架選擇的詞,當(dāng)前詞的位置為0,詞位置在當(dāng)前詞之前為負(fù),詞位置在當(dāng)前詞之后計數(shù)為正[14]。最終選取的特征包括當(dāng)前詞的詞形、詞性、窗口信息(窗口為1和2的特征)、依存句法信息、詞義信息等16個基本特征,其中當(dāng)前詞的詞形、詞性、詞義為靜態(tài)特征,而依存句法信息和窗口信息為動態(tài)特征,具體的特征概述見表3。
表3 特征概述
同時研究了動態(tài)特征中詞層面的窗口信息,窗口特征可以形成不同的組合特征,包括窗口內(nèi)的詞、詞性、詞之間的組合、詞性間的組合、詞與詞性的組合特征等等,其中詞性與詞形的特征列表見表4。
表4 詞性(詞形)特征列表
基于相似度計算方法的測試集(稱為Test1)來源于北京大學(xué)中國語言學(xué)研究中心(CCL)[15-16],共1 825條句子,每條句子選出一個目標(biāo)詞作為候選目標(biāo)詞。
基于最大熵方法的訓(xùn)練集來源于CFN的例句庫—180個框架、1 700個詞元的17 369句例句。對于這些例句抽取了49 931個候選目標(biāo)詞。測試集分為兩部分,一部分是為了與相似度計算的方法進(jìn)行對比,選用了Test1,此部分測試集的候選目標(biāo)詞既不屬于CFN的例句庫也不屬于訓(xùn)練集語料,為完全的未登錄詞元;另一部分是來自《人民日報》的真實語料Test2,選自1998年1月的3 050篇新聞報道,37 000個句子,剔除部分分詞錯誤和詞性標(biāo)注錯誤的詞,共選擇了101 873個候選目標(biāo)詞,其中未登錄的詞元約占5.47%,即5 567個完全未登錄的詞元。語料分布見表5。
表5 語料分布
預(yù)處理:利用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺LTP[17]進(jìn)行了分句、分詞、詞性標(biāo)注、詞義消歧、依存句法分析等模塊對文本進(jìn)行了處理。由于LTP平臺提供的詞義消歧是3層詞義的標(biāo)注,對于基于同義詞詞林的平均語義相似度計算算法需要進(jìn)一步深加工處理成5層義項。
本文通過框架識別的準(zhǔn)確率來評估實驗結(jié)果?;谙嗨贫扔嬎愕姆椒?,分別計算不同級k的準(zhǔn)確率:如果詞元所屬的框架在其TOP-k的框架中,表示框架識別正確。準(zhǔn)確率計算為式(2)。
其中,n表示候選目標(biāo)詞的個數(shù),c′表示前k級框架識別正確的詞元數(shù)?;谧畲箪啬P偷姆椒?zhǔn)確率計算為式(3)。
其中,n表示候選目標(biāo)詞的個數(shù),c表示框架識別正確的詞元數(shù)。
3.3.1 基于相似度計算方法的實驗結(jié)果及分析
基于平均語義相似度計算方法的未登錄詞元框架選擇的實驗結(jié)果如圖1所示。
TOP-k表示依據(jù)未登錄詞與框架間相似度值的大小,排名前k的框架。由圖1可知,TOP-1的框架識別率僅為49.63%,對于有歧義框架的詞元需要考慮多個框架來得到更高的準(zhǔn)確率。由圖還可以看出,k>4之后準(zhǔn)確率上升的比較平穩(wěn),趨于穩(wěn)定,因為在CFN詞元庫中相同的詞形可以激起的框架數(shù)最多是4個,考慮TOP-4框架識別準(zhǔn)確率達(dá)到78.61%。
CFN詞元庫現(xiàn)有3 194個詞元,其中僅有329個詞元屬于兩個或以上的框架,對于大部分詞元只考慮詞形就可以實現(xiàn)框架的正確選擇,但屬于有歧義框架的詞元多為常見的詞,例如,“打算Gb05”屬于框架“計劃”和“目的”;“有Jd04”屬于框架“擁有”和“存在”;“是Ja01”屬于框架“等同”“屬于某類”和“存現(xiàn)”……這些詞都有相同的詞形和詞義,如果只考慮一個框架會導(dǎo)致錯誤,所以考慮多個框架才能更準(zhǔn)確。同時,TOP-2,3,4還可以進(jìn)一步修正TOP-1的實驗結(jié)果,最終把句子中的未登錄詞元放到詞元庫中最合適的框架下。
3.3.2 基于最大熵方法的實驗結(jié)果及分析
本實驗采用張樂博士的最大熵工具包[18],迭代次數(shù)1 000次,高斯懲罰因子1.0。根據(jù)表3的特征,最終得到復(fù)合特征模板的設(shè)置情況如表6所示。
表6 復(fù)合特征模板
由表6可知,T1模板是在T0模板的基礎(chǔ)上加入了詞義信息,T2~T8模板是在T1的基礎(chǔ)上加入了不同的依存句法信息組合的上下文信息,T9~T10模板是在T1的基礎(chǔ)上加入了窗口為1和2的上下文信息,而T11模板是表2中的所有16個特征組成的模板。
對于體現(xiàn)上下文語境的詞層面的窗口特征,根據(jù)表4中的特征列表,測試窗口大小為2的詞、詞性、詞的n-gram以及詞性的n-gram。針對測試集的全部候選目標(biāo)詞進(jìn)行了多次實驗得到了最優(yōu)的詞形與詞性的組合模板。最優(yōu)的窗口模板結(jié)果見表7。
表7 最優(yōu)窗口模板的框架識別準(zhǔn)確率
根據(jù)表5中的實驗語料,利用表6中的特征模板,對新聞?wù)Z料中未登錄詞元的框架識別進(jìn)行實驗,同時也統(tǒng)計了全部候選目標(biāo)詞的識別結(jié)果(表8)。
表8 基于最大熵方法的實驗結(jié)果
由表8可知,對于測試集Test1的框架識別準(zhǔn)確率最好達(dá)到了87.29%;對于新聞?wù)Z料中完全未登錄詞元的準(zhǔn)確率達(dá)到了75%,而對于語料中全部的候選目標(biāo)詞(包含5.47%的未登錄詞元)準(zhǔn)確率最高達(dá)到了94.17%。同時,表7中窗口信息的最優(yōu)結(jié)果和表8中的模板T9、T10的結(jié)果均低于T2~T8依存句法模板中的最優(yōu)結(jié)果,盡管這些模板考慮的都是動態(tài)特征(即上下文語境),但是表7、T9模板和T10模板是詞層面的上下文信息,而T2~T8模板是句法層面的上下文信息,可以得出依存句法特征可以考慮與當(dāng)前詞長距離依存關(guān)系的相關(guān)詞,比開窗口的特征反映更多有用的信息,即依存句法特征為最優(yōu)動態(tài)特征;對于Test1和Test2中完全未登錄詞元,加入了詞義信息的T1模板比T0模板的結(jié)果得到了明顯的提高,所以詞義信息是最優(yōu)靜態(tài)特征;而對于全部的Test2,T1模板比T0模板結(jié)果的提高并不太顯著,原因是新聞?wù)Z料約有95%的是已知詞元,所以詞義信息對未登錄詞元的框架選擇有著更好的效果。
表8中Test1的實驗結(jié)果高于圖1中的實驗結(jié)果,這是因為基于最大熵的方法充分考慮了詞層面特征、句法層面特征和詞義層面特征,而相似度計算的方法只考慮當(dāng)前詞的詞形信息和詞義信息?;谙嗨贫扔嬎惴椒ǖ目蚣茏R別準(zhǔn)確率低,計算復(fù)雜度高,但是此方法不受例句庫的限制,可以為未登錄詞元識別220個有詞元的框架;而基于最大熵的方法依賴詞元庫中詞元的數(shù)目以及例句庫中例句的數(shù)目,所以只能為未登錄詞元選擇180個有例句的框架。
由以上實驗可知,基于平均語義相似度計算算法和基于最大熵模型這兩種方法為未登錄詞元的框架選擇任務(wù)提供了兩種有效的解決途徑。但是目前的實驗結(jié)果性能還不太理想,主要的原因是預(yù)處理中分詞結(jié)果、詞性標(biāo)注結(jié)果、詞義標(biāo)注結(jié)果及句法分析結(jié)果的錯誤,加之論文中所用的語料規(guī)模較大,進(jìn)行人工校對有些困難,會有錯誤累積,導(dǎo)致最終未登錄詞元的框架識別結(jié)果較低。同時對于漢語框架網(wǎng)中場景類似的框架選擇會導(dǎo)致實驗結(jié)果的錯誤,因為框架網(wǎng)中有8種“框架—框架”關(guān)系,比如繼承關(guān)系,一個框架繼承了另一個框架,同時也繼承了其父框架的框架元素,所以兩個框架的詞元類似、場景類似,難以區(qū)分。圖2是一個框架關(guān)系網(wǎng)的一部分,其中矩形中的詞語是框架名,橢圓中的詞語是相鄰框架之間的關(guān)系。例如,框架“注意”是框架“認(rèn)知”的子框架。圖2中右下角的“記憶”“行動記憶”和“情景記憶”三個框架,場景類似、擁有的詞元類似、框架元素也類似,對于未登錄詞元會導(dǎo)致框架分配的錯誤。
圖2 框架關(guān)系網(wǎng)絡(luò)實例
本文針對未登錄詞元的框架選擇問題,提出了基于相似度計算和最大熵的方法。這兩種方法都能夠有效地實現(xiàn)未登錄詞元的框架選擇,其中基于相似度計算的方法(TOP-4)達(dá)到了78.61%的準(zhǔn)確率,基于最大熵的方法在相同語料(Test1)上準(zhǔn)確率可達(dá)到87.29%,針對新聞?wù)Z料(Test2)的完全未登錄詞元獲得75%的準(zhǔn)確率。為漢語的框架語義分析任務(wù)中未登錄詞元的框架選擇提供了兩種解決方法,同時也提供了詞元庫自動擴充的有效途徑。
為了進(jìn)一步提高未登錄詞元的框架選擇結(jié)果,下一步將在基于相似度計算的框架選擇中尋找更為準(zhǔn)確的相似度度量方法;在基于最大熵的方法中嘗試有效的特征選擇方法來提高框架識別準(zhǔn)確率;同時將進(jìn)一步嘗試使用基于平均語義相似度計算和基于機器學(xué)習(xí)融合的方法,從而綜合兩種方法的優(yōu)點。
[1]郝曉燕,劉偉,李茹,等.漢語框架語義知識庫及軟件描述體系[J].中文信息學(xué)報,2007,21(5):96-138.
[2]李雙紅.基于框架核心語義依存圖的句子相似度計算[D].山西大學(xué)碩士學(xué)位論文,2010.
[3]C J Fillmore.Frame semantics and the nature of language[J].Annals of the New York Academy of Sciences,1976:20-32.
[4]C Baker,M Ellsworth,K Erk.SemEval-2007Task 19:Frame semantic structure extraction[C]//Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007).Prague:Czech Republic,2007:99-104.
[5]M Pennacchiotti,D De Cao,R Basili,D Croce,et al.Automatic induction of FrameNet lexical units[C]//Proceedings of the 2008Conference on Empirical Methods in Natural Language Processing.Honolulu,2008:457-465.
[6]A Burchardt,K Erk,A Frank.A WordNet detour to FrameNet[C]//Proceedings of the GLDV 2005Germa-Net II Workshop.Bonn,Germany,2005.
[7]R Johansson,P Nugues.Using WordNet to extend FrameNet coverage[C]//Proceedings of the Workshop on Building Frame-semantic Resources for Scandinavian and Baltic Languages.Tartu,2007.
[8]Dipanjan Das,Noah A Smith.Semi-Supervised Frame-Semantic Parsing for Unknown Predicate[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland, Oregon,2011:1435-1444.
[9]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese Language Technology Platform[C]//Proceedings of the Coling 2010:Demonstrations.Beijing,China,2010:13-16.
[10]Ru Li,Shuanghong Li,Zezheng Zhang.The Semantic Computing Model of Sentence Similarity Based on Chinese FrameNet[C]//Proceedings of 2009IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.Toronto,Canada,2009:255-258.
[11]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學(xué)學(xué)報(信息科學(xué)版),2010,28(6):602-608.
[12]張海軍,欒靜,李勇,等.基于統(tǒng)計學(xué)習(xí)框架的中文新詞檢測方法[J].中文信息學(xué)報,2012,39(2)232-235.
[13]穗志芳,俞士汶.漢語單句謂語中心詞識別知識的獲取及應(yīng)用[J].北京大學(xué)學(xué)報(自然科學(xué)版),1998,34(2-3):221-229.
[14]赫蘭光,王軒,李露,范士喜.基于最大熵分類器的謂詞識別與詞義消歧[C]//第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上).北京,2008:20-28.
[15]俞士汶,段慧明,朱學(xué)鋒,孫斌.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報,2002,16(5):49-64.
[16]俞士汶,段慧明,朱學(xué)鋒,孫斌.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J].中文信息學(xué)報,2002,16(6):58-64.
[17]劉挺,車萬翔,李正華.語言技術(shù)平臺[J].中文信息學(xué)報,2011,25(6):53-61.
[18]Zhang Le.Maximum entropy modeling toolkit for python and c++ [CP].2005.http://homepages.inf.ed.ac.uk/s0450736/maxent toolkit.html.