孫婷婷
(江蘇科技大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212003)
計算語言學(xué)的發(fā)展為語言研究開辟了一個嶄新的領(lǐng)域,詞語搭配以其在機器翻譯,信息檢索,語義自動糾錯,問答系統(tǒng)及語言產(chǎn)生、理解、學(xué)習(xí)中的重要作用,成為了自然語言處理研究領(lǐng)域的重點研究方向之一。
在國外,最早開展搭配研究的是Choueka,他利用《紐約時代周刊》約1100萬詞的語料庫,通過計算重復(fù)出現(xiàn)的相鄰詞串的共現(xiàn)頻率來抽取詞語搭配[1]。之后,Church和Smadja等人都利用統(tǒng)計量,分別做過搭配抽取試驗,準(zhǔn)確率可達80%左右[2-3]。在國內(nèi),較早開始研究的是清華大學(xué)的孫茂松教授,他借鑒國外語言學(xué)和語料庫學(xué)相關(guān)知識,提出了計算跨距[-5,+5]的詞語之間搭配強度、離散度及尖峰三個指標(biāo),但是利用該方法進行詞語搭配抽取的準(zhǔn)確率不高[4]。之后,曲維光等提出了一種基于框架的詞語搭配抽取方法,孫宏林提出了“統(tǒng)計+規(guī)則”的方法[5-6]。還有一些研究者開始嘗試利用機器學(xué)習(xí)算法來進行中文詞語搭配抽取[7]。如山西大學(xué)的白妙青利用支持向量機來對“V+V”形式的詞語搭配進行研究,王素格和楊軍玲提出利用最大熵模型和投票法來獲取漢語中“V+V”詞性構(gòu)成形式的詞語搭配[8]。這些方法都取得了不錯的效果。
本文首先介紹了搭配的定義,并給出了語義搭配和句式搭配兩類搭配的定義。然后提出了五元組模型,并依此為基礎(chǔ),利用統(tǒng)計量做了實驗分析。
對于搭配的定義,從不同的理論角度與應(yīng)用背景出發(fā),語言學(xué)研究學(xué)者和自然語言處理研究人員都有著各自不同的見解。本文采用的是由曲維光給出的有關(guān)搭配的定義:搭配是具有一定語法關(guān)系的詞語組成的一種具有任意性、并重復(fù)出現(xiàn)的詞語組合[5]。從定義中可以看出,搭配具有重復(fù)性、任意性、領(lǐng)域相關(guān)性、符合一定的句法結(jié)構(gòu)等性質(zhì)。在上述定義的基礎(chǔ)上,本文給出了兩類搭配的定義,這也是本文的提取目標(biāo)。
定義 S=(x,w,y,w′,z) 為漢語中語意表達明確的一條文本信息,從該段文本信息中提取出的語義搭配記為c。其中:
1)w,w′是文本信息中的單個漢語分詞項,在語料庫中的詞性標(biāo)注為/n(名詞)、/a(形容詞)、/ad(副形詞)或/v(動詞);
2)x,y,z是文本信息中的單個分詞項,或是由多個分詞項構(gòu)成的短語、短句。 其中,x,y,z可以為空;
3)c是w與w′的結(jié)構(gòu)性組合,并且能描述w與w′之間的某種語義關(guān)系;
簡單來說,w,w′就是語料庫某句話中兩個獨立的分詞項,它們的詞性可以是名詞、形容詞、副形詞或動詞中的任意兩種(可重復(fù))。當(dāng)不考慮句子中的其他成分,把這兩個詞組合在一起構(gòu)成一個新詞時,這個新詞符合人們的日常語言習(xí)慣并且能描述w,w′這兩個詞之間的某種語義關(guān)系。
例如,w 為“金屬”,w′為“制品”,則我們可以得到 c 為“金屬制品”,其中,w 為 w′的材質(zhì);再如,w 為“仔細”,w′為“詢問”,則我們可以得到c為“仔細詢問”,其中w描述了w′動作的程度;再如,w 為“團結(jié)”,w′為“一致”,則我們可以得到 c為“團結(jié)一致”,其中w和w′為意思相近的形容詞,或者稱為并列形容詞。
定義 S=(x,w,y,w′,z) 為漢語中語意表達明確的一條文本信息,從該段文本信息中提取出的句式搭配記為c。其中:
1)w,w′是文本信息中的單個漢語分詞項,它們在語料庫中的詞性標(biāo)注可以為/n(名詞)、/v(動詞)、a/(形容詞)、/p(介詞)、/c(連詞)、/f(方位詞)、/s(處所詞)或/Ng(名語素);
2)x,y,z是文本信息中的單個分詞項或是由多個分詞項構(gòu)成的短語、短句;
3)c是w與w′的結(jié)構(gòu)性組合,并且w與w′存在一定的句式結(jié)構(gòu)關(guān)系;
簡單來說,w,w′就是語料庫某句話中兩個獨立的分詞項,它們的詞性可以是名詞、形容詞、動詞、介詞、連詞、方位詞、處所詞或者名語素中的任意兩種(可重復(fù))。當(dāng)不考慮句子中的其它成分,把這兩個詞組合在一起時能構(gòu)成一個短語,并且該短語符合人們的日常語言習(xí)慣。
例如,w 為“按”,w′為“處理”,則我們可以得到 c為“按…處理”;w 為“在”,w′為“中”,則 c 為“在…中”;w 為“從”,w′為“到”,則 c 為“從…到”;
本節(jié)對搭配抽取的相關(guān)技術(shù)進行介紹。首先介紹了實驗中用到的3種統(tǒng)計量,然后介紹了搭配抽取的評價指標(biāo)。
目前,基于各種統(tǒng)計量來衡量搭配顯著程度的方法已得到了廣泛的研究應(yīng)用,主要的統(tǒng)計量有互信息(MI)、t值、χ2檢驗、對數(shù)似然比等等。以下將對實驗中用到的三種統(tǒng)計量進行詳細介紹。
1)互信息
互信息 (Mutual Information)是信息論中重要的信息度量,一般用來對兩個信號的關(guān)聯(lián)強度進行衡量。在詞語搭配抽取中,互信息則用于衡量兩個詞語的搭配強度,互信息值越大,表明詞語搭配的強度越強[8]。對于兩個詞語w1,w2,它們之間的互信息計算公式如下:
其中 P(w1,w2)表示詞語 w1和 w2共同出現(xiàn)的概率,P(w1)表示詞語w1在語料庫中出現(xiàn)的概率,P(w2)表示詞語w2在語料庫中出現(xiàn)的概率。
2)t值
在統(tǒng)計學(xué)中,t值一般用來處理對數(shù)據(jù)的檢驗問題。首先提出一個假設(shè),然后計算數(shù)據(jù)集中的相應(yīng)參數(shù),據(jù)此來確定能否拒絕該假設(shè)[10]。這種思路在搭配自動抽取中也得到了廣泛使用,原理如下:
假設(shè)兩個詞語w1和w2相互獨立,不構(gòu)成搭配,則:
H:
假設(shè)從語料庫中抽取的樣本分布呈正態(tài)分布,計算統(tǒng)計量t,考察其實際均值x與期望均值μ的差異,得到的t值越大,說明差異越大,越能拒絕原來的假設(shè)。則這兩個詞能組合成搭配的可能性很大。t值計算公式如下:
其中,N為語料庫中的總詞頻數(shù),C12為w1和 w2的共現(xiàn)頻數(shù),C1為 w1的頻數(shù),C2為 w2的頻數(shù)。
3)χ2檢驗
卡平方(χ2)檢驗是一種有效的假設(shè)檢驗方法,常被用于檢驗多個正態(tài)隨機變量是否具有獨立性[7]。在詞語搭配獲取研究過程中,卡平方(χ2)檢驗的應(yīng)用思路是:先假設(shè)待確認搭配中的兩個分詞項分布獨立,然后計算這兩個分詞項的實際觀測值與期望值的差異之和。其中,實際觀測值是指這兩個分詞在語料中實際單獨出現(xiàn)的概率以及它們的共現(xiàn)概率,期望值是指當(dāng)滿足假設(shè)即這兩個分詞分布獨立時,它們在語料中出現(xiàn)的概率及共現(xiàn)概率??ㄆ椒綑z驗是利用觀測值與期望值之間的差異來判斷假設(shè)是否成立的[3]。卡平方檢驗計算公式如下:
其中,f11,f12,f21,f22分別是 w1和 w2在各種情況下的頻率,即 f(w,w′),f(┐w,w′),f(w,┐w′),f(┐w,┐w′)。
目前,搭配抽取性能評估方法主要有兩種,即內(nèi)部評估和外部評估。內(nèi)部評估是指將計算機自動獲取到的詞語搭配集通過人工校對或是將其與現(xiàn)有搭配詞典匹配進行比較,從而得到該搭配集中正確搭配的個數(shù),再獲得該詞語搭配自動獲取算法的準(zhǔn)確率、召回率等評價指標(biāo);外部評估是指根據(jù)詞語搭配的不同應(yīng)用領(lǐng)域,考察抽取到的詞語搭配集在該領(lǐng)域某些實際應(yīng)用系統(tǒng)如信息檢索、機器翻譯等中的應(yīng)用效果來評估該搭配抽取算法的性能。本文采用的是內(nèi)部評估方法,涉及到準(zhǔn)確率,召回率,F(xiàn)值三項指標(biāo),具體闡述如下:
1)準(zhǔn)確率(Accuracy)
準(zhǔn)確率指的是抽取的搭配中標(biāo)準(zhǔn)搭配所占搭配總量的比例,其計算公式如下:
其中E(c′)指的是提取出的搭配中標(biāo)準(zhǔn)搭配的數(shù)量,E(c)指的是提取出的搭配的總數(shù)量。
2)召回率(Recall)
召回率指的是抽取的搭配中標(biāo)準(zhǔn)搭配所占語料庫中標(biāo)準(zhǔn)搭配的比例,其計算公式如下:
其中 E(c′)指的是提取的搭配中標(biāo)準(zhǔn)搭配的數(shù)量,N(c′)指的是語料庫中標(biāo)準(zhǔn)搭配的總數(shù)量。
3)F1-Measure
雖然準(zhǔn)確率和召回率都體現(xiàn)了該搭配自動獲取算法的性能,但是這兩個指標(biāo)之間卻是互相制約的。在這里,引入信息論中的F1-Measure概念來尋求搭配自動獲取的準(zhǔn)確率與召回率之間的平衡點。公式如下:
其中,A為準(zhǔn)確率,R為召回率,β為參數(shù),一般情況下,β的取值為1,則F1-measure公式為:
本文借鑒前人的研究方法,給出了一種基于五元組的搭配提取模型。
定義:定義 G=(w1,f,w2,g,w3)為從語料庫中提取出的五元組。其中w1,w2和w3為單個分詞項,f和g為分詞的間距,取值 0,1或者 2。 從中可以提取出候選搭配 w1w2、w1w3和w2w3。例如,下面這句話中可以提取出的部分五元組如表1所示。
“在/p 這/r一/m 年/q 中/f,/w 中國/ns的/u 改革/vn 開放/vn 和/c現(xiàn)代化/vn 建設(shè)/vn 繼續(xù)/v向前/v邁進/v。/w”
表1 五元組實例Tab.1 Examp le of quintuple
有了五元組的定義,利用由北京大學(xué)計算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的1998年 《人民日報》標(biāo)注語料庫(一月份),提取第二節(jié)中給出的兩類搭配的具體步驟如下:
2)獲取五元組。利用語段序列集生成五元組候選集并對其進行初步數(shù)據(jù)統(tǒng)計。
3)初步篩選。在五元組候選集中,將分詞項中漢語個數(shù)少于2的五元組剔除。
4)再次篩選。分別抽取符合語義搭配和句式搭配定義的五元組集,用于語義搭配和句式搭配的提取。
5)獲取候選搭配集。利用4)中的五元組集合,獲取候選搭配集。
6)提取搭配。利用統(tǒng)計量,從候選搭配集中提取搭配。具體流程圖如圖1所示。
圖1 搭配抽取流程Fig.1 Collocation extraction process
搭配獲取實驗的第一步是要進行語料庫的選取,本文所采用的語料庫是由北京大學(xué)計算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的1998年《人民日報》標(biāo)注語料庫(一月份),網(wǎng)絡(luò)下載地址:http://download.csdn.net/detail/xmujay/1259040。該語料庫是嚴格按照人民日報的日期、版序、文章順序編排的,該語料庫實現(xiàn)了對110多萬字的中文文章進行分詞及詞性標(biāo)注。經(jīng)統(tǒng)計,本語料庫共含有50 178個詞,總的詞頻數(shù)為22 708 665,共22 720行。
利用C#編程語言,根據(jù)上述搭配提取流程,共獲得五元組70 63 130個,其中符合語義搭配定義的五元組1 460 033個,符合句式搭配定義的五元組866 308個。抽取結(jié)果如表2和表3所示。
表2 語義搭配抽取結(jié)果Tab.2 Results of sem antic collocation extraction
從上面兩個表格中可以看出,不管是語義搭配還是句式搭配,效果最好的統(tǒng)計量為互信息統(tǒng)計量,準(zhǔn)確率可達80%,召回率達到64%。相對于各統(tǒng)計量,句式搭配結(jié)果要優(yōu)于語義搭配結(jié)果。
表3 句式搭配抽取結(jié)果Tab.3 Results of syntactic collocation extraction
本文以北京大學(xué)計算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的1998年 《人民日報》標(biāo)注語料庫(一月份)為語料庫,給出了基于五元組的詞語搭配抽取模型,并針對語義搭配和句式搭配做了實驗分析,指出基于互信息統(tǒng)計量的提取結(jié)果最好,準(zhǔn)確率可達80%。
[1]Y Choueka,T Klein,E Neuwitz.Automatic retrieval of rrequent idiomatic and collocational expressions in Alarge corpus[J].Literary and Linguistic Computing,1983,4(1):34-38.
[2]Kenneth Ward Church,Patrick Hanks.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.
[3]郎需超.基于R值的漢語搭配抽取[D].北京郵電大學(xué),2012.
[4]林建方.詞搭配抽取及在信息檢索中的應(yīng)用研究[D].哈爾濱工業(yè)大學(xué),2010.
[5]曲維光,陳小荷,吉根林.基于框架的詞語搭配自動抽取方法[J].計算機工程,2004,30(23):22-24.QU Wei-guang,CHEN Xiao-he,JI Gen-lin.Aframe-based approach to chinese collocation automatic extracting[J].Computer Engineering,2014,30(30):22-24.
[6]王璐,張仰森.基于典型句型的詞語搭配定量分析及提取算法[J].計算機科學(xué),2012(6):232-234.WANG Lu,ZHANG Yang-sen.Quantitative analysis and extracting arithmetic of collocations basic on typical patterns[J].Computer Engineering,2012(6):232-234.
[7]程月,陳小荷.基于條件隨機場的漢語動賓搭配自動識別[J].中文信息學(xué)報,2009,23(1):9-15.CHENG Yue,CHEN Xiao-he.CRFs based recognition of Chinese verb-object collocation[J].Chinese Information Technology,2009,23(1):9-15
[8]王素格,楊軍玲,張武.自動獲取漢語詞語搭配[J].中文信息學(xué)報,2006,20(6):31-37.WANG Su-ge,YANG Jun-ling,ZHANG Wu.Automatic acquisition of Chinese collocation[J].Chinese Information Technology,2006,20(6):31-37.
[9]王大亮,涂序彥,鄭雪峰.多策略融合的搭配抽取方法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2008,48 (4):608-612.WANG Da-liang,TU Xu-yan,ZHENG Xue-feng.Collocation extraction withmultiple hybrid strategies[J].J-Tsinghua Univ:Sci&Tech,2008,48(4):608-612.
[10]王大亮,張德政,涂序彥,等.基于相對條件熵的搭配抽取方法[J].北京郵電大學(xué)學(xué)報,2007,30(6):40-45.WANG Da-liang,ZHANG De-zheng,TU Xu-yan,et al.Collocation extraction based on relative conditional entropy[J].Beijing University of Possts and Telecommunications,2007,30(6):40-45.