梁泳詩(shī),黃沛杰,岑洪杰,唐杰聰,王俊東
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
詞語(yǔ)相似性用于衡量?jī)蓚€(gè)詞語(yǔ)之間語(yǔ)義相似的程度,是自然語(yǔ)言處理(natural language processing, NLP)的一個(gè)重要的任務(wù),也是信息檢索、機(jī)器翻譯、自動(dòng)文摘、問(wèn)答系統(tǒng)、情感分析等眾多NLP下游應(yīng)用的基礎(chǔ)[1],所以如何正確計(jì)算詞語(yǔ)的相似性顯得尤為重要。詞語(yǔ)間的相似性主要有兩種,一種是關(guān)系相似,另一種是屬性相似[2]。在屬性上有很強(qiáng)相似性的兩個(gè)詞語(yǔ)也被稱為同義詞。而本文所研究的詞語(yǔ)相似性計(jì)算就是在屬性相似上開展的。
目前主要有兩種計(jì)算詞語(yǔ)相似性的方法,一種是基于訓(xùn)練文本上下文的向量模型,其中最主流的是基于詞向量[3-4];另一種是基于手工構(gòu)建的詞匯分類體系[5-7]。通過(guò)向量模型得到詞向量,計(jì)算詞向量間的余弦相似度以代表詞語(yǔ)間的語(yǔ)義相似性,這種基于向量模型的方法可以在文本語(yǔ)料中提取詞語(yǔ)間的關(guān)系與詞語(yǔ)的特征表達(dá),但上下文不等同于真正意義上的語(yǔ)義,向量模型的可解釋性是受到限制的[8]。詞匯分類體系是由人工構(gòu)建的知識(shí)體系。根據(jù)詞匯分類體系的結(jié)構(gòu)特點(diǎn),可以對(duì)詞語(yǔ)的語(yǔ)義相似性進(jìn)行計(jì)算,但是人工構(gòu)建的詞匯分類體系詞匯量少,詞匯分類粒度粗糙,難以對(duì)眾多詞語(yǔ)的語(yǔ)義差別進(jìn)行細(xì)致的評(píng)價(jià)。
組合方法可以彌補(bǔ)單一詞向量和單一詞匯分類體系在詞語(yǔ)相似性計(jì)算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評(píng)測(cè)比賽中,運(yùn)用多種語(yǔ)料庫(kù)得到的向量表達(dá)以及多種詞匯分類體系對(duì)詞語(yǔ)進(jìn)行相似性計(jì)算,然后通過(guò)加權(quán)組合得到最終的詞語(yǔ)相似性,取得了比賽的第一名。但他們的組合方法過(guò)于簡(jiǎn)單,也沒(méi)有考慮不同類型知識(shí)來(lái)源的差別。Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)它的語(yǔ)義關(guān)系,彌補(bǔ)了詞匯分類體系中詞匯量不足的缺點(diǎn),同時(shí)改善了詞向量的語(yǔ)義表達(dá)。然而,他們忽視了不同的詞匯分類體系對(duì)詞語(yǔ)向量表達(dá)的修正帶來(lái)的潛在差異,本文在詞語(yǔ)的向量表達(dá)構(gòu)建中綜合了不同類型的詞匯分類體系知識(shí),并初步探索了這些差異性知識(shí)的選用和融合效果。相比已有的研究,本文的主要貢獻(xiàn)如下。
(1) 提出了向量模型和多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算方法。采用HowNet、《同義詞詞林?jǐn)U展版》等詞匯分類體系的近義詞關(guān)系以及中文信息學(xué)會(huì)社會(huì)媒體專委會(huì)提供的SMP 2015微博數(shù)據(jù)集訓(xùn)練得到的詞向量,計(jì)算得到的詞向量表達(dá),取得優(yōu)于單一詞向量、單一詞匯分類體系以及單一詞匯分類體系修正詞向量等方案的詞語(yǔ)相似性計(jì)算效果。
(2) 研究了不同類型詞匯分類體系提供的知識(shí)的選用和融合,進(jìn)一步提高詞語(yǔ)相似性的計(jì)算效果。在中文詞語(yǔ)相似性評(píng)測(cè)的公開數(shù)據(jù)集PKU 500上進(jìn)行實(shí)驗(yàn),取得了0.637的斯皮爾曼等級(jí)相關(guān)系數(shù),比NLPCC-ICCPOL 2016詞語(yǔ)相似度評(píng)測(cè)比賽第一名的方法的結(jié)果提高了23%。
本文后續(xù)部分安排如下: 第二節(jié)介紹相關(guān)工作,第三節(jié)介紹本文提出的方法,第四節(jié)給出測(cè)試結(jié)果及分析,最后一節(jié)總結(jié)本文的工作并做了簡(jiǎn)要的展望。
在現(xiàn)有的計(jì)算詞語(yǔ)相似性的兩類方法中,基于向量模型的方法建立在一個(gè)假設(shè)上: 有相似語(yǔ)義的詞語(yǔ)會(huì)傾向于在相似的上下文中出現(xiàn)。因此一個(gè)詞語(yǔ)的語(yǔ)義可以通過(guò)對(duì)它所在的上下文建模計(jì)算出來(lái)[11]。盡管所有的向量空間模型都是基于相同的假設(shè),他們又有各自的特色。他們之間最主要的區(qū)別在于如何定義上下文[11]。早期的模型是基于文檔模型(document-based models)進(jìn)行潛在語(yǔ)義分析(latent semantic analysis, LSA)[12]。這些模型是以所有的文檔或者段落作為上下文,因此在文檔中經(jīng)常共同出現(xiàn)的詞語(yǔ)會(huì)被視作語(yǔ)義相似。還有一種模型是近年來(lái)最受歡迎的分布式向量表示,它就是詞向量,也稱為詞嵌入(word embeddings)[3-4]。它的核心思想是通過(guò)詞的上下文(周圍的詞)訓(xùn)練出詞匯表征[13]。在這種模型里面詞語(yǔ)被投射進(jìn)連續(xù)的空間,擁有相似上下文的詞語(yǔ)在這個(gè)多維空間里面會(huì)很相近。
在詞匯分類體系方面,過(guò)去有很多研究者花了巨大的人力構(gòu)建詞匯分類體系,意在為自然語(yǔ)言處理提供詞匯知識(shí)庫(kù),如在中文上就有HowNet[6]和《同義詞詞林?jǐn)U展版》[7],在英文上有WordNet[5]、DBnary[14]等。
WordNet和《同義詞詞林?jǐn)U展版》都是以層次結(jié)構(gòu)的方式呈現(xiàn)的,而詞語(yǔ)的相似性是根據(jù)詞語(yǔ)在語(yǔ)義分類樹上的距離所定義的。WordNet是一個(gè)詞匯資源,由普林斯頓大學(xué)構(gòu)建[5]。WordNet把名詞、動(dòng)詞、形容詞和副詞連接成一套同義詞集(synsets),每套同義詞集都代表一個(gè)概念,同義詞集之間會(huì)根據(jù)語(yǔ)義、概念和詞匯關(guān)系相連接。一詞多意的詞語(yǔ)會(huì)與多個(gè)同義詞集對(duì)應(yīng),它們的意思會(huì)根據(jù)出現(xiàn)頻率進(jìn)行排序。而HowNet則與WordNet和《同義詞詞林?jǐn)U展版》不一樣,HowNet是用復(fù)雜的、多個(gè)維度的知識(shí)描述語(yǔ)言對(duì)詞語(yǔ)進(jìn)行定義的。HowNet選用義原(最小單位)作為標(biāo)記集去描述詞語(yǔ)的語(yǔ)義。通過(guò)這些標(biāo)記集,可以對(duì)詞語(yǔ)的語(yǔ)義相似性進(jìn)行計(jì)算以及生成詞類。
但是如上文所提到的,這兩類傳統(tǒng)的詞語(yǔ)相似性計(jì)算方法在詞語(yǔ)表達(dá)的語(yǔ)義性、構(gòu)建代價(jià)以及詞匯覆蓋等方面都存在各自的缺點(diǎn)。本文提出一種向量模型與多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算方法,采用多源詞匯分類體系的近義詞關(guān)系以及向量模型得到的詞向量,計(jì)算得到詞語(yǔ)的向量表達(dá),并探索不同類型詞匯分類體系提供的知識(shí)的選用和融合問(wèn)題,彌補(bǔ)了單一詞向量和單一詞匯分類體系在詞語(yǔ)相似性計(jì)算中的缺點(diǎn)。
圖1是本文所提出方法的總體技術(shù)架構(gòu)。
圖1所示的技術(shù)框架中,主要分為四個(gè)部分: 第一部分是利用大型的語(yǔ)料庫(kù),通過(guò)向量模型訓(xùn)練得到詞向量,構(gòu)成初始向量表達(dá)層;第二部分是詞匯分類體系,本文選用HowNet和《同義詞詞林?jǐn)U展版》兩種中文詞匯分類體系;第三部分是近義關(guān)系層,有別于Faruqui等人[10]采用的單一詞匯分類體系的近義詞關(guān)系修正詞語(yǔ)向量表達(dá),本文采用多源詞匯分類體系的近義詞關(guān)系結(jié)合向量模型得到的詞向量,計(jì)算得到詞語(yǔ)的向量表達(dá);第四部分是多源融合層,與Guo等人[9]采用的簡(jiǎn)單組合方法不同,本文提出對(duì)不同類型的詞匯分類體系提供的差異性知識(shí)進(jìn)行選用和融合,通過(guò)不同的關(guān)聯(lián)強(qiáng)度對(duì)詞向量進(jìn)行修正,最后得到更能體現(xiàn)詞語(yǔ)語(yǔ)義的向量表達(dá)。
圖1 向量模型與多源詞匯分類體系相結(jié)合的技術(shù)架構(gòu)
目前訓(xùn)練詞向量的主流方法是在訓(xùn)練語(yǔ)言模型的同時(shí)得到詞向量?;诮y(tǒng)計(jì)的語(yǔ)言模型能夠表示成一個(gè)已出現(xiàn)的詞和當(dāng)前詞的條件概率的極大似然估計(jì),如式(1)所示。
(1)
針對(duì)不同的上下文構(gòu)造方法,在訓(xùn)練詞向量時(shí)主要有CBOW (continuous bag-of-words)和Skip-gram兩種語(yǔ)言模型[4]。Skip-gram模型允許某些詞被跳過(guò),在訓(xùn)練數(shù)據(jù)少的情況用Skip-gram可以創(chuàng)造更多的訓(xùn)練例子,而連續(xù)的CBOW則可以有較快的訓(xùn)練速度[4]。由于本文選用的詞向量訓(xùn)練數(shù)據(jù)不論是新聞?wù)Z料還是微博數(shù)據(jù)都是數(shù)量較大,因此本文使用CBOW語(yǔ)言模型對(duì)詞語(yǔ)的語(yǔ)義層面建模。CBOW語(yǔ)言模型不限于已出現(xiàn)的詞為wt的上下文,而是把句子中距離當(dāng)前詞n以內(nèi)的詞都看作是當(dāng)前詞的上下文環(huán)境。
用一個(gè)函數(shù)f表示當(dāng)前詞wt的上下文的向量到當(dāng)前詞wt條件概率的映射[3],并結(jié)合CBOW的機(jī)制,則當(dāng)前詞的上下文和當(dāng)前詞的條件概率可以表示為式(2)。
(2)
其中,C(wi)是詞語(yǔ)wi的分布式特征向量。
在訓(xùn)練語(yǔ)言模型及詞向量時(shí),對(duì)于wt都要掃一遍詞庫(kù)大小|V|,計(jì)算復(fù)雜度過(guò)高。可以采用負(fù)采樣(negative sampling)[15]和分層的softmax(hierarchical softmax)[16]的方法來(lái)降低計(jì)算復(fù)雜度。
基于詞匯分類體系計(jì)算詞語(yǔ)相似度的方法是在某種世界知識(shí)庫(kù)上展開的,這些世界知識(shí)庫(kù)一般都采用一棵或者幾棵樹狀的層次結(jié)構(gòu)對(duì)詞語(yǔ)的概念進(jìn)行描述,在這些層次結(jié)構(gòu)圖中,一個(gè)概念代表一個(gè)節(jié)點(diǎn),任何兩個(gè)節(jié)點(diǎn)之間有且僅有一條路徑,這條路徑的長(zhǎng)度就可以反映這兩個(gè)概念的語(yǔ)義距離。本文主要研究的是兩個(gè)中文方面的詞匯分類體系,分別是HowNet[6]以及《同義詞詞林?jǐn)U展版》[7],并根據(jù)詞匯分類體系各自的結(jié)構(gòu)特點(diǎn),制作近義詞詞典。
在HowNet中,義原是描述概念的最基本單位,不同義原的集合表述不同的概念。HowNet中的詞語(yǔ)有一個(gè)或者多個(gè)概念[17-18]。如在HowNet中詞語(yǔ)“男人”的表述如圖2所示。
圖2 HowNet結(jié)構(gòu)示例
從圖2可以看到,在HowNet中,詞語(yǔ)“男人”的概念是DEF=human|人,family|家,male|男,人、家、男就是組成概念的義原。
HowNet中的義原有1 600多個(gè)[18],HowNet中的中文詞語(yǔ)就由這些義原的組合進(jìn)行描述。義原又以樹狀結(jié)構(gòu)的層次體系進(jìn)行組織,通過(guò)義原在層次體系中的深度求出義原的相似度,進(jìn)而逐步求出詞語(yǔ)概念的相似度以及詞語(yǔ)的相似性。本文利用HowNet的詞語(yǔ)相似性的計(jì)算方法,計(jì)算出HowNet中所有詞語(yǔ)兩兩之間的相似性,并把一個(gè)詞語(yǔ)及與之相似度最高的詞語(yǔ)視為該詞語(yǔ)的近義詞詞集,所有近義詞詞集組合成HowNet的近義詞詞典。
而《同義詞詞林》則是由梅家駒等人[19]在1983年整理編寫,隨后由哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室進(jìn)行更新而成的一部具有漢語(yǔ)大詞表的“哈工大信息檢索研究室同義詞詞林?jǐn)U展版”[7]?!锻x詞詞林?jǐn)U展版》包含約七萬(wàn)條詞語(yǔ),按照詞語(yǔ)的意思進(jìn)行編碼,是一部同義詞類的詞典,如圖3所示。
圖3 《同義詞詞林?jǐn)U展版》示例
《同義詞詞林?jǐn)U展版》在秉承《同義詞詞林》編撰風(fēng)格的基礎(chǔ)上,對(duì)《同義詞詞林》進(jìn)行修正與擴(kuò)充。與《同義詞詞林》編碼規(guī)則類似,《同義詞詞林?jǐn)U展版》按照樹狀層次結(jié)構(gòu)把詞條進(jìn)行組織,把詞語(yǔ)分為大、中、小、詞群和原子詞群五類,大類有12組,中類有95組,小類有1 425組,詞群有4 223組,原子詞群有17 807組。每一個(gè)原子詞群中都有若干個(gè)詞語(yǔ),同一原子詞群的詞語(yǔ)不是語(yǔ)義相同或十分接近就是語(yǔ)義有很強(qiáng)的相關(guān)性[7]。每一行都有自身所屬的編碼,在《同義詞詞林?jǐn)U展版》中,詞語(yǔ)的相似性就是根據(jù)每一行的編碼計(jì)算的。編碼的最后一位標(biāo)記符用于說(shuō)明同一個(gè)原子詞群中的詞語(yǔ)關(guān)系,共有三種標(biāo)記符,分別為“=”“#”“@”,“=”代表相等、同義,“#”代表同行詞語(yǔ)屬于相關(guān)詞語(yǔ),是同類,不能視為相等,“@”代表獨(dú)立,表示在詞典中該詞既沒(méi)有同義詞也沒(méi)有相關(guān)詞?!锻x詞詞林?jǐn)U展版》自身就是一部同義詞類的詞典,每一行詞語(yǔ)視為語(yǔ)義上具有強(qiáng)相關(guān)性,可以直接用在詞向量的修正上。并且,《同義詞詞林?jǐn)U展版》中近義詞的不同標(biāo)記符也成為本文對(duì)其提供的知識(shí)進(jìn)行選用的依據(jù)。
向量模型和詞匯分類體系相結(jié)合的方法可以彌補(bǔ)單一詞向量和單一詞匯分類體系在詞語(yǔ)相似性計(jì)算中的不足。Guo等人[9]在NLPCC-ICCPOL 2016評(píng)測(cè)比賽中也運(yùn)用了多種語(yǔ)料庫(kù)得到的向量表達(dá)以及多種詞匯分類體系對(duì)詞語(yǔ)進(jìn)行相似性計(jì)算,但他們的組合方法過(guò)于簡(jiǎn)單,僅僅通過(guò)加權(quán)組合得到最終的詞語(yǔ)相似性。Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)其語(yǔ)義關(guān)系,在英語(yǔ)語(yǔ)料上取得了較好的應(yīng)用效果。本文在其基礎(chǔ)上,進(jìn)一步考慮不同的詞匯分類體系對(duì)詞語(yǔ)向量表達(dá)的修正帶來(lái)的潛在差異,在向量表達(dá)的構(gòu)建中綜合了不同類型的詞匯分類體系知識(shí),并研究了這些差異性知識(shí)的選用和融合效果。具體而言,如圖1所示,由近義關(guān)系層、初始向量表達(dá)層以及多源融合層共同完成本文方案中詞語(yǔ)向量表達(dá)的構(gòu)建。
近義關(guān)系層提供了特定詞語(yǔ)在詞匯分類體系中的近義詞關(guān)系信息。通過(guò)不同類型的詞匯分類體系,可以得到多組語(yǔ)義上具有強(qiáng)相關(guān)性的詞集,如上文提到的HowNet中的相似度最大近義詞詞集以及《同義詞詞林?jǐn)U展版》中的原子詞群。
本文在Faruqui等人[10]提供的方法基礎(chǔ)上,增加了多源融合層??紤]到不同詞匯分類體系,以及同一詞匯分類體系內(nèi)部的不同近義情況對(duì)于詞語(yǔ)語(yǔ)義向量表達(dá)價(jià)值的差異,本文增加多源融合層對(duì)多源的詞匯分類體系提供的知識(shí)進(jìn)行選用和修正權(quán)重的賦予。目前本文僅在一定數(shù)量案例分析的基礎(chǔ)上嘗試了一些較為基礎(chǔ)的選用考慮因素,更為系統(tǒng)的選用機(jī)制還有待進(jìn)一步研究。一方面,對(duì)來(lái)自于《同義詞詞林?jǐn)U展版》的強(qiáng)關(guān)聯(lián)詞,本文選取了編碼的最后一位的標(biāo)記符為“=”的原子詞群,而棄用了標(biāo)記符為“#”的原子詞群,因?yàn)椤?”代表詞語(yǔ)間是相關(guān)的,是同類,但在很多情況下和同義有一定差距。另一方面,對(duì)于來(lái)自于HowNet相似度最大的近義詞詞集,本文只保留最大相似度為α以上的近義詞詞集(在后面的實(shí)驗(yàn)中,我們采用了α=0.75的設(shè)置,更優(yōu)化的參數(shù)可以通過(guò)驗(yàn)證得到),因?yàn)橄嗨贫冗^(guò)低的詞語(yǔ),對(duì)詞向量的修正可能會(huì)造成負(fù)面影響。本文的實(shí)驗(yàn)表明,上述詞匯分類體系的知識(shí)選用有助于近義詞詞集質(zhì)量的提高。
(3)
其中,α和β是控制關(guān)聯(lián)相對(duì)強(qiáng)度的系數(shù),βk代表不同來(lái)源的詞匯分類體系知識(shí)權(quán)重,i代表需要構(gòu)建的詞語(yǔ),j代表詞語(yǔ)i的近義詞。
根據(jù)要求,對(duì)公式Ψ(Q)求最小值,對(duì)Ψ(Q)進(jìn)行一階求導(dǎo),并令導(dǎo)數(shù)等于0,從而得到詞向量qi的更新公式,如式(4)所示。
(4)
本文采用兩個(gè)來(lái)源的訓(xùn)練語(yǔ)料庫(kù)訓(xùn)練詞向量,分別是搜狗實(shí)驗(yàn)室提供的搜狗新聞數(shù)據(jù)集以及中國(guó)中文信息學(xué)會(huì)社會(huì)媒體專委會(huì)提供的SMP2015微博數(shù)據(jù)集(SMP 2015 Weibo DataSet),其中在SMP 2015 Weibo DataSet 中取了4G和10G的微博作為訓(xùn)練語(yǔ)料庫(kù),得到三個(gè)語(yǔ)料庫(kù)用于對(duì)比試驗(yàn)。
在中文詞匯分類體系選用方面,本文采用了HowNet 2000版(HowNet的開源版本,實(shí)驗(yàn)結(jié)果中標(biāo)記為“HowNet”)以及《同義詞詞林?jǐn)U展版》。
在實(shí)驗(yàn)效果評(píng)價(jià)方面,采用了中文詞語(yǔ)相似度評(píng)測(cè)數(shù)據(jù)集PKU 500數(shù)據(jù)集[1]。PKU 500共有500對(duì)詞語(yǔ),每對(duì)詞語(yǔ)都有人工標(biāo)注的相似度(范圍為0~10)。PKU 500被采用到第五屆國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議暨第24屆國(guó)際東方語(yǔ)言計(jì)算機(jī)處理會(huì)議(NLPCC-ICCPOL 2016)的評(píng)測(cè)比賽中。
本文采用斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman rank correlation coefficient)去衡量詞向量計(jì)算詞語(yǔ)相似性的效果。通過(guò)計(jì)算PKU 500中每對(duì)詞語(yǔ)人工標(biāo)注的相似性和詞向量計(jì)算出的詞語(yǔ)相似性之間的斯皮爾曼等級(jí)相關(guān)系數(shù),借以判斷各實(shí)驗(yàn)方案對(duì)詞語(yǔ)相似性的計(jì)算效果。
實(shí)驗(yàn)方案為:
(1) 基于向量模型的詞語(yǔ)相似性計(jì)算: 對(duì)比不同的訓(xùn)練語(yǔ)料訓(xùn)練得到的詞向量對(duì)詞語(yǔ)的相似性計(jì)算的效果。
(2) 基于詞匯分類體系的詞語(yǔ)相似性計(jì)算: 對(duì)比不同詞匯分類體系,本文中為HowNet和《同義詞詞林?jǐn)U展版》應(yīng)用于詞語(yǔ)相似性計(jì)算的效果。
(3) 基于向量模型與詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算: 分別利用HowNet與《同義詞詞林?jǐn)U展版》所提供的知識(shí)參加詞語(yǔ)向量表達(dá)的構(gòu)建,考察其結(jié)合方法的效果。
(4) 基于向量模型與多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算: 對(duì)比了本文提出的方法在不同類型的詞匯分類體系的知識(shí)選用及其在詞語(yǔ)向量表達(dá)構(gòu)建中的不同權(quán)重的效果。
(5) 研究進(jìn)展方法在中文詞語(yǔ)相似性計(jì)算上的性能對(duì)比: 對(duì)比了本文提出的方法與研究進(jìn)展方法在詞語(yǔ)相似性計(jì)算上的性能。
本文的方法為向量模型和多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算方法,用于與之對(duì)比的兩個(gè)研究進(jìn)展的方法如下:
(1) NLPCC-ICCPOL 2016評(píng)測(cè)比賽第一名的方法: Guo等人[9]在NLPCC-ICCPOL 2016評(píng)測(cè)比賽中也運(yùn)用組合多種語(yǔ)料庫(kù)得到的向量表達(dá)以及多種詞匯分類體系對(duì)詞語(yǔ)進(jìn)行相似性計(jì)算的方法,對(duì)比實(shí)驗(yàn)中直接引用了其在比賽中得到的結(jié)果。
(2) 向量模型與單一詞匯分類體系相結(jié)合的方法: Faruqui等人[10]利用詞匯分類體系,在已經(jīng)訓(xùn)練好的詞向量上增強(qiáng)它的語(yǔ)義關(guān)系,在英文語(yǔ)料上取得了較好的應(yīng)用效果。本文將其應(yīng)用于中文詞語(yǔ)相似性計(jì)算,在實(shí)驗(yàn)中,以實(shí)驗(yàn)效果最好的單一詞匯分類體系(本文實(shí)驗(yàn)中為《同義詞詞林?jǐn)U展版》)修正詞向量的結(jié)果代表該方法的結(jié)果。
3.3.1 基于向量模型的詞語(yǔ)相似性計(jì)算
本實(shí)驗(yàn)運(yùn)用word2vec的CBOW模型在三個(gè)語(yǔ)料上進(jìn)行詞向量的訓(xùn)練,“搜狗新聞”代表搜狗新聞?wù)Z料庫(kù)訓(xùn)練詞向量?!?G微博”代表用4GB的微博數(shù)據(jù)來(lái)進(jìn)行詞向量訓(xùn)練的方案?!?0G微博”代表用10GB的微博數(shù)據(jù)作為語(yǔ)料庫(kù)來(lái)訓(xùn)練詞向量。三個(gè)語(yǔ)料庫(kù)對(duì)PKU 500的數(shù)據(jù)集詞語(yǔ)的覆蓋率,如表1所示。
表1 不同的詞向量訓(xùn)練語(yǔ)料庫(kù)對(duì)PKU 500詞語(yǔ)的覆蓋率
從表1可以看到,搜狗新聞?wù)Z料庫(kù),在PKU 500的1 000個(gè)詞語(yǔ)中有12個(gè)詞語(yǔ)不存在,4G微博語(yǔ)料庫(kù)缺失了八個(gè),而10G微博語(yǔ)料庫(kù)覆蓋了全部詞語(yǔ)。進(jìn)一步地,我們對(duì)比了不同語(yǔ)料庫(kù)訓(xùn)練的詞向量的詞語(yǔ)相似性計(jì)算效果,如表2所示。
表2 不同語(yǔ)料庫(kù)訓(xùn)練的詞向量的詞語(yǔ)相似性計(jì)算效果
表2顯示,通過(guò)這三種語(yǔ)料庫(kù)計(jì)算出來(lái)的斯皮爾曼等級(jí)相關(guān)系數(shù)分別為0.412、0.413和0.418。證明語(yǔ)料庫(kù)越大,詞語(yǔ)覆蓋率就會(huì)越高,計(jì)算出的詞語(yǔ)相似度就會(huì)越高,斯皮爾曼等級(jí)相關(guān)系數(shù)也會(huì)越高。本文后續(xù)實(shí)驗(yàn)都采用10G微博訓(xùn)練的詞向量。
3.3.2 基于詞匯分類體系的詞語(yǔ)相似性計(jì)算
本實(shí)驗(yàn)采用HowNet以及《同義詞詞林?jǐn)U展版》作為詞匯分類體系,詞語(yǔ)的相似性計(jì)算分別采用了李峰等[18]以及田久樂(lè)等[20]的方法。
利用HowNet和《同義詞詞林?jǐn)U展版》計(jì)算詞語(yǔ)相似度的參數(shù)設(shè)置分別如表3和表4所示。
表3 HowNet相似性計(jì)算參數(shù)設(shè)置
表4 《同義詞詞林?jǐn)U展版》相似性計(jì)算參數(shù)設(shè)置
首先考察這兩個(gè)詞匯分類體系在PKU 500數(shù)據(jù)集中詞語(yǔ)的覆蓋情況,如表5所示。
表5 不同的詞匯分類體系對(duì)PKU 500詞語(yǔ)的覆蓋率
從表5可以看到,在PKU 500的數(shù)據(jù)集的1 000個(gè)詞中,HowNet和《同義詞詞林?jǐn)U展版》的詞語(yǔ)覆蓋率分別為88.5%和95.8%,可見(jiàn),詞匯分類體系的詞語(yǔ)覆蓋率還存在不足。因?yàn)檫@些詞匯分類體系都是人工打造,要收錄所有詞語(yǔ)十分困難,這是詞匯分類體系方法的不足之處之一。而且我們發(fā)現(xiàn),不同于詞向量計(jì)算得到的結(jié)果,在HowNet的計(jì)算結(jié)果中,相似度為1的詞語(yǔ)有85對(duì)(占17%),在《同義詞詞林?jǐn)U展版》中,相似度為1的有134對(duì)(占26.8%),所以相對(duì)于詞向量計(jì)算詞語(yǔ)相似性而言,人工打造的詞匯分類體系詞語(yǔ)的區(qū)分粒度不夠細(xì)致,很多情況下都不能區(qū)分相似度較高的詞語(yǔ)。進(jìn)一步檢驗(yàn)詞匯分類體系計(jì)算詞語(yǔ)相似度的效果,如表6所示。
表6 詞匯分類體系的詞語(yǔ)相似性計(jì)算效果
在表6中,來(lái)自HowNet的詞語(yǔ)相似度與人工標(biāo)注的詞語(yǔ)相似度的斯皮爾曼等級(jí)相關(guān)系數(shù)為0.483,《同義詞詞林?jǐn)U展版》的為0.481。通過(guò)與上一個(gè)實(shí)驗(yàn)方案的斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)比,可以發(fā)現(xiàn)基于詞匯分類體系求得的斯皮爾曼等級(jí)相關(guān)系數(shù)都比基于向量模型求出的斯皮爾曼等級(jí)相關(guān)系數(shù)高,說(shuō)明盡管詞匯分類體系有自身的缺點(diǎn),但是利用詞匯分類體系求出的詞語(yǔ)相似度比利用詞向量求出的詞語(yǔ)相似度更能反映真實(shí)的詞語(yǔ)語(yǔ)義相關(guān)性情況。
3.3.3 基于向量模型與詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算
在本實(shí)驗(yàn)中,“w2v”代表采用10G微博訓(xùn)練詞向量的計(jì)算方法,“w2v+HowNet”代表在詞語(yǔ)向量表達(dá)構(gòu)建中采用了10G微博訓(xùn)練詞向量以及來(lái)自于HowNet的知識(shí)?!皐2v +同義詞詞林?jǐn)U展版” 代表在詞語(yǔ)向量表達(dá)構(gòu)建中采用了10G微博訓(xùn)練詞向量以及來(lái)自于《同義詞詞林?jǐn)U展版》的知識(shí)。不同方案的詞語(yǔ)相似性計(jì)算效果如表7所示。
表7 不同方案的詞語(yǔ)相似性計(jì)算效果
從表7可以看到,采用詞匯分類體系對(duì)詞向量進(jìn)行修正的方法,實(shí)驗(yàn)效果比傳統(tǒng)的兩種詞語(yǔ)相似性的計(jì)算方法都要好,說(shuō)明這種利用詞匯分類體系對(duì)詞向量進(jìn)行修正從而計(jì)算詞語(yǔ)相似性的方法是可行的。這種方法彌補(bǔ)了詞匯分類體系中詞匯量不足的缺點(diǎn),同時(shí)也補(bǔ)充了詞向量語(yǔ)義表達(dá)上的欠缺。同時(shí)我們也發(fā)現(xiàn)《同義詞詞林?jǐn)U展版》的修正效果在PKU 500數(shù)據(jù)集上比HowNet的修正效果更好一些。如3.2節(jié)所述,本文用效果較好的“w2v+同義詞詞林?jǐn)U展版”方案、代表Faruqui等人[10]方法在中文詞語(yǔ)相似性計(jì)算的應(yīng)用。
3.3.4 基于向量模型與多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算
本實(shí)驗(yàn)中,“w2v+ (HowNet,同義詞詞林?jǐn)U展版)”代表采用了HowNet和《同義詞詞林?jǐn)U展版》兩個(gè)詞語(yǔ)語(yǔ)義關(guān)系的知識(shí)源?!癏owNet(>0.75)”代表HowNet的知識(shí)來(lái)源只保留相似度大于0.75的近義詞加入到詞語(yǔ)的近義詞集。“同義詞詞林?jǐn)U展版(=)”表示《同義詞詞林?jǐn)U展版》的知識(shí)來(lái)源只保留編碼最后一位標(biāo)記符為“=”的原子詞群?!安町悪?quán)重”代表對(duì)來(lái)自于HowNet、《同義詞詞林?jǐn)U展版》以及兩者的交集的近義詞差異對(duì)待,考慮到3.3.2節(jié)的實(shí)驗(yàn)中《同義詞詞林?jǐn)U展版》的單源結(jié)合效果優(yōu)于HowNet,在式(4)的詞語(yǔ)向量表達(dá)構(gòu)建中,本文分別給詞語(yǔ)本身w2v、僅來(lái)自于HowNet的近義詞的w2v、僅來(lái)自于《同義詞詞林?jǐn)U展版》的近義詞的w2v、同時(shí)來(lái)自于HowNet和《同義詞詞林?jǐn)U展版》的近義詞的w2v設(shè)定了0.2、0.1、0.2和0.5的權(quán)重。而非差異權(quán)重的方案,則給予來(lái)自于不同詞匯分類體系的近義詞的w2v相同的權(quán)重。結(jié)果如表8所示。
表8 不同知識(shí)選用及權(quán)重方案的詞語(yǔ)相似性計(jì)算效果
可以看到,不做任何選取地選用HowNet和《同義詞詞林?jǐn)U展版》的多源方案,結(jié)果并沒(méi)有優(yōu)于單獨(dú)采用《同義詞詞林?jǐn)U展版》的方案(表7),可見(jiàn)探索不同類型詞匯分類體系提供的知識(shí)的選用和融合問(wèn)題是有價(jià)值的。而本文采用的最優(yōu)方案,在PKU 500數(shù)據(jù)集上取得了高達(dá)0.637的斯皮爾曼等級(jí)相關(guān)系數(shù)。
3.3.5 研究進(jìn)展方法在中文詞語(yǔ)相似性計(jì)算上的性能對(duì)比
本文的方法與研究進(jìn)展方法的對(duì)比如表9所示。
表9 本文的方法與研究進(jìn)展方法在中文詞語(yǔ)相似性計(jì)算上的性能對(duì)比
從表9可以看到,在PKU 500數(shù)據(jù)集上,以斯皮爾曼等級(jí)相關(guān)系數(shù)標(biāo)準(zhǔn),本文的方法比Faruqui等人[10]的方法在中文詞語(yǔ)相似性計(jì)算的效果提高18.4%,比NLPCC-ICCPOL 2016評(píng)測(cè)比賽中第一名的方法[9]高出23%。
本文提出一種向量模型與多源詞匯分類體系相結(jié)合的詞語(yǔ)相似性計(jì)算方法,采用多源詞匯分類體系的近義詞關(guān)系以及向量模型得到的詞向量,計(jì)算得到詞語(yǔ)的向量表達(dá),并探索了不同類型詞匯分類體系提供的知識(shí)的選用和融合問(wèn)題,彌補(bǔ)了單一詞向量和單一詞匯分類體系在詞語(yǔ)相似性計(jì)算中的缺點(diǎn),在公開數(shù)據(jù)集PKU 500數(shù)據(jù)集的評(píng)測(cè)取得了0.637的斯皮爾曼等級(jí)相關(guān)系數(shù),比NLPCC-ICCPOL 2016詞語(yǔ)相似度評(píng)測(cè)比賽第一名的方法的結(jié)果提高了23%。進(jìn)一步的工作主要集中在研究更為系統(tǒng)的不同類型詞匯分類體系提供的知識(shí)的選用和融合方案。
[1] Wu Y F, Li W. Overview of the NLPCC-ICCPOL 2016 shared task: Chinese word similarity measurement[J]. Lecture Notes in Artificial Intelligence, 2016, 10102:828-839.
[2] Turney P D. Similarity of semantic relations[J]. Computational Linguistics, 2006, 32(3):379-416
[3] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[4] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations (ICLR 2013), 2013.
[5] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995,38(11): 235-244.
[6] Dong Z D, Dong Q. HowNet and the computation of meaning[M]. World Scientific Publishing Company, Singapore, 2006.
[7] Li W, Liu T, Zhang Y, et al. Automated generalization of phrasal paraphrases from the web[C]//Proceedings of the 3rd International Workshop on Paraphrasing (IWP2005), 2005: 49-56.
[8] Panchenko A. Best of both worlds: Making word sense embeddings interpretable[C]//Proceedings of the 10th Language Resources and Evaluation Conference (LREC 2016), 2016: 2649-2655.
[9] Guo S R,Guan Y, Li R, et al. Chinese word similarity computing based on combination strategy[C]//Proceedings of NLPCC 2016,Lecture Notes in Artificial Intelligence, 2016,10102: 744-752.
[10] Faruqui M, Dodge J, Jauhar S K, et al. Retrofitting word vectors to semantic lexicons[C]//Proceedings of the 2015 Annual Conference of the North American Chapter of the ACL (NAACL 2015), 2015:1606-1615.
[11] Heylen K, Peirsmany Y, Geeraerts D, et al. Modeling word similarity: An evaluation of automatic synonym extraction algorithms[C]//Proceedings of the 6th International Language Resources and Evaluation, 2008, 3243-3249.
[12] Landauer T K, Dumais S T. A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge[J]. Psychological Review, 1997,104(2):211-240.
[13] Baroni M, Zamparelli R. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), 2010:1183-1193.
[14] Sérasset G. DBnary: Wiktionary as a lemon-based multilingual lexical resource in rdf[J]. Semantic Web Journal-Special Issue on Multilingual Linked Open Data, 2015, 6(4):355-361.
[15] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), 2013b: 3111-3119.
[16] Morin F, Bengio Y. Hierarchical probabilistic neural network language model[C]//Proceedings of the International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), 2005: 246-252.
[17] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76 .
[18] 李峰, 李芳. 中文詞語(yǔ)語(yǔ)義相似度計(jì)算·基于《知網(wǎng)》2000[J]. 中文信息學(xué)報(bào), 2007, 21(3): 99-105.
[19] 梅家駒, 竺一鳴, 高蘊(yùn)琦,等. 同義詞詞林[M].上海:上海辭書出版社, 1983: 106-108.
[20] 田久樂(lè), 趙蔚. 基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J]. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版), 2010,28(6): 602-608.
E-mail: cenhongjie@stu.scau.edu.cn