張仰森 鄭 佳 李佳媛
從語義學(xué)的角度來看,詞語語義計算可以在詞語表達的詞義之間進行定義,也可以在整個文本之中進行定義[1],其表現(xiàn)形式主要有兩種:詞語語義相關(guān)度和語義相似度.詞語語義相關(guān)度和相似度是兩個不同的概念,但兩者之間又有著緊密的聯(lián)系.語義相關(guān)度反映的是兩個詞語相互關(guān)聯(lián)的程度,指的是詞語之間的組合特點,即看到一個詞,會自然而然地聯(lián)想到另一個語義相關(guān)的詞,它可以用這兩個詞語在同一個語境中共現(xiàn)的可能性來衡量.而語義相似度是指兩個詞語的相似程度,通常指兩個詞語的語義本身具有某些相似的特性,相似度反映的是詞語之間的聚合特點,即一個詞可以用另一個語義相似的詞替換.就它們所表示的范疇來說,語義相關(guān)度是更一般的概念,而語義相似度是語義相關(guān)度的一種特例,也就是,語義相關(guān)度包含了語義相似度的概念.
Resnik[2]用“轎車”、“汽油”、“自行車”的例子生動形象地解釋了兩者之間的區(qū)別:“轎車依賴于汽油作為燃料,顯然它們之間的相關(guān)性比轎車與自行車更為緊密,但人們卻普遍認為轎車與自行車之間的相似性大于轎車與汽油”.這個例子表明,相關(guān)性不能等同于相似性.即使轎車與汽油是緊密相關(guān)的,但由于這兩者之間沒有共同的特性,人們不會認為它們是相似的.而轎車和自行車都是交通工具,都有輪子且可以載人,因此它們是相似并且相關(guān)的.再比如“微軟公司”和“比爾·蓋茨”是兩個相關(guān)的詞語,比爾·蓋茨是微軟公司的創(chuàng)始人之一,而且曾擔任微軟公司的CEO,提及微軟公司,我們可以很自然的聯(lián)想到比爾·蓋茨;但他們并不是相似的,并且它們也不能相互替換,例如:“微軟公司是一家具有創(chuàng)造力的公司”,如果將“微軟公司”替換為“比爾·蓋茨”將會出現(xiàn)錯誤,而“谷歌公司”和“微軟公司”是相似的詞,它們都是公司,是可以相互替換的,而且它們也是語義相關(guān)的.由于詞語相關(guān)度包含了相似度,因此,在評價詞語相似度和相關(guān)度的時候,可以把詞語相似度作為相關(guān)度評價的一個維度,也就是說,如果詞語間的語義越相似,那么,在一定程度上,它們的相關(guān)度也越大,相似度的大小在一定程度上影響著相關(guān)度的度量.
詞語的語義相關(guān)度計算是許多自然語言處理任務(wù)的基礎(chǔ),主要探索詞語之間的相關(guān)程度.在信息檢索[3?4]、自動問答[5]、事件抽取[6?7]、詞義消歧[8]、社會計算[9]等自然語言處理的應(yīng)用領(lǐng)域研究中,詞語的語義相關(guān)度計算都扮演著非常重要的角色.本文旨在研究如何進行詞語之間的相關(guān)度計算.
目前,針對詞語語義相關(guān)度的評價,已經(jīng)提出了很多卓有成效的方法,歸納起來主要分為兩類:基于語義詞典的方法和基于統(tǒng)計的方法.
基于語義詞典的方法主要是利用現(xiàn)有語義詞典中的各種概念以及概念與概念之間的關(guān)系來度量詞語的語義相關(guān)度.英語的語義詞典以WordNet為代表,Budanitsky等[10]總結(jié)了5種利用WordNet詞典計算詞語的語義相關(guān)度的方法,并對它們的性能進行了比較.Taieb等[11]提出了一種新的Information content(IC)計算方法,并在此基礎(chǔ)上,將IC融入到WordNet的分類系統(tǒng)中,構(gòu)建了詞語語義相關(guān)度的計算模型.而在中文中使用最多的語義詞典是HowNet,其最早被引入語義計算的是劉群等[12],他們在研究義原、集合和特征結(jié)構(gòu)的相似度計算方法的基礎(chǔ)上,提出了利用HowNet進行詞語語義相似度的計算算法.Zhang[13]使用HowNet作為語義知識,計算詞語之間的語義相關(guān)性和相似性,將語義相關(guān)性和相似性的組合作為支持向量機的輸入,構(gòu)建了一個文本分類器.Zhang等[14]為了方便理解HowNet中概念之間的語義關(guān)系,同時也為了便于計算機的處理,在分析了HowNet中概念的層次關(guān)系后,設(shè)計了一個概念–語義樹,并基于概念–語義樹構(gòu)建了一個詞語語義相關(guān)度計算模型.語義詞典提供了規(guī)范的語義關(guān)系,為詞語語義相似度的計算帶來了方便,但是也存在如下一些問題:1)自然語言中的詞語往往具有很強的模糊性,一個詞語往往具有很多詞性、詞義,且運用場景也豐富多樣,現(xiàn)有的語義詞典的知識表示框架很難準確、全面地表示模糊性的詞語語義知識;2)詞語語義知識含量巨大,人工構(gòu)造的語義詞典相對于豐富的詞語語義知識來說是很不完備的,并且由于構(gòu)造人員知識的局限性,也很難準確地表示每個詞語的客觀語義事實;3)語義詞典相對固定,但是自然語言隨著時間的變化存在一定的語義漂移現(xiàn)象.這些問題都對詞語語義的計算造成了一定的影響.
基于統(tǒng)計的方法也稱為基于語料庫的方法,是建立在“兩個詞語經(jīng)常在同一語境中同時出現(xiàn),則這兩個詞語往往語義相關(guān)”這一假設(shè)的基礎(chǔ)之上的.田萱等[15]提出一種K2CM(Keyword to concept method)方法,從詞語–文檔–概念所屬程度和詞語–概念共現(xiàn)程度兩個方面來計算詞語–概念的相關(guān)度.同時文獻[15]還指出,基于統(tǒng)計的方法主要利用文檔集中詞語間共現(xiàn)性的統(tǒng)計數(shù)據(jù)來確定詞語間的相關(guān)度,這種方法只是利用文檔中包含的內(nèi)容信息,而忽略了詞語之間的具體關(guān)系以及詞語相互關(guān)聯(lián)的語義依據(jù),當統(tǒng)計樣本不足時,其計算結(jié)果就會出現(xiàn)較大誤差.近些年來,國內(nèi)外的很多研究把百科知識庫(如:維基百科、百度百科、MBA智庫百科、互動百科等)作為一種語料庫資源融入到自然語言處理中,取得了很好的效果.在詞語語義相關(guān)度的計算方面,Ye等[16]在考慮了維基百科的內(nèi)容頁面語義信息的基礎(chǔ)上,組合了維基百科的類別頁面的語義信息,提出了一種基于維基百科超鏈接的語義相關(guān)度計算方法.萬富強等[17]基于中文維基百科,將詞表示為帶權(quán)重的概念向量,從而將詞之間相關(guān)度的計算轉(zhuǎn)化為相應(yīng)的概念向量的比較,他們在引入頁面的先驗概率的基礎(chǔ)上,利用維基百科頁面之間的鏈接信息對概念向量的各分量值進行修正,從而完成詞語語義相關(guān)度的計算.基于統(tǒng)計的方法,把語義相關(guān)度的計算建立在大量的、可觀測的語言事實上,而不依賴于語義詞典,避免了語義詞典給相關(guān)度計算帶來的一些問題,但同時也存在著對語料庫依賴性大、計算量大、數(shù)據(jù)稀疏問題嚴重、數(shù)據(jù)噪聲多、存儲需求大等一些缺陷.
本文在充分研究基于語義詞典的方法和基于統(tǒng)計的方法的優(yōu)缺點的基礎(chǔ)上,提出了一種基于語義詞典方法和語料庫相結(jié)合的詞語語義相關(guān)度計算模型.首先,在分析HowNet語義表示的基礎(chǔ)上,提取了HowNet中豐富的語義關(guān)系,以語義關(guān)系三元組為存儲形式,建立基于HowNet的語義關(guān)系圖;然后,在此基礎(chǔ)上,通過對大規(guī)模語料進行依存語法分析,抽取出其中存在的依存語義關(guān)系,經(jīng)過篩選后,加入到語義關(guān)系圖中,對語義關(guān)系圖做了進一步的擴展.最后,采用圖論的相關(guān)理論對語義關(guān)系圖中蘊含的語義信息進行處理,提出一種基于語義關(guān)系圖的詞語語義相關(guān)度計算模型,并通過實驗驗證該方法的有效性.
在自然語言中,一個詞語往往具有多個含義,在具體的語言環(huán)境中,它們對句意的表達作用也往往是多種多樣的.同時,詞與詞之間的關(guān)系更是錯綜復(fù)雜,存在著各種各樣的語義依賴關(guān)系,比如同義、反義、施事、受事、句法關(guān)系等.為了表示詞語之間這些錯綜復(fù)雜的語義關(guān)系,本文采用在表現(xiàn)復(fù)雜關(guān)系方面具有天然優(yōu)勢的圖結(jié)構(gòu),構(gòu)建詞語之間的語義關(guān)系圖,將復(fù)雜的語義關(guān)系轉(zhuǎn)換為計算機可理解、可計算的數(shù)據(jù)結(jié)構(gòu).語義關(guān)系圖由結(jié)點和語義關(guān)系兩部分構(gòu)成,分別對應(yīng)著圖中的頂點和弧.為了構(gòu)建詞語間的語義關(guān)系圖,本文首先研究了HowNet對詞語語義的表示方式,根據(jù)HowNet對詞語語義的表示特點,借鑒了文獻[18]中的方法,提取出知網(wǎng)中的語義關(guān)系,構(gòu)建了基于HowNet的語義關(guān)系圖;然后,通過對大規(guī)模的語料進行依存語法分析,提取出其中的依存詞語搭配,通過相關(guān)篩選后,將這些詞語搭配及其依存關(guān)系添加到基于HowNet的語義關(guān)系圖中,使語義關(guān)系圖得到進一步的豐富和完善.
HowNet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫.HowNet采用知識系統(tǒng)描述語言(Knowledge database mark-up language,KDML),利用嵌套式的結(jié)構(gòu),對概念以及概念的屬性進行描述,即一個復(fù)雜的概念用較簡單的概念進行解釋,較簡單的概念再用更簡單的概念解釋,直到能夠用義原表示為止.這種結(jié)構(gòu)其實質(zhì)是一種隱含的樹結(jié)構(gòu),稱之為概念樹[18].
如“拳臺”在HowNet中的描述如下:
在“拳擊”的概念描述中,KDML表示了這樣的含義:拳臺是一個設(shè)施,這個設(shè)施所屬的領(lǐng)域(Domain)是拳擊領(lǐng)域,這個設(shè)施是比賽的地方(Location),這個設(shè)施也是鍛煉的地方(Location).也就是說,拳臺是一個用來進行拳擊比賽和拳擊鍛煉的設(shè)施,其所屬領(lǐng)域是拳擊領(lǐng)域.將“拳臺”這個概念用概念樹重新表示如圖1所示.
圖1 概念“拳臺”的概念樹表示Fig.1 The concept tree representation for“ring”
通過上面的例子,我們可以發(fā)現(xiàn):在概念樹上,每一個父結(jié)點與其子結(jié)點之間必定有一個表示語義關(guān)系的語義關(guān)系詞.因此,在遍歷概念樹提取語義關(guān)系的時候,就可以把語義關(guān)系詞作為提取語義關(guān)系的標志,即在檢索語義概念樹時,當遇到語義關(guān)系詞時,考察該關(guān)系詞所連接的兩個結(jié)點所對應(yīng)的詞語是否可以與該語義關(guān)系詞構(gòu)成一條語義關(guān)系記錄.
本文所構(gòu)建的語義關(guān)系圖由表示詞語的結(jié)點和表示結(jié)點之間語義關(guān)系的有向邊組成,語義關(guān)系有向邊由關(guān)系起始項指向關(guān)系終止項,整個語義關(guān)系圖以語義關(guān)系有向邊為單位,采用語義關(guān)系三元組SR(關(guān)系起始項、關(guān)系終止項、語義關(guān)系詞)的方式存儲,將每一條語義關(guān)系三元組作為一條存儲記錄,其存儲格式如表1所示.
表1 語義關(guān)系的存儲格式Table 1 The storage format of semantic relations
對于一個概念描述片段{s1:r1={s2:r2={s3}}},按照KDML描述規(guī)范,每一對括號所包括的部分都是一個概念,在該概念描述片段中三對括號所包括的內(nèi)容“{s1:r1={s2:r2={s3}}}”,“{s2:r2={s3}}”,“{s3}”是三個不同的概念對象.其中s1,s2,s3是義原;r1,r2是關(guān)系詞,r1是表示s1和{s2:r2={s3}}之間關(guān)系的關(guān)系詞,r2是表示s2和{s3}之間關(guān)系的關(guān)系詞.在提取HowNet中蘊含的語義關(guān)系時,我們定義如下的規(guī)則:
規(guī)則 1.如果關(guān)系詞后面所連接的概念只是一個義原,則直接提取語義關(guān)系.例如:在{s2:r2={s3}}中,若關(guān)系r2后的概念“{s3}”只是義原“s3”,那么可以直接提取語義關(guān)系(s2,s3,r2).
規(guī)則2.如果關(guān)系詞后面所連接的概念是多個義原,這時需要考察關(guān)系詞后面所連接的概念是否可以用某個特定義項表示,若可以用特定義項表示,則可提取語義關(guān)系,否則,不提取該關(guān)系詞的語義關(guān)系.例如:在{s1:r1={s2:r2={s3}}}中,若{s2:r2={s3}}可用義項B表示,那么可提取語義關(guān)系(s1,B,r1)和(s2,s3,r2);若{s2:r2={s3}}不能用某特定義項表示,則只能提取語義關(guān)系(s2,s3, r2).
規(guī)則3.如果關(guān)系詞所在的整個概念可用某個義項表示時,則可將關(guān)系詞前面的義原替換為該義項并提取語義關(guān)系.例如:在{s1:r1={s2:r2={s3}}}中,{s1:r1={s2:r2={s3}}}可用義項A表示,其中的{s2:r2={s3}}可用義項B表示,則可提取語義關(guān)系(A,B,r1),(s1,B,r1),(B,s3,r2), (s2,s3,r2).
規(guī)則4.對于“DEF”關(guān)系的提取.每個概念都需提取該概念與其第一基本義原的DEF語義關(guān)系.例如:對于圖1所示的“拳臺”的概念樹,需提取語義關(guān)系(拳臺、設(shè)施、DEF).
規(guī)則 5.對于反義、對義、同義關(guān)系的提取. HowNet中采用 Antonym Set、Converse Set、Synset Set、Taxonomy Antonym、Taxonomy Converse 5個文件對反義、對義、同義關(guān)系進行了描述,這三種關(guān)系直接從這5個文件中提取.
規(guī)則6.對于義原上下位關(guān)系的提取.HowNet中的Taxonomy entity和Taxonomy event兩個文件對事件和實體義原進行了描述,其描述形式構(gòu)成了樹形結(jié)構(gòu),通過對樹形結(jié)構(gòu)的遍歷提取義原的上下位關(guān)系.
規(guī)則 7.屬性和屬性值之間語義關(guān)系的提取. HowNet中的Taxonomy attribute value文件對屬性和屬性值進行了描述,其描述形式同樣構(gòu)成了樹形結(jié)構(gòu),則也通過對樹形結(jié)構(gòu)的遍歷提取屬性和屬性值之間語義關(guān)系.
在研究HowNet收錄的詞語及其語義描述的過程中,我們還發(fā)現(xiàn),其中有些詞語的幾個義項的中文詞、詞性以及概念描述等完全相同,只有對應(yīng)的英文詞不同而表示為不同的義項.由于本文所做工作的主要目的是為了計算詞語的語義相關(guān)度,與該詞語的詞性及其對應(yīng)的英文詞無關(guān),因此在提取語義關(guān)系之前,我們先將HowNet中的中文詞相同且概念描述也相同,但編號不同的概念進行合并,并重新為其編號,然后再提取其中蘊含的語義關(guān)系,構(gòu)建語義關(guān)系圖.
將通過HowNet提取出的詞語之間的語義關(guān)系互相關(guān)聯(lián),形成的網(wǎng)狀結(jié)構(gòu)稱之為語義關(guān)系圖(Semantic relationship graph).語義關(guān)系圖符合圖的一般特點,具有圖的一般性質(zhì),為計算機處理語義關(guān)系提供了方便.由于該圖是以語義三元組為單位進行存儲,因此該語義關(guān)系圖具有良好的可擴展性,可以很好地融合其他語義資源中的語義關(guān)系,進一步完善詞語間的語義關(guān)聯(lián)信息,使語義關(guān)系圖更加全面、客觀.
在自然語言領(lǐng)域中,詞語以及概念由于所處的語言環(huán)境不同,它們之間所表現(xiàn)出來的關(guān)系也是錯綜復(fù)雜的.雖然HowNet著力反映了概念與概念之間以及概念所具有的屬性之間的關(guān)系,但是要想窮盡概念之間或概念所具有的屬性之間的所有關(guān)系是不太可能的,再加上人力、物力以及構(gòu)造人員知識局限性的限制,HowNet中所列舉出來的關(guān)系只是最基本的、很少的一部分,還有一些在語言使用過程中所用到的語義關(guān)系,在HowNet中并沒有體現(xiàn)出來,或者某些詞語間的語義關(guān)聯(lián)方式與HowNet中的關(guān)聯(lián)方式并不相同,也就是在語義關(guān)系圖中兩個結(jié)點通過不同的路徑相互連通.為了使語義關(guān)系圖中的語義關(guān)聯(lián)信息更全面,需要對基于HowNet構(gòu)建的語義關(guān)系圖做進一步的擴展,豐富其中蘊含的語義關(guān)聯(lián)信息.
在基于統(tǒng)計方法的相關(guān)度計算文獻中[16?18]都已指出:如果兩個詞語經(jīng)常同時出現(xiàn)在同一語境中,則這兩個詞語之間往往具有一定的關(guān)聯(lián)關(guān)系.因為只有當詞語間存在內(nèi)在的語義關(guān)聯(lián)時,才有可能組合形成一句話并表達一個完整的句意.另外,依存語法認為:句子的成分之間存在依存關(guān)系,這種依存關(guān)系可以反映出句子中各成分之間的語義修飾關(guān)系[19].基于以上結(jié)論,本文采用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺云上的語義依存分析接口,對北京大學(xué)計算語言學(xué)研究所發(fā)布的《人民日報》語料進行語義依存分析,從中提取出具有依存關(guān)系的詞語搭配對,構(gòu)建詞語語義關(guān)系三元組,將這些三元組加入到基于HowNet語義關(guān)系圖中,實現(xiàn)對語義關(guān)系圖的擴展.具體的擴展策略如下:
1)依次對人民日報語料中的每一句話進行語義依存分析,得到每一句話的語義依存樹.
2)根據(jù)每一棵語義依存樹中詞語的語義依存信息,從中提取出實詞的語義依存搭配對及其語義依存關(guān)系,構(gòu)成語義關(guān)系三元組,并統(tǒng)計計算其出現(xiàn)的頻次及其互信息[20].
3)將頻次和互信息大于一定閾值的語義關(guān)系三元組加入到基于HowNet的語義關(guān)系圖中.
對于語義關(guān)系搭配對的共現(xiàn)頻次和互信息的閾值選擇,采用文獻[20]中對詞語搭配選擇時采用的方法,具體的選擇方法在后面的實驗部分第4.1節(jié)進行詳細討論.
經(jīng)過以上處理,實現(xiàn)了對基于HowNet的語義關(guān)系圖的擴展,豐富了語義關(guān)系圖中詞語與概念的語義關(guān)聯(lián)關(guān)系,得到了相對完善的語義關(guān)系圖.在語義關(guān)系圖的基礎(chǔ)上,就可以利用圖論的相關(guān)知識和理論對詞語之間錯綜復(fù)雜的語義關(guān)系進行處理,實現(xiàn)對詞語語義相關(guān)度的計算.
為了更好地闡述算法和便于理解算法,下面先給出算法中將要涉及到的一些基本定義與假設(shè).
根據(jù)圖論中兩點連通的概念,本文給出語義關(guān)系圖中語義連通、語義連通路徑及語義連通路徑長度的定義分別如定義1、定義2和定義3所示.
定義1(語義連通).在語義關(guān)系圖中,如果從結(jié)點Ei到Ej有路徑存在,則稱結(jié)點Ei和Ej是語義連通的.
定義2(語義連通路徑).在語義關(guān)系圖中,兩個語義連通的結(jié)點之間的路徑稱為它們的語義連通路徑.
定義3(語義連通路徑長度).在語義關(guān)系圖中,如果結(jié)點Ei和Ej是語義連通的,對于它們之間的某一條語義連通路徑P,將P上弧的數(shù)量稱為它們的語義連通路徑長度,記為L(Ei,Ej).
語義連通路徑長度可用來度量結(jié)點之間語義距離,進而確定出語義關(guān)系圖中各結(jié)點所代表的詞語之間語義相關(guān)度.為此,先引入下列的假設(shè):
假設(shè) 1.在語義關(guān)系圖中,如果結(jié)點Ei到Ej之間有至少一條語義連通路徑,則認為結(jié)點Ei與Ej是語義相關(guān)的.
假設(shè) 2.在語義關(guān)系圖中,如果結(jié)點Ei到Ej不是語義連通的,但以Ej為中心,一定語義連通路徑長度α范圍內(nèi)的結(jié)點構(gòu)成集合S,若集合S中的某個結(jié)點與Ei的相似度大于閾值λ,則認為結(jié)點Ei與Ej是語義相關(guān)的.
對于相似度閾值λ和語義連通路徑長度α的選取策略將在后面的實驗部分第4.3節(jié)進行詳細討論.
假設(shè)1與假設(shè)2共同構(gòu)成了詞語語義相關(guān)的必要條件,語義關(guān)系圖中的詞語之間的語義相關(guān)可表示如圖2所示.在圖2(a)中,結(jié)點A和B之間存在兩條語義連通路徑,其語義連通路徑長度分別為1和2,則A和B語義相關(guān);在圖2(b)中,以結(jié)點A為中心,與A的語義連通路徑長度為1的結(jié)點構(gòu)成集合{C,E,F,H},其中E與B的相似度大于閾值λ,同樣,我們認為A和B是語義相關(guān)的.
本文在以上定義和假設(shè)的基礎(chǔ)上,為了對兩個詞語之間的語義相關(guān)度進行計算,特制定以下規(guī)則.
規(guī)則1.在語義關(guān)系圖中,結(jié)點對自身的語義相關(guān)度為1.
規(guī)則2.在語義關(guān)系圖中,如果兩個語義連通的結(jié)點之間的所有語義連通路徑的長度都相等,那么,這兩個結(jié)點之間的連通路徑越多,它們的相關(guān)度越大;反之,相關(guān)度越小.
通過規(guī)則2,我們可以得出:在連通路徑長度相等的情況下,兩個詞語之間的相關(guān)度大小與語義連通路徑的數(shù)目成正比,即認為相關(guān)度的值隨著語義連通路徑數(shù)目的增加而增大,隨著語義連通路徑數(shù)目的減少而減小.例如在圖3(a)中,結(jié)點A和B的連通路徑有2條,且長度都為2;圖3(b)中,結(jié)點A和B的連通路徑有3條,且長度也同樣都為2,在這樣情形下,我們認為圖3(b)中A和B的相關(guān)度要大于圖3(a)中A和B的相關(guān)度,因為在相同語義連通路徑長度的前提下,圖3(b)中A和B比圖3(a)中A與B之間存在更多的語義連通路徑.
圖2 語義關(guān)系圖中的語義相關(guān)Fig.2 The semantic relatedness in semantic relationship graph
圖3 語義連通路徑的數(shù)量與語義相關(guān)度的關(guān)系Fig.3 The relationship between the quantity of semantic connected path and semantic relatedness
規(guī)則3.在語義關(guān)系圖中,如果兩個語義連通結(jié)點之間的連通路徑數(shù)量相等,那么,這兩個結(jié)點之間的連通路徑長度越短,它們的相關(guān)度越大;反之,相關(guān)度越小.
通過規(guī)則3,我們可以得出:在連通路徑數(shù)目相等的情況下,兩個詞語之間的相關(guān)度大小與語義連通路徑長度成反比,即認為語義相關(guān)度的大小隨著語義連通路徑長度的增大而減小,隨著語義連通路徑長度的減小而增大.例如在圖4(a)中,結(jié)點A和C的連通路徑有1條,且長度為2;圖4(b)中,結(jié)點A和C的連通路徑也有1條,但長度為1,在這樣的情形下,我們認為圖4(b)中A和C的相關(guān)度要大于圖4(a)中A和C的相關(guān)度.因為在相同數(shù)目的語義連通路徑的前提下,圖4(b)中A和C是直接語義連通的,而圖4(a)中A和C則是依賴于其他結(jié)點語義連通的.
圖4 語義連通路徑的長度與語義相關(guān)度的關(guān)系Fig.4 The relationship between the length of semantic connected path and semantic relatedness
在語義關(guān)系圖中,若兩個結(jié)點之間沒有語義連通路徑,則有兩種可能:
1)在構(gòu)建語義關(guān)系圖時,由于語義資源的有限性,導(dǎo)致語義關(guān)系圖沒有窮舉出所有的語義關(guān)系,致使某些語義關(guān)聯(lián)缺失,從而使得一些有關(guān)聯(lián)的詞語失去了語義關(guān)聯(lián),表現(xiàn)在語義關(guān)系圖上即為兩詞語的結(jié)點之間沒有語義連通路徑.
2)兩個詞語之間本來就不是語義相關(guān)的.
對于在語義關(guān)系圖中,兩個結(jié)點之間沒有語義連通路徑情況,本文采用相似詞替換的方法計算相關(guān)度,具體如規(guī)則4所示.
規(guī)則4.在語義關(guān)系圖中,如果兩個結(jié)點A、B之間沒有語義連通路徑,其語義相關(guān)度計算步驟如下:
1)以其中一個結(jié)點A為中心,找出其一定長度α的語義連通路徑內(nèi)的所有結(jié)點,構(gòu)成結(jié)點集合S,計算S中的每一個結(jié)點與B的語義相似度,若與B相似度最大的結(jié)點為C,當B與C的語義相似度Sim(B,C)大于閾值λ時,則計算出A與C的相關(guān)度Rel(A,C);當Sim(B,C)小于閾值λ時,記A與C的相關(guān)度Rel(A,C)=0;
2)以另一個結(jié)點B為中心,采用同樣的方法,尋找結(jié)點B的臨近結(jié)點集合中與A相似度最大的結(jié)點C′,計算A與C′的語義相似度Sim(A,C′)和B與C′的語義相關(guān)度Rel(B,C′);
3)若Sim(B,C)與Sim(A,C′)都小于閾值λ,則認為在以A或B為中心,以α為半徑的語義連通路徑范圍內(nèi)的結(jié)點沒有與B或A非常相似的詞,從而,認為A與B不相關(guān),即A與B的相關(guān)度為0;否則,令:
則結(jié)點A與B的語義相關(guān)度的值取Rel1(A,B)和Rel2(A,B)中的較大者,如式(3)所示:
其中,詞語的相似度計算方法如式(4)所示[21]:
式(4)中,詞語W1,W2分別有n和m個不同概念,S1i為W1的第i個概念;S2j為W2的第j個概念,Sim(S1i,S2j)表示兩概念之間的相似度.概念相似的計算方法如式(5)所示[21]:
其中,βi(1≤i≤4)為可調(diào)節(jié)的參數(shù),分別表示S1和S2的第一基本義原相似度Sim(p11,p21)、其他基本義原相似度Sim(p12,p22)、關(guān)系義原相似度Sim(p13,p23)、關(guān)系符號相似度Sim(p14,p24)的權(quán)值系數(shù),且滿足式(6)的關(guān)系:
βi(i=1,2,3,4)的取值分別為[21]:0.5,0.2,0.17和0.13.義原的相似度計算如式(7)所示:
其中,dep(p1),dep(p1)分別為義原p1,p2的深度,Dist(p1,p2)為義原的距離,α為可調(diào)整參數(shù),表示當義原相似度等于0.5時義原的距離,λ同樣為可調(diào)節(jié)的參數(shù),調(diào)節(jié)相似度整體數(shù)字的大小,α,λ的取值為分別為1.6和2.0[21].
本文采用圖論的相關(guān)知識對語義關(guān)系圖中蘊含的語義信息進行處理,構(gòu)建了基于語義關(guān)系圖的詞語語義相關(guān)度計算模型.在詞語語義相關(guān)度的計算過程中,本文主要考察的是兩個詞語在語義關(guān)系圖中的語義連通路徑的數(shù)量和每條語義連通路徑的長度這兩個因素,即在給定兩個詞語后,通過采用圖論的遍歷算法,遍歷語義關(guān)系圖,得到兩個詞語的語義連通路徑數(shù)目n和每條路徑的長度Li(1≤i≤n)后,通過n和Li計算出兩個詞語的相關(guān)度.
由規(guī)則3可知,當兩個詞語之間的語義連通路徑過長時,其語義相關(guān)度會變得很小.在本文中,為了強調(diào)語義連通路徑長度對語義相關(guān)度計算的影響,同時,為了方便算法的實現(xiàn),在計算中不考慮語義連通路徑長度超過α(α>1)的語義連通路徑,并且為長度為1~α的語義連通路徑分別賦予權(quán)值系數(shù)βk(1≤k≤α).因此,每條語義連通路徑的加權(quán)長度為βk·Li,其中,k∈[1,α],i∈[1,n].則結(jié)點Ei到Ej之間的加權(quán)語義連通路徑總長L(Ei,Ej)如式(8)所示:
同時,考慮到語義連通路徑的長度越小對語義相關(guān)度的影響力越大,為了強調(diào)短的語義連通路徑對語義相關(guān)度的影響,將式(8)的加權(quán)語義連通路徑總長L(Ei,Ej)計算方式進行改進,如式(9)所示:
式(9)中長度較小的語義連通路徑對長度較大的語義連通路徑起到了一定的制約作用.其中語義連通路徑長度的權(quán)值βk的取值如式(10)所示:
由此,可得結(jié)點Ei到Ej之間的平均加權(quán)語義連通路徑長如式(11)所示:
對于詞語Ei到Ej,由其在語義關(guān)系圖中語義連通路徑的數(shù)目和長度,根據(jù)第3.2節(jié)中的相關(guān)規(guī)則,構(gòu)建詞語語義相關(guān)度的計算模型,如式(12)所示:
本文基于語義關(guān)系圖構(gòu)建了詞語語義相關(guān)度的計算模型,具體的算法過程描述如算法1所示:
算法1.基于語義關(guān)系圖的詞語語義相關(guān)度計算算法
輸入.語義關(guān)系圖G,語義連通長度閾值α,語義相似度閾值λ,詞語A,詞語B
輸出.詞語A與B的語義相關(guān)度Rel(A,B)
過程.
步驟1. 遍歷語義關(guān)系圖G,計算詞語A、B的結(jié)點在G中的連通路徑長度小于α的連通路徑數(shù)目n以及每條連通路徑的長度Li(i∈[1,n]),若n>0或者A=B,轉(zhuǎn)到步驟2;否則,轉(zhuǎn)到步驟3;
步驟 2.利用式(12)計算A與B的相關(guān)度Rel(A,B),轉(zhuǎn)到步驟9;
步驟3.以結(jié)點A為中心,以長度為α的語義連通路徑為閾值,查找結(jié)點構(gòu)成集合S;
步驟4.利用式(4)至式(7)計算結(jié)點B與集合S中每個結(jié)點的相似度,得到S中與B相似度最大的結(jié)點C;
步驟5.若B與C的相似度Sim(B,C)>λ,則利用式 (12)計算結(jié)點A與C的相關(guān)度Rel(A,C),否則,記A與C的相關(guān)度Rel(A,C)= 0;
步驟6.利用式(1)計算Rel1(A,B);
步驟7.將結(jié)點A和結(jié)點B互換,重復(fù)以上步驟3~步驟6,計算Rel2(A,B);
步驟8.利用式(3)計算詞語A與B的相關(guān)度;
步驟 9.返回詞語A與B的語義相關(guān)度Rel(A,B),結(jié)束.
為了確定《人民日報》語料中提取的語義關(guān)系搭配對的相關(guān)閾值,本文參照文獻[20]中的閾值選取策略,同樣以互信息和共現(xiàn)頻次為閾值對語義關(guān)系搭配對進行篩選.我們將提取的語義關(guān)系搭配對的所有搭配(共計452345個)的互信息和共現(xiàn)頻次提取出來,構(gòu)成了一個2×452345的矩陣,將矩陣中的數(shù)據(jù)進行區(qū)間化處理,根據(jù)它們在不同區(qū)間的分布密度,來選擇互信息和共現(xiàn)頻次的閾值.區(qū)間粒度的大小決定了閾值選擇的精確度.經(jīng)過實驗觀察,將數(shù)據(jù)區(qū)間均分為60等份時,所得到的閾值對語義關(guān)系搭配對的正確性判斷具有較好的區(qū)分效果.于是我們采用Matlab將2×452345的矩陣歸一化為一個60×60的矩陣,矩陣中的每個值為互信息和共現(xiàn)頻次相對應(yīng)的區(qū)間范圍內(nèi)的詞語搭配個數(shù),采用Matlab繪制60×60矩陣的密度分布圖如圖5所示,密度值對語義關(guān)系搭配對的覆蓋率趨勢圖如圖6所示.
圖5 互信息與共現(xiàn)頻次密度矩陣分布圖Fig.5 The density matrix distribution fi gure between mutual information and co-occurrence frequency relatedness
通過對圖5、圖6的分析可得,當密度值為905時,其對應(yīng)密度覆蓋率為5.51%,通過密度矩陣分布圖所選擇的閾值具有較好的區(qū)分度.我們將密度值905轉(zhuǎn)化為互信息和共現(xiàn)頻次的對應(yīng)區(qū)間為[0.8, 1.2]和[1.4,1.9].基于此,我們可以將第2.3節(jié)中語義關(guān)系搭配對的互信息和共現(xiàn)詞頻的閾值分別設(shè)置為1.2和2.經(jīng)過隨機抽取了一部分三元組,經(jīng)過人工分析發(fā)現(xiàn),采用上述方法所選擇的閾值是合理的.
圖6 互信息與共現(xiàn)頻次對語義關(guān)系搭配對的覆蓋趨勢圖Fig.6 The coverage trend fi gure of mutual information and co-occurrence frequency for semantic collocation
人工標注的數(shù)據(jù)集被認為是評價語義關(guān)系計算的“黃金標準”,本文的評測數(shù)據(jù)采用Finkelstein等[22]構(gòu)建的WordSimilarity-353(WS353)數(shù)據(jù)集. WS353數(shù)據(jù)集是英語語義計算研究中廣泛應(yīng)用的一個評測標準,其中包含353對詞語,是當前同類公共測試集中詞語量最大的數(shù)據(jù)集,每對詞語由13~16個人進行手工標注,其詞語之間的語義關(guān)系以0~10作為標注(0表示詞語完全不相關(guān),10表示詞語密切相關(guān)),最終的結(jié)果為人工標注的平均值.由于WS353數(shù)據(jù)集為英語的詞語對,因此我們采用人工翻譯的方法得到其對應(yīng)的ZWS353中文數(shù)據(jù)集,具體的翻譯策略如下:
首先,由兩名研究生進行獨立翻譯,在翻譯的過程中盡量參考HowNet的KDML描述語言中的字段和字段間的中英文對照,使得更多的詞語能夠匹配到HowNet中的概念.同時在翻譯的過程中,對于一個英文詞語對應(yīng)于HowNet中的多個中文概念的,取其中最為常見的一個概念,對于單字詞與多字詞,取多字詞對應(yīng)的概念.例如“tiger”在HowNet中對應(yīng)于4個概念,分別是:“大蟲”、“虎”、“老虎”、“戾蟲”,取其中最為常見的雙字詞概念“老虎”作為“tiger”的翻譯.
然后,由第三名研究生對前兩名研究生獨立翻譯結(jié)果進行對照檢查,標記出其認為不合適的翻譯.
最后,由三名研究生共同對第三名研究生標記的不合適的翻譯進行商討,確定最終的翻譯.
本文對于最終結(jié)果的評測采用斯皮爾曼等級相關(guān)系數(shù)(Spearman rank correlation,簡稱Spearman系數(shù))進行衡量,Spearman系數(shù)是用來估計兩個變量之間的相關(guān)性的,其取值在[?1,1]之間,其值越大,表示其相關(guān)性越大.采用本文算法的計算結(jié)果與人工標注的結(jié)果進行對比,求取兩者的Spearman系數(shù),其值越大,表示算法的計算結(jié)果與人工標注的結(jié)果越相似,可認為算法的正確性越好,同時本文也將采用Spearman系數(shù)與其他模型和方法進行比較,Spearman系數(shù)的計算方法如下.
假設(shè)存在兩個隨機變量X、Y,它們的元素個數(shù)均為n,其中Xi、Yi分別表示兩個隨機變量的第i個值(1≤i≤n).對X、Y進行排序(同時為升序或降序),得到X、Y的排序集合x、y,其中元素xi、yi分別為Xi、Yi在x、y中的排序序號,令di=xi?yi(1≤i≤n).則隨機變量X、Y之間的Spearman系數(shù)的計算如式(13)所示:
按照第2節(jié)所述的語義關(guān)系提取規(guī)則及語義關(guān)系圖的擴展策略,通過對HowNet(2012)以及《人民日報》(2000年)語料經(jīng)過處理,提取其中的語義關(guān)系三元組,構(gòu)造了語義關(guān)系圖.語義關(guān)系圖中包括的語義關(guān)系三元組共計836147條,語義關(guān)系種類共有168種,其中基于HowNet(2012)提取的語義關(guān)系三元組共有524921條,可以看出《人民日報》(2000年)語料對于語義關(guān)系圖的完善起到了很大的作用.
在我們構(gòu)建的詞語語義相關(guān)度計算模型中,語義連通路徑長度α和相似度閾值λ都是可調(diào)節(jié)的參數(shù).采用本文構(gòu)建的模型在ZWS353中文數(shù)據(jù)集進行測試,本文模型計算出的語義相關(guān)度與人工標注的語義相關(guān)度之間的Spearman系數(shù)隨著α和λ的變化如圖7和圖8所示,根據(jù)圖7和圖8中Spearman系數(shù)的變化趨勢,我們確定當α=6,λ=0.7時本文提出的模型的性能最好.
同時,從圖7中,可以看出,當語義連通路徑長度大于閾值后,隨著語義連通路徑長度的增大, Spearman系數(shù)會逐漸下降,這和我們構(gòu)建模型時,固定連通路徑長度的做法是高度吻合的,也證明了第3.2節(jié)中的規(guī)則3的正確性.從圖8中,可以看出,相似度閾值λ取得太高(大于0.7)會導(dǎo)致Spearman系數(shù)下降,這是因為過高的相似度閾值會導(dǎo)致很多相關(guān)度較低的詞語的相關(guān)度計算結(jié)果為0.
為了驗證本文模型的先進性,采用Spearman系數(shù)對在ZWS353中文數(shù)據(jù)集上的測試結(jié)果進行評測,并與現(xiàn)在的一些中英文詞語語義相關(guān)度計算模型進行對比,具體的結(jié)果如表2所示.
圖7 Spearman系數(shù)與語義連通路徑長度α關(guān)系Fig.7 The relationship between Spearman and semantic connected path length α
圖8 Spearman系數(shù)與相似度閾值λ的關(guān)系Fig.8 The relationship between Spearman and similarity threshold λ
在表2中,左邊的數(shù)據(jù)均是在翻譯的ZWS353中文數(shù)據(jù)集上進行的相關(guān)測評,右邊的數(shù)據(jù)則是在原始的WS353數(shù)據(jù)集上進行的相關(guān)測評.其中, LIU和WU都是利用HowNet中的義原層次體系計算詞語的語義相似度,以相似度替代相關(guān)度; TFIDF和COMB都是基于維基百科的顯性語義分析方法,把詞語表示為帶權(quán)重的概念向量,將詞語之間的相關(guān)性計算問題轉(zhuǎn)化為相應(yīng)的概念向量的比較,前者采用TFIDF作為詞與文檔的關(guān)聯(lián)程度的度量,而后者是引入了中文維基百科頁面的先驗概率; ICLinkBased和ICSubCategoryNodes都是基于維基百科的層次分類體系來計算詞語相關(guān)度,其中ICLinkBased考慮的是維基百科之間的鏈接關(guān)系在其他文章中出現(xiàn)的頻率,而ICSubCategoryNodes考慮的是維基百科類別的子節(jié)點個數(shù);WLM是基于維基百科鏈接關(guān)系的語義相關(guān)度計算方法,將詞語映射到維基百科中的概念,通過概念的文章之間的相關(guān)度來表示詞語之間的語義相關(guān)度;WLT是結(jié)合維基百科的鏈接關(guān)系與分類體系來進行詞語語義相關(guān)度計算的.對于英語的詞語相關(guān)度計算,WUP、J&C、Lin和Resnik都是從手動構(gòu)造的詞典(如WordNet)中提取詞語的相關(guān)信息進行詞語的相關(guān)度計算;LSA、ESA和SSA是將詞語映射到維基百科中的相應(yīng)文章,采用統(tǒng)計的方法來計算詞語的語義相關(guān)度;而WTMGW是結(jié)合詞典和語料庫來進行詞語相關(guān)度計算,首先采用WordNet進行相關(guān)度的初始化,然后采用語料庫的統(tǒng)計信息進行迭代計算,最終獲取詞語的語義相關(guān)度.
表2 不同方法的Spearman系數(shù)比較Table 2 The comparison of Spearman in diあerent methods
在我們的模型中,HN表示只采用HowNet構(gòu)建語義關(guān)系圖,進行詞語的相關(guān)度計算,DSR表示只采用大規(guī)模語料庫進行依存語法分析,構(gòu)建語義關(guān)系圖進行詞語的相關(guān)度計算,而HN+DSR是將兩者結(jié)合,進行詞語的語義相關(guān)度計算.
從表2我們可以看出,無論是英語還是漢語,基于大規(guī)模語料的方法都要優(yōu)于基于詞典的方法,尤其是加入維基百科語料的COMB、WLM、WLN模型對中文詞語語義相關(guān)度的計算都有很大幅度的提高,其Spearman系數(shù)基本都穩(wěn)定在0.5左右,其中COMB和WLT甚至超過了0.5;在英語中,基于大規(guī)模語料模型的Spearman系數(shù)都達到了0.5以上.同時,采用詞典與語料相結(jié)合的方法取得了各種模型的最好效果,英語中WTMGW的Spearman系數(shù)達到了最高的0.75,本文提出的模型也達到了0.5358,為中文模型中的最優(yōu).
同時,在我們的模型中,HN模型與DSR模型的性能低于HN+DSR模型,并且HN模型的性能低于DSR模型,這與上面分析出的基于大規(guī)模語料的方法優(yōu)于基于詞典的方法且詞典與語料相結(jié)合的方法效果最好的結(jié)論是吻合的.在我們的模型中,采用的詞典為HowNet,由于HowNet是一個常識知識庫,因此從HowNet中提取出的語義關(guān)系覆蓋面比較廣,但與實際的語言使用情況有一定的差異.而對于《人民日報》采用依存語法分析,提取出的語義關(guān)系比較貼近于真實的語言使用環(huán)境,但具有一定的領(lǐng)域性.在HN+DSR模型中,對于一些在實際語言環(huán)境中經(jīng)常使用的相關(guān)詞語搭配,其相關(guān)度的計算主要來自于對大規(guī)模語料進行依存語法的分析得到的語義關(guān)系,例如:“新年”和“音樂會”兩個詞語在通過HowNet構(gòu)建的語義關(guān)系圖中并不存在語義連通路徑,但通過對語料庫的依存語法分析發(fā)現(xiàn)兩者是存在語義關(guān)系的:(音樂會、新年、Nmod)(其中,Nmod表示名字修飾角色的語義關(guān)系);但是,對于一些反義、對義、同義、上下位關(guān)系及屬性和屬性值之間的關(guān)系,由于HowNet中有專門的描述文件,對于這方面的詞語語義相關(guān)度計算起到了不少的作用.
另外,我們也可以看出,雖然是類似的模型,但中文模型的性能要略差于英文模型.本文的模型與英文中的WTMGW模型的性能也有很大的差距,甚至與英文中基于語料庫的模型也有一些差距,其主要原因可能是在對WS353數(shù)據(jù)集的翻譯過程中引入了誤差.因為翻譯的過程中,很多英文單詞在翻譯為中文時,對應(yīng)著很多的中文翻譯,而且各個翻譯之間的差距很大,很難取舍,例如:單詞“stock”,對應(yīng)到HowNet中的概念有“庫存”、“儲備”、“供應(yīng)”、“股票”、“股份”、“原湯”、“砧木”,這些給我們的翻譯造成了一定的阻礙,也給我們實驗的性能造成了干擾.
為了進一步驗證本文模型的可用性,我們從構(gòu)建的語義關(guān)系圖中抽取了10個實詞,每兩個組成一組測試數(shù)據(jù),構(gòu)建了一個包含100組詞語對的實際測試數(shù)據(jù)集,采用HN+DSR模型進行測試,其部分實驗結(jié)果如表3所示.
表3 語義相關(guān)度計算的實驗結(jié)果Table 3 The experimental result of semantic relatedness computation
由表3中數(shù)據(jù)可以看出,絕大部分結(jié)果還是比較符合習慣上對相關(guān)度的主觀判斷的,且實驗結(jié)果比較平穩(wěn),不會出現(xiàn)極端值的問題.但從實驗結(jié)果也可以看出,部分結(jié)果還不夠理想,例如:“滑冰”和“法庭”的相關(guān)度比“足球比賽”和“法庭”的相關(guān)度稍高.導(dǎo)致部分相關(guān)度不太準確的原因主要有以下幾點:
1)HowNet中有些詞語的義原描述不夠合理,導(dǎo)致詞語間的語義關(guān)系產(chǎn)生了誤差.如“比分”的第一義原為“符號”,這將會導(dǎo)致“比分”和“符號”兩個詞的相關(guān)度計算結(jié)果的偏差.
2)在通過語義依存分析器分析《人民日報》語料,可能會分析出一些錯誤的語義依存搭配關(guān)系,同時,還有一些詞語在某些特定的語義情況下存在語義依存關(guān)系,但其本身的語義相關(guān)度并不大,例如:在《人民日報》語料中存在大量類似“新華社北京十二月三十一日電”的語句,在這樣的語義環(huán)境中,“新華社”和“電”存在Orig(源事關(guān)系)語義關(guān)系,但其兩者之間的語義相關(guān)性并不強烈.
3)雖然本文的模型綜合使用了語義詞典和大規(guī)模的語料庫,有效地避免了兩種模型單獨使用時的某些弊端,但是依然存在數(shù)據(jù)資源有限、數(shù)據(jù)稀疏、詞義漂移等問題,這些為詞語語義相關(guān)度的計算造成了干擾.
本文在分析現(xiàn)有的詞語語義相關(guān)度計算模型的基礎(chǔ)上,提出了一種語義詞典和語料庫資源相結(jié)合的詞語語義相關(guān)度計算模型.首先,以HowNet中概念與概念之間以及概念所具有的屬性之間的語義關(guān)系和大規(guī)模語料中統(tǒng)計出的詞語語義依存關(guān)系為基礎(chǔ),構(gòu)建了一張語義關(guān)系圖,然后,利用圖論的相關(guān)算法和理論對語義關(guān)系圖中的語義依存關(guān)系進行處理,提出了一種基于語義關(guān)系圖的詞語語義相關(guān)度計算模型.實驗表明,本文模型計算得到的詞語語義相關(guān)度結(jié)果較為合理.
在接下來的工作中,我們計劃增大語料庫的數(shù)據(jù)量,進一步豐富語義關(guān)系圖中的語義關(guān)聯(lián)信息,探索更為直接的語義三元組獲取方法,避免由于語義詞典和語義依存分析的錯誤傳遞而導(dǎo)致詞語語義相關(guān)度計算的偏差,同時更進一步地完善詞語語義相似度的計算模型,期望得到更加真實有效的詞語語義相關(guān)度.
1 Gracia J,Mena E.Web-based measure of semantic relatedness.In:Proceedings of the 9th International Conference on Web Information Systems Engineering.Auckland,New Zealand:Springer,2008.136?150
2 Resnik P.Using information content to evaluate semantic similarity in a taxonomy.In:Proceedings of the 14th International Joint Conference on Arti fi cial Intelligence.Montreal,Quebec,Canada:Morgan Kaufmann Publishers Inc., 1995.448?453
3 Liu H W,Xu J J,Zheng K,Liu C F,Du L,Wu X. Semantic-aware query processing for activity trajectories. In:Proceedings of the 10th ACM International Conference on Web Search and Data Mining.Cambridge,UK:ACM, 2017.283?292
4 Ensan F,Bagheri E.Document retrieval model through semantic linking.In:Proceedings of the 10th ACM International Conference on Web Search and Data Mining.Cambridge,UK:ACM,2017.181?190
5 Liu Kang,Zhang Yuan-Zhe,Ji Guo-Liang,Lai Si-Wei, Zhao Jun.Representation learning for question answering over knowledge base:an overview.Acta Automatica Sinica, 2016,42(6):807?818 (劉康,張元哲,紀國良,來斯惟,趙軍.基于表示學(xué)習的知識庫問答研究進展與展望.自動化學(xué)報,2016,42(6):807?818)
6 Zhang Y M,Iwaihara M.Evaluating semantic relatedness through categorical and contextual information for entity disambiguation.In:Proceedings of the IEEE/ACIS 15th International Conference on Computer and Information Science.Okayama,Japan:IEEE,2016.1?6
7 Li C,Bendersky M,Garg V,Ravi S.Related event discovery. In:Proceedings of the 10th ACM International Conference on Web Search and Data Mining.Cambridge,UK:ACM, 2017.355?364
8 Arab M,Jahromi M Z,Fakhrahmad S M.A graph-based approach to word sense disambiguation.An unsupervised method based on semantic relatedness.In:Proceedings of the 24th Iranian Conference on Electrical Engineering.Shiraz,Iran:IEEE,2016.250?255
9 Xin Yu,Xie Zhi-Qiang,Yang Jing.Semantic community detection research based on topic probability models.ActaAutomatica Sinica,2015,41(10):1693?1710 (辛宇,謝志強,楊靜.基于話題概率模型的語義社區(qū)發(fā)現(xiàn)方法研究.自動化學(xué)報,2015,41(10):1693?1710)
10 Budanitsky A,Hirst G.Evaluating WordNet-based measures of lexical semantic relatedness.Computational Linguistics,2006,32(1):13?47
11 Taieb M A,Aouicha M B,Hamadou A B.A new semantic relatedness measurement using WordNet features.Knowledge and Information Systems,2014,41(2):467?497
12 Liu Qun,Li Su-Jian.Word similarity computing based on HowNet.Computational Linguistics,2002,7(2):59-76 (劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算.中文計算語言學(xué),2002,7(2):59?76)
13 Zhang P Y.A HowNet-based semantic relatedness kernel for text classi fi cation.TELKOMNIKA,2013,11(4): 1909?1915
14 Zhang G P,Yu C,Cai D F,Song Y,Sun J G.Research on concept-sememe tree and semantic relevance computation.In:Proceedings of the 20th Paci fi c Asia Conference on Language,Information and Computation.Wuhan,China: Tsinghua University Press,2006.398?402
15 Tian Xuan,Du Xiao-Yong,Li Hai-Hua.Computing termconcept association in semantic-based query expansion.Journal of Software,2008,19(8):2043?2053 (田萱,杜小勇,李海華.語義查詢擴展中詞語–概念相關(guān)度的計算.軟件學(xué)報,2008,19(8):2043?2053)
16 Ye F Y,Zhang F,Luo X F,Xu L Y.Research on measuring semantic correlation based on the Wikipedia hyperlink network.In:Proceedings of the IEEE/ACIS 12th International Conference on Computer and Information Science.Niigata, Japan:IEEE,2013.309?314
17 Wan Fu-Qiang,Wu Yun-Fang.Computing lexical semantic relatedness with Chinese Wikipedia.Journal of Chinese Information Processing,2013,27(6):31?38 (萬富強,吳云芳.基于中文維基百科的詞語語義相關(guān)度計算.中文信息學(xué)報,2013,27(6):31?38)
18 Wang Hong-Xian,Zhou Qiang,Wu Xiao-Jun.The automatic construction of lexical semantic relationship graph based on HowNet.Journal of Chinese Information Processing,2008,22(5):90?96 (王宏顯,周強,鄔曉鈞.《知網(wǎng)》語義關(guān)系圖的自動構(gòu)建.中文信息學(xué)報,2008,22(5):90?96)
19 Zheng Li-Juan,Shao Yan-Qiu,Yang Er-Hong.Analysis of the non-projective phenomenon in Chinese semantic dependency graph.Journal of Chinese Information Processing, 2014,28(6):41?47 (鄭麗娟,邵艷秋,楊爾弘.中文非投射語義依存現(xiàn)象分析研究.中文信息學(xué)報,2014,28(6):41?47)
20 Zhang Yang-Sen,Zheng Jia.Study of semantic error detecting method for Chinese text.Chinese Journal of Computers, 2016,39,Online Publishing No.122 (張仰森,鄭佳.中文文本語義錯誤偵測方法研究.計算機學(xué)報, 2016,39,在線出版號No.122)
21 Zhang Hu-Yin,Liu Dao-Bo,Wen Chun-Yan.Research on improved algorithm of word semantic similarity based on HowNet.Computer Engineering,2015,41(2):151?156 (張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語語義相似度改進算法研究.計算機工程,2015,41(2):151?156)
22 Finkelstein L,Gabrilovich E,Matias Y,Rivlin E,Solan Z, Wolfman G,Ruppin E.Placing search in context:the concept revisited.ACM Transactions on Information Systems, 2002,20(1):116?131
23 Wang Xiang,Jia Yan,Zhou Bin,Ding Zhao-Yun,Liang Zheng.ComputingsemanticrelatednessusingChinese Wikipedia links and taxonomy.Journal of Chinese Computer Systems,2011,32(11):2237?2242 (汪祥,賈焰,周斌,丁兆云,梁政.基于中文維基百科鏈接結(jié)構(gòu)與分類體系的語義相關(guān)度計算.小型微型計算機系統(tǒng),2011,32(11): 2237?2242)
24 Liu B Q,Feng J,Liu M,Liu F,Wang X L,Li P.Computing semantic relatedness using a word-text mutual guidance model.In:Proceedings of the 3rd CCF Conference on Natural Language Processing and Chinese Computing.Shenzhen, China:Springer,2014.67?78