• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合語境與布朗聚類特征的上下位關(guān)系驗(yàn)證

      2015-01-06 08:21:05張志昌陳松毅馬慧芳
      計(jì)算機(jī)工程 2015年2期
      關(guān)鍵詞:評測布朗語義

      張志昌,陳松毅,劉 鑫,馬慧芳

      (西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)

      結(jié)合語境與布朗聚類特征的上下位關(guān)系驗(yàn)證

      張志昌,陳松毅,劉 鑫,馬慧芳

      (西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)

      對海量文本語料進(jìn)行上下位語義關(guān)系自動(dòng)抽取是自然語言處理的重要內(nèi)容,利用簡單模式匹配方法抽取得到候選上下位關(guān)系后,對其進(jìn)行驗(yàn)證過濾是難點(diǎn)問題。為此,分別通過對詞匯語境相似度與布朗聚類相似度計(jì)算,提出一種結(jié)合語境相似度和布朗聚類相似度特征對候選下位詞集合進(jìn)行聚類的上下位關(guān)系驗(yàn)證方法。通過對少量已標(biāo)注訓(xùn)練語料的語境相似度和布朗聚類相似度進(jìn)行計(jì)算,得到驗(yàn)證模型和2種相似度的結(jié)合權(quán)重系數(shù)。該方法無需借助現(xiàn)有的詞匯關(guān)系詞典和知識(shí)庫,可對上下位關(guān)系抽取結(jié)果進(jìn)行有效過濾。在CCF NLP&2012詞匯語義關(guān)系評測語料上進(jìn)行實(shí)驗(yàn),結(jié)果表明,與模式匹配和上下文比較等方法相比,該方法可使F值指標(biāo)得到明顯提升。

      上下位關(guān)系;語境相似度;布朗聚類相似度;點(diǎn)互信息;模式匹配;聚類驗(yàn)證

      1 概述

      詞匯上下位關(guān)系是指詞匯概念之間在語義上的從屬關(guān)系,即給定概念A(yù)和B,若A的外延包含B的外延,則認(rèn)為A和B具有上下位關(guān)系,即A是B的上位概念,B是A的下位概念,這種關(guān)系也被稱作“is-a”關(guān)系,記作ISA(B,A)。例如,“中國是一個(gè)國家”,則“國家”是“中國”的上位概念,即ISA(中國,國家)。這種語義上的詞匯上下位關(guān)系在本體知識(shí)庫構(gòu)建、機(jī)器翻譯、自動(dòng)問答等自然語言領(lǐng)域的相關(guān)應(yīng)用中起著重要的作用。自文獻(xiàn)[1]開始,已有很多關(guān)于上下位關(guān)系自動(dòng)抽取的研究。但多數(shù)抽取方法都面臨一個(gè)重要問題:如何驗(yàn)證抽取到的一組候選上下位關(guān)系詞匯實(shí)例是否真正屬于同一個(gè)語義類,即候選上下位關(guān)系的驗(yàn)證問題[2-3]。

      本文提出一種基于統(tǒng)計(jì)并且無指導(dǎo)的詞匯上下位關(guān)系驗(yàn)證方法。利用簡單的模式匹配方法獲得候選的詞匯上下文關(guān)系后,通過計(jì)算詞匯語境相似度和布朗聚類的相似度,將兩者進(jìn)行結(jié)合作為新的相似度特征,通過對上位詞的全部候選下位詞進(jìn)行K-means聚類來對候選上下位關(guān)系進(jìn)行驗(yàn)證和選擇。

      2 相關(guān)研究

      對已有的研究成果進(jìn)行總結(jié),可將詞匯上下位關(guān)系自動(dòng)抽取的方法大致分為以下3類:

      (1)基于模式匹配的方法

      該方法以文獻(xiàn)[1]的研究為代表,主要根據(jù)特定語言的使用習(xí)慣,將人工設(shè)置的多種匹配模式在大語料中進(jìn)行匹配來獲取上下位關(guān)系。例如:設(shè)置模式形如“Bis a A”,“Bis a kind ofA”,“B,Cand otherA”等(中文模式如:“B是一個(gè)/類/種A”等)。該方法有不同的變體,如文獻(xiàn)[4]使用模式自舉方法,而文獻(xiàn)[5]使用了詞性模板。該方法實(shí)現(xiàn)簡單,并且模式的形式符合語言使用習(xí)慣,容易理解。但由于模式是由人來構(gòu)造,模式的形式單一,只能覆蓋部分詞匯的表達(dá)形式,因此存在稀疏性問題[6],導(dǎo)致系統(tǒng)的準(zhǔn)確率和召回率相對偏低。

      (2)基于語義詞典、知識(shí)庫的方法

      目前廣泛使用的語義詞典、在線百科等知識(shí)庫中都含有同義、反義、上下位關(guān)系等語義信息(英文有WordNet[7],Wikipedia,Freebase等,中文有HowNet、百度百科、互動(dòng)百科等)。許多語義關(guān)系的抽取研究借助于此類語義詞典、知識(shí)庫所包含的語義信息[6,8]。但由于此類語義詞典的構(gòu)建多由人工參與,耗時(shí)耗力,因此往往其知識(shí)覆蓋范圍非常有限,且實(shí)時(shí)性較弱,無法及時(shí)體現(xiàn)最新的語言現(xiàn)象。

      (3)基于統(tǒng)計(jì)的方法

      這類方法基于統(tǒng)計(jì)思想,通過機(jī)器學(xué)習(xí)方法構(gòu)建語義模型,應(yīng)用分類等數(shù)據(jù)挖掘技術(shù)計(jì)算不同概念之間的相關(guān)程度來獲取上下位關(guān)系。文獻(xiàn)[9]運(yùn)用依存句法構(gòu)建語義模型,通過SVM進(jìn)行分類來抽取上下位關(guān)系,文獻(xiàn)[10]運(yùn)用了一種非線性概率模型,文獻(xiàn)[11]構(gòu)建了概念空間,并運(yùn)用了潛在語義分析。該類方法越來越普遍地使用在語義關(guān)系抽取任務(wù)中。該類方法普遍基于以下假設(shè):語義相似的概念出現(xiàn)在相似的上下文之中。

      針對已有方法的特點(diǎn)和不足,本文提出一種基于統(tǒng)計(jì)并且無指導(dǎo)的詞匯上下位關(guān)系驗(yàn)證方法,該方法和已有方法的區(qū)別在于:(1)利用無指導(dǎo)的聚類方法對上下位關(guān)系進(jìn)行驗(yàn)證選擇;(2)將聚類所用的相似度特征在傳統(tǒng)的語境相似度的基礎(chǔ)上結(jié)合了詞匯的布朗聚類相似度。

      3 候選上下位關(guān)系的獲取

      借鑒文獻(xiàn)[12]方法,本文對候選上下位關(guān)系的獲取方法進(jìn)行了擴(kuò)展,其實(shí)質(zhì)是一種改良的基于模式匹配的方法。根據(jù)中文語法特點(diǎn)構(gòu)造表1中的模式,然后利用搜索引擎索抽取大量能夠匹配該模式的上下位候選上下位關(guān)系詞對。在表1中,模式1為基本模式,模式2~模式4為模式1的擴(kuò)展模式,即通過擴(kuò)展模式對基本模式獲得的抽取結(jié)果進(jìn)行自舉擴(kuò)展。

      表1 上下位關(guān)系抽取模式

      抽取算法如下:

      輸入上位詞C,閾值R(本文設(shè)R=5)

      輸出與C對應(yīng)的實(shí)例集合IS=[I1,I2,…,In]

      步驟1通過模式1在搜索引擎中進(jìn)行查詢獲得支持句。從而獲得候選上下位關(guān)系詞對,放入集合IS?。

      步驟2對于集合IS?的每個(gè)元素,分別根據(jù)模式2~模式4構(gòu)造相應(yīng)的查詢字符串,獲得相應(yīng)的擴(kuò)展支持句,并從中獲得擴(kuò)展后的上下位關(guān)系候選詞對。

      步驟3統(tǒng)計(jì)擴(kuò)展詞的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于閾值R次的詞語放入集合IS中。

      步驟4重復(fù)步驟2~步驟3,直到擴(kuò)展詞數(shù)量不再明顯增加。

      通過抽取算法可以獲得一定數(shù)量的候選上下位關(guān)系。通過實(shí)驗(yàn)可知,對獲取結(jié)果進(jìn)行自舉擴(kuò)展對召回率有較大的提高,但同時(shí)又增加了錯(cuò)誤結(jié)果的數(shù)量,準(zhǔn)確率大大降低。因此,為有效提高準(zhǔn)確率,本文提出一種基于語境特征與布朗聚類相結(jié)合的上下位關(guān)系驗(yàn)證方法,用于對模式匹配的結(jié)果進(jìn)行驗(yàn)證過濾。

      4 語境與布朗聚類特征結(jié)合的關(guān)系驗(yàn)證

      將詞匯的語境相似度特征和布朗聚類相似度特征結(jié)合起來,通過聚類進(jìn)行詞匯的上下位關(guān)系驗(yàn)證,也是基于分布假設(shè),即語義相似的概念出現(xiàn)在相似的上下文中。根據(jù)聚類理論:同一類別中的對象相似度較高,而不同類別中的對象相似度較小。同理,在候選上下位關(guān)系中,具有相同類別候選詞的相似度較高,反之,相似度較低。

      基于上述分析,本文將K-means聚類作為候選上下位關(guān)系的驗(yàn)證方法。在聚類過程中所使用的相似度分別為語境相似度、布朗聚類相似度和兩者加權(quán)調(diào)和平均結(jié)合之后的相似度。

      4.1 語境相似度特征

      每個(gè)實(shí)體詞在自然文本中都有各自的使用環(huán)境,即語境。語境即言語環(huán)境,分為狹義和廣義2種。狹義的語境是指書面語的上下文或口語的前言后語所形成的言語環(huán)境。后者則是指言語表達(dá)時(shí)的具體環(huán)境(既可指具體場合、也可指社會(huì)環(huán)境)。本文使用的詞匯語境是指前者,即自然文本中的上下文信息。例如,“國家”一詞常常出現(xiàn)在“舉辦”、“經(jīng)濟(jì)”等語境詞之中,“中國”和“國家”有著相似的語境,但“中國人”跟“國家”的語境就有很大區(qū)別。如果可以獲得概念的語境信息,就可以利用該信息對相應(yīng)的上下位關(guān)系進(jìn)行驗(yàn)證,從而過濾錯(cuò)誤結(jié)果。

      鑒于點(diǎn)互信息(Point Mutual Information,PMI)能較好地反映詞匯與特征之間的共現(xiàn)關(guān)系,本文采用點(diǎn)互信息來選擇和衡量詞的語境特征及其權(quán)重,對詞的語境信息進(jìn)行量化建模。詞匯wi與上下文語境特征fj之間的點(diǎn)互信息定義為:

      其中,P(wi,fj)是詞wi和上下文語境特征fj的共現(xiàn)概率;P(wi)和P(fj)分別是詞的出現(xiàn)概率,它們均可從語料庫中用最大似然估計(jì)得到。

      首先,通過點(diǎn)互信息值構(gòu)造出目標(biāo)詞的語境特征詞集合。本文通過對大量文本語料進(jìn)行統(tǒng)計(jì),取得與目標(biāo)詞互信息值最大的前20個(gè)詞,并將這些詞作為目標(biāo)詞的語境特征詞,記作CF(T)。CF(T)是一個(gè)詞集合,例如,“體育運(yùn)動(dòng)”的語境特征詞如表2所示。

      表2 “體育運(yùn)動(dòng)”的語境特征詞集合

      根據(jù)向量空間模型可以構(gòu)造該詞的語境特征向量Tcf=(w1,t,w2,t,…,wN,t),其中,權(quán)重值wN,t為在目標(biāo)詞和第n維上的語境特征詞之間的點(diǎn)互信息值;N為詞匯表中的詞量。本文通過計(jì)算2個(gè)語境特征向量的余弦相似度值來得到兩詞之間的語境相似度,即:

      4.2 布朗聚類相似度特征

      聚類方法是數(shù)據(jù)挖掘中通過特征進(jìn)行無監(jiān)督分類的有效方法。本文首先使用布朗聚類計(jì)算出各個(gè)候選下位詞的前綴編碼[13],得到候選詞間布朗相似度,然后使用K-Means聚類方法進(jìn)行多次聚類,通過計(jì)算上位詞與每個(gè)候選詞子集的距離,選擇距離更近的一個(gè),即可達(dá)到上下位關(guān)系驗(yàn)證的目的。

      布朗聚類算法是文獻(xiàn)[13]提出的一種基于純文本的以詞為處理單位的聚類算法。該方法用于分析未標(biāo)注的大語料詞匯聚合分布情況,并根據(jù)詞分布相似度對詞進(jìn)行聚類。

      定義分類器C,C:V→{1,2,…,k}表示C將V中的詞劃分為k類,其中,V為詞匯表。

      布朗聚類模型定義如下:

      其中,w1,w2,…,wn是自然句詞序列;e表示在wi的分類下產(chǎn)生詞wi的概率;q表示wi-1出現(xiàn)后接wi的概率,即:

      根據(jù)以上定義,將分類器評價(jià)函數(shù)定義為:

      其中,G為常數(shù)。

      通過對語料進(jìn)行布朗聚類分析,可得每個(gè)詞的前綴編碼(記為M(word)),在此基礎(chǔ)上可構(gòu)造一顆分類樹。根據(jù)分布假設(shè)可以知,具有相似前綴碼的詞的語義相似度較高,即分享同一個(gè)節(jié)點(diǎn)的詞的語義相似度較高。所以,對于每一個(gè)從模式支持句中獲得的候選上下位關(guān)系候選,本文使用候選詞之間的布朗聚類相似度SimBrown(A,B)進(jìn)行驗(yàn)證過濾。

      定義A,B節(jié)點(diǎn)距離為NodeDis(A,B):

      其中,BLSS(M(A),M(B))表示A和B前綴碼從根開始的最長連續(xù)公共子序列;Len(S)代表序列長度。

      通過節(jié)點(diǎn)距離,本文定義兩節(jié)點(diǎn)布朗聚類相似度為:

      4.3 語境和布朗聚類結(jié)合的相似度特征

      除了利用語境相似度(SimCF)和布朗聚類相似度(SimBrown)作為K-means聚類的相似度特征,對候選上下位關(guān)系進(jìn)行聚類驗(yàn)證之外,本文提出一種基于2種相似度相結(jié)合的新的相似度特征計(jì)算方法。該方法采用加權(quán)調(diào)和平均的方式結(jié)合了語境、布朗2種相似度。具體的結(jié)合公式如下:

      其中,α是結(jié)合系數(shù)。

      通過式(9)計(jì)算出的候選上下位關(guān)系相似度值越高,則目標(biāo)候選上下位關(guān)系屬于正確關(guān)系的概率也就越大。所以,參數(shù)α優(yōu)化過程的實(shí)質(zhì)為使得∑AllSimilarity(A,B)最大化的過程。通過訓(xùn)練可知,α=0.595時(shí)獲得最佳效果。

      以結(jié)合相似度為例,選擇上位詞“主食”和其候選下位詞,如表3所示。

      表3 “主食”的候選下位詞集合

      將候選下位詞集合中的所有詞基于式(9)所得的相似度進(jìn)行K-means聚類(本文取K=2),可得到如圖1所示的散點(diǎn)圖,該圖體現(xiàn)點(diǎn)間距離的聚合關(guān)系,其坐標(biāo)無實(shí)義。

      圖1 “主食”的候選下位詞集合聚類散點(diǎn)圖

      從圖1可得候選詞集合的2個(gè)子集。定義上位詞與候選詞子集距離如下:

      其中,[B1,B2,…,Bn]是上位詞A的下位詞集合。

      通過式(10)計(jì)算上位詞與每個(gè)候選詞子集的距離,選擇距離更近的一個(gè),并對結(jié)果進(jìn)行多次迭代過濾,即可達(dá)到候選上下位關(guān)系驗(yàn)證過濾的目的。

      5 實(shí)驗(yàn)結(jié)果與分析

      5.1 評測語料與評價(jià)標(biāo)準(zhǔn)

      本文采用CCF NLP&CC 2012語義關(guān)系識(shí)別標(biāo)準(zhǔn)評測集作為詞匯上下位關(guān)系驗(yàn)證方法的訓(xùn)練和評測語料。該評測集包含256個(gè)上位詞和分別與之對應(yīng)的5 718個(gè)下位詞。評測集的數(shù)據(jù)來源包括普通詞典、百科詞條、敘詞表等多種資源。詞匯的詞性包括普通名詞和專有名詞。評測集格式如表4所示。

      表4 CCF NLP&CC 2012標(biāo)準(zhǔn)評測集中“廟號(hào)”的下位詞

      本文將評測集等分為訓(xùn)練集和測試集2個(gè)部分,每部分各有128個(gè)上位詞,分別用于結(jié)合權(quán)重系數(shù)α的確定訓(xùn)練和方法的驗(yàn)證測試。

      評測方法使用CCF NLP&CC 2012語義關(guān)系識(shí)別中的評測方法[14]。對抽取到的候選中文詞匯上下位關(guān)系進(jìn)行驗(yàn)證過濾,然后對結(jié)果采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)3個(gè)評測指標(biāo)進(jìn)行評價(jià)。

      5.2 權(quán)重系數(shù)α的確定

      單個(gè)上位詞與其對應(yīng)下位詞相似度計(jì)算公式如下:

      其中,Qk為k個(gè)詞相似度。

      在計(jì)算出訓(xùn)練集中所有128個(gè)上位詞與它們分別對應(yīng)的下位詞的語境特征相似度、布朗聚類相似度之后,可計(jì)算出訓(xùn)練集中所有上位詞與其對應(yīng)下位詞的結(jié)合相似度值,公式如下:

      根據(jù)訓(xùn)練集計(jì)算出所有的SimCF(Ak,Bk,i)和SimBrown(Ak,Bk,i)之后,式(12)就成為了關(guān)于α的函數(shù)。依照上文分析,為使Q128最大,對該函數(shù)求導(dǎo),且令Q’=0,所獲得的極值點(diǎn),即最優(yōu)的α值:

      令Xik=SimCF(Ak,Bik),Yik=SimBrown(Ak,Bik),則有:

      根據(jù)訓(xùn)練集數(shù)據(jù)(128個(gè)上位詞),計(jì)算可得α= 0.595。

      5.3 結(jié)果分析

      綜合上述方法,對CCF NLP&CC 2012語義關(guān)系識(shí)別評測集中的上位詞(即測試集中的128個(gè)詞)做上下位關(guān)系抽取。本文使用搜狗實(shí)驗(yàn)室2012年發(fā)布的全網(wǎng)新聞數(shù)據(jù)和搜狐新聞數(shù)據(jù)(http://www. sogou.com/labs/resources.html)作為下位詞抽取的主要數(shù)據(jù)來源,以訓(xùn)練語境特征模型和布朗聚類模型。該數(shù)據(jù)集為2012年6月-2012年7月國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù),共包含2 623 521篇文檔。

      首先用模式匹配和模式自舉的方法抽取下位詞,對獲得的候選上下位關(guān)系集合進(jìn)行性能評測,評測結(jié)果如表5所示。

      表5 基于模式匹配的上下位關(guān)系抽取結(jié)果

      由表5可以看出,通過模式匹配抽取上下位關(guān)系的方法可以獲得較多的候選結(jié)果,獲得相對較高的召回率,但準(zhǔn)確率很低。通過對抽取結(jié)果進(jìn)行進(jìn)一步的自舉擴(kuò)展,召回率方面獲得了約10%的提升,但準(zhǔn)確率進(jìn)一步下降。說明模式自舉擴(kuò)展方法在提升召回率的同時(shí)使得錯(cuò)誤結(jié)果數(shù)量也同時(shí)增大。

      在模式匹配方法獲取的候選結(jié)果基礎(chǔ)上,本文分別使用語境特征相似度聚類驗(yàn)證方法、布朗聚類相似度聚類驗(yàn)證方法和二者結(jié)合的相似度特征聚類方法,對測試集進(jìn)行驗(yàn)證過濾,不同方法的性能對比如表6所示。

      表6 不同上下位關(guān)系驗(yàn)證方法的性能對比

      從表6可知,對候選上下位關(guān)系分別進(jìn)行基于語境特征相似度的聚類驗(yàn)證和基于布朗聚類相似度的聚類驗(yàn)證,抽取結(jié)果的準(zhǔn)確率和F值均獲得較大幅度的提升。但2種相似度特征結(jié)合后獲得了比單一特征方法更好的效果,即證明了結(jié)合語境相似度和布朗聚類相似度為特征的上下位關(guān)系聚類驗(yàn)證方法的有效性。

      將本文方法與其他參與了CCF NLP&CC 2012語義關(guān)系識(shí)別評測的中科院聲學(xué)所等5種系統(tǒng)[15]進(jìn)行比較,不同系統(tǒng)的方法性能比較情況如表7所示。

      表7 本文方法與其他系統(tǒng)的方法評測結(jié)果對比

      由表7可見,在參與該次評測的所有方法中,方法5所使用方法在F值上取到了較好的性能,該方法主要是通過使用維基百科和百度百科等現(xiàn)有的開放語義資源,并結(jié)合模板匹配和復(fù)合詞拆解的方法得到了較高的準(zhǔn)確率和召回率??梢哉J(rèn)為該方法是一種基于現(xiàn)有知識(shí)詞庫和在線百科的上下位關(guān)系抽取方法。而本文所提出的方法無需借助現(xiàn)有上下位關(guān)系詞庫和在線百科,同樣達(dá)到了較好的性能。

      另外,由于測評結(jié)果根據(jù)CCF NLP&CC 2012語義關(guān)系所使用的標(biāo)準(zhǔn)評測集所判定,但該標(biāo)準(zhǔn)評測集中所包含的上下位關(guān)系相對有限,從而導(dǎo)致結(jié)果測試指標(biāo)普遍偏低。例如,“傳輸協(xié)議”一詞在標(biāo)準(zhǔn)集中的下位詞集合與本文抽取結(jié)果對比如圖2所示。由圖2可見,在使用本文抽取方法獲得的結(jié)果中只有“網(wǎng)絡(luò)傳輸協(xié)議”一詞出現(xiàn)在標(biāo)準(zhǔn)評測集中,而根據(jù)人工評測,本文方法抽取到了更多的正確結(jié)果。因此,CCF NLP&&CC 2012的評測集對上下位關(guān)系的覆蓋并不完備。鑒于此,筆者對本文方法抽取結(jié)果進(jìn)行了人工評測(僅計(jì)算準(zhǔn)確率),評測結(jié)果如表8所示。

      圖2 “傳輸協(xié)議”在標(biāo)準(zhǔn)評測集中的下位詞集合與本文抽取結(jié)果對比

      表8 人工評測結(jié)果

      6 結(jié)束語

      詞匯的上下位關(guān)系在自然語言處理領(lǐng)域有著重要的應(yīng)用價(jià)值。本文提出一種結(jié)合語境相似度特征和布朗聚類相似度特征的詞匯上下位關(guān)系聚類驗(yàn)證方法,該方法在模式匹配方法抽取結(jié)果的基礎(chǔ)上對上下位關(guān)系進(jìn)行驗(yàn)證過濾。在CCF NLP&CC 2012評測語料上的實(shí)驗(yàn)結(jié)果表明,該方法實(shí)現(xiàn)簡單,同時(shí)可取得較好的效果。

      本文方法的不足在于語境特征提取過程和布朗聚類過程所需時(shí)間較長,且由于中文普遍存在的分詞(詞組)問題也對結(jié)果有較大的影響。下一步將嘗試使用更高效的上下位詞抽取方法,并結(jié)合有監(jiān)督的自動(dòng)分類方法對候選上下位關(guān)系進(jìn)行是否為上下位關(guān)系的分類判斷,以進(jìn)一步優(yōu)化驗(yàn)證效果。

      [1] Hearst M.Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of COLING’92. New York,USA:[s.n.],1992:539-545.

      [2] Kozareva Z,Riloff E,Hovy E.Semantic Class Learning fromtheWebwithHyponymPatternLinkage Graphs[C]//Proceedings of the 46th Annual Meeting oftheAssociationforComputationalLinguistics: HumanLanguageTechnologies.Columbus,USA: [s.n.],2008:1048-1056.

      [3] Kozareva Z,Hovy E.A Semi-supervised Method to Learn and Construct Taxonomies Using the Web[C]// Proceedings of EMNLP’10.Boston,USA:[s.n.], 2010:1110-1118.

      [4] Zhang Chunxia,Jiang Peng.Automatic Extraction of Definitions[C]//Proceedings of ICCSIT’09.Beijing, China:[s.n.],2009:364-368.

      [5] Westerhout E.Definition Extraction Using Linguistic and StructuralFeatures[C]//Proceedingsofthe1st Workshop on Definition Extraction.Borovets,Bulgaria: [s.n.],2009:61-67.

      [6] Akiba T,Sakai T.Japanese Hyponymy Extraction Based on a Term Similarity Graph[R].Tokyo,Japan:IPSJ SIG,Technical Reprot:2011-IFAT-104,2011.

      [7] Miller G A.WordNet:A Lexical Database for English[J]. Communications of the ACM,1995,38(11):39-41.

      [8] Suchanek F M,Kasneci G,Weikum G.Yago:A Large Ontology from Wikipedia and WordNet[J].Web Semantics:Science,Services and Agents on the World Wide Web,2008,6(3):203-217.

      [9] Boella G,diCaroL.ExtractingDefinitionsand Hypernym Relations Relying on Syntactic Dependencies and Support Vector Machines[C]//Proceedings of the 51stAnnualMeetingoftheAssociationfor Computational Linguistics.Sofia,Bulgaria:[s.n.], 2013:532-537.

      [10] Zhang Fan,Shi Shuming,Liu Jing,et al.Nonlinear EvidenceFusionandPropagationforHyponymy Relation Mining[C]//Proceedings of the 49th Annual MeetingoftheAssociationforComputational Linguistics.Portland,USA:[s.n.],2011,1159-1168.

      [11] 劉 磊,曹存根,張春霞,等.概念空間中上下位關(guān)系的意義識(shí)別研究[J].計(jì)算機(jī)學(xué)報(bào),2009,32(8):1-14.

      [12] Wang R C,CohenWW.AutomaticSetInstance Extraction Using Web[C]//Proceedings of the18th International Conference on World Wide Web.Madrid, Spain:[s.n.],2009:101-110.

      [13] Brown P F,Pietra V J D,de Souza P V.Class-based ngram Models of Natural Language[J].Computational Linguistics,1992,18(4):467-480.

      [14] CCF NLP&CC2012語義關(guān)系識(shí)別標(biāo)準(zhǔn)評測集[EB/OL]. [2014-02-14].http://tcci.ccf.org.cn/conference/2012.

      [15] CCF NLP&CC2012語義關(guān)系評測結(jié)果[EB/OL]. [2014-02-14].http://tcci.ccf.org.cn/conference/ 2012/dldoc/2012語義關(guān)系評測結(jié)果.pdf.

      編輯 金胡考

      Hyponymy Relation Validation Combined with Context and Brown Clustering Feature

      ZHANG Zhichang,CHEN Songyi,LIU Xin,MA Huifang
      (School of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China)

      Hyponymy has many important applications in the field of Natural Language Processing(NLP)and the automatic extraction of hyponym relation from massive text datasets is naturally one of important NLP research tasks.The emphasis and difficult point of the research is how to validate a hyponym which is extracted with simple pattern matching method is really correct.By calculating the context feature similarity(SimCF)and Brown clustering similarity (SimBrown),this paper proposes a novel approach of hyponymy validation.It applies a clustering on hyponym candidates,and the clustering similarity feature is obtained by combiningSimCFandSimBrown.The combination coefficient of two kinds of similarity is derived based on theSimCFs andSimBrowns between all labeled training words and their hyponyms.The model can filter roughly extraction results without any existed lexical relation dictionary or knowledge base.Evaluation on CCF NLP&CC2012 word semantic relation corpus shows that the proposed approach in this paper significantly improves the F measure value compared with other approaches including pattern matching and simple context comparison.

      hyponymy relation;context similarity;Brown clustering similarity;Point Mutual Information(PMI); pattern matching;clustering validation

      張志昌,陳松毅,劉 鑫,等.結(jié)合語境與布朗聚類特征的上下位關(guān)系驗(yàn)證[J].計(jì)算機(jī)工程,2015, 41(2):145-150.

      英文引用格式:Zhang Zhichang,Chen Songyi,Liu Xin,et al.Hyponymy Relation Validation Combined with Context and Brown Clustering Feature[J].Computer Engineering,2015,41(2):145-150.

      1000-3428(2015)02-0145-06

      :A

      :TP18

      10.3969/j.issn.1000-3428.2015.02.028

      國家自然科學(xué)基金資助項(xiàng)目(61163039,61163036,61363058);西北師范大學(xué)青年教師科研能力提升計(jì)劃基金資助項(xiàng)目(NWNU-LKQN-10-2)。

      張志昌(1976-),男,副教授、博士,主研方向:自然語言處理,Web挖掘;陳松毅、劉 鑫,碩士研究生;馬慧芳,副教授、博士。

      2014-03-04

      :2014-04-03E-mail:zzc@nwnu.edu.cn

      猜你喜歡
      評測布朗語義
      Legendary British Climber Joe Brown喬·布朗
      次時(shí)代主機(jī)微軟XSX全方位評測(下)
      次時(shí)代主機(jī)微軟XSX全方位評測(上)
      語言與語義
      你好,我是布朗熊
      攻坡新利器,TOKEN VENTOUS評測
      你好,我是布朗熊
      丹·布朗主要作品
      Canyon Ultimate CF SLX 8.0 DI2評測
      中國自行車(2017年1期)2017-04-16 02:54:06
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      奉节县| 雅安市| 罗平县| 绵阳市| 南皮县| 丽水市| 凤台县| 美姑县| 前郭尔| 平顺县| 高安市| 蒲江县| 遂溪县| 建水县| 陕西省| 承德市| 安图县| 枞阳县| 西华县| 宜昌市| 万州区| 古丈县| 内江市| 吴堡县| 久治县| 榆林市| 南澳县| 扶沟县| 股票| 定西市| 东阿县| 浦江县| 苍山县| 滁州市| 涟源市| 银川市| 灵丘县| 营山县| 甘南县| 惠水县| 兴城市|