• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于How Net義原和W ord2vec詞向量表示的多特征融合消歧方法

    2021-09-09 08:09:18趙爾平崔志遠(yuǎn)
    計(jì)算機(jī)應(yīng)用 2021年8期
    關(guān)鍵詞:消歧類(lèi)別實(shí)體

    王 偉,趙爾平,崔志遠(yuǎn),孫 浩

    (西藏民族大學(xué)信息工程學(xué)院,陜西咸陽(yáng) 712082)

    0 引言

    近年來(lái),隨著自然語(yǔ)言處理(Natural Language Processing,NLP)與人工智能(Artificial Intelligence,AI)的迅速發(fā)展與廣泛應(yīng)用,命名實(shí)體消歧作為自然語(yǔ)言處理的關(guān)鍵環(huán)節(jié),在信息檢索、知識(shí)庫(kù)及知識(shí)圖譜構(gòu)建等方面發(fā)揮著越來(lái)越重要的作用。命名實(shí)體消歧旨在解決實(shí)體指稱(chēng)間的歧義性與多樣性,例如“冬蟲(chóng)夏草”的別名分別有“夏草冬蟲(chóng)”“蟲(chóng)草”和“冬蟲(chóng)草”,把這種表達(dá)相同實(shí)體而有多個(gè)指稱(chēng)的詞語(yǔ)稱(chēng)之為指稱(chēng)多樣性。而“螃蟹甲”一詞,它一方面指代藏藥的名稱(chēng),另一方面又指代武漢的一個(gè)地名。像“螃蟹甲”這類(lèi)詞稱(chēng)之為多義詞,本文旨在研究多義詞的歧義消除問(wèn)題。

    至今,命名實(shí)體消歧主要采用聯(lián)合知識(shí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法實(shí)現(xiàn),其中大部分方法都是考慮全局信息,卻很少考慮局部信息。王瑞等[1]針對(duì)消歧任務(wù),充分利用上下文以及詞向量特征信息以達(dá)到提高準(zhǔn)確率的目的。馬曉軍等[2]將消歧方法融入了局部信息來(lái)解決多義詞不能被區(qū)分的問(wèn)題,但是詞向量的質(zhì)量和穩(wěn)定性沒(méi)有兼顧。楊陟卓[3]提出基于翻譯的有監(jiān)督詞義消歧方法,該種方法雖然能大幅度提高準(zhǔn)確率,但是需要大量的人工標(biāo)注語(yǔ)料且偽訓(xùn)練語(yǔ)料需要隨著消歧任務(wù)的不同而改變。王苗等[4]提出的消歧方法,通過(guò)改進(jìn)的無(wú)監(jiān)督學(xué)習(xí)并結(jié)合圖數(shù)據(jù)結(jié)構(gòu)以達(dá)到消歧的目的并取得較高準(zhǔn)確率。陳洋等[5]則針對(duì)詞向量表示的質(zhì)量問(wèn)題,使用義原表示詞向量,很好地解決了詞向量表示不穩(wěn)定的問(wèn)題,但是卻沒(méi)有注意到詞義混淆問(wèn)題。范鵬程等[6]使用知識(shí)鏈接的方法達(dá)到了目前最好算法的F1值。很顯然有監(jiān)督學(xué)習(xí)方法雖然人工工作量大,但是消歧效果較為出眾。基于機(jī)器學(xué)習(xí)的消歧方法,面臨的問(wèn)題是需要準(zhǔn)確且質(zhì)量較高的語(yǔ)料庫(kù)支持,需要花費(fèi)人力標(biāo)注語(yǔ)料,且需要關(guān)注數(shù)據(jù)稀疏問(wèn)題。目前,實(shí)體消歧任務(wù)重點(diǎn)是在上下文信息和特征信息挖掘兩個(gè)方面,缺乏在不同應(yīng)用場(chǎng)景下面對(duì)不同特征時(shí)區(qū)分實(shí)體能力的差異分析。在低頻詞方面,使用詞向量進(jìn)行消歧時(shí)由于詞頻低導(dǎo)致訓(xùn)練不充足,使得詞向量表示的質(zhì)量得不到保證。在語(yǔ)義表示方面,缺乏結(jié)合上下文語(yǔ)義綜合考慮多義詞的多方面特征,未能將詞語(yǔ)多個(gè)語(yǔ)義特征按權(quán)重值融合使用。譬如,西藏畜牧業(yè)領(lǐng)域有上千種牧草名和幾百種動(dòng)物名,包括大量音譯詞、合成詞、生僻詞等類(lèi)型低頻詞。例如“雪蓮花”一詞,在大多數(shù)語(yǔ)料庫(kù)中都屬于低頻詞,該詞義項(xiàng)包含兩類(lèi):一類(lèi)屬歌曲,一類(lèi)屬藏藥。多義詞方面例如“我今天在阿里吃的飯”這句話中“阿里”一詞可能指西藏阿里地區(qū),也有可能指“阿里巴巴”公司。

    針對(duì)命名實(shí)體消歧過(guò)程中存在問(wèn)題,本文提出基于HSWR-W 2c(HowNet-Sememe Word embedding Representation-Word2vec)詞向量表示的多特征融合消歧方法。通過(guò)兩種詞向量融合表示來(lái)解決單一詞向量表示低頻詞質(zhì)量差、不穩(wěn)定和多義詞的詞義混淆問(wèn)題。為了體現(xiàn)每一類(lèi)特征在消歧過(guò)程中發(fā)揮的不同作用,提出三類(lèi)不同詞向量特征加權(quán)融合的消歧方法,以解決消歧過(guò)程中因詞向量攜帶信息量少、語(yǔ)義特征單一而導(dǎo)致的準(zhǔn)確率不高的問(wèn)題,并引入主題特征彌補(bǔ)以往消歧任務(wù)未能獲取局部特征的缺陷。

    1 相關(guān)工作

    Word2vec(Word to vector)是一款開(kāi)源詞向量生成工具,被廣泛應(yīng)用于圖像處理、知識(shí)挖掘、自然語(yǔ)言處理等領(lǐng)域。由于中文詞語(yǔ)多元與復(fù)雜性,導(dǎo)致Word2vec在自然語(yǔ)言處理方面的應(yīng)用效果不盡如人意,為此李小濤等[7]為了提高語(yǔ)義相似度計(jì)算精度提出一種改進(jìn)算法,彌補(bǔ)Word2vec生成的向量不能區(qū)別多義詞的缺陷。近年,面對(duì)中文語(yǔ)言的多變性與詞語(yǔ)的多義性,很多學(xué)者從向量的使用到向量的改進(jìn)做了一系列研究工作。張春祥等[8]利用鄰近詞的詞性、詞形等相關(guān)信息作為特征融入消歧任務(wù)中,取得了較好的效果。

    詞義消歧方面張雄等[9]采用融合多個(gè)特征的方法,達(dá)到對(duì)于信息的充分挖掘,實(shí)現(xiàn)人名消歧。大部分學(xué)者采用機(jī)器學(xué)習(xí)進(jìn)行詞義消歧[10],例如王旭陽(yáng)等[11]通過(guò)對(duì)于上下文信息的充分挖掘,并結(jié)合機(jī)器學(xué)習(xí)達(dá)到消歧的目的。Mikolov等[12]則揭示連續(xù)空間詞表征中的語(yǔ)言規(guī)律,使得語(yǔ)境信息能更好地融入。郭宇飛等[13]根據(jù)同一個(gè)詞在不同的上下文環(huán)境下可以形成不同的框架,提出了一種基于框架的消歧方法。Huang等[14]則是通過(guò)對(duì)百度百科全書(shū)網(wǎng)頁(yè)的抓取,產(chǎn)生多義、同義和索引集合,經(jīng)過(guò)訓(xùn)練后確定文本相關(guān)性,并在MongoDB(Mongo Data Base)中管理實(shí)體。除了常見(jiàn)的消歧方法,Chen等[15]通過(guò)結(jié)合詞義對(duì)模型改造,在中大型文件消歧方面也取得了不錯(cuò)的效果。林澤斐等[16]將多特征與實(shí)體鏈接技術(shù)結(jié)合實(shí)現(xiàn)詞義消除。曾健榮等[17]則針對(duì)專(zhuān)家?guī)鞓?gòu)建過(guò)程中的同名歧義問(wèn)題,融合已發(fā)表論文中的多種特征從而解決了同名消歧問(wèn)題。

    2 義原與Word2vec詞向量及融合表示

    2.1 HowNet及其義原

    知網(wǎng)(HowNet)是一個(gè)解釋詞語(yǔ)概念與屬性間關(guān)系的知識(shí)庫(kù)。義原是知識(shí)庫(kù)中不能再分割的最小的單位[18],所以在知網(wǎng)知識(shí)庫(kù)中每一個(gè)詞語(yǔ)都可以使用若干義原表示。也正是HowNet的這種多義原表示方法,使其能夠突破詞語(yǔ)本身,從而更加深入了解詞語(yǔ)背后的意義。這種結(jié)構(gòu)化的知識(shí)網(wǎng)絡(luò)體系,使得知識(shí)對(duì)于計(jì)算機(jī)而言是可操作的,正是因?yàn)檫@一點(diǎn),知網(wǎng)中的義原詞才能夠表示為可以操作使用的詞向量。由于HowNet知識(shí)庫(kù)中有關(guān)于西藏畜牧業(yè)領(lǐng)域的記錄較少,所以本文對(duì)知識(shí)庫(kù)進(jìn)行了擴(kuò)充。擴(kuò)充示例內(nèi)容如下:{NO.=120497;W_C=螃蟹甲;G_C=N;E_C=;W_E=Crab carapace;G_E=N;E_E=;DEF=Tibetan Medicine|藏藥,street|街道}。其中:NO.在知識(shí)庫(kù)中表示序號(hào);W_C、G_C、E_C表示中文信息,分別代表詞語(yǔ)、詞性以及舉例;W_E、G_E、E_E表示英文信息,分別代表英文的詞語(yǔ)、詞性以及舉例;DEF為詞語(yǔ)詮釋?zhuān)丛~語(yǔ)的不同義原。

    2.2 基于HowNet義原的詞向量表示

    基于HowNet義原的詞向量表示(HowNet-Sememe Word embedding Representation,H-SWR)流程大致有兩個(gè)步驟:首先對(duì)義原進(jìn)行向量化;其次融合目標(biāo)詞的若干義原詞向量生成目標(biāo)詞向量。具體表示過(guò)程如下。

    首先,使用隨機(jī)初始化的方法將義原初始化為一個(gè)義原矩陣Msememe,其次,將義原矩陣進(jìn)行預(yù)處理(施密特正交化、單位化)后得到正交單位矩陣Mdefo:

    式(1)中Mdefo是 一 個(gè)n×m的 義 原 矩 陣,其 中(α1,α2,…,αn)為對(duì)應(yīng)義原向量的n組標(biāo)準(zhǔn)正交單位基,其中每個(gè)義原向量為m維。由于在HowNet中每一個(gè)詞語(yǔ)由若干義原解釋?zhuān)钥梢园涯繕?biāo)詞看成其對(duì)應(yīng)義原詞向量在其向量子空間的投影。最后,在完成義原的詞向量表示后,目標(biāo)詞語(yǔ)的詞向量便可使用義原向量的加權(quán)平均表示,表示公式如式(2)所示:

    式(2)中α為目標(biāo)詞對(duì)應(yīng)義原詞向量表示,m為當(dāng)前目標(biāo)詞的義原數(shù)量。對(duì)于義原向量與義原的對(duì)應(yīng)關(guān)系,本文采用建立索引的方法,即每一個(gè)義原向量及其對(duì)應(yīng)義原建立“semid”,其中一個(gè)義原的sem對(duì)應(yīng)一個(gè)義原向量的“id”,通過(guò)“id”再進(jìn)行l(wèi)ook-up操作,以此確定它們的對(duì)應(yīng)關(guān)系。

    語(yǔ)料訓(xùn)練方面,本節(jié)以“藏醫(yī)藏藥雪蓮花作為藥物”句子為例,空格為詞語(yǔ)之間的分隔符,待預(yù)測(cè)詞語(yǔ)為“雪蓮花”?;诹x原生成的詞向量訓(xùn)練過(guò)程如圖1所示。

    圖1 基于義原的詞向量表示Fig.1 Word embedding representation based on sememe

    示例中根據(jù)窗口大小找到左右各兩個(gè)詞語(yǔ)的id,再根據(jù)id找到標(biāo)注的義原,義原生成義原向量,最后借助式(2)和上下文表示層得到標(biāo)準(zhǔn)詞向量表示并通過(guò)輸出層輸出。圖1中上下文表示層定義如式(3)所示:

    其中:Ci為目標(biāo)詞上下文詞向量,δ為定義的窗口大小。訓(xùn)練方式與連續(xù)詞袋(Continuous Bag Of Words,CBOW)模型相似,指定窗口大小為5,維度為100。由于基于義原生成的詞向量是借助于有知識(shí)基礎(chǔ)的模型上計(jì)算得出,所以蘊(yùn)含大量語(yǔ)言學(xué)知識(shí),即使在大規(guī)模語(yǔ)料中也能表現(xiàn)出較好的穩(wěn)定性,并且生成的詞向量只受義原信息的約束,所以在低頻詞表示方面表現(xiàn)出色,但這也導(dǎo)致其在詞義區(qū)分方面尚有不足,存在詞義混淆的弊端。

    2.3 基于Word2vec的詞向量表示

    詞向量的表示方法中,One-hot最為直觀簡(jiǎn)潔,這種表示方法較為簡(jiǎn)單,由數(shù)字1與0組成,向量長(zhǎng)度為文本詞的個(gè)數(shù)且數(shù)字“1”唯一,但是該種方法會(huì)帶來(lái)數(shù)據(jù)稀疏問(wèn)題,尤其在維度較大時(shí)不宜采用。另一種詞向量表示方法為分布式表示,對(duì)比One-hot方法,該方法將詞映射在向量空間以解決數(shù)據(jù)稀疏的問(wèn)題,一般訓(xùn)練維度在100~300維,能較好地體現(xiàn)詞語(yǔ)間的相關(guān)性與依賴(lài)性,所以在詞向量的表示過(guò)程中一般都是采用分布式的辦法。

    比較Word2vec的兩種模型,CBOW模型在語(yǔ)義表示方面效果更優(yōu),所以本文選用CBOW模型。訓(xùn)練參數(shù)窗口大小設(shè)置為5,同時(shí)為了詞向量的融合表示,訓(xùn)練維度與2.2節(jié)維度保持一致。假設(shè)輸入詞序列為C=(x1,x2,…,xn)的情況下,CBOW目標(biāo)函數(shù)定義如下:

    其中:m為窗口大小,n為詞數(shù),xi為預(yù)測(cè)目標(biāo)詞。P為上下文已知的xi的概率,通過(guò)softmax函數(shù)計(jì)算:

    其中:wi為中心詞的詞向量表示,wo為wi的上下文詞語(yǔ)的詞向量的均值。

    向量訓(xùn)練過(guò)程中采用隨機(jī)梯度上升法將目標(biāo)函數(shù)最大化,再經(jīng)過(guò)語(yǔ)料庫(kù)整體的訓(xùn)練,最終得到詞典庫(kù)中每個(gè)詞對(duì)應(yīng)的詞向量。由于CBOW模型生成的詞向量是經(jīng)過(guò)充分的訓(xùn)練而獲得的,所以在語(yǔ)義表示與區(qū)分方面十分出色,但是也存在低頻詞表示質(zhì)量較差、在大規(guī)模語(yǔ)料中表示不穩(wěn)定等問(wèn)題。以“鼠兔”一詞為例,在領(lǐng)域語(yǔ)料中出現(xiàn)的頻率不足萬(wàn)分之一,在普通語(yǔ)料中更低,使得機(jī)器對(duì)其學(xué)習(xí)不充足而導(dǎo)致上述問(wèn)題。

    2.4 詞向量加權(quán)融合

    詞向量表示方面,基于Word2vec生成的詞向量在詞語(yǔ)語(yǔ)義表示方面十分出色,但是這種通過(guò)機(jī)器訓(xùn)練和依賴(lài)數(shù)據(jù)驅(qū)動(dòng)的方法,使詞向量表示在低頻詞方面質(zhì)量不高,且在語(yǔ)料較大時(shí)生成詞向量的性能不穩(wěn)定。而依賴(lài)HowNet知識(shí)庫(kù)義原生成的詞向量,雖然能較好解決上述問(wèn)題,但是在詞義區(qū)分方面尚有不足,存在詞義混淆的問(wèn)題。針對(duì)單一模型訓(xùn)練的詞向量表示詞義混淆、質(zhì)量差以及穩(wěn)定性等問(wèn)題,采用兩種詞向量加權(quán)融合的表示方式,取長(zhǎng)補(bǔ)短,彌補(bǔ)單一詞向量表示的不足。本文采用線性歸一化的方法融合詞向量,其中基于HSWR生成的詞向量定義為WHownet,基于Word2vec生成的詞向量定義為WWord2vec。融合向量表示公式定義如式(6)表示:

    其中式(6)中的符號(hào)⊕為各向量逐元素相加,歸一化公式本文采用sigmoid函數(shù),對(duì)W進(jìn)行線性歸一化,具體公式如下:

    3 實(shí)體消歧

    實(shí)體消歧分為五步:1)候選實(shí)體生成;2)實(shí)體相似度計(jì)算;3)類(lèi)別相似度計(jì)算;4)主題相似度計(jì)算;5)三類(lèi)相似度融合。消歧流程如圖2所示。

    圖2 消歧流程Fig.2 Disambiguation flow

    本文采用無(wú)標(biāo)注的知識(shí)庫(kù)文本訓(xùn)練詞向量模型,通過(guò)訓(xùn)練將每個(gè)詞映射到詞向量空間中,兩個(gè)模型的向量分別體現(xiàn)了知識(shí)的融入和詞語(yǔ)在深層次的一些語(yǔ)義特征。其次,生成候選實(shí)體集,目的是為每一個(gè)待消歧指稱(chēng)項(xiàng)提供若干個(gè)可能的候選實(shí)體以防止在消歧過(guò)程中需要查找整個(gè)知識(shí)庫(kù)而導(dǎo)致低效問(wèn)題。從候選實(shí)體與背景文本中獲取指稱(chēng)項(xiàng)與類(lèi)別名稱(chēng),并使用兩個(gè)模型進(jìn)行向量化及融合表示以計(jì)算實(shí)體相似度與類(lèi)別相似度。利用主題模型對(duì)文檔進(jìn)行訓(xùn)練,使用聚類(lèi)算法對(duì)主題特征的關(guān)鍵詞進(jìn)行分類(lèi),融合詞向量對(duì)其進(jìn)行表示并計(jì)算主題相似度值。最后將三類(lèi)相似度值進(jìn)行加權(quán)融合,選取最高準(zhǔn)確率的數(shù)據(jù)為結(jié)果,達(dá)到消歧目的。

    3.1 候選實(shí)體生成

    百度百科作為中文知識(shí)庫(kù),它在更新中文知識(shí)方面比維基百科及時(shí),而且能提供有助于獲取信息的結(jié)構(gòu)特征,所以本文通過(guò)百度百科獲取實(shí)體的名稱(chēng)及其對(duì)應(yīng)關(guān)系。候選實(shí)體生成的具體過(guò)程如下:首先,對(duì)待消歧文檔進(jìn)行實(shí)體標(biāo)注,并將標(biāo)注出的實(shí)體作為待消歧實(shí)體;其次,根據(jù)標(biāo)注實(shí)體獲取百度百科頁(yè)面信息,同時(shí)保存百度百科中對(duì)應(yīng)的標(biāo)注實(shí)體名稱(chēng);再次,通過(guò)消歧頁(yè)面,獲取與標(biāo)注實(shí)體名稱(chēng)相同但是指代不同的實(shí)體;最后,將上述與待消歧實(shí)體名稱(chēng)相同的所有詞語(yǔ)保存作為候選實(shí)體。

    3.2 待消歧實(shí)體與候選實(shí)體相似度計(jì)算

    對(duì)于實(shí)體間相似度計(jì)算。首先,對(duì)待消歧文本進(jìn)行分詞以及停用詞過(guò)濾等操作;其次,根據(jù)2.4節(jié)將兩種詞向量進(jìn)行融合表示以獲得待消歧實(shí)體指稱(chēng)項(xiàng)的融合詞向量表示;最后,通過(guò)候選實(shí)體信息摘要以獲取候選實(shí)體背景文本,預(yù)處理后生成候選實(shí)體融合詞向量表示。融合后的詞向量表示可以很大程度地代表這個(gè)詞。本文通過(guò)對(duì)比待消歧實(shí)體與候選實(shí)體的融合詞向量相似度來(lái)判斷二者是否具有聯(lián)系,與其他研究一樣,本文也利用余弦相似度值衡量待消歧實(shí)體與候選實(shí)體相似度,比較它們之間的依賴(lài)關(guān)系。余弦相似度計(jì)算公式如式(8)所示:

    其中:c表示待消歧實(shí)體指稱(chēng)項(xiàng)目詞向量,gi表示候選實(shí)體指稱(chēng)項(xiàng)詞向量,式(8)結(jié)果代表待消歧實(shí)體與候選實(shí)體之間的語(yǔ)義依賴(lài)關(guān)系強(qiáng)弱程度,即它們之間語(yǔ)義關(guān)系相似程度。

    3.3 實(shí)體類(lèi)別特征相似度計(jì)算

    實(shí)體間的包含關(guān)系又稱(chēng)為上下位關(guān)系,本文借助上下位關(guān)系中的上位詞使得詞語(yǔ)有更多的詞義信息,將其作為實(shí)體類(lèi)別特征,計(jì)算實(shí)體類(lèi)別相似度。上下位關(guān)系層次結(jié)構(gòu)如圖3所示。

    圖3 上下位關(guān)系Fig.3 Upper-lower relationship

    圖3中可以看出“螃蟹甲”的上位詞為“藏藥”和“西藏”,也可以是“街道”和“湖北”。上位詞“藏藥”和“西藏”表示“螃蟹甲”屬于藏藥類(lèi)別;上位詞“街道”和“湖北”表示“螃蟹甲”又屬于地名類(lèi)別。藏藥類(lèi)別與地名類(lèi)別是兩個(gè)完全不同的實(shí)體類(lèi)別,代表完全不同的語(yǔ)義。由此可見(jiàn),把實(shí)體的類(lèi)別特征用于實(shí)體語(yǔ)義消歧是非常必要的,類(lèi)別特征在消歧任務(wù)中必將發(fā)揮重要作用。對(duì)于待消歧實(shí)體,本文使用聚類(lèi)算法對(duì)詞向量進(jìn)行分類(lèi),并利用式(8)計(jì)算每個(gè)詞向量的空間距離,選擇離聚類(lèi)中心最近的若干詞作為類(lèi)別特征高頻詞語(yǔ),然后在HowNet知識(shí)庫(kù)中進(jìn)行“查找”操作,查找高頻詞的若干上位詞作為類(lèi)別名稱(chēng)。例如“牦?!钡纳衔辉~有“牲畜”與“紀(jì)錄片”等,將它們作為“牦?!钡牟煌?lèi)別名稱(chēng)。再次,為保持候選實(shí)體類(lèi)別名稱(chēng)與候選實(shí)體指稱(chēng)的一致性,本文選擇從百度百科詞條標(biāo)簽中獲取候選實(shí)體類(lèi)別名稱(chēng),獲取的候選實(shí)體類(lèi)別名稱(chēng)與待消歧實(shí)體類(lèi)別名稱(chēng)進(jìn)行相似度比較,以計(jì)算二者相似度。例如待消歧實(shí)體“冬蟲(chóng)夏草”的上位詞為“菌”與“保健品”等,而其候選實(shí)體的類(lèi)別為“麥角菌科”與“藏藥”等。將候選實(shí)體每個(gè)類(lèi)別名稱(chēng)與待消歧實(shí)體每個(gè)類(lèi)別名稱(chēng)分別兩兩交叉配對(duì),例如(菌 麥角菌科)、(菌 藏藥)、(保健品 麥角菌科)、(保健品藏藥)等類(lèi)別名稱(chēng)對(duì),然后利用式(8)計(jì)算每一對(duì)詞語(yǔ)的相似度值。每一對(duì)相似度定義為ei,并對(duì)它們進(jìn)行排序,為每個(gè)候選實(shí)體保留一個(gè)最大相似度值,類(lèi)別特征相似度公式定義如(9)所示:

    3.4 實(shí)體主題特征相似度計(jì)算

    潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型是一個(gè)依賴(lài)于詞袋(bag of words)生成文本主題的具有三層結(jié)構(gòu)的貝葉斯概率模型。工作原理是將文檔形象化為一個(gè)詞頻向量,從而使得文本信息轉(zhuǎn)變?yōu)榭捎糜诮5臄?shù)字信息,但是這也導(dǎo)致其沒(méi)有改變?cè)~與詞之間的順序,所以本文不得不對(duì)LDA主題模型進(jìn)行適當(dāng)改進(jìn)。文章通過(guò)對(duì)不同主題的多義詞進(jìn)行標(biāo)注,使用W′=w,t對(duì)多義詞與主題特征詞語(yǔ)進(jìn)行聯(lián)合表示取代原先存入詞袋模型的多義詞,并通過(guò)原先模型進(jìn)行語(yǔ)料訓(xùn)練從而得到不同主題下的詞向量表示以解決詞序問(wèn)題。同時(shí)對(duì)詞向量進(jìn)行聚類(lèi)操作,使用式(8)計(jì)算向量距離,獲取離聚類(lèi)中心最近的若干詞作為主題關(guān)鍵詞,使詞向量攜帶主題特征信息。具體步驟如下:

    首先,對(duì)待消歧文本進(jìn)行過(guò)濾停用詞以及斷句等預(yù)處理,利用改進(jìn)的LDA主題模型對(duì)預(yù)處理文檔進(jìn)行主題建模,借助Gibbs抽樣算法選取最佳參數(shù)。其次,引用支持向量機(jī)的方法進(jìn)行聚類(lèi)操作,并由上述被替換原詞袋模型的訓(xùn)練好的模型進(jìn)行分類(lèi),確定局部文字主題,并對(duì)主題文本進(jìn)行融合詞向量表示。利用K-means聚類(lèi)算法實(shí)現(xiàn)分類(lèi)并使用余弦相似度計(jì)算每個(gè)詞向量的空間距離,選擇距離聚類(lèi)中心最近的若干詞作為主題特征關(guān)鍵詞。最后在主題關(guān)鍵詞提取過(guò)程中獲取不同主題關(guān)鍵詞集合,將不同聚類(lèi)結(jié)果的關(guān)鍵詞進(jìn)行融合詞向量表示,其中詞語(yǔ)不同類(lèi)別個(gè)數(shù)為后續(xù)主題特征個(gè)數(shù),將在同一主題特征下的關(guān)鍵詞設(shè)為集合S,關(guān)鍵詞個(gè)數(shù)定義為m,集合中的關(guān)鍵詞定義為i,融合詞向量表示為wi(i=1,2,…,m),候選實(shí)體摘要文本經(jīng)過(guò)分詞、去標(biāo)點(diǎn)等預(yù)處理后使用H-SWR進(jìn)行詞向量表示,再使用Word2vec進(jìn)行詞向量表示,最后融合詞向量表示定義為ni,可得主題特征相似度定義式(10)所示:

    本文通過(guò)改進(jìn)的LDA主題模型,即將原先多義詞通過(guò)標(biāo)注并添加主題信息以取代原來(lái)的詞語(yǔ),使得其得到的關(guān)鍵詞集合都屬于同一主題,從而較好地解決了本節(jié)開(kāi)頭提出的問(wèn)題。

    3.5 融合三類(lèi)特征相似度

    為了充分利用多類(lèi)特征相似度進(jìn)行實(shí)體消歧,同時(shí)也能最大限度地提高消歧準(zhǔn)確率,本文采用加權(quán)融合的方法對(duì)多類(lèi)特征進(jìn)行融合。多特征融合相似度定義為:E=αE1+βE2+χE3,其中:E1表示待消歧實(shí)體與候選實(shí)體相似度,E2表示實(shí)體類(lèi)別特征相似度,E3表示實(shí)體主題特征相似度。通過(guò)八組比較實(shí)驗(yàn)結(jié)果獲得一組最佳權(quán)重系數(shù)。第一組實(shí)驗(yàn)中設(shè)置α=0.1不變,β、χ初值分別為0.1和0.8,以這三個(gè)參數(shù)為權(quán)重值系數(shù)計(jì)算相似度值并記錄,之后β、χ值分別以正負(fù)0.1步長(zhǎng)進(jìn)行調(diào)整,每次調(diào)整后的新參數(shù)作為權(quán)重值系數(shù)計(jì)算相似度值并記錄,以此類(lèi)推,β、χ的終值分別為0.8和0.1,然后選取這組實(shí)驗(yàn)中相似度值最大的那次實(shí)驗(yàn)的權(quán)重值系數(shù)作為第一組實(shí)驗(yàn)結(jié)果并記錄。第二組、第三組、……、第八組實(shí)驗(yàn)中設(shè)置α值分別分為0.2,0.3,…,0.8;β、χ取值與第一組實(shí)驗(yàn)方法相同,分別獲得其他七組實(shí)驗(yàn)的最好權(quán)重值系數(shù),最后比較八組實(shí)驗(yàn)獲得的八個(gè)相似度值,選擇最高相似度值的那組參數(shù)值作為α、β、χ的最佳權(quán)重系數(shù)。

    4 實(shí)驗(yàn)與結(jié)果分析

    4.1 語(yǔ)料的獲取和模型的訓(xùn)練

    使用H-SWR進(jìn)行詞向量表示方面,得出模型后輸入語(yǔ)料進(jìn)行訓(xùn)練,語(yǔ)料的訓(xùn)練方式與CBOW模型相似。為了防止兩類(lèi)詞向量融合維度出現(xiàn)過(guò)高的情況,實(shí)驗(yàn)指定窗口大小為5,維度定為100,實(shí)現(xiàn)平臺(tái)為PyCharm 2018.3.7。在使用Word2vec進(jìn)行詞向量表示方面,訓(xùn)練模型采用連續(xù)詞袋模型,定義窗口大小為5,維度100。對(duì)于語(yǔ)料選擇方面,本文使用維基百科離線知識(shí)庫(kù)進(jìn)行訓(xùn)練。

    候選實(shí)體獲取方面,由于百科知識(shí)庫(kù)中涉及領(lǐng)域太廣,所以本文選擇西藏畜牧業(yè)領(lǐng)域分類(lèi)下的頁(yè)面信息,進(jìn)行摘要提取,候選義項(xiàng)摘要保存于文本。測(cè)試語(yǔ)料爬取有關(guān)西藏畜牧業(yè)領(lǐng)域的文本共30篇,還有手工標(biāo)注的西藏畜牧業(yè)領(lǐng)域的文本10篇,其中標(biāo)注文本中的詞數(shù)共計(jì)161 518個(gè),標(biāo)注有關(guān)領(lǐng)域?qū)嶓w指稱(chēng)29692個(gè)。標(biāo)注的每一篇文本中的實(shí)體名稱(chēng)通過(guò)與獲得的候選實(shí)體對(duì)比作為實(shí)驗(yàn)的結(jié)果的驗(yàn)證。使用準(zhǔn)確率判斷本文方法的優(yōu)劣與可行性,準(zhǔn)確率定義如下:

    4.2 詞向量融合表示的效果分析

    該組實(shí)驗(yàn)用于對(duì)比詞向量融合與否對(duì)相似度計(jì)算準(zhǔn)確率的影響。詞向量相似度對(duì)比的優(yōu)劣通常可以通過(guò)觀察給定詞對(duì)的評(píng)價(jià)分?jǐn)?shù)來(lái)判定其優(yōu)劣程度。所以本文采用斯皮爾曼(Spearman)系數(shù)用于評(píng)估詞語(yǔ)相似度準(zhǔn)確率,Spearman系數(shù)是一種評(píng)價(jià)詞語(yǔ)相似度算法準(zhǔn)確度的有效方式,計(jì)算公式如式(12)所示:

    其中:p表示斯皮爾曼相關(guān)系數(shù),系數(shù)越大說(shuō)明用于計(jì)算相似度的詞向量更為優(yōu)質(zhì);n表示元素個(gè)數(shù);di表示一個(gè)排行差分集合中的元素,本文將獲得的相似度經(jīng)過(guò)比例縮小后與其對(duì)應(yīng)人工評(píng)分定義為變量(X,Y),并對(duì)兩個(gè)變量的數(shù)據(jù)進(jìn)行排序并記錄為(Z,W),其中(Z,W)的值便為秩次,而秩次間的差值就是di。本文用于測(cè)試的標(biāo)準(zhǔn)數(shù)據(jù)集為wordsim-240,每行格式為一對(duì)標(biāo)準(zhǔn)詞對(duì)與數(shù)值在0~5的人工評(píng)分。實(shí)驗(yàn)結(jié)果如表1所示。

    表1 Spearman相關(guān)系數(shù)對(duì)比Tab.1 Spearman correlation coefficient comparison

    由實(shí)驗(yàn)結(jié)果可知,由人工知識(shí)與機(jī)器學(xué)習(xí)的詞向量的結(jié)合是切實(shí)可行的,并且在詞向量相似度計(jì)算的過(guò)程中表現(xiàn)出色。

    4.3 權(quán)重值對(duì)實(shí)驗(yàn)結(jié)果影響

    在消歧過(guò)程中,實(shí)體相似度、類(lèi)別特征相似度以及主題特征相似度所占權(quán)重的不同對(duì)實(shí)驗(yàn)準(zhǔn)確率有著很大的影響,通過(guò)實(shí)驗(yàn)的方法驗(yàn)證最佳權(quán)重值系數(shù),把消歧準(zhǔn)確率最高的權(quán)重值系數(shù)作為最佳系數(shù),實(shí)驗(yàn)結(jié)果如表2所示。

    對(duì)于權(quán)重值的選擇方法如3.5節(jié)所述。即將三類(lèi)特征權(quán)值總和定義為1,同時(shí)在不知道每一項(xiàng)權(quán)重值大小的情況下首先固定某一項(xiàng)權(quán)重值,同時(shí)對(duì)其他兩項(xiàng)權(quán)重進(jìn)行每次步長(zhǎng)為0.1的調(diào)整,觀察固定一項(xiàng)權(quán)重值不變時(shí)另外兩項(xiàng)權(quán)重值變化的結(jié)果并記錄這一組數(shù)據(jù)的最高值,之后固定權(quán)重值加0.1,并按上述方法推演。最終獲取固定權(quán)重值為0.1~0.8的八組最高數(shù)據(jù)如表2所示,加粗字體為準(zhǔn)確率最高權(quán)重值系數(shù)。最佳權(quán)重值為:α=0.3,β=0.2,χ=0.5。

    表2 權(quán)重值選取數(shù)據(jù)匯總Tab.2 Selected weight value data summary

    由于待消歧實(shí)體與候選實(shí)體相似度計(jì)算包含詞語(yǔ)及其語(yǔ)義信息,且融合后的詞向量攜帶大量結(jié)構(gòu)化知識(shí)的信息,所以融合特征相似度占有比較重要的地位。對(duì)于類(lèi)別特征相似度計(jì)算,由于其本身存在的作用是區(qū)別詞語(yǔ)的不同類(lèi)別特征,而類(lèi)別的獲取是聚類(lèi)后的結(jié)果,致使該類(lèi)特征所攜帶的語(yǔ)義信息相比前者較少,所以占比重較小。主題特征相似度方面,由于本文使用改進(jìn)的LDA主題模型,使用攜帶特征信息的詞語(yǔ)替換詞原始詞袋中的多義詞,使得主題特征與唯一詞語(yǔ)對(duì)應(yīng),很大程度解決了詞語(yǔ)缺乏局部特征的問(wèn)題,所以其不單攜帶詞語(yǔ)本身語(yǔ)義信息,還具有大量的主題特征信息,所以其占比重最大。綜上所述,因?yàn)椴煌奶卣魉鶖y帶的語(yǔ)義信息量不同致使權(quán)重值系數(shù)也不相同,而在本文消歧過(guò)程中待消歧實(shí)體與候選實(shí)體相似度與主題特征相似度的信息量明顯更大一點(diǎn),從而也起到了更為重要的作用。最終獲取融合相似度后,對(duì)其進(jìn)行排序操作,選取最高一組數(shù)據(jù)為最終結(jié)果。

    4.4 特征關(guān)鍵詞個(gè)數(shù)的影響

    類(lèi)別關(guān)鍵詞與主題關(guān)鍵詞數(shù)量多與少會(huì)影響消歧結(jié)果,為此通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證關(guān)鍵詞數(shù)量對(duì)消歧結(jié)果影響,以確定最佳關(guān)鍵詞數(shù)量。由圖4可知,類(lèi)別關(guān)鍵詞為4個(gè)時(shí)消歧效果最好,這是由于如果關(guān)鍵詞個(gè)數(shù)較少,所攜帶信息不足,而過(guò)多又會(huì)使得信息覆蓋范圍變廣反而降低準(zhǔn)確率。對(duì)于主題關(guān)鍵詞個(gè)數(shù),由實(shí)驗(yàn)結(jié)果可知當(dāng)其在8個(gè)時(shí)消歧效果最好,相比類(lèi)別特征,主題特征能更好地表示一個(gè)詞語(yǔ)的語(yǔ)義,所以關(guān)鍵詞個(gè)數(shù)較多。

    圖4 特征關(guān)鍵詞數(shù)對(duì)準(zhǔn)確率的影響Fig.4 Influenceof thenumber of feature keywordson accuracy

    4.5 消歧效果對(duì)比

    實(shí)驗(yàn)主要選擇三個(gè)典型的消歧方法對(duì)本文方法的效果進(jìn)行檢驗(yàn),它們分別為W ikify[19]、支持向量機(jī)(Support Vector Machine,SVM)[20]以及Knowledge Base[21]。Wikify著重于使用實(shí)體鏈接的方法以達(dá)到消歧的目的;以Knowledge Base為基礎(chǔ)的消歧方法,特點(diǎn)是十分依賴(lài)知識(shí)庫(kù);SVM消歧的方法是一種圖模型結(jié)合實(shí)體鏈接的消歧方法。實(shí)驗(yàn)結(jié)果如表3所示。

    表3 不同消歧方法的準(zhǔn)確率對(duì)比 單位:%Tab.3 Accuracy comparison of different disambiguation methods unit:%

    從表3可看出,本文方法對(duì)比其他消歧方法準(zhǔn)確率有所提高,與典型的圖模型消歧方法相比準(zhǔn)確率提高了7.6個(gè)百分點(diǎn)。與上述三種方法相比。本文方法首先增強(qiáng)了詞向量表示的質(zhì)量,其次彌補(bǔ)了詞語(yǔ)語(yǔ)義容易混淆的不足,最后在消歧過(guò)程中添加了主題與類(lèi)別特征信息以使得準(zhǔn)確率有所提高。這說(shuō)明多種詞向量融合表示的多特征融合的消歧方法切實(shí)可行,融合后的詞向量表示在相似度計(jì)算以及消歧方面中的效果也更為出色。

    5 結(jié)語(yǔ)

    本文針對(duì)主流消歧方法因信息攜帶不足而導(dǎo)致的消歧模型對(duì)多義詞不能準(zhǔn)確區(qū)分以及對(duì)于詞向量表示低頻詞質(zhì)量差,表示的語(yǔ)義信息容易混淆等問(wèn)題,提出詞向量的融合表示以及詞語(yǔ)的多特征融合方法。實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率比典型的圖模型消歧方法有較大提高。下一步,將嘗試融入深度學(xué)習(xí)并改進(jìn)獲取詞向量特征的方法,減小消歧任務(wù)工作量,進(jìn)一步提高準(zhǔn)確率。

    猜你喜歡
    消歧類(lèi)別實(shí)體
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    服務(wù)類(lèi)別
    論類(lèi)別股東會(huì)
    商事法論集(2014年1期)2014-06-27 01:20:42
    中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
    射阳县| 邛崃市| 龙江县| 犍为县| 龙泉市| 三台县| 维西| 怀柔区| 手机| 乾安县| 永修县| 武穴市| 革吉县| 轮台县| 岳普湖县| 克什克腾旗| 遂宁市| 若尔盖县| 三台县| 滨海县| 长武县| 南溪县| 邵阳市| 楚雄市| 许昌县| 沐川县| 鄂尔多斯市| 任丘市| 浮山县| 南岸区| 浏阳市| 社旗县| 五莲县| 兴国县| 民丰县| 邵阳县| 石台县| 玛多县| 鹤峰县| 滕州市| 临夏县|