• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法

    2016-06-02 08:12:56汪沛線巖團(tuán)郭劍毅文永華陳瑋王紅斌
    智能系統(tǒng)學(xué)報(bào) 2016年3期
    關(guān)鍵詞:消歧維基百科知識(shí)庫(kù)

    汪沛,線巖團(tuán),2,郭劍毅,2,文永華,2,陳瑋,2,王紅斌,2

    (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    ?

    一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法

    汪沛1,線巖團(tuán)1,2,郭劍毅1,2,文永華1,2,陳瑋1,2,王紅斌1,2

    (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    摘要:針對(duì)特定領(lǐng)域提出了一種結(jié)合詞向量和圖模型的方法來(lái)實(shí)現(xiàn)實(shí)體消歧。以旅游領(lǐng)域?yàn)槔紫冗x取維基百科離線數(shù)據(jù)庫(kù)中的旅游分類下的頁(yè)面內(nèi)容構(gòu)建領(lǐng)域知識(shí)庫(kù),然后用知識(shí)庫(kù)中的文本和從各大旅游網(wǎng)站爬取到的旅游文本,通過(guò)詞向量計(jì)算工具Word2Vec構(gòu)建詞向量模型,結(jié)合人工標(biāo)注的實(shí)體關(guān)系圖譜,采用一種基于圖的隨機(jī)游走算法輔助計(jì)算相似度,使其能夠較準(zhǔn)確地計(jì)算旅游領(lǐng)域詞與詞之間的相似度。最后,提取待消歧實(shí)體的背景文本的若干關(guān)鍵詞和知識(shí)庫(kù)中候選實(shí)體文本的若干關(guān)鍵詞,利用訓(xùn)練好的詞向量模型結(jié)合圖模型分別進(jìn)行交叉相似度計(jì)算,把相似度均值最高的候選實(shí)體作為最終的目標(biāo)實(shí)體。實(shí)驗(yàn)結(jié)果表明,這種新的相似度計(jì)算方法能夠有效獲取實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體之間的相似度,從而能夠較為準(zhǔn)確地實(shí)現(xiàn)特定領(lǐng)域的實(shí)體消歧。

    關(guān)鍵詞:實(shí)體消歧;實(shí)體鏈接;Word2Vec;圖模型;隨機(jī)游走;維基百科 在提取模塊中,分別利用TextRank 算法提取出待消歧的實(shí)體指稱所在的背景文本的若干關(guān)鍵詞和候選實(shí)體對(duì)應(yīng)的知識(shí)庫(kù)描述文本的若干關(guān)鍵詞,這里提取的兩組關(guān)鍵詞用于后面的相似度計(jì)算。 提取模塊分為兩個(gè)步驟:候選實(shí)體獲取和關(guān)鍵詞提取。候選實(shí)體獲取實(shí)質(zhì)上就是羅列出所有可能是待消歧的實(shí)體指稱項(xiàng)的目標(biāo)實(shí)體,由于中文語(yǔ)義的多樣性,一個(gè)詞通常有多種表達(dá)方式,同樣一個(gè)實(shí)體也可能有多種形式,例如,在維基百科的重定向頁(yè)面中,“驢友”與“背包客”指的是同一個(gè)實(shí)體,“蟲(chóng)草”與“冬蟲(chóng)夏草”指的也是同一實(shí)體。針對(duì)這種情況,利用維基百科離線數(shù)據(jù)庫(kù)提供的3個(gè)SQL文件即可得到所有重定向的同義詞,并且能得到他們對(duì)應(yīng)的頁(yè)面信息和鏈接信息。 提取即在確定候選實(shí)體后,從待消歧實(shí)體所在文本中抽取n個(gè)關(guān)鍵詞,然后再?gòu)乃泻蜻x實(shí)體在知識(shí)庫(kù)中對(duì)應(yīng)的文本中分別抽取n個(gè)關(guān)鍵詞。這樣做是因?yàn)楸疚闹邢嗨贫扔?jì)算的前提是假設(shè)待消歧背景文本與知識(shí)庫(kù)中對(duì)應(yīng)文本的主題一致,在這個(gè)前提下,本文消歧任務(wù)實(shí)質(zhì)已經(jīng)轉(zhuǎn)變?yōu)橛?jì)算待消歧實(shí)體指稱所在背景文本與知識(shí)庫(kù)中候選實(shí)體對(duì)應(yīng)文本之間的相似度。分別抽取兩個(gè)文本各n個(gè)關(guān)鍵詞,這里采用TextRank算法抽取權(quán)重最高的n個(gè)關(guān)鍵詞,具體計(jì)算方法參照本文1.2節(jié)。根據(jù)詞與詞之間在規(guī)定窗口大小內(nèi)相互進(jìn)行“投票”計(jì)算出每個(gè)詞在文檔中的權(quán)重,在使用TextRank算法計(jì)算圖中點(diǎn)的權(quán)重時(shí),需要給圖中的點(diǎn)指定任意的初值并遞歸計(jì)算直到某個(gè)詞語(yǔ)分?jǐn)?shù)收斂,收斂后每個(gè)點(diǎn)都獲得一個(gè)分?jǐn)?shù),代表該點(diǎn)在圖中的重要性,也就是該詞語(yǔ)在文檔中的重要性。表1為利用該算法確定的待消歧實(shí)體文本和對(duì)應(yīng)的3個(gè)候選實(shí)體文本中的關(guān)鍵詞,待消歧實(shí)體和候選實(shí)體1指的是香格里拉(景點(diǎn)名),候選實(shí)體2指的是香格里拉(酒店名),候選實(shí)體3指的是香格里拉(城市名)。

    實(shí)體鏈接是知識(shí)庫(kù)構(gòu)建的關(guān)鍵技術(shù)之一,其目的是將文本中已經(jīng)獲取到的命名實(shí)體鏈接到已有的知識(shí)庫(kù)中,實(shí)體消岐是實(shí)體鏈接的關(guān)鍵任務(wù)。由于海量數(shù)據(jù)中存在的實(shí)體指稱通??梢詫?duì)應(yīng)到多個(gè)命名實(shí)體概念,這無(wú)疑對(duì)實(shí)體消歧造成了很大的障礙。實(shí)體消歧的任務(wù)就是將這些存在歧義的實(shí)體指稱在眾多的候選實(shí)體中匹配出對(duì)應(yīng)的目標(biāo)實(shí)體。目前實(shí)體消歧任務(wù)分為兩種類型:實(shí)體聚類消歧和實(shí)體鏈接消歧[1],實(shí)體聚類消歧就是利用聚類算法來(lái)對(duì)實(shí)體進(jìn)行消歧,而實(shí)體鏈接消歧則是借助外部知識(shí)庫(kù),將待消歧命名實(shí)體指稱鏈接到外部知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體來(lái)進(jìn)行消歧。本文選擇用后者來(lái)實(shí)現(xiàn)特定領(lǐng)域的實(shí)體消歧。

    實(shí)體消歧的本質(zhì)是計(jì)算實(shí)體指稱項(xiàng)和候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體[2]。針對(duì)英文實(shí)體消岐,Bunescu和Pasca[3]提出了一種基于余弦相似度排序的方法來(lái)實(shí)現(xiàn)實(shí)體消歧。Bagga和Gideon[4-5]等將實(shí)體指稱項(xiàng)的上下文與候選實(shí)體的上下文分別表示成BOW(Bag of words)向量形式,利用向量空間模型實(shí)現(xiàn)了人名的消歧。韓先培等[6]提出一種基于圖的實(shí)體消歧方法,將指稱項(xiàng)與實(shí)體通過(guò)帶權(quán)的無(wú)向圖連接起來(lái),從而將指稱項(xiàng)與實(shí)體、實(shí)體與實(shí)體間的語(yǔ)義關(guān)聯(lián)通過(guò)圖的形式表征出來(lái)。上述工作主要是對(duì)英文的實(shí)體消歧,相比較而言,針對(duì)中文的實(shí)體消歧工作遠(yuǎn)遠(yuǎn)落后于英文。在中文的實(shí)體消歧領(lǐng)域,王建勇等[7]利用一種基于圖的GHOST算法,結(jié)合AP聚類算法進(jìn)行相似度計(jì)算,在人名消歧方面取得了較好的實(shí)驗(yàn)結(jié)果。懷寶興等[8]提出了一種基于概率主題模型的命名實(shí)體鏈接方法,在通用領(lǐng)域,通過(guò)構(gòu)建歧義詞表,用LDA基于語(yǔ)義層面對(duì)文檔建模和實(shí)體消岐;寧博等[9]針對(duì)中文命名實(shí)體消歧問(wèn)題提出了一種基于異構(gòu)知識(shí)庫(kù)的層次聚類方法,將維基百科和百度百科結(jié)合起來(lái)作為多源知識(shí)庫(kù),并利用Hadoop平臺(tái)進(jìn)行層次聚類,從而實(shí)現(xiàn)實(shí)體消歧。另外,朱敏等[10]提出了一種實(shí)體聚類消歧與百度百科詞頻的同類實(shí)體消歧相結(jié)合的消歧方法,通過(guò)構(gòu)建同義詞表、優(yōu)化知識(shí)庫(kù)、改進(jìn)拼音距離編輯算法等方式實(shí)現(xiàn)對(duì)中文微博的實(shí)體消歧。

    同樣在旅游領(lǐng)域也存在著大量的實(shí)體同名現(xiàn)象,在維基百科中“金花”一詞有11個(gè)同名實(shí)體,“香格里拉”一詞有12個(gè)同名實(shí)體,這無(wú)疑對(duì)消歧工作產(chǎn)生很大影響,例如,給定兩個(gè)句子:

    1)2014年,香格里拉縣共接待國(guó)內(nèi)外游客1 080.22萬(wàn)人次。

    2)在結(jié)束了一天的旅程后我們選擇了在香格里拉酒店入住。

    在上面的例子中,很明顯第一句中的“香格里拉”指的是某旅游勝地,第二句指的是某著名酒店品牌,但是如何讓計(jì)算機(jī)也能將實(shí)體指稱項(xiàng)準(zhǔn)確鏈接到知識(shí)庫(kù)中具有特定概念的實(shí)體仍然是自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。

    傳統(tǒng)的消歧模型難以有效利用能反映領(lǐng)域特有屬性的實(shí)體詞特征。因此,本文針對(duì)旅游領(lǐng)域?qū)嶓w間的關(guān)系較為復(fù)雜的特征,提出了一種結(jié)合詞向量和圖模型的消歧方法,通過(guò)提取實(shí)體指稱項(xiàng)背景文本的若干關(guān)鍵詞和候選實(shí)體文本的若干關(guān)鍵詞,利用訓(xùn)練好的模型對(duì)這些關(guān)鍵詞分別進(jìn)行交叉相似度計(jì)算,把相似度均值最高的候選實(shí)體作為最終的目標(biāo)實(shí)體。

    1相關(guān)理論

    1.1詞向量

    在自然語(yǔ)言處理中,要將自然語(yǔ)言理解的問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問(wèn)題,就需將自然語(yǔ)言的符號(hào)數(shù)學(xué)化,其中最直觀和常用的方法是 One-hot 表示法。這種方法將每個(gè)詞表示為一個(gè)很長(zhǎng)的向量,其維數(shù)是詞匯表大小,其中絕大多數(shù)元素為 0,只有一個(gè)維度的值為 1,這個(gè)維度就代表當(dāng)前的詞。

    在自然語(yǔ)言處理中,常將One-hot 表示采用稀疏的方式進(jìn)行存儲(chǔ),即為每個(gè)詞分配一個(gè)數(shù)字 ID。該方法因其簡(jiǎn)單易用,廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)中,如N-gram 模型中就采用這種詞向量表示法。 但這種表述方法也存在一定問(wèn)題:其表示的任意兩個(gè)詞之間是孤立的,無(wú)法表示這兩個(gè)詞之間的依賴關(guān)系,從詞向量上看不出兩個(gè)詞是否相關(guān);采用稀疏表示法,在處理某些任務(wù),如構(gòu)建 N-gram 模型時(shí),會(huì)引起維數(shù)災(zāi)難問(wèn)題。

    而在機(jī)器學(xué)習(xí)領(lǐng)域,一般采用分布式表示(distributed representation) 的方法表示詞向量,這種表示法最早由 Hinton[11]提出,通常稱為 Word Representation。這種方法將詞用一種低維實(shí)數(shù)向量表示,優(yōu)點(diǎn)在于相似的詞在距離上更接近,能體現(xiàn)出不同詞之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。同時(shí),較低的維度也使特征向量在應(yīng)用時(shí)有一個(gè)可接受的復(fù)雜度。 因此,新近提出的許多語(yǔ)言模型,如潛在語(yǔ)義分析(latent semantic analysis, LSA)模型、潛在狄利克雷分布 ( latent dirichlet allocation,LDA)模型以及目前流行的神經(jīng)網(wǎng)絡(luò)模型等,都采用這種方法表示詞向量[12-13]。

    本文利用旅游領(lǐng)域的豐富語(yǔ)料對(duì)詞向量模型進(jìn)行訓(xùn)練,從而將抽取的關(guān)鍵詞進(jìn)行向量化表示,用這若干個(gè)關(guān)鍵詞向量來(lái)表征一篇文檔,通過(guò)計(jì)算關(guān)鍵詞向量間的余弦相似度得出它們之間的關(guān)聯(lián)程度,進(jìn)而得出文檔之間的相似度。

    1.2TextRank算法

    同一文檔中的大多數(shù)詞語(yǔ)都是為表達(dá)同一主題服務(wù)的,它們之間具有一定的語(yǔ)義關(guān)系。和詞語(yǔ)W有語(yǔ)義關(guān)系的詞語(yǔ)越多,詞語(yǔ)W越可能是表達(dá)文檔主題的重要詞語(yǔ),同時(shí)和詞語(yǔ)W有語(yǔ)義關(guān)系的詞語(yǔ)的重要性也會(huì)影響詞語(yǔ)W的重要性。根據(jù)這兩個(gè)特性,本節(jié)引入基于圖的排序算法用于抽取多文檔關(guān)鍵詞?;趫D的排序算法是決定圖中點(diǎn)重要性的一種方法,它根據(jù)全局信息(圖的結(jié)構(gòu))而不是局部信息來(lái)對(duì)節(jié)點(diǎn)排序。其基本理論是“投票”,當(dāng)圖中一個(gè)點(diǎn)A和另一個(gè)點(diǎn)B之間有連線時(shí),那么點(diǎn)A就給點(diǎn)B投票,點(diǎn)B獲得的投票越多,點(diǎn)B就越重要;更進(jìn)一步,投票點(diǎn)A的重要性決定了其投票的重要性,因此,點(diǎn)B的分?jǐn)?shù)由其獲得的投票和給B投票的點(diǎn)的分?jǐn)?shù)共同決定。

    Mihalcea[14]將在自然語(yǔ)言處理領(lǐng)域中應(yīng)用的基于圖的排序算法稱為TextRank,一般TextRank模型可以表示為一個(gè)加權(quán)的有向圖。TextRank的思想來(lái)源于Google的PageRank算法,通過(guò)把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞抽取。本文采用該算法將文檔表示為無(wú)向圖G(V,E),由點(diǎn)集合V和邊集合E組成,E是V×V的子集,圖中兩點(diǎn)i,j之間邊的權(quán)重為Wj。對(duì)于一個(gè)給定的點(diǎn)Vi,In(Vi)為指向該點(diǎn)的點(diǎn)集合,Out(Vi)為點(diǎn)Vi指向的點(diǎn)集合,點(diǎn)Vi的分?jǐn)?shù)定義為式(2):

    (2)

    式中:d為阻尼因數(shù),取值范圍為0~1,代表從圖中某一特定點(diǎn)指向其他任意點(diǎn)的概率。通過(guò)這種算法我們可以獲得每個(gè)詞語(yǔ)在文檔中的分?jǐn)?shù),從而可以根據(jù)分?jǐn)?shù)大小來(lái)進(jìn)行關(guān)鍵詞的排序。

    本文利用該算法抽取文檔中的關(guān)鍵詞,分別用抽取的關(guān)鍵詞來(lái)表征待消歧實(shí)體指稱項(xiàng)所在文本和目標(biāo)實(shí)體所在文本。

    1.3隨機(jī)游走算法

    隨機(jī)游走模型是在1905年Karl Pearson[15]首次提出的一種數(shù)學(xué)統(tǒng)計(jì)模型,它是一連串的軌跡組成的,其中每一次都是隨機(jī)的。它能用來(lái)表示不規(guī)則的變動(dòng)形式,如同一個(gè)人酒后亂步,所形成的隨機(jī)過(guò)程記錄[16]。它的基本思想是,從一個(gè)或一系列頂點(diǎn)開(kāi)始遍歷一張圖,在任意一個(gè)頂點(diǎn),遍歷者將以概率1-α游走到這個(gè)頂點(diǎn)的鄰居頂點(diǎn),以概率α隨機(jī)跳躍到圖中的任何一個(gè)頂點(diǎn),稱α跳轉(zhuǎn)發(fā)生概率,每次游走后得出一個(gè)概率分布,該概率分布刻畫(huà)了圖中每一個(gè)頂點(diǎn)被訪問(wèn)到的概率,用這個(gè)概率分布作為下一次游走的輸入并反復(fù)迭代這一過(guò)程,當(dāng)滿足一定前提條件時(shí),這個(gè)概率分布會(huì)趨于收斂,收斂后,即可以得到一個(gè)穩(wěn)定的概率分布。近年來(lái),隨機(jī)游走算法逐漸開(kāi)始吸引機(jī)器學(xué)習(xí)研究者的目光,并開(kāi)始被應(yīng)用于半監(jiān)督學(xué)習(xí)[17-18]、聚類分析[19-21]、圖像分割[22]和圖的匹配[23]等問(wèn)題上。與隨機(jī)游走相關(guān)的擴(kuò)散核也被應(yīng)用于[24-28]基于核的學(xué)習(xí)等方面。

    由于實(shí)體間的關(guān)系錯(cuò)綜復(fù)雜,可以將這種關(guān)系抽象為一種圖模型,本文在這種圖模型上運(yùn)用隨機(jī)游走算法可以將實(shí)體間的關(guān)聯(lián)程度準(zhǔn)確地表征出來(lái)。

    2領(lǐng)域?qū)嶓w消歧

    2.1系統(tǒng)流程

    本文提出的方法由4個(gè)模塊構(gòu)成分別為關(guān)鍵詞提取模塊、詞向量模塊、圖模型模塊和空實(shí)體判斷模塊。

    在詞向量模塊中,抽取維基百科離線數(shù)據(jù)中旅游分類下的頁(yè)面信息構(gòu)建領(lǐng)域知識(shí)庫(kù),由于維基百科中包含大量的結(jié)構(gòu)化信息,取該知識(shí)庫(kù)的摘要信息作為語(yǔ)料對(duì)詞向量模型進(jìn)行訓(xùn)練,這時(shí),領(lǐng)域?qū)嶓w都能通過(guò)該模型表征為一個(gè)向量,從而實(shí)現(xiàn)關(guān)鍵詞之間的相似度計(jì)算。

    在圖模型模塊中,人工構(gòu)建一個(gè)領(lǐng)域?qū)嶓w關(guān)系圖譜,通過(guò)在該圖譜上的隨機(jī)游走算法實(shí)現(xiàn)關(guān)鍵詞之間相似度的計(jì)算。

    在空實(shí)體判斷模塊中,從待消歧實(shí)體指稱所在的文本中抽取若干關(guān)鍵詞和從候選實(shí)體所在文本中抽取的關(guān)鍵詞分別用本文提出的圖模型與詞向量方法相結(jié)合進(jìn)行交叉相似度計(jì)算取平均值,選擇其中最大的相似度平均值,因?yàn)橛?jì)算結(jié)果所對(duì)應(yīng)的目標(biāo)實(shí)體未必在我們的知識(shí)庫(kù)中存在,這時(shí)通過(guò)比對(duì)該平均值與通過(guò)大量實(shí)驗(yàn)確定的空實(shí)體閾值λ的大小,如果大于該閾值λ,則該實(shí)體為目標(biāo)實(shí)體,如果小于λ,則認(rèn)為該實(shí)體指稱在知識(shí)庫(kù)中沒(méi)有與之對(duì)應(yīng)的目標(biāo)實(shí)體,即空實(shí)體。

    圖1 系統(tǒng)總體框架Fig.1 Overall framework of system

    2.2關(guān)鍵詞提取

    2.3詞向量的訓(xùn)練和應(yīng)用

    Word2Vec是Google 在2013年推出并開(kāi)源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。Word2Vec輸出的詞向量可以被用來(lái)做很多NLP相關(guān)的工作,比如聚類、找同義詞、詞性分析等。如果換個(gè)思路,把詞當(dāng)做特征,那么Word2Vec就可以把特征映射到K維向量空間,可以為文本數(shù)據(jù)尋求更加深層次的特征表示,本文將K值選定為200維。

    本文主要利用該工具來(lái)實(shí)現(xiàn)指稱項(xiàng)與目標(biāo)實(shí)體間的相似度計(jì)算,為了提高實(shí)驗(yàn)在旅游領(lǐng)域的準(zhǔn)確率,在選取訓(xùn)練語(yǔ)料時(shí)有針對(duì)性地選取旅游領(lǐng)域文本,這樣就最大程度避免其他領(lǐng)域文本對(duì)詞向量模型的精準(zhǔn)度產(chǎn)生影響,本文一方面采用維基百科的旅游分類下的文本來(lái)作為訓(xùn)練詞向量模型的語(yǔ)料,同時(shí)還加入了在各大旅游網(wǎng)站爬取的新聞?wù)Z料。訓(xùn)練完成后的模型能夠比較準(zhǔn)確地計(jì)算兩個(gè)旅游領(lǐng)域詞匯的相似度,效果比較理想。如表2所示為利用該工具計(jì)算出的背景文本中關(guān)鍵詞“香格里拉”與知識(shí)庫(kù)中目標(biāo)實(shí)體文本的7個(gè)關(guān)鍵詞之間的相似度,從圖中可以發(fā)現(xiàn)其與“景點(diǎn)”、“旅游”等詞語(yǔ)的相似度要明顯高于“民族”、“比重”,這與現(xiàn)實(shí)世界中它們之間的語(yǔ)義關(guān)聯(lián)程度相一致。通過(guò)詞向量計(jì)算處理,進(jìn)一步加強(qiáng)了實(shí)體詞的領(lǐng)域相關(guān)性,有助于后續(xù)環(huán)節(jié)的相似度計(jì)算。

    表2 用詞向量計(jì)算出的關(guān)鍵詞之間相似度

    2.4圖模型的構(gòu)建和應(yīng)用

    維基百科是目前世界上最大的在線百科全書(shū),其內(nèi)容每天都會(huì)由世界各地的志愿者進(jìn)行編輯和更新,有著很好的時(shí)效性,另外,維基百科的頁(yè)面包含有類別信息、重定向信息、外部鏈接信息等,這些信息無(wú)形中為實(shí)體之間建立了語(yǔ)義上的關(guān)聯(lián),所以本文選擇維基百科作為實(shí)體消歧的知識(shí)庫(kù)。由于本文是針對(duì)特定領(lǐng)域,本文抽取“旅游”分類信息下的所有頁(yè)面作為最終的知識(shí)庫(kù)來(lái)源,這樣我們?cè)诤艽蟪潭壬蠈?shí)現(xiàn)了消歧,例如,“香格里拉(科幻小說(shuō))”和“香格里拉(電視劇)”就自然不在知識(shí)庫(kù)中,也就在一定程度上縮小了候選實(shí)體的范圍。在此基礎(chǔ)上,我們搭建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系標(biāo)注平臺(tái),利用圖數(shù)據(jù)庫(kù)Neo4j存儲(chǔ)數(shù)據(jù),這種圖數(shù)據(jù)庫(kù)與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比能夠更準(zhǔn)確有效地表示各個(gè)數(shù)據(jù)項(xiàng)之間的復(fù)雜關(guān)系,將從維基百科中抽取到的領(lǐng)域?qū)嶓w導(dǎo)入該平臺(tái)的圖數(shù)據(jù)庫(kù),通過(guò)人工標(biāo)注的方式構(gòu)建了一個(gè)實(shí)體與實(shí)體之間的關(guān)系圖譜,目的是通過(guò)利用在該圖譜上的隨機(jī)游走算法輔助計(jì)算關(guān)鍵詞之間的相似度,目前該平臺(tái)已經(jīng)擁有13 956個(gè)實(shí)體,8 127對(duì)關(guān)系。圖2是部分實(shí)體及其之間的關(guān)系。

    圖2 部分實(shí)體關(guān)系圖譜Fig.2 Part of the entity relationship mapping

    為了提高關(guān)鍵詞之間相似度計(jì)算的準(zhǔn)確率,我們?cè)谠~向量的基礎(chǔ)上加入了利用圖模型計(jì)算的相似度來(lái)綜合衡量關(guān)鍵詞之間的相似度,下面將重點(diǎn)介紹一種用來(lái)計(jì)算相似度的基于圖的隨機(jī)游走算法。

    由于目前我們已經(jīng)人工手動(dòng)搭建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系庫(kù),圖2所示的就是一個(gè)典型的云南旅游領(lǐng)域相關(guān)實(shí)體的部分關(guān)系圖譜,從圖中我們認(rèn)為“大理古城”與“大理市”之間的相似度要高于“乳扇”與“大理市”之間的相似度,因?yàn)榍皟烧咧g是“位于”的關(guān)系直接相連,而后兩者之間是通過(guò)“大理古城”這個(gè)中間實(shí)體相聯(lián)系起來(lái)的,所以相比較而言,“乳扇”與“大理市”之間的聯(lián)系就要弱得多,同樣,“特產(chǎn)”與“大理古城”之間的相似度要比“旅游景點(diǎn)”與“大理古城”之間的相似度要弱得多,因?yàn)楹笳咧g的路徑更多,這些都與現(xiàn)實(shí)中實(shí)體之間的聯(lián)系密切程度相一致,而基于圖的隨機(jī)游走算法能將這種實(shí)體之間的聯(lián)系定量地表示出來(lái)。

    (a)從起始點(diǎn)出發(fā)

    (b)到達(dá)第2個(gè)頂點(diǎn)后選擇下一個(gè)目標(biāo)

    (c)到達(dá)第3個(gè)頂點(diǎn)后有兩個(gè)選擇

    (d)依概率到達(dá)下一個(gè)目標(biāo)圖3 隨機(jī)游走原理圖Fig.3 Schematic diagram of random walk

    如圖3所示我們從節(jié)點(diǎn)“大理古城”出發(fā),在3個(gè)結(jié)點(diǎn)組成的圖上隨機(jī)游走,邊上數(shù)字是轉(zhuǎn)移概率,圖3(a)~(d)分別顯示4種時(shí)刻的狀態(tài)。圖3(a)中“大理古城”和“古城”之間只有一個(gè)單向的關(guān)系,箭頭的方向表示關(guān)系的方向,所以“大理古城”到“古城”之間的關(guān)系在矩陣中表示為1,圖3(c)中“景點(diǎn)”和其他兩個(gè)實(shí)體間均有一個(gè)單向的關(guān)系,所以“景點(diǎn)”和另外兩個(gè)實(shí)體之間的關(guān)系在矩陣中都表示為1/2。由于實(shí)體間的關(guān)系錯(cuò)綜復(fù)雜,可以將這種關(guān)系抽象為一種圖模型,本文在這種圖模型上運(yùn)用隨機(jī)游走算法可以將實(shí)體間的關(guān)聯(lián)程度準(zhǔn)確地表征出來(lái)。

    具體算法流程如下:

    1)給定初始化矩陣A,并令B=A;

    2)根據(jù)圖中實(shí)體間的轉(zhuǎn)移概率,生成矩陣M;

    3)計(jì)算C=α·M·B+(1-α)A;

    4)令B=C;

    5)重復(fù)步驟3)、4),直到C達(dá)到穩(wěn)定狀態(tài)或者迭代次數(shù)超過(guò)某個(gè)閾值。

    12次迭代后矩陣C達(dá)到穩(wěn)定狀態(tài),概率分布為

    所以在經(jīng)過(guò)多次迭代運(yùn)算后,這種基于圖的概率分布會(huì)趨向于一個(gè)穩(wěn)定值,從C矩陣我們可以看出結(jié)點(diǎn)1與結(jié)點(diǎn)2、結(jié)點(diǎn)4、結(jié)點(diǎn)5的相似度較大,分別為0.167 8、0.110 7、0.105 4,對(duì)應(yīng)著圖2中“大理古城”與“乳扇”、“古城”、“大理市”的相似度,而結(jié)點(diǎn)1與結(jié)點(diǎn)3的相似度最小,只有0.005 2,這與圖2中展示的實(shí)際情況也比較相符,如此一來(lái),我們就將這種圖上的結(jié)點(diǎn)間的相似度實(shí)現(xiàn)了量化,并且實(shí)際效果與現(xiàn)實(shí)情況較為一致,可見(jiàn)該算法在輔助計(jì)算相似度時(shí)的實(shí)用價(jià)值。

    2.5相似度計(jì)算

    2.2節(jié)中已經(jīng)確定出權(quán)重最高的n個(gè)關(guān)鍵詞,在此基礎(chǔ)上分別用這n個(gè)關(guān)鍵詞來(lái)作為文本的特征模型:

    式中:vq為帶消歧實(shí)體指稱所在背景文本的特征模型,ve為知識(shí)庫(kù)中候選實(shí)體對(duì)應(yīng)文本的特征模型,w為利用TextRank算法得出的文本關(guān)鍵詞,詞與詞之間的相似度用向量間的余弦值表示,具體計(jì)算如式(3)所示:

    (3)

    式中加號(hào)的前半部分是利用詞向量求關(guān)鍵詞之間的相似度,后半部分是利用基于圖的隨機(jī)游走算法計(jì)算的關(guān)鍵詞之間的相似度,其中wq為背景文本中關(guān)鍵詞的詞向量,we為候選實(shí)體對(duì)應(yīng)文本關(guān)鍵詞的詞向量,通過(guò)參數(shù)α來(lái)決定這兩種相似度計(jì)算方法的權(quán)重,這樣我們就能得到背景文本與候選實(shí)體文本關(guān)鍵詞兩兩進(jìn)行計(jì)算后的相似度,一共能得到n2個(gè)Sim(q,e),然后対它們求均值,用這個(gè)均值來(lái)表示兩篇文檔的相似度,具體公式如式(4)所示:

    (4)

    最后利用上面計(jì)算的背景文本與候選實(shí)體文本的相似度,來(lái)對(duì)候選實(shí)體進(jìn)行消歧,相似度最大的即為目標(biāo)實(shí)體。

    2.6空實(shí)體判斷

    由于知識(shí)庫(kù)不可能做到非常全面,實(shí)際消歧過(guò)程中往往會(huì)出現(xiàn)空鏈接的現(xiàn)象,即待消歧的實(shí)體指稱項(xiàng)在知識(shí)庫(kù)中并沒(méi)有與之對(duì)應(yīng)的目標(biāo)實(shí)體。這種情況有兩種可能:1)在獲取候選實(shí)體階段通過(guò)直接匹配和同義詞匹配兩種方式都沒(méi)有匹配到與之對(duì)應(yīng)的候選實(shí)體;2)在獲取候選實(shí)體階段匹配到至少一個(gè)候選實(shí)體,但是實(shí)際上這個(gè)候選實(shí)體并不是語(yǔ)義相關(guān)的。

    第1種下情況將其直接返回NIL。第2種情況下通過(guò)設(shè)定一個(gè)閾值λ,如果最終的相似度小于λ,則認(rèn)為實(shí)體指稱項(xiàng)與候選實(shí)體語(yǔ)義上不相關(guān),同樣返回NIL。

    3實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

    本文利用維基百科的離線數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)詞向量模型的訓(xùn)練,并在一個(gè)小型測(cè)試集上進(jìn)行測(cè)試。本文通過(guò)兩個(gè)實(shí)驗(yàn)對(duì)所提出的方法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)一通過(guò)對(duì)關(guān)鍵詞在不同個(gè)數(shù)下的對(duì)比試驗(yàn),確定出消歧準(zhǔn)確率在關(guān)鍵詞個(gè)數(shù)為多少時(shí)達(dá)到最高;在實(shí)驗(yàn)二中加入了對(duì)空實(shí)體的判斷,通過(guò)對(duì)空實(shí)體閾值λ的不斷調(diào)優(yōu)得出在不同關(guān)鍵詞個(gè)數(shù)下準(zhǔn)確率是否有所提升,提升的程度如何以及最終的消歧準(zhǔn)確率對(duì)比。

    實(shí)驗(yàn)步驟如下:

    1)利用旅游領(lǐng)域的百科語(yǔ)料對(duì)詞向量空間模型進(jìn)行訓(xùn)練;

    2)利用2.2中的方法在待消歧實(shí)體指稱所在的文本中抽取n個(gè)關(guān)鍵詞;

    3)用同樣的方法在所有候選實(shí)體所在文本中分別抽取n個(gè)關(guān)鍵詞;

    4)利用2.3和2.4中包含有豐富語(yǔ)義信息的模型將上面兩步中的n個(gè)關(guān)鍵詞分別進(jìn)行交叉相似度計(jì)算,并且取平均值;

    5)選取其中相似度平均值最大的作為最終目標(biāo)實(shí)體。

    3.1語(yǔ)料的獲取和模型的訓(xùn)練

    由于本文需要利用Word2Vec工具對(duì)詞向量空間模型進(jìn)行訓(xùn)練,所以采用了維基百科2014年12月的中文離線數(shù)據(jù)庫(kù),并提取其中的旅游分類下的頁(yè)面信息,共計(jì)71 208條。將這些語(yǔ)料經(jīng)過(guò)預(yù)處理,提取頁(yè)面中的摘要信息,形成一篇篇的文本。接著編制爬取程序從國(guó)內(nèi)幾個(gè)著名的旅游網(wǎng)站爬取了相關(guān)的文本,與維基文本結(jié)合,共計(jì)75 016篇。作為本次試驗(yàn)的訓(xùn)練語(yǔ)料。經(jīng)過(guò)訓(xùn)練得到一個(gè)131M的實(shí)驗(yàn)?zāi)P臀募ectors.bin。

    利用基于圖的隨機(jī)游走算法計(jì)算相似度時(shí),圖模型的構(gòu)建是至關(guān)重要的一個(gè)環(huán)節(jié),我們將上一個(gè)環(huán)節(jié)中得到的領(lǐng)域?qū)嶓w語(yǔ)料通過(guò)人工標(biāo)注的方式構(gòu)建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系圖譜,通過(guò)在這張領(lǐng)域?qū)嶓w關(guān)系網(wǎng)絡(luò)上的隨機(jī)游走算法來(lái)輔助計(jì)算關(guān)鍵詞之間的相似度。

    3.2測(cè)試集的選取

    實(shí)驗(yàn)所用來(lái)測(cè)試的是一個(gè)小規(guī)模的測(cè)試集,本文從某旅游網(wǎng)站上爬取了596篇旅游攻略作為測(cè)試文本,通過(guò)觀察發(fā)現(xiàn)并不是每一篇文本中都包含有存在歧義的實(shí)體指稱,所以通過(guò)人工選取符合消歧條件的文本共計(jì)135篇,從每一篇文本中人工標(biāo)記出存在歧義的旅游領(lǐng)域?qū)嶓w指稱,并將其指向的知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體標(biāo)注出來(lái)用于對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。

    3.3實(shí)驗(yàn)結(jié)果與分析

    實(shí)驗(yàn)1本文就兩種相似度計(jì)算方法的權(quán)重值α的確定采用了一種自動(dòng)調(diào)優(yōu)的方法,我們的問(wèn)題可以簡(jiǎn)化為C=α·A+(1-α)·B,要使實(shí)驗(yàn)效果相對(duì)較好就是要使關(guān)鍵詞之間的相似度值差異較大,即使C的方差達(dá)到最大值,這時(shí)問(wèn)題又可以簡(jiǎn)化為求使得C方差最大時(shí)α的值。先給定α一個(gè)初始值0.5 ,由于基于圖的方法在本文中只是起到輔助作用,所以將α每次增加0.05,記錄取每個(gè)不同α值的情況下C的方差值,實(shí)驗(yàn)結(jié)果如圖4所示。

    圖4 不同α值時(shí)對(duì)應(yīng)的樣本方差Fig.4 The sample variance of different α values

    根據(jù)實(shí)驗(yàn)結(jié)果可以得出,當(dāng)α的值取0.7時(shí),相似度樣本的方差達(dá)到最大值0.366 6,說(shuō)明此時(shí)關(guān)鍵詞之間的相似度分布最為稀疏,相似度值差異最大。

    實(shí)驗(yàn)2本文就關(guān)鍵詞個(gè)數(shù)n的確定做了6組實(shí)驗(yàn),分別測(cè)試n在取5、6、7、8、9、10時(shí)對(duì)消歧準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如圖5所示。

    圖5 不同關(guān)鍵詞個(gè)數(shù)時(shí)系統(tǒng)準(zhǔn)確率Fig.5 Accuracy of different number of keywords

    根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),針對(duì)本文的測(cè)試集和知識(shí)庫(kù),將關(guān)鍵詞個(gè)數(shù)n定為7的時(shí)候準(zhǔn)確率達(dá)到最大值90.08%。但是考慮到該知識(shí)庫(kù)其實(shí)并不完備,并非所有的實(shí)體指稱項(xiàng)在知識(shí)庫(kù)中都有相應(yīng)的目標(biāo)實(shí)體與之對(duì)應(yīng),即所有的候選實(shí)體可能并不是目標(biāo)實(shí)體,而判斷空實(shí)體時(shí)只考慮了在知識(shí)庫(kù)中是否存在,不存在則返回NIL,如果存在,本文的方法是取相似度均值最大的候選實(shí)體,這就不可避免地增加了系統(tǒng)的誤差。

    實(shí)驗(yàn)3針對(duì)以上這種空實(shí)體,本文通過(guò)大量的實(shí)驗(yàn),針對(duì)不同的關(guān)鍵詞個(gè)數(shù)分別對(duì)其空實(shí)體閾值 λ 進(jìn)行調(diào)優(yōu),最終結(jié)果如表3所示。

    表3 調(diào)優(yōu)后的空實(shí)體閾值λ

    在加入空實(shí)體閾值λ后,系統(tǒng)準(zhǔn)確率在關(guān)鍵詞個(gè)數(shù)為5、6、7、8時(shí)都有不同程度的提高,在9、10時(shí)反而出現(xiàn)下降的趨勢(shì)。經(jīng)過(guò)分析發(fā)現(xiàn),準(zhǔn)確率的提升程度隨著關(guān)鍵詞的增多而下降,這是因?yàn)殛P(guān)鍵詞的權(quán)重是逐漸遞減的,個(gè)數(shù)的增加會(huì)使相似度均值發(fā)生不同程度的下降,這會(huì)對(duì)空實(shí)體閾值λ的確定造成一定影響,在判斷空實(shí)體的時(shí)候容易將相似度均值較低的目標(biāo)實(shí)體判斷為空實(shí)體,這就反而降低了系統(tǒng)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖6所示。

    圖6 加入空實(shí)體閾值后的結(jié)果比較Fig.6 Comparison with the result after adding an empty entity threshold

    實(shí)驗(yàn)結(jié)果表明,在關(guān)鍵詞個(gè)數(shù)取7,并且加入空實(shí)體閾值判斷后,系統(tǒng)達(dá)到了最大的準(zhǔn)確率92.27%,這說(shuō)明本文提出的方法能夠在中文旅游領(lǐng)域?qū)崿F(xiàn)較為理想的消歧結(jié)果,在與現(xiàn)有的主流消歧方法的對(duì)比中,優(yōu)勢(shì)較為明顯。

    表4與主流消歧方法的比較

    Table 4Comparison with other mainstream method of disambiguation

    方法名準(zhǔn)確率Wikify0.60Cucerzan0.71M&W0.83CSAW0.87本文方法0.92

    4結(jié)束語(yǔ)

    本文針對(duì)特定領(lǐng)域消歧的特點(diǎn),提出了一種結(jié)合詞向量與圖模型計(jì)算的方法,實(shí)現(xiàn)了特定領(lǐng)域?qū)嶓w消歧。試驗(yàn)結(jié)果表明,相比已有的消歧方法,本文提出的方法能在特定領(lǐng)域?qū)嶓w消歧上取得較為理想的結(jié)果。下一步的工作在關(guān)鍵詞個(gè)數(shù)的選擇方面將考慮根據(jù)詞的權(quán)重動(dòng)態(tài)來(lái)選擇;另外對(duì)于空實(shí)體的判斷方法還有待改進(jìn)。本文實(shí)驗(yàn)結(jié)果也將應(yīng)用到其他特定領(lǐng)域?qū)嶒?yàn)驗(yàn)證。

    參考文獻(xiàn):

    [1]趙軍. 命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào), 2009, 23(2): 3-17.

    ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreference resolution[J]. Journal of Chinese information processing, 2009, 23(2): 3-17.

    [2]趙軍, 劉康, 周光有, 等. 開(kāi)放式文本信息抽取[J]. 中文信息學(xué)報(bào), 2011, 25(6): 98-110.

    ZHAO Jun, LIU Kang, ZHOU Guangyou, et al. Open information extraction[J]. Journal of Chinese information processing, 2011, 25(6): 98-110.

    [3]BUNESCU R C, PASCA M. Using encyclopedic knowledge for named entity disambiguation[C]//Proceedings of the 11st conference of the european chapter of the association for computational linguistics. Trento, Italy, 2006: 9-16.

    [4]BAGGA A, BALDWIN B. Entity-based cross-document coreferencing using the vector space model[C]//Proceedings of the 17th international conference on computational linguistics-volume 1. association for computational linguistics. Montreal, Canada, 1998: 79-85.

    [5]MANN G S, YAROWSKY D. Unsupervised personal name disambiguation[C]//Proceedings of the 7th conference on natural language learning at HLT-NAACL 2003-volume 4. Sapporo, Japan, 2003: 33-40.

    [6]HAN Xianpei, SUN Le. A generative entity-mention model for linking entities with knowledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Stroudsburg, PA, USA, 2011: 945-954.

    [7]FAN Xiaoming, WANG Jianyong, PU Xu, et al. On graph-based name disambiguation[J]. Journal of data and information quality (JDIQ), 2011, 2(2): 10.

    [8]懷寶興, 寶騰飛, 祝恒書(shū), 等. 一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 軟件學(xué)報(bào), 2014, 25(9): 2076-2087.

    HUAI Baoxing, BAO Tengfei, ZHU Hengshu, et al. Topic modeling approach to named entity linking[J]. Journal of software, 2014, 25(9): 2076-2087.

    [9]寧博, 張菲菲. 基于異構(gòu)知識(shí)庫(kù)的命名實(shí)體消歧[J]. 西安郵電大學(xué)學(xué)報(bào), 2014, 19(4): 70-76.

    NING Bo, ZHANG Feifei. Named entity disambiguation based on heterogeneous knowledge base[J]. Journal of Xi’an university of posts and telecommunications, 2014, 19(4): 70-76.

    [10]朱敏, 賈真, 左玲, 等. 中文微博實(shí)體鏈接研究[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 50(1): 73-78.

    ZHU Min, JIA Zhen, ZUO Ling, et al. Research on entity linking of chinese micro blog[J]. Acta scientiarum naturalium universitatis pekinensis, 2014, 50(1): 73-78.

    [11]HINTON G E. Learning distributed representations of concepts[C]//Proceedings of the 8th annual conference of the cognitive science society. Amherst, USA, 1986: 1-12.

    [12]張劍, 屈丹, 李真. 基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 模式識(shí)別與人工智能, 2015, 28(4): 299-305.

    ZHANG Jian, QU Dan, LI Zhen. Recurrent neural network language model based on word vector features[J]. Pattern recognition and artificial intelligence, 2015, 28(4): 299-305.

    [13]MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations. Scottsdale, Arizona, 2013: 1388-1429.

    [14]MIHALCEA R, TARAU P. TextRank: bringing order into texts[C]//Proceedings of EMNLP-04and the 2004 Conference on Empirical Methods in Natural Language Processing. Spain, 2004: 404-411.

    [15]PEARSON K. The problem of the random walk[J]. Nature, 1905, 72(1865): 294.

    [16]鄭偉, 王朝坤, 劉璋, 等. 一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(8): 1418-1426.

    ZHENG Wei, WANG Chaokun, LIU Zhang, et al. A multi-label classification algorithm based on random walk model[J]. Chinese journal of computers, 2010, 33(8): 1418-1426.

    [17]SZUMMER M, JAAKKOLA T. Partially labeled classification with Markov random walks[C]//Advances in neural information processing systems (NIPS). Cambridge, 2002, 14: 945-952.

    [18]ZHOU Dengyong. Learning from labeled and unlabeled data on a directed graph[C]//Proceedings of the 22nd international conference on machine learning. New York, USA, 2005: 1036-1043.

    [19]TISHBY N, SLONIM N. Data clustering by Markovian relaxation and the information bottleneck method[C]//Proceedings of Neural Information Processing Systems. Vancouver, Canadian, 2000: 640-646.

    [20]HAREL D, KOREN Y. On clustering using random walks[M]//HARIHARAN R, VINAY V, MUKUND M. Foundations of software technology and theoretical computer science. Berlin Heidelberg: Springer, 2001: 18-41.

    [21]LUXBURG U V. A tutorial on spectral clustering[J]. Statistics and computing, 2007, 17(4): 395-416.

    [22]GRADY L. Random walks for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(11): 1768-1783.

    [23]GORI M, MAGGINI M, SARTI L. Exact and approximate graph matching using random walks.[J]. IEEE transactions on Pattern analysis and machine intelligence, 2005, 27(7): 1100-1111.

    [24]KONDOR R I, LAFFERTY J. Diffusion kernels on graphs and other discrete structures[C]//Proceedings of the 19th international conference on machine learning. Sydney, Australia, 2002: 315-322.

    [25]BELKIN M, NIYOGI P. Laplacian eigenmaps for dimensionality reduction and data representation[R]. Chicago,

    USA: University of Chicago, 2002.

    [26]LAFFERTY J, LEBANON G. Information diffusion kernels[C]//Advances in neural information processing systems. Cambridge, 2002: 375-382.

    [27]SMOLA A J, KONDOR R. Kernels and regularization on graphs[M]//Learning theory and kernel machines. Berlin Heidelberg: Springer, 2003: 144-158.

    [28]HU Jian, WANG Gang, LOCHOVSKY F, et al. Understanding user's query intent with Wikipedia[C]//Proceedings of the 18th International Conference on World Wide Web. Beijing, China, 2009: 471-480.

    汪沛,男,1990年生,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、信息抽取。

    線巖團(tuán),男,1981年生,博士研究生,主研方向?yàn)樽匀徽Z(yǔ)言處理、信息抽取、機(jī)器翻譯、機(jī)器學(xué)習(xí)。

    郭劍毅,女,1964年生,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、信息抽取、機(jī)器學(xué)習(xí)。

    中文引用格式:汪沛,線巖團(tuán),郭劍毅,等.一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(3): 366-375.

    英文引用格式:WANG Pei, XIAN Yantuan, GUO Jianyi, et al. A novel method using word vector and graphical models for entity disambiguation in specific topic domains[J]. CAAI transactions on intelligent systems, 2016, 11(3): 366-375.

    A novel method using word vector and graphical models for entity disambiguation in specific topic domains

    WANG Pei1, XIAN Yantuan1,2, GUO Jianyi1,2, WEN Yonghua1,2, CHEN Wei1,2, WANG Hongbin1,2

    (1.School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China; 2. Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology, Kunming 650500, China)

    Abstract:In this paper, a novel method based on word vector and graph models is proposed to deal with entity disambiguation in specific topic domains. Take the tourism topic domain as an example. The method firstly chooses the web-pages of the tourism category in a Wikipedia offline database to build a knowledge base; then, the tool Word2Vec is used to build a word vector model with the texts in the knowledge base and texts taken from several tourism websites. Combined with a manual annotation graph, a random walk algorithm based on the graph is used to compute similarity to accurately calculate the similarity between words within the tourism domain. Next, the method extracts several keywords from the background text of the entity to be disambiguated and compares them with the keyword text in the knowledge base that describes the candidate entities. Finally, the method uses the trained Word2Vec model and graphical model to calculate the similarity between the keywords of name mention and the keywords of candidate entities. The method then chooses the candidate entities which have the maximum average similarity to the target entity. Experimental results show that this new method can effectively capture the similarity between name mention and a target entity; thus, it can accurately achieve entity disambiguation of a topic-specific domain.

    Keywords:entity disambiguation; entity linking; Word2Vec; Wikipedia; graphical model; random walking

    作者簡(jiǎn)介:

    中圖分類號(hào):TP393

    文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1673-4785(2016)03-0366-09

    通信作者:郭劍毅.E-mail:gjade86@hotmail.com.

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61262041,61472168,61462054,61562052);云南省自然科學(xué)基金重點(diǎn)項(xiàng)目(2013FA030).

    收稿日期:2016-03-19.網(wǎng)絡(luò)出版日期:2016-05-13.

    DOI:10.11992/tis.201603048

    網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0958.036.html

    猜你喜歡
    消歧維基百科知識(shí)庫(kù)
    維基百科影響司法
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    維基百科青年
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    APP
    IBM的監(jiān)視
    意林(2014年2期)2014-02-11 11:09:17
    两个人看的免费小视频| 女性生殖器流出的白浆| 日韩 欧美 亚洲 中文字幕| 精品国产乱子伦一区二区三区 | 50天的宝宝边吃奶边哭怎么回事| 国产精品免费大片| a在线观看视频网站| 三级毛片av免费| 亚洲成人免费av在线播放| 下体分泌物呈黄色| 午夜日韩欧美国产| 天天躁日日躁夜夜躁夜夜| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲熟女精品中文字幕| 少妇人妻久久综合中文| 狂野欧美激情性xxxx| 黄频高清免费视频| 老鸭窝网址在线观看| 在线观看免费视频网站a站| videos熟女内射| 考比视频在线观看| 老汉色∧v一级毛片| 亚洲精品国产av成人精品| 亚洲精品国产色婷婷电影| 91麻豆av在线| 黑人猛操日本美女一级片| 国产黄频视频在线观看| av福利片在线| 操出白浆在线播放| 亚洲第一欧美日韩一区二区三区 | 久久久久精品人妻al黑| 岛国毛片在线播放| 午夜精品国产一区二区电影| 免费少妇av软件| 男女床上黄色一级片免费看| 免费在线观看影片大全网站| 欧美av亚洲av综合av国产av| 热re99久久国产66热| 99国产精品一区二区三区| 亚洲欧美成人综合另类久久久| 久久久国产一区二区| 成人国语在线视频| 两人在一起打扑克的视频| av一本久久久久| 久久青草综合色| 国产亚洲精品一区二区www | 男人爽女人下面视频在线观看| 久久久精品区二区三区| 男女高潮啪啪啪动态图| 国产成人精品久久二区二区免费| 精品国产乱码久久久久久小说| 亚洲免费av在线视频| 亚洲欧洲精品一区二区精品久久久| 一级毛片精品| 黄色视频在线播放观看不卡| 国产成人精品久久二区二区免费| 亚洲欧美日韩另类电影网站| 黄色视频在线播放观看不卡| 99九九在线精品视频| a级片在线免费高清观看视频| 欧美中文综合在线视频| 国产精品一区二区在线不卡| 国产日韩一区二区三区精品不卡| 男女下面插进去视频免费观看| 亚洲精华国产精华精| 最黄视频免费看| 老司机影院毛片| 又大又爽又粗| av视频免费观看在线观看| av在线老鸭窝| 12—13女人毛片做爰片一| 欧美精品高潮呻吟av久久| 无遮挡黄片免费观看| 一级毛片电影观看| 99国产精品99久久久久| 在线av久久热| 欧美中文综合在线视频| 日本av手机在线免费观看| 99精品久久久久人妻精品| 午夜精品久久久久久毛片777| 一本—道久久a久久精品蜜桃钙片| 大码成人一级视频| 黑人猛操日本美女一级片| 老司机午夜福利在线观看视频 | 日韩 欧美 亚洲 中文字幕| 欧美黑人欧美精品刺激| 99热全是精品| 午夜福利视频精品| 亚洲欧美一区二区三区久久| 久久久久网色| 两性午夜刺激爽爽歪歪视频在线观看 | 国产精品国产三级国产专区5o| 美女国产高潮福利片在线看| 自拍欧美九色日韩亚洲蝌蚪91| 国产99久久九九免费精品| 高清欧美精品videossex| 午夜免费鲁丝| 中文字幕色久视频| 少妇猛男粗大的猛烈进出视频| 日日爽夜夜爽网站| 咕卡用的链子| 黄色a级毛片大全视频| 亚洲一区中文字幕在线| 九色亚洲精品在线播放| 成人国产一区最新在线观看| 欧美日韩亚洲高清精品| 久久精品国产综合久久久| 欧美成人午夜精品| 欧美+亚洲+日韩+国产| 在线观看免费高清a一片| 精品高清国产在线一区| 黄片播放在线免费| 看免费av毛片| 99香蕉大伊视频| 国产亚洲欧美精品永久| 黄色a级毛片大全视频| 欧美日韩国产mv在线观看视频| 精品国产乱子伦一区二区三区 | 日韩制服丝袜自拍偷拍| 国产免费av片在线观看野外av| videosex国产| 高清视频免费观看一区二区| 久久精品人人爽人人爽视色| 夜夜夜夜夜久久久久| 久久这里只有精品19| 亚洲情色 制服丝袜| 一级毛片电影观看| 两性午夜刺激爽爽歪歪视频在线观看 | 国产有黄有色有爽视频| 成年人黄色毛片网站| 91精品三级在线观看| 国产欧美亚洲国产| 免费少妇av软件| 国产亚洲欧美在线一区二区| 老司机影院毛片| 久久久国产成人免费| 国产片内射在线| 老司机午夜十八禁免费视频| 国产日韩一区二区三区精品不卡| 一本久久精品| 欧美日韩成人在线一区二区| 国产一区二区三区av在线| 亚洲综合色网址| 9191精品国产免费久久| 欧美成人午夜精品| 在线观看人妻少妇| 99re6热这里在线精品视频| 人成视频在线观看免费观看| 久久这里只有精品19| av国产精品久久久久影院| av免费在线观看网站| av在线老鸭窝| 成人免费观看视频高清| 在线观看免费日韩欧美大片| 亚洲国产欧美在线一区| 人人澡人人妻人| 9热在线视频观看99| 亚洲国产毛片av蜜桃av| 亚洲中文av在线| 成人黄色视频免费在线看| 精品欧美一区二区三区在线| 亚洲av电影在线观看一区二区三区| 岛国在线观看网站| 亚洲国产成人一精品久久久| 80岁老熟妇乱子伦牲交| 黄频高清免费视频| 菩萨蛮人人尽说江南好唐韦庄| 久久综合国产亚洲精品| 在线 av 中文字幕| www.自偷自拍.com| 人人妻人人爽人人添夜夜欢视频| 大陆偷拍与自拍| 精品国产乱码久久久久久小说| 正在播放国产对白刺激| 一本大道久久a久久精品| 欧美 日韩 精品 国产| 久热这里只有精品99| 亚洲欧美一区二区三区黑人| 在线观看免费午夜福利视频| 高清av免费在线| 高清欧美精品videossex| 日本五十路高清| 国产亚洲欧美在线一区二区| 久久性视频一级片| 午夜成年电影在线免费观看| 天天躁日日躁夜夜躁夜夜| 18禁观看日本| 久久久水蜜桃国产精品网| 亚洲精华国产精华精| e午夜精品久久久久久久| 脱女人内裤的视频| 动漫黄色视频在线观看| 考比视频在线观看| 伊人亚洲综合成人网| 波多野结衣一区麻豆| 欧美精品av麻豆av| 又黄又粗又硬又大视频| 自线自在国产av| 亚洲欧美清纯卡通| 一区二区三区激情视频| 久久精品熟女亚洲av麻豆精品| 51午夜福利影视在线观看| 18禁黄网站禁片午夜丰满| 精品国内亚洲2022精品成人 | 深夜精品福利| 久久久久国内视频| 男女国产视频网站| 性色av一级| avwww免费| 国产精品av久久久久免费| 热99re8久久精品国产| 亚洲 欧美一区二区三区| 国产精品国产三级国产专区5o| 欧美在线黄色| 欧美日韩亚洲综合一区二区三区_| 国产av又大| 日韩制服骚丝袜av| 久久青草综合色| 亚洲精品在线美女| 国产91精品成人一区二区三区 | 中亚洲国语对白在线视频| 欧美人与性动交α欧美精品济南到| 老司机午夜福利在线观看视频 | 黑人欧美特级aaaaaa片| 99热全是精品| 热99久久久久精品小说推荐| 免费观看人在逋| 女人精品久久久久毛片| 日日爽夜夜爽网站| 纯流量卡能插随身wifi吗| 亚洲精品美女久久av网站| 久久香蕉激情| 日本wwww免费看| netflix在线观看网站| 欧美+亚洲+日韩+国产| 久久国产精品大桥未久av| 99精品久久久久人妻精品| 国产高清国产精品国产三级| 国产精品国产三级国产专区5o| 18禁国产床啪视频网站| 免费看十八禁软件| 国产片内射在线| 国产日韩欧美视频二区| 国产91精品成人一区二区三区 | 亚洲一卡2卡3卡4卡5卡精品中文| 午夜免费鲁丝| 纯流量卡能插随身wifi吗| 久久女婷五月综合色啪小说| 久久九九热精品免费| 久久青草综合色| 亚洲国产成人一精品久久久| 亚洲av电影在线进入| 精品国产一区二区久久| 国产亚洲精品一区二区www | 精品少妇内射三级| 精品人妻一区二区三区麻豆| 亚洲黑人精品在线| 99久久国产精品久久久| 国产av国产精品国产| 亚洲专区中文字幕在线| 精品少妇黑人巨大在线播放| 国产欧美日韩一区二区精品| 搡老乐熟女国产| 黑人巨大精品欧美一区二区mp4| 日韩欧美一区视频在线观看| 黄频高清免费视频| 日本撒尿小便嘘嘘汇集6| 少妇猛男粗大的猛烈进出视频| 99久久人妻综合| 美女脱内裤让男人舔精品视频| 午夜老司机福利片| 亚洲中文日韩欧美视频| 男人舔女人的私密视频| 亚洲视频免费观看视频| 亚洲精品久久久久久婷婷小说| 正在播放国产对白刺激| 秋霞在线观看毛片| 少妇被粗大的猛进出69影院| 亚洲精品自拍成人| 成人影院久久| 亚洲欧美日韩另类电影网站| 亚洲第一青青草原| 麻豆av在线久日| 男女国产视频网站| 亚洲三区欧美一区| 日本黄色日本黄色录像| 亚洲熟女精品中文字幕| 丁香六月欧美| 日韩制服丝袜自拍偷拍| 国产男女超爽视频在线观看| 一本—道久久a久久精品蜜桃钙片| 女人爽到高潮嗷嗷叫在线视频| 日韩欧美国产一区二区入口| 成人免费观看视频高清| 一进一出抽搐动态| 国精品久久久久久国模美| 飞空精品影院首页| 一二三四社区在线视频社区8| 别揉我奶头~嗯~啊~动态视频 | 亚洲久久久国产精品| 大香蕉久久成人网| 国产精品一区二区免费欧美 | 黄片大片在线免费观看| 午夜免费鲁丝| 狠狠精品人妻久久久久久综合| 亚洲av日韩精品久久久久久密| 两人在一起打扑克的视频| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲中文日韩欧美视频| 伊人久久大香线蕉亚洲五| 亚洲久久久国产精品| 亚洲一卡2卡3卡4卡5卡精品中文| 两个人看的免费小视频| 蜜桃国产av成人99| 成人亚洲精品一区在线观看| 欧美精品一区二区免费开放| 国产成人免费无遮挡视频| 久久人人97超碰香蕉20202| 大香蕉久久网| 久久久久视频综合| 一边摸一边抽搐一进一出视频| 久久亚洲精品不卡| 18在线观看网站| 亚洲精品av麻豆狂野| 亚洲精品一区蜜桃| 国产精品av久久久久免费| 亚洲欧洲日产国产| 亚洲精品国产区一区二| 国产在线免费精品| 69精品国产乱码久久久| 午夜91福利影院| 国产xxxxx性猛交| 亚洲精品自拍成人| 丁香六月欧美| 丝袜喷水一区| a级毛片在线看网站| 久久影院123| 久久人人97超碰香蕉20202| 久久人妻熟女aⅴ| 亚洲综合色网址| 亚洲精品在线美女| 国产精品九九99| 大码成人一级视频| 亚洲三区欧美一区| 日本精品一区二区三区蜜桃| 视频区图区小说| 欧美激情久久久久久爽电影 | 黑人巨大精品欧美一区二区mp4| 日韩三级视频一区二区三区| 99久久国产精品久久久| 成年人午夜在线观看视频| 亚洲成人国产一区在线观看| 女警被强在线播放| av在线播放精品| 国产一区有黄有色的免费视频| 国产成人影院久久av| 日日夜夜操网爽| av在线老鸭窝| 免费人妻精品一区二区三区视频| 美女福利国产在线| 精品人妻在线不人妻| 超色免费av| 男男h啪啪无遮挡| avwww免费| 别揉我奶头~嗯~啊~动态视频 | 日韩熟女老妇一区二区性免费视频| 亚洲国产av新网站| 岛国在线观看网站| 日韩三级视频一区二区三区| 国产国语露脸激情在线看| 欧美 亚洲 国产 日韩一| 人妻 亚洲 视频| 欧美日韩福利视频一区二区| 亚洲精品国产av成人精品| 亚洲视频免费观看视频| 一区二区av电影网| a 毛片基地| 十八禁网站免费在线| 国产成人免费观看mmmm| 又黄又粗又硬又大视频| 丝袜在线中文字幕| 亚洲人成77777在线视频| 亚洲国产av影院在线观看| 精品国产乱子伦一区二区三区 | 午夜精品久久久久久毛片777| 人妻人人澡人人爽人人| 男人舔女人的私密视频| 亚洲精品美女久久久久99蜜臀| 后天国语完整版免费观看| 搡老熟女国产l中国老女人| 欧美变态另类bdsm刘玥| 久久香蕉激情| 亚洲午夜精品一区,二区,三区| 亚洲第一青青草原| 亚洲免费av在线视频| 又紧又爽又黄一区二区| 亚洲中文av在线| 国产成人啪精品午夜网站| 成年av动漫网址| 亚洲精品日韩在线中文字幕| 女人爽到高潮嗷嗷叫在线视频| 亚洲男人天堂网一区| 爱豆传媒免费全集在线观看| 建设人人有责人人尽责人人享有的| 久久国产精品大桥未久av| 久久影院123| 国产xxxxx性猛交| bbb黄色大片| 美国免费a级毛片| 欧美黄色片欧美黄色片| 在线av久久热| 欧美日韩亚洲高清精品| 老鸭窝网址在线观看| 99久久综合免费| 国产免费av片在线观看野外av| 黄色片一级片一级黄色片| a 毛片基地| 国产精品一区二区在线观看99| 中文字幕最新亚洲高清| 久久久国产欧美日韩av| 波多野结衣一区麻豆| 97人妻天天添夜夜摸| 亚洲人成77777在线视频| 久久久久久久久免费视频了| 无遮挡黄片免费观看| 久9热在线精品视频| 成年人午夜在线观看视频| 成人免费观看视频高清| 国产高清国产精品国产三级| 丝袜喷水一区| 欧美人与性动交α欧美精品济南到| 黄色视频在线播放观看不卡| 精品久久久久久久毛片微露脸 | 动漫黄色视频在线观看| 国产有黄有色有爽视频| 精品少妇久久久久久888优播| 亚洲欧美色中文字幕在线| 欧美日韩成人在线一区二区| 亚洲va日本ⅴa欧美va伊人久久 | 男人操女人黄网站| 欧美性长视频在线观看| 老汉色av国产亚洲站长工具| av网站在线播放免费| 亚洲精品国产av蜜桃| 色精品久久人妻99蜜桃| 中文字幕高清在线视频| 人妻一区二区av| 欧美一级毛片孕妇| 12—13女人毛片做爰片一| 1024视频免费在线观看| 精品高清国产在线一区| 久久天堂一区二区三区四区| 少妇人妻久久综合中文| 热re99久久精品国产66热6| 日本a在线网址| 久久青草综合色| 欧美精品高潮呻吟av久久| 制服诱惑二区| 午夜激情av网站| 大香蕉久久网| 国产高清国产精品国产三级| 波多野结衣av一区二区av| 亚洲天堂av无毛| 日韩 亚洲 欧美在线| 黄频高清免费视频| 日韩有码中文字幕| 欧美精品啪啪一区二区三区 | 老司机福利观看| 久久精品国产a三级三级三级| 狠狠狠狠99中文字幕| 国产成人精品久久二区二区免费| 精品少妇黑人巨大在线播放| 国产日韩一区二区三区精品不卡| 一区福利在线观看| 老司机福利观看| 亚洲国产毛片av蜜桃av| 一区在线观看完整版| 秋霞在线观看毛片| 电影成人av| 女人爽到高潮嗷嗷叫在线视频| 久久久国产精品麻豆| 黄片播放在线免费| 1024香蕉在线观看| 日韩中文字幕视频在线看片| 亚洲av成人不卡在线观看播放网 | 老司机影院成人| 性高湖久久久久久久久免费观看| 久久人人爽av亚洲精品天堂| 80岁老熟妇乱子伦牲交| 性少妇av在线| 狠狠精品人妻久久久久久综合| 日本av免费视频播放| av免费在线观看网站| 日韩视频一区二区在线观看| 啦啦啦视频在线资源免费观看| 日本精品一区二区三区蜜桃| 人妻久久中文字幕网| 日本91视频免费播放| 国产精品亚洲av一区麻豆| 日韩欧美国产一区二区入口| 国产精品成人在线| 午夜两性在线视频| 这个男人来自地球电影免费观看| 国产亚洲av高清不卡| 亚洲精品久久久久久婷婷小说| 国产精品国产三级国产专区5o| 十八禁人妻一区二区| 在线观看www视频免费| 视频在线观看一区二区三区| 亚洲成人免费电影在线观看| 国产精品偷伦视频观看了| 不卡一级毛片| 国产色视频综合| 婷婷成人精品国产| 在线观看免费日韩欧美大片| 亚洲精品国产区一区二| 成人黄色视频免费在线看| 亚洲精品国产av蜜桃| 性少妇av在线| 精品亚洲成a人片在线观看| 在线av久久热| 国产一区有黄有色的免费视频| 老司机福利观看| 两个人免费观看高清视频| 男女高潮啪啪啪动态图| a级片在线免费高清观看视频| 天堂8中文在线网| 国产欧美亚洲国产| 亚洲avbb在线观看| 天天躁夜夜躁狠狠躁躁| 亚洲熟女精品中文字幕| 久久久久久人人人人人| 午夜福利在线观看吧| 99国产精品一区二区三区| 人成视频在线观看免费观看| 一级黄色大片毛片| 国产色视频综合| 热re99久久精品国产66热6| 久久久国产成人免费| 男女高潮啪啪啪动态图| 精品人妻在线不人妻| 国产日韩一区二区三区精品不卡| 中文字幕人妻丝袜一区二区| 久久国产亚洲av麻豆专区| 丝袜美腿诱惑在线| 久久久久网色| 亚洲精品久久久久久婷婷小说| 国产亚洲一区二区精品| 国产欧美日韩综合在线一区二区| 精品人妻1区二区| 国产男人的电影天堂91| 欧美变态另类bdsm刘玥| 午夜免费鲁丝| 国产精品自产拍在线观看55亚洲 | 电影成人av| 丝袜脚勾引网站| 午夜福利在线免费观看网站| 成年人免费黄色播放视频| 中文字幕色久视频| 亚洲专区字幕在线| 黄频高清免费视频| 一二三四在线观看免费中文在| 久久九九热精品免费| 国产精品影院久久| 色综合欧美亚洲国产小说| 1024香蕉在线观看| 国产免费视频播放在线视频| 宅男免费午夜| 日日夜夜操网爽| 中文字幕人妻丝袜一区二区| 午夜成年电影在线免费观看| 午夜视频精品福利| 女警被强在线播放| 97精品久久久久久久久久精品| 如日韩欧美国产精品一区二区三区| 各种免费的搞黄视频| 国产亚洲av高清不卡| 人妻一区二区av| 法律面前人人平等表现在哪些方面 | 精品国内亚洲2022精品成人 | 亚洲成人国产一区在线观看| 亚洲欧洲日产国产| 免费在线观看完整版高清| 少妇的丰满在线观看| 久热这里只有精品99| a在线观看视频网站| 亚洲一区中文字幕在线| 免费女性裸体啪啪无遮挡网站| a级毛片黄视频| 亚洲av日韩精品久久久久久密| 9191精品国产免费久久| 久久久精品免费免费高清| 午夜成年电影在线免费观看| 亚洲第一青青草原| 午夜久久久在线观看| 亚洲精品一二三| 日韩中文字幕视频在线看片| 国产亚洲精品第一综合不卡| 成人国产av品久久久| av片东京热男人的天堂| a 毛片基地| 纵有疾风起免费观看全集完整版| 色老头精品视频在线观看| 日韩熟女老妇一区二区性免费视频| 淫妇啪啪啪对白视频 | 极品少妇高潮喷水抽搐| 精品国产一区二区久久| 一级黄色大片毛片| 男人操女人黄网站| 一边摸一边做爽爽视频免费| 啪啪无遮挡十八禁网站| 久久久久网色| 香蕉丝袜av| 狂野欧美激情性bbbbbb| 99国产精品一区二区蜜桃av |