• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*

    2017-07-31 20:56:06付宇新馮志勇
    計(jì)算機(jī)與生活 2017年7期
    關(guān)鍵詞:消歧維基百科命名

    付宇新,王 鑫+,馮志勇,徐 強(qiáng)

    1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354

    2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354

    3.天津大學(xué) 軟件學(xué)院,天津 300354

    DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*

    付宇新1,2,王 鑫1,2+,馮志勇2,3,徐 強(qiáng)1,2

    1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354

    2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354

    3.天津大學(xué) 軟件學(xué)院,天津 300354

    +Corresponding autho author:r:E-mail:wangx@tju.edu.cn

    FU Yuxin,WANG Xin,FENG Zhiyong,et al.Nam ed entity recognition optim ization on DBpedia Spotlight.Journalof Frontiersof Com puter Science and Technology,2017,11(7):1044-1055.

    命名實(shí)體識(shí)別任務(wù)能夠搭建知識(shí)庫(kù)與自然語(yǔ)言之間的橋梁,為關(guān)鍵字提取、機(jī)器翻譯、主題檢測(cè)與跟蹤等研究工作提供支撐。通過(guò)對(duì)目前命名實(shí)體識(shí)別領(lǐng)域的相關(guān)研究進(jìn)行分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化方案。首先,設(shè)計(jì)并實(shí)現(xiàn)了利用候選集的增量式擴(kuò)展方法,降低了對(duì)訓(xùn)練集的依賴(lài)性;其次,通過(guò)點(diǎn)互信息率對(duì)實(shí)體上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了標(biāo)注性能;最后,提出了基于主題向量的二次消歧方法,進(jìn)一步增強(qiáng)了標(biāo)注準(zhǔn)確率。通過(guò)在廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上進(jìn)行多種比較實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    命名實(shí)體識(shí)別;鏈接數(shù)據(jù);DBpedia Spotlight

    1 引言

    作為信息提取領(lǐng)域的任務(wù)之一,命名實(shí)體識(shí)別能夠在給定的文本中識(shí)別出所有實(shí)體的命名性指稱(chēng),并鏈接到其在知識(shí)庫(kù)中的參照,從而搭建起知識(shí)庫(kù)與自然語(yǔ)言文本之間的橋梁。隨著維基百科的發(fā)展以及包括DBpedia[1]、YAGO[2]等知識(shí)庫(kù)的發(fā)布,使用命名實(shí)體識(shí)別豐富文本背后的語(yǔ)義并為應(yīng)用提供智能服務(wù)變得越來(lái)越重要,因此如何提高命名實(shí)體識(shí)別的性能成為許多研究工作的焦點(diǎn)。

    命名實(shí)體識(shí)別宏觀(guān)上包括3個(gè)步驟:第一步是命名性指稱(chēng)識(shí)別,即盡可能地識(shí)別出文本中可能出現(xiàn)的命名性指稱(chēng);第二步是候選集生成,即對(duì)于每個(gè)命名性指稱(chēng),構(gòu)成一個(gè)由知識(shí)庫(kù)中可能與之對(duì)應(yīng)實(shí)體組成的候選集;最后一步是候選集消歧,即在每個(gè)命名性指稱(chēng)對(duì)應(yīng)的候選集中確定唯一的實(shí)體匹配。

    本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,能夠適用于目前大部分的命名實(shí)體識(shí)別系統(tǒng),并從三方面改善命名實(shí)體識(shí)別的性能。

    本文的主要貢獻(xiàn)如下:

    (1)提出了使用候選集對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行增量式擴(kuò)展的方法,降低了對(duì)訓(xùn)練數(shù)據(jù)集的依賴(lài),提高了靈活性。

    (2)通過(guò)考慮上下文單詞與實(shí)體的相關(guān)性,提出了點(diǎn)互信息率的概念,并使用其作為閾值對(duì)每個(gè)實(shí)體的上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了系統(tǒng)的標(biāo)注性能。

    (3)使用維基百科文章之間的鏈接為實(shí)體和文本構(gòu)建主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度,并基于主題向量提出了二次消歧算法,進(jìn)一步提高了系統(tǒng)標(biāo)注的準(zhǔn)確率。

    (4)通過(guò)將優(yōu)化方案實(shí)現(xiàn)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上,并在多個(gè)測(cè)試數(shù)據(jù)集上設(shè)計(jì)完善的實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    本文組織結(jié)構(gòu)如下:第2章介紹相關(guān)研究工作;第3章給出命名實(shí)體識(shí)別優(yōu)化方案的三方面內(nèi)容;第4章介紹基于命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight的優(yōu)化方案實(shí)現(xiàn);第5章詳細(xì)描述對(duì)比實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果;第6章對(duì)全文進(jìn)行總結(jié)。

    2 相關(guān)研究工作

    由于命名實(shí)體形式多變并且語(yǔ)言環(huán)境復(fù)雜,正確地對(duì)候選集進(jìn)行消歧尤為重要。例如,實(shí)體China可以在文本中通過(guò)命名性指稱(chēng)“China”或“PRC”等來(lái)指代,而命名性指稱(chēng)“Apple”也可能指代的是水果或蘋(píng)果公司。

    Cucerzan[3]最先提出了基于詞袋的方法,利用維基百科的標(biāo)注數(shù)據(jù)構(gòu)造實(shí)體的上下文向量和類(lèi)別向量,并將文本中的表現(xiàn)形式標(biāo)注到與之相似度最高的實(shí)體上。Medelyan等人[4]考慮到文本應(yīng)該具有一個(gè)中心主題,因此選擇候選集中與文本之間的語(yǔ)義關(guān)聯(lián)度最高的實(shí)體作為消歧結(jié)果。M ilne和Witten[5]在利用語(yǔ)義關(guān)聯(lián)度的同時(shí),考慮了實(shí)體的流行度和上下文質(zhì)量,并結(jié)合樸素貝葉斯、C4.5決策樹(shù)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法對(duì)候選集進(jìn)行消歧。Olieman[6]、Lipczak[7]等人的工作選取了更多的特征,使消歧的效果得到了進(jìn)一步的提高。Kulkarni等人[8]的工作結(jié)合了上下文向量的余弦相似度和實(shí)體之間的語(yǔ)義相似度,將標(biāo)注問(wèn)題規(guī)約到了線(xiàn)性?xún)?yōu)化問(wèn)題,通過(guò)選擇一個(gè)最優(yōu)的標(biāo)注結(jié)果,使得最終文本得到的實(shí)體之間局部相似度和全局相似度之和最大。Han等人[9]提出了基于圖的候選集消歧算法,利用所有表現(xiàn)形式和候選集構(gòu)造“指示圖”,并為圖上的每個(gè)點(diǎn)賦予一個(gè)初始得分,利用隨機(jī)游走算法,最終選擇穩(wěn)定后的最高得分實(shí)體。Hoffart[10]和Usbeck[11]等人也同樣使用基于圖的候選集消歧方法,并將不同的圖構(gòu)建算法和圖消歧算法作為研究的重點(diǎn)。

    已有的工作仍然具有以下幾點(diǎn)問(wèn)題:(1)命名實(shí)體識(shí)別系統(tǒng)普遍使用維基百科知識(shí)庫(kù)中的人工標(biāo)注結(jié)果作為支持?jǐn)?shù)據(jù),因此維基百科中沒(méi)有出現(xiàn)過(guò)的標(biāo)注也不可能出現(xiàn)在系統(tǒng)的標(biāo)注結(jié)果中;(2)實(shí)體上下文是候選集消歧的最重要的特征,而所有命名實(shí)體識(shí)別系統(tǒng)僅僅選擇去除其中的停用詞,而忽略了一些“類(lèi)停用詞”帶來(lái)的噪音;(3)主題一致性同樣是一個(gè)重要的用于候選集消歧的特征,而一部分命名實(shí)體識(shí)別系統(tǒng)受限于本身的核心消歧算法,缺少高效的手段來(lái)與主題一致性相融合。圍繞這些問(wèn)題,本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,可以有效地提高命名實(shí)體識(shí)別系統(tǒng)的性能。

    3 命名實(shí)體識(shí)別優(yōu)化方案

    下面主要介紹命名實(shí)體識(shí)別優(yōu)化方案的三部分:基于候選集的增量擴(kuò)展方法,基于點(diǎn)互信息率的特征選擇以及基于主題向量的二次消歧。

    3.1 基于候選集的增量擴(kuò)展方法

    原有的包括DBpedia Spotlight在內(nèi)的命名實(shí)體識(shí)別系統(tǒng)中,例如TagMe(http://acube.di.unipi.it/tagme)、AIDA(http://www.mpi-inf.mpg.de/yago-naga/aida)、Wikipedia M iner(http://w ikipedia-miner.cms.waikato.ac.nz)等普遍都需要使用基于維基百科數(shù)據(jù)得到的字典和候選集來(lái)識(shí)別文本中的命名性指稱(chēng)以及實(shí)體候選集。這樣做的問(wèn)題是,如果維基百科中并不存在正確的實(shí)體與命名性指稱(chēng)的匹配,那么在給定文本中該命名性指稱(chēng)也永遠(yuǎn)不會(huì)得到正確的標(biāo)注。例如命名性指稱(chēng)“Justin”在維基百科中僅僅被標(biāo)記為實(shí)體Justin Bieber,則對(duì)于輸入文本中出現(xiàn)的命名性指稱(chēng)“Justin”,將永遠(yuǎn)不會(huì)被標(biāo)記為其他實(shí)體,即便正確的結(jié)果希望將該命名性指稱(chēng)標(biāo)記到實(shí)體Justin Timberlake。

    通過(guò)人工構(gòu)建這些命名性指稱(chēng)和實(shí)體之間的對(duì)應(yīng)關(guān)系作為候選集,可以直接對(duì)命名性指稱(chēng)模型和候選集模型進(jìn)行擴(kuò)展?;诶绽蛊交琜12]的思想,對(duì)于這些新的實(shí)體與命名性指稱(chēng)對(duì)應(yīng)關(guān)系,如果它并沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò),不是認(rèn)為它不可能作為標(biāo)注出現(xiàn),而是給予它一個(gè)最低的概率,即認(rèn)為它的被標(biāo)記次數(shù)為1次。對(duì)于模型中未出現(xiàn)的命名性指稱(chēng),需要設(shè)定一個(gè)初始的被標(biāo)記概率,本文選擇使用命名性指稱(chēng)和實(shí)體的聯(lián)合被標(biāo)記概率(式(1))來(lái)對(duì)新命名性指稱(chēng)的被標(biāo)記概率(式(2))進(jìn)行估計(jì)。

    其中,count(NIL,s)代表命名性指稱(chēng)s并未被標(biāo)記的次數(shù);S(e)是實(shí)體e所有已知的命名性指稱(chēng)集合。

    3.2 基于點(diǎn)互信息率的特征選擇

    特征選擇能夠通過(guò)減少有效的詞匯空間來(lái)提高分類(lèi)器訓(xùn)練和應(yīng)用的效率,同時(shí)也能夠去除噪音特征,從而提高分類(lèi)的精度。對(duì)于命名實(shí)體識(shí)別任務(wù)來(lái)說(shuō),候選集消歧的問(wèn)題也可以抽象成為一個(gè)分類(lèi)問(wèn)題,因此合理地使用特征選擇能夠改善命名實(shí)體識(shí)別問(wèn)題。

    在候選集消歧的過(guò)程中能夠利用的最重要特征是每個(gè)實(shí)體周?chē)纳舷挛摹K忻麑?shí)體識(shí)別系統(tǒng)都需要離線(xiàn)的處理過(guò)程,目的是將維基百科中出現(xiàn)在實(shí)體周?chē)膯卧~過(guò)濾掉停用詞后作為實(shí)體的上下文。這些上下文中的單詞有很多和實(shí)體的出現(xiàn)只是偶然的關(guān)系,換句話(huà)說(shuō),這些單詞對(duì)于實(shí)體而言和停用詞的作用是近似的。通過(guò)將這些相對(duì)實(shí)體的類(lèi)停用詞過(guò)濾掉,不僅可以減小實(shí)體上下文模型的占用空間,提高系統(tǒng)的性能;同時(shí)可以有效地避免這些類(lèi)停用詞給消歧帶來(lái)的噪音,優(yōu)化系統(tǒng)的標(biāo)注效果。

    信息論中,點(diǎn)互信息量[13](pointw isemutual information,PM I)能夠有效地度量?jī)蓚€(gè)事件同時(shí)發(fā)生的關(guān)聯(lián)程度。Islam等人[14-15]使用點(diǎn)互信息量來(lái)計(jì)算兩個(gè)單詞或文本之間的相似性。因此,結(jié)合DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程,本文定義一個(gè)實(shí)體e與該實(shí)體上下文中的某個(gè)單詞t之間的點(diǎn)互信息量為:

    其中,N為訓(xùn)練集中單詞的總數(shù);count(e,t)代表實(shí)體e和單詞t在維基百科中同一個(gè)上下文環(huán)境下出現(xiàn)的次數(shù);count(e)和count(t)分別表示實(shí)體e和單詞t在維基百科中出現(xiàn)的總次數(shù)。通過(guò)上式可以計(jì)算得到單詞t和實(shí)體e之間的點(diǎn)互信息量,從而衡量?jī)烧叩年P(guān)聯(lián)程度。兩者之間的點(diǎn)互信息量值越大,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)之間的關(guān)聯(lián)性越大,反之,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)接近于偶然,兩者的聯(lián)系比較小,可以把單詞作為停用詞處理。

    對(duì)于點(diǎn)互信息量樸素的使用方法是將所有與實(shí)體之間的點(diǎn)互信息量低于一定閾值的單詞從其上下文模型中剔除掉,避免這些單詞在消歧時(shí)帶來(lái)的噪音。然而實(shí)際證明這樣的策略并不是最優(yōu)的,原因是模型中每個(gè)實(shí)體所具有的信息量各不相同,與其上下文中的單詞之間點(diǎn)互信息量能夠達(dá)到的最大值也各不相同,因此將所有實(shí)體的上下文單詞使用相同的閾值進(jìn)行過(guò)濾是不合理的。通過(guò)考慮以上因素,本文提出了點(diǎn)互信息率的概念(式(4)),即單詞t和實(shí)體e之間的點(diǎn)互信息量與實(shí)體e所具有的信息量的比值。

    其中,H(e)是實(shí)體e具有的信息量,通過(guò)式(5)計(jì)算。

    3.3 基于主題向量的二次消岐

    通常一段文本都具有一個(gè)主題,文本內(nèi)部的實(shí)體之間具有緊密的聯(lián)系,Medelyan[4]和Ferragina[16]等人都將主題一致性作為候選集消歧的主要依據(jù),可以一定程度上提高命名實(shí)體識(shí)別的性能。而部分命名實(shí)體識(shí)別系統(tǒng)從截然不同的思路入手來(lái)解決候選集消歧問(wèn)題,缺少一些高效的手段將主題一致性整合到消歧過(guò)程中。

    3.3.1 主題向量的構(gòu)造

    基于維基百科文章的M ilne-Witten語(yǔ)義關(guān)聯(lián)度[17]被廣泛應(yīng)用在命名實(shí)體識(shí)別領(lǐng)域。M ilne-Witten語(yǔ)義關(guān)聯(lián)度借鑒了谷歌距離,充分考慮了維基百科文章之間的超鏈接構(gòu)成的圖結(jié)構(gòu),而不是使用分類(lèi)的層次結(jié)構(gòu)和文本內(nèi)容。給定一篇文章,計(jì)算任意實(shí)體與文章的主題一致性需要分別計(jì)算該實(shí)體與其他所有文章中實(shí)體的M ilne-Witten語(yǔ)義關(guān)聯(lián)度并求和,對(duì)于較長(zhǎng)文章或?qū)嶓w出現(xiàn)密集的文章具有較低的效率。通過(guò)借鑒M ilne-Witten語(yǔ)義關(guān)聯(lián)度的方法,本節(jié)提出了使用實(shí)體所出現(xiàn)的維基百科文章集合來(lái)表示實(shí)體主題和文章主題的方法。

    令W={w1,w2,…,wM}為維基百科中所有文章的集合。給出一個(gè)實(shí)體e,通過(guò)統(tǒng)計(jì)所有包含它的維基百科中的文章,可以得到該實(shí)體主題的01向量表示。

    其中,維基百科中的每篇文章對(duì)應(yīng)topic(e)向量中的一位,由該實(shí)體是否在該文章中出現(xiàn)決定該位是0還是1。

    同樣,給出一個(gè)文章D,可以通過(guò)對(duì)文章中出現(xiàn)的所有實(shí)體主題向量求和得到文章對(duì)應(yīng)的主題向量。

    3.3.2 基于主題向量的二次消岐

    對(duì)于任意一個(gè)命名實(shí)體識(shí)別系統(tǒng),最終候選集消歧的結(jié)果是對(duì)每個(gè)命名性指稱(chēng)給予唯一的實(shí)體匹配。如果一個(gè)候選集中的兩個(gè)實(shí)體消歧的得分比較接近,那么直接選擇得分更高的實(shí)體很容易出現(xiàn)錯(cuò)誤。利用上節(jié)提到的主題向量,可以對(duì)這部分容易發(fā)生錯(cuò)誤的標(biāo)注結(jié)果進(jìn)行二次消歧。

    給定一篇文章和候選集實(shí)體,利用上節(jié)的方法構(gòu)造文章的主題向量和每個(gè)實(shí)體的主題向量。對(duì)于每個(gè)實(shí)體,計(jì)算其主題向量和文章主題向量的余弦相似度作為兩者的主題相似度,并選擇主題相似度最高的實(shí)體作為最終標(biāo)注的實(shí)體。

    為了得到文章的主題向量,需要獲得文章中出現(xiàn)的所有實(shí)體。然而要想得到文章中出現(xiàn)的所有實(shí)體,又需要首先獲得文章的標(biāo)注結(jié)果,這就使得兩者出現(xiàn)了循環(huán)依賴(lài)的關(guān)系。對(duì)于這個(gè)問(wèn)題,本文采取的解決辦法是利用一次消歧結(jié)果來(lái)近似得到文章中出現(xiàn)的實(shí)體。

    本文認(rèn)為在一次消歧后滿(mǎn)足以下兩個(gè)條件的候選實(shí)體可以作為正確的標(biāo)注結(jié)果,不參與二次消歧,并利用這些實(shí)體構(gòu)建文章的近似主題向量。

    (1)該實(shí)體在候選集中擁有最高的消歧得分,且不低于一定閾值(取決于具體的系統(tǒng))。

    (2)候選集中沒(méi)有其他實(shí)體的支持度(即維基百科中的出現(xiàn)次數(shù))大于該實(shí)體。

    在得到文章的主題向量之后,通過(guò)計(jì)算剩下的候選實(shí)體和文章主題之間的主題相似度,將主題相似度最高的實(shí)體作為最終的消歧結(jié)果。

    4 基于DBpedia Spotlight的優(yōu)化方案實(shí)現(xiàn)

    本文用于實(shí)驗(yàn)的命名實(shí)體識(shí)別系統(tǒng)是DBpedia Spotlight基于統(tǒng)計(jì)的版本[18],也是目前使用最廣泛的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)之一。本章主要對(duì)系統(tǒng)原理進(jìn)行簡(jiǎn)單介紹,并闡述優(yōu)化方案的實(shí)現(xiàn)。

    4.1 開(kāi)源系統(tǒng)DBpediaSpotlight

    DBpedia Spotlight可以識(shí)別文本中的命名性指稱(chēng),并與DBpedia知識(shí)庫(kù)中的對(duì)應(yīng)實(shí)體關(guān)聯(lián)起來(lái),從而豐富文本的信息。系統(tǒng)所需要的統(tǒng)計(jì)模型包括實(shí)體、命名性指稱(chēng)、候選集、單詞和上下文五部分,是通過(guò)對(duì)維基百科的dump解析得到的,并序列化到硬盤(pán)。維基百科文章中包含了大量超鏈接形式的高質(zhì)量人工標(biāo)注,其中鏈接指向的文章就是標(biāo)注的實(shí)體,鏈接處的文本是實(shí)體在文本中的命名性指稱(chēng),鏈接處周?chē)奈谋緞t作為實(shí)體出現(xiàn)的上下文。

    DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程也包括命名性指稱(chēng)識(shí)別、候選集生成和候選集消歧3個(gè)步驟。

    (1)命名性指稱(chēng)識(shí)別

    DBpedia Spotlight通過(guò)利用維基百科中出現(xiàn)的所有命名性指稱(chēng),構(gòu)建有限自動(dòng)機(jī)字典,然后使用有限自動(dòng)機(jī)算法識(shí)別出文本中所有可能出現(xiàn)的命名性指稱(chēng)。系統(tǒng)還會(huì)計(jì)算出維基百科中每個(gè)命名性指稱(chēng)s的被標(biāo)記概率 P(annotation|s)(式(9)),來(lái)刻畫(huà)一個(gè)命名性指稱(chēng)的重要程度,用于在線(xiàn)標(biāo)注處理時(shí)對(duì)命名性指稱(chēng)的選擇,從而將低于一定閾值的命名性指稱(chēng)舍棄。

    (2)候選集生成

    利用候選集模型中保存的統(tǒng)計(jì)信息,系統(tǒng)對(duì)于識(shí)別出的每個(gè)命名性指稱(chēng),構(gòu)造該命名性指稱(chēng)可能對(duì)應(yīng)的實(shí)體集合作為候選集。

    (3)候選集消歧

    DBpedia Spotlight系統(tǒng)的消歧過(guò)程基于生成概率模型[19]。對(duì)于給定的標(biāo)記m(命名性指稱(chēng)是s,上下文是c),它被標(biāo)記為實(shí)體e的概率為:

    式中,P(e)、P(s|e)、P(c|e)分別對(duì)應(yīng)實(shí)體 e出現(xiàn)的概率、實(shí)體e出現(xiàn)時(shí)命名性指稱(chēng)為s的概率、實(shí)體e出現(xiàn)時(shí)上下文為c的概率,在維基百科數(shù)據(jù)集上使用極大似然估計(jì)得到(式(11))。PLM(t)是在訓(xùn)練集中所有單詞上估計(jì)得到的用于平滑的一元語(yǔ)言生成語(yǔ)言模型。

    對(duì)于候選集中的每個(gè)實(shí)體,系統(tǒng)計(jì)算得到了命名性指稱(chēng)被標(biāo)記為該實(shí)體的概率,對(duì)該概率進(jìn)行標(biāo)準(zhǔn)化,從而得到一個(gè)介于0到1.0之間的消歧得分。最終系統(tǒng)將實(shí)體按照消歧得分進(jìn)行排序,并且將得分最高的實(shí)體作為最終標(biāo)記結(jié)果。對(duì)于當(dāng)前上下文,系統(tǒng)還將生成一個(gè)NIL實(shí)體,用來(lái)表示命名性指稱(chēng)不屬于任何一個(gè)候選實(shí)體時(shí)的標(biāo)記結(jié)果。通過(guò)計(jì)算得到NIL實(shí)體的消歧得分(式(12)),所有低于該NIL實(shí)體得分的結(jié)果將被移除。

    4.2 基于候選集的增量擴(kuò)展實(shí)現(xiàn)

    DBpedia Spotlight系統(tǒng)的統(tǒng)計(jì)模型是離線(xiàn)過(guò)程中序列化到硬盤(pán)的,基于候選集的增量擴(kuò)展需要對(duì)其命名性指稱(chēng)模型、候選集模型進(jìn)行處理。因此,最終利用候選集擴(kuò)展DBpedia Spotlight模型的步驟如下所示。

    步驟1將DBpedia Spotlight的統(tǒng)計(jì)模型反序列化導(dǎo)入內(nèi)存。

    步驟2對(duì)于輸入候選集中每一對(duì)實(shí)體和命名性指稱(chēng)的匹配關(guān)系(e,s),如果e在實(shí)體模型中不存在,則跳過(guò)這條關(guān)系,否則獲得e對(duì)應(yīng)的e_id。

    步驟3如果s在命名性指稱(chēng)模型中不存在,則使用式(2)估計(jì)被標(biāo)記概率,并將s加入系統(tǒng)原有的命名性指稱(chēng)模型中,設(shè)置初始標(biāo)記次數(shù)為1。

    步驟4從擴(kuò)展后的命名性指稱(chēng)模型中獲得s對(duì)應(yīng)的s_id,并使用(s_id,e_id)對(duì)候選集模型進(jìn)行擴(kuò)展,并將出現(xiàn)次數(shù)設(shè)為1。

    步驟5將擴(kuò)展后的統(tǒng)計(jì)模型重新序列化到硬盤(pán)。

    人工構(gòu)建這樣的高質(zhì)量候選集是很困難的,需要大量繁瑣的工作。因此,為了驗(yàn)證使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,本節(jié)選擇通過(guò)使用規(guī)則生成一些相對(duì)質(zhì)量較低的匹配關(guān)系來(lái)近似地評(píng)價(jià)。本文通過(guò)選擇3個(gè)基本的規(guī)則(表1),生成了一系列實(shí)體與命名性指稱(chēng)的對(duì)應(yīng)關(guān)系,從而擴(kuò)展已有的候選集來(lái)驗(yàn)證候選集擴(kuò)展方法。

    Table1 Generative rulesof named references表1 命名性指稱(chēng)的生成規(guī)則

    4.3 基于點(diǎn)互信息率的特征選擇實(shí)現(xiàn)

    對(duì)于DBpedia Spotlight系統(tǒng)來(lái)說(shuō),候選集消歧過(guò)程所使用到的上下文信息保存在上下文模型中,包括訓(xùn)練集中出現(xiàn)在每個(gè)實(shí)體周?chē)膯卧~以及對(duì)應(yīng)的出現(xiàn)次數(shù)。通過(guò)實(shí)驗(yàn)調(diào)優(yōu)選擇一定閾值,對(duì)系統(tǒng)上下文模型進(jìn)行遍歷。對(duì)每個(gè)實(shí)體的上下文中單詞,使用離線(xiàn)處理得到的維基百科統(tǒng)計(jì)信息計(jì)算兩者之間的點(diǎn)互信息率,從而將低于閾值的單詞過(guò)濾掉,完成對(duì)上下文模型的特征選擇,步驟如下。

    步驟1將系統(tǒng)上下文模型反序列化到內(nèi)存,并對(duì)其進(jìn)行遍歷。

    步驟2對(duì)于每個(gè)實(shí)體e對(duì)應(yīng)的上下文單詞集合中的單詞token,從維基百科的統(tǒng)計(jì)信息中獲得e的出現(xiàn)次數(shù)、token的出現(xiàn)次數(shù)以及維基百科單詞的總數(shù)。

    步驟3使用式(10)計(jì)算得到e和token之間的點(diǎn)互信息率pmi_rate。

    步驟4如果pmi_rate小于預(yù)先設(shè)定的閾值,則將token從e的上下文空間中移除。

    步驟5重新將特征選擇后的上下文模型序列化到硬盤(pán)。

    為了驗(yàn)證對(duì)于上下文模型使用點(diǎn)互信息率進(jìn)行特征選擇的效果,本文同樣實(shí)現(xiàn)了利用互信息以及χ2統(tǒng)計(jì)量?jī)蓚€(gè)主流的特征,并將特征選擇之后的模型在多個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行標(biāo)注,證明了點(diǎn)互信息率要優(yōu)于以上兩種方法。

    4.4 基于主題向量的二次消岐實(shí)現(xiàn)

    DBpedia Spotlight的消歧過(guò)程中,僅僅利用一元語(yǔ)言模型計(jì)算候選集中每個(gè)實(shí)體的生成概率,并將生成概率最高的實(shí)體作為標(biāo)注結(jié)果,這其中并沒(méi)有考慮到實(shí)體與實(shí)體之間的語(yǔ)義關(guān)聯(lián)度,或者說(shuō)實(shí)體和整個(gè)文本主題之間的關(guān)聯(lián)度。

    原有的DBpedia Spotlight系統(tǒng)消歧之后得到的是文章中所有可能的命名性指稱(chēng)以及對(duì)應(yīng)的所有候選實(shí)體集。候選實(shí)體集中的每個(gè)實(shí)體都計(jì)算得到了一個(gè)消歧得分,最后得分最高的實(shí)體將會(huì)被保留并作為最終的標(biāo)注結(jié)果,即便最高的得分可能非常低。因此,本文對(duì)第一次消歧得到的錯(cuò)誤可能性較高的命名性指稱(chēng)進(jìn)行基于主題向量的二次消歧,從而提高標(biāo)注的準(zhǔn)確率。

    本文在DBpedia Spotlight上實(shí)現(xiàn)的二次消歧算法表述如下所示。

    算法基于主題向量的二次消歧

    輸入:一次消歧結(jié)果TmpResult,維基百科鏈接數(shù)據(jù)Links

    輸出:二次消歧結(jié)果FinalResult

    1.initFinalResult={};//定義FinalResult為保存最終消歧結(jié)果的集合

    2.for(sf,entities)←TmpResultdo

    3.(top_entity,top_score)=getTop(entities);

    4.iftop_score>0.9 then

    5.top_support=getSupport(top_entity);//得到消歧得分最高實(shí)體的支持度

    6.for(entity,score)←entitiesdo

    7. if getSupport(entity)>top_supportthen

    8. Break;

    9. end if

    10.add calculateTopic(top_entity)totextTopic;//計(jì)算文章的主題向量textTopic

    11.add(sf,top_entity)toFinalResult,remove(sf,entities)inTmpResult;

    12.end for

    13.end if

    14.end for

    15.for(sf,entities)←TmpResultdo

    16.(top_entity,top_score)=getTop(entities);

    17.topSim=calculateSim(calculateTopic(top_entity),textTopic);//計(jì)算實(shí)體和文章之間的主題相似度topSim

    18.for(entity,score)←entitiesdo

    19.entitySim←calculateSim(calculateTopic(entity),textTopic);

    20.ifentitySim>topSimthen

    21.topSim=entitySim;

    22.top_entity=entity;

    23.end if

    24.end for

    //得到候選集中與文章主題相似度最高的實(shí)體

    25.add(sf,top_entity)toFinalResult;

    26.end for

    其中維基百科鏈接數(shù)據(jù)(Links)中保存著每一個(gè)DBpedia實(shí)體所出現(xiàn)的維基百科文章的集合,是通過(guò)對(duì)維基百科文章數(shù)據(jù)離線(xiàn)處理解析得到的。由于算法只需要對(duì)一次消歧的結(jié)果進(jìn)行線(xiàn)性遍歷,顯然其時(shí)間復(fù)雜度是O(N),其中N是文章中識(shí)別出所有候選集實(shí)體的數(shù)目。

    5 實(shí)驗(yàn)

    下面通過(guò)實(shí)驗(yàn)方法評(píng)價(jià)本文命名實(shí)體識(shí)別優(yōu)化方案,全部實(shí)驗(yàn)在Intel?Xeon?CPU E5620@2.40GHz的PC機(jī)上運(yùn)行,內(nèi)存為64 GB,并配置4 TB硬盤(pán)。5.1節(jié)介紹實(shí)驗(yàn)使用的測(cè)試框架、數(shù)據(jù)集以及評(píng)測(cè)標(biāo)準(zhǔn);5.2節(jié)給出本文方案的實(shí)驗(yàn)結(jié)果以及與包括DBpedia Spotlight在內(nèi)的多個(gè)開(kāi)源命名實(shí)體識(shí)別系統(tǒng)的對(duì)比和分析。

    5.1 測(cè)試框架、數(shù)據(jù)集與評(píng)測(cè)標(biāo)準(zhǔn)

    目前已知的標(biāo)準(zhǔn)測(cè)試平臺(tái)BAT-Framework[20]是由Cornolti等人在2013年提出的,它可以公平地針對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行評(píng)估。該框架基于一系列命名實(shí)體識(shí)別的任務(wù),提出了一套包括上文介紹的所有參數(shù)在內(nèi)的用于評(píng)估命名實(shí)體識(shí)別系統(tǒng)性能的方法,并且容易進(jìn)行配置來(lái)全面地評(píng)測(cè)一個(gè)系統(tǒng)的性能。另外,系統(tǒng)覆蓋了多個(gè)公開(kāi)的測(cè)試數(shù)據(jù)集,并且可以很容易地使用新的測(cè)試數(shù)據(jù)集、命名實(shí)體識(shí)別系統(tǒng)以及評(píng)測(cè)方法進(jìn)行擴(kuò)展。

    在本文的實(shí)驗(yàn)中,使用了最常用的弱匹配方法對(duì)系統(tǒng)的性能進(jìn)行評(píng)估,即只需要兩個(gè)命名性指稱(chēng)之間有交集并且兩個(gè)實(shí)體在重定向后具有一致性就認(rèn)為是正確的匹配。本文主要使用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(precision)、召回率(recall)以及F值(F-measure)。

    其中,tp(true positive),即系統(tǒng)標(biāo)注結(jié)果中正確的數(shù)目;fp(false positive),即系統(tǒng)標(biāo)注結(jié)果中錯(cuò)誤的數(shù)目;fn(false negative),即標(biāo)準(zhǔn)標(biāo)注結(jié)果中沒(méi)有被系統(tǒng)標(biāo)注出來(lái)的數(shù)目。

    為了實(shí)驗(yàn)的公平性,本文所有實(shí)驗(yàn)中的參數(shù)在未提及的情況下都使用默認(rèn)值。同時(shí),本文選取兩個(gè)具有代表性的數(shù)據(jù)集AIDA/CoNLL和MSNBC作為實(shí)驗(yàn)的測(cè)試數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的介紹如表2所示。

    Table 2 Benchmark datasetsused in experiments表2 實(shí)驗(yàn)使用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集

    5.2 Ontology層結(jié)果分析

    本節(jié)主要圍繞本文三方面的優(yōu)化在3個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行綜合全面的實(shí)驗(yàn)。5.2.1節(jié)主要介紹使用候選集擴(kuò)展方法相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.2節(jié)主要介紹基于點(diǎn)互信息率的特征選擇相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.3節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)結(jié)果和分析。最后將對(duì)三方面優(yōu)化整合后的系統(tǒng)進(jìn)行實(shí)驗(yàn)和分析,并與多個(gè)開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行比較。

    5.2.1 模型擴(kuò)展框架

    本文通過(guò)第3章總結(jié)的3個(gè)簡(jiǎn)單的規(guī)則,利用DBpedia知識(shí)庫(kù)中的5 235 952個(gè)實(shí)體生成了541 607個(gè)實(shí)體-命名性指稱(chēng)的匹配。將生成的匹配關(guān)系利用候選集擴(kuò)展的方法融入到原有系統(tǒng)的統(tǒng)計(jì)模型中,用DBpedia Spotlight-α來(lái)指代擴(kuò)展模型后的系統(tǒng)。

    為了驗(yàn)證DBpediaSpotlight-α的性能,本文在AIDA/CoNLL和MSNBC數(shù)據(jù)集上分別運(yùn)行了原系統(tǒng)和DBpedia Spotlight-α,得到的實(shí)驗(yàn)結(jié)果如表3所示。

    從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)利用規(guī)則產(chǎn)生候選集,并將這個(gè)集合融入到原有的候選集中,可以一定程度增加在測(cè)試數(shù)據(jù)集上識(shí)別正確實(shí)體的數(shù)目,從而提高系統(tǒng)的召回率。同時(shí),由于增加了大量的質(zhì)量不高的實(shí)體命名性指稱(chēng)對(duì)應(yīng)關(guān)系,也會(huì)增加許多標(biāo)注錯(cuò)誤的情況,從而導(dǎo)致識(shí)別的準(zhǔn)確率有所下降。DBpedia Spotlight-α所增加的標(biāo)注正確的數(shù)目要遠(yuǎn)小于候選集中新增的匹配關(guān)系數(shù)目,是因?yàn)槭褂靡?guī)則產(chǎn)生的關(guān)系,如果在訓(xùn)練集中沒(méi)有出現(xiàn),通常實(shí)際應(yīng)用時(shí)出現(xiàn)的情況也比較少。因此,如果使用一些人工或機(jī)器的手段,獲取大量實(shí)體與命名性指稱(chēng)高質(zhì)量的對(duì)應(yīng)關(guān)系集合,利用本節(jié)的方法融入到字典中,將可以得到更好的結(jié)果。另外,盡管系統(tǒng)增加了一些標(biāo)記錯(cuò)誤的結(jié)果,但是本文提到的二次消歧方法可以有效地增加準(zhǔn)確率,減少標(biāo)記錯(cuò)誤的情況,兩者的結(jié)合可以得到更好的結(jié)果。

    5.2.2 基于點(diǎn)互信息率的特征選擇

    本小節(jié)主要介紹基于點(diǎn)互信息率的特征選擇方面的實(shí)驗(yàn),其中包括對(duì)用于過(guò)濾的閾值參數(shù)的選擇調(diào)優(yōu)。本小節(jié)的系統(tǒng)用DBpedia Spotlight-β指代。

    為了找到一個(gè)最優(yōu)的用于過(guò)濾的閾值參數(shù),本文將閾值從0開(kāi)始逐步提高,同時(shí)觀(guān)察特征選擇后的上下文模型空間的變化,以及系統(tǒng)在測(cè)試數(shù)據(jù)集上的標(biāo)注性能變化。圖1和圖2、圖3分別對(duì)應(yīng)隨著閾值參數(shù)的變化,上下文模型的空間占用的變化以及系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的標(biāo)注結(jié)果的變化。

    通過(guò)觀(guān)察圖1可以發(fā)現(xiàn),系統(tǒng)上下文模型中平均每個(gè)實(shí)體對(duì)應(yīng)的單詞數(shù)目隨著閾值的提高下降得非常迅速,在閾值設(shè)為0.4的時(shí)候已經(jīng)達(dá)到了原有模型大小的1/4,這說(shuō)明了絕大部分的單詞與實(shí)體同時(shí)出現(xiàn)都是具有偶然性的。而從圖2和圖3中可以看出,盡管模型空間隨著閾值的提高成倍地下降,但是系統(tǒng)的消歧效果并沒(méi)有受到太大的影響。在最初閾值從0提高到0.3的過(guò)程中,系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的F值和原系統(tǒng)相比略微下降,從0.3開(kāi)始系統(tǒng)的標(biāo)注結(jié)果反而開(kāi)始得到提高,直到閾值為0.4到0.5之間時(shí)達(dá)到頂峰,其性能也超過(guò)了原系統(tǒng)。最后從0.5再繼續(xù)提高閾值,系統(tǒng)的標(biāo)注效果又開(kāi)始逐漸下降。

    Table3 Experimental results1表3 實(shí)驗(yàn)結(jié)果1

    Fig.1 Threshold parameter and contextmodelspace圖1 閾值參數(shù)與上下文模型空間

    Fig.2 Threshold parameterandF-measureon AIDA/CoNLL dataset圖2 閾值參數(shù)在測(cè)試數(shù)據(jù)集AIDA/CoNLL上的F值

    Fig.3 Threshold parameterandF-measureon MSNBC dataset圖3 閾值參數(shù)在測(cè)試數(shù)據(jù)集MSNBC上的F值

    因此,最終本文采用能夠在兩個(gè)測(cè)試數(shù)據(jù)集上得到較好結(jié)果的閾值0.45,此時(shí)原有的上下文模型空間從平均每個(gè)實(shí)體具有66個(gè)上下文單詞減少到了只有17個(gè)上下文單詞。表4是將閾值參數(shù)設(shè)置為0.45時(shí)得到的上下文模型整合到系統(tǒng)后,在AIDA/CoNLL和MSNBC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

    通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),新的模型在大大削減了空間的情況下,并沒(méi)有影響到標(biāo)注的性能,而且可以在準(zhǔn)確率和召回率上都有略微的提升。

    5.2.3 基于主題向量的二次消岐

    本小節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)。將融入二次消歧算法的系統(tǒng)用DBpedia Spotlight-θ指代,表5是DBpedia Spotlight-θ在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的實(shí)驗(yàn)結(jié)果。

    從實(shí)驗(yàn)結(jié)果中可以看出,通過(guò)對(duì)原有系統(tǒng)中標(biāo)注錯(cuò)誤可能性較大的命名性指稱(chēng)進(jìn)行二次消歧,可以有效地降低系統(tǒng)中標(biāo)注錯(cuò)誤實(shí)體的數(shù)量,從而提高標(biāo)注的準(zhǔn)確率和F值。

    Table 4 Experimental results2表4 實(shí)驗(yàn)結(jié)果2

    Table5 Experimental results3表5 實(shí)驗(yàn)結(jié)果3

    Table6 Experimental results4表6 實(shí)驗(yàn)結(jié)果4

    5.2.4 整合后系統(tǒng)

    本小節(jié)將上述的三部分整合到了一起,整合后的系統(tǒng)用DBpedia Spotlight*指代。通過(guò)在測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上運(yùn)行實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表6所示。

    從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)將三方面工作結(jié)合到一起,DBpedia Spotlight*能夠得到比每個(gè)單一部分更好的標(biāo)注效果。這說(shuō)明三方面工作對(duì)于系統(tǒng)而言都有著自己獨(dú)立的優(yōu)點(diǎn),將三方面結(jié)合起來(lái)可以讓系統(tǒng)更加完善。另外,對(duì)比表6可以看出,在數(shù)據(jù)集MSNBC上的結(jié)果要比數(shù)據(jù)集AIDA/CoNLL上提升得更加明顯,主要是因?yàn)閿?shù)據(jù)集MSNBC的特點(diǎn)是只有非常重要的實(shí)體才會(huì)被標(biāo)記,所以標(biāo)注結(jié)果集中的實(shí)體之間的聯(lián)系也更加緊密,文本內(nèi)部的主題一致性更加突出,更適用于本文提出的二次消歧算法。而AIDA/CoNLL數(shù)據(jù)集會(huì)過(guò)多地標(biāo)注一些不重要的實(shí)體,為主題向量的構(gòu)建帶來(lái)了噪音。

    5.2.5 與其他開(kāi)源系統(tǒng)的比較

    本文還與其他4個(gè)廣泛使用的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行了比較,包括AIDA、IllinoisWikifier、TagMe2以及WikipediaM iner。同時(shí),為了與其他系統(tǒng)公平地比較性能,本文將DBpedia Spotlight的一些參數(shù)通過(guò)調(diào)整,取能夠使得標(biāo)注結(jié)果達(dá)到最優(yōu)的值。表7是DBpedia Spotlight*在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的運(yùn)行結(jié)果同包括原系統(tǒng)在內(nèi)的5個(gè)開(kāi)源系統(tǒng)的比較。

    通過(guò)與其他著名的開(kāi)源系統(tǒng)在AIDA/CoNLL數(shù)據(jù)集和MSNBC數(shù)據(jù)集上進(jìn)行對(duì)比的結(jié)果可以看出,DBpedia Spotlight系統(tǒng)本身已經(jīng)能夠具有目前接近最好的標(biāo)注性能,而本文提出的優(yōu)化框架可以進(jìn)一步提高原系統(tǒng)的性能,從而超過(guò)了其他開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)。

    Table7 Resultsof comparison experimentsbetween DBpedia Spotlight*and open-source systems表7 DBpedia Spotlight*與開(kāi)源系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果

    需要指出的是,在5.2.4小節(jié)中實(shí)驗(yàn)對(duì)比DBpedia Spotlight*與DBpedia Spotlight原系統(tǒng)時(shí),使用的閾值參數(shù)為0.4,也是DBpedia Spotlight默認(rèn)的參數(shù)。而本小節(jié)的實(shí)驗(yàn)是DBpedia Spotlight*和其他幾個(gè)開(kāi)源系統(tǒng)之間的對(duì)比,鑒于每個(gè)系統(tǒng)都有各自的配置參數(shù),用來(lái)調(diào)節(jié)標(biāo)注的準(zhǔn)確率和召回率,為了公平起見(jiàn),將每個(gè)系統(tǒng)都取其能夠達(dá)到最好標(biāo)注效果(也就是F值最大)的參數(shù),因此表7中DBpedia Spotlight*的實(shí)驗(yàn)數(shù)據(jù)與表6中的數(shù)據(jù)不同。

    6 總結(jié)

    由于知識(shí)庫(kù)中實(shí)體在文本中存在形式的多樣性,提高命名實(shí)體識(shí)別的綜合性能一直是一個(gè)挑戰(zhàn)性問(wèn)題。本文通過(guò)對(duì)現(xiàn)有的命名實(shí)體識(shí)別方法進(jìn)行研究與分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化框架。通過(guò)設(shè)計(jì)并實(shí)現(xiàn)使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,降低了對(duì)訓(xùn)練集的依賴(lài),增加了靈活性;同時(shí),提出了點(diǎn)互信息率的概念,通過(guò)使用點(diǎn)互信息率對(duì)上下文模型進(jìn)行特征選擇,將上下文空間降低為原有的1/4,并且能夠提高標(biāo)注的準(zhǔn)確率和召回率。本文還提出了利用主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度對(duì)錯(cuò)誤可能性較高的標(biāo)注結(jié)果進(jìn)行二次消歧,提高了標(biāo)注的準(zhǔn)確率。通過(guò)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight中實(shí)現(xiàn)所提優(yōu)化方案,并在兩個(gè)標(biāo)準(zhǔn)的測(cè)試集上設(shè)計(jì)完善的實(shí)驗(yàn)方案,驗(yàn)證了本文優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    [1]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia—a crystallization point for theWeb of data[J].Web Semantics:Science,Services and Agents on theWorld WideWeb,2009,7(3):154-165.

    [2]Hoffart J,Suchanek FM,Berberich K,et al.YAGO2:exploring and querying world know ledge in time,space,context,andmany languages[C]//Proceedings of the 20th International Conference onWorld WideWeb,Hyderabad,India,Mar28-Apr1,2011.New York:ACM,2011:229-232.

    [3]Cucerzan S.Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,Jun 28-30,2007.Stroudsburg,USA:ACL,2011:708-716.

    [4]Medelyan O,W itten IH,M ilne D.Topic indexing w ith Wikipedia[C]//Proceedingsof the 2008AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo A lto,USA:AAAI,2008:19-24.

    [5]M ilne D,Witten IH.Learning to link w ith Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Know ledge Management,Napa Valley,USA,Oct 26-30,2008.New York:ACM,2008:509-518.

    [6]Olieman A,Azarbonyad H,DehghaniM,etal.Entity linking by focusing DBpedia candidate entities[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul 11,2014.New York:ACM,2014:13-24.

    [7]Lipczak M,KoushkestaniA,M ilios E.Tulip:lightweight entity recognition and disambiguation using Wikipediabased topic centroids[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul11,2014.New York:ACM,2014:31-36.

    [8]Kulkarni S,Singh A,Ramakrishnan G,etal.Collective annotation of Wikipedia entities in Web text[C]//Proceedings of the 15th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Paris,Jun 28-Jul 1,2009.New York:ACM,2009:457-466.

    [9]Han Xianpei,Sun Le,Zhao Jun.Collective entity linking in Web text:a graph-based method[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 24-28,2011.New York:ACM,2011:765-774.

    [10]Hoffart J,Yosef M A,Bordino I,et al.Robust disambiguation of named entities in text[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:782-792.

    [11]Usbeck R,Ngomo A C N,R?der M,etal.AGDISTIS—agnostic disambiguation of named entities using linked open data[C]//Proceedings of the 21st European Conference on Artificial Intelligence,Prague,Czech Republic,Aug 18-22,2014.Amsterdam:IOSPress,2014:1113-1114.

    [12]Chen S F,Goodman J.An empirical study of smoothing techniques for language modeling[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,USA,Jun 24-27,1996.Stroudsburg,USA:ACL,1996:310-318.

    [13]Church KW,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.

    [14]Islam A,Inkpen D.Second order co-occurrence PM I for determ ining the semantic sim ilarity of words[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation,Genoa,Italy,May 24-26,2006.Paris:ELRA,2006:1033-1038.

    [15]Islam A,Inkpen D.Semantic similarity of short texts[J].Re-cent Advances in Natural Language Processing,2009,309:227-236.

    [16]Ferragina P,Scaiella U.TagMe:on-the-fly annotation of short text fragments(by w ikipedia entities)[C]//Proceedings of the 19th ACM International Conference on Information and Know ledge Management,Toronto,Canada,Oct 26-30,2010.New York:ACM,2010:1625-1628.

    [17]Witten I,M ilne D.An effective,low-costmeasureof semantic relatedness obtained from Wikipedia links[C]//Proceedings of the 2008 AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo Alto,USA:AAAI,2008:25-30.

    [18]Han Xianpei,Sun Le.A generative entity-mention model for linking entitiesw ith know ledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technolgies,Portland,USA,Jun 19-24,2011.Stroudsburg,USA:ACL,2011:945-954.

    [19]Daiber J,Jakob M,Hokamp C,et al.Improving efficiency and accuracy in multilingual entity extraction[C]//Proceedings of the 9th International Conference on Semantic Systems,Graz,Austria,Sep 4-6,2013.New York:ACM,2013:121-124.

    [20]Cornolti M,Ferragina P,Ciaram ita M.A framework for benchmarking entity-annotation systems[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,May 13-17,2013.New York:ACM,2013:249-260.

    FU Yuxinwasborn in 1991.He isan M.S.candidate at Tianjin University.His research interests include named entity recognition and keyword search.

    付宇新(1991—),男,吉林通化人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槊麑?shí)體識(shí)別,關(guān)鍵字搜索。

    王鑫(1981—),男,天津人,2009年于南開(kāi)大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)檎Z(yǔ)義數(shù)據(jù)管理,圖數(shù)據(jù)庫(kù),大規(guī)模知識(shí)處理。

    FENG Zhiyong was born in 1965.He received the Ph.D.degree from Tianjin University in 1996.Now he isa professor and Ph.D.supervisor at Tianjin University,and the seniormember of CCF.His research interests include know ledge engineering,services computing and security software engineering.

    馮志勇(1965—),男,內(nèi)蒙古呼和浩特人,1996年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)橹R(shí)工程,服務(wù)計(jì)算,安全軟件工程。

    XU Qiangwasborn in 1993.She isan M.S.candidate at Tianjin University.Her research interests include semantic Web and graph databases.

    徐強(qiáng)(1993—),女,山西臨汾人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)義網(wǎng),圖數(shù)據(jù)庫(kù)。

    Named Entity Recognition Optim ization on DBpedia Spotlight*

    FU Yuxin1,2,WANG Xin1,2+,FENG Zhiyong2,3,XUQiang1,2
    1.Schoolof Computer Science and Technology,Tianjin University,Tianjin 300354,China
    2.Tianjin Key Laboratory of Cognitive Computing and Application,Tianjin 300354,China
    3.Schoolof Computer Software,Tianjin University,Tianjin 300354,China

    The task of named entity recognition can bridge the gap between know ledge bases and nature languages,and support the research work in keyword extraction,machine translation,topic detection and tracking,etc.Based on the analysisof current research in the field of named entity recognition,this paper proposesa general-purpose optimization scheme for named entity recognition.Firstly,this paper designs and implements an incremental extending method,by using a candidate set,which can reduce the dependency on the training set.Secondly,by leveraging the conceptof pointw isemutual information ratio,thispapereffectivelymakes feature selection on the contextsof entities,whichmay reduce the contextspace significantly andmeanwhile improve the performance of annotation results.Finally,this paper presents the secondary disambiguationmethod based on topic vectors,which can further enhance the precision of annotation.This paper conductsextensive comparison experiments on thew idely-used open-source named entity recognition system DBpedia Spotlight.Ithas been verified that the proposed optim ization scheme out-performs the state-of-the-artmethods.

    named entity recognition;linked data;DBpedia Spotlight

    was born in 1981.He

    the Ph.D.degree from NankaiUniversity in 2009.Now he isan associate professor at Tianjin University,and the seniormember of CCF.His research interests include semantic data management,graph databasesand large-scale know ledge processing.

    A

    :TP391

    *The National Natural Science Foundation of China under GrantNos.61572353,61373035(國(guó)家自然科學(xué)基金);the National High Technology Research and DevelopmentProgram of China underGrantNo.2013AA013204(國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)).

    Received 2016-06,Accepted 2016-08.

    CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-08-15,http://www.cnki.net/kcms/detail/11.5602.TP.20160815.1659.004.htm l

    猜你喜歡
    消歧維基百科命名
    維基百科影響司法
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    維基百科青年
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    為一條河命名——在白河源
    APP
    IBM的監(jiān)視
    意林(2014年2期)2014-02-11 11:09:17
    a级毛片免费高清观看在线播放| 日本欧美国产在线视频| 免费观看a级毛片全部| 99久久久亚洲精品蜜臀av| av.在线天堂| 亚洲经典国产精华液单| 国产亚洲精品av在线| 99热这里只有是精品50| 久久精品国产99精品国产亚洲性色| 国产单亲对白刺激| 国产日本99.免费观看| 国产人妻一区二区三区在| 高清毛片免费观看视频网站| 亚洲aⅴ乱码一区二区在线播放| a级毛片a级免费在线| 五月玫瑰六月丁香| 中文精品一卡2卡3卡4更新| 日日撸夜夜添| 婷婷色综合大香蕉| 只有这里有精品99| 国产午夜精品久久久久久一区二区三区| 男女下面进入的视频免费午夜| 少妇被粗大猛烈的视频| 免费观看a级毛片全部| 神马国产精品三级电影在线观看| 欧美精品一区二区大全| 三级国产精品欧美在线观看| 国产极品精品免费视频能看的| 成年女人看的毛片在线观看| 变态另类成人亚洲欧美熟女| www.av在线官网国产| 伊人久久精品亚洲午夜| h日本视频在线播放| 黄色日韩在线| 欧美精品一区二区大全| 亚洲成人久久性| 亚洲精品亚洲一区二区| 波多野结衣高清无吗| 国产成人精品久久久久久| 身体一侧抽搐| 欧美区成人在线视频| 国产精品1区2区在线观看.| 精品少妇黑人巨大在线播放 | av黄色大香蕉| 亚洲久久久久久中文字幕| 国产色爽女视频免费观看| 丝袜喷水一区| 又爽又黄a免费视频| 日韩中字成人| 国产真实伦视频高清在线观看| 三级男女做爰猛烈吃奶摸视频| 伦理电影大哥的女人| 国产精品一区二区在线观看99 | 麻豆乱淫一区二区| 午夜爱爱视频在线播放| 特大巨黑吊av在线直播| 中文字幕人妻熟人妻熟丝袜美| 男女那种视频在线观看| 日韩视频在线欧美| 国产在线男女| 亚洲欧美成人精品一区二区| 天堂av国产一区二区熟女人妻| 搞女人的毛片| 人人妻人人澡人人爽人人夜夜 | 国产成人福利小说| 久久久久久久午夜电影| 日日干狠狠操夜夜爽| 能在线免费看毛片的网站| 在线免费十八禁| 国产精品伦人一区二区| 乱码一卡2卡4卡精品| 国产乱人偷精品视频| av在线老鸭窝| 久久这里有精品视频免费| 人人妻人人看人人澡| 岛国毛片在线播放| 寂寞人妻少妇视频99o| 亚洲欧美精品专区久久| 国产伦精品一区二区三区视频9| 国产一区亚洲一区在线观看| 欧美精品国产亚洲| 观看美女的网站| 久久6这里有精品| 亚洲精品影视一区二区三区av| 国模一区二区三区四区视频| 在线免费十八禁| 久久99热6这里只有精品| 国产乱人偷精品视频| 亚洲精品456在线播放app| 亚洲三级黄色毛片| 欧美潮喷喷水| 国产伦一二天堂av在线观看| 黄色日韩在线| 22中文网久久字幕| 亚洲国产精品sss在线观看| www.色视频.com| 亚洲自偷自拍三级| 九九热线精品视视频播放| 最近中文字幕高清免费大全6| 99久国产av精品国产电影| 色视频www国产| 午夜精品国产一区二区电影 | 狂野欧美白嫩少妇大欣赏| 啦啦啦啦在线视频资源| 久久久久久久久久久丰满| 欧美最黄视频在线播放免费| 不卡视频在线观看欧美| 欧美日韩综合久久久久久| 国产高潮美女av| 黄片无遮挡物在线观看| 草草在线视频免费看| 超碰av人人做人人爽久久| 欧美激情在线99| 人妻少妇偷人精品九色| 国产单亲对白刺激| 免费观看精品视频网站| 国产伦精品一区二区三区四那| 在线国产一区二区在线| 搞女人的毛片| 久久精品人妻少妇| 久久久成人免费电影| 免费观看人在逋| 插阴视频在线观看视频| 精品人妻熟女av久视频| 精品日产1卡2卡| 久久久欧美国产精品| 大香蕉久久网| 国产av在哪里看| 国产精品人妻久久久影院| 少妇裸体淫交视频免费看高清| 精品欧美国产一区二区三| 中文字幕制服av| 免费观看精品视频网站| 色综合色国产| 午夜福利在线在线| 亚洲av成人av| 午夜福利在线观看吧| 校园春色视频在线观看| 国产精品不卡视频一区二区| 九九在线视频观看精品| 日韩欧美精品v在线| 又粗又硬又长又爽又黄的视频 | 极品教师在线视频| 99精品在免费线老司机午夜| 在线观看免费视频日本深夜| 蜜臀久久99精品久久宅男| 热99在线观看视频| 激情 狠狠 欧美| 免费观看的影片在线观看| 久久久久久久久久久丰满| 内射极品少妇av片p| 你懂的网址亚洲精品在线观看 | 国产精品av视频在线免费观看| 乱人视频在线观看| 99久国产av精品国产电影| 蜜桃亚洲精品一区二区三区| 联通29元200g的流量卡| 日本免费a在线| 嫩草影院新地址| 精品人妻熟女av久视频| 国产精品麻豆人妻色哟哟久久 | 国产片特级美女逼逼视频| 久久精品国产99精品国产亚洲性色| 免费一级毛片在线播放高清视频| 内射极品少妇av片p| 国产爱豆传媒在线观看| 国产精品,欧美在线| 日日摸夜夜添夜夜爱| 在线免费观看不下载黄p国产| 亚洲人成网站高清观看| av福利片在线观看| 蜜臀久久99精品久久宅男| 久久99热这里只有精品18| 欧美性猛交╳xxx乱大交人| 能在线免费看毛片的网站| 成人鲁丝片一二三区免费| 99精品在免费线老司机午夜| 亚洲人成网站在线播放欧美日韩| 少妇被粗大猛烈的视频| 国产黄色小视频在线观看| 乱系列少妇在线播放| 美女内射精品一级片tv| 午夜激情福利司机影院| 国产精品久久久久久精品电影小说 | 婷婷色av中文字幕| 赤兔流量卡办理| 欧美日韩综合久久久久久| 九九久久精品国产亚洲av麻豆| 观看美女的网站| 51国产日韩欧美| 又黄又爽又刺激的免费视频.| 人妻制服诱惑在线中文字幕| 日韩欧美 国产精品| 一边亲一边摸免费视频| 欧美zozozo另类| 99在线视频只有这里精品首页| 女的被弄到高潮叫床怎么办| 91狼人影院| 免费看a级黄色片| 99热只有精品国产| 亚洲欧美清纯卡通| 高清在线视频一区二区三区 | 蜜桃亚洲精品一区二区三区| 国产精品野战在线观看| 我的老师免费观看完整版| 97人妻精品一区二区三区麻豆| 噜噜噜噜噜久久久久久91| 一进一出抽搐动态| 精品久久久噜噜| 久久鲁丝午夜福利片| 大型黄色视频在线免费观看| 菩萨蛮人人尽说江南好唐韦庄 | 成人国产麻豆网| 一夜夜www| 国产真实乱freesex| 丝袜喷水一区| 免费av不卡在线播放| 91av网一区二区| 青青草视频在线视频观看| 亚洲最大成人手机在线| 亚洲av成人精品一区久久| 九草在线视频观看| 国产一区二区三区av在线 | 成人午夜精彩视频在线观看| www.av在线官网国产| 只有这里有精品99| 乱人视频在线观看| 麻豆精品久久久久久蜜桃| 乱码一卡2卡4卡精品| 白带黄色成豆腐渣| 22中文网久久字幕| 热99在线观看视频| 免费看美女性在线毛片视频| 非洲黑人性xxxx精品又粗又长| 免费人成在线观看视频色| .国产精品久久| 18禁黄网站禁片免费观看直播| 嫩草影院新地址| 蜜桃久久精品国产亚洲av| 老熟妇乱子伦视频在线观看| 国产午夜精品久久久久久一区二区三区| 色哟哟·www| 美女cb高潮喷水在线观看| 十八禁国产超污无遮挡网站| 全区人妻精品视频| 丰满的人妻完整版| 日韩高清综合在线| 国产久久久一区二区三区| 岛国毛片在线播放| 久久精品国产自在天天线| av卡一久久| 欧洲精品卡2卡3卡4卡5卡区| .国产精品久久| 亚洲美女视频黄频| 99国产精品一区二区蜜桃av| 中文字幕制服av| 精品少妇黑人巨大在线播放 | 日韩一本色道免费dvd| 亚洲熟妇中文字幕五十中出| 国内精品宾馆在线| 99久久精品一区二区三区| 天堂中文最新版在线下载 | 久久99蜜桃精品久久| 有码 亚洲区| 久久久久性生活片| 特级一级黄色大片| 亚洲精品日韩av片在线观看| 一区二区三区四区激情视频 | 国产精品免费一区二区三区在线| 日韩av在线大香蕉| 老司机福利观看| 欧美日韩综合久久久久久| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产高清视频在线观看网站| 99久国产av精品国产电影| 最近最新中文字幕大全电影3| 你懂的网址亚洲精品在线观看 | 久久精品综合一区二区三区| 国产黄色视频一区二区在线观看 | 欧美高清成人免费视频www| 久久99精品国语久久久| 亚洲最大成人av| 国产片特级美女逼逼视频| 国产伦精品一区二区三区四那| 大型黄色视频在线免费观看| 日韩强制内射视频| 日本撒尿小便嘘嘘汇集6| kizo精华| 黄片无遮挡物在线观看| 18禁在线无遮挡免费观看视频| 在线播放国产精品三级| av福利片在线观看| 九色成人免费人妻av| 韩国av在线不卡| 精品少妇黑人巨大在线播放 | 国产不卡一卡二| 久久久精品欧美日韩精品| 国产美女午夜福利| 中文在线观看免费www的网站| 国产成人aa在线观看| 国产亚洲av嫩草精品影院| 亚洲va在线va天堂va国产| 淫秽高清视频在线观看| 丰满乱子伦码专区| 国产黄片视频在线免费观看| 青春草亚洲视频在线观看| 中文字幕熟女人妻在线| 听说在线观看完整版免费高清| 一本久久中文字幕| 亚洲人成网站在线观看播放| 1000部很黄的大片| 国产精品三级大全| 极品教师在线视频| 日韩,欧美,国产一区二区三区 | 午夜福利高清视频| av在线天堂中文字幕| 午夜爱爱视频在线播放| 免费看光身美女| 日韩欧美一区二区三区在线观看| 97热精品久久久久久| 99热精品在线国产| 神马国产精品三级电影在线观看| 99九九线精品视频在线观看视频| 晚上一个人看的免费电影| 色综合色国产| 深夜精品福利| 欧美色视频一区免费| 久久久欧美国产精品| 免费看a级黄色片| 亚洲av熟女| 欧美一级a爱片免费观看看| 国产高潮美女av| 99九九线精品视频在线观看视频| 人妻久久中文字幕网| 久久精品91蜜桃| 色综合站精品国产| 如何舔出高潮| 国产午夜福利久久久久久| 国产一区亚洲一区在线观看| 精品人妻熟女av久视频| 日本熟妇午夜| 免费看a级黄色片| 久久韩国三级中文字幕| 亚洲av电影不卡..在线观看| 国产精品国产高清国产av| 久久久成人免费电影| 毛片女人毛片| 亚洲精华国产精华液的使用体验 | 亚洲最大成人手机在线| 99久久精品一区二区三区| 日韩精品有码人妻一区| 一个人观看的视频www高清免费观看| 精品久久久久久久久久久久久| 欧美精品一区二区大全| 日韩强制内射视频| 男人狂女人下面高潮的视频| 成年版毛片免费区| 97在线视频观看| 国产精品久久电影中文字幕| 亚洲av二区三区四区| 日韩三级伦理在线观看| 亚洲一区高清亚洲精品| 国语自产精品视频在线第100页| 有码 亚洲区| 一级av片app| 高清午夜精品一区二区三区 | 欧美一级a爱片免费观看看| 人人妻人人澡欧美一区二区| 久久6这里有精品| 亚洲三级黄色毛片| 国产av在哪里看| 亚洲精品国产成人久久av| 非洲黑人性xxxx精品又粗又长| 内射极品少妇av片p| 丰满的人妻完整版| 秋霞在线观看毛片| 久久鲁丝午夜福利片| 麻豆国产97在线/欧美| 欧美成人精品欧美一级黄| 99久久九九国产精品国产免费| 亚洲av男天堂| 久久精品夜色国产| 婷婷精品国产亚洲av| 精品熟女少妇av免费看| 亚洲av一区综合| av卡一久久| 国产午夜精品一二区理论片| 男女做爰动态图高潮gif福利片| 久久中文看片网| 欧美色欧美亚洲另类二区| 成人毛片60女人毛片免费| 国产精品久久久久久av不卡| 国产毛片a区久久久久| 中国国产av一级| 亚洲人成网站在线观看播放| 久久久久久大精品| 精品国内亚洲2022精品成人| 日韩欧美三级三区| 国产 一区 欧美 日韩| 美女国产视频在线观看| 色尼玛亚洲综合影院| 18禁黄网站禁片免费观看直播| 成年免费大片在线观看| 国产极品天堂在线| 中文字幕精品亚洲无线码一区| 色哟哟哟哟哟哟| 午夜精品在线福利| 天堂中文最新版在线下载 | 又粗又硬又长又爽又黄的视频 | 日韩欧美精品v在线| 国产真实乱freesex| 国产免费一级a男人的天堂| 毛片女人毛片| 成人毛片60女人毛片免费| 国产精品嫩草影院av在线观看| 夜夜看夜夜爽夜夜摸| 18禁裸乳无遮挡免费网站照片| 国产精品1区2区在线观看.| 一个人观看的视频www高清免费观看| 看免费成人av毛片| 欧美日韩在线观看h| 简卡轻食公司| 级片在线观看| 男女那种视频在线观看| a级毛片a级免费在线| 精品久久久久久久久亚洲| 国内揄拍国产精品人妻在线| 亚洲真实伦在线观看| 男女啪啪激烈高潮av片| 亚洲电影在线观看av| 亚洲色图av天堂| 中文字幕av成人在线电影| 欧美bdsm另类| 中文精品一卡2卡3卡4更新| 国产一区二区激情短视频| 2022亚洲国产成人精品| 97超碰精品成人国产| 大香蕉久久网| 在线国产一区二区在线| 国产白丝娇喘喷水9色精品| 亚洲精品自拍成人| 男人舔女人下体高潮全视频| 久久久久久国产a免费观看| 国产av麻豆久久久久久久| 长腿黑丝高跟| 麻豆一二三区av精品| 91久久精品国产一区二区三区| 国产精品人妻久久久久久| 国产精品精品国产色婷婷| 亚洲无线观看免费| 岛国在线免费视频观看| 在线观看免费视频日本深夜| 久久午夜亚洲精品久久| 高清日韩中文字幕在线| 国产精品电影一区二区三区| or卡值多少钱| 亚洲,欧美,日韩| 日日干狠狠操夜夜爽| 久久久久久久久久久免费av| 18禁裸乳无遮挡免费网站照片| 寂寞人妻少妇视频99o| av女优亚洲男人天堂| 亚洲一级一片aⅴ在线观看| 精品人妻一区二区三区麻豆| 国产精品一区二区三区四区久久| av专区在线播放| 亚洲精品国产成人久久av| 久久久久免费精品人妻一区二区| 69人妻影院| 亚洲av二区三区四区| 国产亚洲精品久久久com| 久久热精品热| 欧美3d第一页| 国产精品av视频在线免费观看| 精品人妻一区二区三区麻豆| 亚洲精品粉嫩美女一区| 亚洲国产日韩欧美精品在线观看| 狠狠狠狠99中文字幕| 亚洲经典国产精华液单| 久久九九热精品免费| 日本免费一区二区三区高清不卡| 桃色一区二区三区在线观看| 少妇被粗大猛烈的视频| 日本一本二区三区精品| 久久精品综合一区二区三区| 久久久久久久久久成人| 亚洲精品影视一区二区三区av| 国产亚洲精品久久久久久毛片| 好男人在线观看高清免费视频| 日韩人妻高清精品专区| 女人被狂操c到高潮| 在线观看一区二区三区| 国产大屁股一区二区在线视频| 亚洲av成人av| 中文资源天堂在线| 夜夜爽天天搞| 国产成人精品久久久久久| 久久精品国产亚洲网站| 欧美bdsm另类| 中文字幕久久专区| 欧美性感艳星| 一个人看的www免费观看视频| 男人和女人高潮做爰伦理| 国产三级中文精品| 欧美成人免费av一区二区三区| 国产精品免费一区二区三区在线| 99久久精品一区二区三区| 久久综合国产亚洲精品| 波野结衣二区三区在线| 国产美女午夜福利| av免费观看日本| 天堂影院成人在线观看| 亚洲国产欧美人成| 两性午夜刺激爽爽歪歪视频在线观看| 午夜老司机福利剧场| 12—13女人毛片做爰片一| 久久99热6这里只有精品| 久久久久免费精品人妻一区二区| 边亲边吃奶的免费视频| av福利片在线观看| 色哟哟·www| 免费黄网站久久成人精品| 2022亚洲国产成人精品| 卡戴珊不雅视频在线播放| 午夜视频国产福利| 中文精品一卡2卡3卡4更新| 国产又黄又爽又无遮挡在线| eeuss影院久久| 女人被狂操c到高潮| 日韩精品青青久久久久久| 一本久久中文字幕| 神马国产精品三级电影在线观看| 国内久久婷婷六月综合欲色啪| 国产黄a三级三级三级人| 亚洲在久久综合| 亚洲欧美清纯卡通| 亚洲欧美精品专区久久| 99热这里只有是精品50| 一级毛片久久久久久久久女| 成年女人看的毛片在线观看| 亚洲成a人片在线一区二区| 久久精品国产清高在天天线| 在线国产一区二区在线| 一级毛片我不卡| 久久精品人妻少妇| 欧美高清性xxxxhd video| 哪里可以看免费的av片| 欧美不卡视频在线免费观看| 亚洲国产精品成人久久小说 | 51国产日韩欧美| 少妇被粗大猛烈的视频| 国产精品野战在线观看| 欧美zozozo另类| 成人毛片60女人毛片免费| 亚洲av不卡在线观看| 波多野结衣高清作品| 特级一级黄色大片| 久久国内精品自在自线图片| 村上凉子中文字幕在线| 亚洲在线观看片| 日本免费a在线| 免费观看在线日韩| 久久久国产成人精品二区| 国产精品一区二区三区四区久久| 国内精品一区二区在线观看| 精品人妻熟女av久视频| 一区福利在线观看| 天堂av国产一区二区熟女人妻| 99国产精品一区二区蜜桃av| 91久久精品电影网| 欧美另类亚洲清纯唯美| 男女边吃奶边做爰视频| 亚洲色图av天堂| 久久人人爽人人片av| 丰满人妻一区二区三区视频av| 尾随美女入室| 国产精华一区二区三区| 精品人妻视频免费看| 亚洲在线自拍视频| 91久久精品国产一区二区成人| 久久精品人妻少妇| 最近最新中文字幕大全电影3| 欧美一区二区亚洲| av在线蜜桃| 成人亚洲精品av一区二区| 九色成人免费人妻av| 老熟妇乱子伦视频在线观看| 国产精品美女特级片免费视频播放器| 久久亚洲精品不卡| 国产亚洲精品av在线| 一本久久中文字幕| 五月伊人婷婷丁香| 午夜视频国产福利| 男人的好看免费观看在线视频| 亚洲成人精品中文字幕电影| 成人美女网站在线观看视频| 日韩av在线大香蕉| 国产三级中文精品| 日本一本二区三区精品| 丝袜美腿在线中文| 国产三级中文精品| 国产精品麻豆人妻色哟哟久久 | 日本欧美国产在线视频| 日本色播在线视频| 精品国内亚洲2022精品成人| 好男人视频免费观看在线| 国产极品天堂在线| 亚洲欧美日韩高清在线视频| 舔av片在线| 日本黄色视频三级网站网址| 中文字幕制服av| 成年女人永久免费观看视频| .国产精品久久| 国产视频内射| 亚洲国产欧美在线一区|