• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于關(guān)系指數(shù)和表示學(xué)習(xí)的領(lǐng)域集成實(shí)體鏈接

    2021-12-01 08:25:22蔣勝臣王紅斌余正濤線(xiàn)巖團(tuán)王紅濤
    自動(dòng)化學(xué)報(bào) 2021年10期
    關(guān)鍵詞:知識(shí)庫(kù)語(yǔ)料實(shí)體

    蔣勝臣 王紅斌 余正濤 線(xiàn)巖團(tuán) 王紅濤

    實(shí)體鏈接是指將文本中存在歧義的實(shí)體正確鏈接到知識(shí)庫(kù)中無(wú)歧義的候選實(shí)體的過(guò)程[1?2],實(shí)體鏈接的相關(guān)研究有助于知識(shí)庫(kù)的自動(dòng)填充[3],也有助于信息檢索的研究[4],同時(shí)實(shí)體鏈接與跨文本指代消解、詞義消岐,實(shí)體消岐等諸多自然語(yǔ)言研究領(lǐng)域有著緊密聯(lián)系.目前關(guān)于實(shí)體鏈接的研究方法,主要思想是通過(guò)計(jì)算實(shí)體指稱(chēng)項(xiàng)與其候選實(shí)體的多種特征相似度,選擇知識(shí)庫(kù)中無(wú)歧義實(shí)體進(jìn)行鏈接.早期研究以單實(shí)體為對(duì)象,Bunescu[5]和 Ganea等[6]使用詞袋模型計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的相似度,選取相似度最高的候選實(shí)體作為目標(biāo)實(shí)體;Cucerzan[7]和Nguyen 等[8]通過(guò)維基百科頁(yè)面錨文本、重定向頁(yè)面等信息計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的相似度;Zeng[9]利用第三方知識(shí)庫(kù)對(duì)候選實(shí)體特征進(jìn)行擴(kuò)充使得實(shí)體鏈接準(zhǔn)確率提高.以單實(shí)體為對(duì)象的實(shí)體鏈接方法忽略了文本中共現(xiàn)實(shí)體間的語(yǔ)義關(guān)系,并且計(jì)算效率不高.針對(duì)以上問(wèn)題,研究者們結(jié)合已有知識(shí)庫(kù)中存在的信息,提出以集成實(shí)體作為對(duì)象進(jìn)行實(shí)體鏈接的集成實(shí)體鏈接方法.Han 等[10]通過(guò)構(gòu)建候選實(shí)體語(yǔ)義相關(guān)圖進(jìn)行集成實(shí)體鏈接;Liu 等[11]提出基于圖的集成實(shí)體鏈接方法,以實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體作為頂點(diǎn)構(gòu)建有向圖,通過(guò)計(jì)算出入度和語(yǔ)義相似度進(jìn)行集成實(shí)體鏈接;Ferragina 等[12]引入了概率化鏈接的思想,提出了一個(gè)面向短文本的集成實(shí)體鏈接算法.這些研究在一定程度彌補(bǔ)了單實(shí)體鏈接忽視共現(xiàn)實(shí)體間語(yǔ)義相關(guān)性的不足,但是卻在一定程度上忽略了指稱(chēng)項(xiàng)本身具有的文本特征,對(duì)文本信息利用率不高.

    近些年隨著深度學(xué)習(xí)在自然語(yǔ)言中的應(yīng)用,利用表示學(xué)習(xí)計(jì)算語(yǔ)義相似度成為一種新的思路[13?14].隨著B(niǎo)engio 等[15]提出表示學(xué)習(xí)模型,通過(guò)表示學(xué)習(xí)表征實(shí)體深層語(yǔ)義信息計(jì)算相似度成為實(shí)體鏈接任務(wù)的新趨勢(shì)[16?17].Mikolov 等[18]和Goldberg[19]對(duì)向量空間中詞表示的有效嵌入進(jìn)行了評(píng)估;Kar 等[20]將表示學(xué)習(xí)用于特定任務(wù)領(lǐng)域的實(shí)體消歧;Moreno等[21]等通過(guò)擴(kuò)充錨文本對(duì)文本中的單詞和知識(shí)庫(kù)中的實(shí)體進(jìn)行聯(lián)合學(xué)習(xí)得到相應(yīng)的向量表示形式,從而進(jìn)行實(shí)體鏈接.

    以上研究都是在通用領(lǐng)域,其有豐富的通用語(yǔ)料和消歧特征[22];而對(duì)于特定領(lǐng)域,往往存在語(yǔ)料不足,另外流行度等消歧特征不明顯的問(wèn)題,針對(duì)這些問(wèn)題,本文提出了一種新的基于關(guān)系指數(shù)和表示學(xué)習(xí)的領(lǐng)域集成實(shí)體鏈接方法.首先,構(gòu)建特定領(lǐng)域知識(shí)庫(kù),以作為實(shí)體鏈接的基礎(chǔ);其次,通過(guò)LDA主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語(yǔ)料和特定領(lǐng)域知識(shí)庫(kù)中的三元組,得到蘊(yùn)含知識(shí)和主題信息的實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱(chēng)項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;然后,結(jié)合詞擴(kuò)展,得到實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞;再利用得到的特征,計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識(shí)庫(kù)中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最后的相似度.本文的主要貢獻(xiàn)主要有:1)利用表示學(xué)習(xí),同時(shí)將文本詞向量表示和知識(shí)庫(kù)的知識(shí)表示嵌入到同一個(gè)語(yǔ)義空間,融合了文本信息和知識(shí)庫(kù)信息;2)收集了語(yǔ)料,獲取了特定領(lǐng)域相關(guān)知識(shí),構(gòu)建了特定領(lǐng)域知識(shí)庫(kù);3)將關(guān)系屬性融入到實(shí)體鏈接 中,實(shí)現(xiàn)了實(shí)體的語(yǔ)義屬性和關(guān)系屬性的融合.

    1 研究方法

    本文提出的方法具體步驟是:首先,構(gòu)建特定領(lǐng)域知識(shí)庫(kù),以作為實(shí)體鏈接的基礎(chǔ);其次,通過(guò)LDA 主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語(yǔ)料和特定領(lǐng)域知識(shí)庫(kù)中的三元組,得到蘊(yùn)含知識(shí)信息和主題信息的實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱(chēng)項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;其次,結(jié)合詞擴(kuò)展,得到實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞;然后,利用得到的特征,計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識(shí)庫(kù)中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最終相似度.將相似度最高的候選實(shí)體作為最終鏈接對(duì)象.

    本文方法包括5 部分:特定領(lǐng)域知識(shí)庫(kù)構(gòu)建、融合知識(shí)和主題信息的詞向量訓(xùn)練、候選實(shí)體的生成、多特征生成、實(shí)體鏈接.如圖1 所示.

    圖1 模型框架圖Fig.1 Frame diagram of the model

    1.1 領(lǐng)域知識(shí)庫(kù)構(gòu)建

    本文針對(duì)特定領(lǐng)域,在分析領(lǐng)域?qū)傩缘幕A(chǔ)上,通過(guò)人工定義知識(shí)體系,從百度百科等網(wǎng)站上收集了相關(guān)語(yǔ)料,包括旅游景點(diǎn)語(yǔ)料、野生菌語(yǔ)料、茶葉語(yǔ)料、中國(guó)少數(shù)民族語(yǔ)料,小吃語(yǔ)料和藥材語(yǔ)料,交通方式和住宿信息語(yǔ)料共計(jì)96 674 個(gè)詞條,構(gòu)建了具有一定規(guī)模的特定領(lǐng)域知識(shí)庫(kù).然后將識(shí)別好的領(lǐng)域?qū)嶓w和實(shí)體間關(guān)系采用批量導(dǎo)入的方式導(dǎo)入到圖數(shù)據(jù)庫(kù)Neo4j 進(jìn)行管理.本文使用自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)作為實(shí)體鏈接任務(wù)的支撐,并結(jié)合百度百科作為第三方知識(shí)庫(kù)對(duì)自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的實(shí)體屬性進(jìn)行有效補(bǔ)充.具體方法是針對(duì)知識(shí)庫(kù)中的每個(gè)實(shí)體,通過(guò)它在百度百科相應(yīng)的概念頁(yè)面,抓取頁(yè)面中Infobox 的半結(jié)構(gòu)化三元組數(shù)據(jù).然后利用Neo4j 圖數(shù)據(jù)庫(kù)進(jìn)行管理.對(duì)本地知識(shí)庫(kù)中同名實(shí)體采用加后綴標(biāo)簽的方式進(jìn)行區(qū)分,且后綴標(biāo)簽用小括號(hào)與實(shí)體隔離.例如:實(shí)體“香格里拉”.在本地知識(shí)庫(kù)中有三個(gè)相應(yīng)實(shí)體,分別加上后綴標(biāo)簽“地名”、“酒店”、“電影”,并用小括號(hào)進(jìn)行隔離.如:香格里拉(酒店)、香格里拉(地名)、香格里拉(電影).

    1.2 融合知識(shí)信息和主題信息的詞向量模型訓(xùn)練

    1.2.1 主題關(guān)鍵詞特征提取

    特定領(lǐng)域的實(shí)體鏈接可以利用領(lǐng)域特征進(jìn)行實(shí)體鏈接[23?24],領(lǐng)域關(guān)鍵詞表征了領(lǐng)域的主要語(yǔ)義信息和領(lǐng)域特征,但是基于領(lǐng)域關(guān)鍵詞的相似度計(jì)算主要是從全局上下文信息出發(fā),并沒(méi)有考慮到文本局部的上下文信息,針對(duì)這個(gè)問(wèn)題,本文提出利用LDA主題模型對(duì)訓(xùn)練語(yǔ)料上下文進(jìn)行主題分類(lèi),通過(guò)在不同主題下對(duì)多義詞與主題詞結(jié)合進(jìn)行語(yǔ)義擴(kuò)充,計(jì)算詞與詞之間的余弦相似度進(jìn)行K-Means 聚類(lèi),選 擇離聚類(lèi)中心最近的m個(gè)詞作為主題關(guān)鍵詞.

    1.2.2 融合主題信息的詞向量模型訓(xùn)練

    Mikolov 等[18]提出Word2vec,通過(guò)神經(jīng)網(wǎng)絡(luò)將詞表示在一個(gè)低維稠密的向量空間中,利用距離和角度反映出詞語(yǔ)之間的語(yǔ)義信息;本文選擇Google的開(kāi)源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,其主要思想為根據(jù)中心詞最大概率得到出其上下文:

    其中,wk是中心詞,wk+j表示中心詞的上下文,N是訓(xùn)練時(shí)窗口的大小,在本文中沒(méi)有對(duì)窗口設(shè)置對(duì)比實(shí)驗(yàn),按照實(shí)驗(yàn)經(jīng)驗(yàn),設(shè)窗口大小為5.p(wk+j|wk)表示在中心詞wk的條件下,wk+j生成的概率,利用softmax 函數(shù)求得:

    其中,d(wk,wj)表示詞wk和wj向量表示的歐幾里得距離,m表示詞wk的主題詞個(gè)數(shù).將主題信息融入詞向量表示中:

    其中,α為權(quán)重值,我們的目標(biāo)是最小化Jg,通過(guò)將主題關(guān)鍵詞的距離融入詞向量表達(dá)中,使得同主題詞之間的向量表示更接近.對(duì)沒(méi)有同主題關(guān)鍵詞的詞語(yǔ),直接按照Skip-gram 模型訓(xùn)練出其向量表示形式.通過(guò)對(duì)訓(xùn)練出的詞向量與同主題詞計(jì)算相似度并參考Xu 等[25]的實(shí)驗(yàn)參數(shù),設(shè)置α=0.8;m=6.

    1.2.3 TransE 模型的聯(lián)合學(xué)習(xí)

    Bordes 等在Mikolov 的word2vec 詞表示學(xué)習(xí)模型的基礎(chǔ)上提出了TransE 模型[26],將知識(shí)庫(kù)中的關(guān)系看作實(shí)體間的某種平移向量.通過(guò)TransE模型對(duì)構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的三元組進(jìn)行訓(xùn)練,得到知識(shí)庫(kù)中實(shí)體和關(guān)系的向量表示.針對(duì)現(xiàn)有的實(shí)體鏈接方法,無(wú)法將知識(shí)庫(kù)信息和文本信息更好的融合,造成在實(shí)體鏈接中無(wú)法利用更多的文本信息和知識(shí)庫(kù)信息,在本文中,為了將知識(shí)庫(kù)信息與文本信息融合,以達(dá)到更佳的實(shí)體鏈接效果,我們將第2.2.2 節(jié)中融合主題信息的詞向量表示與知識(shí)表示模型TransE 聯(lián)合學(xué)習(xí).首先利用收集到的三元組語(yǔ)料預(yù)訓(xùn)練TransE 模型,得到實(shí)體與關(guān)系的向量表示,再將第2.2.2 節(jié)得到的融合主題信息的詞向量表示形式,替換原有的實(shí)體向量表示,計(jì)算兩者的尾實(shí)體的距離:

    其中,wk,r表示TransE 模型得到的原實(shí)體wk和關(guān)系r的向量之和,wk?,r表示wk在融合主題信息的詞向量模型中的向量表示和關(guān)系r的向量之和,n表示實(shí)體個(gè)數(shù).通過(guò)最小化Dz,使得詞向量表示和知識(shí)表示相互約束訓(xùn)練模型,最終得到融合結(jié)構(gòu)知識(shí)的詞向量表示.對(duì)于在自構(gòu)建的本地知識(shí)庫(kù)中沒(méi)有實(shí)體相對(duì)應(yīng)的詞語(yǔ),將它們輸入到訓(xùn)練好的模型中得到新的向量.我們稱(chēng)之為融合偽知識(shí)的詞向量表示,這樣做是將文本中的詞與自構(gòu)建本地領(lǐng)域知識(shí)庫(kù)中實(shí)體向量表示嵌入到同一個(gè)語(yǔ)義空間中,達(dá)到融合文本信息和知識(shí)庫(kù)信息的目的,也為后面的相似度計(jì)算提供方便.本文沒(méi)有對(duì)TransE 模型的參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響做特定實(shí)驗(yàn),向量維數(shù)設(shè)為200,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式.在整個(gè)融合知識(shí)和主題信息的詞向量表示過(guò)程中,向量維度統(tǒng)一設(shè)為200,整 體模型框架圖如圖2 所示.

    圖2 融合知識(shí)和主題信息的詞向量表示模型Fig.2 Word vector representation model that fuses knowledge and subject information

    1.3 候選實(shí)體生成

    1.3.1 候選實(shí)體的選取

    對(duì)于候選實(shí)體的生成,首先要識(shí)別出文本中所有的實(shí)體指稱(chēng)項(xiàng),將實(shí)體指稱(chēng)項(xiàng)組成集合M={m1,m2,···,mn},其中n表示文本中實(shí)體指稱(chēng)項(xiàng)的個(gè)數(shù).然后針對(duì)每個(gè)實(shí)體指稱(chēng)項(xiàng)mi,在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中尋找與之同名實(shí)體(不包括括號(hào)內(nèi)的實(shí)體后綴標(biāo)簽)并組合成集合,作為它的候選實(shí)體集合Ni={ni1,ni2,···}.如果知識(shí)庫(kù)中沒(méi)有同名實(shí)體,則把相應(yīng)的實(shí)體指稱(chēng)項(xiàng)歸為空實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)小于等于4 時(shí),選取指稱(chēng)項(xiàng)所有的候選實(shí)體作為它最終的候選實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)大于4 時(shí),計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文相似度,選取相似度最大的4 個(gè)候選實(shí)體作為最終的候選實(shí)體.上下文相似度計(jì)算公式為:

    其中,E(Gi) 和分別表示實(shí)體指稱(chēng)項(xiàng)的上下文詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;d和u分別表示實(shí)體指稱(chēng)項(xiàng)的上下文詞的個(gè)數(shù)和其候選 實(shí)體直接三元組尾實(shí)體的個(gè)數(shù).

    1.3.2 候選實(shí)體關(guān)系屬性的計(jì)算

    針對(duì)集成實(shí)體鏈接,關(guān)系屬性是候選實(shí)體的重要屬性之一,基于實(shí)體指稱(chēng)項(xiàng)語(yǔ)義相近,則它們?cè)谥R(shí)庫(kù)中的無(wú)歧義實(shí)體也應(yīng)該具有關(guān)系的思想.例如:實(shí)體指稱(chēng)項(xiàng)“香格里拉”和“麗江”,它們語(yǔ)義相近,則它們?cè)谥R(shí)庫(kù)中的無(wú)歧義實(shí)體“香格里拉(旅游勝地)”和“麗江(旅游勝地)”也具有相應(yīng)的關(guān)系.本文將候選實(shí)體的關(guān)系屬性分為直接關(guān)系屬性和間接關(guān)系屬性.1)直接關(guān)系屬性計(jì)算自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中含有豐富的關(guān)系屬性,根據(jù)第2.3.1 生成文本中實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體集合H={N1,N2,···,Nn},其N(xiāo)i表示第i個(gè)實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體集合,n為背景文檔中實(shí)體指稱(chēng)項(xiàng)個(gè)數(shù).結(jié)合自構(gòu)建的領(lǐng)域知識(shí)庫(kù),得到候選實(shí)體的直接關(guān)系屬性,具體方法為:對(duì)候選實(shí)體集合Ni中的每個(gè)元素分別與其他n? 1 個(gè)候選實(shí)體集合中的每個(gè)元素進(jìn)行關(guān)系查找,如果兩者之間存在直接三元組,則兩個(gè)元素之間的關(guān)系指數(shù)為1,不存在則關(guān)系指數(shù)為0.對(duì)于第i個(gè)實(shí)體指稱(chēng)項(xiàng)的第j個(gè)候選實(shí)體nij的直接關(guān)系指數(shù),計(jì)算公式為:

    其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j個(gè)候選實(shí)體集合.

    2)間接關(guān)系屬性計(jì)算候選實(shí)體以三元組的形式存儲(chǔ)在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中,通過(guò)實(shí)體、關(guān)系相連接成網(wǎng)路狀,這種存儲(chǔ)形式?jīng)Q定了候選實(shí)體間的間接關(guān)系同時(shí)存在垂直間接關(guān)系和水平間接關(guān)系.例如在自構(gòu)建的本地知識(shí)庫(kù)中存在三元組:(云南,地級(jí)市,玉溪),(玉溪,景點(diǎn),撫仙湖),通過(guò)一條關(guān)系路徑,將兩個(gè)三元組連接在一起,則“撫仙湖“和”云南“存在間接關(guān)系,我們稱(chēng)之為垂直間接關(guān)系;同樣的,例如本地知識(shí)庫(kù)中也存在三元組:(云南,地級(jí)市,玉溪),(云南,地級(jí)市,曲靖),如果只考慮關(guān)系路徑相連接的情況,則“玉溪”和“曲靖”之間并不存在關(guān)系,這樣卻與事實(shí)不符.兩者之間對(duì)應(yīng)同一個(gè)頭實(shí)體,也存在間接關(guān)系,我們將這種間接關(guān)系稱(chēng)為水平間接關(guān)系;同時(shí)也可以同時(shí)存在兩種間接關(guān)系,例如(中國(guó),省份,云南),(中國(guó),省份,江蘇),(云南,地級(jí)市,麗江),(麗江,景點(diǎn),玉龍雪山),“玉龍雪山”和“云南”存在垂直間接關(guān)系,“云南”和“江蘇”之間存在水平間接關(guān)系,則“玉龍雪山”和“江蘇”之間同時(shí)存在垂直和水平間接關(guān)系.間接關(guān)系指數(shù)的計(jì)算公式為:

    其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j 候選實(shí)體集合,k為路徑長(zhǎng)度,p為水平間接次數(shù),例如“玉龍雪山”和“江蘇”存在一次水平間接次數(shù),當(dāng)兩者之 間存在多條路徑時(shí),取最短路徑.

    1.4 特征生成模塊

    1.4.1 上下文特征生成

    實(shí)體指稱(chēng)項(xiàng)的上下文特征可以代表指稱(chēng)項(xiàng)的文本環(huán)境,對(duì)指稱(chēng)項(xiàng)的語(yǔ)義表達(dá)具有重要作用.通過(guò)實(shí)體指稱(chēng)項(xiàng)的背景文本,經(jīng)過(guò)文本預(yù)處理(分詞、去停用詞),利用第2.2 節(jié)訓(xùn)練好的融合知識(shí)和主題信息的詞向量模型得到指稱(chēng)項(xiàng)的上下文向量表示.具體方法為:選擇實(shí)體指稱(chēng)項(xiàng)所在句子經(jīng)過(guò)分詞、去停用詞后的詞作為實(shí)體指稱(chēng)項(xiàng)的上下文,利用訓(xùn)練好的詞表示模型得到它們的向量表示形式.利用式(6)計(jì)算上下文特征相似度.

    1.4.2 主題關(guān)鍵詞特征生成

    特定領(lǐng)域的局部特征對(duì)實(shí)體消歧具有重要作用,例如:在旅游領(lǐng)域的背景文本中,實(shí)體指稱(chēng)項(xiàng)“金花”的上下文信息主題圍繞“花卉名”來(lái)進(jìn)行介紹,而在文檔局部上下文中主要圍繞“茶品”的金花來(lái)介紹,可以看出局部特征對(duì)消歧有重要意義.為了利用局部特征進(jìn)行實(shí)體鏈接,本文提出通過(guò)LDA 主題模型對(duì)旅游領(lǐng)域背景文本的上下文進(jìn)行主題分類(lèi),利用第2.2 節(jié)得到的融合知識(shí)和主題信息的詞向量表示,計(jì)算相同主題下的詞與詞之間的余弦相似度,然后進(jìn)行K-means 聚類(lèi),選擇離聚類(lèi)中心最近的w個(gè)詞作為主題關(guān)鍵詞,w的取值在實(shí)驗(yàn)部分具體說(shuō)明.主題特征表示為:

    其中,E(wi) 和分別表示實(shí)體指稱(chēng)項(xiàng)主題關(guān)鍵詞wi其對(duì)應(yīng)候選實(shí)體在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的類(lèi)別標(biāo)簽的向量表示;w為實(shí)體指稱(chēng)項(xiàng)主題關(guān)鍵詞的個(gè)數(shù);z表示對(duì)應(yīng)候選實(shí)體在知識(shí)庫(kù)中的 類(lèi)別標(biāo)簽個(gè)數(shù).

    1.4.3 擴(kuò)展詞特征生成

    集成實(shí)體鏈接相比于單實(shí)體鏈接充分考慮了實(shí)體之間的共現(xiàn)關(guān)系,同時(shí)提高了計(jì)算效率.利用詞擴(kuò)展的方法,同時(shí)考慮v個(gè)實(shí)體,充分發(fā)揮集成實(shí)體鏈接的優(yōu)勢(shì),具體方法為:對(duì)于第i個(gè)指稱(chēng)項(xiàng)mi,分別計(jì)算其他n?1個(gè)指稱(chēng)項(xiàng)與第i個(gè)指稱(chēng)項(xiàng)的上下文特征和主題關(guān)鍵詞特征的余弦相似度,將相似度最大的v個(gè)實(shí)體指稱(chēng)項(xiàng)選擇作為第i個(gè)實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞,依次迭代n次,得到背景文本中每個(gè)實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞.實(shí)體指稱(chēng)項(xiàng)擴(kuò)展詞的計(jì)算公式為:

    其中,Sw和Sg分別表示實(shí)體指稱(chēng)項(xiàng)的上下文相似度和主題關(guān)鍵詞相似度;選取Qk最大的v個(gè)實(shí)體指稱(chēng)項(xiàng)作為本實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞.v的取值在實(shí)驗(yàn)部分詳細(xì)說(shuō)明.擴(kuò)展詞特征表示為:

    其中,E(zk) 和分別表示實(shí)體指稱(chēng)項(xiàng)擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;v和u分別表示擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的 個(gè)數(shù).

    1.5 實(shí)體鏈接模塊

    1.5.1 關(guān)系指數(shù)計(jì)算

    對(duì)于第i個(gè)實(shí)體指稱(chēng)項(xiàng)mi和它的v個(gè)擴(kuò)展詞,同時(shí)鏈接到本地特定領(lǐng)域知識(shí)庫(kù)中的每個(gè)候選實(shí)體,根據(jù)第2.3.2 節(jié)的方法,得到實(shí)體指稱(chēng)項(xiàng)候選實(shí)體與其擴(kuò)展詞候選實(shí)體之間的關(guān)系指數(shù),具體方法為:對(duì)于候選實(shí)體nij,分別對(duì)它與mi的v個(gè)擴(kuò)展詞的每個(gè)候選實(shí)體進(jìn)行關(guān)系查找,得到它與v個(gè)擴(kuò)展詞候選實(shí)體的關(guān)系指數(shù)之和,最終通過(guò)歸一化得到mi的每個(gè)候選實(shí)體的關(guān)系指數(shù).計(jì)算公式表示為:

    依次計(jì)算出實(shí)體指稱(chēng)項(xiàng)mi所有候選實(shí)體的關(guān)系指數(shù)ri1,ri1,···,riL,其中L為實(shí)體指稱(chēng)項(xiàng)mi的候選實(shí)體個(gè)數(shù).通過(guò)歸一化,得到最終的關(guān)系指數(shù):

    1.5.2 相似度計(jì)算

    相似度計(jì)算是指利用實(shí)體指稱(chēng)項(xiàng)的文本特征與知識(shí)庫(kù)中候選實(shí)體的相應(yīng)特征,通過(guò)計(jì)算兩者之間的余弦相似度,以此表征實(shí)體指稱(chēng)項(xiàng)與候選實(shí)體在文本信息方面的相似度.在本文中,充分利用上下文相似度、主題關(guān)鍵詞相似度和擴(kuò)展詞相似度,最后得到特定領(lǐng)域?qū)嶓w指稱(chēng)項(xiàng)的相似度:

    其中,Rij,Sij分別表示實(shí)體指稱(chēng)項(xiàng)mi與其候選實(shí)體nij的關(guān)系指數(shù)和特征相似度;1/2 表示兩者的權(quán)重值.在文本中我們采用對(duì)等加權(quán),也可以考慮不對(duì)等加權(quán)的情況,但通過(guò)初步實(shí)驗(yàn)結(jié)果并參考文獻(xiàn)[11]表明,少量的權(quán)值修正對(duì)實(shí)體鏈接結(jié)果的影響不大,因 此本文采用1/2 作為兩者的權(quán)重值.

    2 實(shí)驗(yàn)

    2.1 數(shù)據(jù)集

    本文選擇Google 的開(kāi)源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,通過(guò)提取維基百科旅游、文化分類(lèi)下的文本信息,并結(jié)合從旅游網(wǎng)站和百度百科、民族文化網(wǎng)站、中國(guó)中藥雜志、中國(guó)中藥材網(wǎng)爬取旅游信息文本136 749 篇,中國(guó)少數(shù)民族信息文本95 483 篇,藥材信息文本114 673 篇作為詞表示模型的訓(xùn)練語(yǔ)料.TransE 模型的預(yù)訓(xùn)練使用本地特定領(lǐng)域知識(shí)庫(kù)中的163 759 組三元組為語(yǔ)料.實(shí)驗(yàn)所用的測(cè)試集是本文從爬取的旅游、少數(shù)民族文化、中藥材三種領(lǐng)域中隨機(jī)分別選取861 篇作為測(cè)試文本,然后分別從三種領(lǐng)域的測(cè)試文本中人工選取含有實(shí)體歧義的文本300 篇構(gòu)建成旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)試集和中藥材測(cè)試集,并且在每一篇文本中人工標(biāo)記出領(lǐng)域?qū)嶓w指稱(chēng)和其在自構(gòu)建的領(lǐng)域知識(shí)庫(kù)中的對(duì)應(yīng)實(shí)體,在三個(gè)領(lǐng)域測(cè)試集中分別標(biāo)注實(shí)體指稱(chēng)1 135 個(gè)、947 個(gè)和1 092 個(gè),其中旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)和中藥材測(cè)試集在自構(gòu)建的領(lǐng)域知識(shí)庫(kù)中存在對(duì)應(yīng)實(shí)體對(duì)象的分別有967 個(gè)、703 個(gè)、939 個(gè)實(shí)體指稱(chēng).

    2.2 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)

    實(shí)驗(yàn)的過(guò)程包括融合知識(shí)和主題信息的詞向量模型訓(xùn)練、候選實(shí)體的生成、擴(kuò)展詞的生成、關(guān)系指數(shù)計(jì)算、相似度計(jì)算、實(shí)體鏈接等過(guò)程.使用jieba分詞工具實(shí)現(xiàn)語(yǔ)料預(yù)處理;針對(duì)融合知識(shí)和主題信息的詞向量模型訓(xùn)練,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,窗口大小設(shè)置為5,設(shè)置主題詞距離權(quán)重α=0.8,主題詞m=6,對(duì)于TransE模型的預(yù)訓(xùn)練,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式,向量維數(shù)統(tǒng)一設(shè)為200;本文采用準(zhǔn)確率P(%)、召回率R(%)和F1 值來(lái)評(píng)估本文提出的方法,其中文本中的實(shí)體指稱(chēng)項(xiàng)在本地知識(shí)庫(kù)中存在對(duì)應(yīng)實(shí)體的集合為A;算法輸出的鏈接到本地知識(shí)庫(kù)中實(shí)體對(duì)象上的實(shí)體指稱(chēng)項(xiàng)集合為B.則準(zhǔn)確率P(%)、召回率R(%) 和F1 值的計(jì)算公式如下所示:

    2.3 實(shí)驗(yàn)及其結(jié)果分析

    2.3.1 實(shí)驗(yàn)設(shè)計(jì)

    為了驗(yàn)證本文提出方法的可行性,本文設(shè)置以下6 組實(shí)驗(yàn):實(shí)驗(yàn)1:不同相似度特征組合的實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)2:驗(yàn)證擴(kuò)展詞的數(shù)量v對(duì)實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)3:驗(yàn)證主題關(guān)鍵詞個(gè)數(shù)w對(duì)于實(shí)體鏈接準(zhǔn)確率的影響.實(shí)驗(yàn)4:驗(yàn)證不同關(guān)系屬性對(duì)實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)5:本文提出的方法與目前主流的實(shí)體鏈接方法進(jìn)行對(duì)比.實(shí)驗(yàn)6:驗(yàn)證本文提出的 方法在不同領(lǐng)域中的普適性.

    2.3.2 實(shí)驗(yàn)結(jié)果與分析

    1)實(shí)驗(yàn)1:為了驗(yàn)證不同特征對(duì)實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測(cè)試集,通過(guò)選取不同的特征組合進(jìn)行對(duì)比實(shí)驗(yàn),表1 所示為不同特征組合對(duì)實(shí)驗(yàn)結(jié)果的影響.

    表1 不同特征組合實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 1 Statistics of experimental results of different feature combinations

    在進(jìn)行特征組合對(duì)比實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,主題關(guān)鍵詞個(gè)數(shù)w=4,擴(kuò)展詞個(gè)數(shù)v=3.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),只利用上下文相似度特征和主題關(guān)鍵詞相似度特征,其準(zhǔn)確率明顯低于結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),F1 值相較于只利用上下文特征和主題特征也有明顯提升,能夠達(dá)到91.5.分析原因主要是上下文相似度特征和主題關(guān)鍵詞特征僅僅是基于一個(gè)實(shí)體指稱(chēng)項(xiàng)信息出發(fā),沒(méi)有考慮一篇文章中實(shí)體指稱(chēng)項(xiàng)之間的共現(xiàn)信息,并且忽略了候選實(shí)體之間的關(guān)系屬性.結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),在考慮單個(gè)實(shí)體指稱(chēng)項(xiàng)的同時(shí)也充分考慮了實(shí)體指稱(chēng)項(xiàng)的共現(xiàn)信息和候選實(shí)體之間的關(guān)系屬性,因此準(zhǔn)確率有了很大的提高.

    2)實(shí)驗(yàn)2:本實(shí)驗(yàn)在旅游領(lǐng)域測(cè)試集上,分別測(cè)試擴(kuò)展詞個(gè)數(shù)v在取1,2,3,4 時(shí)對(duì)實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表2 所示.

    表2 不同v 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 2 Statistical results of different v values

    在進(jìn)行擴(kuò)展詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),主題關(guān)鍵詞個(gè)數(shù)w=4.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),擴(kuò)展詞的個(gè)數(shù)對(duì)實(shí)體鏈接結(jié)果有較大影響,F1 值可以從最低的83.1 提升到91.5,并且相比于只利用上下文特征和主題關(guān)鍵詞特征的F1 值,有了較大提升,說(shuō)明加入擴(kuò)展詞特征可以對(duì)實(shí)體鏈接有較大幫助.從實(shí)驗(yàn)結(jié)果表明,當(dāng)擴(kuò)展詞個(gè)數(shù)v=3時(shí),F1 值達(dá)到最大值91.5.當(dāng)個(gè)數(shù)大于3 時(shí)準(zhǔn)確率和F1 值都有所降低.分析原因主要是因?yàn)楫?dāng)擴(kuò)展詞個(gè)數(shù)太小時(shí),不僅沒(méi)有充分利用實(shí)體指稱(chēng)項(xiàng)之間的共現(xiàn)信息,并且會(huì)影響候選實(shí)體的關(guān)系指數(shù),所以準(zhǔn)確率會(huì)降低,當(dāng)擴(kuò)展詞個(gè)數(shù)太大,會(huì)出現(xiàn)冗余信息,對(duì)實(shí)體指稱(chēng)項(xiàng)的信息表達(dá)和候選實(shí)體關(guān)系指數(shù)計(jì)算都會(huì)產(chǎn)生不好的影響.所以本文擴(kuò)展詞個(gè)數(shù)取v=3.

    3)實(shí)驗(yàn)3:本實(shí)驗(yàn)在旅游領(lǐng)域測(cè)試集上,分別測(cè)試主題關(guān)鍵詞個(gè)數(shù)w在取1,2,3,4,5 時(shí)對(duì)實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表3 所示.

    表3 不同w 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 3 Statistical results of different w values

    在進(jìn)行主題關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),擴(kuò)展詞個(gè)數(shù)v=3.通過(guò)對(duì)比不同主題詞個(gè)數(shù)w和不同擴(kuò)展詞個(gè)數(shù)v的對(duì)比實(shí)驗(yàn)表明,擴(kuò)展詞特征與主題詞特征的作用基本相當(dāng),最小F1 指分別為83.1 和84.9,但是主題詞不同個(gè)數(shù)之間F1 值的差距沒(méi)有不同擴(kuò)展詞個(gè)數(shù)之間明顯.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)主題關(guān)鍵詞個(gè)數(shù)w=4 時(shí),F1值達(dá)到最大值91.5,當(dāng)個(gè)數(shù)大于4 時(shí)準(zhǔn)確率降低.分析原因在于提取主題關(guān)鍵詞時(shí)采用聚類(lèi)的方法,當(dāng)主題關(guān)鍵詞個(gè)數(shù)太小時(shí),無(wú)法代表領(lǐng)域特定信息,當(dāng)個(gè)數(shù)大于4 時(shí),又造成信息冗余,將多余信息引入到相似度計(jì)算中,從而導(dǎo)致實(shí)體鏈接的F1 值下降.所以本文主題關(guān)鍵詞個(gè)數(shù)取w=4.

    4)實(shí)驗(yàn)4:為了驗(yàn)證關(guān)系屬性中每個(gè)子屬性的效果對(duì)實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測(cè)試集,通過(guò)依次增加關(guān)系屬性中各個(gè)子屬性來(lái)設(shè)置對(duì)比實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果如表4 所示.

    表4 各個(gè)關(guān)系子屬性的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 4 Statistical results of experimental results for each relationship sub-attribute

    在進(jìn)行各關(guān)系子屬性的實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征,擴(kuò)展詞個(gè)數(shù)v=3,主題詞個(gè)數(shù)w=4.實(shí)驗(yàn)結(jié)果表明,利用候選實(shí)體之間的直接關(guān)系使得實(shí)體鏈接的F1 值有了較小提升,分析原因是自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中并不完整,只利用直接關(guān)系信息對(duì)實(shí)驗(yàn)結(jié)果幫助有限,同時(shí)通過(guò)水平間接關(guān)系和垂直間接關(guān)系的實(shí)驗(yàn)結(jié)果對(duì)比,垂直間接關(guān)系對(duì)實(shí)體鏈接結(jié)果影響更大,說(shuō)明通過(guò)關(guān)系路徑相連的候選實(shí)體之間的關(guān)系信息對(duì)實(shí)體鏈接更有幫助,但是通過(guò)最終的實(shí)驗(yàn)結(jié)果表明,將兩種間接關(guān)系同時(shí)考慮,更能增加候選實(shí)體的關(guān)系信息,對(duì)實(shí)體鏈接幫助更大.

    5) 實(shí)驗(yàn)5:為了驗(yàn)證本文提出方法的可行性,在旅游領(lǐng)域測(cè)試集上,將本文的方法與其他幾種實(shí)體鏈接方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5 所示.

    表5 本文方法與其他方法的比較Table 5 Comparison of methods in this paper with other methods

    在旅游領(lǐng)域測(cè)試集中將以上基線(xiàn)方法復(fù)現(xiàn),其中參數(shù)設(shè)置與其論文中相同.根據(jù)實(shí)驗(yàn)結(jié)果表明,本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較F1 值有明顯的提升,并且不需要標(biāo)注語(yǔ)料,更簡(jiǎn)潔高效;與EAT[21]方法相比較,Moreno 等[21]通過(guò)擴(kuò)充知識(shí)庫(kù)中實(shí)體的錨文本對(duì)文本中的單詞和知識(shí)庫(kù)中的實(shí)體在同一個(gè)向量空間中學(xué)習(xí)指稱(chēng)項(xiàng)與候選實(shí)體的向量表示,并通過(guò)訓(xùn)練分類(lèi)器進(jìn)行實(shí)體鏈接,兩種方法都是基于詞嵌入,本文的方法準(zhǔn)確率有較大提升,我們分析原因在于我們的語(yǔ)料主要是針對(duì)特定領(lǐng)域,語(yǔ)料數(shù)據(jù)集規(guī)模相較于公共數(shù)據(jù)集偏小,所以詞嵌入效果沒(méi)有達(dá)到最佳,但是我們的方法在詞嵌入的基礎(chǔ)上,將知識(shí)和主題信息融入詞向量表示中,將文本信息和知識(shí)庫(kù)信息融合,同時(shí)綜合考慮了上下文特征、主題特征、詞擴(kuò)展特征、關(guān)系指數(shù)特征,所以比EAT[21]方法在F1 值上有了較大的提高,也驗(yàn)證了本文的方法更適應(yīng)于語(yǔ)料偏少的特定領(lǐng)域;與Zero-shot[29]相比較,前者利用的是最新的神經(jīng)網(wǎng)絡(luò)模型,與它相比較F1 值有較小提高,證明了本方法達(dá)到了較高水平,也證明了本方法在對(duì)特定領(lǐng)域?qū)嶓w鏈接任務(wù)的可行性.

    6)實(shí)驗(yàn)6:為了驗(yàn)證本文提出的方法在不同領(lǐng)域中的普適性,將本文的方法在旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)試集和中藥材測(cè)試集中進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表6 所示.

    表6 不同領(lǐng)域的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 6 Statistics of experimental results in different fields

    由實(shí)驗(yàn)結(jié)果表明,在不同的領(lǐng)域語(yǔ)料中的F1值變化不大,其中在旅游領(lǐng)域中的F1 值最大,在少數(shù)民族和藥材領(lǐng)域F1 值基本一致,分析原因:在旅游領(lǐng)域中,由于其關(guān)系類(lèi)別少、實(shí)體個(gè)數(shù)多的特點(diǎn),其擴(kuò)展詞可以很好地表征其語(yǔ)義信息,利用擴(kuò)展與實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體之間的關(guān)系信息也比較明顯.但是在少數(shù)民族和藥材領(lǐng)域,關(guān)系種類(lèi)更加復(fù)雜,實(shí)體與實(shí)體之間的關(guān)系信息也不明顯,所以在這兩種領(lǐng)域中,擴(kuò)展詞特征和關(guān)系指數(shù)不如在領(lǐng)域領(lǐng)域中明顯,造成了F1 值略有下降.但是從不同領(lǐng)域的對(duì)比實(shí)驗(yàn)中表明,本文方法針對(duì)標(biāo)注語(yǔ)料少,流行度等消歧特征不明顯的問(wèn)題,在不同特定領(lǐng)域中的效果基本穩(wěn)定并且有較好的F1 值.

    3 總結(jié)和展望

    本文針對(duì)現(xiàn)有的實(shí)體鏈接方法無(wú)法將文本信息和本地知識(shí)庫(kù)信息充分相結(jié)合,提出了一種簡(jiǎn)單高效的基于關(guān)系指數(shù)和表示學(xué)習(xí)的特定領(lǐng)域集成實(shí)體鏈接方法.利用表示學(xué)習(xí)將文本信息和知識(shí)庫(kù)信息相融合,簡(jiǎn)單高效且適應(yīng)于特定領(lǐng)域語(yǔ)料偏少的特點(diǎn).實(shí)驗(yàn)結(jié)果表明,該方法與現(xiàn)有的實(shí)體鏈接方法相比,不需要標(biāo)注語(yǔ)料,其實(shí)體鏈接準(zhǔn)確率和F1 值比較理想,同時(shí)更適應(yīng)于語(yǔ)料偏少的特定領(lǐng)域.下一步的工作是對(duì)已經(jīng)構(gòu)建的小規(guī)模特定領(lǐng)域知識(shí)庫(kù)進(jìn)行擴(kuò)充和完善,同時(shí)不斷挖掘領(lǐng)域文本中特有的屬性特征,改進(jìn)實(shí)驗(yàn)效果.

    猜你喜歡
    知識(shí)庫(kù)語(yǔ)料實(shí)體
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    《苗防備覽》中的湘西語(yǔ)料
    亚洲av.av天堂| 两性夫妻黄色片 | 久久这里只有精品19| 国产精品无大码| 亚洲精品乱码久久久久久按摩| 亚洲精品视频女| 久久久久久久久久久久大奶| 亚洲精品色激情综合| 在线观看免费高清a一片| 黄网站色视频无遮挡免费观看| 涩涩av久久男人的天堂| 国产一区二区激情短视频 | 成人影院久久| 丝袜脚勾引网站| 国产深夜福利视频在线观看| 美女脱内裤让男人舔精品视频| 日韩中字成人| 青春草亚洲视频在线观看| 丝袜脚勾引网站| 国产xxxxx性猛交| 香蕉丝袜av| 亚洲美女视频黄频| 咕卡用的链子| 精品亚洲成a人片在线观看| www.av在线官网国产| 亚洲美女黄色视频免费看| 丰满乱子伦码专区| 欧美精品亚洲一区二区| 日韩在线高清观看一区二区三区| 国产一区二区三区av在线| 国产视频首页在线观看| 97精品久久久久久久久久精品| 久久国产精品男人的天堂亚洲 | 亚洲精品第二区| 国产淫语在线视频| 日韩一本色道免费dvd| 精品国产一区二区久久| av卡一久久| 亚洲国产成人一精品久久久| 亚洲人成网站在线观看播放| 午夜福利网站1000一区二区三区| 18禁裸乳无遮挡动漫免费视频| 男男h啪啪无遮挡| 亚洲国产成人一精品久久久| 精品国产露脸久久av麻豆| 久久这里只有精品19| 久久人人爽av亚洲精品天堂| 久久久精品区二区三区| 不卡视频在线观看欧美| 日韩不卡一区二区三区视频在线| 欧美精品国产亚洲| 精品国产乱码久久久久久小说| 中文字幕制服av| 欧美日韩av久久| 国产成人aa在线观看| 午夜激情av网站| 51国产日韩欧美| 亚洲五月色婷婷综合| 婷婷色av中文字幕| 亚洲精品456在线播放app| 久热久热在线精品观看| 黄网站色视频无遮挡免费观看| 欧美 日韩 精品 国产| 久久久久久久国产电影| 精品人妻一区二区三区麻豆| 国产色爽女视频免费观看| 亚洲性久久影院| 国产熟女欧美一区二区| 久久人人爽人人爽人人片va| 天堂俺去俺来也www色官网| 日韩成人伦理影院| 在线观看免费日韩欧美大片| 卡戴珊不雅视频在线播放| 黑人巨大精品欧美一区二区蜜桃 | 在线观看国产h片| 国产成人aa在线观看| 欧美变态另类bdsm刘玥| 在线观看免费日韩欧美大片| 精品少妇内射三级| 亚洲欧美日韩另类电影网站| 日韩 亚洲 欧美在线| 国产精品人妻久久久影院| 亚洲国产精品专区欧美| 少妇人妻 视频| 男女下面插进去视频免费观看 | 成人国产麻豆网| 精品国产乱码久久久久久小说| 亚洲av.av天堂| 夫妻午夜视频| 国产综合精华液| 亚洲精品久久午夜乱码| 久久 成人 亚洲| 夜夜骑夜夜射夜夜干| 欧美日韩av久久| 妹子高潮喷水视频| 久久久a久久爽久久v久久| 国产成人一区二区在线| 亚洲国产精品专区欧美| 成年人午夜在线观看视频| 午夜视频国产福利| av免费观看日本| 日本av手机在线免费观看| 久久热在线av| 日本免费在线观看一区| 日本黄色日本黄色录像| 欧美精品一区二区大全| 国产视频首页在线观看| 男人舔女人的私密视频| 亚洲国产精品一区二区三区在线| 丰满迷人的少妇在线观看| 妹子高潮喷水视频| 国产熟女欧美一区二区| 欧美另类一区| 18禁动态无遮挡网站| 久久久国产精品麻豆| 成人国语在线视频| 激情视频va一区二区三区| 亚洲国产日韩一区二区| 国产麻豆69| 亚洲四区av| 人妻 亚洲 视频| 欧美亚洲 丝袜 人妻 在线| 久久久久久久精品精品| 亚洲图色成人| 免费观看在线日韩| 黑人欧美特级aaaaaa片| 成年av动漫网址| 人人妻人人澡人人爽人人夜夜| 成人国语在线视频| 少妇人妻精品综合一区二区| 免费看光身美女| 日韩不卡一区二区三区视频在线| 国产成人aa在线观看| 久久久久久久久久成人| 一本—道久久a久久精品蜜桃钙片| 成年人午夜在线观看视频| 亚洲欧美成人精品一区二区| 亚洲国产av新网站| 国产成人aa在线观看| 在线精品无人区一区二区三| 国产精品国产三级国产av玫瑰| 久久久久精品性色| 国产成人一区二区在线| 在线观看三级黄色| 国产一级毛片在线| 全区人妻精品视频| 久久热在线av| 乱人伦中国视频| 亚洲欧美一区二区三区黑人 | 久久国产亚洲av麻豆专区| 乱人伦中国视频| 国产成人精品无人区| 亚洲欧洲精品一区二区精品久久久 | 国产精品一区二区在线观看99| 日韩中文字幕视频在线看片| 女人被躁到高潮嗷嗷叫费观| 亚洲精品国产色婷婷电影| 国产精品熟女久久久久浪| 久久精品aⅴ一区二区三区四区 | 免费不卡的大黄色大毛片视频在线观看| 欧美 亚洲 国产 日韩一| 热99久久久久精品小说推荐| 日韩制服骚丝袜av| 人妻系列 视频| 国产成人精品福利久久| 多毛熟女@视频| 女人被躁到高潮嗷嗷叫费观| 国产精品 国内视频| 视频中文字幕在线观看| 成人综合一区亚洲| 大香蕉久久成人网| 精品少妇内射三级| 亚洲av在线观看美女高潮| 精品人妻一区二区三区麻豆| 王馨瑶露胸无遮挡在线观看| a级毛片黄视频| 麻豆乱淫一区二区| 精品人妻一区二区三区麻豆| 日韩在线高清观看一区二区三区| 久久人妻熟女aⅴ| 最新中文字幕久久久久| 一级毛片电影观看| 最近手机中文字幕大全| 久久99热6这里只有精品| 久久婷婷青草| 大香蕉久久网| 亚洲精品久久久久久婷婷小说| 午夜久久久在线观看| 欧美日韩国产mv在线观看视频| 国产69精品久久久久777片| 日韩精品免费视频一区二区三区 | 两性夫妻黄色片 | 精品少妇黑人巨大在线播放| 国产精品.久久久| 国产高清不卡午夜福利| 两性夫妻黄色片 | 咕卡用的链子| 欧美xxxx性猛交bbbb| 久久久久久久国产电影| 久久久久久久久久成人| 边亲边吃奶的免费视频| 久久久久久伊人网av| 大片免费播放器 马上看| 亚洲精品第二区| 久久久久久久亚洲中文字幕| 成人亚洲精品一区在线观看| 国产欧美日韩综合在线一区二区| 亚洲 欧美一区二区三区| 亚洲国产成人一精品久久久| 高清黄色对白视频在线免费看| 日本爱情动作片www.在线观看| av在线老鸭窝| 精品国产乱码久久久久久小说| 亚洲国产色片| 国产高清不卡午夜福利| 久久精品久久精品一区二区三区| 在线观看免费视频网站a站| 日本午夜av视频| 女性被躁到高潮视频| 99re6热这里在线精品视频| 我的女老师完整版在线观看| 纯流量卡能插随身wifi吗| 国产免费一级a男人的天堂| 国产精品女同一区二区软件| 新久久久久国产一级毛片| 亚洲av中文av极速乱| 成人无遮挡网站| 18禁国产床啪视频网站| 高清av免费在线| 久久久久久久大尺度免费视频| 精品福利永久在线观看| 午夜福利视频精品| 国产爽快片一区二区三区| 黄网站色视频无遮挡免费观看| 午夜91福利影院| 在现免费观看毛片| 午夜精品国产一区二区电影| 热99久久久久精品小说推荐| 国产精品 国内视频| 精品午夜福利在线看| 欧美日韩国产mv在线观看视频| 久久久久久久国产电影| 亚洲在久久综合| 国产精品偷伦视频观看了| av一本久久久久| 51国产日韩欧美| 午夜免费男女啪啪视频观看| av网站免费在线观看视频| 一级毛片电影观看| 免费黄色在线免费观看| 久久久久久久亚洲中文字幕| 国产免费福利视频在线观看| 最新中文字幕久久久久| www日本在线高清视频| 捣出白浆h1v1| 在线观看国产h片| 免费黄频网站在线观看国产| 人人妻人人澡人人看| 午夜福利影视在线免费观看| 国产精品久久久久久精品古装| 久久青草综合色| 丁香六月天网| 日韩av在线免费看完整版不卡| 校园人妻丝袜中文字幕| 久热久热在线精品观看| 久久国产精品大桥未久av| 菩萨蛮人人尽说江南好唐韦庄| 在线观看免费高清a一片| 在线观看人妻少妇| 黄色配什么色好看| 成人黄色视频免费在线看| 国产亚洲午夜精品一区二区久久| 下体分泌物呈黄色| 秋霞伦理黄片| 亚洲精品视频女| 久久午夜综合久久蜜桃| 久久99热6这里只有精品| 免费看光身美女| 国产熟女午夜一区二区三区| 激情五月婷婷亚洲| 麻豆精品久久久久久蜜桃| 精品人妻在线不人妻| 一级片免费观看大全| 国产视频首页在线观看| 婷婷色av中文字幕| 欧美日韩综合久久久久久| 国产在视频线精品| 欧美激情 高清一区二区三区| 午夜激情久久久久久久| av在线老鸭窝| 99久久中文字幕三级久久日本| 国产成人欧美| 你懂的网址亚洲精品在线观看| 69精品国产乱码久久久| av网站免费在线观看视频| 中文字幕人妻熟女乱码| 美女内射精品一级片tv| 日韩精品免费视频一区二区三区 | 国产极品天堂在线| 一本色道久久久久久精品综合| av卡一久久| 熟妇人妻不卡中文字幕| 女人久久www免费人成看片| 美女主播在线视频| 国语对白做爰xxxⅹ性视频网站| h视频一区二区三区| 永久免费av网站大全| 又粗又硬又长又爽又黄的视频| 国产亚洲精品久久久com| 亚洲欧美色中文字幕在线| 免费观看av网站的网址| 99久久中文字幕三级久久日本| 人妻人人澡人人爽人人| 狠狠精品人妻久久久久久综合| 欧美激情国产日韩精品一区| 69精品国产乱码久久久| 中文字幕av电影在线播放| 精品人妻一区二区三区麻豆| 亚洲av日韩在线播放| 97在线视频观看| 亚洲av综合色区一区| 亚洲久久久国产精品| 26uuu在线亚洲综合色| 大香蕉97超碰在线| 国产免费又黄又爽又色| 亚洲精品乱码久久久久久按摩| 校园人妻丝袜中文字幕| 日日啪夜夜爽| 大话2 男鬼变身卡| www.熟女人妻精品国产 | 街头女战士在线观看网站| 99久久综合免费| 夜夜爽夜夜爽视频| 亚洲熟女精品中文字幕| 97精品久久久久久久久久精品| 国产成人精品久久久久久| 午夜福利影视在线免费观看| 九九在线视频观看精品| av卡一久久| 少妇高潮的动态图| 99久久综合免费| 伦理电影大哥的女人| 亚洲欧美日韩卡通动漫| 黄色一级大片看看| av国产精品久久久久影院| 国产精品不卡视频一区二区| 丰满迷人的少妇在线观看| 国产不卡av网站在线观看| 国国产精品蜜臀av免费| 97超碰精品成人国产| 男女高潮啪啪啪动态图| 日韩在线高清观看一区二区三区| 两个人看的免费小视频| 99国产精品免费福利视频| 成人漫画全彩无遮挡| 考比视频在线观看| 成人18禁高潮啪啪吃奶动态图| 久久久精品免费免费高清| 日本猛色少妇xxxxx猛交久久| 欧美精品高潮呻吟av久久| 一本—道久久a久久精品蜜桃钙片| 国产日韩欧美亚洲二区| 日韩三级伦理在线观看| 国产淫语在线视频| 亚洲精品国产色婷婷电影| 少妇被粗大的猛进出69影院 | 欧美精品高潮呻吟av久久| 日韩不卡一区二区三区视频在线| 水蜜桃什么品种好| 成年人免费黄色播放视频| 91成人精品电影| 亚洲成人av在线免费| 免费播放大片免费观看视频在线观看| 午夜福利视频精品| 亚洲国产毛片av蜜桃av| 免费高清在线观看视频在线观看| 搡老乐熟女国产| 国产一级毛片在线| 国产精品一区二区在线观看99| 亚洲国产av新网站| 欧美xxxx性猛交bbbb| 午夜福利,免费看| 七月丁香在线播放| 麻豆乱淫一区二区| 亚洲精品aⅴ在线观看| 午夜91福利影院| 国产免费现黄频在线看| 色哟哟·www| 国产69精品久久久久777片| 欧美最新免费一区二区三区| 亚洲欧洲日产国产| 韩国精品一区二区三区 | a级毛片黄视频| 国产精品一区二区在线观看99| 久久综合国产亚洲精品| 国产午夜精品一二区理论片| 啦啦啦在线观看免费高清www| 飞空精品影院首页| 精品人妻偷拍中文字幕| 久久精品国产综合久久久 | 免费观看性生交大片5| 日韩欧美一区视频在线观看| 日本午夜av视频| 国产 精品1| 免费大片黄手机在线观看| 在线观看三级黄色| 18禁观看日本| 男人操女人黄网站| 国产精品国产三级国产专区5o| 精品熟女少妇av免费看| 99九九在线精品视频| 久久精品人人爽人人爽视色| 精品少妇久久久久久888优播| 97超碰精品成人国产| 伦理电影免费视频| 美女中出高潮动态图| 搡女人真爽免费视频火全软件| 少妇 在线观看| av网站免费在线观看视频| 欧美国产精品va在线观看不卡| 熟女电影av网| 一本久久精品| 久久女婷五月综合色啪小说| 9色porny在线观看| 久久婷婷青草| av又黄又爽大尺度在线免费看| av黄色大香蕉| 精品一区二区免费观看| 免费黄色在线免费观看| 欧美激情极品国产一区二区三区 | 欧美变态另类bdsm刘玥| 一级a做视频免费观看| 男女无遮挡免费网站观看| 成人国产麻豆网| 一本大道久久a久久精品| 一个人免费看片子| 国产精品无大码| 九色亚洲精品在线播放| 国产精品 国内视频| 久久精品夜色国产| 视频在线观看一区二区三区| 少妇被粗大的猛进出69影院 | 99热6这里只有精品| 男的添女的下面高潮视频| av电影中文网址| 精品酒店卫生间| 日韩成人av中文字幕在线观看| 伦精品一区二区三区| 日韩av免费高清视频| 久久婷婷青草| 777米奇影视久久| 久久精品国产亚洲av天美| 1024视频免费在线观看| 高清欧美精品videossex| 久久久国产精品麻豆| 制服人妻中文乱码| 免费人成在线观看视频色| 中文精品一卡2卡3卡4更新| 国产高清三级在线| av片东京热男人的天堂| 婷婷成人精品国产| 99视频精品全部免费 在线| 少妇猛男粗大的猛烈进出视频| 欧美激情 高清一区二区三区| 午夜免费观看性视频| 国产精品无大码| 51国产日韩欧美| 男女免费视频国产| 一区二区三区乱码不卡18| 久久国产精品男人的天堂亚洲 | 亚洲国产成人一精品久久久| 男女啪啪激烈高潮av片| 亚洲国产最新在线播放| 国产成人一区二区在线| 自拍欧美九色日韩亚洲蝌蚪91| 久久久国产欧美日韩av| 搡女人真爽免费视频火全软件| 超碰97精品在线观看| 亚洲精品久久久久久婷婷小说| 国产精品一区www在线观看| 日本黄大片高清| 在线 av 中文字幕| 交换朋友夫妻互换小说| 97精品久久久久久久久久精品| 男的添女的下面高潮视频| 日韩欧美精品免费久久| 亚洲欧美一区二区三区黑人 | 中国美白少妇内射xxxbb| 色视频在线一区二区三区| 黑丝袜美女国产一区| 国产精品99久久99久久久不卡 | 婷婷色麻豆天堂久久| 午夜精品国产一区二区电影| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲,欧美精品.| 少妇猛男粗大的猛烈进出视频| 亚洲av日韩在线播放| 久久久精品区二区三区| 桃花免费在线播放| 国产又色又爽无遮挡免| 美女福利国产在线| 午夜福利网站1000一区二区三区| 国产成人欧美| 国产精品国产三级国产av玫瑰| kizo精华| 丰满少妇做爰视频| 男女啪啪激烈高潮av片| 熟妇人妻不卡中文字幕| 国产精品三级大全| 国产在线免费精品| 亚洲国产精品成人久久小说| av免费观看日本| 在线观看一区二区三区激情| 久久久精品94久久精品| 看十八女毛片水多多多| 九色亚洲精品在线播放| 视频区图区小说| 成年女人在线观看亚洲视频| 日日爽夜夜爽网站| 男的添女的下面高潮视频| 欧美日韩亚洲高清精品| 国产亚洲欧美精品永久| 免费看光身美女| 欧美国产精品va在线观看不卡| 亚洲美女黄色视频免费看| 十八禁高潮呻吟视频| 亚洲欧洲精品一区二区精品久久久 | 中国国产av一级| 国产免费现黄频在线看| 亚洲欧美一区二区三区国产| 欧美bdsm另类| 午夜免费观看性视频| 一二三四中文在线观看免费高清| 伊人亚洲综合成人网| 天天躁夜夜躁狠狠躁躁| 国产男女内射视频| 久久久久久久久久久免费av| 欧美xxxx性猛交bbbb| 一区二区av电影网| 国产不卡av网站在线观看| 欧美日韩国产mv在线观看视频| 国产黄色免费在线视频| 97在线人人人人妻| 精品第一国产精品| 精品熟女少妇av免费看| 香蕉精品网在线| 少妇的逼好多水| 欧美日本中文国产一区发布| 在线 av 中文字幕| 久久精品久久久久久噜噜老黄| 午夜福利乱码中文字幕| 大片免费播放器 马上看| 这个男人来自地球电影免费观看 | 黄色 视频免费看| 一级片'在线观看视频| 亚洲精品美女久久av网站| 男人爽女人下面视频在线观看| 亚洲激情五月婷婷啪啪| 欧美3d第一页| 看非洲黑人一级黄片| 男女边吃奶边做爰视频| 久久婷婷青草| 国产精品免费大片| a级片在线免费高清观看视频| 男女高潮啪啪啪动态图| 深夜精品福利| 丝袜美足系列| 永久网站在线| 午夜激情av网站| 如日韩欧美国产精品一区二区三区| 中文字幕制服av| 久久久久久伊人网av| 欧美97在线视频| 欧美国产精品一级二级三级| 久久这里有精品视频免费| 日日撸夜夜添| 亚洲欧美色中文字幕在线| 国产亚洲欧美精品永久| 日本91视频免费播放| 国产欧美另类精品又又久久亚洲欧美| 两个人免费观看高清视频| 亚洲av电影在线观看一区二区三区| 捣出白浆h1v1| 一本久久精品| av有码第一页| 大香蕉97超碰在线| 午夜日本视频在线| 美女国产高潮福利片在线看| 日韩一本色道免费dvd| 国产一级毛片在线| 亚洲综合色惰| 国产一区有黄有色的免费视频| 亚洲精品国产色婷婷电影| 国产xxxxx性猛交| 国产视频首页在线观看| 捣出白浆h1v1| 国产亚洲精品久久久com| 国产精品久久久久久久电影| 三级国产精品片| 亚洲国产av新网站| 久久婷婷青草| 国产精品人妻久久久影院| a级片在线免费高清观看视频| 精品国产国语对白av| 黄色配什么色好看| a级毛片黄视频| 亚洲熟女精品中文字幕| 999精品在线视频| 美女国产视频在线观看| 日韩欧美一区视频在线观看| 国产精品女同一区二区软件| 国产一区二区三区综合在线观看 | 97在线人人人人妻| 国国产精品蜜臀av免费| 精品少妇黑人巨大在线播放|