• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向科技人才情報(bào)的多策略組合模型同名消歧方法*

    2018-09-03 09:53:44
    通信技術(shù) 2018年8期
    關(guān)鍵詞:消歧科技人才知識(shí)庫

    劉 林

    ( 杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

    0 引 言

    近年來,隨著科技成果轉(zhuǎn)化產(chǎn)業(yè)的發(fā)展,企業(yè)對(duì)科技成果轉(zhuǎn)化的需求日益擴(kuò)大。它們急需尋找到合適的科技人才來解決企業(yè)技術(shù)難題,因此搭建一個(gè)面向企業(yè)的科技人才搜索引擎具有重要的現(xiàn)實(shí)意義。網(wǎng)絡(luò)爬蟲是搜索引擎最重要的數(shù)據(jù)來源。然而,由于數(shù)據(jù)的多源異構(gòu)性,采集的數(shù)據(jù)往往存在一定的噪音,如科技人才的同名歧義現(xiàn)象等。如果對(duì)同名歧義數(shù)據(jù)不做消歧處理,那么將無法保證搜索結(jié)果的準(zhǔn)確性。

    當(dāng)前的同名消歧方法主要有以下三種。一是基于向量空間模型的聚類消歧方法,如楊欣欣通過抽取網(wǎng)頁中與人名相關(guān)的特征及命名實(shí)體,利用二階段聚類算法實(shí)現(xiàn)同名消歧[1];辛濤提出利用待消歧人名的組合特征,通過層次凝聚聚類(Hierarchical Agglomerative Clustering,HAC)算法來實(shí)現(xiàn)同名消歧[2]。二是基于社會(huì)網(wǎng)絡(luò)的聚類消歧方法,如郎君利用檢索結(jié)果中共現(xiàn)人名構(gòu)建社會(huì)網(wǎng)絡(luò),并結(jié)合譜分割算法和模塊度指標(biāo)進(jìn)行聚類實(shí)現(xiàn)同名消解[3];2014年,Mohammad-Hossein等人提出的CSLR方法是通過合著者構(gòu)建社會(huì)網(wǎng)絡(luò),并結(jié)合姓名模糊度因子進(jìn)行聚類實(shí)現(xiàn)同名消歧[4]。三是基于實(shí)體鏈接的消歧方法,如Peng通過計(jì)算待消歧人物文本與知識(shí)庫實(shí)體文本的相似度,實(shí)現(xiàn)實(shí)體鏈接的映射以達(dá)到消歧目的[5];寧博通過抽取中文維基百科等知識(shí)庫形成實(shí)體對(duì)象,并與待消歧對(duì)象進(jìn)行鏈接以實(shí)現(xiàn)重名消歧[6]。

    基于向量空間模型的聚類消歧方法將不同的特征組合在一起,沒有考慮不同特征之間的區(qū)分度問題?;谏鐣?huì)網(wǎng)絡(luò)的聚類消歧方法僅使用了人名的社會(huì)關(guān)系特性,適用性一般?;趯?shí)體鏈接的消歧方法對(duì)知識(shí)庫信息的完整性要求過高。此外,以上的同名消歧方法,初始條件只有人名這單一信息,消歧外延過大。為此,本文通過工作單位這一具有高區(qū)分度的特征來縮小消歧外延,將同名消歧問題具體化到姓名相同、單位不同的科技人才歧義消解問題上,并利用科技人才的成果信息(包括學(xué)術(shù)論文、專利和科研項(xiàng)目)組合多個(gè)消歧策略,提出了一種基于多策略組合模型(Combination Model of Multi-Strategy,CMMS)的消歧方法。

    1 流程框架及數(shù)據(jù)準(zhǔn)備

    為了搭建科技人才搜索引擎,本文利用分布式爬蟲技術(shù)從互聯(lián)網(wǎng)上采集海量的科技成果,包括學(xué)術(shù)論文、專利和科研項(xiàng)目,并從中提取作者、負(fù)責(zé)人及其工作單位等信息,經(jīng)過必要的數(shù)據(jù)預(yù)處理形成待消歧數(shù)據(jù)集。同時(shí),將采集的科技成果進(jìn)行向量化表示,以便后續(xù)計(jì)算成果相似度時(shí)使用。另外,從高校和科研院所官方網(wǎng)站采集科技人才信息,構(gòu)建科技人才知識(shí)庫。整個(gè)流程框架如圖1所示。

    圖1 流程框架

    1.1 數(shù)據(jù)預(yù)處理

    從科技成果中提取作者或負(fù)責(zé)人的工作單位后發(fā)現(xiàn),關(guān)于單位信息有很多噪音。

    一種情況是單位之間具有包含關(guān)系,如從專利《一種基于文檔評(píng)分模型和相關(guān)度的學(xué)術(shù)論文搜索排序方法》(申請(qǐng)?zhí)枺篊N201710461109.9)中抽取得到科研人才徐小良的工作單位是杭州電子科技大學(xué),從學(xué)術(shù)論文《基于RSS空間線性相關(guān)的WLAN位置指紋定位算法》中抽取得到科技人才徐小良的工作單位是杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院。針對(duì)此種情況,直接依據(jù)單位之間的包含關(guān)系進(jìn)行消歧,認(rèn)為他們屬于同一個(gè)現(xiàn)實(shí)實(shí)體。

    另一種情況是工作單位出現(xiàn)曾用名。由于時(shí)代的發(fā)展,很多高校和科研院所都存在改名或合并的情況。如果一位科技人才在某一個(gè)單位工作的時(shí)間較長,且在該單位改名前后都有成果發(fā)表,那么從成果中提取科技人才時(shí)就會(huì)出現(xiàn)錯(cuò)誤。比如,從科技成果中可以提取到“嚴(yán)義,杭州電子工業(yè)學(xué)院”和“嚴(yán)義,杭州電子科技大學(xué)”。實(shí)際上,杭州電子工業(yè)學(xué)院在2004年改名為杭州電子科技大學(xué)。為了避免這種情況的發(fā)生,本文利用分布式爬蟲技術(shù)采集現(xiàn)有的高校和科研院所名單及其改名或合并信息,并對(duì)抽取得到的科技人才的工作單位進(jìn)行規(guī)范化處理,一律使用現(xiàn)用名替代曾用名。這也屬于一種同名消歧的方法。

    1.2 成果向量化表示

    為了計(jì)算科技成果之間的相似度,需要將它們進(jìn)行向量化表示。本文采用詞向量模型Word2vec表示科研人才的成果。首先,通過海量的語料庫訓(xùn)練詞向量;其次,構(gòu)建語義化的科技成果向量;最后,計(jì)算成果之間的相似度,用于同名消歧。

    成果向量化表示的具體步驟如下。

    (1)構(gòu)建語料庫。語料庫由學(xué)術(shù)論文、專利和科研項(xiàng)目三項(xiàng)成果組成。鑒于每一種成果都有很多屬性,只選取強(qiáng)特征屬性。因此,選取了學(xué)術(shù)論文的標(biāo)題、摘要和關(guān)鍵詞3個(gè)屬性,選取了專利的標(biāo)題和摘要2個(gè)屬性,選取了科研項(xiàng)目的標(biāo)題、中文摘要和中文主題詞3個(gè)屬性。選好屬性后,將屬性的內(nèi)容以字符串拼接的形式構(gòu)成一段文本,該段文本就表示一項(xiàng)成果,從而形成了一個(gè)大型的語料庫。

    (2)處理語料庫。訓(xùn)練詞向量前,需要對(duì)語料庫進(jìn)行分詞、過濾停用詞和提取特征詞的處理。準(zhǔn)確的分詞需要高效的分詞算法和高質(zhì)量的詞庫。結(jié)巴分詞滿足了需求,是目前最好的Python中文分詞工具包,分詞準(zhǔn)確、運(yùn)行速度快且占用資源少[7]。中文中有許多使用廣泛但實(shí)際意義不大的詞,如“的”“了”和“這”等,被稱為停用詞(Stop Words)。分詞時(shí),需要將這些停用詞過濾掉。對(duì)于這類停用詞,網(wǎng)絡(luò)上有許多公開的停用詞庫,如哈工大停用詞庫、百度停用詞庫等。在成果文本中,還有很多類似“基于”“研究”“提出”和“方法”等高頻詞。這些詞不僅不能反映成果文本的特征,還影響語義表達(dá)的準(zhǔn)確性,因此分詞時(shí)也需要剔除。剔除這類詞可以構(gòu)建自定義的停用詞庫來完成。經(jīng)過公開的停用詞庫和自定義的停用詞庫過濾后,將得到處理后的分詞結(jié)果。同時(shí),本文通過提取科技成果的關(guān)鍵詞或主題詞構(gòu)建科技領(lǐng)域詞典,用該科技詞典來進(jìn)行成果的特征詞提取。

    (3)訓(xùn)練詞向量。語料庫處理完成后,可以訓(xùn)練詞向量。本文采用Google開源的詞向量表示工具Word2vec,并選擇CBOW模型訓(xùn)練語料庫,設(shè)置詞向量的維度為300維,最后輸出詞向量文件。

    (4)生成成果向量。將每項(xiàng)成果的所有特征詞所對(duì)應(yīng)的詞向量相加,就得到了該項(xiàng)成果的向量表示。最終得到的成果向量如圖2所示。

    圖2 成果向量

    2 基于多策略組合模型的科技人才消歧方法

    如上所述,本文的消歧對(duì)象是姓名相同、單位不同的科技人才。由于數(shù)據(jù)的多源異構(gòu)性,通過網(wǎng)絡(luò)爬蟲采集的科技人才難免會(huì)出現(xiàn)同名歧義的問題。為了解決這一問題,本文在已采集的科研人才信息基礎(chǔ)上,通過組合多個(gè)策略構(gòu)建決策模型,以對(duì)姓名相同、單位不同的科技人才進(jìn)行消歧,即多策略組合模型(Combination Model of Multi-Strategy,CMMS)。所考慮的消歧策略包括實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度。為了便于描述,設(shè)兩個(gè)姓名相同、單位不同的科研人才分別為 P1和 P2。

    2.1 基于實(shí)體鏈接的消歧策略

    實(shí)體鏈接消歧策略是一種將待消歧對(duì)象與現(xiàn)實(shí)世界中的實(shí)體進(jìn)行匹配鏈接以達(dá)到消歧目的的方法[8]。該方法的重點(diǎn)和難點(diǎn)是構(gòu)建現(xiàn)實(shí)世界實(shí)體對(duì)象的知識(shí)庫。本文采用分布式爬蟲技術(shù),從高校和科研院所官方網(wǎng)站采集科技人才信息構(gòu)建科技人才知識(shí)庫,并以月為周期進(jìn)行更新和增量采集,確保構(gòu)建的知識(shí)庫信息及時(shí)準(zhǔn)確。

    本文的初始條件是已知待消歧對(duì)象的姓名和工作單位,因此在進(jìn)行實(shí)體鏈接時(shí),只需要對(duì)姓名和工作單位進(jìn)行匹配即可。

    判斷規(guī)則如下:

    (1)若P1與知識(shí)庫中的的姓名和單位相匹配,則認(rèn)為是P1的實(shí)體鏈接;若P2與知識(shí)庫中的的姓名和單位相匹配,則認(rèn)為是 P2的實(shí)體鏈接。因?yàn)楹褪遣煌膶?shí)體,所以認(rèn)為P1和P2是不同的人。

    (2)當(dāng)P1和P2中只要有一個(gè)沒有實(shí)體連接,則無法判斷P1和P2是否為同一人,需要進(jìn)一步利用其他策略進(jìn)行判斷。

    該策略是一個(gè)很好的消歧策略,能直截了當(dāng)?shù)貙?shí)現(xiàn)一些待消歧對(duì)象的消歧。但是,科技人才的范疇十分廣泛。高校和科研院所的工作人員只是科技人才的一部分,企業(yè)和其他機(jī)構(gòu)同樣擁有大量的科技人才。由于隱私性等原因,采集這些科技人才的信息十分困難。因此,該策略的局限性顯而易見,其消歧效果直接受知識(shí)庫數(shù)據(jù)規(guī)模的影響。

    圖3 成果時(shí)間窗之間的關(guān)系

    2.2 基于成果時(shí)間窗的消歧策略

    成果時(shí)間集是指一個(gè)科技人才已取得的所有科技成果的年份的集合。將這些年份數(shù)字按照從小到大進(jìn)行排序,選取最早和最晚的年份作為端點(diǎn),將端點(diǎn)及其內(nèi)部的所有年份構(gòu)成的年份窗口叫作成果時(shí)間窗。具體地,對(duì)于學(xué)術(shù)論文,選取該論文被出版的刊期年份;對(duì)于專利,選取專利的公開日年份;對(duì)于科研項(xiàng)目,選取項(xiàng)目的實(shí)施年份。

    任何兩個(gè)科技人才的成果時(shí)間窗都具有相離、相交、包含三種關(guān)系,如圖3所示。

    現(xiàn)實(shí)世界中,一個(gè)科技人才在某一時(shí)間段內(nèi)只能擁有一個(gè)正式的工作單位。科技人才在工作單位所取得的成果歸單位所有。因此,可以根據(jù)科技人才所取得的成果的時(shí)間窗來判斷兩個(gè)姓名相同單位不同的科技人才在現(xiàn)實(shí)世界中是否為同一個(gè)人。

    設(shè)P1和P2的成果時(shí)間窗分別為ATW1和ATW2,判斷規(guī)則如下。

    (1)若ATW1和ATW2交集的元素個(gè)數(shù)大于2,則認(rèn)為P1和P2不可能為同一個(gè)人,即P1和P2是兩個(gè)人。

    (2)若ATW1和ATW2交集的元素的個(gè)數(shù)小于或等于2,則無法判斷P1和P2是否為同一個(gè)人,需要利用其他策略進(jìn)行判斷。

    該策略利用了科技人才成果時(shí)間窗的互斥屬性來實(shí)現(xiàn)排歧,但是它無法消除工作單位發(fā)生變動(dòng)的同名科技人才的歧義問題。

    2.3 基于成果合著者的消歧策略

    人們?cè)谶M(jìn)行科研活動(dòng)時(shí),往往以課題組或科研團(tuán)隊(duì)的形式進(jìn)行。這種形式在科技成果上的表現(xiàn)就是一項(xiàng)科技成果有多個(gè)參與者。從待消歧對(duì)象的科技成果中抽取成果合著者,構(gòu)成成果合著者集合。具體實(shí)現(xiàn)時(shí),將使用二層合著者關(guān)系挖掘合著者,如圖4所示。

    圖4 二層成果合著者

    設(shè)P1的直接合著者構(gòu)成的集合為A,二層合著者構(gòu)成的集合為A',P2的直接合著者構(gòu)成的集合為B,二層合著者構(gòu)成的集合為B',判斷規(guī)則如下:

    (1)只要 A∩ B、A ∩ B'、A'∩ B、A'∩ B'有一個(gè)不為空集,即P1和P2有成果合著者,則認(rèn)為P1和P2是同一個(gè)人。

    (2)若 A ∩B、A ∩B'、A'∩ B、A'∩ B'都為空集,則無法判斷P1和P2是否為同一個(gè)人,需要利用其他策略進(jìn)行判斷。

    該策略依據(jù)“物以類聚,人以群分”的思想,通過待消歧對(duì)象的學(xué)術(shù)網(wǎng)絡(luò)實(shí)現(xiàn)消歧。然而,它僅僅利用了關(guān)系網(wǎng)絡(luò)這單一屬性,消歧效果并不顯著。

    2.4 基于成果相似度的消歧策略

    通常情況下,一個(gè)科技人才的研究方向會(huì)隨著時(shí)代的發(fā)展發(fā)生一些變化,但是其研究領(lǐng)域是不會(huì)發(fā)生重大變化的。比如,從建筑領(lǐng)域轉(zhuǎn)到醫(yī)療領(lǐng)域,概率是極低的,可以認(rèn)為幾乎不可能?;谝陨系默F(xiàn)實(shí)情況可以認(rèn)為,一個(gè)科技人才在其成果時(shí)間窗內(nèi)所取得的成果都是屬于某一個(gè)研究領(lǐng)域的,即其成果具有很高的相似度。根據(jù)這個(gè)結(jié)論,可以通過計(jì)算兩個(gè)姓名相同、單位不同的科技人才的成果相似度來進(jìn)行消歧。

    為了計(jì)算成果之間的相似度,首先需要將成果進(jìn)行向量化表示。本文采用詞向量模型Word2vec表示科研人才的成果。成果向量化表示后,采用余弦相似度來計(jì)算成果之間的相似度。設(shè)P1和P2的成果集分別為 AC1=(x1,…,xi,…,xm)和 AC2=(y1,…,yj,…,yn),其中m、n表示成果的個(gè)數(shù)。兩個(gè)成果xi、yj之間的相似度計(jì)算公式為:

    將兩個(gè)成果集AC1和AC2中所有的成果之間的相似度計(jì)算完成后,取所有相似度的平均值作為兩個(gè)成果集之間的相似度,即:

    然后,通過設(shè)定的相似度閾值θ可以進(jìn)行判斷了,具體規(guī)則如下:

    (1)若sim(AC1,AC2)≥θ,則認(rèn)為P1和P2是同一個(gè)人;

    (2)若sim(AC1,AC2)<θ,則認(rèn)為P1和P2是兩個(gè)人。

    該策略利用科技人才的研究領(lǐng)域具有極強(qiáng)的固定性這一現(xiàn)象將其成果向量化表示。運(yùn)用計(jì)算成果之間的相似度來實(shí)現(xiàn)消歧,其消歧的準(zhǔn)確性直接依賴于相似度閾值的設(shè)定。

    2.5 多策略組合模型消歧方法

    前面分別介紹了基于實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度的消歧策略。然而,每個(gè)策略都有其局限性:基于實(shí)體鏈接的消歧策略的效果依賴于知識(shí)庫的數(shù)據(jù)規(guī)模;基于成果時(shí)間窗的消歧策略無法實(shí)現(xiàn)對(duì)工作單位發(fā)生變動(dòng)的同名科技人才進(jìn)行消歧;基于成果合著者的消歧策略效果一般;基于成果相似度的消歧策略的準(zhǔn)確性取決于相似度閾值的設(shè)定。鑒于上述原因,將以上的4種消歧策略進(jìn)行組合,提出了多策略組合模型CMMS的消歧方法,其組合形式如圖5所示。

    圖5 多策略組合模型組織形式

    當(dāng)對(duì)兩個(gè)姓名相同、單位不同的科研人才P1和P2進(jìn)行消歧時(shí),首先將他們與科技人才知識(shí)庫進(jìn)行匹配。若在知識(shí)庫中找到了他們的實(shí)體鏈接,則可以判定P1和P2屬于兩個(gè)不同的實(shí)體;若沒有匹配到實(shí)體鏈接,則判斷他們的成果時(shí)間窗的交集是否大于2。若大于2,則判定他們屬于兩個(gè)實(shí)體;若不大于2,則判斷他們有無成果合著者。若有成果合著者,則認(rèn)為P1和P2是同一個(gè)實(shí)體;否則,利用成果相似度來消歧。若成果相似度小于θ,判定他們屬于不同的實(shí)體;若成果相似度不小于θ,判定他們屬于同一實(shí)體。

    然而,姓名相同、單位不同的科技人才往往有很多,將單位不同的某一姓名的科技人才構(gòu)成的集合稱為該姓名所對(duì)應(yīng)的偽集合。之所以稱為偽集合,是因?yàn)榧侠锩娴脑乜赡苤貜?fù)。不妨設(shè)該偽集合的元素個(gè)數(shù)為n。那么,消歧將擴(kuò)展為對(duì)n個(gè)姓名相同、單位不同的科技人才的消歧。

    消歧過程實(shí)際上就轉(zhuǎn)化為:

    (1)從偽集合中任選兩個(gè)元素Pi和Pj,通過模型進(jìn)行判斷;

    (2)若Pi和Pj為同一個(gè)人,則將他們合并,偽集合的元素個(gè)數(shù)變?yōu)閚-1;重復(fù)步驟(1),直至所有的元素之間都通過模型進(jìn)行了判斷;

    (3)若Pi和Pj為兩個(gè)人,則將偽集合裂變成兩個(gè)子偽集合,重復(fù)步驟(1),直至所有的元素之間都通過模型進(jìn)行了判斷。

    根據(jù)排列組合原理,很容易得到進(jìn)行判斷的次數(shù)在n-1到Cn2之間。

    3 實(shí)驗(yàn)設(shè)計(jì)及分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    實(shí)驗(yàn)數(shù)據(jù)來源于第2章所述的待消歧數(shù)據(jù)集。由于數(shù)據(jù)量巨大,本文選取10個(gè)姓名所對(duì)應(yīng)的偽集合作為實(shí)驗(yàn)數(shù)據(jù)并進(jìn)行了人工消歧,數(shù)據(jù)如表1所示。同時(shí),將消歧過程中未與其他待消歧對(duì)象合并的對(duì)象稱為獨(dú)立實(shí)體,與其他待消歧對(duì)象合并的對(duì)象稱為非獨(dú)立實(shí)體。例如,在消歧前偽集合為(A,B,C),消歧后的結(jié)果為(A,BC),則稱A為獨(dú)立實(shí)體,B和C為非獨(dú)立實(shí)體。

    表1 實(shí)驗(yàn)數(shù)據(jù)

    3.2 評(píng)價(jià)指標(biāo)

    本實(shí)驗(yàn)采用實(shí)體消歧方法中最常用的查準(zhǔn)率P、召回率R和綜合評(píng)價(jià)指標(biāo)F1作為評(píng)價(jià)指標(biāo)。針對(duì)一個(gè)偽集合,設(shè)TP表示被消歧模型判定為獨(dú)立實(shí)體且實(shí)際上也是獨(dú)立實(shí)體的個(gè)數(shù),F(xiàn)P表示被消歧模型判定為獨(dú)立實(shí)體而實(shí)際上卻是非獨(dú)立實(shí)體的個(gè)數(shù),TN表示被模型判定為非獨(dú)立實(shí)體且實(shí)際上也是非獨(dú)立實(shí)體的個(gè)數(shù),F(xiàn)N表示被消歧模型判定為非獨(dú)立實(shí)體而實(shí)際上卻是獨(dú)立實(shí)體的個(gè)數(shù)。

    評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

    式(3)、式(4)和式(5)中,P表示查準(zhǔn)率,R表示召回率,F(xiàn)1是結(jié)合查準(zhǔn)率和召回率的綜合評(píng)價(jià)指標(biāo)。

    3.3 實(shí)驗(yàn)分析

    本文從兩個(gè)角度對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析:一是相似度閾值θ的設(shè)定;二是將本文提出的多策略組合模型與基于成果聚類的消歧方法Word2vec+HAC及文獻(xiàn)[4]中提出的CSLR方法在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。其中,Word2vec+HAC利用基于Python平臺(tái)的scikit-learn機(jī)器學(xué)習(xí)包實(shí)現(xiàn),CLSR方法根據(jù)文獻(xiàn)[4]中提供的下載程序?qū)崿F(xiàn)。

    3.3.1 相似度閾值θ的設(shè)定

    使用表1中的實(shí)驗(yàn)數(shù)據(jù),完成對(duì)相似度閾值的設(shè)定。通過枚舉法對(duì)成果向量之間的夾角β從15°到75°、步長為5°進(jìn)行實(shí)驗(yàn)。結(jié)果如表2所示,其中P值、R值和F1值都表示平均值。

    表2 實(shí)驗(yàn)結(jié)果

    可以看出,當(dāng)相似度的閾值在0.50~0.57時(shí),P值、R值和F1值較好。當(dāng)相似度閾值很大時(shí),只有兩個(gè)待消歧對(duì)象的成果非常相似時(shí),模型才會(huì)判定他們屬于同一實(shí)體。然而,如果一個(gè)科技人才從事科技活動(dòng)的時(shí)間很長,雖然其研究領(lǐng)域幾乎不會(huì)發(fā)生重大轉(zhuǎn)變,但是其研究方向會(huì)隨著時(shí)代發(fā)生相應(yīng)變化,這樣就會(huì)導(dǎo)致本應(yīng)該合并的消歧對(duì)象沒有合并。當(dāng)相似度閾值設(shè)置很小時(shí),雖然能避免上述情況,但往往又會(huì)造成過度合并的情況。因此,在后面的實(shí)驗(yàn)中,將相似度閾值設(shè)定為0.50和0.57的平均值,即0.535。

    3.3.2 CMMS與其他兩種方法的對(duì)比實(shí)驗(yàn)

    將本文的CMMS方法與Word2vec+HAC方法和CLSR方法進(jìn)行對(duì)比實(shí)驗(yàn)。其中,Word2vec+HAC使用基于Python平臺(tái)的scikit-learn機(jī)器學(xué)習(xí)包實(shí)現(xiàn),CLSR方法根據(jù)文獻(xiàn)[4]中提供的下載程序?qū)崿F(xiàn),實(shí)驗(yàn)結(jié)果如表3所示。為了更直觀顯示實(shí)驗(yàn)效果,使用柱狀圖進(jìn)行表示,如圖6所示。

    可知,CMMS方法的平均查準(zhǔn)率、平均召回率和平均F1值都優(yōu)于其他兩種方法。Word2vec+HAC和CSLR方法的三項(xiàng)評(píng)價(jià)指標(biāo)較為接近。

    表3 實(shí)驗(yàn)結(jié)果

    圖6 實(shí)驗(yàn)結(jié)果柱狀圖

    4 結(jié) 語

    針對(duì)目前同名消歧方法只考慮單一策略且消歧外延過大的問題,本文通過工作單位這一具有高區(qū)分度的特征來縮小消歧外延,將同名消歧問題具體化到姓名相同、單位不同的科技人才歧義消解問題上,并利用科技人才的成果信息,組合了實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度四個(gè)消歧策略,提出了一種基于多策略組合模型的消歧方法。實(shí)驗(yàn)結(jié)果表明,該方法取得了較好的同名消歧效果。同時(shí),在實(shí)驗(yàn)過程中發(fā)現(xiàn),知識(shí)庫在消歧中的作用很大,可以保障準(zhǔn)確度。因此,如何找到更高效的方法來豐富和擴(kuò)充知識(shí)庫以提高消歧效率,值得進(jìn)一步研究。

    猜你喜歡
    消歧科技人才知識(shí)庫
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    科技人才是發(fā)展的推動(dòng)力
    商周刊(2018年18期)2018-09-21 09:14:44
    藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    寧陜農(nóng)業(yè)科技人才助產(chǎn)業(yè)脫貧
    深入推進(jìn)科技人才組團(tuán)式援藏模式
    西藏科技(2016年10期)2016-09-26 09:01:49
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
    国产单亲对白刺激| 午夜福利视频1000在线观看| 中文字幕免费在线视频6| 免费人成在线观看视频色| 国产精品亚洲一级av第二区| 黄色女人牲交| 日韩欧美精品免费久久| 国产人妻一区二区三区在| 少妇人妻精品综合一区二区 | 欧美高清性xxxxhd video| 热99re8久久精品国产| 成人二区视频| 午夜激情欧美在线| 中出人妻视频一区二区| 成人一区二区视频在线观看| 日韩欧美 国产精品| 久久精品夜夜夜夜夜久久蜜豆| 免费观看人在逋| 三级毛片av免费| 精品国内亚洲2022精品成人| 久久精品人妻少妇| or卡值多少钱| 欧美中文日本在线观看视频| 国内精品一区二区在线观看| 日日啪夜夜撸| 日本免费a在线| 51国产日韩欧美| 老女人水多毛片| 免费人成在线观看视频色| 中文资源天堂在线| 变态另类成人亚洲欧美熟女| 国产高清不卡午夜福利| 白带黄色成豆腐渣| 赤兔流量卡办理| 日韩一区二区视频免费看| 性欧美人与动物交配| aaaaa片日本免费| 成人二区视频| 国产av麻豆久久久久久久| 亚洲第一区二区三区不卡| 少妇被粗大猛烈的视频| 99国产精品一区二区蜜桃av| 亚洲天堂国产精品一区在线| 1000部很黄的大片| 中文字幕熟女人妻在线| 成年女人毛片免费观看观看9| 亚洲中文日韩欧美视频| 91午夜精品亚洲一区二区三区 | 免费人成在线观看视频色| av在线蜜桃| 亚洲熟妇中文字幕五十中出| 国产精品嫩草影院av在线观看 | 婷婷色综合大香蕉| 久久午夜福利片| 蜜桃久久精品国产亚洲av| 老熟妇乱子伦视频在线观看| 亚洲av.av天堂| 国产成人影院久久av| 别揉我奶头 嗯啊视频| 精品福利观看| 我的女老师完整版在线观看| 久久久久国内视频| 窝窝影院91人妻| 国产免费一级a男人的天堂| 亚州av有码| 桃红色精品国产亚洲av| 国产av麻豆久久久久久久| 大型黄色视频在线免费观看| 欧美性感艳星| 国产精品伦人一区二区| 亚洲经典国产精华液单| 一进一出好大好爽视频| 免费观看的影片在线观看| 精品久久久久久成人av| 黄色日韩在线| 欧美黑人欧美精品刺激| 国内精品宾馆在线| 免费人成在线观看视频色| 精品人妻偷拍中文字幕| 日韩欧美免费精品| 九九爱精品视频在线观看| 白带黄色成豆腐渣| 在线免费观看的www视频| 中亚洲国语对白在线视频| 午夜福利成人在线免费观看| 亚洲成人免费电影在线观看| 国产一区二区在线av高清观看| 久久久色成人| 日韩一区二区视频免费看| 嫩草影视91久久| 日韩强制内射视频| 亚洲久久久久久中文字幕| 亚洲经典国产精华液单| 九色成人免费人妻av| 国产精品一区www在线观看 | 一区二区三区免费毛片| 久久国产精品人妻蜜桃| 此物有八面人人有两片| 亚洲黑人精品在线| 精品一区二区三区av网在线观看| 久久精品人妻少妇| 91久久精品国产一区二区成人| 免费黄网站久久成人精品| 国产白丝娇喘喷水9色精品| 亚洲综合色惰| 一本一本综合久久| 中国美白少妇内射xxxbb| 精华霜和精华液先用哪个| 一区二区三区四区激情视频 | 午夜激情福利司机影院| 成人高潮视频无遮挡免费网站| 少妇被粗大猛烈的视频| 久久久色成人| 亚洲欧美日韩东京热| 久久精品久久久久久噜噜老黄 | 国产一区二区三区视频了| 成年女人永久免费观看视频| 老司机午夜福利在线观看视频| 少妇高潮的动态图| 国产精品,欧美在线| 亚洲欧美日韩高清专用| 国产精品亚洲美女久久久| 在线观看一区二区三区| 欧美色视频一区免费| 免费一级毛片在线播放高清视频| 最好的美女福利视频网| 性色avwww在线观看| 人妻丰满熟妇av一区二区三区| 日韩人妻高清精品专区| 噜噜噜噜噜久久久久久91| 久久99热6这里只有精品| 国产毛片a区久久久久| 久久99热这里只有精品18| 嫁个100分男人电影在线观看| 中文字幕久久专区| 成人三级黄色视频| 99久久精品国产国产毛片| 国产精品野战在线观看| 国内揄拍国产精品人妻在线| 久久国内精品自在自线图片| 久久久久免费精品人妻一区二区| 国产私拍福利视频在线观看| 久久久久性生活片| 又紧又爽又黄一区二区| 久久精品综合一区二区三区| 亚洲不卡免费看| 成年女人看的毛片在线观看| 中文字幕熟女人妻在线| 国产又黄又爽又无遮挡在线| 22中文网久久字幕| 少妇猛男粗大的猛烈进出视频 | 亚洲人成伊人成综合网2020| 变态另类成人亚洲欧美熟女| 极品教师在线免费播放| 亚洲av成人精品一区久久| 大型黄色视频在线免费观看| 性插视频无遮挡在线免费观看| 久久国产精品人妻蜜桃| 国产 一区精品| 欧美成人a在线观看| 免费观看精品视频网站| 国产一区二区在线观看日韩| 午夜爱爱视频在线播放| 网址你懂的国产日韩在线| 88av欧美| 亚洲成a人片在线一区二区| 国产精品国产高清国产av| 香蕉av资源在线| 日韩 亚洲 欧美在线| 亚洲av中文字字幕乱码综合| 热99在线观看视频| 中文字幕精品亚洲无线码一区| 国产探花极品一区二区| 国产91精品成人一区二区三区| 麻豆国产av国片精品| 亚洲成av人片在线播放无| 日本 av在线| 在现免费观看毛片| 国产探花极品一区二区| 国产一区二区亚洲精品在线观看| 日韩欧美在线二视频| 两个人的视频大全免费| 日日干狠狠操夜夜爽| 99热这里只有是精品50| 精华霜和精华液先用哪个| 给我免费播放毛片高清在线观看| 国产精品99久久久久久久久| 长腿黑丝高跟| 蜜桃久久精品国产亚洲av| 国产女主播在线喷水免费视频网站 | 国产不卡一卡二| 国产亚洲av嫩草精品影院| 人人妻人人看人人澡| 午夜福利欧美成人| 久久久色成人| 亚洲av二区三区四区| 免费高清视频大片| 亚洲人成网站在线播| 国产高潮美女av| 午夜亚洲福利在线播放| 淫妇啪啪啪对白视频| av在线观看视频网站免费| 欧美成人一区二区免费高清观看| 日日摸夜夜添夜夜添av毛片 | 国内精品久久久久精免费| 色在线成人网| 99riav亚洲国产免费| 亚洲精华国产精华液的使用体验 | 男人舔奶头视频| 毛片一级片免费看久久久久 | 丰满的人妻完整版| 亚洲一区高清亚洲精品| 日本黄色视频三级网站网址| 69人妻影院| 国产探花在线观看一区二区| 国产精品久久久久久精品电影| 日韩 亚洲 欧美在线| 亚洲经典国产精华液单| 观看美女的网站| 国产成人a区在线观看| 亚洲乱码一区二区免费版| 久久国内精品自在自线图片| 亚洲经典国产精华液单| 一个人免费在线观看电影| 99热这里只有是精品50| 九九久久精品国产亚洲av麻豆| 精品人妻熟女av久视频| 国产乱人伦免费视频| 琪琪午夜伦伦电影理论片6080| 亚洲久久久久久中文字幕| 亚洲精品亚洲一区二区| 国产欧美日韩一区二区精品| 免费av不卡在线播放| 丰满乱子伦码专区| 精品一区二区三区av网在线观看| 99久久精品热视频| 欧美成人免费av一区二区三区| 欧美日韩黄片免| 男女之事视频高清在线观看| 国产精品野战在线观看| 精品午夜福利在线看| 亚洲欧美精品综合久久99| 1000部很黄的大片| 久久亚洲真实| 日韩,欧美,国产一区二区三区 | 国产亚洲精品av在线| 国产精品,欧美在线| 性欧美人与动物交配| 我的老师免费观看完整版| 两个人视频免费观看高清| 国产av麻豆久久久久久久| 久久久成人免费电影| 亚洲人成伊人成综合网2020| 国产精品综合久久久久久久免费| 久久久久九九精品影院| 老熟妇乱子伦视频在线观看| 天美传媒精品一区二区| 精品国内亚洲2022精品成人| 97超视频在线观看视频| 色尼玛亚洲综合影院| 国产男靠女视频免费网站| 午夜精品在线福利| 久久久久国产精品人妻aⅴ院| 亚洲av日韩精品久久久久久密| 午夜久久久久精精品| 97人妻精品一区二区三区麻豆| 麻豆国产av国片精品| 婷婷精品国产亚洲av| 最近视频中文字幕2019在线8| 国产又黄又爽又无遮挡在线| 国产免费av片在线观看野外av| 麻豆精品久久久久久蜜桃| 亚洲中文字幕一区二区三区有码在线看| 欧美成人性av电影在线观看| 中文资源天堂在线| 精品久久久久久久久av| 日韩大尺度精品在线看网址| 免费电影在线观看免费观看| 国产av一区在线观看免费| 亚洲真实伦在线观看| 欧美色视频一区免费| 变态另类成人亚洲欧美熟女| 啪啪无遮挡十八禁网站| 国产探花极品一区二区| 在线观看美女被高潮喷水网站| av专区在线播放| 国产91精品成人一区二区三区| 女的被弄到高潮叫床怎么办 | 欧美极品一区二区三区四区| 婷婷精品国产亚洲av在线| 久久午夜亚洲精品久久| 亚洲第一区二区三区不卡| 毛片一级片免费看久久久久 | 亚洲国产欧美人成| 成人一区二区视频在线观看| 亚洲av成人av| 又黄又爽又刺激的免费视频.| 一区福利在线观看| 亚洲av电影不卡..在线观看| 成人三级黄色视频| 国产成人aa在线观看| 欧美最新免费一区二区三区| 欧美zozozo另类| 国产成人一区二区在线| 久久久精品欧美日韩精品| 欧美日韩亚洲国产一区二区在线观看| 国产黄片美女视频| 精品久久久久久久久亚洲 | 亚洲av熟女| 久久久国产成人精品二区| 欧美日韩黄片免| 亚洲自偷自拍三级| 国产人妻一区二区三区在| 色综合色国产| 99久久中文字幕三级久久日本| 能在线免费观看的黄片| 久久久久久久久中文| 日韩中字成人| 麻豆国产av国片精品| 欧美精品啪啪一区二区三区| 99热只有精品国产| 免费看日本二区| 一进一出抽搐gif免费好疼| 国产黄色小视频在线观看| 大又大粗又爽又黄少妇毛片口| 亚洲美女黄片视频| 日本a在线网址| 国产 一区 欧美 日韩| 永久网站在线| 91久久精品国产一区二区三区| 成人性生交大片免费视频hd| 尾随美女入室| 亚洲成人中文字幕在线播放| videossex国产| 联通29元200g的流量卡| 国产精品福利在线免费观看| 99久久无色码亚洲精品果冻| 看片在线看免费视频| 在线观看一区二区三区| 成人av在线播放网站| 中国美白少妇内射xxxbb| 久久久久久久久大av| 狂野欧美白嫩少妇大欣赏| 国产精品一区二区三区四区免费观看 | 天堂av国产一区二区熟女人妻| 波多野结衣高清无吗| 精品久久久久久久末码| a级一级毛片免费在线观看| 日韩欧美一区二区三区在线观看| 国产人妻一区二区三区在| 可以在线观看毛片的网站| 日韩精品有码人妻一区| 内地一区二区视频在线| 热99在线观看视频| 别揉我奶头 嗯啊视频| 一区福利在线观看| 国产精品永久免费网站| 日本色播在线视频| 久久精品国产99精品国产亚洲性色| 日韩欧美国产一区二区入口| 99热这里只有是精品在线观看| 99国产极品粉嫩在线观看| 人妻少妇偷人精品九色| 波多野结衣高清无吗| 午夜激情福利司机影院| 人人妻人人澡欧美一区二区| 性欧美人与动物交配| 日本五十路高清| 国产精品美女特级片免费视频播放器| 久久欧美精品欧美久久欧美| 99热这里只有是精品在线观看| 人人妻,人人澡人人爽秒播| 一级黄片播放器| 亚洲 国产 在线| 日韩 亚洲 欧美在线| 日韩欧美 国产精品| 欧美成人一区二区免费高清观看| 小说图片视频综合网站| 给我免费播放毛片高清在线观看| 欧美日韩黄片免| 亚洲最大成人手机在线| av天堂中文字幕网| 一本久久中文字幕| 亚洲电影在线观看av| 男人的好看免费观看在线视频| 在线天堂最新版资源| 午夜老司机福利剧场| 在线观看免费视频日本深夜| 午夜老司机福利剧场| 全区人妻精品视频| 欧美性猛交╳xxx乱大交人| 亚洲成人久久爱视频| 免费人成视频x8x8入口观看| 老师上课跳d突然被开到最大视频| 国产视频一区二区在线看| 变态另类丝袜制服| 国产精品伦人一区二区| 日本-黄色视频高清免费观看| 日日干狠狠操夜夜爽| 国产av麻豆久久久久久久| 久久久久久伊人网av| 亚洲一区高清亚洲精品| 国产精品1区2区在线观看.| 丰满乱子伦码专区| 久久久久久久久久久丰满 | 精品人妻偷拍中文字幕| videossex国产| 久久久久久久久久成人| 国国产精品蜜臀av免费| 中文字幕人妻熟人妻熟丝袜美| 日韩欧美国产一区二区入口| 给我免费播放毛片高清在线观看| 黄色配什么色好看| 变态另类丝袜制服| 真实男女啪啪啪动态图| 一级a爱片免费观看的视频| 麻豆国产av国片精品| 九九在线视频观看精品| 国产一区二区三区在线臀色熟女| 国产高清三级在线| 国产av在哪里看| 最近在线观看免费完整版| 小说图片视频综合网站| 国产高清有码在线观看视频| 看黄色毛片网站| 少妇裸体淫交视频免费看高清| 精品一区二区三区av网在线观看| 国产精品无大码| 别揉我奶头~嗯~啊~动态视频| 成年版毛片免费区| 久久精品影院6| 亚洲va在线va天堂va国产| 中国美白少妇内射xxxbb| 俄罗斯特黄特色一大片| 成人精品一区二区免费| 国产国拍精品亚洲av在线观看| 成人一区二区视频在线观看| 精品久久久久久久久av| 精品久久久久久久久久久久久| 欧美又色又爽又黄视频| 长腿黑丝高跟| 午夜免费成人在线视频| 日本成人三级电影网站| 国产伦精品一区二区三区视频9| 一进一出抽搐动态| 成人国产综合亚洲| 亚洲精品国产成人久久av| 国产色婷婷99| 国产精品国产三级国产av玫瑰| 啦啦啦啦在线视频资源| 欧美日韩黄片免| 亚洲精品久久国产高清桃花| 看免费成人av毛片| 超碰av人人做人人爽久久| 日韩在线高清观看一区二区三区 | av视频在线观看入口| 99九九线精品视频在线观看视频| 啦啦啦观看免费观看视频高清| 亚洲av.av天堂| 亚洲精品456在线播放app | 乱系列少妇在线播放| 国产精品一区二区性色av| 俺也久久电影网| av福利片在线观看| 一个人观看的视频www高清免费观看| 亚洲欧美日韩东京热| 免费看美女性在线毛片视频| 天堂av国产一区二区熟女人妻| 哪里可以看免费的av片| 亚洲天堂国产精品一区在线| 香蕉av资源在线| 亚洲av成人精品一区久久| 亚州av有码| 又黄又爽又刺激的免费视频.| 精品乱码久久久久久99久播| 国产又黄又爽又无遮挡在线| 国产伦精品一区二区三区视频9| 极品教师在线视频| 人人妻人人澡欧美一区二区| 美女 人体艺术 gogo| 国产亚洲精品久久久久久毛片| 日韩av在线大香蕉| 91狼人影院| 亚洲性夜色夜夜综合| 在线国产一区二区在线| 国产欧美日韩精品亚洲av| 淫妇啪啪啪对白视频| 亚州av有码| 日本一本二区三区精品| 国产免费av片在线观看野外av| 久久精品国产亚洲av天美| 精品国产三级普通话版| 精品99又大又爽又粗少妇毛片 | 久久精品国产99精品国产亚洲性色| 精品人妻1区二区| 日韩 亚洲 欧美在线| 国产乱人视频| 美女 人体艺术 gogo| 亚洲精品在线观看二区| 日本黄色片子视频| 精品人妻视频免费看| 精品午夜福利视频在线观看一区| 18禁黄网站禁片免费观看直播| 国产精品久久电影中文字幕| 久久人人爽人人爽人人片va| 国产精品人妻久久久久久| 夜夜爽天天搞| 不卡一级毛片| 免费看日本二区| 色综合亚洲欧美另类图片| 日韩一区二区视频免费看| 日日干狠狠操夜夜爽| 不卡一级毛片| 一级av片app| 国产91精品成人一区二区三区| 人人妻人人看人人澡| 毛片一级片免费看久久久久 | 久久天躁狠狠躁夜夜2o2o| 免费在线观看影片大全网站| 久久久国产成人精品二区| 美女黄网站色视频| 亚洲国产日韩欧美精品在线观看| 日韩欧美精品免费久久| 午夜免费成人在线视频| 一本精品99久久精品77| 我要看日韩黄色一级片| 亚洲精品一卡2卡三卡4卡5卡| 午夜爱爱视频在线播放| 一a级毛片在线观看| 国产探花在线观看一区二区| av视频在线观看入口| av在线蜜桃| 精品日产1卡2卡| 欧美黑人欧美精品刺激| 两性午夜刺激爽爽歪歪视频在线观看| 在现免费观看毛片| www日本黄色视频网| 久久久精品大字幕| 91在线精品国自产拍蜜月| 精品一区二区三区人妻视频| 老司机福利观看| 床上黄色一级片| 日韩,欧美,国产一区二区三区 | 免费看a级黄色片| 国产aⅴ精品一区二区三区波| 国产一区二区亚洲精品在线观看| 一个人看的www免费观看视频| 在线免费十八禁| 午夜a级毛片| 看片在线看免费视频| 亚洲精华国产精华精| 男人舔奶头视频| 国产在视频线在精品| 最近视频中文字幕2019在线8| 九九在线视频观看精品| 亚洲一区高清亚洲精品| 亚洲国产欧洲综合997久久,| 久久久久国产精品人妻aⅴ院| 国产人妻一区二区三区在| 国内揄拍国产精品人妻在线| 午夜免费男女啪啪视频观看 | 级片在线观看| 日韩欧美免费精品| av在线蜜桃| 亚洲avbb在线观看| 亚洲无线在线观看| 国产亚洲精品久久久久久毛片| 欧美丝袜亚洲另类 | 国产探花在线观看一区二区| 丝袜美腿在线中文| 亚洲 国产 在线| 天堂影院成人在线观看| 制服丝袜大香蕉在线| 熟女电影av网| 麻豆av噜噜一区二区三区| 美女高潮喷水抽搐中文字幕| 人妻制服诱惑在线中文字幕| 国产美女午夜福利| 久久久久久伊人网av| 国产精品亚洲美女久久久| 真人一进一出gif抽搐免费| 久久精品久久久久久噜噜老黄 | 女人十人毛片免费观看3o分钟| 精品人妻偷拍中文字幕| 日韩欧美国产在线观看| 男女之事视频高清在线观看| 22中文网久久字幕| 亚洲美女搞黄在线观看 | 男人和女人高潮做爰伦理| 色在线成人网| 国产探花在线观看一区二区| 亚洲精品影视一区二区三区av| 最好的美女福利视频网| 尤物成人国产欧美一区二区三区| 中文字幕熟女人妻在线| 日韩中文字幕欧美一区二区| 老司机午夜福利在线观看视频| 色哟哟·www| 九九在线视频观看精品| 成年女人毛片免费观看观看9| 九色成人免费人妻av| 国内精品一区二区在线观看| 在线免费观看不下载黄p国产 | 日韩欧美在线乱码| 免费观看的影片在线观看| 午夜福利欧美成人| 欧美高清成人免费视频www| 午夜老司机福利剧场| 亚洲成人中文字幕在线播放| 小蜜桃在线观看免费完整版高清| 男人的好看免费观看在线视频| 3wmmmm亚洲av在线观看| 在线播放无遮挡| 麻豆国产av国片精品| 丰满的人妻完整版|