• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多特征融合的英文科技文獻增量式人名消歧應用研究*

    2021-10-08 13:55:56阮光冊涂世文
    情報雜志 2021年9期

    阮光冊 涂世文 田 欣 張 莉

    (1.華東師范大學經(jīng)濟與管理學部信息管理系 上海 200241;2.上??萍及l(fā)展有限公司 上海 200235)

    0 引 言

    準確獲取指定作者的發(fā)文信息是文獻計量、科學計量、科學評價等領域研究的基礎,也是情報學研究的重要問題。隨著世界科學研究的蓬勃發(fā)展,各類學術文獻數(shù)量正以驚人的速度增長。STM(Scientific Technical and Medical,簡稱STM,國際科學、技術和醫(yī)學出版商協(xié)會)報告顯示[1],2018年,全球范圍內的研究人員數(shù)量達到710萬,且每年以3%~4%的速度持續(xù)增長。在學術文獻數(shù)據(jù)庫中,作者的名稱屬性通常是識別和區(qū)分學術文獻實體最常用的標識符,但相較于模糊匹配和邏輯檢索功能在文獻數(shù)據(jù)庫中的廣泛應用,對英文數(shù)據(jù)庫的作者檢索則受到作者同名、重名以及人名處理標準不一致等問題的困擾,影響了檢索結果的精度。

    人名消歧屬于自然語言處理的研究范疇,科技文獻的人名消歧問題存在于各種語言中。就科技文獻的人名消歧來說,其目的是準確獲取指定作者的發(fā)文信息,其核心問題是判斷出現(xiàn)在不同文獻中相同的作者名是否指向同一個人。解決該問題相對簡單的方法是為每一個科研工作者提供一個唯一的標識符,如ORCID,但由于涉及隱私政策等原因,在網(wǎng)絡化和數(shù)字圖書館快速發(fā)展的今天,采用唯一標識碼的方法已無法有效解決海量科技文獻數(shù)據(jù)增長的問題。利用自動化方式進行人名消歧是目前研究的方向,主要的做法是采用某種規(guī)則或者算法,將同名作者加以區(qū)分,將無歧義的信息呈現(xiàn)給用戶[2]。然而,在實際研究中,由于作者英文署名存在多種形式使得構建的模型排歧精度不高、可擴展性欠佳等諸多問題有待進一步解決。

    為此,本文以學術文獻增量式人名消歧為研究對象,解決新增學術文獻論文歸屬問題。首先提取學術文獻中的多種特征數(shù)據(jù),借助語言模型BERT進行語義特征抽取,將融合了文獻外部特征和文本內部語義特征的數(shù)據(jù)輸入XGBoost集成模型進行相似度匹配,通過計算,將新增文獻分配給同名作者中相似度最高的作者,完成學術文獻的增量消歧。最后,本文使用DBLP學術搜索平臺的學術文獻數(shù)據(jù)進行實驗,獲得了較好的實驗結果。

    1 研究現(xiàn)狀

    科技文獻作者同名消歧問題屬于命名實體消歧的范疇[3]。自從Bagga和Baldwin首次提出跨文本的同指消歧(Co-Reference)[4]之后,人名共指的研究逐漸引起了學界的關注。2001年,數(shù)字圖書館聯(lián)合會議就作者消歧問題展開討論,研究解決數(shù)字參考文獻檢索系統(tǒng)中作者同名問題。

    作者同名消歧本質上是一個聚類或分類問題,一般包括特征抽取、相似度計算、消歧處理等步驟。

    基于文獻特征的人名消歧是最早被使用的研究方法,利用學術文獻的元數(shù)據(jù),將對同名作者有著較大區(qū)分度的特征提取出來,然后采用特征組合和構造的方式,選擇并保留有效特征,借助模型實現(xiàn)對同名作者的分類,進而實現(xiàn)消歧[2]。在特征提取時,作者的個人信息或論文的題錄信息是常用的消歧特征。實踐研究表明,選擇有效的特征能準確辨識作者的真實情況。如使用文獻的合作者信息進行人名消歧[5],或將作者和論文題錄的多個概念特征進行組合,作為消歧特征組,通過構建相似度矩陣,借助聚類算法進行消歧[6]。除了學術文獻基本元數(shù)據(jù)外,有學者[7]將論文的主題作為消歧特征提取,融合合作者信息、姓名關聯(lián)信息等多特征,實現(xiàn)人名消歧。

    根據(jù)對所使用特征處理方式的不同,人名消歧的方法又可以進一步劃分為無監(jiān)督的消歧方法、有監(jiān)督的消歧方法和半監(jiān)督的消歧方法。無監(jiān)督的人名消歧基本思路為:將所選特征轉化為一組數(shù)值,通過計算,將相似度比對結果滿足閾值要求的論文歸屬為同一作者。采用的算法包括:K均值算法[8]、基于密度的聚類算法[9]、凝聚層次聚類算法(HAC)[10]以及各種改進算法等等。由于無監(jiān)督方法使用非標注的文獻數(shù)據(jù),借助選取的特征值計算各文獻間的相似度,面對大量文獻時,運算效率會有所下降,且聚類文獻與現(xiàn)實中作者的對應關系也存在問題。雖有學者提出了多階段的聚類策略[11],一定程度上提高了無監(jiān)督聚類的準確率,但實體對應關系問題依然極大地限制了其使用場景。有監(jiān)督的方法利用標注好的訓練數(shù)據(jù)集來學習分類模型,其做法為:總結已知作者發(fā)文、所屬單位等特征,依據(jù)這些特征對新出現(xiàn)論文進行判斷,決定歸屬。文獻[12]采用隨機森林和DBSCAN 聚類的方法,在USPTO專利數(shù)據(jù)集上進行實驗,獲得了較好的人名消歧效果。有監(jiān)督方法效率與精度較高,不足的地方在于需要大量標注好的樣本,有時需要專業(yè)人員耗費大量的時間對數(shù)據(jù)進行標注,限制了其在大型數(shù)據(jù)庫中的應用。結合非監(jiān)督和監(jiān)督算法的優(yōu)點,研究人員開始嘗試采用將少量標注數(shù)據(jù)與大量無標注數(shù)據(jù)相結合[13],通過訓練模型,進行人名消歧。然而,半監(jiān)督的方法需要人工定義規(guī)則,以實現(xiàn)數(shù)據(jù)標注[14],在處理大規(guī)模數(shù)據(jù)集的人名消歧任務時,仍存在不足。

    考慮到學術文獻數(shù)據(jù)中可利用的信息有限,研究者嘗試整合外部的資源和知識來達到數(shù)據(jù)增強的效果。該類方法的一般思路是:結合外部公開的資源和知識庫,通過創(chuàng)建新的規(guī)則和類別,將待消歧的姓名與現(xiàn)實世界中人物信息中區(qū)分度較強且準確的社會屬性建立聯(lián)系,從而獲得更豐富的人物特征,并基于這些社會屬性進行分類,從而實現(xiàn)消歧的目的。文獻[15]通過獲取包含作者文章的Web網(wǎng)頁,判斷兩個待消歧作者的文獻是否同時出現(xiàn)在一篇Web文檔中,從而區(qū)分人名。然而,借助外部資源獲取額外的信息,客觀上會影響文獻檢索的效率,此外如何避免外部信息所帶來的噪音,也是該方法面臨的難題。

    目前,一些研究開始探討對學術論文所包含的語義特征進行計算,對同一作者的研究成果進行辨識,從而實現(xiàn)對著者姓名的消歧。如文獻[16]利用語義分析技術對機構知識庫進行作者人名消歧,而文獻[17]則使用生物神經(jīng)網(wǎng)絡層級時序記憶( Hierarchical Temporal Memory,HTM) 對論文摘要進行信息表示,實現(xiàn)作者人名消歧。

    綜上所述,對于學術文獻作者姓名消歧問題,現(xiàn)有的多種研究方法均存在各自的優(yōu)勢與不足。本文以增量式人名消歧場景作為研究對象,將BERT預訓練語言模型引入作者人名消歧的研究,借助深度學習強大的語義特征提取和表示能力,解決英文文獻作者消歧的問題。本文旨在探索深度學習方法在解決姓名歧義問題時的可用性并評價其消歧效果。

    2 方法設計

    人名增量消歧本質上是一個分類問題。傳統(tǒng)的基于機器學習的分類方法主要是通過將文本表示為特征向量,利用特征對文本進行降維,選擇算法模型(如:SVM,樸素貝葉斯等)實現(xiàn)分類。這種基于詞袋模型的分類方法對特征工程的依賴度較高,在復雜任務及大數(shù)據(jù)量的情況下,從原始數(shù)據(jù)中自動學習抽象的、高層次的全局特征的能力不強,使得分類模型的泛化能力較差。相對于機器學習方法,深度學習方法能夠從大規(guī)模無標注語料中學習詞的語義和句法信息,通過組合多個非線性模型,將文本數(shù)據(jù)轉化為更高層次的知識表示[18],在無需大量特征工程的情況下,從大數(shù)據(jù)中自動學習文本特征并刻畫出文本的內在信息,提高分類的效果。

    在學術文獻不斷動態(tài)增長的情景下,無法依靠人工方式建立分類特征。基于此,本文以深度學習框架為核心,在較少的人工干預情況下,利用詞向量方法對特定應用情境下的語義特征進行提取,快速高效的從歷史數(shù)據(jù)中學習高層次知識表達,實現(xiàn)科技文獻增量式人名消歧方法。

    2.1科技文獻的元數(shù)據(jù)特征分析科技文獻的元數(shù)據(jù)因類型不同而異,文獻[19]按照是否涉及文獻內容將科技文獻元數(shù)據(jù)分為文獻的內部特征和外部特征?;谶@一分類方式,本文選擇進行人名消歧的文獻元數(shù)據(jù)如表1所示。

    表1 用于作者名消歧的文獻元數(shù)據(jù)

    依據(jù)文獻[19],本文選擇作者、合作者、作者單位、期刊名、發(fā)表時間等元數(shù)據(jù)作為科技文獻外部特征進行消歧計算。這些特征不涉及(或較少涉及)科技文獻的內容,屬于文獻的外部標識,在實踐應用中,本文采用特征相似性匹配的分析方法,通過閾值,判斷學者與新增科技文獻之間的歸屬問題。相對應的,關鍵詞、標題和摘要等內部特征,其具有較強的文本語義屬性,本文采用語義表征學習模型BERT對其進行計算,構建蘊含文獻語義信息的特征向量,識別學者與待歸屬文獻之間的語義關聯(lián)。

    2.2融合多特征增量式人名消歧方法設計學術檢索平臺的科技文獻數(shù)量龐大,數(shù)據(jù)處于增量式更新狀態(tài),且新增文獻的規(guī)模以及更新時間無法確定。在數(shù)據(jù)不斷動態(tài)增長的情景下,如果仍舊采用全局人名消歧的方法,不僅聚類計算的時間復雜度非常高,同時聚類也將耗費大量的計算資源,為此,在性能和速度上往往讓人難以接受。

    在實踐應用過程中,科技文獻作者人名增量消歧的過程,是在已經(jīng)擁有一批消歧文獻數(shù)據(jù)基礎上進行的,其核心思路是快速、準確的將新增學術文獻分配給已有作者。傳統(tǒng)上,圖書館或科研管理機構在進行作者人名規(guī)范時,采用將人名與機構名相結合的方式進行作者分配,但受到機構名變更、簡稱重名等問題的干擾,分配結果仍需要大量的人工進行識別,使得這種方法不僅費時,準確率也無法保障。

    為實現(xiàn)增量式人名消歧,本文首先構建了兩個文獻集:現(xiàn)有作者檔案文獻集和新增學術文獻集。實驗步驟為:通過機器學習,從現(xiàn)有作者檔案文獻集中,計算出“作者—文獻”的特征向量模型,然后利用該模型對新增學術文獻進行匹配計算,將符合閾值的文獻分配給已有作者。如果新增文獻的作者不在現(xiàn)有作者檔案文獻集中,則新建其檔案,加入現(xiàn)有作者檔案文獻集。

    本文提出的融合文獻內容外部特征的人名增量式消歧方法實現(xiàn)流程如圖1所示。

    由圖1所示,本文的方法分成兩大過程,即:特征學習和增量式消歧。其中,特征學習是本文方法的核心,借助機器學習和深度學習的方法,從現(xiàn)有作者檔案文獻集中學習一個特征向量模型,步驟為:構建已明確作者歸屬的“作者-文獻”集,首先,生成正負樣本集,其中,正樣本集為正確歸屬文獻的數(shù)據(jù)集合,負樣本為非正確文獻歸屬的數(shù)據(jù)集合。對于負樣本集,本文以隨機方式,從現(xiàn)有已明確作者歸屬的文獻集中選取同名作者,并將作者對應的歸屬文獻進行隨機的錯亂重排;隨后,抽取正負樣本集中文獻的外部特征(見表1),并對文獻內部特征采用BERT模型計算向量;最后,將獲得的文獻外部特征與BERT獲得向量特征融合為一個特征序列,輸入XGBoost模型進行訓練。

    圖1 增量式人名消歧義方法流程圖

    對于增量式消歧部分,首先提取新增文獻的外部特征,并采用BERT模型對文獻內部特征進行向量計算,生成一個新增文獻特征序列,借助XGBoost訓練好的模型對新增學術文獻的特征序列進行分類計算,預測作者歸屬,將新增文獻分配給各種特征維度上最為相似的作者,進而完成增量式人名消歧。

    2.3學術文獻內部語義特征提取方法人名消歧方法常用論文的標題、關鍵詞以及論文合作者等作為文獻作者的研究方向,進而實現(xiàn)人名消歧[17]。關鍵詞和標題雖然可以反映論文的主題信息,但受限于關鍵詞的規(guī)范性以及主題粒度大小不一的問題,仍然無法完整地表達論文的核心思想。目前,一些研究已經(jīng)開始使用摘要作為消歧特征之一,具體做法是通過對摘要進行分詞和去停用詞等預處理后,抽取特征詞描述文獻的主題,其本質是將長文本信息轉換為詞的形式[8-9],一定程度上損失了語義信息。為此,本文選擇BERT語言模型,借助該模型對句子級別文本的語義表示能力,最大限度的保留摘要文本的上下文語義信息。

    BERT(Bidirectional Encoder Representations from Transformers)模型[20]是Google AI團隊在2018年開源的自然語言處理模型,該模型的主要特點是利用兩個方向的上下文信息獲得文本深層次的語義,是一種新的自然語言文本表征方法。相對于Word2Vec等其它廣泛使用的詞向量技術,BERT模型通過遮蔽語言模型(Masked Language Model)和下一句預測兩個預訓練任務,在大規(guī)模的語料集上進行無監(jiān)督的預訓練,再以預訓練模型為基礎,通過模型微調(Fine-tuning)實現(xiàn)下游文本語義分析任務。BERT預訓練模型在無監(jiān)督環(huán)境下,能夠學習到語料庫中的語言先驗知識,可以在標注語料稀缺的場景下完成訓練任務。在預訓練過程中,BERT結合了語料庫中的語言先驗知識,使得模型在文本特征的提取和表示方面明顯具備優(yōu)勢。在解決一詞多義問題方面,BERT模型通過詞匯間上下文關系,記錄了文獻中詞匯的語義信息,可以較好的解決不同語境下的詞義問題。

    2.4基于XGBoost的文獻匹配增量消歧可以認為是一個新增文獻與已有作者的匹配問題,其本質上是一種分類問題。為了實現(xiàn)新增文獻與已有作者的匹配,首先需要提取已經(jīng)明確了文獻與作者匹配關系的數(shù)據(jù)集的特征,借助機器學習方法,構建模型;隨后,提取新增文獻的特征,并將其輸入已構建好的模型中,通過計算,實現(xiàn)新增文獻與已有作者的匹配。

    本文選擇極端梯度提升算法XGBoost[21]進行特征計算,并構建模型。XGBoost是基于CART回歸樹的一種boosting集成算法,其核心思想是通過建立多棵回歸樹,使樣本預測盡可能接近樣本的真實值,在實踐中,算法具有一定的泛化能力。XGBoost算法在訓練大數(shù)量時,可以通過同層節(jié)點的并行化計算方式,提高計算效率。

    科技文獻元數(shù)據(jù)會有一些缺失值,如摘要和關鍵詞等,這就使得數(shù)據(jù)具有稀疏性。XGBoost模型在訓練數(shù)據(jù)時,首先對沒有缺失值的數(shù)據(jù)進行分裂,然后計算缺失值最佳的分裂方案,這使得該模型對缺失值并不敏感,具有較好地處理稀疏型數(shù)據(jù)的能力。

    為獲得更好的模型預測能力,本文在模型訓練時采用交叉驗證的形式提高消歧的效果。

    2.5方法評估本文使用加權F1 值 (weighted f1-score) 作為模型評估度量。

    對于單一作者的情況,模型的準確率、召回率和F1 值的計算規(guī)則如下:

    對于有多個作者的情況,其準確率為單一作者的準確率乘以單個作者的F1值。同理,多個作者的召回率和F1值均為單個作者的F1值加權后的結果。其計算方式如下:

    WeightedF1=

    3 實驗過程

    3.1樣本的構建本文以DBLP(https://dblp.uni-trier.de/db/)學術搜索平臺中的學術文獻數(shù)據(jù)集為實驗數(shù)據(jù),首先獲取論文數(shù)據(jù),并對其進行了預先的消歧和標注,實現(xiàn)“作者-文獻”的關聯(lián),構建現(xiàn)有作者檔案文獻集,為確保數(shù)據(jù)集的準確性,本文選取帶有ORCID的作者,構建“文獻-作者”數(shù)據(jù)集,作為學術文獻同名作者消歧的預訓練和效果檢驗。實驗數(shù)據(jù)如表2所示。

    表2 數(shù)據(jù)集概覽

    通過檢索,文本共獲取實際作者11 420個,共計107 002篇論文。由于存在同名情況,共獲得109個作者名。實驗中,本文選擇了全部作者的101 797篇論文作為模型訓練,并隨機選擇了1 542個實際作者的5 205篇論文作為測試集。

    如圖1所示,本文在模型訓練時,為提高模型的分類效果,將訓練集劃分為正、負兩個樣本集合。其中負樣本集的作用是提高模型的分類效果,負樣本集的生成流程如下所示:

    (1)選取訓練集中發(fā)表文獻數(shù)量大于6篇的作者,構建“作者-文獻”集合;

    (2)在“作者-文獻”集合中,隨機選取若干個同名作者的集合,并隨機抽取集合中每位作者20%的文獻,對這些文獻的作者與文獻隨機錯亂重排,形成負樣本。

    3.2數(shù)據(jù)預處理本文選擇科技文獻的元數(shù)據(jù)包括作者名、合作者、作者單位、期刊(會議)名、論文標題、發(fā)表時間、論文關鍵詞和摘要信息。由于科技文獻的來源不同,這些元數(shù)據(jù)的格式也不同,為此,在特征提取前,需要對其進行專門的處理。具體處理思路如下所示:

    a.機構名、期刊(會議)名。對于這些短文本數(shù)據(jù),本文采用常規(guī)的處理方法,首先去除文本中的特殊字符,并將所有內容轉換為小寫格式。

    b.作者名。由于不同文獻對作者名的格式要求不同,使得文獻集合中作者名存在多種格式,如作者“Wang Ping”,會存在“Wang P”“Ping Zhang”“WANG PING”等多種形式,為此,需要對其進行處理并統(tǒng)一格式。本文采用字典映射的方式對其進行處理,首先構建標準作者名格式,隨后將文獻中的作者名映射為標準格式。對于一些姓名前后顛倒的形式,本文采用統(tǒng)計字母個數(shù)的方式,對共現(xiàn)字符數(shù)相同的姓名進行規(guī)范格式的映射。通過人為檢測,字典映射方法基本可以準確的實現(xiàn)作者名的關聯(lián)。

    c.論文發(fā)表時間。發(fā)表時間預處理需要解決的問題是字段缺失和少量的錯誤數(shù)據(jù)。由于人為的錯誤,少數(shù)論文發(fā)表年份為錯誤數(shù)據(jù),如“2030年”。對于缺失數(shù)據(jù)和錯誤數(shù)據(jù),本文采用的策略是,如果該作者有多篇論文,則以該作者所有論文發(fā)表時間的中位數(shù)進行填充,如果該作者僅有一篇論文,則使用數(shù)據(jù)集中所有論文發(fā)表時間的中位數(shù)進行填充。

    d.論文標題和摘要信息。預處理的目的是降低文本的維度,主要采用詞形歸一化處理,使用NLTK工具進行了詞形還原。

    預處理完成后,每篇文獻形成如下數(shù)據(jù)表示:

    Article: {year, author, coauthor, orgs, title, venue, keywords, abstract}

    3.3文獻元數(shù)據(jù)的特征提取本文實現(xiàn)人名消歧,需要構建文獻內外部元數(shù)據(jù)的交叉特征集,具體的操作如下:

    a. 時間元數(shù)據(jù)的特征。時間是科技文獻的重要特征,可以反映作者的研究主題和特點??紤]到學者在一個連續(xù)時間內的研究成果具有一定相似性的特征,消歧模型構建時,本文采用了多個時間統(tǒng)計策略,具體為:

    year:{yeareraly,yearnewest,yearmean,yearstd,yearmedien}

    上述的統(tǒng)計策略分別表示某位作者發(fā)表第一篇文獻的時間,最新論文發(fā)表的時間,發(fā)表論文時間的均值、標準差和中位數(shù)。對于新增文獻,分別與同名作者的5個時間統(tǒng)計特征進行比對,計算時間序列上匹配程度。

    b. 作者、單位、期刊名等元數(shù)據(jù)的特征。本文發(fā)現(xiàn)這一類特征采用簡單的匹配方式就可獲得較好的效果,為此,本文在實驗中采用相等匹配和集合匹配兩種方法。

    相等匹配即為字符串完全相等。對于作者、期刊名等元數(shù)據(jù),通過規(guī)范化處理,對完全相同的元數(shù)據(jù)則認為匹配成功。

    集合匹配主要針對作者所在單位。由于作者單位元數(shù)據(jù)存在格式不一致的問題,在實驗中,本文發(fā)現(xiàn)有的作者單位是簡略的信息,而有些是非常完整的信息。如:簡略的形式為“*** University”,而完整的形式為“*** University *** Department,*** Street”。為此,實驗中,首先對作者單位元數(shù)據(jù)按照空格分詞,形成詞匯集;在匹配時,將新增文獻的作者單位與已有作者的單位進行比對,計算兩個集合交集與最短集合長度之間的比值,如果達到一定的閾值,則認為匹配成功。

    c. 文獻內部元數(shù)據(jù)的特征。人名消歧選取的文獻內部元數(shù)據(jù)包括:摘要、標題和關鍵字。為了更好地獲取這些元數(shù)據(jù)的語義特征,本文借助BERT模型將文獻的這些元數(shù)據(jù)轉換成一個帶有語義信息的向量。假設文獻a={ abstract, title, keywords },使用BERT模型將a轉換為向量va,則某位作者的文獻向量集合即為{va1,va2,…van},其中n為該作者的發(fā)文總量。對于新增文獻,其向量表示為vb,論文歸屬問題及轉換為vb和向量集合文獻的相似度計算。

    在構建文獻內部特征向量時,使用PyTorch深度學習框架實現(xiàn)的BERT模型(https://pypi.org/project/sentence-transformers/)來進行語義特征表示,實驗中,將元數(shù)據(jù)轉換為一個768維的數(shù)值型向量表示。在匹配計算時,關鍵字、標題和摘要分別轉化為5個統(tǒng)計特征,即最小值、最大值、均值、標準差和中位數(shù)。以摘要為例,圖2顯示了文獻a和文獻b的摘要經(jīng)過BERT語義向量表示后的結果。

    圖2 學術文獻摘要BERT語義向量表示

    圖3顯示了文獻a和文獻b的摘要相似度計算結果。

    圖3 學術文獻摘要相似度特征

    最后,將外部特征和內部特征融合后的結果輸入XGBoost進行模型訓練。

    3.4作者匹配根據(jù)上文對文獻內外部特征提取完成后,基于構建的正負樣本,本文使用XGBoost(https://pypi.org/project/xgboost/)模型完成特征的融合和作者匹配。

    具體匹配的步驟為,首先將樣本數(shù)據(jù)輸入XGBoost,通過調參,完成模型的訓練;隨后,對于新增文獻,先將新增文獻作者與現(xiàn)有作者進行匹配,獲得一些列同名作者;隨后采用XGBoost對新增文獻的特征與同名作者的文獻特征進行相似度計算;最后輸出匹配分數(shù)最高的作者ID作為新增文獻的所屬作者。

    3.5結果對比為了評估模型的效果,本文對比了多組實驗的結果,實驗具體設置如下:

    a.BERT語義特征和學術文獻基本特征的方法,本文方法。

    b.Word2Vec(使用gensim包完成)特征的SVM分類方法,簡化表示為 Word2Vec + SVM。

    c.Word2Vec特征的XGBoost分類方法,簡化表示為 Word2Vec + XGBoosts。

    d.對比文獻[17]提出的基于SDR的人名消歧方法。

    具體的實驗結果如表3所示。

    表3 增量消歧實驗結果

    從表3中幾種方法在測試集上的指標數(shù)值可見,本文提出的方法表現(xiàn)出較好的效果, F1取得了95.6%的分值,高于其他模型的性能表現(xiàn)。相比于基于Word2vec+XGBoost的方法,本文方法提高了約7%,相比于Word2vec+SVM的方案,本文方法提高了約6%。

    此外,對比文獻[17]的實驗結果,雖然基于SDR方法的準確值更高,但是召回率和F1值方面來看,本文的方法更優(yōu)。且文獻[17]采用的是數(shù)據(jù)量小(實驗數(shù)據(jù)為19個作者的88篇論文),因此從總體上來看,本文方法具有一定的合理性。

    4 結 語

    增量消歧,需要快速且準確地將文獻分配給系統(tǒng)中已有作者,這是學術文獻數(shù)據(jù)庫在進行更新時最亟待解決的問題。本文提出了一種融合多特征的相似度匹配方法實現(xiàn)增量式人名消歧研究,借助BERT自然語言處理模型和XGBoost分類模型進行相似度匹配,將新增文獻分配給相似度得分最高的作者。通過實驗對比,本文方法獲得了較好的增量式人名消歧效果。

    然而,該文的研究也存在一些改進的地方,如:

    a.本文選取了科技文獻的多個元數(shù)據(jù),形成了多特征融合的消歧模型,但在實際應用中,如何設定每個特征的權重值,合理分配外部特征匹配和內部語義特征所占的比重,進一步提高模型的準確率,是實踐應用中需要解決的問題。

    b.本研究僅限于對英文語言的學術文獻作者同名消歧,對跨語言的同名作者消歧并未涉略。因為不同語言之間的名字形式不一致,跨語言學術文獻同名作者消歧更具有挑戰(zhàn),同時也是進行多來源學術文獻組織和管理的難題,今后會對這方面逐步開展研究。

    啦啦啦观看免费观看视频高清| 欧美成人性av电影在线观看| 99在线人妻在线中文字幕| av欧美777| 一级a爱片免费观看的视频| 亚洲欧美日韩无卡精品| av在线观看视频网站免费| 大型黄色视频在线免费观看| 两个人的视频大全免费| 国产高清视频在线播放一区| 亚洲第一区二区三区不卡| 中文亚洲av片在线观看爽| 91字幕亚洲| 又粗又爽又猛毛片免费看| 久久精品人妻少妇| 亚洲成人久久性| 91久久精品电影网| 国产免费一级a男人的天堂| ponron亚洲| 日韩欧美 国产精品| 国产精品一区二区性色av| 一级黄色大片毛片| 一级黄色大片毛片| 婷婷精品国产亚洲av| 黄色日韩在线| 看十八女毛片水多多多| 又黄又爽又免费观看的视频| 黄色一级大片看看| 成人国产综合亚洲| 国产黄片美女视频| 成年版毛片免费区| 婷婷精品国产亚洲av| 搡老熟女国产l中国老女人| 国产精品不卡视频一区二区 | 波野结衣二区三区在线| 婷婷亚洲欧美| 欧美日韩瑟瑟在线播放| 老熟妇乱子伦视频在线观看| 精品福利观看| 变态另类成人亚洲欧美熟女| 久久香蕉精品热| 麻豆成人av在线观看| 黄色一级大片看看| 国产精品1区2区在线观看.| 国产精品1区2区在线观看.| 欧美日韩黄片免| 国产高潮美女av| 嫩草影视91久久| 亚洲成人精品中文字幕电影| 日本 av在线| 丰满人妻一区二区三区视频av| 久久精品影院6| 嫩草影院精品99| 亚洲av一区综合| 精品免费久久久久久久清纯| 男女视频在线观看网站免费| 啪啪无遮挡十八禁网站| 国产精品久久视频播放| 18禁裸乳无遮挡免费网站照片| 午夜精品在线福利| 精品无人区乱码1区二区| 女人被狂操c到高潮| 特大巨黑吊av在线直播| 又爽又黄a免费视频| 看免费av毛片| 亚洲成av人片在线播放无| 看十八女毛片水多多多| 永久网站在线| 久久热精品热| 人人妻,人人澡人人爽秒播| 丁香欧美五月| 99热只有精品国产| 国产一区二区亚洲精品在线观看| 俄罗斯特黄特色一大片| 久久6这里有精品| 性插视频无遮挡在线免费观看| 欧美成狂野欧美在线观看| 中文字幕精品亚洲无线码一区| 在线看三级毛片| 婷婷丁香在线五月| 午夜久久久久精精品| 国产伦精品一区二区三区四那| 免费av观看视频| 成人高潮视频无遮挡免费网站| 九九在线视频观看精品| 午夜影院日韩av| 欧美bdsm另类| 国产精品,欧美在线| 又粗又爽又猛毛片免费看| 欧美xxxx黑人xx丫x性爽| 97超级碰碰碰精品色视频在线观看| 夜夜躁狠狠躁天天躁| 日韩大尺度精品在线看网址| 成年免费大片在线观看| 老司机午夜福利在线观看视频| 如何舔出高潮| 黄色丝袜av网址大全| 午夜精品一区二区三区免费看| 麻豆一二三区av精品| 国产精品乱码一区二三区的特点| 一级黄色大片毛片| 亚洲成人久久性| 深夜a级毛片| 亚洲综合色惰| 变态另类丝袜制服| 极品教师在线免费播放| 欧美成人a在线观看| 国产亚洲精品久久久com| 少妇人妻精品综合一区二区 | 身体一侧抽搐| 在线观看66精品国产| 成人毛片a级毛片在线播放| 日本五十路高清| 亚洲成人中文字幕在线播放| 91麻豆精品激情在线观看国产| 女生性感内裤真人,穿戴方法视频| 一个人免费在线观看电影| 啪啪无遮挡十八禁网站| 在现免费观看毛片| 99热这里只有是精品在线观看 | 亚洲自拍偷在线| 久久亚洲精品不卡| 波多野结衣高清作品| 在线观看美女被高潮喷水网站 | 精品久久久久久久久久免费视频| 日韩欧美在线乱码| 久久香蕉精品热| av中文乱码字幕在线| 国产欧美日韩精品亚洲av| 噜噜噜噜噜久久久久久91| 丰满乱子伦码专区| 婷婷精品国产亚洲av在线| 热99在线观看视频| 深爱激情五月婷婷| 亚洲成av人片免费观看| 久久久国产成人精品二区| 亚洲不卡免费看| 欧美潮喷喷水| 亚洲中文字幕一区二区三区有码在线看| 国产真实伦视频高清在线观看 | 97超视频在线观看视频| 成人特级av手机在线观看| 亚洲av熟女| 一边摸一边抽搐一进一小说| 欧美色视频一区免费| 极品教师在线视频| 国产在线精品亚洲第一网站| 国产精品不卡视频一区二区 | 国产伦人伦偷精品视频| 久久天躁狠狠躁夜夜2o2o| bbb黄色大片| 国产精品久久电影中文字幕| 又黄又爽又刺激的免费视频.| 亚洲成av人片在线播放无| 国产精品98久久久久久宅男小说| 久久久久久九九精品二区国产| 精品久久久久久,| 亚洲熟妇中文字幕五十中出| 超碰av人人做人人爽久久| 欧美色视频一区免费| 99久国产av精品| 久久久精品大字幕| 两性午夜刺激爽爽歪歪视频在线观看| 国产探花极品一区二区| 不卡一级毛片| 国产真实伦视频高清在线观看 | 天堂动漫精品| 亚洲五月天丁香| bbb黄色大片| 国产又黄又爽又无遮挡在线| 国产免费男女视频| 亚洲成人久久性| 他把我摸到了高潮在线观看| 国产精品自产拍在线观看55亚洲| 亚洲av熟女| 99精品久久久久人妻精品| 免费黄网站久久成人精品 | 综合色av麻豆| 久久性视频一级片| 色av中文字幕| 亚洲午夜理论影院| 国产高潮美女av| 高清日韩中文字幕在线| 在线观看美女被高潮喷水网站 | 亚洲欧美日韩高清在线视频| 欧美精品啪啪一区二区三区| 国内少妇人妻偷人精品xxx网站| 热99在线观看视频| 久久久久久国产a免费观看| 午夜福利在线观看吧| 国产亚洲欧美98| 欧美潮喷喷水| 国产午夜福利久久久久久| 99久久精品热视频| 99国产精品一区二区蜜桃av| 国产淫片久久久久久久久 | 国产黄片美女视频| 精品人妻视频免费看| 国产精品日韩av在线免费观看| 一边摸一边抽搐一进一小说| 人妻久久中文字幕网| 欧美日本视频| av天堂在线播放| 宅男免费午夜| 欧美xxxx黑人xx丫x性爽| 日本三级黄在线观看| 内射极品少妇av片p| 国产真实伦视频高清在线观看 | 免费大片18禁| 国产中年淑女户外野战色| 精品一区二区三区av网在线观看| 一个人看的www免费观看视频| 日本与韩国留学比较| 久久久久久久午夜电影| 简卡轻食公司| 久久久精品大字幕| 国产毛片a区久久久久| 精华霜和精华液先用哪个| 亚洲内射少妇av| 精品人妻视频免费看| 免费看美女性在线毛片视频| 性插视频无遮挡在线免费观看| 亚洲欧美精品综合久久99| 看黄色毛片网站| 欧美激情国产日韩精品一区| 不卡一级毛片| 久久精品久久久久久噜噜老黄 | 欧美色欧美亚洲另类二区| 又爽又黄无遮挡网站| 免费一级毛片在线播放高清视频| 欧美+日韩+精品| 欧美高清成人免费视频www| 精品一区二区三区视频在线观看免费| 午夜两性在线视频| av中文乱码字幕在线| 日韩欧美精品v在线| 亚洲av日韩精品久久久久久密| 在线观看美女被高潮喷水网站 | 欧美黑人巨大hd| 禁无遮挡网站| 极品教师在线视频| 久久精品国产亚洲av天美| 高潮久久久久久久久久久不卡| 国产精品99久久久久久久久| 成年女人看的毛片在线观看| 丰满的人妻完整版| 女生性感内裤真人,穿戴方法视频| 日日干狠狠操夜夜爽| 精品欧美国产一区二区三| 99热这里只有是精品在线观看 | 国产精品久久久久久亚洲av鲁大| 欧美bdsm另类| 亚洲熟妇中文字幕五十中出| 国产亚洲av嫩草精品影院| 久久久国产成人免费| 色视频www国产| 老女人水多毛片| 国产成+人综合+亚洲专区| 欧美一区二区精品小视频在线| 亚洲激情在线av| 日日干狠狠操夜夜爽| 久久午夜亚洲精品久久| 久久99热6这里只有精品| 日韩亚洲欧美综合| 久9热在线精品视频| 首页视频小说图片口味搜索| 国产又黄又爽又无遮挡在线| 757午夜福利合集在线观看| 精品人妻偷拍中文字幕| 亚洲欧美日韩无卡精品| 精品午夜福利在线看| 一本一本综合久久| 亚洲第一欧美日韩一区二区三区| 欧美日本视频| 欧美日韩黄片免| 亚洲国产欧美人成| 三级毛片av免费| 午夜久久久久精精品| 熟女电影av网| 亚洲av免费在线观看| 欧美在线一区亚洲| 亚洲国产精品久久男人天堂| 欧美最黄视频在线播放免费| av天堂中文字幕网| 日韩精品青青久久久久久| 久久这里只有精品中国| 欧美性猛交╳xxx乱大交人| 禁无遮挡网站| 日韩欧美在线二视频| 国产精品1区2区在线观看.| 91午夜精品亚洲一区二区三区 | 国产精品一区二区性色av| 精品久久久久久,| 18禁在线播放成人免费| 俺也久久电影网| 国产综合懂色| 亚洲午夜理论影院| 欧美日韩综合久久久久久 | 久久精品国产99精品国产亚洲性色| 久久人妻av系列| 免费在线观看日本一区| 国产aⅴ精品一区二区三区波| 欧美激情国产日韩精品一区| 亚洲精品亚洲一区二区| 男人舔女人下体高潮全视频| 69av精品久久久久久| 精品熟女少妇八av免费久了| 久久久久精品国产欧美久久久| 亚洲国产精品合色在线| 亚洲国产精品sss在线观看| 国产av不卡久久| 亚洲五月婷婷丁香| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 国产麻豆成人av免费视频| 午夜福利成人在线免费观看| 内射极品少妇av片p| 波多野结衣高清无吗| 精品国产三级普通话版| 欧美在线一区亚洲| 欧美xxxx性猛交bbbb| 成人美女网站在线观看视频| 欧美日韩瑟瑟在线播放| 麻豆国产av国片精品| 99热这里只有是精品在线观看 | 欧美在线黄色| 十八禁网站免费在线| 精品免费久久久久久久清纯| 欧美日韩亚洲国产一区二区在线观看| 波多野结衣巨乳人妻| 日本成人三级电影网站| 2021天堂中文幕一二区在线观| 制服丝袜大香蕉在线| 老司机午夜十八禁免费视频| 特大巨黑吊av在线直播| 免费看光身美女| 色噜噜av男人的天堂激情| 波多野结衣高清作品| 男插女下体视频免费在线播放| 一级作爱视频免费观看| 在线国产一区二区在线| 欧美最新免费一区二区三区 | 午夜a级毛片| 亚洲av电影在线进入| 免费在线观看成人毛片| 欧美日本视频| 久久精品91蜜桃| 日韩欧美一区二区三区在线观看| 色精品久久人妻99蜜桃| 亚洲久久久久久中文字幕| 欧美日本视频| 少妇人妻一区二区三区视频| 90打野战视频偷拍视频| 成人av在线播放网站| 国产 一区 欧美 日韩| 1000部很黄的大片| 男人舔女人下体高潮全视频| 精品免费久久久久久久清纯| 亚洲成a人片在线一区二区| 国产精品99久久久久久久久| 人人妻人人澡欧美一区二区| 国产一区二区激情短视频| 日韩高清综合在线| 日韩欧美在线乱码| 精品人妻偷拍中文字幕| 欧美一区二区国产精品久久精品| 在现免费观看毛片| 国产熟女xx| 成人毛片a级毛片在线播放| 国产黄a三级三级三级人| 亚洲国产色片| 在线播放无遮挡| 国产精品久久久久久久电影| 少妇被粗大猛烈的视频| 毛片一级片免费看久久久久 | 免费av毛片视频| 欧美成人a在线观看| 精品一区二区三区av网在线观看| 亚洲av二区三区四区| 中文资源天堂在线| 欧美日韩国产亚洲二区| 日韩精品青青久久久久久| 哪里可以看免费的av片| 99久久精品国产亚洲精品| .国产精品久久| 亚洲国产欧美人成| 很黄的视频免费| 成年版毛片免费区| www日本黄色视频网| 午夜福利视频1000在线观看| 欧美高清成人免费视频www| 亚洲美女视频黄频| 能在线免费观看的黄片| 久久久精品大字幕| 亚洲真实伦在线观看| 国产亚洲欧美在线一区二区| 欧美成狂野欧美在线观看| 丰满人妻熟妇乱又伦精品不卡| 亚洲一区二区三区色噜噜| 亚洲国产欧美人成| 91麻豆av在线| 亚洲一区二区三区不卡视频| 国产精品久久久久久亚洲av鲁大| 精品久久国产蜜桃| 亚洲第一欧美日韩一区二区三区| 91狼人影院| 黄色女人牲交| 国产精品久久视频播放| 在线国产一区二区在线| 国产精品影院久久| 在线观看美女被高潮喷水网站 | 久久久久久久精品吃奶| 精品人妻一区二区三区麻豆 | 国产白丝娇喘喷水9色精品| 97人妻精品一区二区三区麻豆| 日日干狠狠操夜夜爽| 亚洲在线自拍视频| 一区二区三区高清视频在线| АⅤ资源中文在线天堂| 色精品久久人妻99蜜桃| 真人做人爱边吃奶动态| 波多野结衣高清无吗| 精品久久国产蜜桃| 欧美色视频一区免费| 国产毛片a区久久久久| 一区福利在线观看| 夜夜爽天天搞| 99热这里只有精品一区| 不卡一级毛片| 国产精品一区二区三区四区久久| 午夜精品在线福利| 国产色爽女视频免费观看| 免费看a级黄色片| 亚洲av日韩精品久久久久久密| 国产视频内射| h日本视频在线播放| 欧美黑人欧美精品刺激| 精品熟女少妇八av免费久了| 男女那种视频在线观看| 国产爱豆传媒在线观看| 欧美成人性av电影在线观看| 特大巨黑吊av在线直播| 午夜福利在线观看免费完整高清在 | 天美传媒精品一区二区| 亚洲国产精品合色在线| 日韩中字成人| 免费人成视频x8x8入口观看| 亚洲av中文字字幕乱码综合| 最好的美女福利视频网| 欧美成人一区二区免费高清观看| 99热精品在线国产| 黄色日韩在线| 麻豆国产97在线/欧美| 内地一区二区视频在线| 在线天堂最新版资源| 乱人视频在线观看| 日日夜夜操网爽| 中文字幕人成人乱码亚洲影| 麻豆国产av国片精品| 性色avwww在线观看| 男女那种视频在线观看| 欧美一区二区精品小视频在线| 欧美成人a在线观看| 亚洲美女搞黄在线观看 | 他把我摸到了高潮在线观看| 久久性视频一级片| 成人高潮视频无遮挡免费网站| 久久精品久久久久久噜噜老黄 | 高潮久久久久久久久久久不卡| 村上凉子中文字幕在线| 国产伦人伦偷精品视频| 老女人水多毛片| 18禁黄网站禁片免费观看直播| 天天躁日日操中文字幕| 99久久成人亚洲精品观看| 午夜福利高清视频| 亚洲欧美清纯卡通| 99热精品在线国产| 精品人妻视频免费看| 麻豆成人午夜福利视频| 亚洲av中文字字幕乱码综合| 一区福利在线观看| 18禁裸乳无遮挡免费网站照片| 免费人成在线观看视频色| 亚洲美女黄片视频| a级毛片a级免费在线| 久久久精品大字幕| 美女免费视频网站| 99在线视频只有这里精品首页| 亚洲成人免费电影在线观看| 欧美黑人欧美精品刺激| 首页视频小说图片口味搜索| 国产一级毛片七仙女欲春2| 噜噜噜噜噜久久久久久91| 老司机午夜福利在线观看视频| 亚洲经典国产精华液单 | 91麻豆av在线| 麻豆成人av在线观看| 一区二区三区四区激情视频 | 91字幕亚洲| 欧美黑人欧美精品刺激| 精品日产1卡2卡| 亚洲电影在线观看av| 国产欧美日韩精品亚洲av| 国产成人av教育| 久久国产精品影院| 国产欧美日韩精品亚洲av| 国产又黄又爽又无遮挡在线| 国产一区二区三区视频了| 亚洲狠狠婷婷综合久久图片| 欧洲精品卡2卡3卡4卡5卡区| 丁香欧美五月| 欧美成狂野欧美在线观看| 国产在线精品亚洲第一网站| 国产精品av视频在线免费观看| 在现免费观看毛片| 熟妇人妻久久中文字幕3abv| 欧美黑人欧美精品刺激| 国内久久婷婷六月综合欲色啪| 老熟妇仑乱视频hdxx| 听说在线观看完整版免费高清| 可以在线观看毛片的网站| av欧美777| 好男人在线观看高清免费视频| 麻豆一二三区av精品| 亚洲片人在线观看| 十八禁人妻一区二区| 日日摸夜夜添夜夜添小说| 国产精品一区二区三区四区久久| 欧美另类亚洲清纯唯美| 97碰自拍视频| 久久久国产成人免费| 婷婷亚洲欧美| av在线天堂中文字幕| 免费av观看视频| 国产精品av视频在线免费观看| 国产人妻一区二区三区在| 国产精品久久久久久久电影| 一个人免费在线观看电影| 又黄又爽又刺激的免费视频.| 日韩免费av在线播放| 国产伦人伦偷精品视频| 老司机午夜福利在线观看视频| 日韩中文字幕欧美一区二区| 性色av乱码一区二区三区2| 啦啦啦观看免费观看视频高清| 亚洲av成人不卡在线观看播放网| 久久久久国内视频| 国产熟女xx| 精品乱码久久久久久99久播| 一本精品99久久精品77| 免费看a级黄色片| 在线看三级毛片| 在线观看66精品国产| 狠狠狠狠99中文字幕| 亚洲三级黄色毛片| 亚洲国产精品sss在线观看| 嫁个100分男人电影在线观看| 啦啦啦观看免费观看视频高清| 久久亚洲精品不卡| 桃红色精品国产亚洲av| 亚洲av电影不卡..在线观看| 欧美日本视频| 每晚都被弄得嗷嗷叫到高潮| 国产黄a三级三级三级人| 久久久国产成人免费| 色综合欧美亚洲国产小说| 亚洲三级黄色毛片| 搡老岳熟女国产| 老司机午夜十八禁免费视频| 白带黄色成豆腐渣| 国内毛片毛片毛片毛片毛片| 啦啦啦韩国在线观看视频| 女生性感内裤真人,穿戴方法视频| 国产综合懂色| 国产一区二区在线观看日韩| 亚洲精品456在线播放app | 少妇人妻精品综合一区二区 | 色视频www国产| 女同久久另类99精品国产91| 99国产精品一区二区蜜桃av| 久久久久国产精品人妻aⅴ院| АⅤ资源中文在线天堂| 亚洲男人的天堂狠狠| 亚洲专区中文字幕在线| 无人区码免费观看不卡| 国产精品亚洲一级av第二区| 亚洲黑人精品在线| 亚洲精品一卡2卡三卡4卡5卡| 国产一区二区三区在线臀色熟女| 国产色爽女视频免费观看| 国产成年人精品一区二区| av黄色大香蕉| 3wmmmm亚洲av在线观看| 亚洲国产精品久久男人天堂| 亚洲精品一区av在线观看| 别揉我奶头~嗯~啊~动态视频| 黄色一级大片看看| 国产成人福利小说| 成人美女网站在线观看视频| 在线观看一区二区三区| 又爽又黄a免费视频| 亚洲激情在线av| 亚洲三级黄色毛片| 一进一出好大好爽视频| 成人鲁丝片一二三区免费| 91av网一区二区| 很黄的视频免费| 三级国产精品欧美在线观看| 亚洲人与动物交配视频| 亚洲精品在线美女| 免费人成视频x8x8入口观看| 国产老妇女一区| 18美女黄网站色大片免费观看| 人妻制服诱惑在线中文字幕| 亚洲黑人精品在线|