• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    USPTO專利發(fā)明人重名辨識(shí)方法綜述

    2018-03-03 05:51:34于永勝韓紅旗
    天津科技 2018年2期
    關(guān)鍵詞:發(fā)明人姓名指紋

    于永勝,董 誠(chéng),韓紅旗,李 仲

    (中國(guó)科學(xué)技術(shù)信息研究所 北京100038)

    0 引 言

    專利數(shù)據(jù)具有重要的科研應(yīng)用價(jià)值。專利數(shù)據(jù)集技術(shù)情報(bào)、法律情報(bào)和經(jīng)濟(jì)情報(bào)于一體[1],是一種重要的競(jìng)爭(zhēng)情報(bào)信息分析來源,它還可以用于發(fā)明人遷移[2]、創(chuàng)新經(jīng)濟(jì)[3]和創(chuàng)新合作網(wǎng)絡(luò)影響力分析[4]等研究領(lǐng)域。

    嚴(yán)重的專利發(fā)明人重名現(xiàn)象影響著專利數(shù)據(jù)的科研應(yīng)用。美國(guó)專利商標(biāo)局(USPTO)一直沒給專利發(fā)明人或?qū)@麢?quán)人分配一個(gè)獨(dú)一無二的身份識(shí)別號(hào),隨著專利文獻(xiàn)數(shù)量越來越多,具有同名或近似名的專利發(fā)明人重名現(xiàn)象因?yàn)樾彰s寫、中間名缺失、拼寫錯(cuò)誤等原因更加嚴(yán)重,該現(xiàn)象給專利數(shù)據(jù)在技術(shù)應(yīng)用和科學(xué)研究等領(lǐng)域的應(yīng)用造成很大阻礙[5]。

    本研究將造成專利發(fā)明人重名辨識(shí)越來越困難的原因歸納為 4類:①專利數(shù)據(jù)規(guī)模龐大,現(xiàn)有專利發(fā)明人重名辨識(shí)方法計(jì)算成本太高。USPTO在2013年就擁有超過800萬件專利和3,200萬億對(duì)記錄,這使得人工處理方法不再可行,現(xiàn)有專利發(fā)明人重名辨識(shí)方法計(jì)算成本太高[6]。②專利發(fā)明人姓名存在縮寫、后綴、拼寫錯(cuò)誤、中間名缺失等情況,增加了發(fā)明人重名辨識(shí)難度。在美國(guó)專利中,專利發(fā)明人中間名缺失率為 51.10%,[7]。③USPTO專利發(fā)明人大量使用常用名,如:John Smith。根據(jù)統(tǒng)計(jì),美國(guó)約有16.4%,的人口使用常用名,數(shù)量約為5,271萬人[8]。④學(xué)科領(lǐng)域信息不能有效區(qū)分重名專利發(fā)明人。USPTO專利大多為合作發(fā)明且跨學(xué)科領(lǐng)域,這使得學(xué)科領(lǐng)域不能作為區(qū)分重名發(fā)明人的主要依據(jù),增加了專利發(fā)明人重名辨識(shí)的難度[9]。

    專利發(fā)明人重名辨識(shí)方法是為解決上述現(xiàn)象而提出的,其目的是促進(jìn)專利數(shù)據(jù)在科研和情報(bào)分析領(lǐng)域的應(yīng)用[10]。這類方法根據(jù)專利發(fā)明人記錄的成對(duì)比較結(jié)果,區(qū)分專利數(shù)據(jù)庫中具有相同或相近姓名的發(fā)明人,并將每個(gè)發(fā)明人與其專利對(duì)應(yīng)起來。

    現(xiàn)有的專利發(fā)明人重名辨識(shí)方法主要包括:基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)生物方法。基于規(guī)則的方法穩(wěn)定性差,不能有效適應(yīng)不同的專利發(fā)明人重名辨識(shí)環(huán)境;基于機(jī)器學(xué)習(xí)的方法能夠較好適應(yīng)不同的專利發(fā)明人重名辨識(shí)環(huán)境,并具有較好的重名辨識(shí)效果,但該方法在大規(guī)模專利數(shù)據(jù)集上運(yùn)行時(shí)間成本較高[11]。

    1 姓名歧義性

    姓名歧義性是指不同來源的實(shí)體對(duì)象共用同一個(gè)姓名,尤其是在整合不同的網(wǎng)頁和數(shù)據(jù)庫時(shí),姓名歧義現(xiàn)象會(huì)因姓名縮寫或假名等更加嚴(yán)重,造成數(shù)據(jù)庫檢索結(jié)果不準(zhǔn)確[9]。專利發(fā)明人姓名歧義是指當(dāng)數(shù)據(jù)庫查詢或關(guān)聯(lián)某個(gè)發(fā)明人的專利時(shí),往往會(huì)將所有同名發(fā)明人的專利返回或?qū)⒛硞€(gè)發(fā)明人與其他發(fā)明人的專利相連接,使得基于專利發(fā)明人的科研技術(shù)研究結(jié)果出現(xiàn)偏差。

    USPTO專利發(fā)明人重名辨識(shí)方法研究,來源于國(guó)家科技支撐計(jì)劃課題“面向科技情報(bào)分析的信息服務(wù)系統(tǒng)研發(fā)與應(yīng)用示范”項(xiàng)目研究計(jì)劃。該項(xiàng)目通過構(gòu)建專利發(fā)明人科研合作網(wǎng)絡(luò),進(jìn)行創(chuàng)新團(tuán)隊(duì)競(jìng)爭(zhēng)與合作關(guān)系挖掘,而專利發(fā)明人重名辨識(shí)是該項(xiàng)目中的一項(xiàng)基礎(chǔ)研究。

    2 重名辨識(shí)方法研究現(xiàn)狀

    本研究主要介紹專利發(fā)明人重名辨識(shí)方法研究現(xiàn)狀,對(duì)現(xiàn)有的研究方法進(jìn)行分析,主要包括:基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法、基于語義指紋的方法和基于唯一標(biāo)識(shí)的方法。

    2.1 專利發(fā)明人重名辨識(shí)方法分類

    專利發(fā)明人重名辨識(shí)方法是記錄連接方法(Record Linkage)在專利領(lǐng)域中的子應(yīng)用[10]。1969年,F(xiàn)ellegi和 Sunter[12]基于單一數(shù)據(jù)源中記錄屬于單一個(gè)體的假設(shè),提出了第一個(gè)用于記錄連接的數(shù)學(xué)統(tǒng)計(jì)模型。而發(fā)明人重名辨識(shí)方法主要用于區(qū)分專利數(shù)據(jù)庫中同名而不同發(fā)明的人的專利。

    本研究具體方法分類如圖1所示。

    圖1 專利發(fā)明人重名辨識(shí)方法分類Fig.1 Classification of name disambiguation methods for patent inventors

    2.2 基于規(guī)則的專利發(fā)明人重名辨識(shí)方法

    基于規(guī)則的專利發(fā)明人重名辨識(shí)方法包括基于規(guī)則和閾值的重名辨識(shí)方法、基于相似度打分表的重名辨識(shí)方法,主要依據(jù)人為設(shè)置的規(guī)則、閾值或相似度分值,來進(jìn)行專利發(fā)明人記錄的成對(duì)比較,判斷兩個(gè)同名專利發(fā)明人是否屬于同一個(gè)人。

    2.2.1 基于規(guī)則和閾值的重名辨識(shí)方法

    Singh[13]根據(jù)從專利數(shù)據(jù)中抽取發(fā)明人姓和地區(qū)字段,利用if-else判定規(guī)則和字符串精確匹配來判定專利發(fā)明人記錄對(duì)是否正確匹配。Fleming[4]通過專利發(fā)明人的專利權(quán)人和地區(qū)合并字段,利用“if-elsethen”匹配規(guī)則和字符串精確匹配進(jìn)行發(fā)明人重名辨識(shí),然后通過一個(gè)預(yù)設(shè)的閾值,判斷兩條專利發(fā)明人記錄是否屬于同一個(gè)人。Milojevi[14]在模擬的題錄數(shù)據(jù)庫中,利用專利發(fā)明人姓(last name)和名的首字母(initial of last name)代替其他字段進(jìn)行專利發(fā)明人重名辨識(shí),獲得的專利發(fā)明人姓名識(shí)別結(jié)果更加準(zhǔn)確。Morrison[15]提出了一套基于高分辨率地理位置的專利權(quán)人和專利發(fā)明人重名辨識(shí)方法,該方法主要針對(duì)歐洲專利數(shù)據(jù),將歐洲專利數(shù)據(jù)中的地理街道位置轉(zhuǎn)化成經(jīng)緯度進(jìn)行相似發(fā)明人或?qū)@麢?quán)人姓名聚類,然后通過制定規(guī)則和編輯距離閾值進(jìn)行專利發(fā)明人重名辨識(shí)。

    2.2.2 基于相似度打分表的重名辨識(shí)方法

    基于相似度打分表的專利發(fā)明人重名辨識(shí)方法是介于規(guī)則方法和無監(jiān)督學(xué)習(xí)方法之間的一種方法,該方法通過人為制定專利發(fā)明人比較字段的相似度打分表,計(jì)算兩條專利發(fā)明人記錄的相似度分值,然后通過一個(gè)預(yù)設(shè)的閾值判斷這兩條發(fā)明人記錄是否屬于同一個(gè)人。Miguelez[3]通過桑迪克斯編碼系統(tǒng)(Soundex-code)對(duì)專利發(fā)明人姓名進(jìn)行重新編碼以聚集相似的發(fā)明人姓名,然后用相似度打分表計(jì)算每對(duì)專利發(fā)明人的相似度分值并判斷其是否匹配。Pezzoni等[16]采用基于編輯距離的詞牌方法將專利發(fā)明人相似姓名分組,然后根據(jù)相似度打分表計(jì)算發(fā)明人記錄對(duì)的相似度分值,并進(jìn)行閾值判斷。

    2.3 基于機(jī)器學(xué)習(xí)的專利發(fā)明人重名辨識(shí)方法

    機(jī)器學(xué)習(xí)是指利用統(tǒng)計(jì)學(xué)原理,讓計(jì)算機(jī)模擬人類思維,根據(jù)對(duì)以往數(shù)據(jù)或經(jīng)驗(yàn)的學(xué)習(xí),達(dá)到替人進(jìn)行數(shù)據(jù)處理和分析的目的[17]。

    目前,基于機(jī)器學(xué)習(xí)的專利發(fā)明人重名辨識(shí)方法主要包括 3個(gè)階段:數(shù)據(jù)處理階段、匹配階段和過濾階段[3,16,18]。數(shù)據(jù)處理階段,主要包括停用詞過濾、字母小寫轉(zhuǎn)化、專利發(fā)明人字段拆分、噪音數(shù)據(jù)刪除等,為專利發(fā)明人重名辨識(shí)準(zhǔn)備好結(jié)構(gòu)化數(shù)據(jù);匹配階段是專利發(fā)明人重名辨識(shí)方法的核心,是指通過機(jī)器學(xué)習(xí)方法判斷專利發(fā)明人記錄對(duì)是否屬于同一個(gè)人或者計(jì)算專利發(fā)明人記錄對(duì)的相似度分值,為過濾階段的相似發(fā)明人聚類做準(zhǔn)備;過濾階段,通常根據(jù)參數(shù)估計(jì)獲得的閾值,利用聚類算法區(qū)分存在姓名歧義的專利發(fā)明人。

    2.3.1 基于無監(jiān)督學(xué)習(xí)的重名辨識(shí)方法

    基于無監(jiān)督學(xué)習(xí)的專利發(fā)明人重名辨識(shí)方法根據(jù)相似度計(jì)算方法在無標(biāo)簽訓(xùn)練數(shù)據(jù)集中進(jìn)行聚類,將低于相似度閾值或距離的專利發(fā)明人記錄對(duì)作為相似發(fā)明人,根據(jù)相似度計(jì)算方法不同,聚類算法可以分為距離聚類、原型聚類、密度聚類和層次聚類。Nicolas[19]使用無監(jiān)督貝葉斯方法在歐洲專利數(shù)據(jù)集上識(shí)別獨(dú)特發(fā)明人,該方法創(chuàng)新之處在于,它將專利發(fā)明人重名辨識(shí)表示為一個(gè)相似度概率模型,即用相似度概率表征每對(duì)專利發(fā)明人記錄間的相似程度。朱亮亮[20]利用改進(jìn)的 k-means算法進(jìn)行文獻(xiàn)著者姓名消歧,根據(jù)最大最小原則選取初始聚類中心,克服了傳統(tǒng) k-means聚類算法隨機(jī)選擇初始聚類中心可能會(huì)導(dǎo)致局部收斂的問題。

    2.3.2 基于半監(jiān)督學(xué)習(xí)的重名辨識(shí)方法

    基于半監(jiān)督學(xué)習(xí)的專利發(fā)明人重名辨識(shí)方法通常使用小數(shù)據(jù)量標(biāo)簽數(shù)據(jù)集和大數(shù)據(jù)量無標(biāo)簽數(shù)據(jù)集來訓(xùn)練模型,用于判斷專利發(fā)明人記錄對(duì)是否屬于相同實(shí)體。Torvik和 Smalheiser[21]通過將數(shù)學(xué)統(tǒng)計(jì)概念引入到MEDLINE數(shù)據(jù)庫作者姓名消歧中,獲得了一批準(zhǔn)確度較高的人造標(biāo)簽數(shù)據(jù),可以用于訓(xùn)練分類模型,然后在貝葉斯框架下使用邏輯回歸預(yù)測(cè)MEDLINE作者記錄對(duì)是否正確匹配。其意義在于可以通過統(tǒng)計(jì)獲得準(zhǔn)確度較高的人造標(biāo)簽數(shù)據(jù)集,解決了監(jiān)督學(xué)習(xí)方法中分類器訓(xùn)練數(shù)據(jù)不足的問題,但是人造標(biāo)簽數(shù)據(jù)集中任何誤差或錯(cuò)誤假設(shè)都會(huì)影響到分類模型準(zhǔn)確性。Swapnil[10]根據(jù) Torvik和Smalheiser[12]的方法獲得人造標(biāo)簽數(shù)據(jù)集,分別生成專利發(fā)明人姓名、地址和技術(shù)類的相似度分值,然后通過支持向量機(jī)和邏輯回歸方法證明簡(jiǎn)單的機(jī)器學(xué)習(xí)方法可以用于代替較復(fù)雜的專利發(fā)明人重名辨識(shí)方法。Li等[22]也是借助于 Torvik和 Smalheiser[21]的方法,通過統(tǒng)計(jì)產(chǎn)生準(zhǔn)確度較高的人造標(biāo)簽數(shù)據(jù)集,并在貝葉斯框架下使用邏輯回歸方法判斷專利發(fā)明人記錄對(duì)的匹配情況。

    2.3.3 基于監(jiān)督學(xué)習(xí)的重名辨識(shí)方法

    基于監(jiān)督學(xué)習(xí)的專利發(fā)明人重名辨識(shí)方法通過標(biāo)簽數(shù)據(jù)集訓(xùn)練分類器,用于判斷專利數(shù)據(jù)庫中發(fā)明人記錄對(duì)是否匹配。Ventura[23]提出了性能更優(yōu)的基于隨機(jī)森林的條件森林(Conditional Forest of Random Forest,CFoRF)算法用于專利發(fā)明人重名辨識(shí),針對(duì)專利發(fā)明人數(shù)據(jù)中間名缺失等情況構(gòu)建不同的條件子集,并在這些條件子集上分別訓(xùn)練不同的隨機(jī)模型,最后通過集成這些模型的分類結(jié)果預(yù)測(cè)專利發(fā)明人記錄對(duì)的匹配概率。為了降低計(jì)算成本,Ventura[5]之后提出了基于隨機(jī)森林的森林(Forest of Random Forest,F(xiàn)oRF)和層次聚類算法用于重名辨識(shí)專利發(fā)明人,并將該方法應(yīng)用于數(shù)據(jù)密集型專利發(fā)明人重名辨識(shí),通過在 50,000條美國(guó)專利數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),證明了該方法具有良好性能。類似的,Ventura[11]采用基于隨機(jī)森林和層次聚類的方法進(jìn)行發(fā)明人重名辨識(shí),結(jié)果顯示該方法的誤分率(spliting error rate)和誤合率(lumping error rate)均低于規(guī)則方法和半監(jiān)督方法;Yang等[18]提出了基于混合分類器和圖聚類的方法進(jìn)行專利發(fā)明人重名辨識(shí),并取得了USPTO專利發(fā)明人姓名消歧競(jìng)賽第二名的好成績(jī),其中混合分類器是由 Bootstrap監(jiān)督學(xué)習(xí)方法、概率記錄連接和規(guī)則方法融合而成;Kim 等[8]采用基于隨機(jī)森林和 DBSCAN聚類的方法,在 USPTO專利發(fā)明人姓名消歧競(jìng)賽訓(xùn)練數(shù)據(jù)上進(jìn)行測(cè)試,其實(shí)驗(yàn)結(jié)果不僅優(yōu)于2015年USPTO專利發(fā)明人姓名消歧競(jìng)賽結(jié)果,而且其方法運(yùn)行時(shí)間也比競(jìng)賽方法運(yùn)行時(shí)間節(jié)省半小時(shí),證明了該方法能夠更好地進(jìn)行專利發(fā)明人重名辨識(shí)。

    2.4 基于語義指紋的重名辨識(shí)方法

    語義指紋具有不同的定義:吳軍[24]將語義指紋(也稱為信息指紋)定義為將一段信息(文字、圖片、音頻、視頻等)隨機(jī)地映射到一個(gè)多維二進(jìn)制空間中的一個(gè)點(diǎn)(一段二進(jìn)制數(shù)字);Webber[25]將語義指紋定義為基于語義折疊理論編碼明確、包含意義和語境信息的數(shù)據(jù)表示,即用一段數(shù)字表征隱藏在自然語言背后的含義;Ibriyamova[26]認(rèn)為語義指紋是一種在大量文本內(nèi)容上進(jìn)行訓(xùn)練,并能夠表征文本中詞與詞之間關(guān)聯(lián)關(guān)系的概念。綜上所述,本文將語義指紋定義為基于文本摘要技術(shù),能夠表示文本特征和差異,并且將文本內(nèi)容映射為二進(jìn)制哈希值的一種算法。語義指紋算法根據(jù)文本特征權(quán)重對(duì)這些哈希值進(jìn)行加權(quán)求和、壓縮,生成能夠表征大量文本內(nèi)容特征和差異的一段 64位或 128位二進(jìn)制數(shù)字串,比較有代表性的指紋算法有shingling指紋算法[27]、Simhash語義指紋算法[28]。其中,文本摘要技術(shù),即哈希函數(shù),是指將文本內(nèi)容通過一個(gè)散列函數(shù)或哈希表映射為固定長(zhǎng)度的數(shù)字串,比較有代表性的哈希函數(shù)有Minhash 函數(shù)[29]、Rabin 哈希[30]、SDBM 哈希[31]、MD5 哈希[32]、SHA-1 哈希[33]。

    Han[34]通過 Simhash語義指紋算法,將論文文本特征映射為一段 64位二進(jìn)制語義指紋,并結(jié)合文獻(xiàn)合著者、機(jī)構(gòu)、郵箱等信息,進(jìn)行論文著者姓名消歧,結(jié)果證明語義指紋方法性能要優(yōu)于傳統(tǒng) K-means聚類消歧方法。在專利數(shù)據(jù)中,專利發(fā)明人一直存在特征稀疏等問題[35],現(xiàn)有的專利發(fā)明人重名辨識(shí)方法一直基于專利元數(shù)據(jù)特征進(jìn)行分析,占專利內(nèi)容比例較高的文本數(shù)據(jù)卻一直沒有用于發(fā)明人重名辨識(shí)研究,而語義指紋算法卻可以將文本特征歸并到語義指紋中,用于專利發(fā)明人相似度判斷。

    2.5 基于唯一標(biāo)識(shí)的重名辨識(shí)方法

    基于唯一標(biāo)識(shí)的重名辨識(shí)方法是指通過給每一位科研人員分配一個(gè)獨(dú)特且唯一的身份標(biāo)識(shí)號(hào),并將其與科研人員的科研產(chǎn)出相關(guān)聯(lián),進(jìn)而消除科研人員姓名歧義現(xiàn)象。早在 2009年,湯森路透公司就推出了 ResearcherID[36]用戶注冊(cè)平臺(tái),每位科研人員可以通過用戶注冊(cè)獲得一個(gè)獨(dú)特且唯一的身份標(biāo)識(shí)號(hào),每當(dāng)個(gè)人科研成果需要出版發(fā)表時(shí),每位科研人員需要同時(shí)提供自己的身份標(biāo)識(shí)號(hào),以便在ResearcherID有效范圍內(nèi)規(guī)避科研人員姓名歧義現(xiàn)象。ORCID[37](Open Researcher and Contributor ID,科研人員與投稿身份識(shí)別開放項(xiàng)目)是由湯森路透公司和自然出版集團(tuán)等多家單位在 2009年聯(lián)合發(fā)起的項(xiàng)目,與科技文獻(xiàn) DOI類似,ORCID可以給全球每位科研人員分配一個(gè)獨(dú)立唯一性的國(guó)際學(xué)術(shù)標(biāo)識(shí)符,該標(biāo)識(shí)符是由一套免費(fèi)、全球唯一的 16位身份識(shí)別碼構(gòu)成。在2014年,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心[38]與ORCID簽署合作協(xié)議,推出中國(guó)科學(xué)家在線(iAuthor)平臺(tái)作為ORCID的中國(guó)服務(wù)平臺(tái),將更加方便地服務(wù)中國(guó)科研人員使用ORCID,管理個(gè)人科研成果。

    基于唯一標(biāo)識(shí)的重名辨識(shí)方法非常簡(jiǎn)單有效、省時(shí)省力,因此國(guó)內(nèi)外許多出版機(jī)構(gòu)都在制定和推出一套獨(dú)特的身份標(biāo)識(shí)系統(tǒng),用于科研人員身份識(shí)別。但是,在實(shí)際執(zhí)行過程中,基于唯一標(biāo)識(shí)的專利發(fā)明人重名辨識(shí)系統(tǒng)會(huì)遇到以下幾個(gè)困難:①Smalhesier[9]提到,國(guó)外價(jià)值觀念中非常重視個(gè)人隱私信息,例如身份證號(hào)、社保號(hào)、唯一性身份識(shí)別號(hào)等能夠唯一標(biāo)識(shí)個(gè)人身份的信息經(jīng)常被反對(duì)公開,這也是 USPTO沒有給專利發(fā)明人分配唯一性身份識(shí)別號(hào)的原因之一;②唯一性身份標(biāo)識(shí)系統(tǒng)由科研出版機(jī)構(gòu)等聯(lián)合推行,系統(tǒng)維護(hù)及資金來源難以保證長(zhǎng)期穩(wěn)定有效;③ORCID、ResearcherID、百度ScholarID等都是面向大范圍各個(gè)行業(yè)領(lǐng)域的身份標(biāo)識(shí)系統(tǒng),難以在行業(yè)內(nèi)部形成統(tǒng)一規(guī)范的行業(yè)體系和執(zhí)行標(biāo)準(zhǔn),而且每個(gè)科研人員可能擁有多個(gè)唯一性身份標(biāo)識(shí)符,或者在同一個(gè)標(biāo)識(shí)系統(tǒng)中擁有多個(gè) ID,造成另一種意義上的“歧義”現(xiàn)象;④對(duì)于已有專利文獻(xiàn)的重名辨識(shí),唯一標(biāo)識(shí)系統(tǒng)無法解決這個(gè)問題,而現(xiàn)有文獻(xiàn)資料具有重要的研究?jī)r(jià)值和參考意義,所以其他重名辨識(shí)方法有一定的研究意義。

    3 總 結(jié)

    本研究以機(jī)器學(xué)習(xí)方法缺點(diǎn)作為研究出發(fā)點(diǎn),為在較短時(shí)間內(nèi)有效完成發(fā)明人重名辨識(shí),對(duì)專利發(fā)明人重名辨識(shí)方法進(jìn)行展望:①本文建議將深度學(xué)習(xí)算法融入到重名辨識(shí)方法中,以便更加準(zhǔn)確地進(jìn)行發(fā)明人重名辨識(shí)。②本文建議將語義指紋算法融入到重名辨識(shí)方法中,以便更加高效地進(jìn)行發(fā)明人重名辨識(shí)?!?/p>

    [1]鄧要武. 科技報(bào)告、專利文獻(xiàn)和標(biāo)準(zhǔn)文獻(xiàn)資源檢索與利用[J]. 圖書館工作與研究,2008(7):71-74.

    [2]Doherr T. Inventor mobility index:A method to disambiguate inventor careers [J]. New Discussion Papers,2008(5):251-262.

    [3]Miguelez E,Gomez-miguelez I. Singling out individual inventors from patent data [J]. Ssrn Electronic Journal,2011(23):69-74.

    [4]Fleming L,King C,Juda A I. Small worlds and re-gional innovation [J]. Social Science Electronic Publishing,2007,18(6):938-954.

    [5]Ventura S L,Nugent R. Hierarchical Linkage Clustering with Distributions of Distances for Large-Scale Record Linkage[M]. Switzerland:Springer International Publishing,2014.

    [6]Ventura S L,Nugent R,F(xiàn)uchs E R. Methods matter:Rethinking inventor disambiguation with classification &labeled inventor records [J]. Academy of Management Annual Meeting Proceedings,2013,2013(1):14537-14537.

    [7]Akinsanmi E O,F(xiàn)uchs E,Reagans R E. Economic downturns,technology trajectories and the careers of scientists [J]. Georgia Institute of Technology,2011(9):52-74.

    [8]Kim K,Khabsa M,Giles C L. Random forest DBSCAN for USPTO inventor name disambiguation [J].arXiv:1602. 01792v2,2016(2):37-49.

    [9]Smalheiser N R,Torvik V I. Author name disambiguation [J]. Annual Review of Information Science & Technology,2015,43(1):1-43.

    [10]Swapnil M U. Inventor disambiguation for patents filed at USPTO [J]. CiteSeerX,2013(5):83-102.

    [11]Ventura S L,Nugent R,F(xiàn)uchs E R H. Seeing the nonstars:(Some)sources of bias in past disambiguation approaches and a new public tool leveraging labeled records[J]. Research Policy,2015,44(9):1672-1701.

    [12]Fellegi I P,Sunter A B. A theory for record linkage [J].Journal of the American Statistical Association,1969,64(328):1183-1210.

    [13]Singh J. Collaborative networks as determinants of knowledge diffusion patterns [J]. Management Science,2005,51(5):756-770.

    [14]Milojevi S. Accuracy of simple,initials-based methods for author name disambiguation [J]. Journal of Informetrics,2013,7(4):767-773.

    [15]Morrison G,Riccaboni M,Pammolli F. Disambiguation of patent inventors and assignees using highresolution geolocation data [J]. Social Science Electronic Publishing,2015(12):46-71.

    [16]Pezzoni M,Lissoni F,Tarasconi G,. How to kill inventors:Testing the Massacrator algorithm for inventor disambiguation [J]. Scientometrics,2014,101(1):477-504.

    [17]周志華. 機(jī)器學(xué)習(xí):Machine Learning [M]. 北京:清華大學(xué)出版社,2016:1-2.

    [18]Yang G C,Liang C,Jing Z,et al. A mixture record linkage approach for US patent inventor disambiguation[C]. 2017. Advanced Multimedia and Ubiquitous Engineering,MUE/FutureTech,2017:331-338.

    [19]Nicolas C,Lorenzo C. Who’s Who in Patents. A Bayesian approach [J]. Working Papers,2009(7):104-121.

    [20]朱亮亮. 利用改進(jìn)的 K-means算法實(shí)現(xiàn)文獻(xiàn)著者人名消歧[J]. 軟件導(dǎo)刊,2013,12(5):63-66.

    [21]Torvik V I,Smalheiser N R. Author name disambiguation in MEDLINE. [J]. Acm Transactions on Knowledge Discovery from Data,2009,3(3):1-29.

    [22]Li G C,Lai R,D’Amour A,et al. Disambiguation and co-authorship networks of the U. S. patent inventor database(1975—2010)[J]. Research Policy,2014,43(6):941-955.

    [23]Ventura S L,Nugent R,F(xiàn)uchs E R H. Methods matter:Revamping inventor disambiguation algorithms with classification models and labeled inventor records[J]. Academy of Management Annual Meeting Proceedings,2013(1):14537-14537.

    [24]吳軍. 數(shù)學(xué)之美[M]. 2版. 北京:人民郵電出版社,2014:142-152.

    [25]Webber F D S. Semantic folding theory and its application in semantic fingerprinting[J]. Computer Science,2015(11):51-110.

    [26]Ibriyamova F,Kogan S,Salganikshoshan G,et al.Using semantic fingerprinting in finance[J]. Social Science Electronic Publishing,2016(5):10-38.

    [27]Broder A Z,Glassman S C,Manasse M S,et al. Syntactic clustering of the Web[J]. Computer Networks &Isdn Systems,1997,29(8-13):1157-1166.

    [28]Charikar M S. Similarity estimation techniques from rounding algorithms[C]. Thiry-Fourth ACM Symposium on Theory of Computing. New Jersey,2002:380-388.

    [29]Broder A Z. On the resemblance and containment of documents[C]. Compression and Complexity of Sequences 1997. Proceedings,2002:21-29.

    [30]Rabin M O. Fingerprinting by Random Polynomials[EB/OL]. https://www. docketalarm.com/cases/PTAB/IPR2013-00086/Inter_Partes_Review_of_U.S._Pat._794 9662/12-16-2012-Petitioner/Exhibit-1015-Rabin%2C_Fingerprinting_by_Random_Polynomials%,2C_Center_for_Research_in_Computing_Technology%,2C_Harvard_University%,2C_Report_TR_15_81/.

    [31]Jain S,Pandey M. Hash table based word searching algorithm[J]. International Journal of Computer Science& Information Technologies,2012(3):4385-4388.

    [32]Rivest R. The MD5 Message-Digest Algorithm[M].United States:RFC Editor,1992:492.

    [33]Stallings W. Secure hash algorithm[J]. Cryptography &Network Security Principles & Practice,2007:1116.

    [34]Han H,Yao C,F(xiàn)u Y,et al. Semantic fingerprintsbased author name disambiguation in Chinese documents[J]. Scientometrics,2017,111(3):1879-1896.

    [35]蔡云雷. 基于潛在語義分析的專利文本分類技術(shù)研究[D]. 沈陽:沈陽航空航天大學(xué),2011:3-4.

    [36]Manjunath A. ResearcherID:An unique identifier[EB/OL]. http://dspace.rri.res.in/bitstream/2289/5582/1/ResearcherID.pdf.

    [37]Haak L L,F(xiàn)enner M,Paglione L,et al. ORCID:a system to uniquely identify researchers[J]. Learned Publishing,2012,25(4):259-264.

    [38]中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心中國(guó)科學(xué)引文數(shù)據(jù)庫. iAuthor:國(guó)際研究者辨識(shí)系統(tǒng)[J]. 中華普外科手術(shù)學(xué)雜志電子版,2015(3):255.

    猜你喜歡
    發(fā)明人姓名指紋
    像偵探一樣提取指紋
    梁潮印箋·姓名章戢孴
    為什么每個(gè)人的指紋都不一樣
    發(fā)明人角色識(shí)別及二元?jiǎng)?chuàng)新能力差異分析
    ——社會(huì)資本視角的解釋
    淺析發(fā)明人(或設(shè)計(jì)人)變更的常見問題及建議
    專利代理(2019年2期)2019-01-26 15:16:16
    搖擺撞擊洗滌裝置
    家電科技(2018年9期)2018-09-28 01:45:00
    洗衣機(jī)
    家電科技(2018年9期)2018-09-28 01:45:00
    姓名的『姓』字為什么是『女』旁?
    基于自適應(yīng)稀疏變換的指紋圖像壓縮
    可疑的指紋
    宝兴县| 雷州市| 阳新县| 永昌县| 连平县| 武乡县| 左云县| 桃源县| 黔江区| 涪陵区| 东山县| 全南县| 大洼县| 璧山县| 阿克| 民丰县| 江津市| 镇赉县| 日照市| 浏阳市| 新晃| 巨鹿县| 巴里| 枞阳县| 祁东县| 象山县| 乌海市| 兴仁县| 苍南县| 鹿泉市| 鹤山市| 介休市| 潢川县| 普格县| 万荣县| 龙井市| 福建省| 德钦县| 宝鸡市| 贵南县| 文山县|