高營
摘要:如何準確識別學者的研究成果是科研人員、管理人員、圖書館員等亟待解決的問題,WOS等數(shù)據(jù)庫本身的作者檢索功能難以準確檢索出學者所發(fā)文獻。本文利用Python語言編寫程序,通過WOS API接口獲取數(shù)據(jù),并利用正則表達式進行作者和地址的匹配篩選。研究表明,該方法能準確匹配作者及地址信息,提高檢索效率。
關(guān)鍵詞:文獻檢索;Web of Science數(shù)據(jù)庫; Python;正則表達式
中圖分類號:G254 ??文獻標識碼:A
1 引言
深圳大學城圖書館與利益相關(guān)方合作建設(shè)的深圳學者知識庫,學者論文采用自動采集和人工提交相結(jié)合的數(shù)據(jù)采集模式[1]。數(shù)據(jù)建設(shè)第一階段是純手工階段,需要根據(jù)學者簡歷人工檢索學者當前及以前工作機構(gòu)的科研成果。此外,科研人員在研究工作中需要追蹤相關(guān)專家發(fā)表的文獻,學校或機構(gòu)管理人員對學者進行評價考核等需要了解學者的發(fā)文準確情況,圖書館員在學者評估、情報研究或?qū)W者庫建設(shè)等工作中也需要準確獲取學者的所有文獻。如何準確識別某位學者的研究成果是科研人員、管理人員、圖書館員等面臨的問題。雖然在Web of Science(WOS)、Ei Village(EI)、Scopus等數(shù)據(jù)庫檢索時均具有作者檢索功能,其作者檢索是根據(jù)作者姓名和機構(gòu)或地址字段組合進行檢索,會因為作者重名或英文姓名類似等導致檢索結(jié)果不夠準確,需要進行大量的篩選檢查工作[2]。中文作者姓名由于重名、同音字、縮寫名相同等會帶來更多重復現(xiàn)象,給查準查全學者論文帶來很大困擾。尤其是在WOS數(shù)據(jù)庫中進行作者檢索時可以組合檢索作者姓名和地址,但是其匹配的是所有作者的地址,在檢索結(jié)果中會出現(xiàn)很多在其他機構(gòu)的同名或同音作者,仍然需要逐篇進行檢查篩選。
如何消除姓名拼寫歧義,準確對應(yīng)學者和其研究成果,已經(jīng)有很多學者在不同方法上進行了很多工作,但是目前一直沒有很完美的解決方案。其中一個研究方向是利用智能算法、機器學習、作者合作網(wǎng)絡(luò)等進行姓名消歧,該方向仍然在發(fā)展過程中,離完全替代人工還有一定差距[26]。另一個研究方向是以ResearcherID、 ORCID、 ThuRID等為代表的學者標識符,可以對應(yīng)每位學者及其發(fā)表的文章,但需要作者本人進行維護,受到作者意愿等影響[79],并且過去發(fā)表的論文中并沒有提供相應(yīng)的作者標識符,目前仍很難適應(yīng)于所有學者的檢索。WOS、Scopus等數(shù)據(jù)庫商也利用算法對作者數(shù)據(jù)進行了一些作者歸并工作,部分作者數(shù)據(jù)能夠比較準確,但很多的學者數(shù)據(jù)仍有較多的錯誤數(shù)據(jù)[2]。
2008年以后WOS數(shù)據(jù)庫對每位作者都分別標注了對應(yīng)的地址[10],但數(shù)據(jù)庫中作者檢索的方式分別匹配作者姓名和地址,丟失了作者和地址間的對應(yīng)關(guān)系,也就是說文章合作者中包含所檢索地址的其他機構(gòu)中相同作者姓名拼寫的文獻也會出現(xiàn)在檢索結(jié)果中,會出現(xiàn)作者姓名和地址錯誤搭配的情況,因此會帶來很多不準確的檢索結(jié)果,需要人工篩選檢查。本文嘗試在WOS檢索過程中,利用程序?qū)ψ髡吆拖鄳?yīng)地址進行匹配篩選,精確匹配所限定的作者姓名及地址,篩選去掉其他機構(gòu)中同名作者的情況,研究顯示可以顯著提高檢索效率和準確率。
2 設(shè)計與實現(xiàn)
2.1 設(shè)計思路
利用Python編寫程序通過WOS API獲取作者檢索結(jié)果,按照自定義的正則表達式進行作者和地址匹配篩選,篩選出作者及地址均滿足篩選條件的文獻,再進行人工檢查確認,可根據(jù)篩選情況對檢索式和篩選正則表達式進行修改并再次進行篩選,最后完成篩選并得到準確的學者論文列表。
2.2 編程語言Python
Python由荷蘭人Guido van Rossum創(chuàng)造,第一版發(fā)布于1991年,是近年來最熱門的編程語言之一。由于其有豐富的標準庫和其他一些擴展庫,比較接近自然語言,可以用較少的代碼完成一些復雜的工作,現(xiàn)在廣泛應(yīng)用于Web開發(fā)、云計算、大數(shù)據(jù)等領(lǐng)域[11],我們選擇Python作為開發(fā)語言。
2.3 WOS平臺API
WOS Web Services[12]是基于SOAP (Simple Object Access Protocol,簡單對象訪問協(xié)議)的API,用于檢索和獲取Web of Science數(shù)據(jù)庫訂閱內(nèi)容。可以通過程序接入該API接口進行WOS檢索。該API有兩個服務(wù)接口,授權(quán)接口WOKMWSAuthenticate是身份驗證和會話管理服務(wù),檢索接口WokSearch提供數(shù)據(jù)檢索服務(wù)??梢栽趯W?;驒C構(gòu)IP范圍內(nèi)通過授權(quán)接口獲取授權(quán)信息,然后通過WokSearch檢索接口進行檢索和獲取數(shù)據(jù)。通過該API可以獲取到格式規(guī)范的XML數(shù)據(jù),便于后續(xù)處理工作。同時由于僅獲取所需要的數(shù)據(jù),不需要打開整個網(wǎng)頁,可避免受到網(wǎng)頁讀取速度或網(wǎng)站改版等的影響。
2.4 正則表達式及作者匹配規(guī)則
我們采用正則表達式來精確匹配作者姓名和地址。正則表達式由一系列ASCII碼字符構(gòu)成,可以精確匹配一組滿足條件的字符串[13]。其中一部分字符作為元字符,與普通ASCII碼字符不同,用來表示特殊的含義。常用的元字符[9]有點號(.)、星號(*)等,具體含義及示例見表1。
(2) 三個字姓名可能的拼寫形式有:Sun Shuqing, Sun Shu-Qing, Sun, s.-q, Sun SQ, Shuqing S, ShuQing Sun或Shu-Qing, Sun等。篩選正則表達式如下: 同前一個正則表達式類似,該正則表達式也可以精確匹配我們需要的作者姓名的各種不同的拼寫形式,而排除不符合我們需求的作者,從而可以篩選得到符合條件作者的準確數(shù)據(jù)。
2.5 地址匹配規(guī)則
例如我們想檢索清華大學深圳研究生院的作者發(fā)表文獻的地址所需要的正則表達式為:tsing[,\s\W]*?hua.*?univ.*?shenzhen。該表達式可以匹配包含“Tsinghua univ”或者“Tsing hua univ”并且含有“shenzhen”的所有地址。如果想具體限定到某個學院的學者還可以加入更多的限定詞,使檢索更加準確。比如想限定到材料學院,可以加入其中的一個單詞Material 的縮寫部分“mat”。限定詞要根據(jù)篩選情況調(diào)整使用,避免范圍過大增加不準確結(jié)果,也要避免范圍太窄漏掉需要的結(jié)果。
2.6 實現(xiàn)過程
程序共有兩個步驟,第一步是數(shù)據(jù)獲取,第二步是數(shù)據(jù)篩選。數(shù)據(jù)獲取過程首先利用Python的suds庫訪問WOS API來獲取數(shù)據(jù),通過授權(quán)接口的authenticate來獲取授權(quán)會話session SID,并將獲得的授權(quán)信息加入搜索進程,見圖1。
然后利用WokSearch服務(wù)的search、retrieve接口來獲取數(shù)據(jù),并保存到本地文件。其中Search操作可以提交搜索并返回結(jié)果,該結(jié)果與網(wǎng)頁界面高級檢索功能返回結(jié)果一致;retrieve可以獲取檢索結(jié)果內(nèi)容。程序根據(jù)我們輸入的作者姓名和地址信息生成相應(yīng)的檢索式進行檢索、獲取數(shù)據(jù),并保存為本地文件。考慮到有可能已經(jīng)優(yōu)化過檢索式的情況,我們也可以直接在程序界面輸入檢索式進行數(shù)據(jù)下載。
第二個步驟是數(shù)據(jù)篩選。程序自動導入上一步驟下載的數(shù)據(jù),對每篇文獻進行處理,進行作者和地址的對應(yīng)篩選。程序可以根據(jù)上一步輸入的作者姓名自動生成相應(yīng)的正則表達式,根據(jù)作者地址信息修改相應(yīng)的正則表達式并進行篩選。查看篩選結(jié)果界面可以顯示篩選匹配出的作者姓名和對應(yīng)地址,在程序界面可以快速查看篩選情況,并可以刪除一些明顯錯誤的數(shù)據(jù),并可以重新生成WOS的檢索式,返回WOS網(wǎng)站進行詳細確認或進行其他分析工作。
3 應(yīng)用分析
以檢索清華大學深圳研究生院李佳老師發(fā)文為例,我們輸入姓名Li jia,地址tsinghua univ or tsing hua,程序會自動生成檢索式au=(li jia or li j or jia li or j li) and ad=(tsinghua univ or tsing hua) and py=(1900-2019),并開始下載數(shù)據(jù)。由于這個姓名拼寫非常簡單,并且包含縮寫li j的姓名有非常多的其他可能姓名拼寫,所以檢索結(jié)果非常多,該檢索式有6 477條檢索結(jié)果。這種情況我們一般需要對檢索式進行修改,避免下載太多數(shù)據(jù)。其中最常用的修改方式是僅保留li jia的姓名全稱拼寫形式,之所以可以僅使用作者全名進行檢索是因為2006年及以后出版的論文記錄中,會包含作者全稱和簡稱兩種形式的作者姓名[10],所以對一些比較年輕的學者我們可以僅采用姓名全稱進行檢索,以增加準確度。另外也可以根據(jù)學者簡歷,修改地址增加更多限定,還可以修改檢索時間范圍,縮小檢索范圍,以方便更快速的數(shù)據(jù)下載。本例中我們修改檢索式為au=(li jia) and ad=(tsinghua univ or tsing hua) and py=(2002-2019)后,檢索結(jié)果為240條,可以大大節(jié)省下載時間。
通過該例子我們可以看到,程序可以幫助我們過濾清華大學其他院系的相同姓名拼寫Li Jia老師的論文,也可以過濾合作者中包含清華大學學者的其他機構(gòu)的姓名拼寫為Li Jia老師的論文,以及過濾篩選姓名的一部分為Li Jia的學者的論文,經(jīng)仔細驗證檢查所排除的論文均為錯誤數(shù)據(jù),我們僅需要核對篩選出47篇文獻姓名準確為Li Jia 并且相應(yīng)地址為清華深圳的學者的論文,而不需要再去確認全部的240篇文獻??梢悦黠@節(jié)省人工檢查的時間,提高效率。
在檢索和篩選過程中,必須緊密結(jié)合學者履歷情況,制定檢索式和篩選條件。以檢索清華大學深圳研究生院生命與健康學部孫樹清老師論文為例,孫老師2006年以前也有很多論文發(fā)表,檢索時編輯檢索式姓名需要采用全拼和縮寫形式共同檢索,檢索結(jié)果會包含清華大學北京本部化學系姓名拼寫SUN Suqin (Sun SQ 姓名簡寫相同)老師的文章,利用本程序的篩選可以較好地排除這種情況,見表2。
4 結(jié)語
筆者作為深圳學者庫建設(shè)的主要參與人員,建設(shè)過程中由于要手工檢索大量學者的發(fā)文,并且需要盡量準確全面檢索學者的所有論文,篩選過程中需要大量的精力,并且容易出錯,時間緊任務(wù)重,為了提高效率和準確率,編寫了本文的輔助工具。本程序可以精確匹配作者姓名拼寫全稱及簡稱,避免檢索結(jié)果中部分包含所檢索作者全稱及簡稱的其他姓名的情況,并且可以進行作者和地址的對應(yīng),篩選去掉其他機構(gòu)中與所檢索作者姓名拼寫相同的情況,可以減少需要檢查篩選的文獻數(shù)量,能在一定程度上輔助檢索結(jié)果的篩選,提高檢索效率和準確性,希望能給有類似需求的同行提供借鑒。
參考文獻
[1] 閆偉東.學者知識庫建設(shè)探究——以深圳學者知識庫為例[J].圖書館建設(shè),2018(12):57-62.
[2] 范午攸.一種針對已知作者的姓名消歧方法[J].圖書館雜志,2018(12):56-63.
[3] 翟曉瑞,韓紅旗,張運良,等.基于稀疏分布式表征的英文著者姓名消歧研究[J].計算機應(yīng)用研究,2018(12):1-7.
[4] 付媛,朱禮軍,韓紅旗.姓名消歧方法研究進展[J].情報工程,2016(1):53-58.
[5] 侯海東,洪騰龍,徐建良.SCI論文作者自動識別方法研究[J].軟件導刊,2018(8): 57-60.
[6] 鄭威杰.科技文獻作者消歧方法研究[D];杭州:杭州電子科技大學,2017.
[7] 竇天芳,張成昱,張蓓,等.ResearcherID現(xiàn)狀分析及應(yīng)用啟發(fā)[J].圖書情報工作,2014(4):40-45.
[8] 魏中青.ORCID國際學術(shù)身份證在我國科技期刊中的應(yīng)用[J].科技與出版,2015(5):101-104.
[9] 謝華玲,鄭菲,陳朝暉.ISI Web of Knowledge平臺新增功能在科研中的利用分析[J].現(xiàn)代圖書情報技術(shù),2009(9):82-85.
[10] CLARIVATE.Web of Science Core Collection Help[EB/OL].[2019-09-20].https://images.webofknowledge.com/data/WOKRS515B5/help/WOS/hp_full_record.html.
[11] 姜安印,馮龍飛.基于Python的長文本比較研究——以《管子》與《國富論》經(jīng)濟思想比較為例[J].圖書與情報,2018(2):67-73.
[12] CLARIVATE. Web of Science Web Services Expanded HELP[EB/OL].[2019-09-20].http://ipscience-help.thomsonreuters.com/wosWebServicesExpanded/WebServicesExpandedOverviewGroup/Introduction.html.
[13] 付哲,李軍.高性能正則表達式匹配算法綜述[J].計算機工程與應(yīng)用,2018(20):1-13.