, , ,,,曉梅,
查收查引又稱為論文收錄及被引用檢索,主要通過文獻(xiàn)題名、作者、作者單位、期刊名稱、發(fā)表時間等檢索字段查找論文被數(shù)據(jù)庫收錄及引用情況,并依據(jù)檢索結(jié)果出具引證報告,為科研評價提供依據(jù)[1]。
作為國內(nèi)科研績效評價的重要工具,該服務(wù)已成為國內(nèi)高校圖書館等信息服務(wù)機(jī)構(gòu)提供的基礎(chǔ)信息服務(wù)。據(jù)統(tǒng)計,96所(占81%)“211”工程大學(xué)圖書館開展了這項業(yè)務(wù),而且業(yè)務(wù)量逐年快速增長[2]。
國內(nèi)開展的引證檢索服務(wù)主要依靠手動方式完成,需要查收查引人員在多種引文數(shù)據(jù)庫中重復(fù)檢索文獻(xiàn)收錄和引用情況,對檢索結(jié)果進(jìn)行去重去自引、轉(zhuǎn)換格式后出具檢索報告。存在多數(shù)據(jù)源檢索導(dǎo)致的工作量倍增[3]、錄入錯誤與格式不規(guī)范造成的查重困難、手工生成標(biāo)準(zhǔn)報告費時費力、檢索工作重復(fù)低效等問題。因此,必須利用軟件工具輔助人工完成查收查引并自動統(tǒng)計與整理形成引證報告[4]。
查收查引系統(tǒng)較早可追溯到北京大學(xué)圖書館的論文查收查引工具[3,5]。利用網(wǎng)頁分析技術(shù)對SCI、EI數(shù)據(jù)源進(jìn)行自動網(wǎng)絡(luò)查詢,如中國科技大學(xué)圖書館利用Excel和EndNote Web提高論文查收查引的工作效率[6];中國科學(xué)院軟件研究所研發(fā)的“引證報告自動生成原型系統(tǒng)”[4,7],可對SCI數(shù)據(jù)庫統(tǒng)計區(qū)分自引與他引。
基于國內(nèi)中文數(shù)據(jù)源查收查引的需要,解放軍醫(yī)學(xué)圖書館開發(fā)了基于Web的查收查引跨庫檢索系統(tǒng)。它通過頁面分析技術(shù)對CNKI、CSCD、CMCI、萬方等多個異構(gòu)中文期刊引文數(shù)據(jù)庫進(jìn)行檢索,功能覆蓋收錄檢索、引文檢索、生成引證報告等環(huán)節(jié),并結(jié)合精確匹配和模糊匹配,通過Levenshtein編輯距離計算相似度對重復(fù)文獻(xiàn)進(jìn)行查重去重。
跨庫檢索系統(tǒng)架構(gòu)如圖1所示。三層體系結(jié)構(gòu)主要由客戶端Web頁面、服務(wù)器端檢索服務(wù)總線、異構(gòu)多數(shù)據(jù)源組成,通過檢索服務(wù)總線屏蔽各個異構(gòu)數(shù)據(jù)源的位置、檢索服務(wù)接口等細(xì)節(jié)差異,通過客戶端Web頁面提供檢索入口和結(jié)果展示。
客戶端Web頁面是用戶進(jìn)行檢索的界面和入口,用戶通過檢索界面登錄到跨庫檢索系統(tǒng),輸入檢索條件如題名、作者、作者單位、刊名、年代范圍,顯示檢索結(jié)果并進(jìn)行人工整理。
服務(wù)器端檢索服務(wù)總線是系統(tǒng)的核心,接收來自客戶端Web頁面的檢索條件,按照異構(gòu)數(shù)據(jù)源的要求將檢索條件轉(zhuǎn)換成新的檢索表達(dá)式,并轉(zhuǎn)發(fā)給多個異構(gòu)數(shù)據(jù)源進(jìn)行檢索。獲得異構(gòu)數(shù)據(jù)源返回的檢索結(jié)果后,檢索服務(wù)總線通過頁面分析提取文獻(xiàn)元數(shù)據(jù),結(jié)合精確匹配和模糊匹配,檢測相似文獻(xiàn)進(jìn)行數(shù)據(jù)分組合并或去重排序,最后將得到的檢索結(jié)果返回給客戶端Web頁面。
異構(gòu)多數(shù)據(jù)源是跨庫檢索系統(tǒng)的基礎(chǔ)。異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫具有不同的資源覆蓋范圍,使用不同的數(shù)據(jù)格式、檢索方式。服務(wù)器端檢索服務(wù)總線通過數(shù)據(jù)源配置,從異構(gòu)多數(shù)據(jù)源獲得檢索結(jié)果。
圖1查收查引跨庫檢索系統(tǒng)架構(gòu)
查收查引跨庫檢索系統(tǒng)主要操作步驟如下。
查收查引工作人員在客戶端Web頁面輸入文獻(xiàn)題名、作者、作者單位、期刊名稱、發(fā)表時間等檢索字段,并提交檢索請求進(jìn)行收錄檢索。服務(wù)器端檢索服務(wù)總線獲得Web頁面提交的檢索請求后,根據(jù)多數(shù)據(jù)源配置,將檢索請求轉(zhuǎn)換成符合各個異構(gòu)數(shù)據(jù)源要求的檢索表達(dá)式,通過多線程并發(fā)檢索多個異構(gòu)數(shù)據(jù)源。異構(gòu)數(shù)據(jù)源根據(jù)提交的檢索表達(dá)式進(jìn)行檢索,并將檢索結(jié)果返回檢索服務(wù)總線。檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源的檢索結(jié)果后,通過頁面分析提取檢索結(jié)果中的元數(shù)據(jù),結(jié)合精確匹配與模糊匹配,將題名、第一作者、來源期刊、出版年份相同的分為一組,將檢索結(jié)果返回給客戶端Web頁面,同時顯示該文獻(xiàn)的來源數(shù)據(jù)庫。查收查引工作人員查看收錄檢索結(jié)果,選擇部分結(jié)果文獻(xiàn),繼續(xù)提交引文檢索請求。檢索服務(wù)總線將引文檢索請求通過多線程轉(zhuǎn)發(fā)給各異構(gòu)數(shù)據(jù)源,異構(gòu)數(shù)據(jù)源再將引文檢索結(jié)果返回給檢索服務(wù)總線;檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源返回的引文信息,對引文檢索結(jié)果進(jìn)行相似性檢測比對去重,經(jīng)去重和排序后,以統(tǒng)一格式將結(jié)果返回客戶端Web頁面。最后查收查引工作人員由Web頁面提交請求,生成格式規(guī)范的引證報告。
系統(tǒng)采用.NET框架作為開發(fā)平臺,使用標(biāo)準(zhǔn)的Internet協(xié)議創(chuàng)建分布式Web應(yīng)用,使用IIS服務(wù)器為應(yīng)用提供運行環(huán)境。用戶登錄到系統(tǒng)后顯示的Web頁面如圖2所示。系統(tǒng)缺省對中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)、中國科學(xué)引文數(shù)據(jù)庫(CSCD)、中國生物醫(yī)學(xué)期刊引文數(shù)據(jù)庫(CMCI)4個數(shù)據(jù)源進(jìn)行統(tǒng)一檢索,用戶也可只對其中的部分進(jìn)行查收查引檢索。
圖2 系統(tǒng)Web頁面
檢索分為以下兩個步驟。
第一步是收錄檢索。用戶登錄后,輸入檢索條件,點擊“開始檢索”向服務(wù)器發(fā)出檢索請求。檢索服務(wù)總線根據(jù)配置信息,把檢索條件轉(zhuǎn)換成對應(yīng)于不同數(shù)據(jù)源的實際檢索條件,并發(fā)地向所有數(shù)據(jù)源檢索系統(tǒng)發(fā)出檢索請求。數(shù)據(jù)源檢索系統(tǒng)完成檢索任務(wù)后將檢索結(jié)果傳回檢索服務(wù)總線,然后總線從各數(shù)據(jù)源返回的檢索結(jié)果中提取元數(shù)據(jù),按“題名+第一作者+刊名+年份”進(jìn)行分組,將不同數(shù)據(jù)源的同一篇文獻(xiàn)分到一個文獻(xiàn)組內(nèi)。例如,檢索廣州呼吸疾病研究所的鐘南山于2005-2015年發(fā)表在《中華醫(yī)學(xué)雜志》上的關(guān)于“慢性阻塞性肺疾病”論文收錄及被引情況。從圖3可以看出,多個數(shù)據(jù)源檢索的檢索結(jié)果被分成了多個組,每個組代表1篇文獻(xiàn)。
圖3收錄檢索條件與結(jié)果頁面
第二步是選擇結(jié)果文獻(xiàn)進(jìn)行查引。勾選圖3中“文獻(xiàn)分組:文獻(xiàn)2”,選擇題名為 “簡易太極拳鍛煉對慢性阻塞性肺疾病患者運動耐力和生活質(zhì)量的影響”分組中的3篇文獻(xiàn),點擊“開始查引”則該篇文獻(xiàn)的被引情況會按“題名+第一作者+刊名+年份”去重排序后顯示(圖4)。
圖4引文檢索結(jié)果頁面
經(jīng)檢索服務(wù)總線自動整合去重后,還有部分引文因存在錄入環(huán)節(jié)的格式錯誤需要人工干預(yù)對引文列表進(jìn)行審查去重,最后形成圖 5所示的引證報告,用戶可直接輸出或下載。
圖5 引證報告
跨庫檢索是以多個分布式異構(gòu)數(shù)據(jù)源為對象的檢索系統(tǒng)[8]。系統(tǒng)提供統(tǒng)一的檢索界面,用戶輸入檢索條件后,系統(tǒng)將用戶的檢索條件轉(zhuǎn)化為不同分布式異構(gòu)數(shù)據(jù)源的檢索表達(dá)式,并發(fā)檢索多個分布式異構(gòu)數(shù)據(jù)源。由于未獲得后端數(shù)據(jù)源廠商可公開訪問的API接口,跨庫檢索系統(tǒng)只能通過頁面分析方法對多個后端數(shù)據(jù)源進(jìn)行集成檢索。頁面分析方法通過打開網(wǎng)絡(luò)流量分析工具,抓取http請求與響應(yīng)數(shù)據(jù)進(jìn)行分析比對,找到參數(shù)部分,然后將新參數(shù)封裝進(jìn)http請求并發(fā)送,接收到http響應(yīng)后對html頁面進(jìn)行分析并提取元數(shù)據(jù)。該方法雖適用于所有的Web系統(tǒng)的集成,但當(dāng)后端數(shù)據(jù)源頁面發(fā)生變化時應(yīng)及時調(diào)整。
通過firefox插件的firebug進(jìn)行網(wǎng)絡(luò)流量分析。首先用firefox瀏覽萬方專業(yè)檢索頁面,啟用firebug進(jìn)行網(wǎng)絡(luò)流量監(jiān)測抓取,輸入檢索表達(dá)式如“題名:(慢性阻塞性肺疾病) * 創(chuàng)作者:(鐘南山) * 作者單位:(廣州呼吸疾病研究所) * 期刊-刊名:(中華醫(yī)學(xué)雜志)”,點擊“檢索”,通過firebug中的網(wǎng)絡(luò)面板,對http請求與響應(yīng)進(jìn)行分析?;诰W(wǎng)絡(luò)流量分析,檢索條件對應(yīng)的萬方系統(tǒng)http請求詳見表1。
表1 對應(yīng)的萬方系統(tǒng)http請求
從萬方頁面源代碼可看出,編碼使用的是UTF-8,因此中文字符還需轉(zhuǎn)換為UTF-8格式。然后發(fā)出http請求并得到http響應(yīng)。接收到http響應(yīng)后通過html頁面查看源代碼,查看包含的檢索結(jié)果文獻(xiàn),也可利用firebug直接找到結(jié)果文獻(xiàn)部分。然后利用XPATH和正則表達(dá)式匹配進(jìn)行頁面數(shù)據(jù)分析,找到有效信息,部分提取出檢索結(jié)果文獻(xiàn)的元數(shù)據(jù)包括題名、作者、刊名、年份、卷期、文獻(xiàn)類型、被引次數(shù)、URL地址。引文檢索可直接通過URL地址訪問結(jié)果文獻(xiàn),通過頁面分析提取引證文獻(xiàn)元數(shù)據(jù)。3.2 相似文獻(xiàn)檢測
相似重復(fù)記錄的檢測與消除是跨庫檢索的重要功能,也是多數(shù)據(jù)源合并研究的熱點[9]。多數(shù)據(jù)源采集的文獻(xiàn)數(shù)據(jù)需要結(jié)合精確匹配和模糊匹配方法,由系統(tǒng)有效檢測重復(fù)文獻(xiàn),自動將相似度高的文獻(xiàn)歸類到一個文獻(xiàn)組,不同的文獻(xiàn)歸類到不同的文獻(xiàn)組。相似文獻(xiàn)檢測算法偽代碼如下:
其中,compare ()函數(shù)用于比較兩篇文獻(xiàn)的相似性,相似文獻(xiàn)被歸于同一組。用于比較的文獻(xiàn)元數(shù)據(jù)從數(shù)據(jù)源的http響應(yīng)中提取,包括題名、作者、刊名、年份。文獻(xiàn)分組與去重時,可用“年份+第一作者+刊名”進(jìn)行精確匹配。文獻(xiàn)題名通常包含中文字符、英文字符、上下標(biāo)、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)、標(biāo)點符號等,在錄入時容易受全角半角、錄入錯誤等影響,應(yīng)先進(jìn)行格式轉(zhuǎn)換預(yù)處理后采用模糊匹配,即采用Levenshtein算法計算兩個題名字符串之間的編輯距離。
引證報告是重要的檢索評價工具。通過引證報告可了解文獻(xiàn)的被引用情況,為科研人員客觀了解自身的學(xué)術(shù)影響力,提供公正、合理、科學(xué)、客觀的評價依據(jù),在科研管理和科學(xué)評價方面有重要的作用。解放軍醫(yī)學(xué)圖書館在原有C/S系統(tǒng)基礎(chǔ)上[10]開發(fā)的基于Web的中文期刊查收查引跨庫檢索系統(tǒng),使用戶不再需要安裝客戶端軟件,提高了軟件適應(yīng)性。根據(jù)后端數(shù)據(jù)源的變化調(diào)整了頁面抓取過程。模糊匹配采用編輯距離計算相似度進(jìn)行相似性文獻(xiàn)檢測分組與去重,輸出格式統(tǒng)一規(guī)范的引證報告。
系統(tǒng)通過跨庫檢索屏蔽異構(gòu)數(shù)據(jù)源的差異,使用戶能通過統(tǒng)一的客戶端Web頁面同時檢索多個異構(gòu)數(shù)據(jù)源,通過頁面分析方法轉(zhuǎn)換檢索表達(dá)式并發(fā)檢索后端多數(shù)據(jù)源,通過頁面元數(shù)據(jù)提取和相似文獻(xiàn)檢測對文獻(xiàn)進(jìn)行分組和去重排序,自動生成統(tǒng)一格式的引證報告,簡化了查新查引工作人員的工作,減少了人工錯誤和重復(fù)性勞動,提高了工作效率。目前該系統(tǒng)已經(jīng)在醫(yī)院、圖書館、研究所等多家機(jī)構(gòu)推廣使用。從用戶使用效果和查收查引的發(fā)展來看,系統(tǒng)還有需要完善的地方,主要體現(xiàn)在只集成檢索了中文引文數(shù)據(jù)源,未將SCI、EI、ISTP等外文數(shù)據(jù)源集成進(jìn)來,缺少區(qū)分自引他引的功能。