■董文革 王 玥 劉 謙 李 梅 劉 爽
1)《中華血液學(xué)雜志》編輯部,天津市和平區(qū)南京路288號 300020,E-mail:dongwg@sina.com
2)《中國肺癌雜志》編輯部,天津市和平區(qū)南京路228號 300020,E-mail:wangyue81@gmail.com
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,傳統(tǒng)出版業(yè)正經(jīng)歷著一場前所未有的數(shù)字化變革。從21世紀(jì)90年代起,陸續(xù)出現(xiàn)了CNKI、萬方、維普等大型文獻(xiàn)數(shù)據(jù)庫,基本實現(xiàn)了文獻(xiàn)形態(tài)和檢索方式的數(shù)字化[1]。與此同時,越來越多的科技期刊建立了獨(dú)立的網(wǎng)絡(luò)出版平臺,集采編、在線辦公、網(wǎng)絡(luò)發(fā)布為一體,在提升期刊品牌形象,加快數(shù)字化建設(shè),擴(kuò)大期刊影響力等方面都發(fā)揮了重要的作用[2]。
期刊作為一種連續(xù)性出版物,它最基本的特性是出版的連續(xù)性[3]。因此,期刊的數(shù)字化過刊回溯在網(wǎng)絡(luò)環(huán)境下的期刊質(zhì)量建設(shè)中具有非常重要的意義,是期刊實現(xiàn)數(shù)字化、網(wǎng)絡(luò)化的一項重要工作。然而,僅完成過刊回溯上網(wǎng)對提高期刊的展示度作用有限,因為沒有鏈接進(jìn)入的單刊網(wǎng)站只是個信息孤島,我們要想方設(shè)法借助一些權(quán)威網(wǎng)站、數(shù)據(jù)庫為本刊網(wǎng)站帶來更多的流量?!吨腥A血液學(xué)雜志》與《中國肺癌雜志》在這方面進(jìn)行了嘗試,在完成過刊回溯上網(wǎng)工作的同時,利用PubMed LinkOut服務(wù)實現(xiàn)了全部文章的PubMed可檢索及鏈接到期刊網(wǎng)站全文的功能。本文以這兩本雜志為例,介紹實現(xiàn)過刊數(shù)字化回溯及PubMed全文鏈接的過程,探討過刊回溯對期刊質(zhì)量建設(shè)的重要意義,供廣大醫(yī)學(xué)科技期刊同行參考。
我國科技期刊數(shù)量龐大,內(nèi)容豐富,很多期刊經(jīng)過數(shù)十年的積累,過期期刊已普遍成為圖書館館藏的重要組成部分[4]。然而,隨著數(shù)字出版媒體的快速發(fā)展和無線移動終端的不斷普及,我們正迅速走向無紙化社會,各類大型電子文獻(xiàn)數(shù)據(jù)庫已成為讀者查閱文獻(xiàn)的主要目標(biāo),越來越少的作者會到圖書館查閱資料。與此同時,我國科技期刊的數(shù)字化、網(wǎng)絡(luò)化工作起步較晚,科技期刊的網(wǎng)絡(luò)出版平臺基本上都是在近些年建立起來的,同時受當(dāng)時人力、物力、財力所限,大多數(shù)期刊僅將現(xiàn)刊上網(wǎng),最終導(dǎo)致了大量的過刊沉睡在圖書館與編輯部的倉庫里而得不到利用。因此,如何對大量沉睡于書庫的過刊資源進(jìn)行深層次的開發(fā)利用,已成為廣大科技期刊工作者亟需面對解決的問題。
一項調(diào)查[5]結(jié)果顯示,STM在線出版平臺上20%~25%的下載文章,至少是5年前發(fā)表的。較早的學(xué)術(shù)論文對科學(xué)研究具有一定的指導(dǎo)意義和潛在價值,研究者在發(fā)表新見解的同時,必然會參考較早的研究成果。因此,提供過刊論文在線檢索、閱覽和下載勢必會受到科研人員的歡迎,重新煥發(fā)過刊論文的二次生命,加快促進(jìn)科研進(jìn)展。20世紀(jì)90年代,美國出現(xiàn)了JSTOR、MUSE等期刊文獻(xiàn)回溯數(shù)據(jù)庫,一些國外著名出版商 Springer、Nature、OUP、Elsevier等都完成了回溯數(shù)據(jù)庫的建設(shè)。國內(nèi)期刊的數(shù)字化、網(wǎng)絡(luò)化工作起步較晚,因此在過刊數(shù)字化回溯方面還有很大的發(fā)展空間。
過刊數(shù)字化回溯是將全部印刷版期刊(從第1卷第1期起)掃描成常用閱讀格式的文件(如PDF),與現(xiàn)刊在線版一樣發(fā)布在期刊網(wǎng)絡(luò)出版平臺上,同時提供目錄及摘要信息,供讀者閱覽、下載[6]。對于創(chuàng)刊較早、歷史悠久的期刊,過刊回溯工作量龐大,通常分批進(jìn)行過刊數(shù)字化回溯。相比于紙質(zhì)過刊管理,過刊數(shù)字化管理成本較低,網(wǎng)絡(luò)共享程度高,檢索效率高。過刊回溯是期刊質(zhì)量建設(shè)的重要成就,也是期刊全心全意服務(wù)讀者、作者的重要體現(xiàn)。同時,期刊的過刊回溯對于圖書館也有重要意義,使圖書館在獲取、編目、讀者查詢、館際互借等方面為用戶提供更完備、高質(zhì)量的服務(wù)。
技術(shù)方面,過刊回溯主要通過高分辨率地掃描印刷版期刊,生成過刊文章的PDF文檔及每頁TIFF圖像文件,同時提取生成每期期刊與每篇文章的元數(shù)據(jù)信息,并使用OCR軟件處理每頁圖像,輸出XML文件以支持全文檢索。經(jīng)過一系列自動化及人工的質(zhì)量檢查后,數(shù)字化過刊文檔即可入庫供讀者使用[6]。
在數(shù)字化出版時代,國內(nèi)越來越多的科技期刊自建了OA網(wǎng)絡(luò)出版平臺,提供免費(fèi)全文下載,過刊數(shù)字化回溯的工作也在逐步推進(jìn)。但一個沒有檢索系統(tǒng)、推介網(wǎng)站鏈接進(jìn)入的單刊全文平臺只是一個信息孤島。幾乎沒有讀者能夠記住并直接在瀏覽器地址欄中輸入某個期刊網(wǎng)站的域名來訪問我們的網(wǎng)站。因此,即使我們的網(wǎng)站功能完備、內(nèi)容豐富、過刊回溯連續(xù)完整,讀者都很少有機(jī)會看到,失去了過刊回溯的大部分意義。在這方面,《中華血液學(xué)雜志》與《中國肺癌雜志》進(jìn)行了嘗試,利用作為PubMed收錄期刊的得天獨(dú)厚的優(yōu)勢,通過PubMed過刊回溯與LinkOut全文鏈接搭建了檢索系統(tǒng)與單刊網(wǎng)站的橋梁,提高了網(wǎng)站的訪問量,充分發(fā)揮過刊的資源優(yōu)勢,提升期刊在國際同行間的展示度。
MEDLINE是美國國立醫(yī)學(xué)圖書館(U.S.National Library of Medicine)最重要的書目文摘數(shù)據(jù)庫,內(nèi)容涉及醫(yī)學(xué)、護(hù)理學(xué)、牙科學(xué)、獸醫(yī)學(xué)、衛(wèi)生保健和基礎(chǔ)醫(yī)學(xué)。收錄了全世界70多個國家和地區(qū)的4 000余種生物醫(yī)學(xué)期刊,現(xiàn)有書目文摘條目1 000萬余條。PubMed系統(tǒng)是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的用于檢索 MEDLINE、PreMEDLINE數(shù)據(jù)庫的網(wǎng)上檢索系統(tǒng)。PubMed具有權(quán)威、免費(fèi)、檢索功能強(qiáng)大、個性化定制功能豐富等優(yōu)點(diǎn),是目前國際上使用最廣泛、影響力最大的生物醫(yī)學(xué)信息資源檢索系統(tǒng)[7]。
國際著名學(xué)術(shù)期刊出版商Elsevier、Springer等旗下的PubMed收錄期刊都實現(xiàn)了PubMed過刊回溯,及LinkOut鏈接到出版商網(wǎng)絡(luò)平臺的文章全文。PubMed現(xiàn)收錄中國出版的科技期刊120余種,只有少數(shù)期刊完成了PubMed過刊回溯和LinkOut全文鏈接,非常不利于向國際同行展示自己的學(xué)術(shù)成果。
LinkOut是NCBI提供的一項允許第三方將特定的NCBI數(shù)據(jù)庫記錄與相關(guān)網(wǎng)絡(luò)資源進(jìn)行連接的服務(wù)。通常情況下,出版商及其他全文提供商使用LinkOut提供從PubMed條目到他們的在線期刊全文的鏈接。鏈接提供者負(fù)責(zé)鏈接信息的提供和鏈接的日常維護(hù)[8]。
所有被PubMed收錄的期刊均可申請使用LinkOut服務(wù),出版商在提交全文鏈接之前務(wù)必保證對應(yīng)的論文條目電子數(shù)據(jù)已提交完畢。在開始使用LinkOut服務(wù)之前,鏈接提供者需要向LinkOut客服郵箱發(fā)送申請郵件,郵件要提供申請者的名稱、郵箱、聯(lián)系人電話、PubMed帳號、期刊名稱、ISSN、在線全文的訪問限制等信息。并準(zhǔn)備兩個XML文件:標(biāo)識文件(identify file)和資源文件(resource file)。標(biāo)識文件包含鏈接提供者組織機(jī)構(gòu)的信息;資源文件描述需要鏈接的PubMed條目,并包含LinkOut需要的用于生成鏈接的相關(guān)信息[8]。下面簡要介紹這兩個文件的功能和制作方法。
標(biāo)識文件包含在LinkOut列出的鏈接提供商的基本信息,如ProviderId,名稱,網(wǎng)址等。該文件必須為純文本文件,使用記事本等文本編輯器進(jìn)行編輯,文件須命名為 providerinfo.xml,并且大小寫敏感。圖1所示為一個providerinfo.xml文件示例,該鏈接提供者為 Good Publisher,Inc.,ProviderId為8888。
圖1 providerinfo.xm l文件示例
資源文件描述生成鏈接的PubMed條目,并包含LinkOut生成鏈接時需要的信息。文件中提供的鏈接必須直接指向文章全文,而不能在讀者點(diǎn)擊后再進(jìn)行額外的搜索動作。資源文件后綴名為.xml,文件名稱可以包含字母數(shù)字和下劃線,不允許使用特殊字符和空格,鏈接提供者可根據(jù)需要提交多個資源文件。圖2所示的資源文件描述了JCell Biol在線全文的鏈接。資源文件主要包含兩個功能:選取PubMed記錄(<ObjectList>)、為記錄生成鏈接(<ObjectUrl>),下面分別介紹兩部分代碼的編寫方法。
圖2 resource文件示例
<ObjectList>標(biāo)簽用于選擇NCBI數(shù)據(jù)庫中的記錄,資源文件中描述的鏈接將被應(yīng)用在這些記錄上。<ObjectList>可以包含一個或多個<ObjId>或<Query>子元素。 <ObjId>元素包含記錄的PMID,<Query>元素包含一個有效的PubMed檢索,通過這兩種方式獲取到的記錄都會應(yīng)用<ObjectUrl>元素中的描述生成對應(yīng)鏈接。圖3,圖4分別給出了使用<ObjId>和<Query>元素檢索記錄的示例代碼。
<ObjectUrl>用于描述在線全文的鏈接,它包含<Base>、<Rule>、<SubjectType>和<Attribute>4個子元素,其中<Base>和<Rule>連接在一起形成鏈接的URL,<SubjectType>和<Attribute>描述記錄被鏈接到的資源。<Base>是所選記錄全文URL的固定部分,通常是提供商網(wǎng)站的URL;<Rule>包含URL其余可變的部分。圖5給出了使用<Base>+<Rule>描述鏈接的例子,其中鏈接的可變部分的構(gòu)成方式為“issn/卷/頁碼”。
圖3 使用〈ObjId〉選擇記錄示例
圖4 使用〈Query〉選擇記錄示例
圖5 使用〈Base〉+〈Rule〉描述鏈接
《中華血液學(xué)雜志》于1980年創(chuàng)刊,由中華醫(yī)學(xué)會主辦,現(xiàn)為北大中文核心期刊、中國科技論文統(tǒng)計源期刊,同時被國內(nèi)外多家檢索系統(tǒng)收錄。該刊于1997年被MEDLINE收錄,由中華醫(yī)學(xué)會負(fù)責(zé)PubMed每期文章元數(shù)據(jù)的提交,目前在PubMed可檢索文章2400余條。《中華血液學(xué)雜志》于2012年采用瑪格泰克網(wǎng)刊發(fā)布系統(tǒng)建立了期刊的官方網(wǎng)站。網(wǎng)站提供文章摘要和PDF全文的瀏覽、下載,編輯部正積極開展本刊網(wǎng)站的過刊回溯工作,目前已回溯至2011年。
《中國肺癌雜志》于1998年創(chuàng)刊,由天津醫(yī)科大學(xué)總醫(yī)院主辦,現(xiàn)為中國科技論文統(tǒng)計源期刊,北大中文核心期刊,同時被CA、EMBASE、EBSCO等檢索系統(tǒng)收錄。該刊于2010年7月被MEDLINE收錄,由編輯部自行制作提交每期元數(shù)據(jù)文件及LinkOut鏈接文件,目前在PubMed可檢索文章1800余條?!吨袊伟╇s志》于 2008年使用 Open Journal Systems(OJS)搭建了網(wǎng)絡(luò)全文平臺,并于2011年3月完成過刊回溯工作。自1998年創(chuàng)刊第1卷第1期第1篇文章開始,至今發(fā)表在本刊的所有文章都已實現(xiàn)PDF全文上網(wǎng)發(fā)布在本刊網(wǎng)站(www.lungca.org)。在回溯過刊的過程中,為了方便后期生成PubMed LinkOut全文鏈接,我們?yōu)樗羞^刊文章分配并注冊一個DOI號,同時在文章的PDF文件中添加對應(yīng)的DOI號。
對于歷史較久遠(yuǎn)的刊期如何生成PDF文件的問題,兩種期刊分別做了不同的嘗試?!吨腥A血液學(xué)雜志》保留有過刊的方正排版文件,編輯部使用轉(zhuǎn)換工具自行轉(zhuǎn)成PDF。而《中國肺癌雜志》曾遷址,很難再找到過刊當(dāng)年的排版文件,因此選擇從CNKI和萬方數(shù)據(jù)庫中下載文章的PDF全文。
《中國肺癌雜志》于2010年7月被PubMed收錄,MEDLINE批準(zhǔn)索引的該刊論文從2010年1月出版的第13卷第1期開始。為了更好地保證期刊數(shù)據(jù)在PubMed檢索平臺的連續(xù)性、完整性,編輯部與NCBI數(shù)據(jù)提供支持小組溝通之后,獲準(zhǔn)向PubMed提交2010年前的文章數(shù)據(jù)。過刊數(shù)據(jù)的制作提交方式與現(xiàn)刊相同。盡管這些過刊記錄不會被MEDLINE索引,也就是說它們不包含一些額外的功能,如MeSH主題詞等,但所有記錄都是可以在PubMed檢索到的,這已經(jīng)能夠基本滿足一本迫切希望提高網(wǎng)站文章訪問量、下載量,提升國際同行間展示度的中文期刊的需求。
《中華血液學(xué)雜志》目前在PubMed上已回溯至1997年,更進(jìn)一步的回溯工作會在完成1997年至今本刊網(wǎng)站及LinkOut鏈接的回溯工作之后進(jìn)行。
如2.2.2節(jié)所述,在制作LinkOut資源文件時有兩種選擇記錄的方式:使用PMID(<ObjId>)或PubMed(<Query>)檢索。兩種期刊根據(jù)各自的情況,分別選擇這兩種方式編寫資源文件。
在完成本刊網(wǎng)站的過刊回溯后,《中國肺癌雜志》的全部文章都已注冊了DOI,因此可以使用DOI方便地生成所有PubMed條目的鏈接。圖6所示為《中國肺癌雜志》的資源文件,使用 <Query>的PubMed檢索選擇本刊的所有條目,通過“http://dx.doi.org/+DOI”的規(guī)則生成每個條目的全文鏈接。這種方式的資源文件編寫較簡單,短短20行的文件就能完成全部文章LinkOut鏈接的生成任務(wù),且今后無需修改,只要保證向PubMed提交的元數(shù)據(jù)文件中包含了DOI號即可。但前期準(zhǔn)備工作任務(wù)量較大,因DOI在國內(nèi)的流行是近幾年的事,早年的過刊大多沒有分配注冊DOI,所以需要從頭開始完成DOI分配、添加至PDF文件、DOI注冊等一系列工作。
《中華血液學(xué)雜志》自1997年被收錄起,向PubMed提交的注冊文件均沒有包含文章的DOI信息,因此不能使用DOI方式直接生成鏈接。而要使用PMID逐條選擇PubMed條目,并用該文章在本刊網(wǎng)站摘要頁面的URL作為全文鏈接。圖7所示<Link>標(biāo)簽描述的是《中華血液學(xué)雜志》一條PubMed記錄的鏈接:使用 <ObjId>21429408</ObjId>選擇PMID為21429408的記錄,并將它的LinkOut鏈接指定為“http://www.hematoline.com/CN/abstract/abstract582.shtml”。
《中國肺癌雜志》與《中華血液學(xué)雜志》使用的LinkOut鏈接回溯方式差異較大,兩種方式都有各自的適用情況,各有利弊,表1比較了兩種期刊客觀條件的差異及兩種不同實現(xiàn)方式。圖8所示為《中國肺癌雜志》完成過刊回溯后,在PubMed檢索到的1998年創(chuàng)刊號第1篇文章,點(diǎn)擊右上角的“CJLC”圖標(biāo)可直接鏈接到位于本刊網(wǎng)站該篇文章的PDF全文。
圖6 《中國肺癌雜志》資源文件
圖7 《中華血液學(xué)雜志》資源文件節(jié)選
表1 兩種期刊實現(xiàn)LinkOut全文鏈接回溯方式的比較
圖8 《中國肺癌雜志》創(chuàng)刊號第1篇文章
科學(xué)研究具有明顯的繼承性和延續(xù)性,過刊論文對于科研的主題查新、成果鑒定及回溯檢索都具有重要的參考價值。傳統(tǒng)的過刊信息檢索主要通過書本式索引和館藏目錄的方式,隨著期刊數(shù)字化、網(wǎng)絡(luò)化的不斷發(fā)展,越來越多的用戶開始使用計算機(jī)網(wǎng)絡(luò)檢索作為主要手段來獲取信息。目前國外各大商業(yè)出版社和學(xué)會的在線出版平臺及數(shù)據(jù)庫都完成了過刊數(shù)字化回溯,如Elsevier,OUP,Springer,JSTOR,PMC等。近年來,國內(nèi)數(shù)據(jù)庫及期刊社也在積極開展過刊回溯工作。很多期刊也搭建了自己的網(wǎng)絡(luò)全文平臺,完成過刊回溯,發(fā)布文章的PDF和HTML格式全文。然而一個獨(dú)立的單刊網(wǎng)站不會被太多讀者注意到,作為辦刊者需要考慮到是如何為網(wǎng)站帶來更多的訪問量和文章下載量,讓更多讀者讀到我們的文章,從而提升期刊的展示度。
《中華血液學(xué)雜志》與《中國肺癌雜志》在建立了網(wǎng)絡(luò)全文平臺后都開展了該刊網(wǎng)站的過刊回溯工作。同時,作為PubMed收錄期刊,也進(jìn)行了過刊PubMed條目回溯,并利用PubMed提供的LinkOut服務(wù)為期刊所有PubMed條目建立了LinkOut全文鏈接。
實踐證明,過刊回溯結(jié)合PubMed LinkOut鏈接能為網(wǎng)站文章的訪問量帶來明顯提升。《中華血液學(xué)雜志》在2013年5月使用DOI為PubMed條目生成鏈接后,DOI解析量由4月份的3次躍升為5月份835次和6月份1236次?!吨袊伟╇s志》自2011年3月完成過刊回溯以來,DOI月解析量一直保持在8000多次。極大地提高了文章的展示度,將期刊網(wǎng)絡(luò)全文平臺和過刊回溯工作的價值最大化,有效提升期刊在國際同行間的展示度,增加文章下載量和被引用的機(jī)會,對提高期刊影響力有明顯促進(jìn)作用。
目前國內(nèi)編輯部主要使用手工方式制作元數(shù)據(jù),而國外主流出版商大多已實現(xiàn)元數(shù)據(jù)的自動提取、上傳,極大地提高了過刊回溯工作的效率和質(zhì)量,這也是我們今后進(jìn)一步努力的方向。總之,完成期刊的過刊數(shù)字化回溯及PubMed LinkOut全文鏈接能夠重新煥發(fā)醫(yī)學(xué)期刊過刊論文的二次生命,提高期刊的展示度和網(wǎng)站文章的訪問量、下載量,對提升期刊影響力和國際展示度有一定的積極作用,是學(xué)術(shù)期刊全心全意為讀者、作者服務(wù)的重要體現(xiàn)。
1 顧凱,鄒栩.我國藥學(xué)期刊的網(wǎng)站建設(shè)現(xiàn)狀與分析.中國科技期刊研究,2013,24(1):29-32
2 程維紅,任勝利,路文如等.中國科技核心期刊網(wǎng)站建設(shè)現(xiàn)狀.中國科技期刊研究,2011,22(5):649-655
3 周月琴.關(guān)注網(wǎng)絡(luò)環(huán)境下期刊的連續(xù)性.圖書館雜志,2009,28(1): 35-37
4 華薇娜,許美琪.美國過刊數(shù)據(jù)庫概況及對我國開發(fā)過刊數(shù)據(jù)庫的思考.中國圖書館學(xué)報,2004,30(4):75-77
5 Jan Willem Wijren.Journal backfiles in scientific publishing-a marketwhite paper.British Labrary[2013-07-11].http://www.bl.uk/reshelp/atyourdesk/docsupply/productsservices/digitisation/journalbackfileswhitepaper.pdf
6 劉金銘.國外過刊數(shù)字化和數(shù)字檔案庫進(jìn)展.中國科技期刊研究,2013,24(2):223-232
7 林曉華,鐘伶.基于PubMed開展學(xué)科服務(wù)的探索.圖書館學(xué)研究,2013,34(4):56-58
8 [2013-07-13].http://www.ncbi.nlm.nih.gov/projects/linkout/doc/publinkout.html