■羅 新
華南理工大學(xué)工商管理學(xué)院,廣東省廣州市天河區(qū)五山路381號 510641
開放獲取(Open Access,OA)是在網(wǎng)絡(luò)環(huán)境下發(fā)展起來的新型學(xué)術(shù)交流理念和交流機制[1-2]。隨著網(wǎng)絡(luò)的普及,OA期刊促進了信息傳播,推動了學(xué)術(shù)繁榮,已經(jīng)成為重要的學(xué)術(shù)資源。OA期刊的快速發(fā)展,離不開世界各國政府、國際組織、科研機構(gòu)、出版商以及圖書館的共同支持[3-4]。2014年,李克強總理在全球研究理事會北京大會上的致辭中強調(diào)“中國奉行互利共贏的開放戰(zhàn)略”“支持建立公共財政資助的科學(xué)知識開放獲取機制,促進中國和世界科學(xué)事業(yè)共同發(fā)展”。以此為契機,我國在OA方面也取得了值得肯定的成果[5]。
OA期刊的基本形式為電子期刊,以網(wǎng)絡(luò)獲取為主,不像紙質(zhì)文獻具有有形的實體可以保存。因此,需要特定的方案來保證OA期刊長期、穩(wěn)定地被訪問。早在20世紀90年代,國外已經(jīng)正式開展了關(guān)于數(shù)字文獻資源長期保存、長期訪問的研究活動。該領(lǐng)域的研究已經(jīng)走過了基礎(chǔ)理論探討、個體實驗、實踐3個過程[6]。目前,國外研究人員還在為完善數(shù)字資源的長期保存機制而繼續(xù)努力[7]?,F(xiàn)階段相對成熟的數(shù)字資源長期保存、訪問的方案為LOCKSS、CLOCKSS和Portico[8-9]。LOCKSS(Lots of Copies Keep Stuff Safe)于1999 年開始運行,采用聯(lián)盟制,會員分為電子期刊出版商和圖書館2類。其中,電子期刊出版商既包括STM(Science,Technology and Medicine)大型出版社,也包括大量開放獲取期刊目錄(DOAJ)小型出版商。CLOCKSS(Controlled LOCKSS)是LOCKSS的改進版,該方案優(yōu)選出小部分圖書館和出版商來完成電子期刊保存任務(wù),而不是像LOCKSS一樣由全部成員共同承擔(dān)保存任務(wù)。Portico開始于2002 年,采用第三方資源保存機構(gòu)來解決電子期刊的保存問題。2008年11月,數(shù)字圖書館高層論壇首屆年會——《國家數(shù)字文獻資源長期保存服務(wù)體系建設(shè)》在北京召開,會議正式啟動了我國數(shù)字文獻資源的長期保存體系的建設(shè)。但國內(nèi)對于數(shù)字文獻長期保存、長期訪問的研究還相對滯后[10]。
雖然國際上已經(jīng)提出了各種各樣關(guān)于電子資源長期保存、長期訪問的方案,但是針對OA期刊的方案非常少。DOAJ(https:∥doaj.org/)是由瑞典隆德大學(xué)(Lund University)圖書館于2003年主辦的一個組織、檢索OA期刊的工具。DOAJ作為目前國際上最綜合的一個OA期刊索引,只有8%的DOAJ期刊被LOCKSS或者CLOCKSS保存,在Portico中保存的更少,所占比例僅為5%[11]。如何保障OA期刊能夠長期、可靠、穩(wěn)定地被現(xiàn)代和未來的人類使用,如何促進人類智力成果長期保存和長效利用,日益成為國際關(guān)注的焦點。
各國學(xué)者開展了多方面關(guān)于文獻可達性的研究。較多學(xué)者分別研究了醫(yī)學(xué)[12-14]、圖書館與信息科學(xué)[15-17]、人類與社會科學(xué)[18]、生物信息學(xué)[19]等學(xué)科期刊參考文獻中網(wǎng)絡(luò)引文的可達性以及統(tǒng)一資源定位符(URL)衰減率。但上述研究都局限于各自的學(xué)科范圍,并且網(wǎng)絡(luò)引文也不特指OA期刊。僅有少數(shù)學(xué)者開展了包含OA期刊可達性的研究。Agashe等[20]分析了DOAJ收錄的48種商業(yè)管理類期刊的國家、語言、主題詞表、可達性等特征。Graziotin等[21]提出OA期刊分析框架,該框架包含18個核心屬性,分別為書目信息、活動度量、經(jīng)濟學(xué)、可訪問性和掠奪性等,并使用該框架系統(tǒng)地分析了30種軟件工程和信息系統(tǒng)學(xué)科的OA期刊。高麗等[22]在DOAJ中選取了4種具有國際影響力的OA期刊,以2001—2010年發(fā)表的電子期刊論文為數(shù)據(jù)樣本,按照不同學(xué)科深入分析了網(wǎng)絡(luò)引文的引用情況,通過期刊文獻半衰期測度,比較研究了OA期刊的利用率。譚貝加[23]以DOAJ收錄的我國醫(yī)學(xué)期刊作為研究對象,分析探討了OA期刊在認可度、出版時效、網(wǎng)站建設(shè)、運行資金、論文質(zhì)量方面存在的各種問題。然而,這些研究也都是針對特定學(xué)科,不是以O(shè)A期刊可達性為研究主題。本文將從源頭出發(fā),不局限于某門學(xué)科、某個國家或者地區(qū)、某一特定主題或者文獻,以DOAJ元數(shù)據(jù)包含的所有OA期刊為對象,調(diào)查OA期刊的可達性和持續(xù)性。
通過3次網(wǎng)絡(luò)調(diào)研來調(diào)查DOAJ收錄的全部OA期刊的可達性和穩(wěn)定性。調(diào)查對象為DOAJ元數(shù)據(jù),該元數(shù)據(jù)為采用UTF-8編碼的CSV格式數(shù)據(jù),通過DOAJ官方網(wǎng)站下載。2017年5月8日下載的元數(shù)據(jù)包含來自118個國家或地區(qū)的9443種期刊,涵蓋20個學(xué)科,共收錄論文2497533篇。前2次調(diào)研使用Excel宏自動完成,第3次調(diào)研利用人工測試。3次調(diào)研間隔1個月,分別開始于2017年5月15日,2017年6月15日和2017年7月15日。使用VBA編寫Excel宏,運行Excel宏可對DOAJ元數(shù)據(jù)中每種期刊的“Journal URL”欄進行批量訪問。根據(jù)RFG2616標準[24],采用HTTP請求方法中的HEAD請求,HEAD請求可以檢查超鏈接的有效性、可用性和最近的修改。在有限速度和帶寬下,HEAD請求能夠更快、更準確地提供調(diào)研所需要的信息。HEAD請求可以返回HTTP狀態(tài)碼,通過對返回狀態(tài)碼的統(tǒng)計,分析各OA期刊的訪問情況。為了確保調(diào)研的準確性,前2次重復(fù)調(diào)查,以免暫時不可達的OA期刊影響實驗結(jié)果。整理前2次調(diào)研結(jié)果,得到暫時不可達OA期刊集合,該集合是第3次調(diào)研即人工測試的對象。人工測試可以糾正自動訪問引起的結(jié)果偏差,比如某些OA期刊出版商使用的軟件或者網(wǎng)站服務(wù)器可能拒絕Excel宏的HEAD請求。最后的調(diào)研結(jié)果顯示,拒絕Excel宏HEAD請求的情況并不少見,人工測試非常有必要。
前2次的調(diào)研結(jié)果統(tǒng)計見表1。如表1所示,2次自動調(diào)研的統(tǒng)計結(jié)果非常相似。第1次調(diào)研的HTTP請求成功率為55.80%,第2次為56.49%。另外,分別有34.54%和35.19%的“Journal URL”能夠在重定向后成功訪問??傮w而言,分別高達90.34%和91.68%的“Journal URL”能夠以某種方式可達;9.66%(912種)和8.32%(786種)的“Journal URL”返回錯誤信息,無法成功訪問。
表1 調(diào)研1和調(diào)研2的結(jié)果統(tǒng)計
3次調(diào)研錯誤代碼對比統(tǒng)計分析見表2。如表2所示,錯誤代碼“操作超時”是“Journal URL”不可達的最主要原因,分別占錯誤總量的50.11%和46.82%?!安僮鞒瑫r”可能由各種各樣的原因引起,可能是網(wǎng)站服務(wù)器出現(xiàn)故障,也可能是網(wǎng)絡(luò)斷開、使用的軟件不兼容,或者程序出錯?!安僮鞒瑫r”有可能是暫時的,也可能是永久的。2次結(jié)果中,排名第2的原因都是“無法解析服務(wù)器的名稱或地址”。排名第3~5的訪問錯誤原因數(shù)量只有細微的差別。錯誤代碼“403-Forbidden”(服務(wù)器理解請求客戶端的請求,但是拒絕執(zhí)行此請求)和“500-Internal Server Error”(服務(wù)器內(nèi)部錯誤,無法完成請求)表明,運行Excel宏自動訪問OA期刊的方式可能被期刊服務(wù)器限制。這類期刊可能可被成功訪問,但是不允許調(diào)研中使用的Excel宏訪問,第3次人工網(wǎng)絡(luò)調(diào)研可以驗證該問題,使實驗結(jié)果更加準確。
表2 3次調(diào)研錯誤代碼對比統(tǒng)計
注:N1表示在調(diào)研1中出現(xiàn)相應(yīng)錯誤類型的OA期刊數(shù)量;N21表示調(diào)研1中訪問錯誤的期刊在調(diào)研2中能夠成功訪問的OA期刊數(shù)量;N31表示調(diào)研1中訪問錯誤的期刊(排除調(diào)研2中能夠成功訪問的期刊)在調(diào)研3中能夠成功訪問的OA期刊數(shù)量;N2表示在調(diào)研2中出現(xiàn)相應(yīng)錯誤類型的OA期刊數(shù)量;N12表示調(diào)研2中訪問錯誤的期刊在調(diào)研1中能夠成功訪問的OA期刊數(shù)量;N32表示調(diào)研2中訪問錯誤的期刊(排除調(diào)研1中能夠成功訪問的期刊)在調(diào)研3中能夠成功訪問的OA期刊數(shù)量。
前2次自動調(diào)研結(jié)果顯示,至少能夠成功訪問1次的OA期刊共8932種,占比94.59%,即511種期刊2次均無法成功訪問,占比5.41%。整理這511種期刊組成暫時不可達期刊集合,針對該集合進行第3次人工測試。為了避免瀏覽器原因引起的不可訪問,在人工測試過程中,交叉使用了360安全瀏覽器8.1、QQ瀏覽器9.6、Windows Internet Explorer 9.0 3個瀏覽器。第3次調(diào)研成功訪問暫時不可達期刊集合中的172種期刊,大部分為自動訪問中返回“HTTP 403-Forbidden”“HTTP 404-Not Found”“HTTP 500-Internal Server Error”“服務(wù)器返回的信息無效或不可識別”的期刊,占比80.81%。
如表2所示,部分期刊的訪問穩(wěn)定性較差。在調(diào)研1中不可達的期刊共912種,在調(diào)研2中能夠訪問其中的401種,在調(diào)研3中能夠訪問剩余部分的172種。3次調(diào)研后僅有339種期刊無法訪問,占比3.59%。雖然調(diào)研1和調(diào)研2可達期刊的比例接近,分別為90.34%和91.68%,但是可達期刊種類不穩(wěn)定。例如,調(diào)研1中因“操作超時”無法訪問的期刊共457種,在調(diào)研2中能夠訪問其中的280種,但是調(diào)研2又新增了191種因“操作超時”暫不可達期刊;調(diào)研1中因“500-Internal Server Error”無法訪問的68種期刊,在調(diào)研2中能成功訪問其中的15種,然而調(diào)研2又新增了38種因同樣原因暫不可達期刊。表2也證實了開展本調(diào)研的必要性,假如OA期刊像傳統(tǒng)電子期刊一樣,建立長效訪問保障機制,則不用擔(dān)心其潛在的損失風(fēng)險,不用擔(dān)心會突然無法訪問。
綜合3次調(diào)研結(jié)果,共計9104種期刊能夠成功訪問至少1次,占比96.41%,339種期刊在整個調(diào)研過程中始終無法成功訪問,占比3.59%。3次調(diào)研的結(jié)果說明,OA期刊可達性較好,總體可達率達到96.41%。但是通過交叉分析發(fā)現(xiàn),期刊訪問的穩(wěn)定性還有待提高。
3次調(diào)研都不可達的OA期刊共339種,分別由269個出版商發(fā)行,這些出版商來自59個國家或地區(qū)??傮w而言,數(shù)量多、訪問成功率高的國家或地區(qū)大多經(jīng)濟發(fā)達。歐洲經(jīng)濟發(fā)達,參與OA期刊發(fā)行也最多,歐洲國民生產(chǎn)總值(GDP)排名前17的國家共發(fā)行了OA期刊4047種,占全球總量的42.86%,而且可達率較高。英國發(fā)行了834種期刊,發(fā)行期刊數(shù)量歐洲排名第一,全球排名第二,其可達率超過99%。瑞士、荷蘭、德國也發(fā)行了較多OA期刊,其可達率都超過99%。北美洲經(jīng)濟發(fā)達,OA期刊數(shù)量也多,美國和加拿大分別發(fā)行了OA期刊558種和125種,并且可達率較高。南美洲經(jīng)濟相對較弱,雖然OA期刊數(shù)量較多,但是可達率排名相對靠后。巴西發(fā)行了978種OA期刊,位居全球第一,占DOAJ元數(shù)據(jù)中期刊量的10.36%,但是其可達率只有91.51%,由于其基數(shù)大,調(diào)研發(fā)現(xiàn)高達83種期刊無法訪問。墨西哥OA期刊數(shù)量不多,僅94種,其中25種期刊無法訪問,可達率只有73.40%。大洋洲OA期刊參與度不高。澳大利亞和新西蘭分別發(fā)行OA期刊84種和65種,澳大利亞3種OA期刊無法訪問。亞洲的印度尼西亞和印度的OA期刊數(shù)量最多,分別為582種和255種,但是可達率比同量級的歐洲國家低。中國香港、中國臺灣、新加坡、韓國有OA期刊加入DOAJ,其可達率較高,韓國僅有1種期刊無法訪問。中國大陸地區(qū)有72種OA期刊加入了DOAJ,全部能夠成功訪問。超過一半的中東國家沒有OA期刊加入DOAJ。中東地區(qū)最穩(wěn)定的伊朗,發(fā)行了301種OA期刊;較穩(wěn)定的巴基斯坦發(fā)行了49種OA期刊,其可達率處于中游。其他中東國家OA期刊數(shù)量都很少。非洲經(jīng)濟最發(fā)達的經(jīng)濟體——南非和埃及,分別發(fā)行了OA期刊62種和594種,全部能夠成功訪問。
各學(xué)科OA期刊可達率見表3。由表3可知,OA期刊總數(shù)量最多的為醫(yī)學(xué)類,高達2239種,可達率位列第2??蛇_率最高的學(xué)科為歷史輔助學(xué)科,可達率為98.21%。339種不可達期刊的學(xué)科分布非常廣泛,涉及到20個主學(xué)科,173個子學(xué)科,不可達期刊的學(xué)科分布較為均勻,沒有學(xué)科能夠全部訪問。
注:空值表示期刊沒有標明其所屬學(xué)科。
近幾年,我國OA期刊雖然取得一定發(fā)展,許多刊物相繼加入OA行列,但是由于起步較晚,與發(fā)達國家相比仍然存在不小差距。DOAJ 是世界知名的OA期刊目錄,被其收錄的期刊均為通過嚴格審核的OA期刊。以DOAJ元數(shù)據(jù)為研究對象,開展網(wǎng)絡(luò)調(diào)研,調(diào)查了DOAJ收錄的OA期刊的可達性和持續(xù)性。調(diào)查發(fā)現(xiàn)OA期刊可達性較高,達到96.41%,但是訪問持續(xù)性還有待提高。此外,經(jīng)濟發(fā)達的國家或地區(qū),例如北美洲和歐洲,OA期刊數(shù)量較多,可達性也較高。社會不穩(wěn)定地區(qū),例如部分中東國家,OA期刊數(shù)量較少,可達性也較低。中國大陸地區(qū)的OA期刊越來越多,目前已有72種,并且都能夠成功訪問;中國大陸、中國香港和中國臺灣的OA期刊數(shù)量總計136種,全球排名20位,中國臺灣僅有2種期刊無法訪問。各學(xué)科OA期刊數(shù)量差異很大,但是各學(xué)科期刊可達率相差不大。因此,提高OA期刊可達性和持續(xù)性對于提高人類智力成果的利用效率十分重要,值得進一步研究。
[1] 吳文光. 基于OA期刊的高校圖書館資源建設(shè)與學(xué)科服務(wù)探索[J]. 大學(xué)圖書情報學(xué)刊,2014,32(3):66-68.
[2] Fecher B,Friesike S,Wagner G G. A nod to public open access infrastructures[J].Science,2017,356(6344):1242.
[3] 郭進京,彭乃珠,張夢霞,等. 2014年國際開放獲取實踐進展[J]. 圖書情報工作,2015,59(9):119-126.
[4] 許潔,王嘉昀. Open Access 2020戰(zhàn)略背景下的開放獲取期刊出版現(xiàn)狀——第十二屆歐洲學(xué)術(shù)出版會議綜述[J]. 中國科技期刊研究,2017,28(7):593-598.
[5] 賀郝鈺,侯春梅,遲秀麗,等. DOAJ的運作模式及對中國OA期刊的啟示[J]. 中國科技期刊研究,2016,27(8):874-879.
[6] Gust P. Using a digital preservation system to ensure access to online digital content[J].LibraryHiTechNews,2012,29(9):5-9.
[7] Rosenthal D S H. The medium-term prospects for long-term storage systems[J].LibraryHiTech,2017,35(1):11-31.
[8] Mering M. Preserving electronic scholarship for the future:An overview of LOCKSS,CLOCKSS,Portico,CHORUS,and the Keepers Registry[J].SerialsReview,2015,41(4):260-265.
[9] 孫超,吳振新. 國外數(shù)字資源長期保存成熟度模型及其分析與評價[J]. 圖書情報工作,2017,61(1):32-39.
[10] 吳振新. 數(shù)字資源長期保存可信賴認證研究發(fā)展綜述[J]. 中國圖書館學(xué)報,2015,41(3):114-126.
[11] Seadle M. Archiving in the networked world:Open access journals[J].LibraryHiTech,2011,29(2):394-404.
[12] Dellavalle R P,Hester E J,Heilig L F,etal. Going,going,gone:Lost Internet references[J].Science,2003,302(5646):787-788.
[13] Rochon P A,Wu W,Gurwitz J H,etal. Prospective evaluation of the accessibility of Internet references in leading general medical journals[J].Scientometrics,2015,102(2):1375-1384.
[14] Nagaraja A,Joseph S A,Polen H H,etal. Disappearing act:Persistence and attrition of uniform resource locators (URLs) in an open access medical journal[J].Program,2011,45(1):98-106.
[15] Sadat-Moosavi A,Isfandyari-Moghaddam A,TajeddiniO. Accessibility of online resources cited in scholarly LIS journals:A study of Emerald ISI-ranked journals[J].AslibProceedings,2012,64(2):178-192.
[16] Gul S,Mahajan I,Ali A. The growth and decay of URLs citation:A case of an online Library & Information Science journal[J].MalaysianJournalofLibrary&InformationScience,2017,19(3):27-39.
[17] 張麗敏. 基于CSSCI網(wǎng)絡(luò)引文老化實證研究——以圖書館學(xué)期刊為例[J]. 情報科學(xué),2014,32(10):114-117.
[18] Yang S L,Qiu J P,Xiong Z Y. An empirical study on the utilization of web academic resources in humanities and social sciences based on web citations[J].Scientometrics,2010,84(1):1-19.
[19] Wren J D,Georgescu C,Giles C B,etal. Use it or lose it:Citations predict the continued online availability of published bioinformatics resources[J].NucleicAcidsResearch,2017,45(7):3627-3633.
[20] Agashe A T,Lihitkar S R,Lihitkar R S. Free online journals on business and management on Directory of Open Access Journals (DOAJ)[J].SRELSJournalofInformationManagement,2010,47(1):41-60.
[21] Graziotin D,Wang X F,Abrahamsson P. A framework for systematic analysis of open access journals and its application in software engineering and information systems[J].Scientometrics,2014,101(3):1627-1656.
[22] 高麗,王宏光. 基于網(wǎng)絡(luò)引文的開放存取期刊利用效率研究[J]. 圖書館理論與實踐,2014(2):30-33.
[23] 譚貝加. 中國醫(yī)學(xué)期刊開放獲取的現(xiàn)狀及分析——以DOAJ收錄期刊為例[J]. 中國科技期刊研究,2014,25(9):1113-1116.
[24] World Wide Web Consortium Network Working Group. Hypertext Transfer Protocol--HTTP/1.1(RFC 2616) [EB/OL]. [2017-05-15]. http:∥www.w3.org/Protocols/rfc2616/rfc2616.html.