張云玲 羅婷婷,2 趙瑞雪,2 鮮國建,3
(1. 中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081;2. 國家新聞出版署農(nóng)業(yè)融合出版知識挖掘與知識服務重點實驗室,北京 100081;3. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081)
20世紀90年代末,自由科學運動使越來越多的人意識到開放獲取將在科學成果傳播中發(fā)揮重要作用[1]。2002年布達佩斯開放獲取倡議(Budapest Open Access Initiative)提出實現(xiàn)開放獲取的兩種途徑:一是創(chuàng)辦開放獲取期刊(Open Access Journals,OAJ);二是實行自我存檔(Self-Archiving),即建立開放獲取倉儲[2]。2016年德國馬普學會發(fā)起了“OA2020倡議”(OA2020 Initiative)旨在加速推動大規(guī)模學術(shù)期刊的開放獲取[3]。2018年歐洲科研資助機構(gòu)聯(lián)盟發(fā)布開放獲取S計劃,目標是使學術(shù)出版物全面和即時的開放獲取成為現(xiàn)實[4]。以上一系列的開放獲取運動為開放科學的到來創(chuàng)造了條件。
當前,開放科學已成為世界各國一項重大科學戰(zhàn)略和科學政策,被多個國家/地區(qū)或組織以路線圖方式推進實施[5]。2012年全歐科學院ALLEA(All European Academies)和歐盟發(fā)布《關(guān)于21世紀開放科學的聯(lián)合宣言》呼吁科學界采取果斷措施,將開放科學和創(chuàng)新作為一種手段,加速發(fā)現(xiàn)應對重大社會挑戰(zhàn)的解決方案[6]。2018年歐盟發(fā)布《歐洲開放科學云實施路線圖》,旨在通過數(shù)據(jù)基礎(chǔ)設(shè)施、科研數(shù)據(jù)管理、開放科學參與規(guī)則和治理框架等6條行動路線的實施推動開放科學運動并確保歐洲在數(shù)據(jù)驅(qū)動型科學領(lǐng)域處于領(lǐng)先地位[7]。2021年11月聯(lián)合國教科文組織(UNESCO)發(fā)布開放科學建議書,首次從開放科學的定義、核心價值、行動領(lǐng)域、政策機制監(jiān)測等方面為開放科學政策和實踐提供了一個系統(tǒng)、權(quán)威的國際框架[8]。同時我國也在積極推動開放科學運動。2016年中國科學院啟動“科技論文預發(fā)布平臺China Xiv”項目,期望通過推動科研成果的開放獲取構(gòu)建新型科研成果交流和共享平臺[9];2018年國務院辦公廳發(fā)布《科學數(shù)據(jù)管理辦法》。以上一系列活動、宣言都揭示出科學研究發(fā)展過程中的必然趨勢,即“走向開放化”[10]。
開放學術(shù)資源是開放科學的物質(zhì)基礎(chǔ)。在以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學研究范式下,越來越多的科研人員關(guān)注開放學術(shù)資源的共享和再利用,開放倉儲是開放學術(shù)資源有效管理與發(fā)現(xiàn)利用的重要途徑。在過去十多年中,開放倉儲數(shù)量迅速增長,面對海量的開放倉儲,科研人員檢索到所需開放倉儲的難度越來越大,為了更加有效地查找和利用開放倉儲,開放倉儲的注冊目錄系統(tǒng)應運而生。目前國際上已出現(xiàn)較多覆蓋面廣的開放倉儲目錄如OpenDOAR(Open Access Directory)、ROAR(Open Access Directory),因其數(shù)據(jù)來源的不同各目錄系統(tǒng)在平臺功能、學科范圍等方面都呈現(xiàn)出各自的特點,與當前用戶需求相比較,還存在收錄不夠完整、目錄元數(shù)據(jù)項不夠豐富、目錄更新時效性有待提高、揭示系統(tǒng)功能相對單一等不足。為此,本文擬開展全球開放倉儲目錄整合研究與實踐,力爭為開放學術(shù)倉儲資源的進一步高效利用、發(fā)現(xiàn)、深度整合,以及促進面向開放科學的數(shù)字資源基礎(chǔ)設(shè)施建設(shè)提供參考。
目前,國內(nèi)外對于倉儲目錄系統(tǒng)的研究主要集中在兩個方向,開放獲取倉儲目錄和科研數(shù)據(jù)倉儲目錄,前者的研究對象是開放獲取倉儲OAR(Open Access Repository),即實現(xiàn)開放獲取的綠色道路(Green Road),后者的研究對象是科研數(shù)據(jù)倉儲RDR(Research Data Repository),二者的倉儲覆蓋范圍互相交叉。本文重點研究開放獲取倉儲,即開放倉儲,同時參考科研數(shù)據(jù)倉儲目錄系統(tǒng)的相關(guān)研究,為后續(xù)的目錄整合工作提供更加開闊的視野。
在國內(nèi),有關(guān)倉儲目錄系統(tǒng)的研究主要集中于對國外各領(lǐng)域具有代表性的倉儲目錄案例進行介紹。王翠萍等[11]選取5個倉儲目錄系統(tǒng)(re3data、OAD、OpenAIRE、OpenDOAR、ROAR),從資源收錄量、檢索功能、軟件應用情況等方面介紹倉儲目錄建設(shè)現(xiàn)狀;張莎莎等[12]以re3data為數(shù)據(jù)源從責任主體、平臺功能、數(shù)據(jù)資源、數(shù)據(jù)傳輸4個方面分析總結(jié)英國科研數(shù)據(jù)發(fā)布平臺的特點及建設(shè)經(jīng)驗;劉峰等[13]從建立時間、國別、學科領(lǐng)域、開放程度等方面對科研數(shù)據(jù)倉儲目錄Databib進行統(tǒng)計分析;夏姚璜[14]對re3data的標簽檢索和圖標符號體系進行介紹并對比分析中美兩國倉儲建設(shè)特點,提出我國應該更加重視科學數(shù)據(jù)倉儲注冊目錄建設(shè),建立本國的目錄體系;管鳳貞等[15]對OpenDOAR注冊的中國機構(gòu)倉儲建設(shè)現(xiàn)狀進行梳理,指出我國機構(gòu)倉儲存在的全球可見性、可訪問性、政策保障、知識服務方面的問題;楊麗娜等[16]對OpenDOAR中資源環(huán)境領(lǐng)域開放倉儲的基本情況和資源特征進行分析總結(jié);鄭一波等[17]通過元數(shù)據(jù)獲取采集、轉(zhuǎn)換映射、集成融合與質(zhì)量控制等構(gòu)建支持資源發(fā)現(xiàn)、定位和獲取的新型聯(lián)合目錄體系,發(fā)揮資源集成優(yōu)勢,促進文獻資源的共享利用。除此之外,近年來國內(nèi)對于開放學術(shù)資源建設(shè)的實踐研究也取得了很多成果,包括中國科學院建設(shè)的GoOA開放期刊集成服務系統(tǒng)和OAinONE自然科學領(lǐng)域開放學術(shù)資源一站式檢索發(fā)現(xiàn)平臺[18],以及中國醫(yī)學科學院信息研究所開發(fā)建設(shè)的基于世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學索引[19]實現(xiàn)的多源期刊元數(shù)據(jù)匯聚探索實踐。
在國外,有關(guān)倉儲目錄系統(tǒng)的研究主要圍繞對全球、各地區(qū)倉儲發(fā)展現(xiàn)狀進行介紹。Pinfield等[20]以O(shè)penDOAR為數(shù)據(jù)源,從國家/地區(qū)、倉儲類型、開發(fā)軟件、開放協(xié)議類型等方面介紹2005—2012年全球開放倉儲的發(fā)展情況,對比分析OpenDOAR和ROAR在數(shù)據(jù)管理方式上的區(qū)別;Summann等[21]從數(shù)據(jù)收集與預處理、數(shù)據(jù)存儲、可視化工具等方面對全球倉儲監(jiān)測平臺BASE(Bielefeld Academic Search Engine)進行介紹;Hitchcock等[22]從數(shù)字資源長期保存的角度提出基于OAI的機構(gòu)倉儲服務提供者模型,并強調(diào)相關(guān)保存政策的重要性;Abdullah[23]同樣以O(shè)penDOAR為數(shù)據(jù)源,介紹亞洲高校的開放獲取倉儲建設(shè)現(xiàn)狀,分析各國家、機構(gòu)的倉儲在全球的可見度和影響力;Bhardwaj[24]以re3data為數(shù)據(jù)源對全球開放科研數(shù)據(jù)倉儲的國家分布、元數(shù)據(jù)標準、數(shù)據(jù)開放協(xié)議等內(nèi)容進行分析總結(jié)。
綜上所述,國內(nèi)外對于倉儲目錄系統(tǒng)的研究大多以某個倉儲目錄為數(shù)據(jù)源探討某一國家、某一學科的開放倉儲建設(shè)現(xiàn)狀和存在問題,抑或是對學術(shù)期刊或文獻資源融合匯聚的研究實踐,缺少較全面系統(tǒng)的關(guān)于開放倉儲目錄的對比研究和進一步整合實踐,這對于科研用戶選擇滿足特定科研實踐需求的倉儲和開放學術(shù)資源的一體化集成發(fā)現(xiàn)與深度利用共享都造成了不便。
當前,開放科學實踐在全球得到了前所未有的快速發(fā)展,開放獲取資源日益膨脹,全球科學領(lǐng)域興起了大量科學社交網(wǎng)絡(luò)平臺,形成了不同類型的平臺模式[25]。例如,專業(yè)性科學數(shù)據(jù)倉儲目錄平臺re3data、Dataportals、Databib,政府或研究機構(gòu)門戶站點建立的注冊目錄平臺美國政府開放數(shù)據(jù)目錄、美國能源部開放數(shù)據(jù)目錄,綜合性開放倉儲目錄平臺OpenDOAR、OAD、ROAR等。本文選取的開放倉儲目錄均支持OAI-PMH互操作協(xié)議,其中Illinois大學圖書館OAIPMH Data Provider Registry和OAI官方OAI-PMH Registered Data Providers是創(chuàng)建歷史較長的兩個開放倉儲目錄,目錄收集建設(shè)方式和系統(tǒng)功能設(shè)置都相對傳統(tǒng)。同樣位于英國的兩個開放倉儲目錄OpenDOAR和ROAR,是全球較為領(lǐng)先的目錄檢索系統(tǒng),學科領(lǐng)域覆蓋面廣、資源類型多樣性強。BASE(Bielefeld Academic Search Engine)在開放倉儲目錄索引基礎(chǔ)上對學術(shù)文檔進行整合,是世界知名學術(shù)搜索引擎。以上5個開放倉儲目錄呈現(xiàn)了開放倉儲目錄系統(tǒng)的不同發(fā)展形態(tài),十分具有代表性,下文將從基本概況、資源收錄情況、目錄系統(tǒng)功能、目錄技術(shù)選型等方面對它們進行對比分析。
開放倉儲目錄OpenDOAR是由英國諾丁漢大學(the University of Nottingham)和瑞典蘭德大學(Lund University)圖書館于2005年2月共同創(chuàng)建的開放獲取倉儲、學科資源庫目錄檢索系統(tǒng),是全球OA倉儲權(quán)威目錄網(wǎng)站,與姐妹工程DOAJ形成有效分工,OpenDOAR以O(shè)AR資源為對象,DOAJ則針對OA期刊,兩者覆蓋全部OA資源。截至2021年12月,在OpenDOAR登記的倉儲已經(jīng)有5 794個。
開放倉儲注冊平臺ROAR是英國南安普頓大學(University of Southampton)主辦的開放搜索國際數(shù)據(jù)庫,是開源數(shù)字倉儲平臺Eprints的一部分。它對開放倉儲及其內(nèi)容的創(chuàng)建、位置和增長進行索引,通過及時提供有關(guān)世界各地倉儲的增長和狀態(tài)信息來促進開放獲取的發(fā)展。從2003年建立至今,已經(jīng)有5 386個倉儲在ROAR注冊。
OAI-PMH Data Provider Registry由Illinois大學圖書館的托馬斯哈賓教授負責維護,收集不同來源中OAI兼容倉儲中的Identify、ListSets、ListMeta dataFormats和示例記錄,將數(shù)據(jù)添加到數(shù)據(jù)庫中,編制索引使其可瀏覽和搜索,同時會定期從OAI官方列表中更新數(shù)據(jù),將新發(fā)現(xiàn)的開放倉儲加入。截至2021年12月收錄了5 247個開放倉儲。
OAI官方OAI-PMH數(shù)據(jù)提供者注冊表Registered Data Providers是由數(shù)據(jù)提供者自行注冊的開放倉儲目錄系統(tǒng),是很多開放倉儲目錄系統(tǒng)的數(shù)據(jù)源,截至2021年12月OAI官方收錄的倉儲有5 395個。每個倉儲都提供倉儲名稱(Repository Name)、base URL和OAI標識符命名空間等注冊記錄,同時可以發(fā)出Identify請求以XML格式返回開放倉儲相關(guān)描述信息。
BASE由德國比菲爾德大學圖書館于2004年創(chuàng)建并負責營運,專注于開放學術(shù)網(wǎng)絡(luò)資源,BASE基于大量的OAI開放接口,實現(xiàn)了海量元數(shù)據(jù)的采集獲取、標準化處理和索引發(fā)布服務。截至2021年12月底,BASE共有9 300多個資源目錄來源。
2.2.1 資源收錄情況
資源收錄量和資源收錄范圍是開放倉儲目錄建設(shè)水平的重要考量標準。OpenDOAR將開放倉儲分為機構(gòu)倉儲、學科倉儲、政府倉儲和聚合倉儲4種倉儲類型和12種資源類型,一個開放倉儲可以涵蓋多個資源類型但只能屬于一種倉儲類型,68%的開放倉儲資源類型中均包含期刊論文[24],89%的開放倉儲是機構(gòu)倉儲。ROAR中對開放倉儲類別的關(guān)注角度與OpenDOAR不同,未對開放倉儲的資源類型和倉儲類型進行嚴格區(qū)分,將開放倉儲分為機構(gòu)倉儲、研究數(shù)據(jù)、開放和關(guān)聯(lián)數(shù)據(jù)等9種倉儲類型,一個開放倉儲只屬于一種倉儲類型,其中機構(gòu)倉儲占79%以上。BASE整合來自Datacite、CiteSeerX、PubMed Central等多個來源的2.7億多份學術(shù)文檔,按照文件類型分為期刊論文、專利、數(shù)據(jù)集等20余類學術(shù)資源,其中60%的資源狀態(tài)為開放獲取,為了解決不同倉儲中文件類型不統(tǒng)一的問題,BASE通過將文件類型映射到由數(shù)字代碼標識的一致類別中來對其進行統(tǒng)一。
此外,不同開放倉儲目錄系統(tǒng)在對開放獲取倉儲進行學科分類時采用的標準也不同。OpenDOAR的學科分類來源于英國高等教育資助委員會HEFCE研究評估系統(tǒng)RAE system的UOA分類,將資源分為29個學科,包括心理學、教育學、農(nóng)業(yè)獸醫(yī)及食品科學等,由于每個倉儲收錄的資源內(nèi)容往往涉及多個學科,所以一個開放倉儲的學科分屬于29類中的若干類別[26]。ROAR的學科分類按照美國國會圖書館分類法,BASE支持主題分類的杜威十進制分類法(DDC)。Illinois大學圖書館OAI-PMH Data Provider Registry和OAI官方OAIPMH Registered Data Providers的開放倉儲目錄沒有對倉儲進行分類,僅提供一般信息。
2.2.2 目錄系統(tǒng)功能
OpenDOAR提供基本搜索和高級搜索功能,并且無須鍵入便可根據(jù)國別進行瀏覽。在基本搜索中用戶可通過鍵入倉儲名稱跳轉(zhuǎn)到詳細信息頁面,高級搜索功能中,用戶可通過倉儲類型、主題領(lǐng)域、開發(fā)軟件、國別等8種途徑交叉查詢,搜索結(jié)果可按國別或字母順序進行排序,下拉框中還可以選擇滿足任一條件或滿足所有條件的模糊或精確搜索。ROAR除了提供與OpenDOAR相同的8種交叉查詢途徑外,還提供了ROAR ID、創(chuàng)建時間等5種過濾方式,并且ROAR的瀏覽方式在OpenDOAR基礎(chǔ)上增加了倉儲類型、年份、軟件3種。OpenDOAR對開放倉儲詳細信息的介紹從開放倉儲基本信息、機構(gòu)信息、開放獲取相關(guān)政策3個模塊分類展示。ROAR中除了對開放倉儲基本信息進行描述外,還增加了可視化展示,包括開放倉儲網(wǎng)站首頁縮微圖和開放倉儲活躍度曲線。
BASE系統(tǒng)提供豐富的瀏覽功能,可從杜威十進分類法DDC、文獻類型、重用許可類型、獲取方式和數(shù)據(jù)來源等維度進行海量學術(shù)資源的快速瀏覽與定位。在BASE中可使用兩種不同的搜索界面,提供單個搜索字段的基本搜索(默認情況下在文檔的所有部分中搜索)以及具有多個搜索字段和更復雜搜索選項的高級搜索。Illinois大學圖書館OAI-PMH Data Provider Registry界面提供一個簡單搜索框,用戶鍵入任何字段將與倉儲名稱模糊匹配。OAI官方OAI-PMH Registered Data Providers無搜索功能。
2.2.3 目錄技術(shù)選型
采用標準的數(shù)據(jù)規(guī)范和數(shù)據(jù)政策有利于更加科學地管理開放倉儲目錄系統(tǒng),本研究從數(shù)據(jù)規(guī)范、倉儲開發(fā)軟件角度分析開放倉儲目錄系統(tǒng)的技術(shù)選型。目前 OpenDOAR列出開放倉儲的資源提交政策、資源內(nèi)容政策、長期保存政策、元數(shù)據(jù)再利用政策以及全文再利用政策等5個方面的政策[27],對于所有的政策,分別給予“未知”“未陳述”“未定義”“未明確”和“已定義”5 個等級;對于元數(shù)據(jù)再利用政策和全文再利用政策,則還有“禁止再利用”“不允許自動獲取”“不穩(wěn)定”“允許非商業(yè)用途”和“允許商業(yè)用途”5個等級[28],并且在OpenDOAR中倉儲最常用的協(xié)議是OAIPMH、RSS、ATOM、SWORD[20]。
在OpenDOAR和ROAR中40%以上的開放倉儲使用Eprints和DSpace,二者也是最早支持OAI協(xié)議的開發(fā)系統(tǒng)平臺。Erpints是南安普頓大學開發(fā)的開源軟件,也是在學科倉儲建設(shè)中使用最多的平臺;DSpace是由美國麻省理工學院和惠普公司合作開發(fā)的面向機構(gòu)倉儲的系統(tǒng)軟件,也是目前知名度最高的自存檔平臺[28]。OpenDOAR和ROAR使用率前三的軟件分別還有WEKO和Bepress,WEKO是一款日文開源倉儲軟件[29],日本的機構(gòu)倉儲除了個別使用DSpace外其他大多都使用WEKO,這反映了日本機構(gòu)倉儲建設(shè)在國家開放獲取政策和日本國立情報研究所的全方位技術(shù)支持下國際影響力逐漸增強。ROAR中排名第三的Bepress是商業(yè)機構(gòu)倉儲系統(tǒng)[30],用戶分布主要集中在美國。其他開發(fā)軟件因語種限制僅在某些國家使用,如dLibra僅在波蘭使用,OPUS僅在德國使用。
通過調(diào)研發(fā)現(xiàn)和對比分析發(fā)現(xiàn)(見表1),從開放倉儲目錄收錄的國別分布看,各目錄收錄的美國、英國、德國等發(fā)達國家的開放倉儲數(shù)量差別不大,差別主要體現(xiàn)在開放科學浪潮下亞洲、南美洲地區(qū)新建的開放倉儲數(shù)量大幅增加。從開放倉儲對元數(shù)據(jù)項的分類維度看,OpenDOAR的分類相較于其他倉儲更加規(guī)范化和多元化,從不同角度對開放倉儲進行揭示,而ROAR分類更加關(guān)注科研數(shù)據(jù)、開放數(shù)據(jù)集、關(guān)聯(lián)數(shù)據(jù)等數(shù)據(jù)層面的資源類型。各開放倉儲目錄的系統(tǒng)功能因目錄系統(tǒng)建設(shè)成熟度和重點關(guān)注的元數(shù)據(jù)項不同而呈現(xiàn)出不同的特色,OpenDOAR、ROAR和BASE的系統(tǒng)功能非常相似,但OpenDOAR更關(guān)注的是全球開放倉儲在不同學科不同區(qū)域的分布情況和發(fā)展程度,所以在系統(tǒng)中通過可視化圖表進行不同維度的展示。ROAR則更加關(guān)注對全球開放倉儲的活躍度監(jiān)測,在每個倉儲的描述中都添加了活躍度曲線。BASE已經(jīng)具備成熟的目錄發(fā)布體系,每年都會發(fā)布一個全球開放倉儲發(fā)展情況的統(tǒng)計報告,用戶可根據(jù)需要下載PDF。
在開放倉儲目錄更新維護方面,OpenDOAR的記錄大部分是由人工創(chuàng)建和維護的,凡是在倉儲目錄平臺列出的倉儲都會經(jīng)過OpenDOAR團隊審核[31],所以O(shè)penDOAR質(zhì)量更高、更權(quán)威。ROAR的記錄基于自動收割獲取,資源體量更大、及時性更強,缺點是會收割到數(shù)量相當?shù)臒o效站點,并且在2019年底ROAR由于控制存儲器發(fā)生重大故障導致無法正常對內(nèi)容增長進行跟蹤,至今尚未恢復。OAI官方的OAI-PMH Registered Data Providers由于缺少專業(yè)團隊維護,該目錄中很多倉儲網(wǎng)站已經(jīng)無法訪問或直接鏈接到外部網(wǎng)站。綜上所述,各開放倉儲目錄存在的不足主要體現(xiàn):在開放倉儲收錄范圍與數(shù)量上存在互補性,如日本、中國和法國的開放倉儲收錄數(shù)量在倉儲目錄OpenDOAR、ROAR和ROAR中差距明顯;各開放倉儲目錄平臺關(guān)注的元數(shù)據(jù)項不盡相同,同一個開放倉儲在不同目錄系統(tǒng)中元數(shù)據(jù)項豐富程度不同,在OpenDOAR中有對開放倉儲的倉儲類型和資源類型的描述,在ROAR中沒有資源類型的描述但會關(guān)注訂閱方式;各開放倉儲目錄平臺具備的功能參差不齊,如表1系統(tǒng)功能中除基本檢索和高級檢索外的各目錄系統(tǒng)獨有的功能;部分開放倉儲目錄平臺的數(shù)據(jù)更新缺乏及時性,如Illinois大學圖書館OAIPMH Data Provider Registry缺乏維護更新,大部分地址已經(jīng)失效或發(fā)生變更。
表1 各開放倉儲目錄對比分析
開放倉儲目錄是對開放倉儲的描述說明和索引,可以幫助科研人員定位、查找開放倉儲。開放倉儲目錄的質(zhì)量和覆蓋范圍決定了開放學術(shù)資源整合、利用的深度和廣度,如前所述開放倉儲目錄在收錄范圍、資源分類、系統(tǒng)功能等方面各具特色,如果將同一開放倉儲在不同開放倉儲目錄的元數(shù)據(jù)描述匯總,就可以從不同角度揭示開放倉儲。本研究將基于五大開放倉儲目錄進行集成整合,并在此基礎(chǔ)上進一步發(fā)現(xiàn)和增補其他倉儲目錄,構(gòu)建一個收錄范圍更全面、描述內(nèi)容更豐富的目錄,為下一步實現(xiàn)對開放倉儲的活躍度進行統(tǒng)計分析,并將靜態(tài)的開放倉儲目錄列表上升為對開放倉儲動態(tài)的監(jiān)控,建立集用戶檢索、查找、多維度發(fā)現(xiàn)、利用的“一站式”開放學術(shù)資源服務奠定基礎(chǔ)[17]。開放倉儲目錄的整合思路是開放倉儲目錄建設(shè)的重要依據(jù),指導整個倉儲目錄建設(shè)工作。在實踐探索過程中,主要圍繞元數(shù)據(jù)描述規(guī)范設(shè)計、元數(shù)據(jù)采集與查重、元數(shù)據(jù)整合與映射等步驟確定整合流程,整合后的目錄命名為全球開放倉儲目錄(GOAR,Global Open Academic Repository),如圖1所示。
圖1 開放倉儲目錄整合思路
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是描述一個具體的資源對象,并能對這個對象進行定位、管理且有助于它的發(fā)現(xiàn)與獲取的數(shù)據(jù)[32]。開放學術(shù)倉儲元數(shù)據(jù)是對開放學術(shù)倉儲外部特征和內(nèi)容特征的描述與揭示,其元數(shù)據(jù)質(zhì)量在很大程度上影響著開放學術(shù)資源的可發(fā)現(xiàn)性、可利用性。元數(shù)據(jù)描述[33],即采用一定的元數(shù)據(jù)規(guī)范來描述數(shù)據(jù)的組織結(jié)構(gòu)和內(nèi)容特征,從而實現(xiàn)對大量數(shù)據(jù)的高效管理。在前期調(diào)研過程中發(fā)現(xiàn)開放倉儲目錄OpenDOAR和ROAR的元數(shù)據(jù)描述較為規(guī)范、全面,因此本研究有選擇地復用OpenDOAR和ROAR元數(shù)據(jù)集中的32個元數(shù)據(jù)描述元素。其中涉及的元數(shù)據(jù)元素可以大致劃分為倉儲信息、記錄信息、機構(gòu)信息、開放獲取政策信息和溯源映射信息五大類。倉儲信息包括倉儲名稱、倉儲替代名稱、倉儲類型、OAI地址、資源類型、學科、開發(fā)軟件、軟件版本、記錄數(shù)、全文數(shù)量、國家、地區(qū)、經(jīng)度、緯度等,其中倉儲替代名稱主要面向小語種倉儲名稱的多語種表達,以保證用戶查詢的精準度[34];記錄信息包括記錄創(chuàng)建時間、記錄最后更新時間;機構(gòu)信息包括機構(gòu)名稱和機構(gòu)地址;開放獲取政策信息包括是否開放獲取、重用條件、是否允許機器收割、元數(shù)據(jù)政策地址等;溯源映射信息包括目錄來源名稱、目錄源ID和GOAR中倉儲ID,其中SourceName與SourceID一一對應,分別是開放倉儲整合前的名稱與ID,也是與源開放倉儲目錄系統(tǒng)進行映射溯源的標識,可以通過“https://v2.sherpa.ac.uk/id/repository/***”和“http://roar.eprints.org/***/”映射到唯一的開放倉儲對象,GOAR_ID則作為新記錄的唯一標識。如表2所示,序號1~19為倉儲目錄基礎(chǔ)信息,20~21為倉儲建設(shè)的機構(gòu)信息,22~27為開放獲取政策信息,28~29為倉儲目錄管理信息,30~32為溯源映射信息。
表2 GOAR元數(shù)據(jù)描述規(guī)范
元數(shù)據(jù)獲取,是倉儲目錄建設(shè)的首要環(huán)節(jié)。本研究基于OAI元數(shù)據(jù)互操作協(xié)議對OpenDOAR、ROAR、Illinois大學圖書館OAI-PMH Data Provider Registry、OAI官方OAI-PMH Registered Data Providers和BASE五大開放倉儲目錄源進行元數(shù)據(jù)收割,利用開源ETL工具Kettle配置元數(shù)據(jù)采集工作流,定期對開放學術(shù)倉儲元數(shù)據(jù)進行采集獲取,并載入本地元數(shù)據(jù)倉儲。截至2021年底,五大開放倉儲目錄共收割元數(shù)據(jù)29 551條,其中72.5%的數(shù)據(jù)帶有OAI地址,后續(xù)整合將圍繞有OAI地址的元數(shù)據(jù)構(gòu)建GOAR開放倉儲目錄核心集,而OAI地址缺失的目錄將通過人工篩選補充,并結(jié)合其他關(guān)鍵字段進行查重融合后構(gòu)建形成GOAR開放倉儲目錄擴展集。
由于采集到的元數(shù)據(jù)來自不同的數(shù)據(jù)源,遵循的元數(shù)據(jù)標準不同,同一倉儲在不同數(shù)據(jù)源中的元數(shù)據(jù)項表述也不同,同時不同來源的數(shù)據(jù)從字段上或記錄上具有互補性,所以元數(shù)據(jù)融合主要是把不同來源的元數(shù)據(jù)進行去重,保證同一倉儲的多條重復元數(shù)據(jù)記錄能夠聚合歸并為一條完整的記錄[35],同一倉儲在不同數(shù)據(jù)源中元數(shù)據(jù)項能夠相互補充,實現(xiàn)倉儲元數(shù)據(jù)記錄的唯一性和倉儲元數(shù)據(jù)內(nèi)容的豐富性。需要注意的是,在倉儲元數(shù)據(jù)去重過程中應該保留原始記錄,相互補充時應該標記相應的來源標簽,這樣有利于后期開放學術(shù)倉儲元數(shù)據(jù)的維護和溯源。
開放學術(shù)倉儲元數(shù)據(jù)的去重工作主要圍繞“形式去重”和“內(nèi)容去重”兩個層次展開?!靶问饺ブ亍笨衫妹赓M開源的數(shù)據(jù)清洗工具OpenRefine(又稱GoogleRefine)對開放學術(shù)倉儲元數(shù)據(jù)的OAI地址(OAI-PMH)和倉儲名稱(RepositoryTitle)兩類元數(shù)據(jù)項進行相同空白填充、歸類查重?!皟?nèi)容去重”一方面是按照一定周期利用OAI協(xié)議的Identify命令對開放學術(shù)倉儲的基地址(baseURL)、倉儲名稱、狀態(tài)(status)等基本信息進行跟蹤采集,對已經(jīng)發(fā)生更改的記錄進行標記,保證開放倉儲目錄記錄的動態(tài)性。HAL是法國最重要的國家開放獲取倉儲,它不僅收錄了法國已發(fā)表的科研文獻和未發(fā)表的科研預印本,也是歐盟多個開放科學項目的資源和元數(shù)據(jù)提供方[36],在“內(nèi)容去重”過程中發(fā)現(xiàn)有21個不同的基地址對應的開放倉儲名稱均為HAL,進一步查看通過OAI-Identify命令返回的結(jié)果,21個原始基地址已經(jīng)整合為一,然后使用OAI-ListRecords命令檢驗這些開放倉儲中的內(nèi)容是否一致,完全相同即將這21個開放倉儲進行標記歸一?!皟?nèi)容去重”的另一方面是針對倉儲元數(shù)據(jù)由于反復錄入、輸入錯誤或同一倉儲在多來源中表示不一致造成的冗余(見表3、表4),最常見的就是不同倉儲目錄系統(tǒng)對于倉儲名稱中符號的處理,此類重復值可通過OpenRefine的指紋分類算法進行檢測、合并。
表3 RepositoryTitle重復情況的樣例
表4 OAI-PMH重復情況的樣例
經(jīng)過對開放倉儲元數(shù)據(jù)OAI地址和倉儲名稱的形式去重和內(nèi)容去重處理后,開放倉儲元數(shù)據(jù)由原始的29 551條整合為11 660條,構(gòu)成GOAR開放倉儲目錄核心集。同時,在元數(shù)據(jù)“內(nèi)容去重”的實踐探索中筆者發(fā)現(xiàn)了一些存在的問題。例如,伊利諾伊大學的開放倉儲目錄系統(tǒng)Illinois大學圖書館OAI-PMH Data Provider Registry中,一部分OAI地址的請求已經(jīng)無法響應,進一步分析發(fā)現(xiàn),這些開放學術(shù)倉儲本身是從開放學術(shù)期刊集成平臺獨立出來形成的網(wǎng)址門戶,現(xiàn)已終止運行或已全部整合交由政府平臺進行維護,這也從側(cè)面證實了各國政府機構(gòu)對開放倉儲的建設(shè)越來越重視,如Illinois大學圖書館OAI-PMH Data Provider Registry中OAI地址前綴為IMLSDCC的114個開放倉儲均是獨立的期刊平臺,現(xiàn)全部失效,已整合到https://www.imls.gov/。對于類似這樣的失效數(shù)據(jù),會在狀態(tài)(Status)中專門標記,以便后續(xù)人工再進行跟蹤關(guān)注,確保提交目錄的有效性和時效性。
由于各開放倉儲目錄系統(tǒng)在元數(shù)據(jù)信息描述詳盡程度、重點描述維度等都存在差異[37],因此,在元數(shù)據(jù)融合過程中還需要對多來源元數(shù)據(jù)的元數(shù)據(jù)項,即描述字段進行互相補充,目的是形成包含字段信息較為豐富的厚元數(shù)據(jù),細化資源揭示粒度[38],保障開放倉儲目錄的建設(shè)質(zhì)量,為后續(xù)數(shù)據(jù)分析、數(shù)據(jù)挖掘等數(shù)據(jù)增值服務奠定基礎(chǔ)。經(jīng)過查重處理后的部分倉儲元數(shù)據(jù)仍然存在關(guān)鍵字段值缺失問題,如OAI地址缺失會導致后期無法正常通過OAI命令獲取信息,針對該問題筆者團隊利用搜索引擎等渠道進行了人工追蹤、篩選、補充,但仍有部分OAI地址無法獲取,對此類倉儲元數(shù)據(jù)予以保留并將其與核心集元數(shù)據(jù)進行整合、查重,構(gòu)成GOAR開放倉儲目錄擴展集,最終得到包括核心集在內(nèi)的開放倉儲共15 903個。
在開放倉儲基本元數(shù)據(jù)描述信息完整的基礎(chǔ)上,對各來源開放倉儲元數(shù)據(jù)進行整合。具體而言,采取質(zhì)量優(yōu)先原則,在五大源開放倉儲元數(shù)據(jù)整合時首先以質(zhì)量最為可靠的OpenDOAR作為重點優(yōu)選來源和首選元數(shù)據(jù)作為主數(shù)據(jù)入庫,再輔之ROAR、BASE與OpenDOAR來源的目錄元數(shù)據(jù)項進行字段級補充融合,最終形成一條豐富完整的厚元數(shù)據(jù)記錄[39]。在SourceName中保存來源目錄名稱,SourceID中保存源目錄ID。多個源目錄名稱和源目錄ID之間用英文分號隔開且一一對應,以便建立與其他倉儲目錄的關(guān)聯(lián)和溯源。進一步分析經(jīng)過整合后的GOAR開放倉儲核心集11 660個倉儲元數(shù)據(jù)發(fā)現(xiàn),其中5 864個倉儲獨立來自上述五大來源的單一來源,而同時被2個、3個、4個和5個目錄收錄的倉儲數(shù)量分別是3 447個、1 690個、520個和139個。由此也體現(xiàn)出本研究開展多來源倉儲目錄整合和映射關(guān)系的必要性和實際價值。此外,47%的元數(shù)據(jù)提供了描述信息Description,包括對開放學術(shù)倉儲內(nèi)收錄的資源類型、學科覆蓋范圍、瀏覽界面支持語言、是否支持RssFeeds內(nèi)容更新提醒訂閱服務等內(nèi)容,這些信息對于利用開放學術(shù)資源開展知識服務很有價值。如表5所示,經(jīng)過OpenDOAR、ROAR與Illinois大學圖書館OAI-PMH Data Provider Registry 3個來源的開放倉儲“Academica-e”元數(shù)據(jù)整合,對OAI地址進行驗證保留質(zhì)量較高的OpenDOAR基地址并最終形成一條新的厚元數(shù)據(jù)記錄,不僅給出開放倉儲名稱、網(wǎng)站地址、倉儲類型,而且揭示了開放倉儲的學科覆蓋、資源類型、界面支持語言、經(jīng)緯度等細粒度描述信息,最后還繼承了在OpenDOAR和ROAR中對應的溯源ID信息。
表5 多來源元數(shù)據(jù)整合樣例
我國已提出“十四五”時期要加快構(gòu)建國家科研論文和科技信息高端交流平臺。開放科學創(chuàng)新生態(tài)將對高端交流平臺建設(shè)[40]產(chǎn)生重要影響。開放科學的目標是構(gòu)建開放創(chuàng)新生態(tài),而開放科研論文和科技信息等數(shù)據(jù)資源內(nèi)容是該生態(tài)系統(tǒng)的基礎(chǔ)。開放學術(shù)資源的深度整合利用對于提高科研創(chuàng)新和知識發(fā)現(xiàn)能力尤為重要,整合開放倉儲目錄將是高端交流平臺建設(shè)的重要組成部分。因此,本文從資源收錄情況、目錄系統(tǒng)功能和技術(shù)選型等維度,綜合調(diào)研分析了五大具有代表性的國際開放倉儲目錄,分析了當前開放倉儲目錄的建設(shè)現(xiàn)狀和不足。在此基礎(chǔ)上,論述了國際開放倉儲目錄整合的目標與思路,以及元數(shù)據(jù)描述規(guī)范設(shè)計、采集處理和元數(shù)據(jù)融合方法,初步形成了收錄范圍更全面、元數(shù)據(jù)項更豐富和時效性更強的開放倉儲目錄。
在后續(xù)研究中,筆者將探索建立一套開放學術(shù)倉儲元數(shù)據(jù)動態(tài)更新融合機制和常態(tài)化監(jiān)控機制,實現(xiàn)對開放學術(shù)倉儲可訪問性、資源更新情況、活躍度的動態(tài)及時跟蹤,在此基礎(chǔ)上發(fā)布全球開放倉儲目錄發(fā)布系統(tǒng),方便用戶從國別、倉儲類型、學科類型等不同維度檢索瀏覽開放學術(shù)倉儲,目錄系統(tǒng)需要針對不用倉儲類型給出最優(yōu)的學術(shù)資源獲取方式,幫助用戶獲得所需資源,并且可以參考BASE系統(tǒng)發(fā)布年度報告,對全球范圍的開放學術(shù)倉儲發(fā)展現(xiàn)狀進行掃描,為開放科學運動的發(fā)展提供支持。與此同時,也將基于整合后的倉儲目錄開展多來源倉儲中異構(gòu)開放數(shù)字資源元數(shù)據(jù)的采集收割、內(nèi)容融合,并多層次實現(xiàn)開放資源檢索、發(fā)現(xiàn)和挖掘利用研究與實踐。