韓雪華 王卷樂 石 蕾 高孟緒 王明明 李 舸 王玉潔
( 1.中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;2.中國科學院大學,北京 100049;3.國家科技基礎條件平臺中心,北京 100862;4.山東理工大學建筑工程學院,山東淄博 255000;5.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)
科學數據倉儲是開展科學數據匯聚、管理和共享服務的重要基礎設施。科學數據倉儲的核心目標是確保數據的真實、可靠、完整和可用性,國際上將數據倉儲具備的這4種特性稱之為“可信任”??尚艛底謧}儲(Trusted Digital Repository,TDR)的概念最早由美國研究圖書館協(xié)會(Research Library Group,RLG)于1996年提出,2002年進一步明確了可信數字倉儲的屬性及特點。RLG和保存與獲取委員會[1]將可信數字倉儲描述為“一個可信數字倉儲的任務為現(xiàn)在和將來提供可靠的、長期可訪問的、在其管理社區(qū)內的數字資源”。而“認證”是指由國家認可的認證機構證明一個組織的產品、服務、管理體系符合相關標準、技術規(guī)范或其強制性要求的合格評定活動[2]??茖W數據倉儲的認證即指由認證機構證明數據倉儲管理能力和可信任性(trustworthy),既要得到數據提供方的信任,獲得存放數據的機會,提升數據倉儲長期吸引、匯聚、保存數據資源的能力,又要得到用戶對倉儲的信任,能夠放心地使用這些數據,提升該數據倉儲的應用水平和社會影響力[3]。
目前,已經成立的可信數據倉儲認證標準或機構有:荷蘭皇家科學院下屬的數據認可印章(DSA)、美國聯(lián)機計算機圖書館中心(OCLC)發(fā)布的《可信數字倉儲審核與認證:指標體系與核查表》[4]、ISO發(fā)布的數字檔案館認證國際標準《可信任數字館藏的審計和認證》(ISO 16364)等[5]。2009年,國際科聯(lián)世界數據系統(tǒng)與荷蘭數據認可印章DSA合作建立了對可信數字倉儲的核心認證機制(the DSA and WDS certification)[6],共同開展對科學數據倉儲機構的評估認證工作。
本文擬介紹國際數據機構推薦認可的DSA的發(fā)展歷程,闡述其針對數據倉儲的評估指南和認證體系,提出其理念、經驗和發(fā)展特點,為我國開展科學數據倉儲可信任性標準及認證工作提供借鑒和啟示。
2005年,荷蘭皇家科學院和荷蘭科學研究組織共同建立了數據歸檔和網絡服務并賦予該項目數據發(fā)展認可印章的任務,以確保存儲數據能被發(fā)現(xiàn)、理解和使用。2009年,DSA被移交給一個國際理事會,即DSA Board,并由該理事會管理和繼續(xù)發(fā)展評估指南和同行評審流程[7]。
DSA由DSA社 區(qū)(DSA Community)、DSA聯(lián)合會(DSA General Assembly)和DSA 理事會(DSA Board)三部分組成。
DSA社區(qū)由擁有DSA認證倉儲的所有機構組成,截至2016 年12月31日,DSA共有60個社區(qū)成員,其中歐洲有50個,美洲有7個,非洲有1個,全球性組織有2個,如圖1所示。目前,DSA認證機構主要分布在歐美國家,亞洲地區(qū)被認證機構為0。
圖1 DSA社區(qū)成員各大洲占比
DSA聯(lián)合會由DSA社區(qū)中選舉產生。聯(lián)合會選舉產生DSA理事會,在必要時向理事會提供建議。聯(lián)合會成員每年最多進行3次同行評審,以確保DSA在團體主導下的可持續(xù)發(fā)展。現(xiàn)任DSA聯(lián)合會由 ICPSR、UKDA等機構的21個成員組成[8]。
DSA 理事會處理DSA 社區(qū)的日常事務、管理和監(jiān)督DSA評估流程并負責召集聯(lián)合會活動。DSA 理事會由6~8個成員組成,每個偶數年從聯(lián)合會機構代表中選舉產生,任期兩年。理事會在任期內須考慮DSA指南和規(guī)程的修訂,所有變動在當前印章周期結束時提出[9]。2016年1月1日新任命的理事會成員分別來自斯特拉斯堡天文數據中心(Strasbourg Astronomical Data Center,CDS)、DANS、萊布尼茨學會社會科學研究所(GESIS-Leibniz Institute for the Social Sciences)、都柏林大學(University College Dublin)、芬蘭社會科學數據檔案(Finnish Data Archive,F(xiàn)SD)、UKDA、CINES 和MPI。
DSA利用可信數字倉儲的核心認證機制對科學數據倉儲機構進行評估認證,通過科學數據倉儲認證證明數據倉儲管理能力和可信任性。DSA主要是通過規(guī)定的評估指南來檢驗數據生產、存儲、使用和復用方面的質量,將符合指南要求作為DSA理事會授予數據倉儲數據批準印章的前提。評估指南內容是依照現(xiàn)有國家級或國際上的數字化數據存儲指南來制定的[10]。評估指南的基本原則有以下5條:第一,數據可從網上發(fā)現(xiàn);第二,在個人信息和知識產權相關法規(guī)的允許下,數據是可獲取的;第三,數據以可利用的格式提供;第四,數據是可靠的;第五,數據可通過永久標識引用[11]。評估指南和5條原則主要針對3個利益相關者,即數據生產者、數據倉儲和數據用戶。數據生產者對數字化數據的質量負責;數據倉儲對數據管理(數據保存及可用性方面的質量)負責;數據用戶對數據使用質量負責。
DSA 評估指南主要包括16條,分為三大部分:一是針對研究數據的質量;二是針對數據倉儲的機構與程序;三是針對研究數據的使用質量[12](表 1)。
世界數據系統(tǒng)(WDS)的主要任務是開展科學數據和信息的收集、交換和服務,同時應國際科學聯(lián)合理事會(ICSU)的要求,承擔了一系列重要的國際科學計劃申明要保存的數據的管理[13]。WDS和DSA于2009年開始合作建立可信數字倉儲核心認證機制(Core Trust Seal),該認證在簡單性、健壯性和需要完成的工作之間取得平衡。2014年年初,成立了聯(lián)合工作組來協(xié)調簡化認證選項陣列,改進和激發(fā)科學數據的核心認證服務。WDS-DSA標準和認證理事會通過與歐洲研究數據聯(lián)盟(the European plug-in of the Research Data Alliance)、數據歸檔和網絡服務(DANS)的合作項目,正在研究建立一個評估指導系統(tǒng),該系統(tǒng)依據16項指南,提出相應的16項評估指導。
評估指導1:倉儲要把保存數據、保證數據可訪問作為明確的使命。
評估指導2:倉儲要制定并維護用于數據訪問和使用的許可,并監(jiān)督數據使用者遵從相關許可。
評估指導3:倉儲要制定持續(xù)性計劃,確保倉儲內的數據保存和使用的可持續(xù)性。
評估指導4:倉儲保證在數據的創(chuàng)建、訪問、使用過程中,遵守相關法律法規(guī)和倫理道德。
評估指導5:倉儲要具備充足的資金和專業(yè)的工作人員,制定明確的管理制度有效地踐行使命。
評估指導6:倉儲要采取相應機制確保專家指導和反饋的持續(xù)性。
評估指導7:倉儲必須確保數據的完整性和真實性。
評估指導8:倉儲保存的數據和元數據必須符合相關標準,確保數據對用戶的易懂性和關聯(lián)性。
評估指導9:倉儲要采用文件化的程序管理數據的歸檔和存儲。
評估指導10:倉儲要承擔長期保存數據的責任,并制定相關的規(guī)劃與文件。
評估指導11:倉儲要具備相應的專業(yè)知識來處理技術數據和元數據,并提供足夠的信息供用戶進行數據質量評估。
評估指導12:倉儲的數據歸檔要根據明確清晰的數據周期工作流進行。
評估指導13:倉儲允許用戶發(fā)現(xiàn)數據,并以合理方式持久地引用。
評估指導14:倉儲允許重用數據,并確保有標準的元數據用于對數據的理解和使用。
評估指導15:倉儲在支持的操作系統(tǒng)和其他核心基礎設施軟件上可以運行良好,并使用適合的硬件和軟件技術服務指定社區(qū)。
評估指導16:倉儲的技術基礎設施要能夠為其數據、產品、服務和用戶提供保護。
表1 評估指南詳細內容
DSA的16項評估指南參考以下5個級別(0-4)開展評定。0代表不適用;1代表未考慮;2表示有理論性的概念;3表示在實施階段;4表示完全遵守并實施。在當前的16項評估指南中,指南1、指南2、指南7、指南8、指南10、指南11、指南12和指南13等8項評估指南最低要求為“3”。另外的指南3、指南4、指南5、指南6、指南9、指南14、指南15和指南16等8項評估指南最低要求為“4”。如果一個數據倉儲符合指南第4條到第13條,其數據生產者達到指南第1條到第3條的要求,數據用戶達到指南第14條到第16條的要求,則被認定為可信的數字倉儲(TDR)[14]。
DSA可信賴認證主要包括兩種認證方式:自我評估和第三方認證(包括主管機構或資助機構的審查)。通過認證后可在其網站上展示DSA標識。DSA評估認證過程主要包括3個環(huán)節(jié)(圖2),即自評、同行評審和印章展示。DSA提供相應的評估認證在線工具。
在自評階段,申請者首先在指定頁面提交申請表,收到用于登錄在線工具的用戶名、密碼和登錄鏈接后啟動自評。申請者登錄在線工具對16項指南逐項做出解釋說明,并提供相應材料證明其達到了每項指南的要求并說明符合程度。自評通常需在3個月內完成。
自評提交后進入同行評審階段。同行評審由DSA理事會指定人員完成,人員范圍包括專業(yè)審核人員、理事會成員、相關領域內有資格人士。評估依據主要包括:自評中的陳述說明與指南是否符合、與指南要求的級別是否一致、是否有相應的說明文件等。同行評審通常需在2個月內完成。在適當情況下,理事會可采取相應措施保證同行評審在規(guī)定時間內完成。同行評審有以下兩種結果。
結果一:申請方需補充更多材料。說明申請方自評已被審核,但現(xiàn)有證明材料未能達到DSA認證要求。申請方需再次登錄,根據審核人員意見,提交修訂后的申請和證明材料。修訂版申請以及增加的材料繼續(xù)被審核,直至達到DSA的認證要求。該過程可重復多次,若申請方與審核員之間發(fā)生分歧,可聯(lián)系理事會進行溝通。
結果二:通過認證。申請方將收到授予DSA認證的系統(tǒng)通知和DSA提供的HTML代碼??蓪SA的標識和機構鏈接展示在其網站頁面。同時,DSA將在官網上發(fā)布通知,認定新的DSA成員,并公開該倉儲在申請過程中提交的證明材料。
DSA的評估與認證還包括更新與延續(xù)環(huán)節(jié)。DSA認證是無限期的,但如果要長期保持DSA的認證,數據倉儲需要定期進行更新維護,以符合DSA發(fā)布的最新標準,并展示最新的DSA標識。
圖2 DSA評估認證過程
自2015年8月31日國務院印發(fā)《促進大數據發(fā)展行動綱要》[15]以來,在各個行業(yè)領域加強了科學數據基礎設施的發(fā)展,作為核心基礎設施的科學數據倉儲如何汲取國際經驗,加強其自身的規(guī)范化建設是一個急迫的課題。我國科學數據倉儲(數據中心)長期存在著分散薄弱、規(guī)范不一、難以持久等問題。與科學數據倉儲建設薄弱相對應。DSA作為通用基礎的科學數據倉儲認證機構,廣泛適用于不同背景下的存儲機構,包括圖書館、博物館、檔案館、數字倉儲、科學數據倉儲等[16],其認證理念、認證過程對于我國科學數據管理的標準化和規(guī)范化建設發(fā)展具有借鑒和啟示作用。
(1)DSA的分層認證、逐步完善的認證流程對我國建立自主科學數據倉儲認證機制具有重要的借鑒意義。DSA認證過程從機構自評到全面的第三方認證,過程可多次重復進行,使申請方可以逐步提升可信任的等級。這種分層認證、逐步完善的流程在數據存儲機構的評估中具有很好的合理性和可行性,有利于數據存儲機構系統(tǒng)的逐步完善。可參考DSA認證的經驗,建立我國自主的科學數據倉儲評價機制和認證體系,不僅有利于我國科學數據倉儲認證事業(yè)的發(fā)展,完善我國科學數據政策,而且可針對國內某些國際化程度還不高或者不宜國際化領域的科學數據倉儲建設有可依據的認證標準、認證系統(tǒng)。
(2)發(fā)展科學數據倉儲認證與評估,可促進我國科學數據管理事業(yè)的國際化,提升我國在相關領域的國際影響力。目前DSA社區(qū)中還沒有亞洲相關機構的身影,借助DSA認證經驗,探索適合我國可信數據倉儲建設發(fā)展的標準,一方面便于推動和提升我國可信數據倉儲的建設發(fā)展;另一方面也使我國有更多的機會在國際相關領域發(fā)聲和交流,促進我國科學數據管理的國際化與影響力。
(3)科學數據倉儲認證機構可有效促進科學數據的管理和發(fā)展??茖W數據倉儲認證機構作為第三方機構,擁有完善的組織架構與標準規(guī)范,可從數據質量、倉儲機構、數據使用等多方面對科學數據倉儲進行監(jiān)督,加強數據的規(guī)范化管理,保護數據產權,有利于科學數據持續(xù)發(fā)展。同時,可提高數據存儲運營的效率,完善存儲數據的管理和維護,提升機構的保存能力。為自上而下的國家數據倉儲和自下而上的學科數據倉儲創(chuàng)造開放、公平的數據公共存儲門檻。通過認證機構,可構建科研數據共享與交流的社區(qū),社區(qū)內各數據中心共同關注數據中心可信任性的建設,共同推進科學數據管理的發(fā)展。
[1]OCLC R.Trusted digital repositories: attributes and responsibilities[J].Mountain View Ca Retrieved, 2002,24(1): 108-110.
[2]國際標準化組織.ISO/IECl7000合格評定.詞匯和一般原則[S].2004.
[3]楊璐.可信數字倉儲認證: 必要性、標準與主體[J].北京檔案, 2014(5): 19-22.DOI: 10.3969/j.issn.1002-1051.2014.05.007.
[4]OCLC and the center for research libraries: trustworthy repositories audit and certification: criteria and checklist(2007)[ EB/OL].[ 2017-05-07].http://www.crl.edu/sites/default/files/d6/attachments/pages/trac_0.pdf.
[5]ISO.ISO 16363: space data and information transfer systems-audit and certification of trustworthy digital repositories[S].2012.
[6]MOKRANE M, HUGO W, HARRISON S.WDS/DSA certification-international collaboration for a trustworthy research data infrastructure[C].EGU General Assembly, 2010.
[7]伏安娜, 張計龍, 殷沈琴.DSA對我國科學數據共享中可信賴性標準制定的啟示[J].圖書館雜志, 2016(10): 69-76.
[8]GARRETT J R.Task force on archiving of digital information[M].Virginia: Corporation for National Research Initiatives, 1995.
[9]Data seal of approval: certification for sustainable and trusted data repositories [EB/OL].[2017-05-07].https://www.datasealofapproval.org/en/news-and-events/news/2014/10/3/dsa-overview/.
[10]Community[EB/OL].[2017-05-07].https: //www.datasealofapproval.org/en/community/.
[11]DSA general assembly formed [EB/OL].[2017-05-07].https: //www.datasealofapproval.org/en/newsand-events/news/2015/8/17/dsa-general-assemblyformed/.
[12]Data seal of approval (DSA): community & regulations[EB/OL].[2017-05-07].https: //www.datasealofapproval.org/media/filer_public/2013/09/27/dsa-regulations_2013.pdf.
[13]王卷樂, 孫九林.世界數據中心(WDC)回顧、變革與展望[J].地球科學進展, 2009, 24(6): 612-620.DOI:10.3321/j.issn: 1001-8166.2009.06.006.
[14]Data seal of approval: guidelines[EB/OL].[2017-05-07]https: //www.datasealofapproval.org/media/filer_public/2013/09/27/-guidelines_2014-2015.pdf.
[15]中華人民共和國國務院.促進大數據發(fā)展行動綱要[J].成組技術與生產現(xiàn)代化, 2015, 32(3): 51-58.DOI:10.3969/j.issn.1006-3269.2015.03.012.
[16]吳振新.數字資源長期保存可信賴認證研究發(fā)展綜述[J].中國圖書館學報, 2015, 41(3): 114-126.