司 莉 ( 武漢大學信息資源研究中心 湖北 武漢 430072 )王雨娃 ( 武漢大學信息管理學院 湖北 武漢 430072 )
科學數據共享已經成為國際性的趨勢,而國內外科學數據共享平臺的涌現則是這一趨勢的直觀體現。科學數據共享平臺是數據上傳者與使用者直接交互的接口,而平臺的數據組織是數據服務的基礎,對數據的有效管理與利用有著重要影響,科學、高效的數據組織有助于用戶發(fā)現和利用科學數據。
近期頒布的《科學數據管理辦法》[1]體現了近年來我國越來越重視科學數據的共享,現今國內已有多個科學數據共享平臺建成或在建中,其中國家科技基礎條件平臺自2003啟動建設,至今已投入近30億元。2011年,首批國家科技基礎條件平臺共23家正式進入運行服務階段[2],其中科學數據共享領域的平臺有6家。國家科技基礎條件平臺在技術支持、人才支持、經濟支持、數據量、運行平穩(wěn)性等多方面具有一定的保證,體現出我國科學技術共享平臺的較高水平,具有代表性和可比較性。因此,筆者選取這6家科學數據共享領域平臺作為調查對象,即林業(yè)科學數據中心(以下簡稱為林業(yè)平臺)[3]、國家地球系統(tǒng)科學數據共享平臺(以下簡稱地球系統(tǒng)平臺)[4]、國家人口與健康科學數據共享服務平臺(以下簡稱人口與健康平臺)[5]、國家農業(yè)科學數據共享中心(以下簡稱農業(yè)平臺)[6]、國家地震科學數據共享中心(以下簡稱地震科學平臺)[7]、中國氣象數據網(以下簡稱氣象平臺)[8]。在調查其基本情況的基礎上,筆者從元數據標準、數據的分類與檢索、數據整合方式3個角度調查6家平臺的數據組織現狀,調查時間為2018年5月。
筆者對6家平臺上公開共享的數據集進行調查,并根據教育部學科目錄中一級學科[9]將數據進行分類,分類結果如表1所示。由下頁表1可知,不同平臺上數據集涉及的學科范圍不一,數量從2個到16個不等,但大致上仍舊呈現出明顯的主題集中趨勢,一個平臺上的大部分數據集主要圍繞某一主要學科分布,少部分數據也有可能涉及到相關的學科領域,如地球系統(tǒng)平臺上的少量數據與社會學、生物學、大氣科學、天文學等諸多學科相關,但所有數據中地理學數據占12 671條(84.6%),總體來說仍以地理學數據為主。
表1 科學數據共享平臺數據的學科分布統(tǒng)計
6家平臺的數據主要采用集中存儲和分布式存儲兩種方式。其中,氣象平臺的數據集中存儲于國家氣象信息中心,其余平臺均采取分布式的數據存儲,數據資源存儲在各個分中心,并通過網站集成。筆者還對各平臺存儲的數據量進行了統(tǒng)計,具體情況如表2所示,統(tǒng)計時間截至2018年5月29日。
各平臺的數據以不同的分類體系進行組織,并用元數據中的關鍵詞字段進行主題標引。同時,由于一些平臺存在子平臺,各平臺對子平臺的數據以及一些網絡資源進行了整合。因此,筆者從數據的分類組織、主題組織和整合3方面調查平臺數據組織的方式。
2.1.1 數據的分類組織
各平臺的數據分類差異較大。首先,數據分類體系差異大。平臺采用1~3種不等的分類方法,有的使用統(tǒng)一分類體系,如林業(yè)平臺;也有同時采用多種方法,如農業(yè)平臺和地震科學平臺。各平臺基本以學科主題劃分類目,也有些結合了體系分類法和分面組配的特色,如地球系統(tǒng)平臺的檢索界面具有分面特征。
其次,類目數量和劃分方式差異也較大。例如,人口與健康平臺的數據分為6個一級類目,每個一級類目實際上鏈接一個獨立的子平臺,子平臺網站又分別劃分一級、二級類目。其余平臺中,最少的二級類目僅17個(地震科學平臺),最多的二級類目有96個(地球系統(tǒng)平臺),各類目下的數據量也有很大差異(見下頁表3)。
2.1.2 數據的主題組織
除地震科學平臺外,各平臺對數據的主題描述基本通過元數據中的關鍵詞字段進行。其中,人口與健康平臺、農業(yè)平臺、地球系統(tǒng)平臺和氣象平臺的關鍵詞可直接通過數據詳情頁面的元數據描述項看到,并可進行關鍵詞檢索。林業(yè)平臺的元數據字段在數據詳情頁面不可見,但可通過專門的元數據檢索頁面按照關鍵詞進行數據檢索。地震科學平臺的元數據字段中不包含關鍵詞,網站雖有“關鍵詞檢索”功能,但該功能本質上是進行數據名稱及內容概述的全文檢索。
在關鍵詞的組配和語詞控制上,各平臺沒有嚴格規(guī)定,一般采用自由詞標引的方式,以方便對各學科前沿主題和細化的研究方向進行揭示。例如,農業(yè)平臺在數據上傳時對關鍵詞不作限制,由數據上傳者選擇關鍵詞;其他平臺對數據上傳者的身份認證有所限定,但相關數據標準和規(guī)則中沒有對關鍵詞的選擇作出限定。同時,目前各平臺對關鍵詞也沒有使用入口詞表等方式建立詞間關系,自由詞標引可能使用戶在檢索中出現漏檢。
表2 科學數據共享平臺數據量與下載量統(tǒng)計
表3 科學數據共享平臺的數據分類
2.1.3 數據的整合
數據整合是指采用數字化信息處理和集成整合技術,對多種來源的數字化信息資源有目的地進行重新組合的過程,同時為用戶提供統(tǒng)一的檢索界面,實現高效傳播信息的一種服務方式[10]。平臺的數據整合主要包括對站內數據,即主站和各分中心數據資源的整合,以及對網絡資源的整合。
(1)站內數據的整合:各平臺對主站的數據均已實現一站式檢索,而對分中心數據的整合則分3種情況:①地球系統(tǒng)平臺、農業(yè)平臺與地震科學平臺在主站實現了統(tǒng)一檢索與瀏覽;②人口與健康平臺雖可直接檢索分中心資源,但僅提供資源鏈接,無法直接獲取數據;③林業(yè)平臺沒有集成分中心的數據。此外氣象平臺沒有分中心,數據統(tǒng)一存儲,因此不存在分中心數據整合的問題。
(2)網絡資源的整合:各平臺對網絡資源的整合主要表現為鏈接我國相關的科技平臺,尤其是國家科技基礎條件平臺中的其他平臺;以及中國科學院、國家科技部、中國數字科技館等平臺;除此之外,還會提供相關學科主題的國內外其他數據平臺鏈接,如人口與健康平臺提供了國內一些其他醫(yī)學專題數據庫和醫(yī)學網站的鏈接,地震科學平臺提供了與國內外地震相關網站的鏈接(見下頁表4)。
在數據整合方式上,大部分平臺僅提供鏈接地址,只有地球系統(tǒng)平臺另外提供了簡要的站點介紹,同時,其長達101頁的“國際數據資源”列表中提供了檢索功能,需要尋找特定站點的用戶可以通過檢索關鍵詞查到相關站點的鏈接,為科研人員尋找國外相關資源平臺帶來了便利。
表4 科學數據共享平臺的網絡資源整合方式
6家平臺對數據的描述采用元數據的形式,其中有3個平臺采用較完善的元數據標準,包括林業(yè)平臺、地震科學平臺和氣象平臺,其余平臺采用部分元數據字段(但未說明采取的具體元數據標準)??傮w來說,各平臺均選用了專指性較強的行業(yè)性元數據標準。筆者對各平臺的元數據標準、來源及分別的字段進行分析(見表5),在統(tǒng)計“共有字段”時,將部分平臺元數據中意義相近的字段合并進行統(tǒng)計(如將“數據聯系人”“電話”“郵箱”等合并至共有字段“數據聯系人”中)。
表5 科學數據共享平臺的元數據標準、來源及字段
表6 科學數據共享平臺的數據檢索功能
數據的檢索功能直接關系到數據的獲取利用。筆者對各平臺的高級檢索功能進行統(tǒng)計(見表6),其中人口與健康平臺的子平臺檢索功能有所不同。大部分平臺沒有設置專門的高級檢索入口,但通過不同方式可以實現多種高級檢索功能,如在檢索結果頁面提供結果精煉與二次檢索的功能。幾乎所有平臺均實現了字段檢索的功能(人口與健康平臺僅有3個子平臺實現這一功能),結果精煉和結果的二次檢索功能較為常見,其余檢索功能也均有近半平臺實現。
6家平臺中部分平臺對數據組織的某些方面有所說明,如數據的學科范圍、分類標準等,但少有平臺公開完整的、全面的科學數據政策。例如,林業(yè)平臺僅提供了不足千字的簡短元數據說明,在“標準與規(guī)范”一欄下顯示的則是“沒有相關的數據表”,對于數據的保存時限、合理使用限制、學科屬性、分類方式、更新時間等均沒有作出說明。
國外許多科學數據共享平臺提供完整的政策文件,其中通常包含科學數據的保存期限、保存格式、元數據標準、數據涵蓋的學科范圍等,如美國政府數據開放平臺[11]、歐洲多語言文化遺產庫等均有相應的規(guī)定[12-13]。而我國科學數據共享平臺的政策文件或用戶指南偏重于實用性,其內容往往是指引用戶了解和使用網站,包括用戶注冊、數據獲取、服務介紹等。總體來說,各平臺的說明文件側重于對服務和使用方式的介紹,較缺乏對數據本身及數據組織情況的全面說明。
首先,各平臺數據分類的方式存在一些不嚴謹之處。6家平臺皆采用了學科主題劃分方式,同級類目劃分比較隨意,概念內涵存在重疊,如地球系統(tǒng)平臺的所有降水數據集歸入一級類目“大氣圈”下“降水”的二級類目中。因此,研究陸地水循環(huán)的用戶在“陸地水圈”的一級類目下無法找到陸地降水的數據集,僅能在“大氣圈”類目下找到,給資源獲取造成一定的障礙。
其次,一些平臺元數據規(guī)范性不足。3家平臺沒有成型的元數據標準,僅在數據頁面提供一定數量的字段。部分已制定的標準規(guī)范也未得到嚴格執(zhí)行,如人口與健康平臺于2012年至2016年間發(fā)布了《人口健康科學數據共享元數據標準(征求意見稿)》《國家人口與健康科學數據共享平臺資源核心元數據(征求意見稿)》等一系列標準,但目前仍未出臺正式版本,該平臺各分中心的描述元數據也仍未統(tǒng)一[14]。同時,與國外多用DC、Data Cite Metadata Schema等通用元數據標準作為核心[15]不同,6家平臺大多分別采用了專指性強的學科元數據標準,各平臺間元數據字段差異較大,極少有共同的核心字段。這會對數據質量和數據獲取造成一定的影響,也給未來的數據整合帶來不便。
目前,絕大部分調查范圍內的共享平臺僅能做到對數據或數據集進行標示與索引,缺乏對數據內容深度標引,大多平臺不具備全面的高級檢索功能。例如,人口與健康平臺的檢索是針對數據集的,不是針對具體數據進行全文檢索。雖然部分網站可以對數據內容進行進一步的檢索,但直接對數據內容的揭示仍舊不足,并且許多數據只能在下載后進行查看。
在資源整合方面,6家平臺大部分實現了站內數據整合,但仍存在一些問題,如人口與健康平臺的主站和各分中心元數據字段均不相同,主站檢索結果雖可檢索出分中心資源,但僅提供鏈接,無法直接獲取資源;林業(yè)平臺未整合分中心數據,各分中心網站的頁面布局、檢索、元數據等均不相同,給數據獲取帶來一定的不便。平臺對網絡資源的整合還停留在提供鏈接層次,除地球系統(tǒng)平臺提供了其他站點的簡要介紹和站點檢索功能外,其他平臺僅鏈接網站名稱,未實現更深層次的資源整合。
最新頒布的《科學數據管理辦法》規(guī)定,科研院所、高等院校和企業(yè)等法人單位應建立健全本單位科學數據相關管理制度……科學數據中心負責科學數據的分級分類、加工整理和分析挖掘[1]。各平臺也應從微觀層次配合制定完善的科學數據政策,對數據組織的規(guī)定是政策中不可缺少的一部分,而數據組織政策的重點是元數據標準。例如,悉尼大學的數據政策規(guī)定了結構元數據、描述元數據、管理元數據及各自的作用,并且描述性元數據和其他補充的上下文信息應與數據集相關聯[16-17]。澳大利亞衛(wèi)生與福利研究院的數據政策包含了數據注冊表、元數據標準、數據鏈接,并對其使用的元數據METeOR進行了詳細說明[18],美國政府數據開放平臺在用戶指南中說明了元數據標準、數據量及各類數據指標等[11]。國內各平臺可以對數據政策加以完善,在目前的用戶指南或數據共享政策中補充元數據標準、數據分類標準等內容,以提升數據質量,方便用戶使用。
數據分類上的不規(guī)范不僅會影響數據組織的效果,也會給用戶搜尋和使用數據帶來不便。各平臺可以參照不同學科的專業(yè)分類法,規(guī)范類目設置,也可同時使用多種分類方法進行數據分類,以多重列類的方式彌補主題分類的不足,揭示和滿足數字資源構成的多維知識空間[19],以便于數據發(fā)現,如農業(yè)平臺和地震科學平臺目前采用的分類方法。
在元數據標準方面,平臺內部及同一平臺的分中心之間應當建立并使用統(tǒng)一的元數據標準,對核心和選用的元數據字段作出明確規(guī)定,以實現數據質量控制與數據描述的標準化,規(guī)范數據管理;對已制定的元數據標準,應在實踐中予以執(zhí)行。國家科技基礎條件平臺的各平臺間也應當具有相對一致的元數據標準,為未來平臺間的數據資源整合、共享與互操作奠定基礎,可以參照英美政府數據網站,在某一權威元數據集的基礎上分別制定通用核心元數據標準和特定領域核心元數據標準,通用核心元數據標準保留通用的描述元素和規(guī)范,同時特定領域核心元數據標準則體現學科特色,滿足不同學科數據的特定描述需求[20]。
為了更好地服務于科學研究,使科學數據發(fā)揮出最大的效益,對于網站內部的數據,除了采取規(guī)范元數據格式、增加高級檢索功能等方式,也可以通過RDF數據框架,使用URI命名數據實體,建立數據間的關聯,乃至將平臺內部的數據同外部資源連接起來,以關聯數據的形式發(fā)布[21]。關聯數據可以支持資源的相互連接與聚合,促進數據集之間的跨庫關聯[22],這有助于各平臺分中心資源的聚合以及未來的跨平臺資源整合;也可以復用現有的學科本體,進行資源的語義化描述,如DataStaR項目提供各學科通用的核心元數據本體,SWEET項目提供了地球與環(huán)境科學的術語本體等[23]。
對于網絡資源,應當尋求比提供鏈接更進一步的深層次的整合,如提供網站介紹、進行站點分類、提供外部資源檢索等;也可鏈接其他平臺公開的關聯數據或API接口,如Linked Life Data、Diseasome Map、Linked Sensor Data等大量科學數據資源及一些圖書館資源均開始以關聯數據的方式提供開放訪問服務[24]。科學數據共享平臺不僅是數據的存儲點,也應當是一個學術交流平臺,通過介紹與推薦其他數據庫、科學數據平臺和網絡資源,平臺可以提供學術交流與分享的途徑;而通過提供外部資源的檢索或鏈接,平臺可以為科學研究者提供一站式的檢索服務。從提供數據文件到提供數據服務,應當是科學數據共享平臺的發(fā)展方向。