中圖分類號:G254 文獻(xiàn)標(biāo)識碼:A
Abstract This paper explores theapplication of semanticall-based metadata interoperability methods in the field of scientificdata,aiming to promote the sharingandreuseofscientific data.Throughonlineresearchandcaseanalysis,the study identifiessix keymethods formetadatasemanticinteroperability:core metadata,mapping,applicationspecifications, metadata models,metadata registration systems,and ontologies.The paper examines the implementation principles of each interoperability method and itsapplications inthe scientificdata domain.Basedon a comparative analysis,a conceptual framework for semantic interoperabilityof scientific data metadata,grounded inontology,is proposed.The paper concludes with suggestions forenhancing metadata semantic interoperability in scientificdata,including:emphasizing metadata semantic interoperability to enable in-depth information aggregation; constructing metadata ontologies to fully reveal the relationshipsbetween metadata elements;and prioritizing theFAIR principles to advanceboth theoretical and practical research on metadata interoperability.
Keywords scientific data; metadata; semantic interoperability
1引言
數(shù)據(jù)為目標(biāo)對象的描述性工具,對科學(xué)數(shù)據(jù)的描述、組織和發(fā)布起到關(guān)鍵性作用。元數(shù)據(jù)能夠提取出科學(xué)數(shù)據(jù)的核心屬性,并通過整合這些屬性構(gòu)建完備的數(shù)據(jù)庫。然而,由于研究領(lǐng)域的多元性,元數(shù)據(jù)的表現(xiàn)形式也千差方別,因此,用戶可以通過元數(shù)據(jù)的
作為國家科技創(chuàng)新的基石和戰(zhàn)略性資產(chǎn),科學(xué)數(shù)據(jù)的價值不言自明??茖W(xué)數(shù)據(jù)的元數(shù)據(jù)是以科學(xué)互操作來實現(xiàn)科學(xué)數(shù)據(jù)的檢索。元數(shù)據(jù)互操作主要包含語義互操作、語法與結(jié)構(gòu)互操作和協(xié)議互操作3個維度,其中,元數(shù)據(jù)語義互操作是實現(xiàn)信息深度聚合的核心難題和最大挑戰(zhàn)。
科學(xué)數(shù)據(jù)的管理、共享及復(fù)用不僅對促進(jìn)數(shù)據(jù)經(jīng)濟(jì)市場的形成具有重要影響,也能夠推動跨學(xué)科的研究。本研究聚焦元數(shù)據(jù)的語義層面,旨在揭示元數(shù)據(jù)互操作在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用現(xiàn)狀與挑戰(zhàn),并提出應(yīng)用建議。
2文獻(xiàn)回顧
國內(nèi)外相關(guān)研究主要包括科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)互操作以及語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用研究3個方面。
2.1科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)研究
(1)科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)標(biāo)準(zhǔn)比較研究。完顏鄧鄧調(diào)查了8個國際科學(xué)數(shù)據(jù)倉儲,著重關(guān)注其標(biāo)準(zhǔn)、元素配置、創(chuàng)建方式以及數(shù)據(jù)質(zhì)量的控制;胡芳選擇了4個典型科學(xué)數(shù)據(jù)倉儲(DataCite、GBIF、DataStaR和OTA),分析其元數(shù)據(jù)的方案目標(biāo)、元素及特點;朱玲應(yīng)用內(nèi)容結(jié)構(gòu)視圖,對8種典型的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)元素進(jìn)行比較,分析不同元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容特征3;崔佳偉等人選取了3個通用科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)標(biāo)準(zhǔn)(DublinCore、DataCite和Dataverse)以及3個生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)標(biāo)準(zhǔn),探究國外現(xiàn)有科學(xué)數(shù)據(jù)倉儲相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容設(shè)計及實際應(yīng)用情況4。劉峰等人選擇了科研領(lǐng)域6種典型的元數(shù)據(jù)標(biāo)準(zhǔn)(DIF、DarwinCore、DDI、TEI、ISO19115、FGDC/CSDGM),構(gòu)建出完整的、可操作性強的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)[5
(2)元數(shù)據(jù)實踐研究。GreenbergJ.等人介紹了Dryad元數(shù)據(jù)最佳實踐。2012年啟動的re3data項目是在全球范圍內(nèi)應(yīng)用最廣泛、發(fā)展最快和最“年輕”的數(shù)據(jù)倉儲注冊平臺,此平臺列出并統(tǒng)計了科學(xué)數(shù)據(jù)倉儲使用的元數(shù)據(jù)標(biāo)準(zhǔn),目前共27個元數(shù)據(jù)標(biāo)準(zhǔn)。英國數(shù)據(jù)監(jiān)護(hù)中心(Data CurationCenter,DCC)網(wǎng)站列出了社會科學(xué)與人文科學(xué)、物理科學(xué)、地球科學(xué)、生物學(xué)4個學(xué)科的共36個元數(shù)據(jù)標(biāo)準(zhǔn)。
(3)元數(shù)據(jù)的應(yīng)用研究。趙怡萌等人以生物科學(xué)領(lǐng)域為例,專門分析方法元數(shù)據(jù)的建設(shè)。顧子慧等人搭建了特殊時期科學(xué)數(shù)據(jù)集的元數(shù)據(jù)框架,利用Protege軟件實現(xiàn)科學(xué)數(shù)據(jù)集本體構(gòu)建,并借助圖數(shù)據(jù)庫Neo4j對所構(gòu)建的知識圖譜進(jìn)行存儲[10]。黃國彬等人調(diào)研了綜合型科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)創(chuàng)建服務(wù)[]。陳辰等人設(shè)計了與版權(quán)相關(guān)的核心元素集,提出了版權(quán)元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用流程[12]。
2.2 元數(shù)據(jù)互操作研究
關(guān)于元數(shù)據(jù)互操作的研究,主要涉及數(shù)字圖書館、政府信息資源、科學(xué)數(shù)據(jù)及檔案等領(lǐng)域。
楊蕾等人選取了世界數(shù)字圖書館項目、歐洲MichaelCulture項目、美國公共數(shù)字圖書館等8個國外公共數(shù)字文化資源整合的典型項目,從模式級、記錄級和倉儲級對其元數(shù)據(jù)互操作方式進(jìn)行分析[13]。宋琳琳等人分析了大學(xué)數(shù)字圖書館國際合作計劃、谷歌圖書、歐洲數(shù)字圖書館、HaithTrust等8個國內(nèi)外大型文獻(xiàn)數(shù)字化項目元數(shù)據(jù)互操作情況,發(fā)現(xiàn)映射、集成、協(xié)議和應(yīng)用程序接口(ApplicationProgramInterface,API)較為常用,注冊、轉(zhuǎn)換和關(guān)聯(lián)數(shù)據(jù)的應(yīng)用范圍相對較小[4]。董克等人從制定統(tǒng)一的元數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)出發(fā),構(gòu)建政府信息資源領(lǐng)域元數(shù)據(jù)語義互操作模式[15]。俞力提出基于社會建構(gòu)主義的元數(shù)據(jù)語義互操作概念框架[。WangX.H.等人提出了實現(xiàn)海洋地球化學(xué)數(shù)據(jù)互操作的方法,該方法是基于海洋地球化學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)建立海洋樣本本體[1]??紫槭⒎治隽宋覈屡f《檔案著錄規(guī)則》不同格式檔案元數(shù)據(jù)標(biāo)準(zhǔn)、不同門類檔案元數(shù)據(jù)標(biāo)準(zhǔn)和不同領(lǐng)域檔案元數(shù)據(jù)的互操作情況,提出結(jié)構(gòu)、語義和技術(shù)3個層次的互操作問題[18]。
2.3語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用研究
基于語義的元數(shù)據(jù)互操作方法主要包括核心元數(shù)據(jù)、映射、應(yīng)用規(guī)范、元數(shù)據(jù)模型、元數(shù)據(jù)注冊系統(tǒng)及本體6種[19]。 ① 核心元數(shù)據(jù)。在原有核心元數(shù)據(jù)的基礎(chǔ)上,根據(jù)具體領(lǐng)域描述資源的需求,進(jìn)行擴展,形成具體領(lǐng)域的核心元數(shù)據(jù)。 ② 映射。映射可以分為兩兩映射和中間格式映射。 ③ 應(yīng)用規(guī)范。通過組合來自多個不同元數(shù)據(jù)標(biāo)準(zhǔn)中的元數(shù)據(jù)元素來實現(xiàn)互操作。 ④ 元數(shù)據(jù)模型。需構(gòu)建通用的元數(shù)據(jù)模型并確定每個級別的元數(shù)據(jù)元素。依據(jù)科學(xué)數(shù)據(jù)資源實際情況,參考已有的元數(shù)據(jù)模型,既可復(fù)用科學(xué)數(shù)據(jù)模型中的元數(shù)據(jù)元素,也可根據(jù)實際需要添加新的元數(shù)據(jù)元素,構(gòu)建新的元數(shù)據(jù)模型。 ⑤ 元數(shù)據(jù)注冊系統(tǒng)。元數(shù)據(jù)注冊系統(tǒng)指注冊元數(shù)據(jù)的信息系統(tǒng),是用于對元數(shù)據(jù)進(jìn)行存儲、組織、管理,促進(jìn)元數(shù)據(jù)共享的信息系統(tǒng)。 ⑥ 本體。本體是共享概念模型的明確的形式化規(guī)范說明。通過本體建立概念框架,充分揭示元數(shù)據(jù)元素之間的各種關(guān)系,實現(xiàn)跨數(shù)據(jù)庫、跨平臺、跨語種的科學(xué)數(shù)據(jù)元數(shù)據(jù)互操作。
綜上所述,已有研究對科學(xué)數(shù)據(jù)元數(shù)據(jù)、元數(shù)據(jù)互操作以及語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用作了相關(guān)探討,但較少涉及語義元數(shù)據(jù)互操作方法的比較和深入探討。語義是元數(shù)據(jù)互操作的本質(zhì),也是圖書情報領(lǐng)域關(guān)注的重點,因此本文對語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用進(jìn)行了探討和比較,以推動科學(xué)數(shù)據(jù)的共享和重用。
3語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用及對比分析
3.1語義元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
3.1.1基于核心元數(shù)據(jù)的互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
核心元數(shù)據(jù)指各種需求層次的元數(shù)據(jù)應(yīng)用所需要的最小元數(shù)據(jù)元素。其在整個元數(shù)據(jù)擴展方案中始終處于相對穩(wěn)定狀態(tài),擴展都依據(jù)此模板,并完全包含核心元數(shù)據(jù)。核心元數(shù)據(jù)的完全一致可以保證各個數(shù)據(jù)中心之間的元數(shù)據(jù)查詢與目錄交換體系的暢通和協(xié)調(diào)。
科學(xué)技術(shù)部提出《科技資源核心元數(shù)據(jù)》,界定了科技資源核心元數(shù)據(jù)的格式和內(nèi)容,指出核心元數(shù)據(jù)包括12個元數(shù)據(jù)元素(標(biāo)識符、資源名稱、描述、關(guān)鍵詞、生成日期、注冊日期、最新發(fā)布日期、學(xué)科分類、主題分類、知識產(chǎn)權(quán)類別、資源使用許可、資源訪問地址)和3個元數(shù)據(jù)實體(共享方式、提供方信息、服務(wù)方信息)[20]?!犊萍计脚_元數(shù)據(jù)標(biāo)準(zhǔn)化基本原則與方法》指出,元數(shù)據(jù)框架包括核心元數(shù)據(jù)、通用元數(shù)據(jù)和專用元數(shù)據(jù);在科技平臺范圍內(nèi),任何元數(shù)據(jù)都應(yīng)包含核心元數(shù)據(jù)[21]。
3.1.2基于映射的元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
映射適合于在元數(shù)據(jù)記錄被創(chuàng)造出來之前,在項目創(chuàng)建的初始階段應(yīng)用,是對現(xiàn)有元數(shù)據(jù)的派生和修改,也可從根本上提高互操作的范圍[14]。映射的實質(zhì)是為一種元數(shù)據(jù)格式的元素和修飾詞在另一種元數(shù)據(jù)格式里找到相同功能或含義的元素和修飾詞。按照參與映射的元數(shù)據(jù)標(biāo)準(zhǔn)數(shù)自的多少,映射可以分為兩兩映射和中間格式映射,
兩兩映射是指兩種元數(shù)據(jù)標(biāo)準(zhǔn)之間進(jìn)行的映射。如數(shù)據(jù)文檔倡議(DataDocumentationInitiative,DDI)到都柏林核心(DublinCore,DC)的映射[22:由于元數(shù)據(jù)標(biāo)準(zhǔn)之間元素語義存在差異,映射可分為一對一、一對多、多對一和無映射四種情況。一對一的映射如DC中的“Title”對應(yīng)DDI中的“2.1.1.1”,一對多的映射如DC中的“Coverage”對應(yīng)DDI中的“2.2.3.1、2.2.3.2、2.2.3.3、2.2.3.4”,沒有多對一的映射,無映射如DC中的“Language”,在DDI中沒有元素與它對應(yīng)。
中間格式映射指多個元數(shù)據(jù)之間通過中介格式進(jìn)行轉(zhuǎn)換,以一種元數(shù)據(jù)格式為中心,其他元數(shù)據(jù)都與中心元數(shù)據(jù)分別建立映射。劉桂鋒等人建立了科學(xué)數(shù)據(jù)平臺的3種元數(shù)據(jù)“DataCite元數(shù)據(jù)模式”“Dcat:Dataset”“JPCOAR架構(gòu)”到“DC”的映射,并比較了這三種元數(shù)據(jù)與DC的異同[23]。李翼等人建立了國外四大平臺醫(yī)學(xué)科學(xué)數(shù)據(jù)平臺(PMC、EuropePMC、AIHW、CT)核心元數(shù)據(jù)與DC元數(shù)據(jù)的映射[24]。3.1.3基于應(yīng)用規(guī)范的元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
應(yīng)用規(guī)范的互操作是在不同的元數(shù)據(jù)規(guī)范中,針對科學(xué)數(shù)據(jù)資源的具體特征,對各種已有元數(shù)據(jù)規(guī)范合適的元數(shù)據(jù)元素進(jìn)行提取,考慮從哪些方面描述資源,形成本資源特有元數(shù)據(jù)元素集合。
元數(shù)據(jù)應(yīng)用規(guī)范是元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的應(yīng)用形式,也可以看作是一種規(guī)范的元數(shù)據(jù)方案。元數(shù)據(jù)應(yīng)用規(guī)范實質(zhì)是元數(shù)據(jù)復(fù)用,充許在應(yīng)用中采用來自多個不同元數(shù)據(jù)標(biāo)準(zhǔn)中的數(shù)據(jù)元素組合,并對這種“混合型”元數(shù)據(jù)方案從內(nèi)容和形式上進(jìn)行規(guī)范,保證具有相似的基本結(jié)構(gòu)和通用元素。如Dryad科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)標(biāo)準(zhǔn),復(fù)用了3個元數(shù)據(jù)標(biāo)準(zhǔn)(theBibliographic Ontology、Dublin Core、Darwin Core)中的元素[4。
3.1.4基于元數(shù)據(jù)模型的元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
元數(shù)據(jù)模型對科學(xué)數(shù)據(jù)的組織、保存、檢索、復(fù)用等有重大的現(xiàn)實意義。常穎聰和何琳以植物學(xué)基因表達(dá)實驗為例,通過調(diào)研已有的五種元數(shù)據(jù)模型(CSMD、OBI、晶體實驗元數(shù)據(jù)、EXPO、微列陣實驗元數(shù)據(jù)),確定了最終的植物學(xué)基因表達(dá)實驗元數(shù)據(jù)模型。該元數(shù)據(jù)模型的元數(shù)據(jù)集分為一級、二級和三級。一級元數(shù)據(jù)集包括實驗設(shè)計、實驗數(shù)據(jù)、實驗結(jié)果、科研成果、實驗操作、數(shù)據(jù)訪問以及實驗管理信息[25]。
3.1.5基于元數(shù)據(jù)注冊系統(tǒng)的元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
元數(shù)據(jù)注冊系統(tǒng)可以看作為存儲元數(shù)據(jù)相關(guān)信息的數(shù)據(jù)庫,并不包括具體的數(shù)據(jù),便于元數(shù)據(jù)元素的查找、復(fù)用和共享。如人口健康科學(xué)數(shù)據(jù)倉儲于2019年被re3data.org和FAIRsharing數(shù)據(jù)倉儲目錄收錄。2021年通過CoreTrustSeal全球核心可信存儲庫國際認(rèn)證[2。其元數(shù)據(jù)注冊是針對特定領(lǐng)域、面向特定項目的元數(shù)據(jù)注冊系統(tǒng),包括基本信息(如注冊數(shù)據(jù)集名稱、數(shù)據(jù)標(biāo)識、數(shù)據(jù)類型、數(shù)據(jù)大小等)描述信息(如關(guān)鍵詞、摘要、學(xué)科分類等)倫理隱私信息(如是否涉及倫理、人類遺傳資源和隱私信息等)聯(lián)系信息(如聯(lián)系人、聯(lián)系方式等)服務(wù)信息(如共享方式、共享權(quán)限和數(shù)據(jù)許可等)關(guān)聯(lián)信息(如相關(guān)論文、配套工具等)[27]。
3.1.6基于本體的元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用
通過構(gòu)建本體將相關(guān)主題的科學(xué)數(shù)據(jù)集中在一起,便于用戶實現(xiàn)語義層面的檢索,提升科學(xué)數(shù)據(jù)的利用率。劉桂鋒等人以“棉花病害防治”領(lǐng)域為例,利用本體構(gòu)建工具protege5.5.0,抽取國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)資源“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”,通過數(shù)據(jù)集負(fù)責(zé)方證實了數(shù)據(jù)集的關(guān)聯(lián)并構(gòu)建了知識本體[28]。
3.2語義元數(shù)據(jù)互操作方法對比分析
在對6種基于語義的元數(shù)據(jù)互操作方法及其在科學(xué)數(shù)據(jù)領(lǐng)域的應(yīng)用進(jìn)行研究的基礎(chǔ)上,本部分從是否復(fù)用、是否新增及互操作3個方面對6種方法的應(yīng)用進(jìn)行對比分析,“是否復(fù)用”指有無對已有元數(shù)據(jù)元素的復(fù)用,“是否新增”指有無新增加的元數(shù)據(jù)元素,“互操作”指使用此方法的互操作強弱程度。
通過對比分析發(fā)現(xiàn),在是否復(fù)用方面,核心元數(shù)據(jù)、應(yīng)用規(guī)范、元數(shù)據(jù)模型和元數(shù)據(jù)注冊系統(tǒng)方法均進(jìn)行了元數(shù)據(jù)的復(fù)用,映射和本體方法沒有進(jìn)行元數(shù)據(jù)的復(fù)用;在是否新增方面,核心元數(shù)據(jù)、元數(shù)據(jù)模型、元數(shù)據(jù)注冊系統(tǒng)和本體方法均有元數(shù)據(jù)元素新增,映射是對現(xiàn)有元數(shù)據(jù)元素建立對應(yīng)關(guān)系,應(yīng)用規(guī)范是在已有元數(shù)據(jù)元素的基礎(chǔ)上進(jìn)行復(fù)用,因此兩者并無元數(shù)據(jù)元素新增;在互操作方面,核心元數(shù)據(jù)元素均被使用,本體方法可建立豐富的元數(shù)據(jù)元素關(guān)系,因此這兩種方法的互操作較強,其他互操作方法均受已有元數(shù)據(jù)元素的限制較多,因此互操作為中等。
4基于本體的科學(xué)數(shù)據(jù)元數(shù)據(jù)語義互操作概念框架構(gòu)建
通過對6種科學(xué)數(shù)據(jù)元數(shù)據(jù)語義互操作方法進(jìn)行對比分析,從元數(shù)據(jù)種類、元數(shù)據(jù)元素關(guān)系建立、元數(shù)據(jù)元素原始語義等方面進(jìn)行考慮,筆者發(fā)現(xiàn)本體是對科學(xué)數(shù)據(jù)元數(shù)據(jù)互操作實現(xiàn)最有利的方式。因此,本部分基于本體方法,搭建科學(xué)數(shù)據(jù)的元數(shù)據(jù)語義互操作概念框架。
選取國家科技部和財政部認(rèn)定的20個國家科學(xué)數(shù)據(jù)中心作為調(diào)研對象,國家科學(xué)數(shù)據(jù)中心名稱及網(wǎng)址如表1所示。表中用核心詞匯代替全稱,省略“國家”和“數(shù)據(jù)中心”兩個詞。
依次調(diào)研上文各個國家科學(xué)數(shù)據(jù)中心,依據(jù)數(shù)據(jù)集元數(shù)據(jù)的揭示完整程度,選擇基礎(chǔ)學(xué)科公共科學(xué)、農(nóng)業(yè)科學(xué)、地球系統(tǒng)科學(xué)等16個國家科學(xué)數(shù)據(jù)中心,在每個數(shù)據(jù)中心分別收集5條科學(xué)數(shù)據(jù)的元數(shù)據(jù)記錄。調(diào)研發(fā)現(xiàn)部分科學(xué)數(shù)據(jù)中心有專門的元數(shù)據(jù)揭示,如國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心、國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、國家青藏高原科學(xué)數(shù)據(jù)中心等;部分科學(xué)數(shù)據(jù)中心的元數(shù)據(jù)需要提煉,如國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心等。同一個科學(xué)數(shù)據(jù)中心所使用的元數(shù)據(jù)元素基本一致。選取每個平臺中均涉及的科學(xué)數(shù)據(jù)元數(shù)據(jù)元素,將16個科學(xué)數(shù)據(jù)中心元數(shù)據(jù)元素的名稱進(jìn)行統(tǒng)一化處理,并統(tǒng)計元數(shù)據(jù)元素的出現(xiàn)頻次,按頻次從高到低進(jìn)行排序,如表2所示。
基于元數(shù)據(jù)元素出現(xiàn)頻次從高到低的排序,結(jié)合其余的元數(shù)據(jù)元素,將元數(shù)據(jù)元素分為數(shù)據(jù)集基本信息、數(shù)據(jù)使用、數(shù)據(jù)評價和相關(guān)推薦四個一級類,并將相關(guān)的二級元數(shù)據(jù)元素歸入對應(yīng)的一級類中,構(gòu)建本體概念框架圖(見圖1)。
數(shù)據(jù)集基本信息模塊是科學(xué)數(shù)據(jù)最核心的部分,即用戶在檢索時常用到的頻次較高的元素;數(shù)據(jù)使用模塊指用戶決定利用科學(xué)數(shù)據(jù)時需要了解和注意的重要信息,如使用數(shù)據(jù)時需要進(jìn)行數(shù)據(jù)聲明、致謝,在引用時要遵循引用規(guī)范等;數(shù)據(jù)評價模塊有助于用戶參考一定指標(biāo)對數(shù)據(jù)質(zhì)量進(jìn)行判斷;相關(guān)推薦模塊指與用戶檢索主題內(nèi)容相關(guān)的其他資源,用于拓展用戶思路、擴大檢索范圍。這4個方面對于科學(xué)數(shù)據(jù)的揭示至關(guān)重要。
5面向科學(xué)數(shù)據(jù)領(lǐng)域的元數(shù)據(jù)語義互操作應(yīng)用建議
5.1注重元數(shù)據(jù)語義互操作,實現(xiàn)信息深度聚合
元數(shù)據(jù)互操作是一個多維度的復(fù)雜概念,主要涵蓋語義互操作、語法與結(jié)構(gòu)互操作以及協(xié)議互操作3個關(guān)鍵維度。在圖書館與信息科學(xué)領(lǐng)域,當(dāng)前的研究與實踐動態(tài)顯示,學(xué)術(shù)界與業(yè)界更傾向于深入探討與解決元數(shù)據(jù)的結(jié)構(gòu)互操作問題。這種傾向來自于對結(jié)構(gòu)互操作在實現(xiàn)信息系統(tǒng)間有效溝通與數(shù)據(jù)交換中扮演的基礎(chǔ)性角色的認(rèn)識。盡管語義互操作對于理解和處理異構(gòu)信息系統(tǒng)間的數(shù)據(jù)具有至關(guān)重要的意義,但對其的探索和應(yīng)用,仍然處于一個相對初級的階段。實際上,語義互操作的實現(xiàn)不僅是增強異構(gòu)信息系統(tǒng)間互操作能力的關(guān)鍵,更是實現(xiàn)信息深度整合、提升信息資源利用效率的主要挑戰(zhàn)之一。它要求系統(tǒng)不僅能夠理解數(shù)據(jù)的結(jié)構(gòu),還能夠把握數(shù)據(jù)的含義,從而實現(xiàn)更加準(zhǔn)確和有效的信息交換與共享。因此,解決語義互操作的難題,對于推動圖書館與信息科學(xué)領(lǐng)域的發(fā)展,具有深遠(yuǎn)的意義和價值。
語義互操作在科學(xué)數(shù)據(jù)共享這一關(guān)鍵領(lǐng)域中扮演著不可或缺的核心角色,它不僅能夠確保元數(shù)據(jù)的語義得到全面而有效的表達(dá)與處理,還能夠在語義層面上對科學(xué)數(shù)據(jù)的元數(shù)據(jù)進(jìn)行深人的理解和融合。這一過程涉及到有效地整合語義異構(gòu)的元數(shù)據(jù),通過這種整合,促進(jìn)科學(xué)數(shù)據(jù)間的無縫連接,顯著提高科學(xué)數(shù)據(jù)的共享與復(fù)用能力。因此,為了實現(xiàn)科學(xué)數(shù)據(jù)的最大化利用和價值發(fā)掘,對語義互操作的研究無疑應(yīng)當(dāng)受到高度重視。
5.2構(gòu)建元數(shù)據(jù)本體,充分揭示元數(shù)據(jù)元素之間關(guān)系
作為一種技術(shù)領(lǐng)域,元數(shù)據(jù)語義互操作技術(shù)覆蓋的內(nèi)容十分豐富,主要可以劃分為核心元數(shù)據(jù)、映射、應(yīng)用規(guī)范、元數(shù)據(jù)模型、元數(shù)據(jù)注冊系統(tǒng)以及本體六大方面。這六大方面相互關(guān)聯(lián),共同構(gòu)成了元數(shù)據(jù)語義互操作技術(shù)的完整框架。在這六大方面中,本體作為一種知識組織工具的高級形式,其在科學(xué)數(shù)據(jù)領(lǐng)域的應(yīng)用,能夠極大地豐富元數(shù)據(jù)元素間的相互關(guān)系,使得這些關(guān)系更為充分和自由地展現(xiàn)出來。本體不僅僅是一種形式化的語義數(shù)據(jù)模型,更是一種具有高效性的知識組織方式。在語義層面上,基于本體的元數(shù)據(jù)互操作方法已經(jīng)成為了核心技術(shù),其靈活性和開放性在業(yè)界得到了廣泛認(rèn)可,顯著地提升了該領(lǐng)域的發(fā)展水平。本研究選擇了20個國家科學(xué)數(shù)據(jù)中心作為研究對象,初步構(gòu)建了一個基于本體的科學(xué)數(shù)據(jù)元數(shù)據(jù)語義互操作的概念性框架。在此框架指導(dǎo)下,開發(fā)了科學(xué)數(shù)據(jù)元數(shù)據(jù)本體,旨在促進(jìn)科學(xué)數(shù)據(jù)資源的有效揭示和利用。在科學(xué)數(shù)據(jù)領(lǐng)域,構(gòu)建元數(shù)據(jù)本體并揭示元數(shù)據(jù)元素之間的關(guān)系是一個復(fù)雜但至關(guān)重要的過程,可參考如下步驟:明確構(gòu)建目標(biāo)、定義元數(shù)據(jù)元素及其關(guān)系、選擇本體語言、構(gòu)建元數(shù)據(jù)本體模型、驗證和優(yōu)化元數(shù)據(jù)本體以及應(yīng)用和維護(hù)元數(shù)據(jù)本體。
5.3重視FAIR原則的指導(dǎo),促進(jìn)元數(shù)據(jù)互操作理論及實踐研究
針對科學(xué)數(shù)據(jù)元數(shù)據(jù)互操作的研究成果相對匱乏,眾多科學(xué)數(shù)據(jù)平臺在實現(xiàn)元數(shù)據(jù)互操作方面的實踐成效亦顯不足。2016年,學(xué)術(shù)組織Force11發(fā)布了《科學(xué)數(shù)據(jù)管理指南》,其中提出了一套科學(xué)數(shù)據(jù)管理的核心準(zhǔn)則—FAIR原則,旨在指導(dǎo)科研數(shù)據(jù)在存儲過程中實現(xiàn)可發(fā)現(xiàn)(Findable)可獲?。ˋccessible)、可互操作(Interoperable)以及可重用(Reusable)。特別是其中的可互操作,是本研究關(guān)注的焦點。當(dāng)前,科學(xué)數(shù)據(jù)的共享實踐與理論研究成果難以達(dá)到預(yù)期,根本原因之一便是缺乏一套普遍適用、能夠?qū)崿F(xiàn)科學(xué)數(shù)據(jù)共享的可互操作指導(dǎo)策略??赏ㄟ^制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范、加強元數(shù)據(jù)互操作技術(shù)的研究和開發(fā)、提高元數(shù)據(jù)的質(zhì)量和完整性、加強跨領(lǐng)域合作與交流等促進(jìn)科學(xué)數(shù)據(jù)元數(shù)據(jù)的互操作。
6結(jié)語
科學(xué)數(shù)據(jù)是促進(jìn)科技創(chuàng)新及經(jīng)濟(jì)社會發(fā)展的關(guān)鍵資源,其中可互操作被視為科學(xué)數(shù)據(jù)管理的四大基本原則之一。本研究聚焦于語義層面,探討六種元數(shù)據(jù)互操作方法在科學(xué)數(shù)據(jù)管理領(lǐng)域內(nèi)的應(yīng)用情況。通過對這些元數(shù)據(jù)互操作方法的綜合比較與分析,構(gòu)建了一個基于本體的科學(xué)數(shù)據(jù)元數(shù)據(jù)語義互操作的概念性框架,并在此基礎(chǔ)上,為科學(xué)數(shù)據(jù)領(lǐng)域的元數(shù)據(jù)語義互操作提出具體的應(yīng)用建議。這不僅豐富了元數(shù)據(jù)互操作方法在語義層面的理論與實踐,而且為科學(xué)數(shù)據(jù)的共享與復(fù)用提供了重要的理論支撐,有望進(jìn)一步推動科學(xué)數(shù)據(jù)管理的效率。
后期研究應(yīng)結(jié)合開放科學(xué)、數(shù)據(jù)要素以及生成式人工智能,進(jìn)一步探索科學(xué)數(shù)據(jù)元數(shù)據(jù)及其互操作問題。(1)開放科學(xué)是解決復(fù)雜問題的重要支撐和科技發(fā)展的主流趨勢。2023年聯(lián)合國教育、科學(xué)及文化組織發(fā)布《開放科學(xué)展望》首份報告,提出開放科學(xué)背后的理念,是在所有利益攸關(guān)方的積極參與下,使科學(xué)數(shù)據(jù)能夠被更廣泛地獲取和更可靠地使用。因此在開放科學(xué)環(huán)境下,科學(xué)數(shù)據(jù)的元數(shù)據(jù)如何設(shè)計,元數(shù)據(jù)之間如何互操作,是值得探究的問題(2)2024年國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素 × ”三年行動計劃(2024一2026年)》,選取數(shù)據(jù)要素應(yīng)用的12個重點領(lǐng)域,推動發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng),釋放數(shù)據(jù)要素價值。如何設(shè)計科學(xué)數(shù)據(jù)的元數(shù)據(jù)及實現(xiàn)其互操作,從而促進(jìn)數(shù)據(jù)要素背景下科學(xué)數(shù)據(jù)的價值釋放,是值得探索的問題。(3)生成式人工智能是一種前沿的人工智能技術(shù),其核心目標(biāo)是利用計算機算法和數(shù)據(jù)生成新的、具有實際價值的內(nèi)容。生成式人工智能可以輔助進(jìn)行元數(shù)據(jù)的自動標(biāo)注和分類,減少人工操作的錯誤和主觀性,提高元數(shù)據(jù)標(biāo)注的準(zhǔn)確性和一致性。這有助于實現(xiàn)元數(shù)據(jù)在不同系統(tǒng)或平臺之間的無縫對接和互操作。
參考文獻(xiàn):
[1]完顏鄧鄧.國外科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)實踐調(diào)查及啟示[J].新世紀(jì)圖書館,2016(5):81-84.
[2]胡芳.國外典型科學(xué)數(shù)據(jù)倉儲實施的元數(shù)據(jù)方案及啟示[J].圖書與情報,2015(1):117-121.
[3]朱玲.基于內(nèi)容結(jié)構(gòu)視圖的研究數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)比較研究[J].大學(xué)圖書館學(xué)報,2019(6):78-84.
[4]崔佳偉,吳思竹,鄔金鳴,等.科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)標(biāo)準(zhǔn)研究與啟示[J].數(shù)字圖書館論壇,2019(6):19-28.
[5]劉峰,張曉林.科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)述評及其通用化設(shè)計研究[J].現(xiàn)代圖書情報技術(shù),2015(12):3-12.
[6]GREENBERGJ,WHITEHC,CARRIERS,etalAmetadatabestpracticeforascientificdata repository[J].JouralofLibraryMetadata,2009,9(3/4):194-212.
[7]re3data.org[EB/OL].[2024-07-06].https://www.re3data.org/search.
[8]Disciplinary metadata[EB/OL].[2O24-07-01].htps://www.dcc.ac.uk/guidance/standards/metadata.
[9]趙怡萌,邱春艷.科學(xué)數(shù)據(jù)的方法元數(shù)據(jù)建設(shè)與應(yīng)用現(xiàn)狀研究:以生物學(xué)領(lǐng)域為例[J].圖書館學(xué)研究,2021(15):54-63.
[10]顧子慧,劉桂鋒,劉瓊.新冠肺炎科學(xué)數(shù)據(jù)集的元數(shù)據(jù)框架構(gòu)建及可視化研究:以Re3data.org為例[J].情報科學(xué),2023,41(4):117-126.
[11]黃國彬,王濤.綜合型科學(xué)數(shù)據(jù)倉儲元數(shù)據(jù)創(chuàng)建服務(wù)研究[J].圖書情報工作,2021,65(21):131-140.
[12]陳辰,游健新.基于科研數(shù)據(jù)版權(quán)管理的元數(shù)據(jù)標(biāo)準(zhǔn)研究[J].情報理論與實踐,2021,44(6):84-89.
[13]楊蕾,李金芮.國外公共數(shù)字文化資源整合元數(shù)據(jù)互操作方式研究[J].圖書與情報,2015(1):15-21.
[14]宋琳琳,李海濤.大型文獻(xiàn)數(shù)字化項目元數(shù)據(jù)互操作調(diào)查與啟示[J].中國圖書館學(xué)報,2012,38(5):27-38.
[15]董克,謝芳芳,張曉娟.政府信息資源元數(shù)據(jù)語義互操作模式研究[J].電子政務(wù),2017(8):58-64.
[16]俞力.基于社會建構(gòu)主義的元數(shù)據(jù)語義互操作概念框架研究[J].圖書館理論與實踐,2017(5):49-53.
[17]WANGXHUJTetAlsedochoaegecaldtteoratioEe:13364-13371.
[18]孔祥盛.我國檔案元數(shù)據(jù)互操作的現(xiàn)狀、問題和對策研究[J].檔案管理,2023(1):45-49.
[19]畢強,朱亞玲.元數(shù)據(jù)標(biāo)準(zhǔn)及其互操作研究[J].情報理論與實踐,2007,30(5):666-670.
[20]全國科技平臺標(biāo)準(zhǔn)化技術(shù)委員會.科技資源核心元數(shù)據(jù):GB/T30523—2023[S].北京:中國標(biāo)準(zhǔn)出版社,2023:3-4.[21]全國科技平臺標(biāo)準(zhǔn)化技術(shù)委員會.科技平臺元數(shù)據(jù)標(biāo)準(zhǔn)化基本原則與方法:GB/T30522—2014[S].北京:中國標(biāo)準(zhǔn)出版社,2014:2-3.
[22]Mapping toDublinCore (DDIVersion2)[EB/OL].[2024-06-02].htps://diallance.org/resources/ddi-profiles/dc.
[23]劉桂鋒,張貴香,梁煒.面向上下文感知的科研數(shù)據(jù)5W1H元數(shù)據(jù)模型構(gòu)建及關(guān)聯(lián)研究[J].圖書館學(xué)研究,2020(23):32-42.[24]李翼,吳丹.開放醫(yī)學(xué)科學(xué)數(shù)據(jù)平臺調(diào)查研究[J].圖書情報工作,2015,59(18):24-29,50.
[25]常穎聰,何琳.科學(xué)實驗數(shù)據(jù)元數(shù)據(jù)模型構(gòu)建研究:以植物學(xué)基因表達(dá)實驗為例[J].圖書情報工作,2015,59(13):117-125[26]人口健康科學(xué)數(shù)據(jù)倉儲中心簡介[EB/OL][2024-05-29].htps://www.ncmi.cn/phda/support.html?type=aboutus.
[27]吳思竹,錢慶,周偉,等.面向人口健康領(lǐng)域科研項目數(shù)據(jù)匯交的數(shù)據(jù)倉儲設(shè)計與實現(xiàn)[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020(12):2-13.
[28]劉桂鋒,楊倩,劉瓊.農(nóng)業(yè)科學(xué)數(shù)據(jù)集的本體構(gòu)建與可視化研究:以“棉花病害防治”領(lǐng)域為例[J].情報雜志,2022,41(9):143-149,175.
作者簡介:賈歡,講師,研究方向為科學(xué)數(shù)據(jù)管理。收稿日期:2024-09-02
編校:王曉琳李萍