劉桂鋒 陳書賢 劉瓊
關(guān)鍵詞:政府開放數(shù)據(jù);數(shù)據(jù)平臺;FAIR原則;數(shù)據(jù)科學(xué);開放科學(xué)
數(shù)據(jù)資源作為重要的國家戰(zhàn)略性資源,是實現(xiàn)國家治理體系和治理能力現(xiàn)代化的重要基礎(chǔ)。伴隨我國信息化水平的日漸提高,政府、公眾和企業(yè)逐漸重視對政府?dāng)?shù)據(jù)資源的采集、共享、管理與利用。“十四五”規(guī)劃和2035遠景目標(biāo)綱要強調(diào),推動政府?dāng)?shù)據(jù)依法向社會開放,深化政府?dāng)?shù)據(jù)的開放利用??梢娬?dāng)?shù)據(jù)開放已成為我國的重要戰(zhàn)略。目前,各地政府已積極建設(shè)開放數(shù)據(jù)平臺整合政府?dāng)?shù)據(jù)資源,響應(yīng)數(shù)據(jù)開放政策。然而,我國各地政府的開放資源建設(shè)工作進展不一,不利于構(gòu)建整體的開放數(shù)據(jù)資源體系,缺乏指南性的數(shù)據(jù)管理政策予以指導(dǎo)。
當(dāng)前,圍繞政府開放數(shù)據(jù)及平臺建設(shè)的研究集中在對國內(nèi)外政府開放數(shù)據(jù)政策及特點的剖析,對政府開放數(shù)據(jù)平臺建設(shè)的策略探討和元數(shù)據(jù)方案比較,對政府?dāng)?shù)據(jù)開放成熟度及數(shù)據(jù)質(zhì)量的評估等方面??傮w來說,當(dāng)前的研究在探索數(shù)據(jù)政策、平臺建設(shè)方案、數(shù)據(jù)質(zhì)量要求方面取得了一定進展,但對政府開放平臺的數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)獲取與利用情況缺乏系統(tǒng)的評估與分析,以至于仍存在元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、平臺可用性待提高、數(shù)據(jù)開放程度低等阻礙政府?dāng)?shù)據(jù)開放的問題。
FAIR原則意為可發(fā)現(xiàn)(Findable)、可訪問(Ac-cessible)、可互操作(Interoperable)和可重用(Reus-able),于2016年正式提出,旨在提高科學(xué)數(shù)據(jù)的透明度,促進科學(xué)數(shù)據(jù)的開放共享和管理利用。FAIR原則已不同程度的應(yīng)用于各個領(lǐng)域,其15條細(xì)則簡明且可測量,能幫助人們在數(shù)據(jù)建設(shè)和管理的過程中監(jiān)測FAIR原則的實施情況,幫助數(shù)據(jù)達到最佳的利用和發(fā)現(xiàn)水平。目前,已有國際組織展開FAIR原則的評估工作,內(nèi)容涉及FAIR評估工具的開發(fā)、評估方法的分析、FAIR評估框架的構(gòu)建。這其中,通用的FAIR評估框架適用于各領(lǐng)域內(nèi)的數(shù)據(jù)評估,能解決數(shù)據(jù)管理中的諸多問題。FAIR Metric工作組早期提出14條核心FAIR評估指標(biāo),給不同學(xué)術(shù)領(lǐng)域評估其數(shù)據(jù)資源提供參考:RDA發(fā)布FAIR數(shù)據(jù)成熟度模型,進一步豐富了評估指標(biāo)體系并公開使用;此后FAIRsFAIR、歐洲開放科學(xué)云等組織都陸續(xù)發(fā)布了FAIR評估指標(biāo)體系。
為了實現(xiàn)政府開放數(shù)據(jù)平臺的規(guī)范化建設(shè),促進政府?dāng)?shù)據(jù)的發(fā)現(xiàn)和利用,進一步優(yōu)化解決制約政府?dāng)?shù)據(jù)開放的問題,評估政府?dāng)?shù)據(jù)在可獲得性和可重用性等方面的現(xiàn)狀至關(guān)重要。國外組織提出的FAIR原則及評估框架,對我國政府開放數(shù)據(jù)平臺的管理和建設(shè)具有重要的指導(dǎo)意義。因此,本文通過借鑒國際上已有的代表性FAIR評估框架,嘗試構(gòu)建適用于國內(nèi)政府?dāng)?shù)據(jù)開放平臺的FAIR應(yīng)用評估指標(biāo)體系,并選擇8個代表性的國內(nèi)外政府?dāng)?shù)據(jù)開放平臺展開調(diào)研分析.探索、對比FAIR原則的實施現(xiàn)狀,發(fā)現(xiàn)問題并提出FAIR應(yīng)用建議,為國內(nèi)政府開放數(shù)據(jù)平臺的數(shù)據(jù)開放和管理提供借鑒。
1FAIR評估指標(biāo)體系的構(gòu)架
FAIR原則發(fā)布以來,為了評估數(shù)據(jù)資源的FAIR實施情況,相關(guān)組織展開了評估工作,提出了通用于不同學(xué)科領(lǐng)域的評估指標(biāo)體系。本文選取4種較為權(quán)威且具有代表性的FAIR評估指標(biāo)體系框架作為參考,對比分析其各自的特點和側(cè)重點,選取適用于政府開放數(shù)據(jù)平臺的指標(biāo),并進一步增加、刪減、合并,最終構(gòu)建政府開放數(shù)據(jù)平臺FAIR原則評估指標(biāo)體系。
1.1FAIR評估指標(biāo)代表性框架
FAIR原則15條細(xì)則之間相互關(guān)聯(lián),但又相互獨立且可分離,這些原則可以任意組合和逐步實踐,廣泛應(yīng)用于數(shù)據(jù)開放領(lǐng)域。為了推動FAIR原則的落實,國際組織構(gòu)建了很多具有實施意義的評估框架,其中代表性的主要有GO FAIR Metric Group提出的FAIR通用指標(biāo)框架、RDA FAIR工作組發(fā)布的FAIR數(shù)據(jù)成熟度模型、FAIRsFAIR工作組開發(fā)的FAIR數(shù)據(jù)評估指標(biāo)、EOSC FAIR工作組設(shè)計的可互操作框架。
1、)FAIR Metrics
GO FAIR Metric Group提出的FAIR Metrics指標(biāo)框架是一個通用的FAIR評估模板,該框架針對FAIR原則的15條細(xì)則歸納出14條評估指標(biāo),對每條指標(biāo)予以解釋并給出評估建議,由于指標(biāo)概括性強,未設(shè)置具體分級,用戶可依據(jù)評估建議和自身理解靈活采納,評估實施存在一定的模糊性和不確定性。
2、)RDA
RDA FAIR數(shù)據(jù)成熟度工作組為了糾正對FAIR原則的不同理解而導(dǎo)致的評估偏差,針對每條FAIR細(xì)則提出了一至多條評估項,開發(fā)了41條通用核心評估指標(biāo),并設(shè)置了指標(biāo)的優(yōu)先級順序,便于使用者確定指標(biāo)的重要程度,增強了指標(biāo)的可理解性和可實踐性。
3)FAIRsFAIR
FAIRsFAIR工作組在RDA FAIR數(shù)據(jù)成熟度指標(biāo)框架、FAIRdat、FAIR Enough實施項目的基礎(chǔ)上,廣泛結(jié)合使用者的反饋,對RDA的評估指標(biāo)進行了修改,合并為17條評估指標(biāo),并豐富了對指標(biāo)的描述,加強了指標(biāo)的可測試性。
4、)EOSC
EOSC FAIR工作組借鑒RDA FAIR成熟度模型,從中抽取相關(guān)指標(biāo)制定了適用于EOSC數(shù)據(jù)集和數(shù)字對象的評估指標(biāo),重點解決互操作層面的技術(shù)、語義等問題,更強調(diào)評估對象的可互操作性。
對4種框架的比較分析如表1所示??傮w而言,評估指標(biāo)的設(shè)計都基于FAIR原則的4個維度展開,4個評估框架僅針對FAIR細(xì)則設(shè)置一或多條評估指標(biāo),均未設(shè)置分級指標(biāo),也沒有展開具體的量化評估;各評估框架存在一定差異性,每個維度下分布的評估指標(biāo)數(shù)量都不均衡,評估的側(cè)重點不同:評估框架各自存在優(yōu)點和局限性,需要不斷地進行調(diào)整和改進,以彌合實施差異。
在上述指標(biāo)框架的基礎(chǔ)上開展FAIR原則的應(yīng)用評估,有利于判斷數(shù)據(jù)平臺數(shù)據(jù)利用情況,發(fā)現(xiàn)數(shù)據(jù)在訪問、獲取、關(guān)聯(lián)應(yīng)用方面存在的問題,幫助平臺明確優(yōu)化和改進方向。目前國內(nèi)缺乏對FAIR原則應(yīng)用評估的研究,F(xiàn)AIR原則有待進一步落實。國外的研究成果對構(gòu)建政府開放數(shù)據(jù)平臺的FAIR原則評估指標(biāo)體系提供了借鑒價值。
1.2評估指標(biāo)選取及修正
國際上已有的評估指標(biāo)體系為數(shù)據(jù)的FAIR化評估提供了可執(zhí)行的方案,但不同學(xué)科領(lǐng)域涉及的數(shù)據(jù)類型、標(biāo)準(zhǔn)、組織方式等不同,需要依據(jù)實際狀況和對指標(biāo)的理解展開具體評估。如今政府?dāng)?shù)據(jù)依托政府開放數(shù)據(jù)平臺進行管理、組織、發(fā)布和共享,平臺建設(shè)較為成熟,數(shù)據(jù)開放程度較高,具有探索和評估價值。基于前文對FAIR評估指標(biāo)框架的對比分析,本研究借鑒了FAIR Metrics、RDA和FAIRsFAIR的部分指標(biāo),如表2所示,受篇幅所限在此對3個評估框架的具體指標(biāo)不再展開描述。
FAIR Metrics的指標(biāo)較為寬泛,評估結(jié)果難以確定,但其有高度的概括性和參考性,本文借鑒了其中的5個指標(biāo),分別是標(biāo)識符的唯一性(FM-FIA)、標(biāo)識符的持久性(FM-FIB)、元數(shù)據(jù)的長期保存(FM-A2)、使用知識表示語言(FM-11)和提供詳細(xì)的數(shù)據(jù)出處信息(FM-R1.2),5條指標(biāo)準(zhǔn)確概括了標(biāo)識符的特點、元數(shù)據(jù)的保存機制、數(shù)據(jù)的標(biāo)準(zhǔn)化表示和數(shù)據(jù)溯源信息的重要性,在實際評估中不可或缺,在后續(xù)的指標(biāo)體系中與RDA和FAIRs-FAIR中評估內(nèi)容一致的指標(biāo)進行了合并調(diào)整。
RDA的指標(biāo)最為全面、拓展性極強,在實際應(yīng)用中可以根據(jù)評估對象進行指標(biāo)的靈活選擇。本文重點借鑒了RDA的如下指標(biāo):提供豐富元數(shù)據(jù)以支持?jǐn)?shù)據(jù)發(fā)現(xiàn)(RDA-F2-01M)、元數(shù)據(jù)包含數(shù)據(jù)標(biāo)識符(RDA-A1-OIM)、支持身份驗證和授權(quán)以訪問數(shù)據(jù)(RDA-A1. 2-01D)、元數(shù)據(jù)使用FAIR化詞匯表(RDA-12-OIM)等指標(biāo),這些指標(biāo)準(zhǔn)確表達了評估對象應(yīng)具備的特點。此外,將多條RDA的指標(biāo)進行了合并,如元數(shù)據(jù)可通過免費協(xié)議訪問(RDA-A1.1-01M)、數(shù)據(jù)可通過免費協(xié)議訪問(RDA-AI. 1-01D)兩條指標(biāo)都是針對評估對象采用的訪問協(xié)議及其性質(zhì)進行評估,核心評估內(nèi)容一致,將其合為(元)數(shù)據(jù)標(biāo)準(zhǔn)化訪問協(xié)議;將元數(shù)據(jù)使用機器可理解的知識表示(RDA-11-01M)和數(shù)據(jù)使用機器可理解的知識(RDA-II -01D)合并為(元)數(shù)據(jù)的標(biāo)準(zhǔn)化表示。此外依據(jù)平臺的實際調(diào)研情況,將不符合或目前尚不具備評估條件以及評估內(nèi)容泛化的指標(biāo)進行剔除,如刪除了元數(shù)據(jù)可以手動訪問(RDA-A1-02M)和數(shù)據(jù)可以手動訪問(RDA-AI-02D)等由于實際情況難以評估的指標(biāo)。EOSC的指標(biāo)直接選自RDA的指標(biāo),僅將指標(biāo)代碼做了修改,故不再納入指標(biāo)借鑒來源。
FAIRsFAIR的指標(biāo)在RDA的基礎(chǔ)上進行了合并、優(yōu)化與調(diào)整,指標(biāo)設(shè)置更加科學(xué),如為數(shù)據(jù)分配唯一標(biāo)識符(FsF-FI-01D)這一指標(biāo)是對為元數(shù)據(jù)分配唯一標(biāo)識符(RDA-FI-01M)和為數(shù)據(jù)分配唯一標(biāo)識符(RDA-FI-01D)的合并,不再對元數(shù)據(jù)和數(shù)據(jù)進行分別評估,極大提高了指標(biāo)的可操作性,此外還有若干合并指標(biāo)在此不再贅述。本研究重點借鑒了FAIRsFAIR中的如下指標(biāo):元數(shù)據(jù)包括描述性核心元素(FsF-F2-01M)、元數(shù)據(jù)可檢索(FsF-F4-01M)、通過標(biāo)準(zhǔn)化協(xié)議訪問元數(shù)據(jù)(FsF-A1-02M)、元數(shù)據(jù)包含數(shù)據(jù)的訪問級別和訪問條件(FsF-A1-01M),數(shù)據(jù)以標(biāo)準(zhǔn)文件格式提供(FsF-R1. 3-01M)等,其中有些指標(biāo)和RDA的評估內(nèi)容相似或重合,在后續(xù)指標(biāo)體系中都予以保留。
1.3評估指標(biāo)確定
綜合上述指標(biāo)借鑒過程,共獲得表2所示的16條指標(biāo)內(nèi)容。進一步提取出指標(biāo)的評估對象作為二級指標(biāo),如表2中F1與F2的評估對象都是標(biāo)識符,故提取出標(biāo)識符作為二級指標(biāo),按此合并共獲得13條二級指標(biāo),如表3所示。
在可發(fā)現(xiàn)維度下,歸納出F1標(biāo)識符、F2元數(shù)據(jù)等4個二級指標(biāo)。標(biāo)識符是標(biāo)識數(shù)據(jù)身份的一系列字符,通過檢索協(xié)議將數(shù)據(jù)與資源進行關(guān)聯(lián),標(biāo)識符的永久性是確保數(shù)據(jù)發(fā)現(xiàn)的關(guān)鍵:元數(shù)據(jù)主要描述數(shù)據(jù)的屬性信息,在政府開放數(shù)據(jù)中,元數(shù)據(jù)是最重要的組成部分,它可以對政府開放數(shù)據(jù)進行描述、管理、利用和溯源,對政府開放數(shù)據(jù)的整合具有重要意義。
在可訪問維度下,歸納出A1訪問協(xié)議、A2訪問授權(quán)等4個二級指標(biāo)。訪問協(xié)議通常制約著用戶對數(shù)據(jù)資源的獲取,開放且免費的訪問協(xié)議能極大提高數(shù)據(jù)資源的可獲取程度:由于政府?dāng)?shù)據(jù)有一定特殊性,部分?jǐn)?shù)據(jù)資源的訪問通常設(shè)有一定限制,需要經(jīng)過審核才能訪問。
在可互操作維度下,歸納出II(元)數(shù)據(jù)的標(biāo)準(zhǔn)化表示等3個二級指標(biāo),重點評估數(shù)據(jù)資源的格式是否機器可讀,數(shù)據(jù)描述詞匯是否源自FAIR詞匯表等。
可重用維度下,歸納出R1數(shù)據(jù)重用許可等兩個二級指標(biāo),主要評估是否為數(shù)據(jù)資源提供相應(yīng)的重用許可聲明和使用權(quán)限:是否強調(diào)數(shù)據(jù)創(chuàng)建時的來源信息,以幫助用戶實現(xiàn)數(shù)據(jù)追溯。
由于二級指標(biāo)僅說明了評估對象,三級指標(biāo)對二級指標(biāo)做了進一步細(xì)化和補充,闡釋了評估的具體內(nèi)容,增強了指標(biāo)的可理解性和可操作性,三級指標(biāo)的內(nèi)容主要參考了借鑒指標(biāo)。需要說明的是,本文在三級指標(biāo)的設(shè)置上進行了調(diào)整和補充:①指標(biāo)F21在借鑒指標(biāo)中屬于可重用維度,是元數(shù)據(jù)的重點評估內(nèi)容,為了便于與元數(shù)據(jù)的其他評估內(nèi)容一并分析,將其調(diào)整到二級指標(biāo)F2元數(shù)據(jù)之下;②指標(biāo)F41和F42均為補充指標(biāo),前者用于評估數(shù)據(jù)在搜索引擎中的檢索方式,后者用于判斷數(shù)據(jù)資源的存儲是否被國際通用倉儲認(rèn)可;③指標(biāo)A23是經(jīng)過平臺實際調(diào)研,并考慮未來數(shù)據(jù)平臺的建設(shè)發(fā)展方向所補充,提供數(shù)據(jù)接口與否是影響數(shù)據(jù)訪問范圍的重要指標(biāo):④指標(biāo)A31經(jīng)過調(diào)整,將數(shù)據(jù)的開放條件納入評估,幫助用戶明確數(shù)據(jù)資源的訪問限制:⑤指標(biāo)112在借鑒指標(biāo)中屬于可重用維度,將其調(diào)整至可互操作維度二級指標(biāo)I1之下,用以評估比較數(shù)據(jù)及元數(shù)據(jù)的標(biāo)準(zhǔn)格式:⑥對二級指標(biāo)13進行了調(diào)整,主要評估數(shù)據(jù)資源之間的相互關(guān)聯(lián)情況,判斷能否實現(xiàn)數(shù)據(jù)的跨庫檢索,從而推動實現(xiàn)數(shù)據(jù)資源的互聯(lián)互通。經(jīng)過上述的指標(biāo)補充與修正,評估指標(biāo)更加科學(xué)具體,由此形成了政府開放數(shù)據(jù)平臺FAIR評估指標(biāo)體系,如表3所示。
2政府開放數(shù)據(jù)平臺的FAIR原則實證分析
本研究選取8個國內(nèi)外政府開放數(shù)據(jù)平臺作為研究樣本探索FAIR原則實施情況,如表4所示,主要基于兩方面考量:一是所選國外平臺代表了國際上政府開放數(shù)據(jù)平臺建設(shè)的先進水平。美國最早建設(shè)并運行政府開放數(shù)據(jù)平臺,開辟了國家層面官方管理和共享政府?dāng)?shù)據(jù)的先例,具有較為健全的數(shù)據(jù)共享機制:歐盟數(shù)據(jù)開放門戶集合了歐盟各成員國的公共數(shù)據(jù),平臺建設(shè)在一定程度上遵循FAIR原則,有較大的借鑒和分析價值:加拿大和英國的政府開放數(shù)據(jù)平臺都擁有相對完善的數(shù)據(jù)開放體系。二是國內(nèi)尚未建成國家層面的政府開放數(shù)據(jù)平臺,省、市級政府開放數(shù)據(jù)平臺更具代表性。4個國內(nèi)平臺都在國家首批政府開放數(shù)據(jù)平臺建設(shè)之列,數(shù)據(jù)覆蓋面廣、體量大,有完善的數(shù)據(jù)發(fā)布與共享流程,用戶友好度更高。例如,上海市公共數(shù)據(jù)開放平臺建設(shè)目標(biāo)是滿足公眾和企業(yè)對政府?dāng)?shù)據(jù)的“知情權(quán)”和“使用權(quán)”:廣東省政府開放平臺是“數(shù)字政府”建設(shè)的重要組成部分,也是政府面向社會的窗口。
2.1可發(fā)現(xiàn)維度的實證分析
1)標(biāo)識符
FAIR原則強調(diào)為數(shù)據(jù)分配唯一、永久且可解析的標(biāo)識符,以便于數(shù)據(jù)資源的發(fā)現(xiàn)、管理、引用和鏈接。國際上通用的永久性標(biāo)識符包括數(shù)字對象標(biāo)識符DOI、存檔資源密鑰ARK、持久性統(tǒng)一資源定位器PURL等。在8個調(diào)研平臺中,僅有3個國外平臺采用了通用型標(biāo)識符,5個平臺采用本地標(biāo)識符。其中歐盟、美國和英國都采用統(tǒng)一資源定位符(URL),能唯一標(biāo)識數(shù)據(jù)資源的位置,可以通過鏈接直接訪問數(shù)據(jù)資源。美國和英國的部分?jǐn)?shù)據(jù)集使用通用唯一識別碼(UUID)進行標(biāo)識,用以確保數(shù)據(jù)資源的唯一性,加拿大平臺僅提供數(shù)據(jù)記錄ID標(biāo)識數(shù)據(jù)身份,但不可解析。
國內(nèi)平臺未采用國際通用型標(biāo)識符方案,每個平臺都遵循各自的地方標(biāo)準(zhǔn),采用由數(shù)字或字母組成的本地標(biāo)識符來標(biāo)識數(shù)據(jù)身份。如貴州平臺的數(shù)據(jù)標(biāo)識符由數(shù)據(jù)類編號和順序碼共8位數(shù)字組成,上海市平臺數(shù)據(jù)標(biāo)識符由前段碼和后段碼共12位數(shù)字和字母組合組成。雖然該類標(biāo)識符保證了其系統(tǒng)內(nèi)的唯一性,但不可解析,無法通過標(biāo)識符直接訪問數(shù)據(jù),給數(shù)據(jù)的訪問造成了不便。
綜合來看,國內(nèi)外的政府開放數(shù)據(jù)平臺都未采用通用的永久性標(biāo)識符方案,國外平臺采用URL居多,但僅能保證數(shù)據(jù)的唯一性,也沒有覆蓋平臺的全部數(shù)據(jù),無法保證數(shù)據(jù)的長久有效性,一旦URL發(fā)生變化,指向的數(shù)據(jù)資源地址也會隨之失效。國內(nèi)政府開放數(shù)據(jù)平臺未采用國際通用的永久型標(biāo)識符方案,且平臺之間的標(biāo)識符方案差異較大,不利于數(shù)據(jù)關(guān)聯(lián)、追溯和穩(wěn)定有效訪問。
2)元數(shù)據(jù)
在通過元數(shù)據(jù)描述各類資源的過程中,基于不同資源的不同特點,按照整合和共享的要求,需要制定通用的元數(shù)據(jù)標(biāo)準(zhǔn),以科學(xué)、準(zhǔn)確、全面的描述資源的屬性和特征。調(diào)研發(fā)現(xiàn),國外平臺多復(fù)用國際通用元數(shù)據(jù)標(biāo)準(zhǔn)中的元數(shù)據(jù)元素,如都柏林核心(DC)、DCAT、Schema. org、CKAN等,如表5所示。英國還采用了空間元數(shù)據(jù)標(biāo)準(zhǔn)GEMINI,用以描述數(shù)據(jù)的空間范圍。國內(nèi)平臺基于國家發(fā)改委、中央網(wǎng)信辦發(fā)布的《政務(wù)信息資源目錄編制指南(試行)》,出臺了地方標(biāo)準(zhǔn)或自定義元數(shù)據(jù)方案,來規(guī)范元數(shù)據(jù)的構(gòu)成。
各平臺數(shù)據(jù)資源的元數(shù)據(jù)描述內(nèi)容都較為豐富,除了涵蓋名稱、標(biāo)識符、主題、描述、關(guān)鍵詞、提供方、發(fā)布日期、更新日期、聯(lián)系方式、更新頻率等核心元數(shù)據(jù)外,還增加了許多其它類型的元數(shù)據(jù),按其功能可劃分為描述性元數(shù)據(jù)、管理性元數(shù)據(jù)、利用性元數(shù)據(jù)和溯源元數(shù)據(jù)。在描述性元數(shù)據(jù)中,又可分為時空描述元數(shù)據(jù)(如時間范圍、空間范圍)、數(shù)據(jù)描述元數(shù)據(jù)(如數(shù)據(jù)格式、媒體類型、數(shù)據(jù)量)、責(zé)任描述元數(shù)據(jù)(如資源狀態(tài)、數(shù)據(jù)維護方)等,全面準(zhǔn)確的概括了數(shù)據(jù)資源的特征。5個平臺提供管理型元數(shù)據(jù),如訪問權(quán)限、許可證等,便于用戶明確數(shù)據(jù)使用范圍。7個平臺提供利用性元數(shù)據(jù),如開放類型、開放等級、訪問/下載次數(shù)等,便于用戶了解該數(shù)據(jù)集的使用情況。所有平臺都提供溯源元數(shù)據(jù),如更新日期、架構(gòu)版本、最后更新日期等,以支持?jǐn)?shù)據(jù)的溯源。國內(nèi)平臺增設(shè)了符合政府開放數(shù)據(jù)特點的專用元數(shù)據(jù),如上海市平臺增加了描述數(shù)據(jù)應(yīng)用場景、國家主題分類、部門主題分類的元數(shù)據(jù)描述項,廣東省增加了描述數(shù)據(jù)的所屬行政事項和所屬行政區(qū)域的元數(shù)據(jù)描述項,體現(xiàn)了較為鮮明的政府?dāng)?shù)據(jù)特色。
3)搜索引擎可檢索
如表6所示,8個平臺均提供豐富的檢索方式幫助數(shù)據(jù)發(fā)現(xiàn),如美國平臺提供按主題、標(biāo)簽等檢索方式,歐盟平臺提供目錄檢索,上海市平臺提供高級篩選,貴州省平臺支持按場景和部門進行檢索。檢索方式的多樣化和簡單易行能幫助用戶更便捷的獲取數(shù)據(jù)。FAIRsharing和Re3data是國際權(quán)威的數(shù)據(jù)倉儲目錄,在其中注冊并通過認(rèn)證的數(shù)據(jù)平臺和存儲庫高度開放且更加標(biāo)準(zhǔn)化。在8個調(diào)研平臺中,4個國外平臺均同時注冊于FAIRsharing和Re3data,4個國內(nèi)平臺在FAIRsharing和Re3data中均未注冊,由此反映出我國的政府開放數(shù)據(jù)平臺有待進一步獲取國際權(quán)威倉儲的認(rèn)可。
數(shù)據(jù)的發(fā)現(xiàn)是數(shù)據(jù)利用的前提,國內(nèi)外的政府?dāng)?shù)據(jù)平臺通過規(guī)范數(shù)據(jù)標(biāo)識符的使用、遵循相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)和優(yōu)化數(shù)據(jù)的檢索來支持?jǐn)?shù)據(jù)的發(fā)現(xiàn)。但相較于國外平臺,國內(nèi)平臺尚未采用永久性標(biāo)識符,不利于數(shù)據(jù)的長期有效訪問;在元數(shù)據(jù)方面,國內(nèi)各平臺間的元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一且不完善,與國際成熟的元數(shù)據(jù)標(biāo)準(zhǔn)存在一定差距:國外平臺廣泛注冊于國際認(rèn)可的通用倉儲,擴大了平臺的影響力,易于用戶發(fā)現(xiàn)數(shù)據(jù),國內(nèi)平臺在此方面有待加強。
2.2可訪問維度實證分析
1)訪問協(xié)議
調(diào)研發(fā)現(xiàn),僅有貴州省平臺采用超文本傳輸協(xié)議(HTTP),其余7個平臺的數(shù)據(jù)服務(wù)都依靠超文本傳輸安全協(xié)議(HTTPS)來實現(xiàn),該協(xié)議在超文本傳輸協(xié)議(HTTP)的基礎(chǔ)上通過傳輸加密和身份認(rèn)證保證了傳輸過程的安全性,兼具數(shù)據(jù)保密性、數(shù)據(jù)完整性和身份校驗安全性,支持任何用戶在線訪問、獲取數(shù)據(jù),由此可見,政府開放數(shù)據(jù)平臺已經(jīng)初步具備了標(biāo)準(zhǔn)化的安全協(xié)議環(huán)境。此外,常用的應(yīng)用層訪問協(xié)議還包括文件傳輸協(xié)議(FTP)、簡單文件傳輸協(xié)議(TFTP)等,支持用戶獲取和傳輸格式大小不同的文件,擴大數(shù)據(jù)的共享范圍。
2)訪問授權(quán)
政府?dāng)?shù)據(jù)因為其特殊性,部分?jǐn)?shù)據(jù)需要有限開放,因此政府?dāng)?shù)據(jù)平臺要明確相關(guān)使用條款和服務(wù)協(xié)議。從調(diào)研情況來看,各平臺都聲明了訪問平臺須遵循的用戶訪問條款,歐盟、美國、英國都發(fā)布了平臺免責(zé)聲明、隱私策略,加拿大聲明訪問平臺的條款和條件。上海市聲明平臺用戶使用條款和免責(zé)聲明,廣東省明確用戶服務(wù)協(xié)議,浙江省和貴州省都聲明了用戶訪問條款。
在注冊與授權(quán)方面,8個平臺都無需注冊即可實現(xiàn)平臺數(shù)據(jù)的瀏覽和訪問,部分元數(shù)據(jù)和數(shù)據(jù)可以直接下載獲取。對于一些受限訪問的數(shù)據(jù)和服務(wù),平臺設(shè)置不同的訪問層級和授權(quán)機制,如歐盟平臺的非公開數(shù)據(jù)必須登陸后才能進一步訪問,上海市平臺中有條件開放的數(shù)據(jù)需要登錄并完成身份認(rèn)證,經(jīng)申請通過后訪問,浙江省平臺的數(shù)據(jù)必須登陸后才能下載。數(shù)據(jù)的獲取也并不都是免費的,如上海市平臺在其收費政策中明確聲明部分?jǐn)?shù)據(jù)加工產(chǎn)品需要付費訪問。
8個平臺都提供API接口服務(wù)以支持?jǐn)?shù)據(jù)的調(diào)用,用戶可依據(jù)指定的接口調(diào)用格式,從指定接口地址獲取實時動態(tài)的海量數(shù)據(jù)。國外平臺如歐盟平臺提供SPARQL、MQA等API接口來讀取元數(shù)據(jù),美國平臺提供CKAN API調(diào)用元數(shù)據(jù),國內(nèi)平臺提供分頁API、用戶API等多種API類型,各平臺都明確API使用說明或提供使用文檔。值得注意的是,國外平臺支持API免申請調(diào)用,用戶可以不受限制的獲取所需數(shù)據(jù),國內(nèi)平臺多數(shù)需要進行實名認(rèn)證后申請調(diào)用,普通用戶沒有調(diào)用權(quán)限,僅有貴州省平臺支持在線接口調(diào)用。API服務(wù)極大提高了數(shù)據(jù)的可訪問范圍,為用戶獲取數(shù)據(jù)帶來便利。
3)訪問級別和開放條件
訪問級別和條件是支持用戶獲取數(shù)據(jù)的必要信息。不同平臺的數(shù)據(jù)訪問級別略有差異,如表7所示。美國平臺的數(shù)據(jù)分為公開訪問、受限訪問和非公開訪問3個級別,歐盟平臺設(shè)置公開訪問和受限訪問兩個級別,加拿大平臺和英國平臺對此未作明確聲明。公開訪問的數(shù)據(jù)通常不設(shè)置訪問條件,數(shù)據(jù)集往往在公共領(lǐng)域內(nèi)發(fā)布,支持用戶的直接訪問,且提供明確的許可信息;受限訪問的數(shù)據(jù)經(jīng)用戶授權(quán)后才能進一步訪問。國內(nèi)4家平臺在數(shù)據(jù)集界面明確聲明數(shù)據(jù)的訪問級別,依據(jù)數(shù)據(jù)開放條件分為有條件訪問和無條件訪問,上海市平臺還明確注明了數(shù)據(jù)的訪問條件。由此可見,國內(nèi)平臺的訪問級別設(shè)置和訪問條件聲明比國外平臺更加清晰完善。
4個平臺采用星級評分法評估數(shù)據(jù)集的開放程度,星級越高,代表數(shù)據(jù)開放水平越高,1個平臺采用5分量表法,開放水平越高則分?jǐn)?shù)越高。此外,國內(nèi)平臺還注明了訪問部分?jǐn)?shù)據(jù)需要滿足的一定條件或獲取途徑,國外平臺對此尚無明確說明。
4)(元)數(shù)據(jù)存儲方案
在各平臺的數(shù)據(jù)存儲方案中,歐盟提供持久URI資源方案,通過Gitlab存儲庫保障數(shù)據(jù)的穩(wěn)定存儲;英國借助Github存儲庫存儲數(shù)據(jù),未聲明存儲方案的永久性;美國搭建resources. data. gov作為聯(lián)邦企業(yè)數(shù)據(jù)資源的中央存儲庫,并未聲明數(shù)據(jù)永久性存儲方案。
國內(nèi)僅有貴州省出臺數(shù)據(jù)存儲規(guī)范地方標(biāo)準(zhǔn),規(guī)定結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存人如MySQL的數(shù)據(jù)庫中,半結(jié)構(gòu)化數(shù)據(jù)應(yīng)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)再統(tǒng)一存入存儲庫,非結(jié)構(gòu)化數(shù)據(jù)采用文件形式存儲等。其余平臺未提供關(guān)于數(shù)據(jù)存儲機制的詳細(xì)說明。
數(shù)據(jù)的可訪問程度決定了數(shù)據(jù)可利用的范圍??傮w而言,用戶可以瀏覽并訪問免費開放的政府平臺中的大部分?jǐn)?shù)據(jù);在數(shù)據(jù)的下載獲取方面,國內(nèi)外平臺都設(shè)置了相關(guān)授權(quán)機制來賦予用戶相應(yīng)的訪問權(quán)利,部分國外平臺數(shù)據(jù)可以直接下載,國內(nèi)平臺通常需要注冊后才能下載數(shù)據(jù),某種程度上給用戶帶來了不便:多數(shù)平臺明確數(shù)據(jù)的訪問級別,并采用評分法展示平臺的數(shù)據(jù)開放程度,幫助用戶了解所需數(shù)據(jù)的開放情況:在數(shù)據(jù)的存儲方案上,多數(shù)平臺并未公開說明數(shù)據(jù)存儲機制,數(shù)據(jù)的長期穩(wěn)定保存需要進一步的保障。
2.3可互操作維度實證分析
1)(元)數(shù)據(jù)的標(biāo)準(zhǔn)化表示
使用形式化的知識表示語言來描述元數(shù)據(jù)能提高機器可讀性并實現(xiàn)數(shù)據(jù)交換。常見的知識表示語言的例子有RDF、XML和OWL等,可以提高異構(gòu)系統(tǒng)間的互操作性。調(diào)研發(fā)現(xiàn),歐盟平臺在其數(shù)據(jù)集界面的“鏈接數(shù)據(jù)”選項中提供RDF/XML的元數(shù)據(jù)格式,加拿大平臺也支持元數(shù)據(jù)以XML格式下載。此外,美國平臺在數(shù)據(jù)集界面提供機器可讀的JSON元數(shù)據(jù)格式,可以在多種語言之間進行數(shù)據(jù)交換,同時也易于機器解析和生成。相比之下,國內(nèi)4家平臺都采用面向瀏覽者閱讀的HTML網(wǎng)頁格式呈現(xiàn)元數(shù)據(jù)內(nèi)容,是一種非機器可讀的格式,用戶無法直接下載并獲取元數(shù)據(jù)。
在數(shù)據(jù)文件格式方面,8個平臺都提供開放數(shù)據(jù)格式如JSON、RDF、XML,這類數(shù)據(jù)格式機器可讀性強,支持跨平臺的數(shù)據(jù)調(diào)用和溯源。國外平臺提供的數(shù)據(jù)格式普遍較為豐富,如歐盟、美國、加拿大提供近20種數(shù)據(jù)格式類型,覆蓋結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。相比之下,國內(nèi)平臺提供的數(shù)據(jù)格式種類少,每個平臺最多提供5~6種數(shù)據(jù)格式類型,數(shù)據(jù)格式有待進一步豐富,以滿足不同用戶的需求。
2)FAIR受控詞表的使用
在4個國外平臺中,美國采用DCAT詞匯標(biāo)準(zhǔn),提供數(shù)據(jù)目錄、數(shù)據(jù)和元數(shù)據(jù)與復(fù)用標(biāo)準(zhǔn)的映射;歐盟基于W3C開發(fā)的數(shù)據(jù)目錄詞匯表(DCAT)的規(guī)范提出DCAT應(yīng)用程序配置文件(DCAT-AP),此應(yīng)用程序配置文件是元數(shù)據(jù)記錄的規(guī)范,以滿足歐洲數(shù)據(jù)門戶的特定應(yīng)用程序需求,同時在重用已建立的受控詞匯表(例如EuroVoc)和映射到現(xiàn)有元數(shù)據(jù)詞匯表(如都柏林核心、SDMX、INSPIRE元數(shù)據(jù)等)的基礎(chǔ)上提供與其他應(yīng)用程序的語義互操作:英國接受來自CKAN和DCAT詞匯表中的元數(shù)據(jù)字段,并建立相關(guān)映射。
國內(nèi)4個平臺都發(fā)布了數(shù)據(jù)集元數(shù)據(jù)描述的規(guī)范性文件,各自界定了平臺采用的核心元數(shù)據(jù)元素,但平臺間的元數(shù)據(jù)描述內(nèi)容并未達成統(tǒng)一,也未引入語義資源,不利于數(shù)據(jù)的互操作。
3)數(shù)據(jù)關(guān)聯(lián)及引用
歐盟平臺以超鏈接的形式提供相關(guān)數(shù)據(jù)集,并且明確數(shù)據(jù)引用格式:加拿大平臺在數(shù)據(jù)界面提供數(shù)據(jù)、元數(shù)據(jù)的下載或指向鏈接,同時以鏈接形式推薦相似數(shù)據(jù)集,部分?jǐn)?shù)據(jù)支持預(yù)覽和可視化:英國平臺在元數(shù)據(jù)中提供指向數(shù)據(jù)集網(wǎng)頁的URL,同時提供相似數(shù)據(jù)集的鏈接,用戶可通過鏈接直接訪問數(shù)據(jù)資源,并支持?jǐn)?shù)據(jù)預(yù)覽:美國平臺不提供與數(shù)據(jù)相關(guān)的數(shù)據(jù)資源信息。
上海市在元數(shù)據(jù)中提供樣例數(shù)據(jù)鏈接,用戶可預(yù)覽數(shù)據(jù);浙江省在數(shù)據(jù)界面提供數(shù)據(jù)關(guān)聯(lián)信息、相關(guān)數(shù)據(jù)和相關(guān)應(yīng)用,用戶通過數(shù)據(jù)關(guān)聯(lián)信息訪問相關(guān)數(shù)據(jù),并了解數(shù)據(jù)應(yīng)用在哪些方面,同時還提供數(shù)據(jù)預(yù)覽和數(shù)據(jù)圖譜服務(wù),給用戶帶來了極大便利:廣東省在數(shù)據(jù)界面提供數(shù)據(jù)關(guān)聯(lián)信息,內(nèi)容包括數(shù)據(jù)的省級部門、地市、API、APP;貴州省提供數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)項。綜上可見,在數(shù)據(jù)關(guān)聯(lián)層面,多數(shù)平臺在元數(shù)據(jù)中提供關(guān)聯(lián)數(shù)據(jù)的鏈接,用戶可以直接訪問數(shù)據(jù)集,極大提高了數(shù)據(jù)的利用程度。不足的是,多數(shù)平臺皆未明確提供數(shù)據(jù)引用格式,給數(shù)據(jù)的再次利用造成了困難。
可互操作涉及語義與技術(shù)層面的數(shù)據(jù)系統(tǒng)建設(shè)理念。在數(shù)據(jù)的標(biāo)準(zhǔn)化表達方面,國外平臺采用了RDF、XML等描述資源間的關(guān)系的語義化表示語言,易于機器理解和解析,同時能實現(xiàn)異構(gòu)系統(tǒng)之間的互操作,國內(nèi)平臺尚未采用語義化語言來表示數(shù)據(jù)。相較于國外平臺,國內(nèi)平臺未公布受控詞表的使用,在數(shù)據(jù)描述的規(guī)范性和開放性方面存在欠缺:在技術(shù)層面,互操作意味著不同系統(tǒng)間數(shù)據(jù)資源的互聯(lián),因此,在數(shù)據(jù)資源中嵌入相關(guān)資源的指向鏈接是實現(xiàn)系統(tǒng)間數(shù)據(jù)交互的渠道,在這一方面,國內(nèi)平臺的建設(shè)普遍優(yōu)于國外平臺。
2.4可重用維度實證分析
1)數(shù)據(jù)使用許可
許可機制在政府?dāng)?shù)據(jù)開放中的作用至關(guān)重要。政府開放數(shù)據(jù)強調(diào)數(shù)據(jù)的共享與再利用,數(shù)據(jù)開放許可類型制約著數(shù)據(jù)的開放程度、利用方式和范圍。從調(diào)研情況來看,7個平臺都聲明了數(shù)據(jù)使用許可,如表8所示。國外平臺開放許可主要包括3種類型,即開放數(shù)據(jù)庫許可(ODb L)、知識共享一署名許可(CC-BY)、國家層面自定義的開放政府許可(OGL),數(shù)據(jù)資源的發(fā)布或利用嚴(yán)格按照標(biāo)準(zhǔn)執(zhí)行,數(shù)據(jù)的使用范圍和用戶責(zé)權(quán)清晰明確。除了以標(biāo)準(zhǔn)的格式提供數(shù)據(jù)使用許可外,部分平臺也支持使用數(shù)據(jù)提供商發(fā)布的數(shù)據(jù)使用條款,大部分?jǐn)?shù)據(jù)受開放許可的保護。
目前,國內(nèi)尚未制定官方出臺的、成文件的數(shù)據(jù)使用許可聲明,也沒有頒布針對數(shù)據(jù)庫的特別保護法,獨立的數(shù)據(jù)集不受法律層面保護。上海市平臺僅聲明開放數(shù)據(jù)使用條款和限制范圍,數(shù)據(jù)可用范圍尚不明晰:廣東省平臺未聲明詳細(xì)的數(shù)據(jù)使用許可;浙江省平臺提出開放授權(quán)許可使用協(xié)議,明確用戶使用數(shù)據(jù)的范圍:貴州省平臺聲明開放平臺數(shù)據(jù)資源使用承諾書,并隨數(shù)據(jù)集一起上傳,詳細(xì)說明了數(shù)據(jù)可用范圍??傮w而言,國內(nèi)平臺缺乏權(quán)威且統(tǒng)一的數(shù)據(jù)使用許可標(biāo)準(zhǔn),不利于數(shù)據(jù)的產(chǎn)權(quán)保護。
2)數(shù)據(jù)溯源
數(shù)據(jù)溯源是從源數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的衍生過程信息,也是一種元數(shù)據(jù),用來記錄工作流演變過程、標(biāo)準(zhǔn)信息等,以確保數(shù)據(jù)的可靠性。一般而言,溯源信息包括數(shù)據(jù)的發(fā)布者、創(chuàng)建時間.?dāng)?shù)據(jù)來源、更新日期等,所調(diào)研的8個平臺都明確提供了這類信息。其中,歐盟平臺將W3C PROV本體(PROV-O)溯源標(biāo)準(zhǔn)與DCAT標(biāo)準(zhǔn)相結(jié)合,在元數(shù)據(jù)中明確定義溯源元數(shù)據(jù):美國平臺也單獨提供元數(shù)據(jù)創(chuàng)建日期、元數(shù)據(jù)更新日期、數(shù)據(jù)更新版本等溯源元數(shù)據(jù);在國內(nèi)平臺中,僅浙江省平臺提供歷史數(shù)據(jù)下載,用戶可獲取當(dāng)前數(shù)據(jù)的歷史版本,體現(xiàn)了當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)間的溯源關(guān)系。不難看出,國外平臺已經(jīng)開始將溯源元數(shù)據(jù)納入元數(shù)據(jù)標(biāo)準(zhǔn)并獨立提供,使數(shù)據(jù)溯源信息更加清晰明確,目前國內(nèi)平臺尚未對溯源標(biāo)準(zhǔn)進行采納,僅在元數(shù)據(jù)中提供部分溯源信息。此外,尚未有平臺提供詳細(xì)的描述數(shù)據(jù)產(chǎn)生過程的信息,在溯源語義上存在欠缺,一定程度上限制對數(shù)據(jù)的追溯。
可重用能夠?qū)崿F(xiàn)數(shù)據(jù)的反復(fù)利用,降低科學(xué)研究的成本,實現(xiàn)數(shù)據(jù)價值的最大化。明確的數(shù)據(jù)使用許可是保障數(shù)據(jù)可重用的關(guān)鍵,在這一方面,國外平臺已經(jīng)頒布了官方的數(shù)據(jù)開放使用許可標(biāo)準(zhǔn),明晰了數(shù)據(jù)共享方式、范圍和責(zé)權(quán)。國內(nèi)目前尚未頒布統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)使用許可,亟需出臺政府層面的數(shù)據(jù)使用許可來規(guī)范數(shù)據(jù)的共享與使用:數(shù)據(jù)溯源能實現(xiàn)數(shù)據(jù)歷史檔案的追溯,重現(xiàn)數(shù)據(jù)的歷史狀態(tài),有助于歷史數(shù)據(jù)的復(fù)用。國外平臺已采用溯源元數(shù)據(jù)標(biāo)準(zhǔn)并納入元數(shù)據(jù),而國內(nèi)平臺在溯源元數(shù)據(jù)的提供與建設(shè)上仍處于起步階段。
3政府開放數(shù)據(jù)平臺FAIR原則應(yīng)用建議
3.1可發(fā)現(xiàn)性建議
FAIR原則的首要原則是可發(fā)現(xiàn)原則,如果無法識別和查找數(shù)據(jù),則無從談?wù)摂?shù)據(jù)的訪問、互操作和重用。采用永久性標(biāo)識符方案是提高數(shù)據(jù)發(fā)現(xiàn)和保障數(shù)據(jù)長久有效訪問的關(guān)鍵。政府開放數(shù)據(jù)平臺應(yīng)明確聲明遵循的標(biāo)識符方案和類型,積極采納永久性標(biāo)識符如DOI、PID等,并將其納入元數(shù)據(jù)描述中。國內(nèi)政府?dāng)?shù)據(jù)開放平臺可借鑒國家科學(xué)數(shù)據(jù)中心發(fā)布的科技資源標(biāo)識符CSTR體系,推動建成政府開放數(shù)據(jù)的標(biāo)識符標(biāo)準(zhǔn)體系,統(tǒng)一國內(nèi)省、市、區(qū)各級政府開放數(shù)據(jù)平臺的標(biāo)識符類型,形成標(biāo)準(zhǔn)的標(biāo)識符規(guī)范。
在元數(shù)據(jù)標(biāo)準(zhǔn)方面,國外政府開放數(shù)據(jù)平臺多復(fù)用國際通用的元數(shù)據(jù)標(biāo)準(zhǔn),核心元數(shù)據(jù)描述較為統(tǒng)一,國內(nèi)雖出臺了政務(wù)元數(shù)據(jù)核心標(biāo)準(zhǔn),但各平臺實施度不一,差異較大。我國政府應(yīng)注重與國際元數(shù)據(jù)標(biāo)準(zhǔn)的對接,及時更新政務(wù)元數(shù)據(jù)標(biāo)準(zhǔn)文件,規(guī)范各類政府開放平臺元數(shù)據(jù)的構(gòu)成,統(tǒng)一元數(shù)據(jù)描述內(nèi)容,提高政府元數(shù)據(jù)質(zhì)量。
3.2可訪問性建議
由于部分政府?dāng)?shù)據(jù)存在一定的敏感性,平臺應(yīng)明確用戶訪問條款,幫助用戶明晰自身權(quán)限,同日寸出于數(shù)據(jù)安全的角度應(yīng)完善用戶身份審核機制,并可以適當(dāng)采取用戶分級策略,針對不同類型的用戶設(shè)置不同的訪問權(quán)限。對于受限訪問的數(shù)據(jù),應(yīng)明確訪問條件和獲取途徑,為用戶獲取數(shù)據(jù)創(chuàng)造便利條件。目前國內(nèi)外政府?dāng)?shù)據(jù)平臺皆提供較為成熟的API服務(wù),擴大了用戶獲取數(shù)據(jù)的范圍,但國內(nèi)平臺用戶調(diào)取API仍存在諸多限制,應(yīng)進一步明確API的查看、使用和調(diào)用權(quán)限,降低用戶的使用難度,提升用戶的使用意愿,擴大數(shù)據(jù)的可訪問范圍。此外,政府開放數(shù)據(jù)平臺應(yīng)聲明元數(shù)據(jù)的長期存儲機制和方案,確保數(shù)據(jù)在可靠的存儲庫中進行保存,保證數(shù)據(jù)的訪問不受時間限制,避免因意外丟失而造成數(shù)據(jù)無法訪問等情況。
3.3可互操作性建議
從調(diào)研結(jié)果來看,國外平臺無論是從(元)數(shù)據(jù)的標(biāo)準(zhǔn)化表示上,還是從FAIR受控詞表的使用上,都比國內(nèi)平臺更加完善。知識表示對于元數(shù)據(jù)和數(shù)據(jù)的機器處理至關(guān)重要,并且能擴大數(shù)據(jù)交換的范圍。基于這一點,國內(nèi)政府平臺應(yīng)支持元數(shù)據(jù)以語義化的格式進行表示,如RDF/XML、Turtle、JSON等,增強其機器可讀性和可互操作性。在元數(shù)據(jù)的組織上,可以擴充來自語義資源的術(shù)語如本體,語義資源可以經(jīng)機器自動處理,能促進數(shù)據(jù)的自動搜索,增強異構(gòu)數(shù)據(jù)的互操作性。在數(shù)據(jù)的關(guān)聯(lián)層面,將數(shù)據(jù)和其相關(guān)實體鏈接能夠增加其重用的可能性,鏈接信息應(yīng)在元數(shù)據(jù)中提供。數(shù)據(jù)集可以鏈接到其先前版本、相關(guān)數(shù)據(jù)集或資源(如出版物、存儲庫、平臺等)。數(shù)據(jù)與其相關(guān)實體之間的聯(lián)系應(yīng)通過關(guān)系類型如RDF來表示。
3.4可重用性建議
權(quán)威且機器可讀的數(shù)據(jù)使用許可能明確政府?dāng)?shù)據(jù)使用限制,增強政府?dāng)?shù)據(jù)使用的彈性,避免造成法律層面的侵權(quán)和其他使用風(fēng)險,能夠真正落實政府開放數(shù)據(jù)原則,保障公眾在法律許可的最大范圍內(nèi)對政府?dāng)?shù)據(jù)進行多元化的開發(fā)和利用。我國應(yīng)結(jié)合政府開放數(shù)據(jù)平臺的現(xiàn)狀,盡快制定規(guī)范統(tǒng)一的官方數(shù)據(jù)使用許可聲明,并建立數(shù)據(jù)許可使用的審查機制,理清相關(guān)權(quán)利,確保數(shù)據(jù)開放許可實踐的真正落實。在數(shù)據(jù)溯源信息建設(shè)層面,已有國外平臺將W3C溯源工作組提出的溯源數(shù)據(jù)模型PROV-0與DCAT標(biāo)準(zhǔn)結(jié)合,將溯源元數(shù)據(jù)作為獨立的元數(shù)據(jù)描述內(nèi)容,從而明確數(shù)據(jù)創(chuàng)建時以及數(shù)據(jù)在更新過程中的信息。國內(nèi)政府?dāng)?shù)據(jù)平臺應(yīng)完善對數(shù)據(jù)資源的溯源元數(shù)據(jù)描述,完善數(shù)據(jù)溯源規(guī)范,因此保障數(shù)據(jù)的可靠性,從而提升數(shù)據(jù)溯源的效率。
4總結(jié)與展望
FAIR原則是國際社會廣泛認(rèn)可的科學(xué)數(shù)據(jù)管理原則,為科學(xué)數(shù)據(jù)的標(biāo)識、溯源、共享和重用提供了指南,并逐漸應(yīng)用于數(shù)據(jù)平臺的規(guī)范建設(shè)和管理。本文借鑒國外主要的FAIR原則評估框架,結(jié)合網(wǎng)絡(luò)調(diào)研,從可發(fā)現(xiàn)等4個維度出發(fā),構(gòu)建了面向我國政府開放數(shù)據(jù)平臺的FAIR評估指標(biāo)體系。該體系共包括13個二級指標(biāo)和24個三級指標(biāo),旨在評估數(shù)據(jù)平臺的FAIR原則實踐現(xiàn)狀,判斷現(xiàn)有數(shù)據(jù)的開放水平。研究選取發(fā)展成熟的國內(nèi)外政府開放平臺展開應(yīng)用分析,以驗證評估體系的可行性。結(jié)果表明,本文所構(gòu)建的評估體系能有效發(fā)現(xiàn)政府開放數(shù)據(jù)平臺在數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)訪問、數(shù)據(jù)互操作等方面存在的問題,并針對性地提出了優(yōu)化建議。
基于FAIR原則的政府開放平臺評估體系,能切實幫助研究人員、數(shù)據(jù)平臺的建設(shè)者等規(guī)范數(shù)據(jù)共享和利用的流程,完善標(biāo)識符方案和元數(shù)據(jù)標(biāo)準(zhǔn),健全數(shù)據(jù)互聯(lián)和重用機制,使數(shù)據(jù)不斷接近最佳發(fā)現(xiàn)和利用的狀態(tài)。但本文的研究仍存在一定局限性,一是評估對象的選取數(shù)量有限,未來有待進一步擴大評估樣本量以系統(tǒng)地發(fā)現(xiàn)問題。二是國內(nèi)尚未將FAIR原則納入數(shù)據(jù)管理政策體系當(dāng)中,F(xiàn)AIR原則有待進一步實施和落地。我國應(yīng)從政策層面進一步落實FAIR原則,出臺對FAIR原則的支持政策,完善數(shù)據(jù)開放標(biāo)準(zhǔn)規(guī)范,健全數(shù)據(jù)共享機制,營造有效實施FAIR原則的數(shù)據(jù)管理環(huán)境,增加數(shù)據(jù)發(fā)現(xiàn)、訪問、交互和重用的可能性,推進數(shù)據(jù)要素價值體系建立,發(fā)揮數(shù)據(jù)要素的應(yīng)有價值。