翟軍 畢智航 董可新 沈立新
(大連海事大學(xué)航運(yùn)經(jīng)濟(jì)與管理學(xué)院,大連 116026)
數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)的開(kāi)放共享有效推動(dòng)著數(shù)據(jù)要素的價(jià)值釋放[1-2]。德國(guó)的數(shù)字經(jīng)濟(jì)規(guī)模居世界第三位,僅次于美國(guó)和中國(guó),2020年達(dá)到2.54萬(wàn)億美元[3],其中由開(kāi)放數(shù)據(jù)帶來(lái)的效益日益顯著[4]。根據(jù)知名的康拉德·阿登納基金會(huì)(Konrad-Adenauer-Stiftung)的研究,2016年開(kāi)放政府?dāng)?shù)據(jù)(Open Government Data,OGD)為德國(guó)貢獻(xiàn)了431億歐元的經(jīng)濟(jì)附加值,到2025年這一數(shù)字有望增加到1 311億歐元[5]。
致力于成為世界領(lǐng)先的開(kāi)放數(shù)據(jù)國(guó)家[6],德國(guó)政府于2013年簽署《G8開(kāi)放數(shù)據(jù)憲章》(G8 Open Data Charter)[7],2016年加入開(kāi)放政府合作組織(Open Government Partnership,OGP),2021年采納《國(guó)際開(kāi)放數(shù)據(jù)憲章》(International Open Data Charter)[8]。在77個(gè)OGP成員中,德國(guó)是率先提交《2021—2023年國(guó)家行動(dòng)計(jì)劃》(National Action Plan)的國(guó)家之一[9]。2021年7月,德國(guó)開(kāi)始實(shí)施為期5年的《聯(lián)邦政府開(kāi)放數(shù)據(jù)戰(zhàn)略》(Open-Data-Strategie der Bundesregierung)[10]。在法律建設(shè)上,2017年7月,德國(guó)《電子政務(wù)法》(E-Government-Gesetzes,EGovG)修正案新增了開(kāi)放數(shù)據(jù)的條款(第12a節(jié)),也被稱(chēng)為《第一部開(kāi)放數(shù)據(jù)法》(Ersten Open-Data-Gesetz)[11]。2021年6月,德國(guó)聯(lián)邦議院通過(guò)《第二部開(kāi)放數(shù)據(jù)法》(Zweites Open-Data-Gesetz,即《電子政務(wù)法》新的修正案)和《數(shù)據(jù)使用法》(Daten-Nutzungs-Gesetz)[9],進(jìn)一步夯實(shí)了開(kāi)放數(shù)據(jù)的法律基礎(chǔ)。
經(jīng)過(guò)不懈的努力,德國(guó)的OGD有了長(zhǎng)足的發(fā)展。根據(jù)國(guó)際組織開(kāi)放數(shù)據(jù)觀察(Open Data Watch)的2020/21 ODIN(Open Data Inventory)評(píng)估報(bào)告,德國(guó)的ODIN得分是77分(滿分100分),全球排名第13位[12]。在歐盟的開(kāi)放數(shù)據(jù)成熟度(Open Data Maturity)評(píng)估中,德國(guó)的排名從2016年的第21位上升到2020年的第8位,政策/法律和網(wǎng)站/元數(shù)據(jù)兩個(gè)維度的得分分別是97%和90%,遠(yuǎn)高于平均水平(85%和79%)[13]。
作為重要的數(shù)據(jù)基礎(chǔ)設(shè)施(data infrastructure),元數(shù)據(jù)標(biāo)準(zhǔn)(metadata standards)得到了美國(guó)[14]、英國(guó)[15]、澳大利亞[16]和歐盟[17]的普遍重視。同樣地,元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)也是德國(guó)實(shí)施開(kāi)放數(shù)據(jù)法律和戰(zhàn)略的主要內(nèi)容,并呈現(xiàn)新的特點(diǎn)和發(fā)展趨勢(shì)[18],對(duì)德國(guó)政府開(kāi)放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)進(jìn)行系統(tǒng)分析可為我國(guó)各級(jí)政府的開(kāi)放數(shù)據(jù)實(shí)踐及其元數(shù)據(jù)建設(shè)提供借鑒和參考。
德國(guó)《開(kāi)放數(shù)據(jù)法》規(guī)定(見(jiàn)EGovG 12a節(jié)第5條),政府?dāng)?shù)據(jù)資源的元數(shù)據(jù)應(yīng)遵循統(tǒng)一的標(biāo)準(zhǔn),并發(fā)布到國(guó)家元數(shù)據(jù)平臺(tái)GovData(www.govdata.de)[19]。2017年6月,在W3C 數(shù)據(jù)目錄詞匯表(Data Catalog Vocabulary,DCAT)和歐盟DCAT應(yīng)用綱要(DCAT Application Profile,DCAT-AP)的基礎(chǔ)上,]init[ AG公司研制出元數(shù)據(jù)方案DCAT-AP.de,并轉(zhuǎn)讓給GovData團(tuán)隊(duì)。2018年6月,德國(guó)IT規(guī)劃委員會(huì)(IT-Planungsrat)將DCAT-AP.de確立為正式強(qiáng)制性標(biāo)準(zhǔn)[20]。2021年7月,《聯(lián)邦政府開(kāi)放數(shù)據(jù)戰(zhàn)略》指出,要進(jìn)一步完善DCAT-AP.de標(biāo)準(zhǔn),使其適應(yīng)新的技術(shù)發(fā)展,如實(shí)時(shí)數(shù)據(jù)的開(kāi)放需求等[10]。2022年3月1日,DCAT-AP.de V2.0版本發(fā)布[21],成為W3C DCAT標(biāo)準(zhǔn)譜系中的新成員,譜系的其他成員還包括美國(guó)的DCAT-US v1.1、意大利的DCAT-AP_IT、荷蘭的DCAT-AP-NL及歐盟的DCAT-AP等。
作為一種實(shí)用且完備的元數(shù)據(jù)標(biāo)準(zhǔn),DCAT-AP.de由三部分組成:模型與元素定義;受控詞匯表與URI(Uniform Resource Identifier)設(shè)計(jì);技術(shù)與使用指南。
為提高元數(shù)據(jù)的互操作性和一致性,GovData團(tuán)隊(duì)采用元數(shù)據(jù)應(yīng)用綱要(Metadata Application Profiles,MAP)的方式設(shè)計(jì)DCAT-AP.de的本體模型,集成和復(fù)用的主要詞匯表(本體)見(jiàn)表1[21],包括被搜索引擎公司支持的Schema.org詞匯表。
表1 DCAT-AP.de復(fù)用的主要詞匯表
DCAT-AP.de模型包含25個(gè)類(lèi)/實(shí)體,分為5個(gè)強(qiáng)制類(lèi)、4個(gè)推薦類(lèi)和16個(gè)可選類(lèi),一些主要的類(lèi)及其屬性見(jiàn)表2,保持了與歐盟DCAT-AP的語(yǔ)義一致性[17]。同時(shí),為了滿足數(shù)據(jù)資源的版權(quán)管理、質(zhì)量管理、可用性管理和行政區(qū)域管理等本土化需求,相對(duì)于歐盟DCAT-AP,DCAT-AP.de定義了一組新的元素/屬性(見(jiàn)表3),它們的命名空間是http://dcat-ap.de/def/dcatde/,前綴是dcatde。
表2 DCAT-AP.de的主要類(lèi)及其屬性
表3 DCAT-AP.de新定義的本土元素/屬性
為了實(shí)現(xiàn)與歐盟DCAT-AP的相互兼容及規(guī)范元素的取值,DCAT-AP.de引入了較多的受控詞匯表(Controlled Vocabularies)。受控詞匯表分成兩類(lèi):①來(lái)自歐盟的有11個(gè),如數(shù)據(jù)主題詞匯表、語(yǔ)言詞匯表和文件格式詞匯表等[17];②自定義的有12個(gè)(見(jiàn)表4),它們不僅支持德國(guó)的行政區(qū)編碼等編碼方案,也支持統(tǒng)計(jì)數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的開(kāi)放,以滿足本國(guó)的多方面需求。
表4 DCAT-AP.de自定義的受控詞匯表(部分)
GovData團(tuán)隊(duì)采用W3C SKOS標(biāo)準(zhǔn)和RDF語(yǔ)法等語(yǔ)義Web技術(shù)定義這些詞匯表,每個(gè)詞匯表及其中的詞匯都被分配了一個(gè)持久和可靠的URI,一些例子見(jiàn)表4和表5。為此,DCAT-AP.de標(biāo)準(zhǔn)專(zhuān)門(mén)提供URI設(shè)計(jì)公約規(guī)范URI的形式和使用,主要包括:①URI的模板為http://dcat-ap.de/def/{konzept};②URI中的“概念”(konzept)使用英語(yǔ)表達(dá);③從2017年7月1日開(kāi)始,URI的有效期至少為10年。
表5 “可用性級(jí)別”受控詞匯表中的詞匯
這些詞匯表一經(jīng)定義就保持穩(wěn)定,如有變化則反映在新的版本中。例如,數(shù)據(jù)提供方詞匯表從2018年至今已有14個(gè)版本,最新的版本是2022年6月23日發(fā)布的。
在開(kāi)發(fā)元數(shù)據(jù)標(biāo)準(zhǔn)時(shí),大量使用語(yǔ)義Web受控詞匯表,以描述本土需求和變化,代表著DCAT元數(shù)據(jù)規(guī)范的發(fā)展方向。
不同于W3C DCAT和歐盟DCAT-AP這些高層次的指導(dǎo)類(lèi)規(guī)范,DCAT-AP.de標(biāo)準(zhǔn)進(jìn)一步通過(guò)《技術(shù)與使用指南》(以下簡(jiǎn)稱(chēng)《指南》)指導(dǎo)實(shí)際工作中元數(shù)據(jù)記錄的編寫(xiě)和生成。《指南》共有41條,值得關(guān)注的有以下4點(diǎn):①加強(qiáng)對(duì)元數(shù)據(jù)的語(yǔ)義約束,建立了元素/屬性與受控詞匯表的對(duì)應(yīng)關(guān)系(見(jiàn)表6),明確這些元素的取值必須來(lái)自歐盟或德國(guó)的受控詞匯表;②雖然在受控詞匯表中有34個(gè)開(kāi)放許可可供選擇,但《指南》將dl-zero-de/2.0(德國(guó)數(shù)據(jù)許可)和cc-by/4.0(國(guó)際知識(shí)共享許可)確立為推薦的開(kāi)放許可,建議優(yōu)先使用這兩個(gè)許可;③規(guī)定采用開(kāi)放標(biāo)準(zhǔn)編碼元數(shù)據(jù)記錄(語(yǔ)法約束),包括W3C的RDF/XML和RDF-Turtle標(biāo)準(zhǔn),在V1.1版本中增加了JSON-LD(JSON for Linked Data)編碼格式;④規(guī)定驗(yàn)證機(jī)制,即對(duì)元數(shù)據(jù)記錄是否符合元數(shù)據(jù)標(biāo)準(zhǔn)的模式和約束進(jìn)行定義,在V1.1和V2.0版本中使用W3C SHACL(Shapes Constraint Language)驗(yàn)證方案,以前的版本則使用W3C XSD(XML Schema Definition)驗(yàn)證方案,這在各國(guó)(包括歐盟)的元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)中是超前的。
表6 元素/屬性與受控詞匯表的對(duì)應(yīng)關(guān)系
德國(guó)是具有分權(quán)傳統(tǒng)的聯(lián)邦制國(guó)家,采取三級(jí)公共行政管理層級(jí)。聯(lián)邦下轄16個(gè)具有較高自治權(quán)的聯(lián)邦州,州管轄市/縣級(jí)地區(qū)。各個(gè)州和地方政府在OGD的政策和實(shí)踐上具有一定的自主性[9]。為協(xié)調(diào)聯(lián)邦政府與地方政府的工作,德國(guó)采用了中央和地方共治共管的開(kāi)放數(shù)據(jù)治理模式[13],成功做法之一是“數(shù)據(jù)分散存儲(chǔ)、元數(shù)據(jù)集中管理”。為實(shí)現(xiàn)這一點(diǎn),元數(shù)據(jù)標(biāo)準(zhǔn)DCATAP.de的推廣應(yīng)用起到了關(guān)鍵作用。
2015年1月,德國(guó)國(guó)家數(shù)據(jù)門(mén)戶網(wǎng)站GovData.de正式上線運(yùn)行,成為聯(lián)邦政府和地方政府發(fā)布數(shù)據(jù)的統(tǒng)一平臺(tái)。一些地方政府也陸續(xù)上線了開(kāi)放數(shù)據(jù)網(wǎng)站,目前總數(shù)達(dá)近百個(gè)。德國(guó)的開(kāi)放數(shù)據(jù)網(wǎng)站主要采用CKAN(Comprehensive Knowledge Archive Network)開(kāi)源平臺(tái)進(jìn)行數(shù)據(jù)集的元數(shù)據(jù)管理,即數(shù)據(jù)目錄(Data Catalogue)管理[22]。除了通用的開(kāi)放數(shù)據(jù)網(wǎng)站,在歐盟空間信息基礎(chǔ)設(shè)施(Infrastructure for Spatial Information in the European Community,Inspire)計(jì)劃框架下,德國(guó)還建有專(zhuān)用的地理數(shù)據(jù)平臺(tái),如www.geoportal.de和www.geoportal.nrw等。
德國(guó)在IT規(guī)劃委員會(huì)的統(tǒng)一規(guī)劃下,采取了“自上而下”的元數(shù)據(jù)標(biāo)準(zhǔn)推廣方式。從2019年起,GovData.de全面采納DCAT-AP.de標(biāo)準(zhǔn);隨后,DCAT-AP.de逐步推廣到各地方政府的開(kāi)放數(shù)據(jù)網(wǎng)站。例如,2021年7月14,波恩市完成了舊的元數(shù)據(jù)到DCAT-AP.de的轉(zhuǎn)換[23]。借助于統(tǒng)一的DCAT-AP.de標(biāo)準(zhǔn),各個(gè)數(shù)據(jù)目錄間實(shí)現(xiàn)了元數(shù)據(jù)的自動(dòng)采集和交換,保證元數(shù)據(jù)記錄一次發(fā)布,就能第一時(shí)間出現(xiàn)在各級(jí)目錄網(wǎng)站中。例如,波恩市的(交通和道路)網(wǎng)絡(luò)拓?fù)鋱D(Netztopologie Stadtplan Bonn)數(shù)據(jù)集的元數(shù)據(jù)以機(jī)器可讀的格式(JSON-LD等)和面向人的閱讀格式(HTML網(wǎng)頁(yè))發(fā)布到開(kāi)放數(shù)據(jù)網(wǎng)站(opendata.bonn.de),隨后被自動(dòng)采集到上一級(jí)的北萊茵-威斯特法倫州(Nordrhein-Westfalen,北威州)的網(wǎng)站(open.nrw),繼而同步出現(xiàn)在國(guó)家數(shù)據(jù)平臺(tái)(GovData.de)上。最后,通過(guò)GovData.de,該數(shù)據(jù)集的元數(shù)據(jù)出現(xiàn)在歐盟數(shù)據(jù)門(mén)戶(data.europa.eu)上,被更廣泛的用戶查詢(xún)、下載和使用。
這樣,在歐盟環(huán)境下,德國(guó)的OGD就形成了四層數(shù)據(jù)目錄聚合機(jī)制,最基層是市/縣政府的開(kāi)放數(shù)據(jù)網(wǎng)站,中間兩層(核心層)是各州和國(guó)家的數(shù)據(jù)平臺(tái),最高層是歐盟的統(tǒng)一數(shù)據(jù)門(mén)戶網(wǎng)站。截至2022年11月底,除了薩克森-安哈爾特和薩爾州,GovData.de已經(jīng)能夠采集14個(gè)州的元數(shù)據(jù),涉及數(shù)據(jù)集7萬(wàn)多個(gè)。在聯(lián)邦州的層面,北威州的數(shù)據(jù)平臺(tái)聚集了近50個(gè)外部數(shù)據(jù)目錄的元數(shù)據(jù)。在最高的歐盟層級(jí),歐盟數(shù)據(jù)平臺(tái)聚集了36個(gè)國(guó)家的176個(gè)數(shù)據(jù)目錄,其中3個(gè)來(lái)自德國(guó),分別是通用數(shù)據(jù)目錄平臺(tái)GovData、地理數(shù)據(jù)目錄平臺(tái)GDI-DE和開(kāi)源地理軟件平臺(tái)52°North。在這個(gè)過(guò)程中,德國(guó)的元數(shù)據(jù)標(biāo)準(zhǔn)DCAT-AP.de與國(guó)家數(shù)據(jù)網(wǎng)站GovData.de共同起到了承上啟下的中介協(xié)調(diào)和質(zhì)量保障作用;而歐盟的元數(shù)據(jù)標(biāo)準(zhǔn)DCAT-AP和歐盟數(shù)據(jù)門(mén)戶網(wǎng)站則發(fā)揮著規(guī)范引領(lǐng)和質(zhì)量監(jiān)測(cè)作用。
目錄聚合(catalogues aggregation)是上一級(jí)的數(shù)據(jù)目錄通過(guò)采集器(harvester)軟件模塊調(diào)用下一級(jí)數(shù)據(jù)目錄的元數(shù)據(jù)API自動(dòng)實(shí)現(xiàn)的。為此,CKAN平臺(tái)擴(kuò)展了新的插件——DCAT-AP.de采集器,專(zhuān)門(mén)采集RDF和JSON格式的DCAT-AP.de元數(shù)據(jù)。同時(shí),CKAN平臺(tái)提供DCAT端點(diǎn)(Endpoint,API的一種),向外暴露RDF/XML、RDF-Turtle和JSON-LD格式的元數(shù)據(jù)文件,分為數(shù)據(jù)集和數(shù)據(jù)目錄兩種粒度。這需要建立DCAT元數(shù)據(jù)與CKAN元數(shù)據(jù)的映射(見(jiàn)表7),以實(shí)現(xiàn)兩者之間的相互轉(zhuǎn)換[24]。
表7 DCAT元數(shù)據(jù)與CKAN元數(shù)據(jù)的映射(部分)
GovData和北威州的數(shù)據(jù)平臺(tái)還提供了CSW(Catalogue Service for the Web)采集器和OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)接口,實(shí)現(xiàn)ISO 19139元數(shù)據(jù)與DCAT-AP.de元數(shù)據(jù)的映射與轉(zhuǎn)換,以適應(yīng)地理數(shù)據(jù)平臺(tái)與通用數(shù)據(jù)平臺(tái)之間的元數(shù)據(jù)交換。
由于大量采用語(yǔ)義Web技術(shù),GovData平臺(tái)還提供SPARQL查詢(xún)端點(diǎn)(API的一種),供客戶端對(duì)元數(shù)據(jù)進(jìn)行更加靈活和復(fù)雜的查詢(xún)。例如,下面的語(yǔ)句查詢(xún)來(lái)自北威州的數(shù)據(jù)集個(gè)數(shù),返回結(jié)果如下。
"6452"^^
PREFIX dcatde:
SELECT (COUNT(?sub) AS ?datasets) WHERE {
?sub dcatde:contributorID
其中,三元組模式的謂詞dcatde:contributorID是DCAT-AP.de定義的新屬性(見(jiàn)表3),其值來(lái)自數(shù)據(jù)提供方受控詞匯表(見(jiàn)表4和表6)。
元數(shù)據(jù)的自動(dòng)采集與發(fā)布,對(duì)元數(shù)據(jù)的質(zhì)量提出了更高的要求。為保障各個(gè)數(shù)據(jù)提供者提供的元數(shù)據(jù)記錄符合DCAT-AP.de所定義的模式和約束,GovData平臺(tái)聯(lián)合歐盟互操作性測(cè)試平臺(tái)ITB(Interoperability Test Bed)推出數(shù)據(jù)驗(yàn)證(Data Validation)服務(wù)——DCAT-AP.de驗(yàn)證器(DCAT-AP.de Validator)[18],這在全球范圍尚屬首次。該驗(yàn)證器于2020年3月12日首次上線,采用W3C SHACL驗(yàn)證機(jī)制,可以驗(yàn)證3個(gè)級(jí)別,分別是:①歐盟DCAT-AP符合性驗(yàn)證;②德國(guó)DCAT-AP.de符合性驗(yàn)證;③GovData平臺(tái)驗(yàn)證。驗(yàn)證的內(nèi)容主要有:①數(shù)據(jù)集的元數(shù)據(jù)記錄是否含有強(qiáng)制屬性和推薦屬性;②屬性是否滿足基數(shù)約束;③屬性取值是否來(lái)自受控詞匯表。
在DCAT-AP.de驗(yàn)證器的基礎(chǔ)上,GovData平臺(tái)為注冊(cè)用戶提供元數(shù)據(jù)質(zhì)量?jī)x表盤(pán)服務(wù),監(jiān)測(cè)元數(shù)據(jù)對(duì)DCAT-AP.de標(biāo)準(zhǔn)的遵守程度及元數(shù)據(jù)文件鏈接的可用性等指標(biāo),優(yōu)化了元數(shù)據(jù)的采集和發(fā)布流程,見(jiàn)圖1[18]。這一做法已經(jīng)被歐盟開(kāi)放數(shù)據(jù)團(tuán)隊(duì)推薦給歐盟各成員國(guó)[13]。2022年5月,北威州數(shù)據(jù)平臺(tái)也上線了元數(shù)據(jù)質(zhì)量?jī)x表盤(pán)模塊(mqa2-open.nrw.de),從6個(gè)維度(可發(fā)現(xiàn)、可獲取、互操作、可重用、背景描述和綜合指標(biāo))監(jiān)測(cè)各個(gè)數(shù)據(jù)目錄的元數(shù)據(jù)質(zhì)量。2022年11月9日,重新設(shè)計(jì)的歐盟數(shù)據(jù)平臺(tái)(data.europa.eu)上線[25],改進(jìn)之一是在每個(gè)數(shù)據(jù)集頁(yè)面上增加了元數(shù)據(jù)質(zhì)量監(jiān)測(cè)欄目,給出各個(gè)質(zhì)量維度的得分。
圖1 GovData平臺(tái)元數(shù)據(jù)質(zhì)量?jī)x表盤(pán)的工作流程
元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)與數(shù)據(jù)目錄編制是我國(guó)開(kāi)放數(shù)據(jù)的基礎(chǔ)及核心工作之一[26-27]。廣東、山東、貴州、內(nèi)蒙古和四川等省/自治區(qū)率先研制和發(fā)布了開(kāi)放數(shù)據(jù)元數(shù)據(jù)的地方標(biāo)準(zhǔn)。2019年以來(lái),上海、貴州、浙江、山東和重慶等省/直轄市政府或人大陸續(xù)出臺(tái)公共數(shù)據(jù)開(kāi)放辦法或條例,確立了“需求導(dǎo)向、有序開(kāi)放、安全可控、統(tǒng)一標(biāo)準(zhǔn)”的工作原則,規(guī)定公共數(shù)據(jù)開(kāi)放要實(shí)行統(tǒng)一的目錄管理。2022年6月,國(guó)務(wù)院印發(fā)《關(guān)于加強(qiáng)數(shù)字政府建設(shè)的指導(dǎo)意見(jiàn)》,在“構(gòu)建開(kāi)放共享的數(shù)據(jù)資源體系”部分強(qiáng)調(diào),編制公共數(shù)據(jù)開(kāi)放目錄及相關(guān)責(zé)任清單,構(gòu)建統(tǒng)一規(guī)范、互聯(lián)互通、安全可控的國(guó)家公共數(shù)據(jù)開(kāi)放平臺(tái)[28]。但實(shí)踐中,我國(guó)的OGD存在元數(shù)據(jù)規(guī)范和標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)分類(lèi)方式不一致、數(shù)據(jù)目錄編制主體分散、元數(shù)據(jù)質(zhì)量有待提高等問(wèn)題和挑戰(zhàn)[29],還需要積極借鑒德國(guó)的先進(jìn)經(jīng)驗(yàn)。
為貫徹《G8開(kāi)放數(shù)據(jù)憲章》,德國(guó)于2014年11月開(kāi)始實(shí)施《G8開(kāi)放數(shù)據(jù)憲章國(guó)家行動(dòng)計(jì)劃》,明確在建設(shè)國(guó)家數(shù)據(jù)平臺(tái)GovData的同時(shí),必須實(shí)現(xiàn)元數(shù)據(jù)的標(biāo)準(zhǔn)化,確保元數(shù)據(jù)的質(zhì)量和互操作。接下來(lái),在第一輪《OGP國(guó)家行動(dòng)計(jì)劃》(2017—2019年)中承諾,由聯(lián)邦政府IT規(guī)劃委員會(huì)負(fù)責(zé)頒布和實(shí)施開(kāi)放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)。2021年6月通過(guò)的《第二部開(kāi)放數(shù)據(jù)法》,確立了GovData作為全國(guó)統(tǒng)一的元數(shù)據(jù)平臺(tái)的法律地位[11]。
2021年1月,德國(guó)開(kāi)始實(shí)施《聯(lián)邦政府?dāng)?shù)據(jù)戰(zhàn)略(2021—2025)》[30],在高價(jià)值公共數(shù)據(jù)開(kāi)放領(lǐng)域引入FAIR(Findable,Accessible,Interoperable,Reusable)原則,對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)的互操作性提出了更高的要求。2021年7月,《聯(lián)邦政府開(kāi)放數(shù)據(jù)戰(zhàn)略》進(jìn)一步明確完善DCATAP.de、保障元數(shù)據(jù)質(zhì)量的負(fù)責(zé)部門(mén)和工作任務(wù)[10]。
不僅德國(guó),美國(guó)、英國(guó)等OGD先進(jìn)國(guó)家都將元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)納入國(guó)家戰(zhàn)略高度,及時(shí)開(kāi)發(fā)、升級(jí)和推廣應(yīng)用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)。我國(guó)數(shù)字政府建設(shè)和全國(guó)一體化政務(wù)大數(shù)據(jù)體系建設(shè)中,也需要國(guó)家層面的統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn),以實(shí)現(xiàn)全國(guó)范圍內(nèi)數(shù)據(jù)目錄和標(biāo)準(zhǔn)規(guī)范的一體化[28,31]。但我國(guó)還沒(méi)有開(kāi)放數(shù)據(jù)元數(shù)據(jù)的國(guó)家標(biāo)準(zhǔn),各地方標(biāo)準(zhǔn)間存在異構(gòu)問(wèn)題,導(dǎo)致互操作性差,阻礙了統(tǒng)一的國(guó)家數(shù)據(jù)開(kāi)放平臺(tái)和流通市場(chǎng)的形成。
DCAT-AP.de是德國(guó)的強(qiáng)制性元數(shù)據(jù)標(biāo)準(zhǔn),將其應(yīng)用到近百個(gè)地方政府的開(kāi)放數(shù)據(jù)網(wǎng)站上,是一項(xiàng)復(fù)雜而持久的工作。為此,正在實(shí)施的《開(kāi)放數(shù)據(jù)戰(zhàn)略》和第三輪《OGP國(guó)家行動(dòng)計(jì)劃》(2021—2023年)將地方政府的數(shù)據(jù)開(kāi)放工作納入國(guó)家行動(dòng)計(jì)劃,同時(shí)指定具體機(jī)構(gòu)負(fù)責(zé)中央和地方的協(xié)調(diào)工作。
德國(guó)公共行政數(shù)字化的中央管理機(jī)構(gòu)IT規(guī)劃委員會(huì)負(fù)責(zé)協(xié)調(diào)聯(lián)邦和州政府在信息技術(shù)上的合作,解決元數(shù)據(jù)標(biāo)準(zhǔn)化和軟件體系結(jié)構(gòu)等問(wèn)題。聯(lián)邦行政辦公室(BVA)下屬的開(kāi)放數(shù)據(jù)能力中心(Competence Center for Open Data)提供技術(shù)方案,連接中央和地方的開(kāi)放數(shù)據(jù)平臺(tái),實(shí)現(xiàn)元數(shù)據(jù)的采集和聚合。這些OGD混合治理模式在組織機(jī)構(gòu)上的制度安排,保障了元數(shù)據(jù)標(biāo)準(zhǔn)在德國(guó)全國(guó)范圍內(nèi)的貫徹施行。
在我國(guó),元數(shù)據(jù)的地方標(biāo)準(zhǔn)尚沒(méi)有充分應(yīng)用到各地、各級(jí)的開(kāi)放數(shù)據(jù)網(wǎng)站中,更缺乏元數(shù)據(jù)的驗(yàn)證和質(zhì)量保障機(jī)制。例如,廣東省和深圳市的開(kāi)放數(shù)據(jù)網(wǎng)站(gddata.gd.gov.cn,opendata.sz.gov.cn)實(shí)際使用的元數(shù)據(jù)在元素名稱(chēng)、取值和個(gè)數(shù)上存在不一致現(xiàn)象,貴州?。╠ata.guizhou.gov.cn)和貴陽(yáng)市(data.guiyang.gov.cn)也存在類(lèi)似問(wèn)題。解決這一問(wèn)題的首要工作就是要加強(qiáng)政府?dāng)?shù)據(jù)治理和省市協(xié)調(diào),明確施行元數(shù)據(jù)標(biāo)準(zhǔn)的責(zé)任機(jī)構(gòu)和工作任務(wù)。
德國(guó)的數(shù)字市場(chǎng)是歐盟數(shù)字單一市場(chǎng)的有機(jī)組成部分。在法律制定上,德國(guó)的開(kāi)放數(shù)據(jù)法受到歐盟《開(kāi)放數(shù)據(jù)和公共部門(mén)信息再利用指令》(Directive on Open Data and the Re-use of Public Sector Information)和《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation)的影響。相應(yīng)地,在元數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)上,德國(guó)做到了本土化與國(guó)際化的有機(jī)結(jié)合。DCAT-AP.de是W3C DCAT和歐盟DCAT-AP的“應(yīng)用綱要”,在保持與它們互操作的基礎(chǔ)上,進(jìn)行了適當(dāng)?shù)谋镜鼗瘮U(kuò)展。同時(shí),DCAT-AP.de標(biāo)準(zhǔn)的各個(gè)部分都采用了開(kāi)放標(biāo)準(zhǔn)和語(yǔ)義Web技術(shù),實(shí)現(xiàn)了最大程度的國(guó)際化。
元數(shù)據(jù)標(biāo)準(zhǔn)本土化與國(guó)際化的統(tǒng)一,促進(jìn)了德國(guó)的開(kāi)放數(shù)據(jù)資源的跨境流動(dòng),也使其成為國(guó)際數(shù)據(jù)生態(tài)系統(tǒng)的重要一員。2020年1月,谷歌正式上線專(zhuān)業(yè)搜索引擎——數(shù)據(jù)集搜索(Dataset Search),收錄了全球數(shù)千個(gè)網(wǎng)站中的約2 500萬(wàn)個(gè)數(shù)據(jù)集[32],為國(guó)際數(shù)據(jù)生態(tài)系統(tǒng)的形成創(chuàng)造了基本環(huán)境。借助W3C DCAT,可以很容易地將DCAT-AP.de映射到谷歌所支持的Schema.org數(shù)據(jù)集詞匯表,為谷歌數(shù)據(jù)集搜索服務(wù)收錄、索引和查詢(xún)DCAT-AP.de元數(shù)據(jù)記錄鋪平了道路。
在應(yīng)對(duì)新冠肺炎疫情的國(guó)際合作中,構(gòu)建開(kāi)放可信的國(guó)際數(shù)據(jù)生態(tài)系統(tǒng)日益得到各國(guó)的重視[33]。我國(guó)的開(kāi)放數(shù)據(jù),包括新冠肺炎疫情數(shù)據(jù),也是國(guó)際數(shù)據(jù)生態(tài)系統(tǒng)的重要一環(huán)。但我國(guó)現(xiàn)行的開(kāi)放數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)和各網(wǎng)站實(shí)際使用的元數(shù)據(jù)與國(guó)際標(biāo)準(zhǔn)(W3C DCAT和Schema.org等)和技術(shù)(主要是語(yǔ)義Web技術(shù))不兼容,導(dǎo)致通過(guò)搜索引擎(如百度、必應(yīng)和谷歌等)難以細(xì)粒度地發(fā)現(xiàn)和定位到一個(gè)開(kāi)放數(shù)據(jù)集,不利于數(shù)據(jù)的大范圍流動(dòng)和價(jià)值生成。
依托語(yǔ)義Web技術(shù)所形成的W3C開(kāi)放標(biāo)準(zhǔn),在推動(dòng)開(kāi)放數(shù)據(jù)的語(yǔ)義互操作和國(guó)際化上正發(fā)揮著積極作用[34-36]。因此,可以借鑒德國(guó)的經(jīng)驗(yàn),在我國(guó)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范中引入W3C DCAT數(shù)據(jù)模型和核心元素,并結(jié)合我國(guó)實(shí)際、采用W3C SKOS標(biāo)準(zhǔn)構(gòu)建“數(shù)據(jù)主題”“更新頻率”“開(kāi)放方式”“開(kāi)放類(lèi)型”和“文件格式”等受控詞匯表,以滿足大范圍互操作、數(shù)據(jù)集搜索和本土化集成的需求。
相對(duì)于美國(guó)、英國(guó)等開(kāi)放數(shù)據(jù)先驅(qū)國(guó)家,德國(guó)的開(kāi)放政府?dāng)?shù)據(jù)行動(dòng)起步較晚,但德國(guó)能夠正視差距,以“工匠精神”穩(wěn)步推進(jìn)相關(guān)工作。進(jìn)入2021年,德國(guó)密集出臺(tái)了開(kāi)放數(shù)據(jù)的戰(zhàn)略、行動(dòng)計(jì)劃和法律,將通過(guò)開(kāi)放數(shù)據(jù)促進(jìn)創(chuàng)新發(fā)展推上了一個(gè)新高度,展現(xiàn)出強(qiáng)勁的后發(fā)優(yōu)勢(shì)。本文聚焦新形勢(shì)下德國(guó)的元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè),特別是作為國(guó)際主流的W3C DCAT元數(shù)據(jù)標(biāo)準(zhǔn)譜系中重要且嶄新一員的DCAT-AP.de,介紹了它的主要內(nèi)容、實(shí)施情況和保障措施,總結(jié)了可以借鑒的特點(diǎn)、經(jīng)驗(yàn)。后續(xù)研究將繼續(xù)關(guān)注德國(guó)開(kāi)放數(shù)據(jù)戰(zhàn)略框架下元數(shù)據(jù)標(biāo)準(zhǔn)在實(shí)時(shí)數(shù)據(jù)、科學(xué)數(shù)據(jù)和地理數(shù)據(jù)等領(lǐng)域的擴(kuò)展和應(yīng)用情況,為我國(guó)開(kāi)放數(shù)據(jù)的標(biāo)準(zhǔn)建設(shè)和數(shù)據(jù)治理提供更多有價(jià)值的建議和參考。