刁洪濱 張景鳴 劉智龍 周春雨 王文鵬
(黑龍江省統(tǒng)計(jì)發(fā)展服務(wù)中心,黑龍江哈爾濱150000)
當(dāng)前社會(huì)各界對(duì)統(tǒng)計(jì)數(shù)據(jù)的需求日益增強(qiáng),統(tǒng)計(jì)數(shù)據(jù)的生產(chǎn)也需要行政記錄、電商數(shù)據(jù)等其他部門和機(jī)構(gòu)的數(shù)據(jù)支持,統(tǒng)計(jì)部門內(nèi)部和多部門間統(tǒng)計(jì)數(shù)據(jù)的交換和共享成為常態(tài)化需求。由于統(tǒng)計(jì)數(shù)據(jù)專業(yè)性強(qiáng)、內(nèi)涵豐富,不同專業(yè)、部門的概念、統(tǒng)計(jì)術(shù)語和指標(biāo)解釋并不完全一致,所以共享和交換經(jīng)常使用各種格式和非標(biāo)準(zhǔn)概念以臨時(shí)方式進(jìn)行,導(dǎo)致共享和交換的效率低、開發(fā)周期長、成本高。因此在數(shù)據(jù)共享和交換的背景下對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行描述的元數(shù)據(jù)就不應(yīng)是分散的、以部門和專業(yè)為基礎(chǔ)各自為政的碎片化的元數(shù)據(jù),而是建立統(tǒng)一的、符合統(tǒng)計(jì)業(yè)務(wù)特點(diǎn)的、標(biāo)準(zhǔn)化的元數(shù)據(jù)以及共享和交換過程的模型。
當(dāng)前我國統(tǒng)計(jì)元數(shù)據(jù)研究還主要局限于各部門自身的業(yè)務(wù)需求,跨部門基于主題域的統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù)交換標(biāo)準(zhǔn)體系的相關(guān)研究還比較少。國外對(duì)統(tǒng)計(jì)數(shù)據(jù)共享和交換研究工作重視程度較高,起步較早。歐盟統(tǒng)計(jì)局、IMF等七個(gè)國際組織于2001年發(fā)起成立SDMX國際組織。目前,SDMX已經(jīng)成為事實(shí)上的統(tǒng)計(jì)數(shù)據(jù)交換和共享的全球標(biāo)準(zhǔn)。SDMX的目標(biāo)是開發(fā)和使用更有效的流程,提升組織和部門間統(tǒng)計(jì)數(shù)據(jù)共享和交換的效率。為實(shí)現(xiàn)這一目標(biāo),SDMX提供了信息模型、內(nèi)容指南和用于交換數(shù)據(jù)和元數(shù)據(jù)的IT架構(gòu)。
SDMX的基本思路是從統(tǒng)計(jì)數(shù)據(jù)生產(chǎn)的全流程入手解決統(tǒng)計(jì)數(shù)據(jù)的共享和交換問題,元數(shù)據(jù)標(biāo)準(zhǔn)體系要覆蓋整個(gè)統(tǒng)計(jì)業(yè)務(wù),而不只是適用于部分項(xiàng)目或主題域。SDMX標(biāo)準(zhǔn)由SDMX信息模型(Information Model)、內(nèi)容指南(Content Oriented Guidelines)和面向共享和交換的IT架構(gòu)(IT Infrastructure for exchange and sharing)三部分組成(見圖1)。這三個(gè)部分既獨(dú)立工作又相互關(guān)聯(lián),為統(tǒng)計(jì)數(shù)據(jù)的共享和交換提供了標(biāo)準(zhǔn)高效的流程規(guī)范和方法論。
圖1 SDMX標(biāo)準(zhǔn)架構(gòu)
SDMX信息模型給出了統(tǒng)計(jì)過程的標(biāo)準(zhǔn)方法、統(tǒng)計(jì)過程中對(duì)象之間的關(guān)系、結(jié)構(gòu)定義、概念和代碼表,描述了統(tǒng)一管理和標(biāo)準(zhǔn)訪問的方法以及SDMX注冊(cè)表和Web服務(wù)。
1.元數(shù)據(jù)
元數(shù)據(jù)是SDMX信息模型的重要概念。SDMX元數(shù)據(jù)包括結(jié)構(gòu)元數(shù)據(jù)和參考元數(shù)據(jù)。結(jié)構(gòu)元數(shù)據(jù)用于描述統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù),參考元數(shù)據(jù)是附加解釋性元數(shù)據(jù),例如統(tǒng)計(jì)調(diào)查所使用的統(tǒng)計(jì)方法和數(shù)據(jù)的質(zhì)量。
統(tǒng)計(jì)數(shù)據(jù)集由一組包含特定概念(概念作為數(shù)據(jù)的標(biāo)識(shí)符和描述符)的元數(shù)據(jù)值描述。結(jié)構(gòu)元數(shù)據(jù)在結(jié)構(gòu)定義中設(shè)定。結(jié)構(gòu)元數(shù)據(jù)用來識(shí)別并描述數(shù)據(jù)。它與數(shù)據(jù)關(guān)聯(lián),通過元數(shù)據(jù)可以識(shí)別、檢索和瀏覽數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)定義(Data Structure Definition,DSD)和元數(shù)據(jù)結(jié)構(gòu)定義(Metadata Structure Definition,MSD)描述了數(shù)據(jù)集/元數(shù)據(jù)集的組織方式,并定義了描述的數(shù)據(jù)/元數(shù)據(jù)集的結(jié)構(gòu)元數(shù)據(jù)機(jī)制。DSD定義了在特定統(tǒng)計(jì)域內(nèi)達(dá)成一致的信息結(jié)構(gòu),從而給出實(shí)際值時(shí)可以對(duì)數(shù)據(jù)集進(jìn)行完整的描述。MSD描述了元數(shù)據(jù)集的組織方式,參考元數(shù)據(jù)及其概念的關(guān)聯(lián)方式、表示方式(自由文本或編碼)以及對(duì)象類型(代理、數(shù)據(jù)流、數(shù)據(jù)提供方等)。參考元數(shù)據(jù)用來描述數(shù)據(jù)的內(nèi)容、方法和質(zhì)量的概念,包括:
概念元數(shù)據(jù):描述所使用的概念及其實(shí)際實(shí)現(xiàn)。
方法元數(shù)據(jù):描述生產(chǎn)數(shù)據(jù)所采用的方法(例如采樣、收集方法、編輯過程等)。
質(zhì)量元數(shù)據(jù):描述所得統(tǒng)計(jì)數(shù)據(jù)的不同質(zhì)量維度(例如及時(shí)性、準(zhǔn)確性)。
參考元數(shù)據(jù)不作為統(tǒng)計(jì)數(shù)據(jù)集的組成部分,它僅涉及與整個(gè)數(shù)據(jù)集合相關(guān)的內(nèi)容。參考元數(shù)據(jù)是內(nèi)容元數(shù)據(jù),提供有關(guān)統(tǒng)計(jì)數(shù)據(jù)的更多信息,以使其解釋更加精確。
參考元數(shù)據(jù)根據(jù)MSD來構(gòu)造。元數(shù)據(jù)結(jié)構(gòu)定義描述了如何組織包含參考元數(shù)據(jù)的元數(shù)據(jù)集,并定義用于引用此參考元數(shù)據(jù)所涉及的統(tǒng)計(jì)數(shù)據(jù)或結(jié)構(gòu)元數(shù)據(jù)的機(jī)制。歐盟統(tǒng)計(jì)局定義了一種稱為Euro-SDMX元數(shù)據(jù)結(jié)構(gòu)(ESMS)的元數(shù)據(jù)結(jié)構(gòu)。它包含統(tǒng)計(jì)元數(shù)據(jù)概念的描述和表示,用于記錄統(tǒng)計(jì)數(shù)據(jù)和提供有助于評(píng)估數(shù)據(jù)質(zhì)量和生產(chǎn)過程的摘要信息。
2.SDMX信息模型主要元素
SDMX信息模型使用多維數(shù)據(jù)模型中數(shù)據(jù)立方體中的維度、屬性和度量等概念來表示統(tǒng)計(jì)交換中的統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù),模型還包括參與者、流程和資源等元素。SDMX信息模型主要元素見圖2。
圖2 SDMX信息模型主要元素
數(shù)據(jù)流定義標(biāo)識(shí)了數(shù)據(jù)結(jié)構(gòu)的定義,并且可以通過類別與一個(gè)或多個(gè)主題域相關(guān)聯(lián)。它是一組定期重復(fù)的數(shù)據(jù)集,它們來自不同的時(shí)間段,或不同的國家(或兩者都有),或者在某些其他維度上重復(fù),可以將其視為數(shù)據(jù)集的持續(xù)發(fā)布。如各國統(tǒng)計(jì)局編制的季度國民賬戶統(tǒng)計(jì)數(shù)據(jù)和季度(或月度)失業(yè)統(tǒng)計(jì)數(shù)據(jù),以及許多其他類似的定期重復(fù)數(shù)據(jù)采集就是數(shù)據(jù)流的例子。
數(shù)據(jù)結(jié)構(gòu)定義是數(shù)據(jù)流的超立方體結(jié)構(gòu)的正式定義。它根據(jù)維度定義超立方體,將它們與概念和分類(SDMX稱為代碼列表)相關(guān)聯(lián)。它還提供屬性信息,可以在單元級(jí)別、表級(jí)別或中間級(jí)別提供其他信息,如統(tǒng)計(jì)質(zhì)量、度量狀態(tài)或其他腳注類型信息。
數(shù)據(jù)集是由數(shù)據(jù)結(jié)構(gòu)定義的超立方體的某個(gè)子多維數(shù)據(jù)集的數(shù)據(jù)。數(shù)據(jù)流由其成員數(shù)據(jù)集(包括將來仍會(huì)出現(xiàn)的數(shù)據(jù)集)組成。
類別方案和類別為數(shù)據(jù)流提供了用于搜索和發(fā)現(xiàn)的索引。類別嵌套在類別方案中,并且可以有幾個(gè)備選的類別方案索引數(shù)據(jù)流。類別方案可以基于出版物目錄,或者基于統(tǒng)計(jì)術(shù)語辭典,或者基于特定客戶端集合中的一些常用術(shù)語索引。
數(shù)據(jù)供應(yīng)方和供應(yīng)協(xié)議描述了在數(shù)據(jù)交換環(huán)境中取得數(shù)據(jù)供應(yīng)方詳細(xì)信息的機(jī)制。同時(shí)對(duì)通過網(wǎng)站發(fā)布統(tǒng)計(jì)數(shù)據(jù)方面提供了非常有價(jià)值的信息,也為數(shù)據(jù)自動(dòng)發(fā)布和自動(dòng)呈現(xiàn)查詢提供了基礎(chǔ)。
圖2的軸心是數(shù)據(jù)或元數(shù)據(jù)流,由收集數(shù)據(jù)或元數(shù)據(jù)的組織維護(hù)。數(shù)據(jù)流鏈接到DSD,而元數(shù)據(jù)流鏈接到MSD。DSD或MSD定義數(shù)據(jù)或元數(shù)據(jù)的結(jié)構(gòu),并標(biāo)識(shí)可以附加相關(guān)元數(shù)據(jù)的元素。數(shù)據(jù)供應(yīng)方根據(jù)供應(yīng)協(xié)議,可以報(bào)告或發(fā)布多個(gè)數(shù)據(jù)或元數(shù)據(jù)流的數(shù)據(jù)或元數(shù)據(jù)。數(shù)據(jù)或元數(shù)據(jù)流還可以鏈接到主題方案(類別方案)中的一個(gè)或多個(gè)統(tǒng)計(jì)主題(類別)。類別方案提供了對(duì)收集、報(bào)告或發(fā)布數(shù)據(jù)進(jìn)行分類的方法。
SDMX標(biāo)準(zhǔn)提供了一種通用模型和多種數(shù)據(jù)格式,支持交換任何類型的數(shù)據(jù)“立方體”。為了允許自動(dòng)處理來自各種源的數(shù)據(jù),需要以符合SDMX信息模型的方式定義“立方體”結(jié)構(gòu)。
SDMX信息模型允許參考元數(shù)據(jù)的交換和存儲(chǔ)獨(dú)立于其所描述的數(shù)據(jù)。參考元數(shù)據(jù)可以保存在元數(shù)據(jù)庫中。因此,數(shù)據(jù)自動(dòng)發(fā)布系統(tǒng)可以利用相關(guān)參考元數(shù)據(jù)來發(fā)布數(shù)據(jù),可以通過訪問參考元數(shù)據(jù)庫獲得參考元數(shù)據(jù)的具體內(nèi)容,也可以通過索引參考元數(shù)據(jù)來支持搜索工具。
SDMX的標(biāo)準(zhǔn)框架不僅適用于統(tǒng)計(jì)主題域,還可以應(yīng)用于其他主題域,不同主題域可以建立本主題域的內(nèi)容指南。但目前SDMX研究和應(yīng)用的主題域主要是統(tǒng)計(jì)主題域。針對(duì)統(tǒng)計(jì)主題域發(fā)布的統(tǒng)計(jì)內(nèi)容指南本文簡稱內(nèi)容指南或指南。
內(nèi)容指南主要包括兩個(gè)方面:統(tǒng)計(jì)術(shù)語的統(tǒng)一、代碼清單和統(tǒng)計(jì)主題領(lǐng)域(面向內(nèi)容的指南);實(shí)施SDMX標(biāo)準(zhǔn)的具體指導(dǎo)方針準(zhǔn)則。指南通過使用底層元數(shù)據(jù)中的常見統(tǒng)計(jì)概念,促進(jìn)了SDMX框架下統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù)文件內(nèi)容的統(tǒng)一。與技術(shù)規(guī)范不同,SDMX機(jī)構(gòu)主導(dǎo)的指南的開發(fā)在ISO框架之外進(jìn)行,這種機(jī)制吸引了全球統(tǒng)計(jì)界許多領(lǐng)域的專家參與開展內(nèi)容導(dǎo)向工作,加速了指南的開發(fā),提高了指南的廣泛性和權(quán)威性。指南建議在實(shí)踐中使用SDMX技術(shù)標(biāo)準(zhǔn)創(chuàng)建可互操作的數(shù)據(jù)和元數(shù)據(jù)集。準(zhǔn)則側(cè)重于協(xié)調(diào)、統(tǒng)一大量統(tǒng)計(jì)域共有的特定概念和術(shù)語(因此稱為“跨域”)。這種協(xié)調(diào)有助于實(shí)現(xiàn)更高效的可比數(shù)據(jù)和元數(shù)據(jù)交換。
除了提出跨域內(nèi)容導(dǎo)向指南,SDMX還提供了用于開發(fā)特定域的面向內(nèi)容的指南的框架。在該框架內(nèi),參與制定特定統(tǒng)計(jì)領(lǐng)域標(biāo)準(zhǔn)的公認(rèn)國際機(jī)構(gòu)將在制定具體內(nèi)容指南和相關(guān)術(shù)語方面發(fā)揮重要作用。雖然SDMX技術(shù)標(biāo)準(zhǔn)和SDMX面向內(nèi)容的指南可以相互獨(dú)立使用,但它們?cè)谝黄鹗褂脮r(shí)更有利于標(biāo)準(zhǔn)化。
1.跨域概念(Cross-domain concepts)
跨域概念是指可以在不同統(tǒng)計(jì)主題域共同使用的概念。SDMX框架中的跨域概念描述了與許多統(tǒng)計(jì)域相關(guān)的概念。SDMX建議在SDMX結(jié)構(gòu)和消息中盡可能使用這些概念,以便促進(jìn)組織之間統(tǒng)計(jì)信息和相關(guān)元數(shù)據(jù)的重用和交換。在使用過程中,這些概念都應(yīng)符合SDMX面向內(nèi)容指南中定義的指定名稱、角色和表示。這些跨域概念可以在SDMX詞匯表中找到(在“類型:跨域概念”屬性中)。
跨域概念應(yīng)用于DSD和MSD,在DSD中使用跨域概念來定義給定域的數(shù)據(jù)集的有效內(nèi)容??缬蚋拍顏肀硎緦傩曰蚓S度,并定義有效類型,例如,概念可以具有代碼列表或自由文本表示,或其他類型。在MSD使用跨域概念來定義給定域的元數(shù)據(jù)集的有效內(nèi)容,以及使用跨域概念交換數(shù)據(jù)和元數(shù)據(jù)消息。
隨著越來越多的統(tǒng)計(jì)領(lǐng)域中使用SDMX技術(shù)標(biāo)準(zhǔn)和面向內(nèi)容的指南,跨域概念列表預(yù)計(jì)會(huì)增長并定期更新??缬蚋拍畈粌H包括概念的名稱及其內(nèi)容描述,還包括與之關(guān)聯(lián)的代碼列表,在數(shù)據(jù)結(jié)構(gòu)定義和元數(shù)據(jù)結(jié)構(gòu)定義中起到了重要的作用。
使用SDMX跨域概念不是技術(shù)一致性的先決條件,但它提供了一個(gè)框架,使符合技術(shù)標(biāo)準(zhǔn)的系統(tǒng)之間可以方便地共享數(shù)據(jù)和元數(shù)據(jù)。這促進(jìn)了不同國際組織和國家及區(qū)域數(shù)據(jù)生產(chǎn)機(jī)構(gòu)通過交換符合一致性元數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)計(jì)數(shù)據(jù)來進(jìn)行統(tǒng)計(jì)概念和統(tǒng)計(jì)方法的比較。
跨域概念有三方面的應(yīng)用:
(1)作為數(shù)據(jù)結(jié)構(gòu)定義中的維度。多個(gè)維度用于標(biāo)識(shí)每個(gè)統(tǒng)計(jì)度量。例如,名為“參考區(qū)域”的維度將標(biāo)識(shí)特定統(tǒng)計(jì)度量所指的國家。維度值通常取自代碼列表(如國家/地區(qū)的代碼列表)。
(2)作為數(shù)據(jù)結(jié)構(gòu)定義中的屬性。屬性提供有關(guān)數(shù)據(jù)的信息,從而進(jìn)一步限定數(shù)據(jù)。例如,“計(jì)量單位”的屬性可以提供統(tǒng)計(jì)數(shù)據(jù)的屬性信息。
(3)作為元數(shù)據(jù)結(jié)構(gòu)定義中的屬性。這里的概念可以用于報(bào)告數(shù)據(jù)流或數(shù)據(jù)提供協(xié)議(可以包含一組數(shù)據(jù)集)的元數(shù)據(jù),其具有諸如及時(shí)性、參考周期、分類系統(tǒng)和數(shù)據(jù)編譯的概念??梢詫?duì)這些概念的值進(jìn)行編碼,但通常是文本。
每個(gè)數(shù)據(jù)集或元數(shù)據(jù)集使用適當(dāng)類型的結(jié)構(gòu)定義,以便交換數(shù)據(jù)和元數(shù)據(jù)的系統(tǒng)可以理解數(shù)據(jù)或元數(shù)據(jù)集包含的內(nèi)容。概念可以在各種結(jié)構(gòu)定義中重用。因此,諸如“參考區(qū)域”的概念可以用在數(shù)據(jù)結(jié)構(gòu)和元數(shù)據(jù)結(jié)構(gòu)定義中。為了跨多個(gè)域進(jìn)行交換,存在單個(gè)概念和單個(gè)表示是至關(guān)重要的。重復(fù)使用這個(gè)單一概念的數(shù)據(jù)和元數(shù)據(jù)結(jié)構(gòu)可以很容易聯(lián)系起來,因?yàn)樗鼈冊(cè)谙嗤男g(shù)語中指的是相同的想法。
跨域概念根據(jù)SDMX信息模型,概念(用于數(shù)據(jù)和元數(shù)據(jù)結(jié)構(gòu)定義)必須具有一些特定的屬性。這些屬性包括:
(1)概念的強(qiáng)制性描述。一般SDMX跨域概念的定義和注釋包含在SDMX詞匯表中。
(2)由同一維護(hù)機(jī)構(gòu)維護(hù)的跨域概念列表中的概念只能包含唯一標(biāo)識(shí)。
(3)如果概念是“編碼的”,則應(yīng)提供包含有效值的代碼列表的鏈接。
(4)維護(hù)機(jī)構(gòu)負(fù)責(zé)維護(hù)在數(shù)據(jù)和元數(shù)據(jù)結(jié)構(gòu)定義中使用的概念。對(duì)于SDMX跨域概念,維護(hù)代理是SDMX,它們將標(biāo)記為“SDMX”。對(duì)于其他特定域的概念(未包含在SDMX跨域概念中或尚未包含在其中),有各種不同的維護(hù)代理?!熬S護(hù)機(jī)構(gòu)”概念對(duì)于許多不同的目的很重要,因此,它本身就是一個(gè)跨域概念,也以統(tǒng)一的方式編碼。
2.統(tǒng)計(jì)主題域(statistical subject-matter domain)
統(tǒng)計(jì)主題域是內(nèi)容指南的重要組成部分和統(tǒng)計(jì)活動(dòng)的分類方法,其目標(biāo)是涵蓋官方統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)主題域是指在數(shù)據(jù)收集的變量、概念和方法以及整個(gè)統(tǒng)計(jì)數(shù)據(jù)編制過程方面具有共同特征的統(tǒng)計(jì)活動(dòng)。比如,價(jià)格統(tǒng)計(jì)、國民賬戶環(huán)境統(tǒng)計(jì)和教育統(tǒng)計(jì)。
在內(nèi)容指南中,統(tǒng)計(jì)主題域的列表有三個(gè)功能:
(1)作為國家和國際組織的類似域名表映射的標(biāo)準(zhǔn)方案,促進(jìn)數(shù)據(jù)和元數(shù)據(jù)的交換;
(2)作為在SDMX注冊(cè)管理機(jī)構(gòu)上注冊(cè)和搜索統(tǒng)計(jì)數(shù)據(jù)的標(biāo)識(shí)符框架在SDMX技術(shù)標(biāo)準(zhǔn)2.0版(以及更高版本)中應(yīng)用;
(3)作為用于識(shí)別和組織相應(yīng)的“域組”的導(dǎo)航輔助工具在使用SDMX技術(shù)標(biāo)準(zhǔn)和面向內(nèi)容的統(tǒng)計(jì)和相關(guān)元數(shù)據(jù)交換指南方面發(fā)揮積極作用。
SDMX統(tǒng)計(jì)主題域分類利用了聯(lián)合國歐洲經(jīng)濟(jì)委員會(huì)(UNECE)國際統(tǒng)計(jì)活動(dòng)分類和區(qū)域國際統(tǒng)計(jì)活動(dòng)數(shù)據(jù)庫(DISA)。SDMX利用統(tǒng)計(jì)域1-38中的主題框架,其中包括:人口統(tǒng)計(jì)和社會(huì)統(tǒng)計(jì)、經(jīng)濟(jì)統(tǒng)計(jì)、環(huán)境和多域統(tǒng)計(jì)。SDMX網(wǎng)站的“指南”頁面提供了SDMX統(tǒng)計(jì)主題域的詳細(xì)列表。
3.SDMX詞匯表
SDMX詞匯表是SDMX概念和相關(guān)定義的指南,是構(gòu)建和理解基于SDMX的數(shù)據(jù)和元數(shù)據(jù)交換的基礎(chǔ)。詞匯表提供了SDMX信息模型,以及DSD和MSD中所使用的術(shù)語定義,并將其作為常用SDMX術(shù)語的單一入口點(diǎn),以便通信和理解標(biāo)準(zhǔn)的統(tǒng)一。
詞匯表沒有強(qiáng)制在SDMX結(jié)構(gòu)中使用的特定概念和代碼列表,它是一個(gè)統(tǒng)計(jì)通用術(shù)語詞匯表,目的是促進(jìn)統(tǒng)計(jì)數(shù)據(jù)的溝通和理解。指南要求如果使用術(shù)語,則其精確含義應(yīng)與詞匯表定義相對(duì)應(yīng)。詞匯表與跨域概念緊密相關(guān),因?yàn)樗€包含所有這些概念,說明了它們的定義和上下文描述。詞匯表并不能涵蓋整個(gè)統(tǒng)計(jì)術(shù)語范圍,它的重點(diǎn)主要是那些通常用于構(gòu)建和理解元數(shù)據(jù)系統(tǒng)和SDMX數(shù)據(jù)交換的術(shù)語,如圖3中的實(shí)例。
圖3 詞匯表實(shí)例
詞匯表中定義的元數(shù)據(jù)概念由本領(lǐng)域內(nèi)的國際組織定期討論,隨著SDMX指南在越來越多的統(tǒng)計(jì)領(lǐng)域中使用,該列表將會(huì)擴(kuò)大并更新。因此,詞匯表是一份“活的”文件,它的構(gòu)建和改進(jìn)來源于在SDMX和國家框架內(nèi)對(duì)這些定義和概念的應(yīng)用。例如,涉及SDMX跨域概念的面向內(nèi)容的指南的變化意味著需要更新詞匯表以反映這些變化,即由于跨域概念將被修訂和擴(kuò)展,需要詞匯表進(jìn)行同步修改,比如增加新術(shù)語、改進(jìn)現(xiàn)有定義、添加更詳細(xì)的信息等。詞匯表提供了一個(gè)單一入口點(diǎn)可用于訪問各種術(shù)語,包括有時(shí)無法使用或難以找到的術(shù)語。在某些情況下,詞匯表會(huì)包括一個(gè)或幾個(gè)背景解釋的相關(guān)定義,有時(shí)提供額外的解釋;其他時(shí)候強(qiáng)調(diào)特定定義在特定領(lǐng)域或地理環(huán)境中應(yīng)用的特殊性。
詞匯表以國際組織已經(jīng)開展的工作為基礎(chǔ)。其定義大多來自現(xiàn)有的國際標(biāo)準(zhǔn)或建議的統(tǒng)計(jì)做法。術(shù)語表還提供了作為“SDMX”編寫的信息,例如,SDMX技術(shù)規(guī)范和跨域概念中使用的術(shù)語。這一術(shù)語子集由SDMX直接維護(hù),而更多的更廣泛的元數(shù)據(jù)術(shù)語集和更詳細(xì)的解釋與外部源和詞匯表相關(guān)聯(lián)。最新版本的詞匯表可從SDMX網(wǎng)站的“指南”頁面或使用相應(yīng)的鏈接獲得。
IT架構(gòu)定義了SDMX交換數(shù)據(jù)和元數(shù)據(jù)的標(biāo)準(zhǔn)格式,包括SDMX-ML和SDMX-EDI。架構(gòu)還給出了數(shù)據(jù)交換的模式,包括推(Push)、拉(Pull)和數(shù)據(jù)集線器模式(Data Hub)三種模式。此外,IT架構(gòu)還包括SDMX相關(guān)IT工具。
SDMX標(biāo)準(zhǔn)建立和逐漸升級(jí)完善已經(jīng)近20年,其中SDMX1.0標(biāo)準(zhǔn)于2004年發(fā)布,最新版本是SDMX2.1。在2.1版中,2.0的許多功能得到改進(jìn),包括Web服務(wù)增加了RESTful接口,增加了標(biāo)準(zhǔn)功能和錯(cuò)誤消息?,F(xiàn)在,可以基于SDMX標(biāo)準(zhǔn)開發(fā)通用的可互操作應(yīng)用程序。此外,基于2.0版的應(yīng)用經(jīng)驗(yàn),已經(jīng)簡化了各種XML數(shù)據(jù)格式。SDMX3.0技術(shù)標(biāo)準(zhǔn)目前還在修訂和討論中。
從使用方式上來看,有三類應(yīng)用場景可以使用SDMX,包括:作為統(tǒng)計(jì)數(shù)據(jù)收集和發(fā)布的格式、各國中央銀行(早期實(shí)施GESMES/TS,現(xiàn)在是SDMX-EDI)和歐洲統(tǒng)計(jì)機(jī)構(gòu)(歷史上使用GESMES)受歐盟統(tǒng)計(jì)局人口普查中心等項(xiàng)目的推動(dòng)使用SDMX作為報(bào)告和收集格式;作為網(wǎng)站的數(shù)據(jù)發(fā)布標(biāo)準(zhǔn),在廣泛的機(jī)構(gòu)包括中央銀行(歐洲央行和歐洲中央銀行體系、國際清算銀行、美國聯(lián)邦儲(chǔ)備委員會(huì)和紐約聯(lián)邦儲(chǔ)備銀行等),其他贊助機(jī)構(gòu)(世界銀行、經(jīng)合組織等)和國家統(tǒng)計(jì)機(jī)構(gòu)(墨西哥國家統(tǒng)計(jì)協(xié)會(huì)、新西蘭統(tǒng)計(jì)局、澳大利亞統(tǒng)計(jì)局、歐盟各國統(tǒng)計(jì)局等)使用SDMX標(biāo)準(zhǔn)發(fā)布網(wǎng)站數(shù)據(jù)。目前,歐盟統(tǒng)計(jì)局發(fā)布的數(shù)據(jù)集已全部采用統(tǒng)一的歐盟一級(jí)的元數(shù)據(jù),歐盟成員國發(fā)布的數(shù)據(jù)集已有85%采用統(tǒng)一的國家元數(shù)據(jù)。歐洲中央銀行圍繞SDMX信息模型創(chuàng)建了所有內(nèi)部數(shù)據(jù)倉庫,并獲得了成功。許多其他組織正在使用SDMX來管理其統(tǒng)計(jì)數(shù)據(jù),創(chuàng)建元數(shù)據(jù)存儲(chǔ)庫,以及集成其元數(shù)據(jù)和數(shù)據(jù)。SDMX已經(jīng)在許多統(tǒng)計(jì)領(lǐng)域有了實(shí)際的應(yīng)用,包括:人口普查和人口統(tǒng)計(jì)、教育、財(cái)務(wù)和貨幣指標(biāo)、經(jīng)濟(jì)指標(biāo)、國民賬戶、勞工、糧食和農(nóng)業(yè)、漁業(yè)、流行病學(xué)、運(yùn)輸、數(shù)據(jù)質(zhì)量、發(fā)展指標(biāo)等。
目前,SDMX標(biāo)準(zhǔn)已較為成熟,被廣泛認(rèn)可,成為統(tǒng)計(jì)數(shù)據(jù)交換的全球標(biāo)準(zhǔn)。SDMX組織2021年1月發(fā)布了“SDMX2025路線圖”,規(guī)劃了未來五年SDMX的發(fā)展目標(biāo)。這些目標(biāo)包括:加強(qiáng)SDMX的實(shí)施、SDMX簡化數(shù)據(jù)使用、通過SDMX來促進(jìn)統(tǒng)計(jì)流程和IT基礎(chǔ)架構(gòu)的現(xiàn)代化、改善與廣大社區(qū)的交流和互動(dòng)。SDMX核心資源是SDMX網(wǎng)站,域名為“sdmx.org”,這是官方的SDMX標(biāo)準(zhǔn)網(wǎng)站,其內(nèi)容包括:SDMX標(biāo)準(zhǔn)、相關(guān)手冊(cè)、實(shí)施案例、相關(guān)IT工具以及培訓(xùn)等,歐盟統(tǒng)計(jì)局也在其官方網(wǎng)站上開辟了SDMX專欄介紹和推廣SDMX。SDMX組織每兩年召開一次SDMX全球大會(huì)和SDMX專家組會(huì)議。
元數(shù)據(jù)技術(shù)在聯(lián)網(wǎng)直報(bào)、普查等統(tǒng)計(jì)業(yè)務(wù)中普遍應(yīng)用,在促進(jìn)統(tǒng)計(jì)數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化方面起到了積極作用。我國還沒有建成在線的元數(shù)據(jù)庫,元數(shù)據(jù)的覆蓋范圍和時(shí)效性、統(tǒng)一規(guī)范度都較為欠缺?,F(xiàn)行的統(tǒng)計(jì)元數(shù)據(jù)標(biāo)準(zhǔn)如企業(yè)一套表元數(shù)據(jù)標(biāo)準(zhǔn),其主要目的是管理和描述項(xiàng)目本身的統(tǒng)計(jì)數(shù)據(jù)生產(chǎn)和管理等業(yè)務(wù)流程,不同統(tǒng)計(jì)調(diào)查項(xiàng)目采用的元數(shù)據(jù)指標(biāo)、概念并不一致?,F(xiàn)有標(biāo)準(zhǔn)尤其缺少更高層次、標(biāo)準(zhǔn)統(tǒng)一的描述統(tǒng)計(jì)數(shù)據(jù)的邏輯模型,和有關(guān)如何構(gòu)建內(nèi)容指南以及與之相關(guān)的標(biāo)準(zhǔn)化IT技術(shù)和方法工具。缺少統(tǒng)一標(biāo)準(zhǔn),沒有“共同語言”,統(tǒng)計(jì)數(shù)據(jù)的共享和交換成本巨大成為大數(shù)據(jù)與政府統(tǒng)計(jì)深度融合的“攔路虎”,統(tǒng)計(jì)生產(chǎn)流程再造也很難實(shí)現(xiàn),統(tǒng)計(jì)數(shù)據(jù)傳播力的提升也難有突破。
從我國統(tǒng)計(jì)工作的發(fā)展來看,統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù)的標(biāo)準(zhǔn)化工作是提升統(tǒng)計(jì)服務(wù)質(zhì)量的內(nèi)在需要。SDMX標(biāo)準(zhǔn)于2008年在聯(lián)合國統(tǒng)計(jì)委員會(huì)第39屆會(huì)議上被確定為“全球統(tǒng)計(jì)界交換和共享數(shù)據(jù)和元數(shù)據(jù)的首選標(biāo)準(zhǔn)”,已經(jīng)成為國際主流的統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù)共享和交換的標(biāo)準(zhǔn)。我國在相關(guān)領(lǐng)域的研究還較薄弱,參考國際標(biāo)準(zhǔn)、借鑒國際經(jīng)驗(yàn)可以盡快縮小和國際統(tǒng)計(jì)界的差距。
借鑒SDMX標(biāo)準(zhǔn)提升、優(yōu)化統(tǒng)計(jì)業(yè)務(wù)模式和流程是可行的思路。SDMX的應(yīng)用絕不是研究一個(gè)新標(biāo)準(zhǔn)、開發(fā)一套新軟件那么簡單,更不是一個(gè)簡單的數(shù)據(jù)格式問題,它包含著統(tǒng)計(jì)數(shù)據(jù)的治理和統(tǒng)計(jì)業(yè)務(wù)流程再造,是一件涉及面廣、影響大的系統(tǒng)工程,應(yīng)當(dāng)將SDMX的實(shí)施和推廣加入我國統(tǒng)計(jì)能力建設(shè)的長期目標(biāo)當(dāng)中。從歐盟統(tǒng)計(jì)局的經(jīng)驗(yàn)來看SDMX的實(shí)施可以包括準(zhǔn)備階段、合規(guī)階段、執(zhí)行階段和生產(chǎn)階段。準(zhǔn)備階段是最重要的階段,該階段應(yīng)明確項(xiàng)目的目標(biāo)、實(shí)施時(shí)間表、項(xiàng)目計(jì)劃草案以及人員的角色和責(zé)任,并對(duì)生產(chǎn)系統(tǒng)、傳輸文件格式和代碼清單進(jìn)行分析。合規(guī)階段要完成基礎(chǔ)工作、系統(tǒng)設(shè)計(jì)和工作流程安排,這個(gè)階段可能需要大量時(shí)間投入,并可能會(huì)重新返回到準(zhǔn)備階段。合規(guī)階段還要完成分析數(shù)據(jù)交換、定義交換數(shù)據(jù)結(jié)構(gòu)(包括數(shù)據(jù)和元數(shù)據(jù))、應(yīng)用SDMX內(nèi)容指南;重用現(xiàn)有代碼列表,然后創(chuàng)建DSD和MSD。執(zhí)行階段是項(xiàng)目的實(shí)施階段,主要是發(fā)現(xiàn)問題、尋求解決方案、采取糾正措施。這一階段應(yīng)將SDMX相關(guān)成果文件上傳到注冊(cè)中心,比如DSD文件,建立適合SDMX傳輸?shù)腎T基礎(chǔ)設(shè)施,并進(jìn)行項(xiàng)目試點(diǎn)審查DSD和測試IT基礎(chǔ)設(shè)施。生產(chǎn)階段在生產(chǎn)環(huán)境中使用符合SDMX標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行交換,并對(duì)SDMX成果文件進(jìn)行定期維護(hù)。從我國統(tǒng)計(jì)業(yè)務(wù)的實(shí)際情況看,選擇易與國際接軌的項(xiàng)目,按照以上四個(gè)階段進(jìn)行SDMX試點(diǎn)是穩(wěn)妥可行的方案,同時(shí)應(yīng)加強(qiáng)SDMX標(biāo)準(zhǔn)的學(xué)習(xí)、培訓(xùn)和研究工作,并積極開展相關(guān)國際合作。
2020年4月,中共中央、國務(wù)院出臺(tái)了《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,首次將數(shù)據(jù)與土地、勞動(dòng)力、資本、技術(shù)并列為五大生產(chǎn)要素。統(tǒng)計(jì)部門既是數(shù)據(jù)的生產(chǎn)者也是數(shù)據(jù)的消費(fèi)者,數(shù)據(jù)是統(tǒng)計(jì)業(yè)務(wù)的核心,統(tǒng)計(jì)工作者應(yīng)該成為數(shù)據(jù)市場的深度參與者和引領(lǐng)者。如何提升與放大統(tǒng)計(jì)數(shù)據(jù)要素的價(jià)值應(yīng)該成為統(tǒng)計(jì)部門未來重點(diǎn)的努力方向。學(xué)習(xí)和研究SDMX標(biāo)準(zhǔn),借鑒歐盟統(tǒng)計(jì)局等的成功實(shí)踐,以統(tǒng)計(jì)數(shù)據(jù)共享和提升統(tǒng)計(jì)數(shù)據(jù)傳播力為目標(biāo),應(yīng)成為提升我國統(tǒng)計(jì)能力建設(shè)的重要手段之一。◆