孫彩萍,王維
中國環(huán)境科學(xué)研究院環(huán)境信息研究所
科學(xué)數(shù)據(jù)是國家重要的戰(zhàn)略資源,其開放共享意義重大。20世紀(jì)90年代,美國率先提出數(shù)據(jù)開放共享概念,并建立了9個國家級數(shù)據(jù)中心。2000年,中國氣象局在國內(nèi)率先實現(xiàn)部門內(nèi)部數(shù)據(jù)共享;2001年我國試點(diǎn)建立了8個數(shù)據(jù)中心;2008年開始要求國家項目產(chǎn)生的科學(xué)數(shù)據(jù)進(jìn)行匯交[1]。近年來,我國持續(xù)推動農(nóng)、林、氣象等領(lǐng)域的科學(xué)數(shù)據(jù)開放共享,但因整體缺乏頂層設(shè)計和驅(qū)動機(jī)制,統(tǒng)籌管理相對薄弱,科技領(lǐng)域更易形成“數(shù)據(jù)孤島”和“數(shù)據(jù)煙囪”,導(dǎo)致科學(xué)數(shù)據(jù)在開發(fā)利用、開放共享和安全保護(hù)等方面存在明顯不足[2]。
2017年以來,我國大數(shù)據(jù)總體規(guī)模增速在20%以上,有60%以上的企業(yè)開展了包括數(shù)據(jù)資產(chǎn)管理、智慧決策等大數(shù)據(jù)技術(shù)研究與應(yīng)用,各行業(yè)對數(shù)據(jù)分析的重視程度進(jìn)一步提高。在數(shù)字化轉(zhuǎn)型的大背景下,大數(shù)據(jù)的多維屬性為行業(yè)發(fā)展提供了全新視角,相應(yīng)地大數(shù)據(jù)發(fā)展也從技術(shù)優(yōu)先向數(shù)據(jù)優(yōu)先轉(zhuǎn)移。大數(shù)據(jù)時代的科學(xué)研究,定量化特點(diǎn)突出,創(chuàng)新越來越依賴于大量、系統(tǒng)、高可信度的數(shù)據(jù)。此外,海量數(shù)據(jù)還引發(fā)了科學(xué)研究方法論的變革。2018年《科學(xué)數(shù)據(jù)管理辦法》發(fā)布,將對科學(xué)數(shù)據(jù)的共享和利用納入法制軌道,以“開放為常態(tài)、不開放為例外”為原則,拔掉“數(shù)據(jù)煙囪”,補(bǔ)齊科學(xué)數(shù)據(jù)管理短板,促進(jìn)協(xié)同創(chuàng)新。
在生態(tài)環(huán)境領(lǐng)域,2017年原環(huán)境保護(hù)部(現(xiàn)生態(tài)環(huán)境部)發(fā)布《大氣重污染成因與治理攻關(guān)項目管理辦法》[3],率先以數(shù)據(jù)資源共享作為重大專項科研創(chuàng)新的助力,創(chuàng)新科學(xué)研究范式。2017年4月,國務(wù)院常務(wù)會議確定由原環(huán)境保護(hù)部牽頭,科學(xué)技術(shù)部、中國科學(xué)院、農(nóng)業(yè)部、工業(yè)和信息化部、氣象局、衛(wèi)生部、高校等多部門和單位協(xié)作,針對京津冀及周邊地區(qū)秋冬季大氣重污染成因、重點(diǎn)行業(yè)和污染物排放管控技術(shù)等難題開展集中攻關(guān)。原環(huán)境保護(hù)部按照“1+X”模式成立了國家大氣污染防治攻關(guān)聯(lián)合中心,組建了由國內(nèi)200多家單位、近2 000人組成的科技攻關(guān)團(tuán)隊。面對信息化建設(shè)現(xiàn)狀和大氣攻關(guān)項目數(shù)據(jù)資源共享建設(shè)需求,亟需探索共享方法體系,以期指導(dǎo)大氣環(huán)境數(shù)據(jù)資源共享技術(shù)研究。
國內(nèi)生態(tài)環(huán)境信息化領(lǐng)域已頒布50多項標(biāo)準(zhǔn)、規(guī)范和管理制度,覆蓋環(huán)境信息術(shù)語、分類、編碼、數(shù)據(jù)采集、加工、交換、數(shù)據(jù)庫建設(shè)、網(wǎng)絡(luò)建設(shè)及管理等全流程,以統(tǒng)一、規(guī)范信息化建設(shè)。2014年依托《電子政務(wù)信息共享互聯(lián)互通平臺技術(shù)指南》,原環(huán)境保護(hù)部編制并發(fā)布了HJ 718—2014《環(huán)境信息共享互聯(lián)互通平臺總體框架技術(shù)規(guī)范》[4],該規(guī)范對環(huán)境信息共享平臺的基礎(chǔ)架構(gòu)、數(shù)據(jù)集成模式、應(yīng)用集成方法、流程協(xié)同、管理監(jiān)控及安全支撐方式等進(jìn)行了概念統(tǒng)一,明確了其定義和主要工作內(nèi)容,但其更側(cè)重軟件工程,對環(huán)境業(yè)務(wù)驅(qū)動的支撐不足,這也是諸多國內(nèi)信息化標(biāo)準(zhǔn)存在的普遍問題。
與數(shù)據(jù)資源中心建設(shè)不同,大氣環(huán)境數(shù)據(jù)資源共享建設(shè)具有業(yè)務(wù)屬性強(qiáng)、共享目標(biāo)明確的特點(diǎn),因此在其建設(shè)過程中需要著力解決三大關(guān)鍵問題:即發(fā)現(xiàn)優(yōu)質(zhì)的科研數(shù)據(jù);劃定科研數(shù)據(jù)共享邊界;評估科研數(shù)據(jù)共享效果。但國內(nèi)對行業(yè)數(shù)據(jù)共享的系統(tǒng)性研究不足,更鮮見相應(yīng)的實證研究。
FEA(Federal Enterprise Archtecture)框架是美國電子政務(wù)共享框架,提供通用、標(biāo)準(zhǔn)化的參考模型及組件工具,指導(dǎo)企業(yè)、政府、公眾間的信息發(fā)現(xiàn)、共享、交換等IT交付服務(wù)的投資、生產(chǎn)、監(jiān)管和評估,為企業(yè)和政府機(jī)構(gòu)的戰(zhàn)略發(fā)展規(guī)劃、決策提供信息化支撐[5],2013年發(fā)布了第2版。相比于HJ 718—2014和國內(nèi)電子政務(wù)共享指南,以及主流框架參考模型[6-7],F(xiàn)EA框架突出目標(biāo)績效管理,具有共享、削減重復(fù)投資的雙重指導(dǎo)意義。
FEA框架由2個部分組成:1)實施指導(dǎo)部分,即協(xié)作計劃方法論(collaborative planning methodology,CPM);2)綜合參考模型(consolidated reference model,CRM)。在CPM實施中,主要包括組織和計劃、實施和評估2個階段:在第一階段,確定信息建設(shè)的優(yōu)先級需求,以及具有同類需求的其他組織,并制定共享解決方案;在第二階段,開展計劃實施、監(jiān)管與調(diào)整等相關(guān)活動。CRM模型由6個部分組成,分別為績效參考模型(PRM)、業(yè)務(wù)參考模型(BRM)、數(shù)據(jù)參考模型(DRM)、應(yīng)用參考模型(ARM)、基礎(chǔ)設(shè)施參考模型(IRM)和安全參考模型(SRM)。各部分提出分類體系、重點(diǎn)領(lǐng)域,并提供最佳實踐。與其他在用框架相比,F(xiàn)EA框架是信息共享方法論,具有以下特點(diǎn):1)建立了統(tǒng)一、龐大的公共數(shù)據(jù)目錄,通過該目錄達(dá)到發(fā)現(xiàn)數(shù)據(jù)、尋找數(shù)據(jù)共享、合作協(xié)作的目的;2)給出了信息共享邊界,涉及到數(shù)字化的所有內(nèi)容,不只是數(shù)字化的結(jié)果——信息,還包括過程數(shù)據(jù)、設(shè)備數(shù)據(jù)、服務(wù)數(shù)據(jù)等,達(dá)到了系統(tǒng)組件、接口級別的共享;3)共享的目標(biāo),其一是服務(wù)于部門和政府間業(yè)務(wù)決策及目標(biāo)管理,其二是發(fā)現(xiàn)重復(fù)建設(shè)項目,通過項目壓減合并節(jié)約政府投資。FEA框架建有龐大的分類體系,以及以業(yè)務(wù)為核心的數(shù)據(jù)資產(chǎn)清單,對實踐具有極強(qiáng)的指導(dǎo)意義。
數(shù)據(jù)應(yīng)用的核心關(guān)鍵是要解決效率和決策問題,參照傳統(tǒng)方法開發(fā)的信息系統(tǒng)因缺乏數(shù)據(jù)標(biāo)準(zhǔn)化體系建設(shè),致使數(shù)據(jù)管理不規(guī)范,數(shù)據(jù)結(jié)構(gòu)不一致,使用率低,不能發(fā)揮出數(shù)據(jù)戰(zhàn)略資源的價值。2015年,阿里在總結(jié)Super Cell快速擴(kuò)張經(jīng)驗時,提出數(shù)據(jù)中臺(middle platform)方案,用于解決其內(nèi)部電商系統(tǒng)迅捷開發(fā)布署的應(yīng)用難題,后因其為多部門、多業(yè)務(wù)協(xié)同應(yīng)用提供了穩(wěn)定的技術(shù)框架,加快了業(yè)務(wù)需求響應(yīng)速度,縮短了業(yè)務(wù)創(chuàng)新周期,迅速在電力、銀行和城市管理的數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)應(yīng)用中取得突破[8-11]。
數(shù)據(jù)中臺是從業(yè)務(wù)全局規(guī)劃出發(fā),通過對傳統(tǒng)信息系統(tǒng)前臺和后臺的徹底解耦,實現(xiàn)企業(yè)級數(shù)據(jù)的共享和復(fù)用,類似于DAAS(data as a service)層。它是通過對海量數(shù)據(jù)統(tǒng)一采集、計算、存儲,制定數(shù)據(jù)管理規(guī)范,形成標(biāo)準(zhǔn)化數(shù)據(jù),構(gòu)建數(shù)據(jù)資產(chǎn)庫,通過共享和復(fù)用,提供一致、高可用的大數(shù)據(jù)服務(wù),響應(yīng)業(yè)務(wù)敏捷發(fā)展需求,促進(jìn)業(yè)務(wù)創(chuàng)新。廣義的數(shù)據(jù)中臺,還包括長期積累下來與業(yè)務(wù)有較強(qiáng)關(guān)聯(lián)性的一些技術(shù)組件,如業(yè)務(wù)標(biāo)簽、算法模型、數(shù)據(jù)產(chǎn)品等[12]。綜上,數(shù)據(jù)中臺在頂層規(guī)劃上要求面向業(yè)務(wù)全局,實施上要求執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn),在強(qiáng)調(diào)統(tǒng)一規(guī)劃的數(shù)據(jù)治理能力上,具有滿足數(shù)據(jù)共享、復(fù)用、響應(yīng)業(yè)務(wù)需求三大特點(diǎn)。筆者擬將FEA框架方法編制數(shù)據(jù)清單用于大氣數(shù)據(jù)資源共享的建設(shè)中,同時在方案設(shè)計上參照數(shù)據(jù)中臺建設(shè)思想,以期達(dá)到科研數(shù)據(jù)共享和復(fù)用的目標(biāo)。
FEA框架方法論的數(shù)據(jù)資產(chǎn)清單編制路徑如圖1所示。由圖1可見,F(xiàn)EA框架的6個參考模型均有分類體系和目錄,在編制數(shù)據(jù)資產(chǎn)清單時,需要將已有數(shù)據(jù)資源與各參考模型的分類體系、資源目錄進(jìn)行映射,建立清單目錄并注冊,完成數(shù)據(jù)資產(chǎn)共享;另一方面,利用FEA框架的公共數(shù)據(jù)目錄,可以發(fā)現(xiàn)數(shù)據(jù),開展跨部門、跨系統(tǒng)的數(shù)據(jù)共享、合作與協(xié)作。在編制數(shù)據(jù)資產(chǎn)清單時,要注意:1)以實現(xiàn)部門或單位規(guī)劃或戰(zhàn)略目標(biāo)為導(dǎo)向;2)需要從部門的職能和業(yè)務(wù)需求出發(fā);3)基于當(dāng)前的可得數(shù)據(jù)資源和IT基礎(chǔ)設(shè)施及技術(shù)建設(shè)現(xiàn)狀,編制數(shù)據(jù)資產(chǎn)清單。
圖1 FEA框架中的數(shù)據(jù)資產(chǎn)清單編制路徑Fig.1 Compilation path of data asset list based on FEA Framework
大氣環(huán)境數(shù)據(jù)資源共享的目標(biāo)是對項目產(chǎn)出的多源數(shù)據(jù)在線集成、統(tǒng)一管理和全面共享。對業(yè)務(wù)需求分析可知,大氣攻關(guān)項目5個研究部門——大氣重污染來源與成因、排放現(xiàn)狀評估和強(qiáng)化管控、綜合科學(xué)決策支撐、大氣污染對人群健康影響以及城市研究部,在研究架構(gòu)設(shè)計上為專題—課題—子課題三級科研體系,包含28個研究方向,對大氣重污染三大因素——污染排放、氣象條件和區(qū)域傳輸,從污染來源、排放強(qiáng)度、時間分布、行業(yè)分布方面開展精細(xì)化、定量化研究。與之配套支撐的科研數(shù)據(jù)資源體系建設(shè)和管理極其復(fù)雜。因此,采用FEA框架方法論,對數(shù)據(jù)資源實行域—主題—專題—資源目錄管理模式,建立雙向的數(shù)據(jù)共識、發(fā)現(xiàn)機(jī)制:1)數(shù)據(jù)生產(chǎn)方知曉科研數(shù)據(jù)需求,按需提供數(shù)據(jù);2)數(shù)據(jù)使用方能及時找到所需數(shù)據(jù)入口,申請共享。
在FEA框架方法論中,數(shù)據(jù)域分為政府域、企業(yè)域、指南和自然資源4類。具體到本研究,覆蓋政府域的環(huán)境科學(xué)數(shù)據(jù)占比最大。根據(jù)《科學(xué)數(shù)據(jù)管理辦法》定義,科學(xué)數(shù)據(jù)包括通過基礎(chǔ)研究、應(yīng)用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得的數(shù)據(jù)??茖W(xué)數(shù)據(jù)是有智力投入的,其產(chǎn)生是創(chuàng)造性勞動的成果,因此,科學(xué)數(shù)據(jù)擁有版權(quán),而版權(quán)屬于知識產(chǎn)權(quán)的范疇。對科學(xué)數(shù)據(jù)的共享要在知識產(chǎn)權(quán)的框架下進(jìn)行,準(zhǔn)確刻畫共享邊界,制定數(shù)據(jù)授權(quán)框架,以符合遵循分級管理、安全可控、充分利用的數(shù)據(jù)共享原則。在國家對科學(xué)數(shù)據(jù)管理政策的基礎(chǔ)上,原環(huán)境保護(hù)部發(fā)布了《大氣重污染成因與治理攻關(guān)項目數(shù)據(jù)管理辦法》[13]。為完成大氣環(huán)境科學(xué)數(shù)據(jù)資源共享,依據(jù)該辦法,本研究確定了大氣環(huán)境數(shù)據(jù)資源共享版權(quán)保障體系,該體系包括數(shù)據(jù)生產(chǎn)方、數(shù)據(jù)使用方、相關(guān)利益方和管理者,以保護(hù)共享數(shù)據(jù)的版權(quán)。
為了有效開展并評估數(shù)據(jù)資源共享,參照FEA方法論,建立動態(tài)數(shù)據(jù)資產(chǎn)清單制度。根據(jù)當(dāng)前的IT及基礎(chǔ)設(shè)施管理現(xiàn)狀,數(shù)據(jù)資產(chǎn)清單主要是面向科學(xué)數(shù)據(jù)。資產(chǎn)清單的編制依據(jù)數(shù)據(jù)資源目錄進(jìn)行。大氣環(huán)境數(shù)據(jù)資源目錄包括大氣監(jiān)測觀測、污染源排放、氣象觀測及探空、污染源解析、健康及體檢、社會經(jīng)濟(jì)、空間數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、質(zhì)控數(shù)據(jù)、標(biāo)準(zhǔn)規(guī)范、模型方法等大類。數(shù)據(jù)資產(chǎn)清單包括數(shù)據(jù)資源和共享2個部分,自頂向下分3層:第1層,根據(jù)信息系統(tǒng)對數(shù)據(jù)的分類方法,劃為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)清單;第2層,向資源目錄映射,建立主題數(shù)據(jù)清單;第3層,業(yè)務(wù)專題數(shù)據(jù)集清單,動態(tài)記錄各級資源總量、增量。共享清單通過動態(tài)統(tǒng)計數(shù)據(jù)資源使用情況獲得,操作類型包括數(shù)據(jù)查詢、數(shù)據(jù)導(dǎo)出、接口調(diào)用。統(tǒng)計口徑包括以上操作的累計次數(shù)、數(shù)據(jù)量(注意結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)單位不同)、數(shù)據(jù)大小。對數(shù)據(jù)資源共享進(jìn)行使用動態(tài)排名、使用習(xí)慣分析。數(shù)據(jù)匯交項也是數(shù)據(jù)資產(chǎn)清單的一部分,該部分包括采集接口及活躍度、FTP上傳文件統(tǒng)計等。
FEA框架參考模型為信息化建設(shè)提供了通用的、統(tǒng)一的設(shè)計模式,具有高度的概括性。在使用該框架時,重點(diǎn)要明確共享績效考核目標(biāo),統(tǒng)領(lǐng)全過程;從建立業(yè)務(wù)服務(wù)模型出發(fā),以提升業(yè)務(wù)能力為抓手,發(fā)現(xiàn)共性數(shù)據(jù)資源,依托基礎(chǔ)設(shè)施建設(shè)現(xiàn)狀,開發(fā)標(biāo)準(zhǔn)化的應(yīng)用組件,實現(xiàn)信息共享。在建模過程中,一是要注意將業(yè)務(wù)需求與各模型分類進(jìn)行準(zhǔn)確映射,通過映射找到實施的重要節(jié)點(diǎn);二是要認(rèn)識該框架仍為邏輯模型,指導(dǎo)實踐時應(yīng)根據(jù)具體業(yè)務(wù)或服務(wù)進(jìn)行調(diào)整。
國內(nèi)信息交換框架偏重系統(tǒng)流程配置、節(jié)點(diǎn)管理,數(shù)據(jù)層面標(biāo)準(zhǔn)化停留在數(shù)據(jù)庫粒度上。FEA框架指出,數(shù)據(jù)標(biāo)準(zhǔn)化的建設(shè)包括數(shù)據(jù)描述、數(shù)據(jù)上下文(目錄)、數(shù)據(jù)共享3個部分。在信息共享和交換中,數(shù)據(jù)元素是最小的信息單位,對數(shù)據(jù)描述的統(tǒng)一是數(shù)據(jù)標(biāo)準(zhǔn)化的重要內(nèi)容。FEA框架面向結(jié)構(gòu)化數(shù)據(jù),推薦了UML(統(tǒng)一建模語言)、IDEF1X(ICAM DEFinition method)建模工具;為應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)挑戰(zhàn),第二版的FEA框架已被修訂面向更宏大的元數(shù)據(jù)主題,并推薦ISOIEC 11179、Dublin Core(都柏林:元數(shù)據(jù)系統(tǒng))兩大元數(shù)據(jù)系統(tǒng)。數(shù)據(jù)上下文又稱目錄,是以表、層或樹結(jié)構(gòu)組織的術(shù)語形式來表達(dá),是為增加對數(shù)據(jù)理解而提供的附加信息,常用于數(shù)據(jù)資源分類。通過數(shù)據(jù)目錄,可以讓用戶發(fā)現(xiàn)和查詢所需信息,而不需要知道信息在哪里甚至信息是否存在。眾多研究表明,數(shù)據(jù)共享必須通過數(shù)據(jù)描述和分類的標(biāo)準(zhǔn)化才能實現(xiàn),F(xiàn)EA框架推薦國家信息交換模型(national information exchange model,NIEM)、信息共享環(huán)境構(gòu)建模塊(information sharing environment building blocks)等共享交換框架。數(shù)據(jù)中臺也對數(shù)據(jù)標(biāo)準(zhǔn)化提出了明確要求,在系統(tǒng)開發(fā)與建設(shè)過程中執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn),最終實現(xiàn)四統(tǒng)一[14]。
依據(jù)《大氣重污染成因與治理攻關(guān)項目數(shù)據(jù)管理技術(shù)規(guī)定》[15],參照FEA框架中的相關(guān)方法和生態(tài)環(huán)境信息化建設(shè)標(biāo)準(zhǔn),在大氣環(huán)境數(shù)據(jù)資源共享設(shè)計中,將標(biāo)準(zhǔn)化框架設(shè)計下沉到數(shù)據(jù)元素,分別對數(shù)據(jù)元素、數(shù)據(jù)表、元數(shù)據(jù)進(jìn)行建模,以滿足重大項目產(chǎn)出的多源異構(gòu)數(shù)據(jù)存儲和實時交換的要求,實現(xiàn)大氣環(huán)境數(shù)據(jù)資源共享。在數(shù)據(jù)元素模型設(shè)計中,主要是數(shù)據(jù)元素概念和值域2個部分,基于共享交換時二者描述需保持統(tǒng)一和相近。數(shù)據(jù)模型與業(yè)務(wù)的關(guān)系如圖2所示,建立數(shù)據(jù)模型主要目的是提供業(yè)務(wù)核心功能可執(zhí)行跨部門的標(biāo)準(zhǔn)化互操作(如數(shù)據(jù)交換、建立資源目錄等),并且經(jīng)濟(jì)上可行。數(shù)據(jù)模型只強(qiáng)調(diào)概念模型和邏輯模型,不涉及到物理模型的具體實現(xiàn)。概念模型聚焦大氣環(huán)境業(yè)務(wù)下各級業(yè)務(wù)流程關(guān)聯(lián)數(shù)據(jù)的規(guī)范,而邏輯模型是在概念模型基礎(chǔ)上,包括支持流程和系統(tǒng)更多詳細(xì)信息。好的數(shù)據(jù)模型設(shè)計應(yīng)體現(xiàn)端到端設(shè)計的原則,較全面反映出同一業(yè)務(wù)下不同主題域概念模型的特點(diǎn)[16]。元數(shù)據(jù)建模重點(diǎn)是面向非結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)和應(yīng)用,因此,在建模上要考慮將結(jié)構(gòu)化數(shù)據(jù)主要特征(如數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征等)的描述映射到非結(jié)構(gòu)化的元數(shù)據(jù)中,保持二者除存儲外的無差別應(yīng)用。
圖2 數(shù)據(jù)模型Fig.2 Data model
在進(jìn)行大氣環(huán)境數(shù)據(jù)資源共享建設(shè)時,如何用好數(shù)據(jù),如何發(fā)揮數(shù)據(jù)資源對科研和決策的支撐作用,是本研究需要考慮的重點(diǎn)問題。在國內(nèi)信息化建設(shè)孤島、共享困境和業(yè)務(wù)賦能不足的當(dāng)下,數(shù)據(jù)中臺為數(shù)據(jù)業(yè)務(wù)化應(yīng)用,實現(xiàn)通用計算、數(shù)據(jù)復(fù)能、自助式服務(wù)等業(yè)務(wù)響應(yīng)提供了可行的解決方案。因此,遵照數(shù)據(jù)中臺思想,從大氣重污染成因的科研核心需求出發(fā),以促進(jìn)PM2.5精細(xì)化管理等垂直業(yè)務(wù)為抓手,打通數(shù)據(jù)采集、存儲、計算、治理、服務(wù)的工作全流程,逐步擴(kuò)展到全域數(shù)據(jù)的接入、加工和管理,減少冗余,增加數(shù)據(jù)資產(chǎn)復(fù)用,以快速響應(yīng)業(yè)務(wù)需求。
數(shù)據(jù)中臺在建設(shè)上也要執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn)[14]。據(jù)《2020中國首席數(shù)據(jù)官報告》報道,在數(shù)據(jù)管理遇到的五大主要技術(shù)障礙中,多樣、海量和復(fù)雜的企業(yè)級數(shù)據(jù)質(zhì)量管理已成為首要技術(shù)難題,主要體現(xiàn)在:無有效的數(shù)據(jù)質(zhì)量管理方法;無法發(fā)現(xiàn)數(shù)據(jù)所在位置;無法對數(shù)據(jù)進(jìn)行分類;數(shù)據(jù)安全和合規(guī)管理;企業(yè)級數(shù)據(jù)統(tǒng)一策略和標(biāo)準(zhǔn)規(guī)則的建立。數(shù)據(jù)中臺的標(biāo)準(zhǔn)化不同之處在于:1)強(qiáng)調(diào)通過數(shù)據(jù)治理建立包括數(shù)據(jù)質(zhì)量體系在內(nèi)的標(biāo)準(zhǔn)化體系;2)通過重構(gòu)業(yè)務(wù)指標(biāo)體系建立統(tǒng)一的管理標(biāo)準(zhǔn),實現(xiàn)統(tǒng)一服務(wù)。在組成上,數(shù)據(jù)中臺主要由數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用等組成。在實踐中,主要以建立統(tǒng)一數(shù)據(jù)目錄和規(guī)范,建立跨部門行業(yè)的數(shù)據(jù)共享交換標(biāo)準(zhǔn),搭建數(shù)據(jù)匯集、使用和訪問統(tǒng)一口徑,實現(xiàn)安全可控。
綜合數(shù)據(jù)中臺思想核心和建設(shè)目標(biāo),在大氣環(huán)境數(shù)據(jù)資源共享和建設(shè)上,重點(diǎn)面向大氣環(huán)境數(shù)據(jù)的統(tǒng)一治理,建立基于系統(tǒng)質(zhì)控和業(yè)務(wù)質(zhì)控聯(lián)合的數(shù)據(jù)質(zhì)控體系,在數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,執(zhí)行全流程的數(shù)據(jù)治理,提供規(guī)范化、歸一化的數(shù)據(jù)服務(wù)(圖3);構(gòu)建統(tǒng)一的業(yè)務(wù)指標(biāo)體系,在數(shù)據(jù)應(yīng)用中,主要從KPI(key performance indicator,關(guān)鍵績效指標(biāo))、主題分析、場景分析、駕駛艙等功能的規(guī)范化設(shè)計來體現(xiàn)。需要說明的是,一般數(shù)據(jù)中臺常采用MPP(massively parallel processing)架構(gòu)特點(diǎn)的數(shù)據(jù)庫,考慮到大氣攻關(guān)項目數(shù)據(jù)的類型、總量、實時計算能力需求、建設(shè)和運(yùn)維成本,采用更易維護(hù)的Oracle架構(gòu)建立數(shù)據(jù)倉庫,進(jìn)行數(shù)據(jù)中臺建設(shè)。
圖3 數(shù)據(jù)治理體系Fig.3 Data governance system
采用數(shù)據(jù)中臺進(jìn)行物理設(shè)計,探索大氣環(huán)境全域信息組織和同步服務(wù),通過數(shù)字化、規(guī)范化和場景化應(yīng)用,整合全域大氣環(huán)境數(shù)據(jù)資源,建立大氣環(huán)境綜合數(shù)據(jù)采集與共享平臺,以實現(xiàn)下列目標(biāo):1)對項目所有匯交數(shù)據(jù)資源進(jìn)行統(tǒng)一管理,實現(xiàn)一站式數(shù)據(jù)共享;2)面向PM2.5精細(xì)化決策,建立大氣數(shù)據(jù)時空關(guān)聯(lián)分析計算能力,提供空氣質(zhì)量達(dá)標(biāo)、多要素聯(lián)動、污染時空分布等實時業(yè)務(wù)服務(wù)能力,響應(yīng)數(shù)據(jù)敏捷化、自動化和場景化的應(yīng)用。未來將面向業(yè)務(wù)中臺和污染精細(xì)化管控需求,繼續(xù)深化大氣平臺的能力建設(shè),為打贏大氣污染攻堅戰(zhàn)提供全面支撐。
(1)針對信息共享建設(shè)目標(biāo),以FEA框架為方法論,對共享數(shù)據(jù)發(fā)現(xiàn)—共享邊界刻畫—共享績效評估進(jìn)行研究,提出了以大氣環(huán)境精細(xì)化管理作為業(yè)務(wù)方向,圍繞精細(xì)化、定量化的數(shù)據(jù)需求,以共享考核為目標(biāo),在系統(tǒng)的分類基礎(chǔ)上,建立大氣環(huán)境數(shù)據(jù)共享資源清單。
(2)基于科學(xué)數(shù)據(jù)的版權(quán)保護(hù),探索數(shù)據(jù)共享權(quán)限邊界,建立包括數(shù)據(jù)生產(chǎn)方、使用方、相關(guān)利益方和管理者等在內(nèi)的數(shù)據(jù)共享共識機(jī)制,實現(xiàn)科研數(shù)據(jù)權(quán)限分級管理和使用。
(3)在數(shù)據(jù)共享的標(biāo)準(zhǔn)化建設(shè)中,將標(biāo)準(zhǔn)化框架設(shè)計下沉到數(shù)據(jù)元素,分別對數(shù)據(jù)元素、數(shù)據(jù)表、元數(shù)據(jù)進(jìn)行建模,以滿足重大項目產(chǎn)出的多源異構(gòu)數(shù)據(jù)存儲和實時交換的要求。
(4)依據(jù)數(shù)據(jù)中臺思想,全面建立數(shù)據(jù)治理體系、管理標(biāo)準(zhǔn)體系,依據(jù)PM2.5精細(xì)化管理和空氣質(zhì)量考核,建立大氣綜合數(shù)據(jù)時空關(guān)聯(lián)分析計算能力,提供空氣質(zhì)量達(dá)標(biāo)、多要素聯(lián)動、污染時空分析等實時業(yè)務(wù)服務(wù)能力。