劉冰
摘 要 為充分把握國(guó)家實(shí)施大數(shù)據(jù)戰(zhàn)略,加強(qiáng)頂層設(shè)計(jì)和統(tǒng)籌管理,全面建立以省級(jí)政務(wù)云為基礎(chǔ)、以大數(shù)據(jù)資源管理為核心、以大數(shù)據(jù)示范應(yīng)用為主導(dǎo)、以大數(shù)據(jù)安全體系為保障的大數(shù)據(jù)總體框架,初步構(gòu)建數(shù)據(jù)匯集存儲(chǔ)、開放共享、示范應(yīng)用的大數(shù)據(jù)生態(tài)體系。通過(guò)建設(shè)資源中心,加快推進(jìn)省級(jí)“數(shù)字政府”建設(shè),釋放大數(shù)據(jù)紅利,提升政府治理能力,助推全省數(shù)字經(jīng)濟(jì)發(fā)展與轉(zhuǎn)型升級(jí)。
關(guān)鍵詞 大數(shù)據(jù)資源;建設(shè)研究;大數(shù)據(jù)紅利
1建設(shè)目標(biāo)
充分利用云計(jì)算、大數(shù)據(jù)、人工智能等技術(shù),打造“12345”數(shù)據(jù)資源中心框架體系。“1”平臺(tái):建設(shè)統(tǒng)一的數(shù)據(jù)資源中心軟件平臺(tái)?!?”類數(shù)據(jù)資源:匯聚形成兩類數(shù)據(jù)資源,一是數(shù)據(jù)湖,從外部數(shù)據(jù)源落地到數(shù)據(jù)資源中心的統(tǒng)一數(shù)據(jù)存儲(chǔ)空間;二是數(shù)據(jù)庫(kù),用于存放經(jīng)過(guò)一系列清洗、轉(zhuǎn)換、加載、治理步驟后的高質(zhì)量的政務(wù)數(shù)據(jù)資源,其數(shù)據(jù)來(lái)源主要來(lái)自于數(shù)據(jù)湖。“3”級(jí)互聯(lián)互通:形成覆蓋上聯(lián)國(guó)家、下接市(州)、橫向連接省級(jí)部門的三級(jí)互聯(lián)互通模式。“4”大能力:數(shù)據(jù)承載能力、數(shù)據(jù)管理能力、數(shù)據(jù)服務(wù)能力、數(shù)據(jù)應(yīng)用能力,構(gòu)建全省數(shù)據(jù)資源的核心樞紐,推進(jìn)實(shí)現(xiàn)跨層級(jí)、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)?!?”項(xiàng)管理:實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全管理[1]。
2總體設(shè)計(jì)
2.1 總體框架
資源中心體系架構(gòu)為“4+3”框架形式,即基礎(chǔ)設(shè)施層、數(shù)據(jù)支撐層、數(shù)據(jù)資源層(數(shù)據(jù)匯聚中心)、數(shù)據(jù)管理層(數(shù)據(jù)管理中心)四個(gè)橫向?qū)哟螢橹黧w,標(biāo)準(zhǔn)規(guī)范、安全保障和運(yùn)維保障三個(gè)縱向體系為支撐。①基礎(chǔ)設(shè)施層。依托四川省政務(wù)云平臺(tái)軟硬件、網(wǎng)絡(luò)資源等基礎(chǔ)設(shè)施,為資源中心提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全等基礎(chǔ)保障。②數(shù)據(jù)支撐層。數(shù)據(jù)支撐層包括大數(shù)據(jù)基礎(chǔ)支撐平臺(tái)(并行計(jì)算、分布式存儲(chǔ)等)、數(shù)據(jù)集成平臺(tái)(ETL、爬蟲等工具)、數(shù)據(jù)共享開放平臺(tái)、數(shù)據(jù)治理平臺(tái)等。③數(shù)據(jù)資源層(數(shù)據(jù)匯聚中心)。數(shù)據(jù)資源的建設(shè)范圍將覆蓋政務(wù)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等。數(shù)據(jù)資源層重點(diǎn)規(guī)劃建設(shè)數(shù)據(jù)湖和數(shù)據(jù)庫(kù),數(shù)據(jù)湖是以大數(shù)據(jù)存儲(chǔ)和計(jì)算能力為支撐、融合匯聚多領(lǐng)域數(shù)據(jù),形成數(shù)據(jù)資源原始庫(kù)。數(shù)據(jù)庫(kù)是在數(shù)據(jù)治理的基礎(chǔ)上形成標(biāo)準(zhǔn)數(shù)據(jù)資源,構(gòu)建人口庫(kù)、法人庫(kù)、自然資源和空間地理庫(kù)、電子證照庫(kù)、社會(huì)信用庫(kù)等五大基礎(chǔ)庫(kù),宏觀經(jīng)濟(jì)、政務(wù)服務(wù)、醫(yī)療健康、生態(tài)環(huán)境等重點(diǎn)領(lǐng)域主題庫(kù)以及對(duì)接共享部門建設(shè)的專題庫(kù)。④數(shù)據(jù)管理層(數(shù)據(jù)管理中心)。數(shù)據(jù)管理層以數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)安全管理等為一體全方位的數(shù)據(jù)管控和調(diào)度體系。
2.2 技術(shù)架構(gòu)
技術(shù)架構(gòu)主要從數(shù)據(jù)資源的全生命周期管理搭建平臺(tái)的技術(shù)架構(gòu)體系,涉及數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)存儲(chǔ)等不同技術(shù)層面?;诖髷?shù)據(jù)支撐平臺(tái)數(shù)據(jù)處理環(huán)境,無(wú)縫集成了Hadoop生態(tài)中大量工具,提供PB級(jí)海量數(shù)據(jù)存儲(chǔ)、查詢、分析和挖掘能力。具有如下關(guān)鍵特性:①靈活性:可以存儲(chǔ)任意類型的數(shù)據(jù)并可以使用多種不同的處理框架對(duì)數(shù)據(jù)進(jìn)行處理,如批處理、交互式SQL、文本查詢、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析計(jì)算;②集成化:快速建立并快速運(yùn)行于一個(gè)完整的包裝好的基于Apache Hadoop的系統(tǒng);③安全性:方便處理和控制敏感的數(shù)據(jù),提供多租戶的運(yùn)行保護(hù)機(jī)制;④可擴(kuò)展:為廣泛的應(yīng)用提供運(yùn)行設(shè)施,并隨著業(yè)務(wù)成長(zhǎng)支持靈活彈性擴(kuò)展;⑤高可用:可以應(yīng)對(duì)多任務(wù)高負(fù)載的應(yīng)用場(chǎng)景,保證集群的穩(wěn)定;⑥兼容性:擴(kuò)充和利用現(xiàn)有的基礎(chǔ)架構(gòu),保護(hù)投資;⑦開放性:受益于高速的創(chuàng)新,并且無(wú)須受制于專有供應(yīng)商的鎖定。
3建設(shè)內(nèi)容
依據(jù)“4+3”總體框架形式,資源中心建設(shè)主要包括數(shù)據(jù)管理層、數(shù)據(jù)資源層、數(shù)據(jù)支撐層、基礎(chǔ)設(shè)施層四個(gè)橫向內(nèi)容,以及三個(gè)縱向(標(biāo)準(zhǔn)規(guī)范、安全保障和運(yùn)維保障)支撐體系。
3.1 數(shù)據(jù)管理層
數(shù)據(jù)管理層是定位數(shù)據(jù)資源的管理調(diào)度中心,其構(gòu)建在
數(shù)據(jù)資源層之上,主要用來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的全生命周期管控。數(shù)據(jù)資源的管理包括數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)安全管理等。
3.2 數(shù)據(jù)資源層
融合匯聚政務(wù)數(shù)據(jù)資源、社會(huì)數(shù)據(jù)資源和互聯(lián)網(wǎng)數(shù)據(jù)資源,構(gòu)建互聯(lián)互通、共享協(xié)作的全省大數(shù)據(jù)資源中心。數(shù)據(jù)資源層主要規(guī)劃建設(shè)數(shù)據(jù)湖和數(shù)據(jù)庫(kù)。數(shù)據(jù)湖是一個(gè)存儲(chǔ)政務(wù)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等多源異構(gòu)原始數(shù)據(jù)的大型倉(cāng)庫(kù);數(shù)據(jù)庫(kù)重點(diǎn)建設(shè)五大基礎(chǔ)庫(kù)、主題庫(kù)、專題庫(kù)。
3.3 數(shù)據(jù)支撐層
(1)大數(shù)據(jù)基礎(chǔ)支撐平臺(tái)。大數(shù)據(jù)基礎(chǔ)支撐系統(tǒng)定位于大數(shù)據(jù)技術(shù)組件集成環(huán)境,采用現(xiàn)有主流的大數(shù)據(jù)架構(gòu),無(wú)縫集成Hadoop生態(tài)中大量工具,提供PB級(jí)海量數(shù)據(jù)存儲(chǔ)、查詢、分析和挖掘能力,用以支撐未來(lái)各類政府領(lǐng)域、社會(huì)行業(yè)、互聯(lián)網(wǎng)的結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)存儲(chǔ)和計(jì)算需求。大數(shù)據(jù)基礎(chǔ)支撐系統(tǒng)包含業(yè)界流行的基于開源Hadoop及其生態(tài)組件構(gòu)建的核心,還需要具備很多支撐政府級(jí)業(yè)務(wù)的高級(jí)管理特性。
(2)數(shù)據(jù)集成平臺(tái)。數(shù)據(jù)集成平臺(tái)是實(shí)現(xiàn)數(shù)據(jù)采集匯聚能力的統(tǒng)一集成平臺(tái),平臺(tái)提供前置機(jī)、部門業(yè)務(wù)備份庫(kù)、庫(kù)表數(shù)據(jù)傳輸、數(shù)據(jù)文件上報(bào)或?qū)?、接口服?wù)集成等多種方式的數(shù)據(jù)采集。其中前置機(jī)、部門業(yè)務(wù)備份庫(kù)、庫(kù)表數(shù)據(jù)傳輸三類情景采用ETL方式來(lái)實(shí)現(xiàn)。數(shù)據(jù)文件上報(bào)或?qū)氩捎梦募蟼鞴δ軐?shí)現(xiàn)。接口服務(wù)集成要集成到服務(wù)管理平臺(tái)中。
(3)數(shù)據(jù)共享開放平臺(tái)。數(shù)據(jù)共享開放平臺(tái)是政務(wù)數(shù)據(jù)資源的交換和匯聚通道以及對(duì)外開放的載體,數(shù)據(jù)共享能夠縱向?qū)崿F(xiàn)國(guó)省市跨層級(jí)、跨地域的數(shù)據(jù)共享交換能力,橫向解決業(yè)務(wù)系統(tǒng)之間和跨部門的數(shù)據(jù)資源共享交換;數(shù)據(jù)開放將對(duì)外提供各類數(shù)據(jù)的下載及使用。
(4)數(shù)據(jù)治理平臺(tái)。數(shù)據(jù)治理平臺(tái)是通過(guò)建立數(shù)據(jù)質(zhì)量評(píng)估模型,定義數(shù)據(jù)檢測(cè)評(píng)估規(guī)則,對(duì)匯聚的數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),形成數(shù)據(jù)質(zhì)量報(bào)告,進(jìn)而對(duì)具備質(zhì)量改進(jìn)權(quán)限的數(shù)據(jù)進(jìn)行清洗加工、融合比對(duì)、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)加密、數(shù)據(jù)脫敏、數(shù)據(jù)溯源等處理。主要包括數(shù)據(jù)質(zhì)量檢驗(yàn)檢測(cè)、數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加密脫敏、數(shù)據(jù)溯源等功能模塊。
3.4 基礎(chǔ)設(shè)施層
基于四川省政務(wù)云平臺(tái)軟硬件、網(wǎng)絡(luò)資源等基礎(chǔ)設(shè)施,在政務(wù)云上建立資源中心運(yùn)行所需的專享物理資源池,通過(guò)在專享資源上創(chuàng)建云主機(jī)的方式控制和管理專享資源,專屬物理資源基礎(chǔ)設(shè)施,為數(shù)據(jù)資源中心提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全等基礎(chǔ)保障。
3.5 三個(gè)支撐體系
資源中心建設(shè)以標(biāo)準(zhǔn)規(guī)范、安全保障和運(yùn)維保障三個(gè)縱向體系為支撐。
參考文獻(xiàn)
[1] 賀劍武.基于大數(shù)據(jù)分析技術(shù)的旅游智慧平臺(tái)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020,43(14):183-186.