卜意磊 龐文迪
(江蘇省工商行政管理局信息中心 江蘇省南京市 210000)
2018年11月,江蘇省市場(chǎng)監(jiān)督管理局組建后,信息化工作是市場(chǎng)監(jiān)管各項(xiàng)工作的基礎(chǔ)和保障,全系統(tǒng)堅(jiān)持在系統(tǒng)集成、一體建設(shè)、融合發(fā)展上下功夫。同時(shí),信息化工作也是引領(lǐng)市場(chǎng)監(jiān)管方式創(chuàng)新、提高市場(chǎng)監(jiān)管效能的重要抓手。監(jiān)管的有效性和精準(zhǔn)性很大程度取決于對(duì)市場(chǎng)主體信息的全方位掌握,要求以市場(chǎng)主體信息為基礎(chǔ),進(jìn)一步關(guān)聯(lián)、匯聚市場(chǎng)準(zhǔn)入、行政許可、綜合執(zhí)法、質(zhì)量監(jiān)管、食藥安全、特種設(shè)備、信用監(jiān)管、網(wǎng)絡(luò)交易監(jiān)管、標(biāo)準(zhǔn)計(jì)量、知識(shí)產(chǎn)權(quán)各類主體監(jiān)管數(shù)據(jù)。建設(shè)統(tǒng)一的市場(chǎng)監(jiān)管數(shù)據(jù)資源中心,分析利用融合后的數(shù)據(jù)資源支撐監(jiān)管的智能化,是進(jìn)一步釋放數(shù)據(jù)紅利的關(guān)鍵所在。
近年來,移動(dòng)互聯(lián)、大數(shù)據(jù)、云計(jì)算、人工智能、數(shù)據(jù)中臺(tái)等新技術(shù)的應(yīng)用在各行各業(yè)不斷推廣,也給市場(chǎng)監(jiān)管領(lǐng)域帶來了機(jī)遇和挑戰(zhàn),本文重點(diǎn)探討數(shù)據(jù)中臺(tái)技術(shù)在市場(chǎng)監(jiān)管數(shù)據(jù)資源中心的應(yīng)用,借鑒《數(shù)據(jù)中臺(tái):讓數(shù)據(jù)用起來》一書中數(shù)據(jù)中臺(tái)建設(shè)方法論[2],結(jié)合市場(chǎng)監(jiān)管領(lǐng)域數(shù)據(jù)特點(diǎn),搭建涵蓋數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)、數(shù)據(jù)資源體系、數(shù)據(jù)資產(chǎn)管理和治理、應(yīng)用支撐和數(shù)據(jù)服務(wù)以及數(shù)據(jù)運(yùn)營和安全管理體系的市場(chǎng)監(jiān)管統(tǒng)一數(shù)據(jù)資源中心,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理,為各項(xiàng)業(yè)務(wù)開展提供基礎(chǔ)支撐。依托數(shù)據(jù)中臺(tái)技術(shù),構(gòu)建一套可持續(xù)“讓數(shù)據(jù)用起來的”機(jī)制,以數(shù)據(jù)驅(qū)動(dòng)跨地區(qū)、跨部門、跨層級(jí)的數(shù)據(jù)共享和業(yè)務(wù)協(xié)同,探索創(chuàng)新市場(chǎng)監(jiān)管方式,提升大數(shù)據(jù)監(jiān)管、智慧化治理能力。
數(shù)據(jù)中臺(tái)的概念最早由阿里巴巴首次提出,為了應(yīng)對(duì)大規(guī)模數(shù)據(jù)的線性可擴(kuò)展問題、應(yīng)對(duì)復(fù)雜業(yè)務(wù)系統(tǒng)的解耦問題,而在技術(shù)、組織架構(gòu)等方面采取的一些變革。在2018年 3月 15日ThoughtWorks 技術(shù)雷達(dá)峰會(huì)上,數(shù)據(jù)中臺(tái)受到業(yè)界的廣泛關(guān)注。
在傳統(tǒng)的“前臺(tái)+后臺(tái)”的平臺(tái)化架構(gòu)的開發(fā)中,前臺(tái)是由各類最終用戶直接使用或交互的系統(tǒng)組成的,例如用戶直接使用的網(wǎng)站,手機(jī)App,微信小程序等。后臺(tái)是由管理了一類核心資源(數(shù)據(jù)+計(jì)算)的后臺(tái)系統(tǒng)組成,基礎(chǔ)設(shè)施和計(jì)算平臺(tái)也屬于后臺(tái)的一部分。由于后臺(tái)修改的成本和風(fēng)險(xiǎn)較高,后臺(tái)系統(tǒng)盡量選擇保持穩(wěn)定性,但是隨著企業(yè)業(yè)務(wù)的發(fā)展壯大,為了響應(yīng)用戶持續(xù)不斷的需求,大量的業(yè)務(wù)邏輯(業(yè)務(wù)能力)被直接塞到了前臺(tái)系統(tǒng)中。前臺(tái)系統(tǒng)不斷膨脹,業(yè)務(wù)系統(tǒng)煙囪林立,導(dǎo)致響應(yīng)能力下降,業(yè)務(wù)靈活性也隨之下降。對(duì)于這樣的問題,Gatner 在2016年提出的一份《Pace-Layered Application Strategy》報(bào)告中,給出了一種解決方案,將企業(yè)的應(yīng)用系統(tǒng)分為前臺(tái)、中臺(tái)、后臺(tái),各自采用不同策略,中臺(tái)用連接前后臺(tái),使前臺(tái)能夠快速響應(yīng)業(yè)務(wù)的變化。在數(shù)據(jù)開發(fā)中,核心數(shù)據(jù)模型的變化是相對(duì)緩慢的,同時(shí)對(duì)數(shù)據(jù)進(jìn)行維護(hù)的工作量非常大,但業(yè)務(wù)創(chuàng)新的速度、對(duì)數(shù)據(jù)提出的需求的變化,是非??焖俚摹?shù)據(jù)中臺(tái)的出現(xiàn),就是為了彌補(bǔ)數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應(yīng)力跟不上的問題。
數(shù)據(jù)中臺(tái)是中臺(tái)的核心平臺(tái)之一,與傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)平臺(tái)不同,數(shù)據(jù)倉庫是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,主要提供報(bào)表分析和支持管理決策分析服務(wù),數(shù)據(jù)平臺(tái)在大數(shù)據(jù)基礎(chǔ)上融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為業(yè)務(wù)直接提供數(shù)據(jù)集,而數(shù)據(jù)中臺(tái)則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場(chǎng)景,也適用于交易型場(chǎng)景,距離業(yè)務(wù)更近,為業(yè)務(wù)提供速度更快的服務(wù)。數(shù)據(jù)中臺(tái)不僅僅是技術(shù),更是一種從“技術(shù)優(yōu)先”到“數(shù)據(jù)優(yōu)先”的思維轉(zhuǎn)變,其目標(biāo)是讓數(shù)據(jù)持續(xù)用起來,通過數(shù)據(jù)中臺(tái)提供的工具、方法和運(yùn)行機(jī)制,把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,讓數(shù)據(jù)更方便地被業(yè)務(wù)所使用[2]。
機(jī)構(gòu)整合后,傳統(tǒng)IT 建設(shè)方式下,原各局的業(yè)務(wù)系統(tǒng)和數(shù)據(jù)中心大多獨(dú)立建設(shè),無法互聯(lián)互通,造成分散的信息化現(xiàn)狀。業(yè)務(wù)系統(tǒng)煙囪林立,系統(tǒng)間業(yè)務(wù)協(xié)同能力弱,在機(jī)構(gòu)合并監(jiān)管責(zé)任劇增的情形下,無法滿足各級(jí)部門業(yè)務(wù)協(xié)同需求。目前主要存在以下問題:
(1)業(yè)務(wù)系統(tǒng)多且散,系統(tǒng)開發(fā)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)標(biāo)準(zhǔn)和接口標(biāo)準(zhǔn)各異造成數(shù)據(jù)共享交換困難。
(2)數(shù)據(jù)資源眾多,且分散存放,造成歸集困難。
(3)各部門共享交換系統(tǒng)不統(tǒng)一,共享需求多樣,種類眾多,方式各異,數(shù)據(jù)無統(tǒng)一出口/入口,數(shù)據(jù)質(zhì)量參差不齊,無統(tǒng)一管理。
數(shù)據(jù)中臺(tái)的出現(xiàn),為適應(yīng)機(jī)構(gòu)改革期間的管理變革提供了全新的IT 架構(gòu),也為市場(chǎng)監(jiān)管信息化的升級(jí)提供了全新的底層數(shù)據(jù)支撐。為解決數(shù)據(jù)孤島問題,本文引入數(shù)據(jù)中臺(tái)概念,利用數(shù)據(jù)中臺(tái)匯聚整合、數(shù)據(jù)資產(chǎn)化、服務(wù)可視化、價(jià)值變現(xiàn)的能力整合分散在各個(gè)孤島的數(shù)據(jù),快速形成數(shù)據(jù)服務(wù)能力,更好地應(yīng)對(duì)快速變化的市場(chǎng)監(jiān)管前端業(yè)務(wù),為智慧監(jiān)管、精細(xì)化監(jiān)管提供數(shù)據(jù)支撐。
本文提出一種基于數(shù)據(jù)中臺(tái)的市場(chǎng)監(jiān)管數(shù)據(jù)資源中心架構(gòu),包含數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)、數(shù)據(jù)資源體系、數(shù)據(jù)資產(chǎn)管理與治理、應(yīng)用支撐與數(shù)據(jù)服務(wù)、數(shù)據(jù)運(yùn)營與安全管理六部分組成,如圖1所示,數(shù)據(jù)中臺(tái)將傳統(tǒng)數(shù)據(jù)倉庫的范圍擴(kuò)大到組織的全域數(shù)據(jù),聯(lián)通傳統(tǒng)IT 架構(gòu)和各類數(shù)據(jù),融合新老模式,整合孤島數(shù)據(jù),沉淀數(shù)據(jù)資產(chǎn),快速形成不同維度的數(shù)據(jù)服務(wù)能力,為市場(chǎng)監(jiān)管決策、精細(xì)化管理及創(chuàng)新應(yīng)用提供支撐。
圖1:市場(chǎng)監(jiān)管數(shù)據(jù)資源中心總體架構(gòu)圖
數(shù)據(jù)匯聚是數(shù)據(jù)中臺(tái)數(shù)據(jù)接入的入口,對(duì)內(nèi)匯聚來自各個(gè)業(yè)務(wù)系統(tǒng)、已建數(shù)據(jù)倉庫或數(shù)據(jù)中心,對(duì)外匯聚來自總局、地市局、直屬單位、技術(shù)機(jī)構(gòu)、省級(jí)部門、藥監(jiān)局、知識(shí)產(chǎn)權(quán)局和第三方互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù)的資源庫,根據(jù)不同數(shù)據(jù)結(jié)構(gòu)、實(shí)時(shí)性要求,適配多源異構(gòu)數(shù)據(jù)源,例如關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫、實(shí)時(shí)數(shù)據(jù)流、NoSql 數(shù)據(jù)庫、文件系統(tǒng)、大數(shù)據(jù)組件等,以及國產(chǎn)數(shù)據(jù)庫例如達(dá)夢(mèng)數(shù)據(jù)庫、神舟通用等。通過數(shù)據(jù)集成工具提供的一站式無需編碼的全圖形化大數(shù)據(jù)開發(fā)環(huán)境和全托管的大數(shù)據(jù)調(diào)度能力,完成集成過程的設(shè)計(jì)、維護(hù)、運(yùn)行、監(jiān)控。采用數(shù)據(jù)同步、消息隊(duì)列等技術(shù)手段靈活支撐各種實(shí)時(shí)、批量、增量數(shù)據(jù)采集,將分散的異構(gòu)數(shù)據(jù)源進(jìn)行轉(zhuǎn)換集成后加載到指定的數(shù)據(jù)存儲(chǔ)位置。通過分布式數(shù)據(jù)處理和任務(wù)調(diào)度,高效的完成數(shù)據(jù)集成,具有高性能和高可靠性,具備多節(jié)點(diǎn)任務(wù)分發(fā)、并行工作、負(fù)載均衡處理的能力,同時(shí)包含連接管理、腳本開發(fā)、可視化配置、工作流編排,作業(yè)管理、作業(yè)監(jiān)控等功能。
數(shù)據(jù)開發(fā)是一整套數(shù)據(jù)加工以及加工過程管控的工具,面向開發(fā)人員、分析人員,提供離線、實(shí)時(shí)、算法開發(fā)工具,以及任務(wù)的管理、代碼發(fā)布、運(yùn)維、監(jiān)控、告警等一系列集成工具,具備批計(jì)算、流計(jì)算、在線查詢、即系分析計(jì)算能力,用于處理以下應(yīng)用場(chǎng)景:
2.2.1 離線處理場(chǎng)景
如離線數(shù)倉的加工、大規(guī)模數(shù)據(jù)的清洗和挖掘、在線查詢和即席分析等。通常處理的數(shù)據(jù)量大,要求高計(jì)算和存儲(chǔ)資源,可以通過MapReduce、Hive 或Spark 作業(yè)實(shí)現(xiàn)。
2.2.2 實(shí)時(shí)流處理場(chǎng)景
如監(jiān)控告警、實(shí)時(shí)異常分析場(chǎng)景。需要對(duì)大規(guī)模數(shù)據(jù)進(jìn)行低延時(shí)分析,要求高計(jì)算和內(nèi)存資源,通常應(yīng)用計(jì)算框架Flink、Spark Streaming 和Storm 等。
2.2.3 實(shí)時(shí)檢索場(chǎng)景
實(shí)時(shí)檢索主要用于數(shù)據(jù)的在線查詢、條件過濾和篩選等。主要針對(duì)OLTP 類的增、刪、改、查等操作,但是要求支持高并發(fā)、低延遲響應(yīng),如企業(yè)畫像、搜索引擎等場(chǎng)景。根據(jù)場(chǎng)景響應(yīng)延時(shí)要求的不同,可以選擇緩存型數(shù)據(jù)庫Redis 或者HBase、MySQL 等,對(duì)于需要進(jìn)行條件過濾、全文檢索的,可以選擇Solr、Elasticsearch 等。
2.2.4 算法開發(fā)
算法開發(fā)是一套能支撐多環(huán)境、多集群、多形態(tài)模型的核心算法服務(wù)化能力的工具集,集成了以多維分析為主的數(shù)據(jù)探索和統(tǒng)計(jì)能力、以批計(jì)算為核心的離線模型訓(xùn)練能力、以流計(jì)算為核心在線機(jī)器學(xué)習(xí)能力。需要具備可視化建模功能,并支持主流的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)計(jì)算框架(TensorFlow、PyTorch、MXNet、Spark 等)和一系列標(biāo)準(zhǔn)化的算法組件(特征工程、統(tǒng)計(jì)分析、NLP、圖計(jì)算、知識(shí)圖譜等),幫助算法工程師迅速實(shí)現(xiàn)人工智能應(yīng)用的構(gòu)建和落地。算法開發(fā)為離線開發(fā)和實(shí)時(shí)開發(fā)提供算法模型,在數(shù)據(jù)開發(fā)和資產(chǎn)加工的基礎(chǔ)上,提供更深層次的數(shù)據(jù)挖掘和算法標(biāo)簽生產(chǎn),供智能應(yīng)用使用。
表1:市場(chǎng)監(jiān)管業(yè)務(wù)板塊[表題]
數(shù)據(jù)資源體系是在全域原始數(shù)據(jù)的基礎(chǔ)上,進(jìn)行標(biāo)準(zhǔn)定義及分層建模,建設(shè)一套完整、規(guī)范、準(zhǔn)確的數(shù)據(jù)體系來支撐數(shù)據(jù)應(yīng)用[2],使得數(shù)據(jù)可以被更容易、高效、低成本的使用。重點(diǎn)在于構(gòu)建涵蓋貼源數(shù)據(jù)、統(tǒng)一數(shù)倉、標(biāo)簽數(shù)據(jù)、應(yīng)用數(shù)據(jù)四層的統(tǒng)一資源分層體系(如圖2所示),首先在原有的數(shù)據(jù)倉庫內(nèi)容基礎(chǔ)上,擴(kuò)展業(yè)務(wù)內(nèi)容,對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行采集匯聚,建設(shè)包含市場(chǎng)監(jiān)管全域數(shù)據(jù)的歸集庫;然后定義統(tǒng)一的指標(biāo)、維度,利用數(shù)據(jù)集成工具形成標(biāo)準(zhǔn)統(tǒng)一的基礎(chǔ)庫;再豐富并完善對(duì)象建模,形成對(duì)象的全域標(biāo)簽體系,建設(shè)主題庫保證數(shù)據(jù)融合的可實(shí)施性,方便數(shù)據(jù)的深度分析、挖掘、應(yīng)用;最后在基礎(chǔ)庫和標(biāo)簽庫的基礎(chǔ)上抽取數(shù)據(jù),面向業(yè)務(wù)的特殊需求,進(jìn)一步進(jìn)行較為復(fù)雜的指標(biāo)計(jì)算、數(shù)據(jù)融合、數(shù)據(jù)重構(gòu)等加工工作,形成向特定應(yīng)用組裝的應(yīng)用數(shù)據(jù)專題庫,滿足業(yè)務(wù)及性能的需求。
2.3.1 貼源數(shù)據(jù)層
貼源層主要對(duì)組織內(nèi)部和外部的系統(tǒng)數(shù)據(jù)進(jìn)行采集、匯聚形成歸集庫。與傳統(tǒng)ETL(Extract-Transform-Load)過程不同,采用ELT(Extract-Load-Transform)方式,先將所有原始數(shù)據(jù)進(jìn)行抽?。‥xtract)和裝載(Load),再利用大數(shù)據(jù)支撐平臺(tái)的計(jì)算能力進(jìn)行轉(zhuǎn)換(Transform)操作。根據(jù)不同數(shù)據(jù)結(jié)構(gòu)、實(shí)時(shí)性要求,通過數(shù)據(jù)同步工具采集后,非實(shí)時(shí)數(shù)據(jù)加載到HDFS、NOsql 數(shù)據(jù)庫,實(shí)時(shí)數(shù)據(jù)推送到消息隊(duì)列,最后存儲(chǔ)到貼源層的歸集庫中,數(shù)據(jù)傳輸過程除了對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理以及對(duì)相同數(shù)據(jù)進(jìn)行整合或者增加時(shí)間標(biāo)識(shí)外,不涉及數(shù)據(jù)治理相關(guān)的清洗及轉(zhuǎn)換工作,可為后期數(shù)據(jù)比對(duì)校驗(yàn)提供數(shù)據(jù)溯源支持。數(shù)據(jù)同步工具需要具備同步條件配置、任務(wù)調(diào)度、限速、容錯(cuò)、質(zhì)量監(jiān)控、告警等功能。
2.3.2 統(tǒng)一數(shù)倉層
統(tǒng)一數(shù)倉層對(duì)貼源層的數(shù)據(jù)進(jìn)行去臟、去重、落標(biāo)等工作,通過數(shù)據(jù)集成工具調(diào)用數(shù)據(jù)治理系統(tǒng)的各類質(zhì)量規(guī)則、腳本以及業(yè)務(wù)代碼標(biāo)準(zhǔn)庫等來清洗轉(zhuǎn)換數(shù)據(jù),形成標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)倉庫作為整個(gè)數(shù)據(jù)中臺(tái)的基礎(chǔ)庫為后續(xù)數(shù)據(jù)分析利用打下基礎(chǔ)。這一階段的工作是整個(gè)數(shù)據(jù)資源中心的核心工作,需要重新整合定義原始業(yè)務(wù)流程數(shù)據(jù),從業(yè)務(wù)完整性描述的角度還原全域、全歷史的業(yè)務(wù)運(yùn)轉(zhuǎn)狀態(tài)。本文采用維度建模方法,通過劃分業(yè)務(wù)板塊、定義數(shù)據(jù)域、業(yè)務(wù)過程、維度及指標(biāo),建立維度表和事實(shí)表來組織數(shù)據(jù)。如表1所示,本文根據(jù)市場(chǎng)監(jiān)管總局《市場(chǎng)監(jiān)管信息化建設(shè)總體技術(shù)方案》指導(dǎo)意見將市場(chǎng)監(jiān)管業(yè)務(wù)板塊分為市場(chǎng)準(zhǔn)入域、市場(chǎng)監(jiān)管域、質(zhì)量基礎(chǔ)域、行政執(zhí)法域和協(xié)同輔助域五部分,并梳理業(yè)務(wù)流程和邊界,將業(yè)務(wù)過程進(jìn)行提取、拆分和分類,根據(jù)數(shù)據(jù)流與業(yè)務(wù)過程的關(guān)系,進(jìn)一步劃分?jǐn)?shù)據(jù)域。市場(chǎng)準(zhǔn)入域涉及市場(chǎng)主體、客體、行為的準(zhǔn)入監(jiān)管,包括主體登記和行政許可審批數(shù)據(jù)。市場(chǎng)監(jiān)管域涉及市場(chǎng)監(jiān)管業(yè)務(wù)的全覆蓋,包括產(chǎn)品質(zhì)量安全、食品安全、信用信息、特種設(shè)備、網(wǎng)絡(luò)交易、廣告等各類監(jiān)管主題。質(zhì)量基礎(chǔ)域匯聚了計(jì)量、標(biāo)準(zhǔn)、認(rèn)證認(rèn)可、檢驗(yàn)檢測(cè)機(jī)構(gòu)相關(guān)數(shù)據(jù),為質(zhì)量基礎(chǔ)建設(shè)提供數(shù)據(jù)支撐。行政執(zhí)法域包括執(zhí)法辦案、投訴舉報(bào)、反壟斷相關(guān)行政執(zhí)法體系數(shù)據(jù)。協(xié)調(diào)輔助域包括綜合辦公、知識(shí)庫等綜合類數(shù)據(jù)。
定義數(shù)據(jù)的指標(biāo)使得數(shù)據(jù)倉庫對(duì)同一字段的命名、計(jì)算方法、業(yè)務(wù)理解全局唯一。分為原子指標(biāo)和派生指標(biāo),原子指標(biāo)是具體業(yè)務(wù)行為的度量,有確定的字段名稱、數(shù)據(jù)類型、計(jì)算規(guī)則和所屬數(shù)據(jù)域,派生指標(biāo)在原子指標(biāo)的基礎(chǔ)上加入時(shí)間、數(shù)量、區(qū)域等修飾詞合并而成[2]。維度表是維度建模的核心,包含了很多描述性屬性字段,通過梳理層次和關(guān)聯(lián)關(guān)系,形成統(tǒng)一的共用的維度屬性,例如企業(yè)主維表有企業(yè)類型、行業(yè)分類等屬性,一般從業(yè)務(wù)系統(tǒng)同步。事實(shí)表是統(tǒng)一數(shù)倉層的主要構(gòu)成部分,主要描述業(yè)務(wù)過程的事實(shí),通過外鍵關(guān)聯(lián)各種維度表,事實(shí)表可以記錄每個(gè)事務(wù)事件,也可以根據(jù)需要聚合多個(gè)事務(wù)事件或者累積記錄事務(wù)關(guān)鍵時(shí)間點(diǎn)形成快照。穩(wěn)定的數(shù)據(jù)模型可以提高數(shù)據(jù)的復(fù)用性,有助于后續(xù)開展數(shù)據(jù)應(yīng)用和分析。
圖2:數(shù)據(jù)資源體系架構(gòu)圖
2.3.3 標(biāo)簽數(shù)據(jù)層
標(biāo)簽數(shù)據(jù)層面向?qū)ο蠼?,整合跨業(yè)務(wù)板塊、跨數(shù)據(jù)域的特定對(duì)象數(shù)據(jù),建立對(duì)象的全域標(biāo)簽體系,形成對(duì)業(yè)務(wù)可閱讀、易理解、有價(jià)值的描述信息,方便對(duì)象的深度分析、挖掘應(yīng)用。同一個(gè)對(duì)象的信息往往分散在統(tǒng)一數(shù)倉層不同的數(shù)據(jù)域,例如市場(chǎng)主體對(duì)象,基本信息在主體登記域,相關(guān)的良好信息、警示信息、年報(bào)信息、投訴信息、案件信息分別在信用監(jiān)管域、行政執(zhí)法案件域、投訴舉報(bào)域等,需要通過關(guān)聯(lián)計(jì)算才能滿足業(yè)務(wù)需求,而標(biāo)簽數(shù)據(jù)層的建立可以有效降低數(shù)據(jù)使用成本,更利于獲取、分析對(duì)象的全域數(shù)據(jù)。按照各類主題對(duì)象的標(biāo)簽體系設(shè)計(jì),從歸集庫和基礎(chǔ)庫抽取、裝載、融合主題對(duì)象的相關(guān)數(shù)據(jù),形成主題信息資源庫,滿足各種業(yè)務(wù)的共同需求。本文按照主體、客體、關(guān)系將標(biāo)簽類目分層級(jí)分類別管理,主體類標(biāo)簽有市場(chǎng)主體、執(zhí)法人員等;客體類標(biāo)簽有許可、特種設(shè)備、產(chǎn)品、技術(shù)機(jī)構(gòu)、監(jiān)管對(duì)象等;關(guān)系標(biāo)簽可分為審批、檢查行為、檢驗(yàn)檢測(cè)行為、廣告審批、消費(fèi)維權(quán)、投訴舉報(bào)、監(jiān)督執(zhí)法等行為關(guān)系,標(biāo)簽類目根據(jù)業(yè)務(wù)流程抽象或根據(jù)分析需求抽象。每個(gè)類目下的具體標(biāo)簽(屬性標(biāo)簽、統(tǒng)計(jì)標(biāo)簽、算法標(biāo)簽等)經(jīng)過數(shù)據(jù)中臺(tái)的數(shù)據(jù)開發(fā)能力加工后形成標(biāo)簽融合表。標(biāo)簽融合表面向組織數(shù)據(jù)資源,存儲(chǔ)最終結(jié)果數(shù)據(jù),由于大數(shù)據(jù)時(shí)代下標(biāo)簽類目及標(biāo)簽種類眾多,考慮到性能因素,一般采用橫表或縱表,并且由多張表組合而成。
2.3.4 應(yīng)用數(shù)據(jù)層
應(yīng)用數(shù)據(jù)層是按照業(yè)務(wù)使用的需要,經(jīng)過復(fù)雜的指標(biāo)計(jì)算、交叉分析、數(shù)據(jù)重構(gòu)等工作,圍繞多個(gè)類似業(yè)務(wù)場(chǎng)景建立專題分析庫,滿足查詢、搜索、即席分析、批量計(jì)算等不同吞吐量和響應(yīng)時(shí)間的業(yè)務(wù)場(chǎng)景要求,包括企業(yè)精準(zhǔn)畫像、企業(yè)信用分析、特種設(shè)備安全監(jiān)管分析、食品安全監(jiān)管、消費(fèi)維權(quán)、風(fēng)險(xiǎn)預(yù)警等專題。
數(shù)據(jù)資產(chǎn)管理與治理在傳統(tǒng)數(shù)據(jù)治理體系的基礎(chǔ)上增加數(shù)據(jù)價(jià)值管理,把數(shù)據(jù)當(dāng)資產(chǎn)評(píng)估資產(chǎn)價(jià)值。數(shù)據(jù)治理包括對(duì)數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)、數(shù)據(jù)血緣、數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)生命周期等進(jìn)行管理和展示,數(shù)據(jù)價(jià)值管理以直觀的方式展現(xiàn)數(shù)據(jù)資產(chǎn),提升數(shù)據(jù)意識(shí)。首先通過建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)管理功能模塊可以實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的集中管理,規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)的建立過程,為系統(tǒng)建設(shè)人員和應(yīng)用人員提供了便捷的數(shù)據(jù)標(biāo)準(zhǔn)獲取途徑,并通過數(shù)據(jù)標(biāo)準(zhǔn)管理模塊對(duì)數(shù)據(jù)資源中心的建設(shè)規(guī)范性進(jìn)行檢查,促進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的實(shí)施落地。然后以表作為數(shù)據(jù)資產(chǎn)的核心單元,建立業(yè)務(wù)使用資產(chǎn)(指標(biāo)、標(biāo)簽、維度、屬性)的血緣橋梁,以圖形化數(shù)據(jù)資產(chǎn)地圖的方式形象的展示數(shù)據(jù)資源中心的數(shù)據(jù)分布情況、查看各數(shù)據(jù)庫之間數(shù)據(jù)流向關(guān)系。通過數(shù)據(jù)治理來提高數(shù)據(jù)質(zhì)量,需要元數(shù)據(jù)、數(shù)據(jù)模型、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、基礎(chǔ)數(shù)據(jù)等子系統(tǒng)協(xié)同完成治理過程,檢測(cè)、統(tǒng)計(jì)各類數(shù)據(jù)治理、數(shù)據(jù)集成任務(wù)執(zhí)行情況,查看數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,通過影響分析,根據(jù)庫、實(shí)體的變更關(guān)系可追溯并可快速處理。數(shù)據(jù)資產(chǎn)目錄建立了動(dòng)態(tài)更新的共享信息資源目錄,方便與總局、省級(jí)部門及直屬單位、地市局及省級(jí)政府部門資源目錄平臺(tái)的對(duì)接,滿足資源目錄柔性與開放性的要求。信息資源目錄包括歸集、基礎(chǔ)、主題和專題信息資源目錄等。數(shù)據(jù)價(jià)值管理對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行審核、發(fā)布、標(biāo)簽定義、數(shù)據(jù)開放管理,通過數(shù)據(jù)資產(chǎn)地圖或目錄的形式提供數(shù)據(jù)資產(chǎn)的查詢功能,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的“可視化”,對(duì)數(shù)據(jù)資產(chǎn)的價(jià)值進(jìn)行評(píng)估,數(shù)據(jù)資產(chǎn)管理的成熟度是評(píng)估數(shù)據(jù)中臺(tái)能力的重要指標(biāo)。
應(yīng)用支撐與數(shù)據(jù)服務(wù)模塊為核心應(yīng)用開發(fā)與服務(wù)提供支撐,采用組件化、服務(wù)化設(shè)計(jì)理念,提供了快速的服務(wù)生成能力以及服務(wù)的管控、鑒權(quán)、計(jì)量等功能。采用容器、微服務(wù)等技術(shù)架構(gòu),將市場(chǎng)監(jiān)管業(yè)務(wù)應(yīng)用需要的復(fù)雜功能進(jìn)行分解,通過提供應(yīng)用系統(tǒng)開發(fā)所需的基礎(chǔ)組件微服務(wù)、數(shù)據(jù)訪問微服務(wù),以及服務(wù)組合來實(shí)現(xiàn)復(fù)雜的業(yè)務(wù)需求,提升服務(wù)模塊的復(fù)用度、降低開發(fā)成本,實(shí)現(xiàn)“做厚平臺(tái)、做強(qiáng)應(yīng)用”,提升大數(shù)據(jù)整合與利用效率。
數(shù)據(jù)運(yùn)營策讓數(shù)據(jù)被持續(xù)高質(zhì)量地生產(chǎn)出來,數(shù)據(jù)的消費(fèi)者可以便捷地獲取數(shù)據(jù),并在安全、可監(jiān)督的環(huán)境中使用,讓數(shù)據(jù)資產(chǎn)發(fā)揮更大的價(jià)值。數(shù)據(jù)中臺(tái)的運(yùn)營需要在戰(zhàn)略層級(jí)進(jìn)行部署,作為整個(gè)組織的共同目標(biāo),并搭建配套組織,配備數(shù)據(jù)管理部門和人員,組建包含業(yè)務(wù)專家、數(shù)據(jù)建模專家、數(shù)據(jù)分析等人員的技術(shù)團(tuán)隊(duì),制定包含數(shù)據(jù)資產(chǎn)查看、申請(qǐng)、使用、治理、評(píng)估完整閉環(huán)的運(yùn)營流程。數(shù)據(jù)安全和質(zhì)量是中臺(tái)可持續(xù)運(yùn)行的基礎(chǔ),需要在成本可控的范圍內(nèi),提高數(shù)據(jù)的完整性、規(guī)范性、準(zhǔn)確性、一致性、時(shí)效性等數(shù)據(jù)質(zhì)量。通過實(shí)施安全策略保障數(shù)據(jù)資產(chǎn)安全,包括建立數(shù)據(jù)安全管理機(jī)制和定義安全分級(jí)分類標(biāo)準(zhǔn)、制定數(shù)據(jù)安全控制及措施、完善數(shù)據(jù)訪問權(quán)限和回收策略、采用數(shù)據(jù)隱私保護(hù)工具、實(shí)施脫敏機(jī)制和策略等。
綜上,數(shù)據(jù)中臺(tái)匯聚來自部門內(nèi)外的數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)積累的能力和可復(fù)用的數(shù)據(jù)加工工具,使得開發(fā)人員、算法建模人員、分析人員可以快速把數(shù)據(jù)加工成業(yè)務(wù)所需的形式。通過建立統(tǒng)一的標(biāo)準(zhǔn)化的數(shù)據(jù)資源體系增加數(shù)據(jù)的一致性和可復(fù)用性。通過數(shù)據(jù)資產(chǎn)管理與治理、統(tǒng)一應(yīng)用支撐及數(shù)據(jù)服務(wù)把數(shù)據(jù)資產(chǎn)變?yōu)閿?shù)據(jù)服務(wù)能力,形成統(tǒng)一身份認(rèn)證等公共服務(wù)組件,服務(wù)于部門內(nèi)外的數(shù)據(jù)共享交換應(yīng)用以及指揮大屏、企業(yè)畫像專題分析、智慧市場(chǎng)監(jiān)管等各類決策支持和監(jiān)管方式創(chuàng)新應(yīng)用。同時(shí)運(yùn)營和安全管理體系使得數(shù)據(jù)中臺(tái)可以長期健康、持續(xù)運(yùn)轉(zhuǎn)。
數(shù)據(jù)中臺(tái)作為業(yè)務(wù)數(shù)字化轉(zhuǎn)型的新興產(chǎn)物,如何保障數(shù)據(jù)中臺(tái)建設(shè)在組織內(nèi)部順利實(shí)施尚需進(jìn)一步的討論與分析。
(1)加強(qiáng)組織保障。數(shù)據(jù)中臺(tái)是一項(xiàng)全新的、全局性的信息化工程,如果只是信息化部門把數(shù)據(jù)中臺(tái)中的某些功能和特性作為新技術(shù)來局部驗(yàn)證和引入,往往達(dá)不到數(shù)字化變革所期望的效果,并且會(huì)面臨成本劇增而效果不明的風(fēng)險(xiǎn)。數(shù)據(jù)中臺(tái)是一種戰(zhàn)略選擇和組織形式,是“一把手工程”,需要從更高的層面推動(dòng)建設(shè),只有從戰(zhàn)略高度進(jìn)行頂層設(shè)計(jì)、確定規(guī)?;度胝摺⒃O(shè)置更合理的組織結(jié)構(gòu)來運(yùn)維,才能確保數(shù)據(jù)中臺(tái)作為數(shù)據(jù)應(yīng)用的基礎(chǔ)設(shè)施并落地建設(shè),承擔(dān)起市場(chǎng)監(jiān)管數(shù)據(jù)資產(chǎn)全生命周期的管理。
(2)業(yè)務(wù)部門和信息化部門通力協(xié)作。數(shù)據(jù)中臺(tái)必須能夠接入、轉(zhuǎn)換、寫入或緩存內(nèi)外部多種來源數(shù)據(jù),協(xié)助不同部門和團(tuán)隊(duì)的數(shù)據(jù)使用者更好地定位數(shù)據(jù)、理解數(shù)據(jù)。然而信息技術(shù)人員不夠懂業(yè)務(wù),而業(yè)務(wù)人員不夠懂?dāng)?shù)據(jù),導(dǎo)致數(shù)據(jù)應(yīng)用到業(yè)務(wù)變得很困難。因此數(shù)據(jù)中臺(tái)需要考慮將信息技術(shù)人員與業(yè)務(wù)人員之間的障礙打破,信息技術(shù)人員將數(shù)據(jù)變成業(yè)務(wù)人員可閱讀、易理解的內(nèi)容,業(yè)務(wù)人員看到內(nèi)容后能夠很快結(jié)合到業(yè)務(wù)中去,這樣才能更好地支撐創(chuàng)新,所以需要業(yè)務(wù)部門的參與,兩方通力協(xié)作。
本文重點(diǎn)研究數(shù)據(jù)中臺(tái)在市場(chǎng)監(jiān)管數(shù)據(jù)資源中心的應(yīng)用,介紹了數(shù)據(jù)中臺(tái)的技術(shù)背景和應(yīng)用場(chǎng)景,分析了基于數(shù)據(jù)中臺(tái)的市場(chǎng)監(jiān)管數(shù)據(jù)資源中心的架構(gòu)設(shè)計(jì),包括數(shù)據(jù)匯聚、數(shù)據(jù)開發(fā)、數(shù)據(jù)資源體系、數(shù)據(jù)資產(chǎn)管理與治理、應(yīng)用支撐和數(shù)據(jù)服務(wù)以及數(shù)據(jù)運(yùn)營和安全管理體系的建設(shè)內(nèi)容和關(guān)鍵技術(shù),并對(duì)數(shù)據(jù)中臺(tái)在組織內(nèi)部實(shí)施存在的問題進(jìn)行討論。本文認(rèn)為,決定數(shù)據(jù)中臺(tái)能否充分發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵因素,在于是否具備完整可行的數(shù)據(jù)運(yùn)營機(jī)制、穩(wěn)定的數(shù)據(jù)建模能力和靈活的數(shù)據(jù)服務(wù)能力。本文提到的數(shù)據(jù)資源中心架構(gòu)和關(guān)鍵技術(shù)只是解決方案之一,只是工具和平臺(tái),更重要是建立讓數(shù)據(jù)用起來的機(jī)制,并對(duì)數(shù)據(jù)中臺(tái)進(jìn)行持續(xù)改進(jìn),可以采用縱向建設(shè)模式,從一個(gè)具體的應(yīng)用場(chǎng)景入手,建立完整的數(shù)據(jù)從匯聚、開發(fā)、建模、提供應(yīng)用服務(wù),到數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)運(yùn)營的架構(gòu)體系,實(shí)現(xiàn)幾個(gè)典型的數(shù)據(jù)應(yīng)用,再根據(jù)業(yè)務(wù)需求逐步擴(kuò)充完善數(shù)據(jù)中臺(tái),真正讓數(shù)據(jù)中臺(tái)用起來。