陳龍生
摘 要 本文主要討論智慧城市中數(shù)據(jù)支撐平臺的實(shí)現(xiàn)技術(shù),包括數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)處理系統(tǒng)兩部分。數(shù)據(jù)集成系統(tǒng)采集各類數(shù)據(jù),采用最合適的處理機(jī)制,快速構(gòu)建各類基礎(chǔ)主題庫和主題庫,數(shù)據(jù)處理系統(tǒng)對數(shù)據(jù)進(jìn)行加工處理,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的統(tǒng)一管理。文章最后討論數(shù)據(jù)質(zhì)量管理的常用規(guī)則,并且給出部分規(guī)則算法的實(shí)例。
關(guān)鍵詞 智慧城市;數(shù)據(jù)集成;數(shù)據(jù)處理;數(shù)據(jù)質(zhì)量
背景
智慧城市是運(yùn)用信息通信技術(shù),有效整合各類城市管理系統(tǒng),實(shí)現(xiàn)城市各系統(tǒng)間信息資源共享和業(yè)務(wù)協(xié)同,推動城市管理和服務(wù)智慧化,提升城市運(yùn)行管理和公共服務(wù)水平,提高城市居民幸福感和滿意度,實(shí)現(xiàn)可持續(xù)發(fā)展的一種創(chuàng)新型城市[1]。要實(shí)現(xiàn)信息共享和業(yè)務(wù)協(xié)同,需要打通各系統(tǒng)數(shù)據(jù),并且將分散的異構(gòu)數(shù)據(jù)源進(jìn)行抽取、清洗、轉(zhuǎn)換、集成、處理,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理,這就對數(shù)據(jù)支撐平臺有了很高的要求。數(shù)據(jù)支撐平臺作為智慧城市的基礎(chǔ)平臺,對上要支持各種應(yīng)用開發(fā),對下要無縫銜接,做到各系統(tǒng)協(xié)同優(yōu)化。
1實(shí)現(xiàn)技術(shù)
數(shù)據(jù)支撐平臺包括數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)處理系統(tǒng)兩部分,以確保智慧城市業(yè)務(wù)的建設(shè)和實(shí)施。
1.1 數(shù)據(jù)集成系統(tǒng)
數(shù)據(jù)集成系統(tǒng)通過分布式數(shù)據(jù)處理和任務(wù)調(diào)度,高效完成數(shù)據(jù)集成,提高數(shù)據(jù)處理效率、規(guī)范開發(fā)流程,快速構(gòu)建各類基礎(chǔ)主題庫和主題庫。系統(tǒng)把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,并保持各系統(tǒng)數(shù)據(jù)的標(biāo)準(zhǔn)化以及規(guī)范化,從而為智慧城市提供全面、可靠的數(shù)據(jù)應(yīng)用和數(shù)據(jù)共享服務(wù)。
數(shù)據(jù)集成系統(tǒng)針對各式各樣的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等類型,不同的數(shù)據(jù)類型應(yīng)采用最合適的處理機(jī)制,要通過任務(wù)管理、調(diào)度管理進(jìn)行各類任務(wù)的流程化處理。從數(shù)據(jù)歸集到數(shù)據(jù)融合,從數(shù)據(jù)檢核到數(shù)據(jù)入庫,最大限度地應(yīng)用自動化的生產(chǎn)工具,提高處理效率與質(zhì)量,同時(shí)在整個(gè)處理過程中,要通過監(jiān)控管理實(shí)時(shí)掌握流程運(yùn)行狀態(tài),并提供充分的錯(cuò)誤處理機(jī)制,以保證在合適的時(shí)間、合適的地點(diǎn)有最合適的數(shù)據(jù)可以使用。
為配合各系統(tǒng)數(shù)據(jù)采集,數(shù)據(jù)集成系統(tǒng)應(yīng)提供多種結(jié)構(gòu)化數(shù)據(jù)源配置管理,支持采集的多種類型的數(shù)據(jù)庫,包括國內(nèi)外主流的關(guān)系型數(shù)據(jù)庫如Oracle、MySQL、SQLServer、達(dá)夢、金倉等,以及HBase、MongoDB和HIVE等,以及靈活的擴(kuò)展新的數(shù)據(jù)源。
1.2 數(shù)據(jù)處理系統(tǒng)
數(shù)據(jù)處理系統(tǒng)通過對數(shù)據(jù)全生命周期管理,實(shí)現(xiàn)數(shù)據(jù)模型標(biāo)準(zhǔn)化、數(shù)據(jù)關(guān)系脈絡(luò)化、數(shù)據(jù)加工可視化、數(shù)據(jù)質(zhì)量度量化,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的統(tǒng)一管理及全業(yè)務(wù)流程的實(shí)時(shí)監(jiān)控,可有效解決數(shù)據(jù)資源不可知、數(shù)據(jù)質(zhì)量不可控、數(shù)據(jù)關(guān)系不可聯(lián)、數(shù)據(jù)脈絡(luò)不清晰的痛點(diǎn)問題。
(1)數(shù)據(jù)元管理
數(shù)據(jù)元管理主要包括新增、導(dǎo)入、發(fā)布、檢索、修改、刪除、停用等功能。一方面要支持?jǐn)?shù)據(jù)元版本管理,包括不同版本之間的差異核對功能,另一方面要支持快速創(chuàng)建標(biāo)準(zhǔn)數(shù)據(jù)元,并建立和相關(guān)元數(shù)據(jù)的關(guān)聯(lián)關(guān)系。部分?jǐn)?shù)據(jù)元的值需要滿足固定格式的標(biāo)準(zhǔn),數(shù)據(jù)處理過程中需要通過固定的值組成規(guī)則來規(guī)范數(shù)據(jù)源值的格式,例如身份證、手機(jī)號碼、郵箱、日期等格式。
(2)標(biāo)準(zhǔn)代碼配置
標(biāo)準(zhǔn)代碼配置要支持代碼分類和標(biāo)準(zhǔn)代碼項(xiàng)的新增、導(dǎo)入、導(dǎo)出功能,提供標(biāo)準(zhǔn)代碼維護(hù)的能力。標(biāo)準(zhǔn)代碼配置可關(guān)聯(lián)到各類標(biāo)準(zhǔn)的代碼字典,為數(shù)據(jù)的規(guī)范性提供更加詳細(xì)的描述,為后續(xù)的數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)等工作提供支撐。
標(biāo)準(zhǔn)數(shù)據(jù)元具有唯一的編碼(標(biāo)準(zhǔn)代碼),按照實(shí)際的業(yè)務(wù)領(lǐng)域進(jìn)行分類之后,可以形成帶有業(yè)務(wù)領(lǐng)域特征的相關(guān)編碼,比如“ZRR00001”代表自然人相關(guān)的數(shù)據(jù)元標(biāo)準(zhǔn)代碼。
(3)元數(shù)據(jù)管理
元數(shù)據(jù)是對數(shù)據(jù)中心所有維護(hù)數(shù)據(jù)的一個(gè)結(jié)構(gòu)化的業(yè)務(wù)定義,主要是對中心所有的庫表的數(shù)據(jù)進(jìn)行統(tǒng)一管理和監(jiān)控,為數(shù)據(jù)的標(biāo)準(zhǔn)化運(yùn)維以及數(shù)據(jù)的質(zhì)量檢查等工作提供相關(guān)基礎(chǔ)。
元數(shù)據(jù)采集管理包括手動新增、配置采集、結(jié)構(gòu)管理、結(jié)構(gòu)物化、變更對比等功能。元數(shù)據(jù)主要包括庫表、字段、視圖、存儲過程等,通過新增或采集將需要納管的元數(shù)據(jù)結(jié)構(gòu)自動化分析收錄,同時(shí)在管理功能中可針對修改更新后的元數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)庫同步物化操作。
2數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理通過對各數(shù)據(jù)處理環(huán)節(jié)的監(jiān)控,為智慧城市建設(shè)提供有效的數(shù)據(jù)質(zhì)量監(jiān)督和保障,同時(shí)為智慧城市數(shù)據(jù)的標(biāo)準(zhǔn)化輸出奠定基礎(chǔ)。
2.1 數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量主要包含準(zhǔn)確性、真實(shí)性、完整性、全面性、及時(shí)性、即時(shí)性、精確性和關(guān)聯(lián)性[2],通過對數(shù)據(jù)分析管理,并對數(shù)據(jù)進(jìn)行跟蹤處理,實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的全程管控,提高數(shù)據(jù)的質(zhì)量。
質(zhì)量模型由一套實(shí)體表、一套規(guī)則以及多套質(zhì)檢方案組成,用戶在定義質(zhì)檢方案時(shí),可以根據(jù)業(yè)務(wù)需要選擇實(shí)體表和規(guī)則,不同方案之間相互獨(dú)立。通過執(zhí)行模型下的質(zhì)檢方案,可以得到用戶關(guān)心的數(shù)據(jù)質(zhì)量分析結(jié)果,如問題數(shù)據(jù)明細(xì)信息、數(shù)據(jù)質(zhì)量分析報(bào)表等。
2.2 常用數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量審核的邏輯校驗(yàn)標(biāo)準(zhǔn),是數(shù)據(jù)質(zhì)量監(jiān)控管理的基礎(chǔ)。以下列舉常用的數(shù)據(jù)質(zhì)量規(guī)則:
空值檢查,用于檢查字段非空。
值域檢查,用于檢查字段的取值范圍,包括數(shù)值型、字符型、日期型等。
規(guī)范檢查,用于檢查指標(biāo)值的格式是否規(guī)范,包括身份證、電話號碼、電子郵箱等多種數(shù)據(jù)類型的檢測[3]。
邏輯檢查,用于檢查指標(biāo)之間是否滿足一定的邏輯關(guān)系。
重復(fù)數(shù)據(jù)檢查,用于檢查表內(nèi)是否有重復(fù)數(shù)據(jù),比如groupby重復(fù)依據(jù)字段,如果count()>1則算重復(fù)。
及時(shí)性檢查,用于檢查數(shù)據(jù)的及時(shí)性,衡量數(shù)據(jù)抽取或數(shù)據(jù)上報(bào)是否及時(shí),比如算出上報(bào)時(shí)間字段的值,將上報(bào)時(shí)間與最佳上報(bào)時(shí)間作比較,看是否在允許誤差范圍內(nèi)。
完整性檢查,包括記錄完整性和引用完整性。
記錄完整性檢查用于檢查實(shí)體表字段與比照字段的數(shù)據(jù)量、數(shù)值是否完全一致,比如對檢查表字段和比照字段進(jìn)行g(shù)roupby并求count,根據(jù)兩個(gè)字段groupby的結(jié)果來outerjoin,count不相等或檢查字段值和比照字段值有一個(gè)為空時(shí),此行結(jié)果都算錯(cuò)。
引用完整性檢查用于判斷實(shí)體表中的數(shù)據(jù)是否完全存在于比照表中。實(shí)體表檢查字段中的數(shù)據(jù)必須全部存在于比照表的比照字段中。比如,實(shí)體表的檢查字段關(guān)聯(lián)distinct后的比照表的字段,關(guān)聯(lián)后,如果比照字段為空,則檢查字段的值非來源于比照表,則該規(guī)則對應(yīng)結(jié)果為false。
依據(jù)質(zhì)量規(guī)則執(zhí)行的實(shí)際需求,可通過圖形化界面配置多種質(zhì)檢規(guī)則并組成可執(zhí)行方案,依據(jù)執(zhí)行規(guī)則管控平臺自動執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式可按固定時(shí)間周期(如月、周、日)、事件觸發(fā)等,并且可查看質(zhì)檢方案執(zhí)行記錄,實(shí)現(xiàn)對數(shù)據(jù)質(zhì)檢全流程管控。
參考文獻(xiàn)
[1] 智慧城市術(shù)語:GB/T37043-2018[S]北京:中國標(biāo)準(zhǔn)出版社,2018.
[2] 趙興峰.企業(yè)經(jīng)營數(shù)據(jù)分析——思路、方法、應(yīng)用與工具[M].北京:電子工業(yè)出版社,2016:215.
[3] 牛麗雪.政府?dāng)?shù)據(jù)治理成熟度模型研究[D].保定:河北大學(xué),2020.