田淼 田繼亮
(1.蘭州理工大學 甘肅省蘭州市 730050 2.深圳市華傲數(shù)據(jù)技術有限公司 廣東省深圳市 518110)
大數(shù)據(jù)時代的到來,全球數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長,據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番[1]。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展和社會治理要求的不斷提升,世界各國政府和組織對此有著高度的認識,紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競爭制高點的重要抓手,積極推動實施大數(shù)據(jù)技術的研發(fā)和應用落實[2]。因此,深入探究政務數(shù)據(jù)清洗融合技術,構建政務大數(shù)據(jù)環(huán)境下的數(shù)據(jù)標準體系,對解決政務數(shù)據(jù)清洗融合的難題,貫徹國家政務大數(shù)據(jù)戰(zhàn)略具有重要的實踐意義[3]。
建立政務數(shù)據(jù)標準規(guī)范體系。基于智慧城市中各類專題庫,對現(xiàn)有的國家、地方、行業(yè)等標準,結(jié)合省、市等地方標準進行標準編碼。對于當前尚無標準的政務數(shù)據(jù),根據(jù)具體項目的建設要求,制定對應的數(shù)據(jù)標準規(guī)范,以確保數(shù)據(jù)標準的統(tǒng)一,保證數(shù)據(jù)在不同政府部門間的共享、交換。
建立數(shù)據(jù)質(zhì)量管控體系。對政務數(shù)據(jù)做到全生命周期的質(zhì)量管控,完善數(shù)據(jù)質(zhì)量稽查規(guī)則,借助數(shù)據(jù)稽查、數(shù)據(jù)質(zhì)量評分和質(zhì)量工單等功能,對問題數(shù)據(jù)進行“及時發(fā)現(xiàn)—快速反饋—高效修復”的數(shù)據(jù)回路管理[4]。
完善技術支撐體系。針對政務數(shù)據(jù)結(jié)構多樣、數(shù)據(jù)量龐大、質(zhì)量低下、敏感性強等特點,選取專業(yè)的大數(shù)據(jù)領域數(shù)據(jù)倉庫代替?zhèn)鹘y(tǒng)的數(shù)據(jù)庫優(yōu)化數(shù)據(jù)存儲,在數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)的過程中優(yōu)化ETL 過程提升融合效率,運用加密算法對敏感數(shù)據(jù)進行數(shù)據(jù)加密保證數(shù)據(jù)的安全性。
根據(jù)智慧城市政務數(shù)據(jù)融合需求,結(jié)合實際業(yè)務場景,從政務數(shù)據(jù)創(chuàng)新應用的角度,提出了政務數(shù)據(jù)清洗融合系統(tǒng)的設計框架(圖1 所示)。
政務數(shù)據(jù)的生命周期是數(shù)據(jù)融合的時間標尺,數(shù)據(jù)融合服務于政務數(shù)據(jù)的全生命周期,有效進行政務數(shù)據(jù)的全生命周期管理,是保障政務數(shù)據(jù)有序梳理、高效融合的基礎。全生命周期管理分為技術域管理和業(yè)務域管理兩方面,技術域管理按照數(shù)據(jù)建模、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)調(diào)度等數(shù)據(jù)融合的流程建立時序里程管理;業(yè)務域管理按照政務業(yè)務流程建立業(yè)務里程管理。
相對于某一特定領域的數(shù)據(jù),政務數(shù)據(jù)具有結(jié)構多樣、數(shù)據(jù)量龐大、質(zhì)量低下、敏感性強等特點。針對政務數(shù)據(jù)的特點,相較于傳統(tǒng)的數(shù)據(jù)融合技術,采用Hbase、Hive 和Mppdb 等大數(shù)據(jù)領域的數(shù)據(jù)倉庫來代替?zhèn)鹘y(tǒng)的Mysql、Sql Server 等輕量級數(shù)據(jù)庫,提升海量結(jié)構化、非結(jié)構化和半結(jié)構化政務數(shù)據(jù)的存儲和查詢效率;引入Kettle 等ETL 工具,針對不同的數(shù)據(jù)格式,運用分布式并行流程代替?zhèn)鹘y(tǒng)的串行流程,提高數(shù)據(jù)抽取、轉(zhuǎn)換、加載過程中的效率;對例如身份證號等敏感數(shù)據(jù),借助Base64 和MD5 等加密算法,在保證數(shù)據(jù)唯一性的同時,對敏感數(shù)據(jù)進行脫敏處理。
圖1:政務數(shù)據(jù)清洗融合系統(tǒng)框架
圖2:政務數(shù)據(jù)融合流程
由于政務業(yè)務部門眾多,業(yè)務系統(tǒng)繁雜,導致各個業(yè)務系統(tǒng)數(shù)據(jù)源的多樣性,存在結(jié)構化、半結(jié)構化和非結(jié)構化等結(jié)構各異的數(shù)據(jù)。清洗融合系統(tǒng)根據(jù)不同數(shù)據(jù)源的情況,選擇不同的數(shù)據(jù)對接方式,通過庫-庫對接或庫-表對接等方式,有效對數(shù)據(jù)源進行管理,完成數(shù)據(jù)歸集,從而解決不同數(shù)據(jù)源的數(shù)據(jù)異構問題。
政務數(shù)據(jù)有極高的敏感性和保密性,且蘊含著巨大的價值,數(shù)據(jù)安全問題也掣肘著電子政務的發(fā)展。在智慧城市數(shù)據(jù)融合項目的實際建設中,安全標準規(guī)范主要包括以下幾點:
(1)按照國務院辦公廳電子政務辦公室發(fā)布的《國家政務服務平臺安全接入檢測要求》,構建等保三級以上的數(shù)據(jù)安全防控體系。
(2)根據(jù)實際業(yè)務需求,針對不同系統(tǒng)用戶,分配相應的操作權限。
(3)對系統(tǒng)用戶的所有操作實時監(jiān)控,并對刪除等高危操作進行告警,所有的操作均形成系統(tǒng)審計日志,完善數(shù)據(jù)溯源問責機制。
(4)對系統(tǒng)進行高可用雙機部署,定期對數(shù)據(jù)進行備份,謹防突發(fā)情況下的數(shù)據(jù)丟失。
(5)提供數(shù)據(jù)脫敏、水印功能和數(shù)字簽名功能,確保敏感數(shù)據(jù)的隱私安全。
政府業(yè)務部門眾多,存在跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務的各種業(yè)務系統(tǒng),數(shù)據(jù)間的異構現(xiàn)象嚴重,數(shù)據(jù)質(zhì)量參差不齊,因此構建統(tǒng)一的數(shù)據(jù)標準體系,是各級政府部門實現(xiàn)信息互通、數(shù)據(jù)共享、協(xié)同辦公的基礎。在智慧城市的數(shù)據(jù)融合過程中,需做到以下數(shù)據(jù)標準規(guī)范:
(1)元數(shù)據(jù)標準。采集全生命周期的元數(shù)據(jù),針對全域元數(shù)據(jù),按照建設需求和實際情況,進行長度、唯一性、重復性、非空性、最大/小值、數(shù)據(jù)結(jié)構的標準核查,并生成數(shù)據(jù)表之間的元數(shù)據(jù)地圖,對元數(shù)據(jù)質(zhì)量和走向進行集中管理。
(2)數(shù)據(jù)編碼標準。對現(xiàn)有的國家、地方、行業(yè)等標準,結(jié)合省、市等地方標準以及實際建設需求,進行標準編碼,形成數(shù)據(jù)編碼字典,確保數(shù)據(jù)編碼標準的統(tǒng)一。
(3)數(shù)據(jù)質(zhì)量標準。針對不同數(shù)據(jù),配置相應的SQL 規(guī)則、值域規(guī)則、正則規(guī)則等數(shù)據(jù)質(zhì)量稽查規(guī)則,對數(shù)據(jù)的重復性、唯一性、準確性、時效性等指標進行數(shù)據(jù)稽查,生成質(zhì)量評分。對于可用技術手段修復的數(shù)據(jù),借助數(shù)據(jù)清洗規(guī)則和ETL 工具等技術方法進行數(shù)據(jù)修復;對于不可用技術手段修復的數(shù)據(jù),通過數(shù)據(jù)工單形式進行數(shù)據(jù)溯源的人工修復。
(4)數(shù)據(jù)流程標準。按照時序的先后,政務數(shù)據(jù)融合主要遵循流程如圖2 所示。
歷史層在最靠近數(shù)據(jù)源的位置,在不對歷史數(shù)據(jù)進行任何處理、保證政務數(shù)據(jù)全生命周期完整性的情況下,對源數(shù)據(jù)進行數(shù)據(jù)分析與建模,要點如下:
(1)在對歷史數(shù)據(jù)進行建模前,需參考業(yè)務屬性,分析數(shù)據(jù)對于智慧城市建設的重要程度。對于公安局、民政局、住房和城鄉(xiāng)建設局、市場監(jiān)督管理局、經(jīng)濟發(fā)展局等包含大量人口、法人、房屋、經(jīng)濟指標的數(shù)據(jù),劃分為核心數(shù)據(jù);其余數(shù)據(jù)劃分為輔助數(shù)據(jù)。按照數(shù)據(jù)的重要程度,為每個業(yè)務數(shù)據(jù)分配屬性權重,確保對于數(shù)據(jù)質(zhì)量的控制需求。
(2)在對歷史數(shù)據(jù)進行建模時,針對不同數(shù)據(jù),確定數(shù)據(jù)的數(shù)據(jù)類型、長度、增量/全量抽取、數(shù)據(jù)更新頻率,在合理分配存儲空間的前提下,保證數(shù)據(jù)的時效性。
清洗層是數(shù)據(jù)清洗融合的核心部分,清洗融合的數(shù)據(jù)與政務業(yè)務緊密相關,包括數(shù)據(jù)字典映射、數(shù)據(jù)格式轉(zhuǎn)換、潛在數(shù)據(jù)提取、業(yè)務數(shù)據(jù)核檢、數(shù)據(jù)關聯(lián)。要點如下:
2.7.1 數(shù)據(jù)字典映射
根據(jù)數(shù)據(jù)編碼規(guī)范,建立數(shù)據(jù)字典編碼,形成數(shù)據(jù)與編碼的鍵值對(key-value)映射,通過數(shù)據(jù)字典關聯(lián)出與代碼數(shù)據(jù)項對應的數(shù)據(jù)。例如,我們想要將表示性別“女”的數(shù)據(jù)都轉(zhuǎn)化成國家標準編碼“02”,需建立一個數(shù)據(jù)字典映射,其中“鍵”的取值是所有性別“女”不同表示方式的集合,“值”是最終需要統(tǒng)一的“02”:
“女性” → “02”
“女” → “02”
“woman” → “02”
“famale” → “02”
2.7.2 數(shù)據(jù)格式轉(zhuǎn)換
將同一類型、不同格式的數(shù)據(jù),配置清洗規(guī)則,通過ETL 過程,轉(zhuǎn)換形成相同的數(shù)據(jù)格式,以時間類型數(shù)據(jù)為例:
“2000年1月1日” → “2000-01-01”
“20000101” → “2000-01-01”
“2000.1.1” → “2000-01-01”
2.7.3 潛在數(shù)據(jù)提取
針對源數(shù)據(jù),通過技術手段提取數(shù)據(jù)中心存在的潛在數(shù)據(jù),提升數(shù)據(jù)的完整性。以身份證號為例,1-6 位可提取區(qū)劃代碼,7-14位可提取出生日期,第17 位可提取性別。
2.7.4 數(shù)據(jù)關聯(lián)
根據(jù)專題庫的模型,將清洗標準化后的來源數(shù)據(jù)基于核心數(shù)據(jù)進行關聯(lián),根據(jù)數(shù)據(jù)的業(yè)務屬性匯聚形成多個窄表,每一個表只存儲某個業(yè)務屬性的數(shù)據(jù)。此時表與表之間的數(shù)據(jù)不冗余,源與源之間的數(shù)據(jù)是冗余保存的,這樣既保證了靈活性,又使得數(shù)據(jù)溯源變得非常方便。
專題庫在智慧城市的建設中起到了承上啟下的作用。專題庫根據(jù)建設需求,構建人口、法人、房屋、網(wǎng)格、宏觀經(jīng)濟等主體指標,基于清洗之后的核心數(shù)據(jù)關聯(lián),結(jié)合UC 矩陣的思想進行數(shù)據(jù)合并和去重的處理,針對各個政務部門數(shù)據(jù)的權威性進行優(yōu)先級的配置,減少數(shù)據(jù)沖突,解決了數(shù)據(jù)的多義性,提升數(shù)據(jù)的準確性,是政務數(shù)據(jù)清洗融合后按專題指標進行的集中展示,也為數(shù)據(jù)下一步使用做好鋪墊。
政務數(shù)據(jù)清洗融合系統(tǒng)的設計,運用大數(shù)據(jù)倉庫、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等前沿技術,對各個政務部門數(shù)據(jù)資源進行有效整合,針對存在的問題,將大數(shù)據(jù)技術與政務業(yè)務相結(jié)合,提出了政務數(shù)據(jù)清洗融合平臺的設計框架,該框架緊密聯(lián)系實際業(yè)務需求,優(yōu)化了數(shù)據(jù)的存儲、抽取、加載過程,明確了數(shù)據(jù)流程走向,有助于建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機制[5],對智慧城市中的數(shù)據(jù)融合具有實踐價值和參考意義。