王衍祺,王 堯
(航天科工網(wǎng)絡(luò)信息發(fā)展有限公司,北京 100143)
隨著超大城市流動(dòng)人口逐年增多,政府各部門掌握流動(dòng)人口的相關(guān)背景信息孤島式存在,導(dǎo)致管理人口政府部門管理和服務(wù)容易跟不上、跟不緊。 為提升社會(huì)綜合治理水平,首先要做到人口底數(shù)清,需構(gòu)建權(quán)威的人口庫(kù)。 人口庫(kù)是政務(wù)信息四大基礎(chǔ)庫(kù)之一,目前人口庫(kù)建模多為地方性標(biāo)準(zhǔn)[1]。 數(shù)據(jù)安全法、個(gè)人信息保護(hù)法對(duì)人口信息保護(hù)提出明確要求,如何在保護(hù)好個(gè)人信息的條件下融通各部門數(shù)據(jù),建立政府統(tǒng)一的人口庫(kù),已成為政府治理城市的重要抓手。 傳統(tǒng)構(gòu)建人口大寬表的集中式[2]存在知悉范圍過(guò)大情況。本文分析超大城市人口數(shù)據(jù)基礎(chǔ)上,提出一種人口庫(kù)數(shù)據(jù)架構(gòu)和建模方法;此方法可數(shù)據(jù)全程加密,數(shù)據(jù)分散建模與存儲(chǔ),使用時(shí)根據(jù)業(yè)務(wù)事項(xiàng)構(gòu)建人口塊數(shù)據(jù)[3],進(jìn)行數(shù)據(jù)整合與授權(quán),確保信息安全。
某市已建立企業(yè)、社會(huì)組織、事業(yè)單位及個(gè)人的數(shù)據(jù)庫(kù),初步發(fā)揮出了應(yīng)有的作用。 由于各部門之間條塊分割嚴(yán)重、標(biāo)準(zhǔn)不統(tǒng)一,造成領(lǐng)域的條狀數(shù)據(jù)煙囪林立,數(shù)據(jù)散落在各個(gè)業(yè)務(wù)部門,數(shù)據(jù)分割現(xiàn)象嚴(yán)重,無(wú)法形成治理合力。
構(gòu)建“底數(shù)清”的人口庫(kù)數(shù)據(jù)架構(gòu)和數(shù)據(jù)模型,融合各部門條狀數(shù)據(jù),確保個(gè)人信息安全,實(shí)現(xiàn)數(shù)據(jù)按需使用,支持政府精細(xì)化人口社會(huì)治理及政府服務(wù)等業(yè)務(wù)應(yīng)用。
人口庫(kù)自底向上分為原始庫(kù)、基礎(chǔ)庫(kù)和應(yīng)用庫(kù),通過(guò)構(gòu)建人口數(shù)據(jù)核心層,減少與底層數(shù)據(jù)源的耦合,快速響應(yīng)上層數(shù)據(jù)應(yīng)用需求,支持現(xiàn)有及新增數(shù)據(jù)主題建設(shè),人口庫(kù)總體架構(gòu)如圖1 所示。
原始庫(kù)存儲(chǔ)來(lái)自各部門的原始數(shù)據(jù),并進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,包括空值、異常值、多源數(shù)據(jù)不一致等處理,形成統(tǒng)一的數(shù)據(jù)基礎(chǔ)。
基礎(chǔ)庫(kù)包括人口數(shù)據(jù)核心層以及人口顆粒數(shù)據(jù)和人口塊數(shù)據(jù)。 人口數(shù)據(jù)核心層以人為核心,通過(guò)維度建模方式,將與人相關(guān)的信息抽象成自然人的基礎(chǔ)特征、身份和關(guān)系等以及政府服務(wù)和管理管理相關(guān)的信息,構(gòu)建人口的多維視圖。 其中,人口基礎(chǔ)信息實(shí)現(xiàn)對(duì)自然人的唯一標(biāo)識(shí),統(tǒng)一人口編碼等;基礎(chǔ)特征包括生理特征、社會(huì)特征等,身份和關(guān)系相關(guān)信息包括政治資格身份、政治面貌等社會(huì)身份以及血緣關(guān)系、財(cái)產(chǎn)關(guān)系、物權(quán)關(guān)系等社會(huì)關(guān)系的集合;政府服務(wù)圍繞自然人從出生到死亡整個(gè)生命周期過(guò)程,劃分為生育收養(yǎng)、科研教育、就業(yè)創(chuàng)業(yè)等階段,每個(gè)階段再細(xì)化建模;管理屬性面向綜合社會(huì)治理,以司法案件、綜治事件等為基礎(chǔ),對(duì)重大人群進(jìn)行分類分級(jí)。 基于人口數(shù)據(jù)核心層,進(jìn)行數(shù)據(jù)離散化,拆解成無(wú)法再分的顆粒,作為數(shù)據(jù)使用和授權(quán)的基礎(chǔ)。 面向業(yè)務(wù)事項(xiàng)需求,將多個(gè)顆粒組裝成人口塊數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)融合。
應(yīng)用庫(kù)基于基礎(chǔ)庫(kù),面向業(yè)務(wù)場(chǎng)景進(jìn)行組裝、分析,構(gòu)建各類專題庫(kù),經(jīng)授權(quán)后對(duì)外提供數(shù)據(jù)服務(wù)。
數(shù)據(jù)經(jīng)采集、整編、標(biāo)準(zhǔn)化處理后,形成規(guī)范的數(shù)據(jù),通過(guò)數(shù)據(jù)建模加工,形成各類主題庫(kù)數(shù)據(jù),據(jù)此構(gòu)建各類特色專題應(yīng)用,處理流程如圖2 所示。
圖2 數(shù)據(jù)處理流程
采用業(yè)務(wù)自頂向下梳理與自底向上數(shù)據(jù)盤點(diǎn)相結(jié)合的方式,參考人口相關(guān)規(guī)范[1-3]和數(shù)據(jù)模型,結(jié)合城市人口管理需求,從業(yè)務(wù)層將人口屬性劃分為基礎(chǔ)特征、身份和關(guān)系、政府服務(wù)、管理屬性等分組,通過(guò)維度建模方法,以人口為核心,結(jié)合數(shù)據(jù)源盤點(diǎn)情況補(bǔ)充相關(guān)屬性,構(gòu)建人口數(shù)據(jù)模型,實(shí)現(xiàn)信息整合。 數(shù)據(jù)模型設(shè)計(jì)如圖3 所示。
圖3 數(shù)據(jù)模型設(shè)計(jì)
人口基礎(chǔ)信息表,基于戶籍人口信息、網(wǎng)格辦人口采集信息、社保信息等進(jìn)行去重合并,結(jié)合業(yè)務(wù)規(guī)則篩選出現(xiàn)住人口信息。 設(shè)計(jì)人口編碼算法,針對(duì)身份證、護(hù)照、港澳臺(tái)通行證等不同證件,形成統(tǒng)一的人口編碼標(biāo)識(shí),關(guān)聯(lián)各屬性分組。 對(duì)應(yīng)基礎(chǔ)特征分組,根據(jù)國(guó)家相關(guān)標(biāo)準(zhǔn),對(duì)人口的生理特征、社會(huì)特征等屬性進(jìn)行補(bǔ)充。 身份和關(guān)系包括政治面貌、政治資格、行為能力等法定身份,以及血緣關(guān)系、繼承關(guān)系、監(jiān)護(hù)人關(guān)系等人與人之間的關(guān)系,產(chǎn)權(quán)關(guān)系、物權(quán)關(guān)系、債權(quán)關(guān)系等人與物的關(guān)系等。 政府服務(wù)對(duì)象圍繞人的整個(gè)生命周期進(jìn)行建模,通過(guò)人口唯一編碼關(guān)聯(lián)生育收養(yǎng)、教育科研、就業(yè)創(chuàng)業(yè)等不同階段的數(shù)據(jù)。 管理屬性分組涉及司法案件、綜合治理重點(diǎn)事件及重點(diǎn)人等信息,建立人與事件的關(guān)系,構(gòu)建數(shù)據(jù)模型。
人口顆粒對(duì)應(yīng)一類無(wú)法再分的數(shù)據(jù),顆粒取值對(duì)應(yīng)維度建模中的維度值,如男性顆粒存儲(chǔ)性別=男性的人口編碼信息。 人口塊數(shù)據(jù)實(shí)現(xiàn)多源數(shù)據(jù)的整合,基于人口編碼對(duì)顆粒數(shù)據(jù)進(jìn)行關(guān)聯(lián)融合,形成具有一定業(yè)務(wù)屬性的多維信息集合,如人口社會(huì)特征塊包括民族、國(guó)籍、行業(yè)、職稱等。
與傳統(tǒng)數(shù)倉(cāng)構(gòu)建大寬表方式不同,本建模思路從業(yè)務(wù)角度對(duì)人口數(shù)據(jù)進(jìn)行拆分,突出業(yè)務(wù)關(guān)鍵信息,每個(gè)屬性表只記錄一類無(wú)法再拆解的業(yè)務(wù)信息,實(shí)現(xiàn)數(shù)據(jù)分散存儲(chǔ);通過(guò)構(gòu)建人口唯一編碼,按需進(jìn)行數(shù)據(jù)關(guān)聯(lián)融合,形成人口顆粒和塊數(shù)據(jù)。
2.3.1 數(shù)據(jù)加密存儲(chǔ)與處理
采用國(guó)密算法SM4 對(duì)接入平臺(tái)的所有數(shù)據(jù)進(jìn)行加密處理,包括前置機(jī)、原始庫(kù)、基礎(chǔ)庫(kù)及上層應(yīng)用庫(kù),且支持不同層采用不同的密鑰管理。 前置庫(kù)臨時(shí)存儲(chǔ)增量更新數(shù)據(jù),定期刪除;原始庫(kù)、基礎(chǔ)庫(kù)通過(guò)認(rèn)證的處理組件對(duì)密文進(jìn)行計(jì)算,只有應(yīng)用庫(kù)經(jīng)授權(quán)后對(duì)外提供服務(wù)。
2.3.2 數(shù)據(jù)分散存儲(chǔ),根據(jù)業(yè)務(wù)事項(xiàng)授權(quán)使用
人口顆粒數(shù)據(jù)—數(shù)據(jù)打標(biāo)結(jié)果分散存儲(chǔ),每個(gè)顆粒對(duì)應(yīng)一個(gè)獨(dú)立的表,只存儲(chǔ)根據(jù)證件號(hào)碼生成的人口唯一編碼(非原始證件號(hào)碼);根據(jù)業(yè)務(wù)事項(xiàng)構(gòu)建人口塊數(shù)據(jù),實(shí)現(xiàn)多源數(shù)據(jù)按需融合,通過(guò)業(yè)務(wù)事項(xiàng)實(shí)現(xiàn)塊數(shù)據(jù)按需使用。
超大城市數(shù)據(jù)存在數(shù)據(jù)量大、加密數(shù)據(jù)處理效率低等問題,通過(guò)將需要處理的數(shù)據(jù)進(jìn)行細(xì)粒度篩選可跳過(guò)不滿足條件的數(shù)據(jù)已提升數(shù)據(jù)處理效率,比如數(shù)據(jù)存儲(chǔ)可使用hive orc 格式或者parquet 格式,數(shù)據(jù)處理可利用支持分布式內(nèi)存計(jì)算的spark 引擎。
人口庫(kù)綜合各類數(shù)據(jù)資源,結(jié)合法定數(shù)據(jù)的基礎(chǔ)上可形成各行各業(yè)的法定庫(kù),全方位刻畫人員畫像,為具體業(yè)務(wù)提供法定支撐,如各行業(yè)從業(yè)資格審查;也可從人口庫(kù)精確提取人口統(tǒng)計(jì)信息,為政府進(jìn)行社會(huì)治理、人員管理、改善政府的公共服務(wù),提高服務(wù)質(zhì)量等工作提供智能決策支持。
隨著大城市群人口的迅速發(fā)展,政府人口治理充滿了新的挑戰(zhàn)與機(jī)遇。 本文在考慮個(gè)人信息安全的條件下,提出了一種數(shù)據(jù)顆?;怦?、塊化融合的人口庫(kù)數(shù)據(jù)架構(gòu)和建模方法,此架構(gòu)可有效保障個(gè)人信息數(shù)據(jù)使用尺度,也可以為超大城市人口庫(kù)建設(shè)、助力政府精細(xì)化治理城市提供架構(gòu)參考。