文|江陰市大數(shù)據(jù)中心 金海峰 董菊香 李春香
各地大數(shù)據(jù)中心建立,實現(xiàn)了不同機構間的數(shù)據(jù)聚集,但各多源異構系統(tǒng)來的數(shù)據(jù)質(zhì)量不一、管控與互操作難等就成為痛點與難點浮現(xiàn)出來。解決之道雖在數(shù)據(jù)治理,但面對不同機構、領域、業(yè)務與應用的差異,涉及一系列紛繁復雜的問題時,仍使許多大數(shù)據(jù)中心難找準切入點。
江陰市大數(shù)據(jù)中心從實際出發(fā),通過近一年的探索與實踐,以數(shù)據(jù)質(zhì)量測評為切入點開展數(shù)據(jù)治理,取得了一些經(jīng)驗,同時對密切相關的數(shù)據(jù)認責領域也有了一些初步的思考與認識。
2017年,江陰作為江蘇省唯一的集成改革示范縣級市,市委、市政府提出了構建“1中心+3平臺”的智慧城市總體框架?!?中心”即“江陰市大數(shù)據(jù)中心建設項目”,并將數(shù)據(jù)共享和應用支撐列入集成改革重點項目。江陰市成立大數(shù)據(jù)管理專職機構,以綜合改革之力,聚系統(tǒng)集成之效,召開多次推進會議,截止2018年底,江陰市大數(shù)據(jù)中心已完成了對全市市委、政府部門(全覆蓋)、群眾團體、部分駐澄單位國資公司等機構信息資源目錄的多批次采集,累計梳理全市61個機構的信息資源,1205個數(shù)據(jù)集,2.69萬余個有效數(shù)據(jù)項;其中主要接入公安、人社、衛(wèi)計、教育、環(huán)保、安監(jiān)等61個單位632個數(shù)據(jù)集,1.25萬個數(shù)據(jù)項,總數(shù)據(jù)量達10.78億余條,對推動政務信息資源共享工作的制度化和規(guī)范化,實施網(wǎng)格化、政務服務、“最江陰”便民體系、精準救助、稅收征管等近20個領域提供數(shù)據(jù)支撐上發(fā)揮了作用。
然而,電子政務對數(shù)據(jù)“聚、通、用”的應用需求,使機構間數(shù)據(jù)質(zhì)量不清、語義與格式不一致、業(yè)務支持乏力等問題凸顯出來。我們意識到:在當數(shù)據(jù)集聚到一定體量、數(shù)據(jù)源增多、面對日趨深入的服務和構建新業(yè)務之需時,必須進行數(shù)據(jù)治理。但大數(shù)據(jù)中心面對的是各機構、跨系統(tǒng)歸集的數(shù)據(jù);它不像各機構一樣只關心具體的條線業(yè)務,而要面向全局對政務數(shù)據(jù)資源負責。因此,弄清大數(shù)據(jù)中心特殊的數(shù)據(jù)治理內(nèi)涵,其范圍與邊界,切入點與后續(xù)延伸等問題,就是當下各地大數(shù)據(jù)中心面臨的一道緊迫的難題。
江陰市大數(shù)據(jù)中心從數(shù)據(jù)治理理念、治理架構、要素選擇、量化測評等方面進行了系統(tǒng)化的探索,并委托富有數(shù)據(jù)治理經(jīng)驗的第三方參與測評,取得一定實效,具體如下:
“數(shù)據(jù)治理”是泊來詞,“治理”英文為“governance”含義為“統(tǒng)治、管理、治理、統(tǒng)治方式、管理方式”等。govern-ance 與govern-ment(政府)一詞同根,可見,數(shù)據(jù)治理的本義是針對數(shù)據(jù)的行政與管理活動,政務數(shù)據(jù)治理就是對數(shù)據(jù)的統(tǒng)治、治理及對應措施,但其前提是要摸清數(shù)據(jù)家底、供需范圍與質(zhì)量水平。
大數(shù)據(jù)中心作為各機構的資源樞紐,要在多源多向、異形異構的資源環(huán)境中開始數(shù)據(jù)治理,是個復雜問題,為此,要依據(jù)權威系統(tǒng)架構來作為治理的內(nèi)容依據(jù)。國際數(shù)據(jù)管理協(xié)會DAMA International給出的典型數(shù)據(jù)治理模式如圖1。
圖1中左側為數(shù)據(jù)治理的主要內(nèi)容,右側為數(shù)據(jù)治理的基本環(huán)境。結合大數(shù)據(jù)中心職能,將數(shù)據(jù)治理的系統(tǒng)內(nèi)容分解如下:
①數(shù)據(jù)架構管理 ---梳理與描述數(shù)據(jù)中心的數(shù)據(jù)供需與責任架構;②數(shù)據(jù)開發(fā)---數(shù)據(jù)中心面向新業(yè)務與新應用的數(shù)據(jù)分析、設計、實施、測試、部署、維護等工作;③數(shù)據(jù)操作管理 --- 覆蓋數(shù)據(jù)采集、歸集、比對與清洗到數(shù)據(jù)刪除的作業(yè)與管理責任;④數(shù)據(jù)安全管理 --- 確保政務應用各環(huán)節(jié)中,機構與公眾的數(shù)據(jù)保密性、公民交流、訪問和管理權限的控制等;⑤參考數(shù)據(jù)和主數(shù)據(jù)管理 --- 管理政務系統(tǒng)中各機構元數(shù)據(jù)、實體數(shù)據(jù)、描述數(shù)據(jù)、代碼數(shù)據(jù)和關聯(lián)數(shù)據(jù)等的各種版本與升級;⑥數(shù)據(jù)倉庫和BI --- 在多功能應用環(huán)境下,實現(xiàn)智慧政務的資源呈現(xiàn)、多維報告和分析等;⑦數(shù)據(jù)質(zhì)量管理 --- 從全局出發(fā),定義、梳理、監(jiān)控和提高從不同機構、不同系統(tǒng)來源的數(shù)據(jù)資源的質(zhì)量與責任;⑧元數(shù)據(jù)管理 --- 對源于不同機構、系統(tǒng)與應用的元數(shù)據(jù)/數(shù)據(jù)元進行統(tǒng)一梳理、規(guī)范化處理、整合、組配與控制等;⑨文檔和內(nèi)容管理 ---從語義、主題內(nèi)容等方面管理各類業(yè)務表單、作業(yè)文本、報告及其他結構化與非結構化數(shù)據(jù)等。
圖1 數(shù)據(jù)治理系統(tǒng)總體架構
數(shù)據(jù)治理環(huán)境涉及以下因素,包括:①治理目標和原則 --- 要定義數(shù)據(jù)治理中涉及的每項職能的愿景與戰(zhàn)略目標,各項具體目標,實施績效與基本原則;②治理活動 --- 各項治理作業(yè)能細分為下級活動,并進一步分解為具體的任務和步驟,數(shù)據(jù)間的依賴關系,順序和流程,用例與場景,觸發(fā)事件等;③主要交付物 --- 治理后的成果包括各類元數(shù)據(jù)/數(shù)據(jù)元,合成數(shù)據(jù)項,實體數(shù)據(jù),分類代碼體系,輸入與輸出對象,乃至各項管理體系;④角色和職責 ---大數(shù)據(jù)中心,各職能機構,社會公眾與企業(yè)事業(yè)單位等在政務活動供需中運行、加工、控制與管理的多種職能,個體的角色,組織角色,業(yè)務與資源角色等;⑤實踐和方法 --- 大數(shù)據(jù)中心及各職能機構在資源提供、加工與處理運行中均涉及深度不等的治理實踐,并有一些可共享與互操作的方法,具體涉及通用方法與可選方法等;⑥治理技術 --- 數(shù)據(jù)治理涉及各類治理工具,如資源標準和加工規(guī)程,比對與清洗規(guī)則,質(zhì)量控制與驗證規(guī)程等;⑦組織和文化 ---電子政務的運行不僅涉及技術,還有理念、體制、機制、管理、價值與態(tài)度等方面的問題。
圖1表明,數(shù)據(jù)治理是個領域寬廣、內(nèi)涵深且要求高的“認知+資源+技術+管理”的綜合體系,對于剛成立不久且仍在資源歸集中的大數(shù)據(jù)中心,要想按此架構開展全面數(shù)據(jù)治理是不實現(xiàn)的。于是,我們本著先易后難、先局部后全面、先單一再復合的原則,從上述9項要素中首先選擇數(shù)據(jù)質(zhì)量測評為治理切入點,以期了解當前聚集數(shù)據(jù)的質(zhì)量,包括各機構提供的數(shù)據(jù)實用性、體量、重用性與資源貢獻率等;從中尋找薄弱環(huán)節(jié),按跨系統(tǒng)數(shù)據(jù)整合,構建業(yè)務應用的角度出發(fā),突破邊界,設計指標,摸清存量數(shù)據(jù),探索增量全局性數(shù)據(jù)質(zhì)量改進的治理方向。
①統(tǒng)一數(shù)據(jù)質(zhì)量認識
開展數(shù)據(jù)質(zhì)量測評必先了解其內(nèi)涵。依據(jù)ISO 8402,質(zhì)量是反映實體滿足明確或隱含需要能力的特性總和,而政務數(shù)據(jù)質(zhì)量,一指其必須滿足規(guī)定或潛在的單一政府機構業(yè)務需求,二指其滿足“三融五跨”的數(shù)據(jù)共享、互操作與業(yè)務發(fā)展。
②構建數(shù)據(jù)質(zhì)量測評標準
本次測評在《GB/T 36344-2018信息技術 數(shù)據(jù)質(zhì)量評價指標》的基礎上,根據(jù)實際出發(fā)構建相應的指標體系(如圖2)。
測評指標的定義與說明
①完整性 --- 依據(jù)《GB/T 36344-2018信息技術 數(shù)據(jù)質(zhì)量評價指標》定義與專業(yè)標準比對。計算公式如下:
完整性=數(shù)量完整性+橫向(某縣級市)完整性+縱向(某地級市)完整性
②實用性 --- 依據(jù)專業(yè)領域數(shù)據(jù)項去冗后的實用項,及對江陰大數(shù)據(jù)中心已歸集的各單位實體數(shù)據(jù)的共享交換情況進行分析。 計算公式如下:
實用性=數(shù)據(jù)項實用性+實體數(shù)據(jù)共享交換量
數(shù)據(jù)項實用性=提供數(shù)據(jù)項總數(shù)-冗余數(shù)據(jù)項
③冗余度 --- 數(shù)據(jù)項冗余度的計算公式如下:
冗余度=冗余數(shù)據(jù)項/提供數(shù)據(jù)項總數(shù)(含冗余)
其中,冗余數(shù)據(jù)項=提供數(shù)據(jù)項總數(shù)(含冗余)-去冗數(shù)據(jù)項
④貢獻度 --- 資源貢獻度的計算公式如下:
貢獻度=各單位提供數(shù)據(jù)項(含冗余)/全部單位提供數(shù)據(jù)項總數(shù)(含冗余)
⑤公共數(shù)據(jù)元采用度 --- 公共數(shù)據(jù)元參考《GB/T 19488.2-2008 電子政務數(shù)據(jù)元 第2部分:公共數(shù)據(jù)元目錄》計算公式如下:
公共數(shù)據(jù)元采用度=公共數(shù)據(jù)元總數(shù)(含冗余)/提供數(shù)據(jù)項總數(shù)(含冗余)。
⑥規(guī)范性 --- 依據(jù)《GB/T 36344-2018信息技術 數(shù)據(jù)質(zhì)量評價指標》定義并與專業(yè)標準比對。
對江陰大數(shù)據(jù)中心已歸集的各單位信息資源與其機構職能進行分析比對,以定性判斷計算得分,定量評判應以各單位實地調(diào)研結果為準。
⑦時效性 --- 依據(jù)《GB/T 36344-2018信息技術 數(shù)據(jù)質(zhì)量評價指標》定義并與專業(yè)標準比對。按日、月、年、不定期等八類更新周期,進行分類計算。
計算公式:TL=D/(Tn×C)
其中TL=時效性;D=未變化總天數(shù);Tn=更新周期(可變);C=信息資源個數(shù)。
⑧空項率 --- 反應江陰各單位在數(shù)據(jù)歸集過程中實體數(shù)據(jù)的缺失情況。
計算公式:空項率=(空白數(shù)據(jù)項/數(shù)據(jù)項總數(shù))×100%
質(zhì)量測評成果
本次質(zhì)量測評按照先數(shù)量,后質(zhì)量;先數(shù)據(jù)架構,后單項數(shù)據(jù);先數(shù)據(jù)項,后實體數(shù)據(jù)的原則,采用定量與定性結合、專項與關聯(lián)分析結合、現(xiàn)場觀察與后臺對標相結合等方法,按提供數(shù)據(jù)的規(guī)范性、完整性和實用性為核心,綜合考慮其與外部資源的共享性與組合性作質(zhì)量測評分級。
根據(jù)上述8項指標,通過對全市61個單位、632個數(shù)據(jù)集、12102個數(shù)據(jù)項、10.78億實體數(shù)據(jù)的實地梳理和測評,形成《全面數(shù)據(jù)質(zhì)量測評等級評價表》,將評價結果分為極欠缺、不充分、基本充分、充分、充分且規(guī)范共5個等級。其中,充分且規(guī)范的單位有16個,占比26%。此域的數(shù)據(jù)將作為測試試點,進一步分析其質(zhì)量。
試點選取具有行業(yè)代表性的機構(如教育局),以及機構職能改革后變動較大的部門(如市場監(jiān)督管理局)等開展數(shù)據(jù)治理。具體實施仍依標準進行:建立元數(shù)據(jù)指標庫對數(shù)據(jù)項進行其他指標的測評;對實體數(shù)據(jù)則采用抽樣比對、清洗、轉換、形成試點治理數(shù)據(jù)庫等。
圖2 江陰大數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量測評框架
數(shù)據(jù)質(zhì)量測評使大數(shù)據(jù)中心對各機構提供數(shù)據(jù)的完整性、實用性、貢獻度、規(guī)范性等有了初步了解,隨后就要從數(shù)據(jù)資產(chǎn)管理角度,對各機構的數(shù)據(jù)責任與權力、貢獻與共享等進行評估,這就屬于數(shù)據(jù)認責范疇了。
數(shù)據(jù)認責是從全局角度,對各機構的數(shù)據(jù)進行管理職責的分解與認定,明確彼此間的資源供需邊界及協(xié)作機制,以建立穩(wěn)定規(guī)范的數(shù)據(jù)治理體系;如責任與邊界不清往往造成多頭管理或“三不管”的情況,直接影響政務服務的效率與績效。對于大數(shù)據(jù)中心,如不開展認責,則相關職責也就將由自己一肩承擔,很快就會感覺“帶不動”,舉步維艱。面對各渠道來的資源,如“數(shù)據(jù)含義是什么”“數(shù)據(jù)質(zhì)量如何”“誰能提供權威數(shù)據(jù)”“哪些數(shù)據(jù)可歸并”等問題均無法肯定回答。這實際上是能力與責任的不對稱,需要針對“聚、通、用”對數(shù)據(jù)管理職責重新認定與分配。
數(shù)據(jù)管理覆蓋數(shù)據(jù)生存周期各環(huán)節(jié),數(shù)據(jù)責任同樣對應存在于每一項數(shù)據(jù)管理和應用之中,應由各機構的數(shù)據(jù)提供者、業(yè)務認責方、操作認責方以及技術認責方等角色分擔。具體認責如下:
①對政務數(shù)據(jù)提供者:主要負責制定數(shù)據(jù)管控政策,維護數(shù)據(jù)供應目錄并分配數(shù)據(jù)認責權限;②對業(yè)務主導方:主要負責明確數(shù)據(jù)定義,制定數(shù)據(jù)標準、質(zhì)量規(guī)則、安全規(guī)則并監(jiān)控相關數(shù)據(jù)問題,同時也是對應數(shù)據(jù)的責任主體;③對操作認責方:主要負責執(zhí)行數(shù)據(jù)管理規(guī)則,錄入各項數(shù)據(jù)并解決相關數(shù)據(jù)問題;④對技術認責方,主要負責為數(shù)據(jù)管理提供技術支持,推動數(shù)據(jù)架構、標準和規(guī)則等內(nèi)容的落地。
在數(shù)據(jù)質(zhì)量測評的基礎上,我們將首先梳理認責數(shù)據(jù)項,即對哪些數(shù)據(jù)進行認責管理。政務數(shù)據(jù)歸集了成千上萬的數(shù)據(jù)項,對認責來說數(shù)量巨大,也意味著工作量巨大,不可能一蹴而就,需要分批次進行。同時,從電子政務效用出發(fā),人們會對數(shù)據(jù)認責抱以價值期望。因此,在認責數(shù)據(jù)項的梳理和篩選上可采用“問題+價值”雙驅動的策略,即優(yōu)先對問題多發(fā)且業(yè)務影響較大的數(shù)據(jù)項開展認責管理,通過責任落實改善提升數(shù)據(jù)質(zhì)量,從而控制和解決問題,支撐業(yè)務發(fā)揮價值。為此,將通過數(shù)據(jù)治理建立一套數(shù)據(jù)問題的歸集、分析和管控機制,以及高業(yè)務價值核心數(shù)據(jù)項的識別方法。
其次將梳理認責關系矩陣,即數(shù)據(jù)各項責任與機構、崗位、人員間的對應關系。而后,將相關數(shù)據(jù)責任落實到對應崗位人員的日常工作和數(shù)據(jù)操作中。數(shù)據(jù)責任的落實通??梢耘c數(shù)據(jù)質(zhì)量整治工作結合進行,在明確崗位人員數(shù)據(jù)責任的同時,同步明確責任落實要求,例如數(shù)據(jù)錄入責任與數(shù)據(jù)項錄入規(guī)范的同步執(zhí)行,通過規(guī)范錄入行為以及糾正錄入錯誤強化責任意識。
本次數(shù)據(jù)治理雖取得了一定成果,但對圖1的9 環(huán)節(jié)治理要素,畢竟目前只是從其中之一切入的。下一步仍不能全面展開,而要結合數(shù)據(jù)質(zhì)量管理+數(shù)據(jù)認責形成雙輪驅動的治理機制。除大數(shù)據(jù)中心將統(tǒng)一建立與維護公共數(shù)據(jù)元池,對各單位的公用數(shù)據(jù)元與實體數(shù)據(jù)進行統(tǒng)一轉換映射,提升其標準化與質(zhì)量水平外,還要開展相應的認責機制建設。具體思路是:①定角色,劃職責;②建機制,定規(guī)范;③構建數(shù)據(jù)責任管理網(wǎng)絡;④推進相應的組織與文化變革等。
綜之,數(shù)據(jù)治理項目不單單是搭建一個集團級的平臺,而是一項長期而復雜的工程,涉及到數(shù)據(jù)管理體系、數(shù)據(jù)標準、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量和認責、相關系統(tǒng)升級改造、數(shù)據(jù)清洗等多個方面。項目建設依據(jù)快速見效、急用先建的思路,先整體規(guī)劃,以數(shù)據(jù)模型和數(shù)據(jù)標準為基礎,以數(shù)據(jù)治理管理平臺為載體,并開展數(shù)據(jù)治理專項工作,確保數(shù)據(jù)治理項目的成功,為實現(xiàn)有效的數(shù)據(jù)資源整合夯實基礎。