孫文凱 張孝臨 姜山紅 張 軍 孫祎楠
1.遼寧科技大學計算機與軟件工程學院 遼寧 鞍山 114000
2.鞍鋼集團礦業(yè)有限公司 遼寧 鞍山 114000
作為數(shù)字經(jīng)濟的核心生產(chǎn)要素,數(shù)據(jù)正成為經(jīng)濟轉型和發(fā)展的新引擎,以及社會治理的有效工具。隨著5G、寬帶業(yè)務、網(wǎng)格化運營的發(fā)展,涉及的數(shù)據(jù)量也在不斷上升。伴隨數(shù)據(jù)量的增多,企業(yè)面對的問題和調(diào)整以隨之增加。
我們在面對大量數(shù)據(jù)時,數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)使用問題和數(shù)據(jù)安全問題都是值得關注也是經(jīng)常遇到的三個問題。伴隨著數(shù)據(jù)平臺及數(shù)據(jù)日益復雜,數(shù)據(jù)也存在著開發(fā)投入大數(shù)據(jù)價值密度低,冗余數(shù)據(jù)增多,運維困難等問題。
我們在面對大量數(shù)據(jù)時,數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)使用問題和數(shù)據(jù)安全問題都是值得關注也是經(jīng)常遇到的三個問題。伴隨著數(shù)據(jù)平臺及數(shù)據(jù)日益復雜,數(shù)據(jù)也存在著開發(fā)投入大數(shù)據(jù)價值密度低,冗余數(shù)據(jù)增多,運維困難等問題。
在整個數(shù)據(jù)治理過程中,我們認為數(shù)據(jù)治理是和數(shù)據(jù)資產(chǎn)是融合的,每一個治理方案都有一套單獨的治理體系。我們預期的數(shù)據(jù)治理模式是和數(shù)據(jù)生成過程是融合的,不應該是一套孤立的體系。數(shù)據(jù)治理同生產(chǎn),最好做到的是事前治理,事中治理。是同數(shù)據(jù)生產(chǎn)是貫穿的,盡量避免事后補救治理[1]。
首先對企業(yè)元數(shù)據(jù)進行采集。在數(shù)據(jù)采集方便數(shù)據(jù)管理,針對不同格式的數(shù)據(jù)做了分類的模型,模型對應數(shù)據(jù)庫中各種表結構。可以采用多種方式進行針對數(shù)據(jù)進行采集??梢酝ㄟ^數(shù)據(jù)庫導入。在使用數(shù)據(jù)庫導入,手動選好數(shù)據(jù)庫,選好表,也可以自擬規(guī)則進行篩選。另外我們希望的是系統(tǒng)可以進行自動導入,我們可以寫好定時任務,在規(guī)定時間點進行數(shù)據(jù)反向工程導入,同時檢測數(shù)據(jù)表是否發(fā)生過改動當檢測到數(shù)據(jù)改動,我們同樣將數(shù)據(jù)版本體現(xiàn)到數(shù)據(jù)庫上。同時我們還可以對導入的元數(shù)據(jù)進行更深層次的管理,可以對數(shù)據(jù)進行脫敏標記,是否選擇加密,是否定期清理和備份等等。
將采集的元數(shù)據(jù)形成資產(chǎn)目錄。根據(jù)不企業(yè)不同模式,形成不同的目錄類型。在管理者界面中方便管理和查看數(shù)據(jù)。
將資產(chǎn)信息根據(jù)資產(chǎn)目錄進行導入,進一步完善資產(chǎn)業(yè)務信息。我們將最后形成的數(shù)據(jù)統(tǒng)一放入信息中心,在信息中心我們可以查看到各種各樣的數(shù)據(jù),同樣可以選擇對應的庫進行直接或者間接檢索數(shù)據(jù),并含有多種檢索方式,提供用戶去檢索。
維護完成會形成資產(chǎn)數(shù)據(jù)知識庫,形成知識庫就方便用戶查閱,用戶資產(chǎn)申請。在形成數(shù)據(jù)庫在宏觀上會形成數(shù)據(jù)地圖。在用戶數(shù)據(jù)申請的過程中也會設計數(shù)據(jù)安全方面的問題,對數(shù)據(jù)進行脫敏處理,添加數(shù)據(jù)水印的能力做一個貫穿。[2]
針對數(shù)據(jù)安全方面,我們針對不同數(shù)據(jù)進行定義不同等級,打上安全級別標簽。在數(shù)據(jù)保護過程中同樣給出一定的安全存儲建議。同時也標記訪問和導出建議,以保證數(shù)據(jù)安全性。相對數(shù)據(jù)敏感度低的數(shù)據(jù),部分數(shù)據(jù)需要明文還是密文加密處理等等。[3]
除此之外,我們還定義了敏感信息數(shù)據(jù)規(guī)則,像電話號身份證等等規(guī)則,自由度很高也可以自定義規(guī)則手寫正則表達式的方式去形成最終的過濾規(guī)則。
制定數(shù)據(jù)標準體系,在治理中主要分為兩條鏈路,一個是層量,另一個是增量。層量的方式是一種被動的方式進行治理維護。增量就是對數(shù)據(jù)進行強管控的方式,我們要做的就是管好增量,把層量在特定時間內(nèi)進行處置。
針對標準體系建模,目前標準主要分為一下幾種標準。主要有字段標準,詞根標準,分層分域標準,前后綴標準,術語標準,指標標準,維度標準。這些標準針對數(shù)據(jù)治理都有著不同的作用。字段標準為例,在創(chuàng)建表數(shù)據(jù)時,我們使用這些標準來針對數(shù)據(jù)庫進行命名,而不是根據(jù)自己一套標準去修改的命名格式。使用這種方式對數(shù)據(jù)進行整合的時候有以下幾個優(yōu)點,在收集身份信息的時候使用相同的標準方便對數(shù)據(jù)進行整合,方便數(shù)據(jù)進行管理和關聯(lián)性的處理。同時,使用同一套標準也能方便大家理解數(shù)據(jù)所代表含義。通過標準能讓大家形成一套相同的數(shù)據(jù)語言,方便管理人員還開發(fā)人員針對數(shù)據(jù)整合和管理交流,都是可以規(guī)避交流困難的障礙,減少數(shù)據(jù)歧義。同時我們管理者也可以根據(jù)自己規(guī)定一套數(shù)據(jù)標準體系進行規(guī)劃數(shù)據(jù)。
數(shù)據(jù)標準稽核,在數(shù)據(jù)發(fā)布之前的一種檢查機制,任務上線前,提供標準化的檢查機制。分為以下幾個部分對數(shù)據(jù)進行打分,表命名規(guī)范,字段命名規(guī)范,在任務發(fā)布是否存在大表掃描等等不合規(guī)的情況,臨時表有沒有清理的檢查,在事前進行一個強管控的檢查在數(shù)據(jù)治理前進行檢查動作。[4]
數(shù)據(jù)稽核規(guī)則配置,更多的是從數(shù)據(jù)質(zhì)量進行保障,系統(tǒng)提供很多提供規(guī)則,像數(shù)據(jù)是否關聯(lián),數(shù)據(jù)表是否一致,表和表之間,文件和文件之間是否有一致性。規(guī)范性稽查,查看數(shù)據(jù)是否非空,是否超長方面進行稽查。波動性稽查,主要是查看趨勢的波動,準確性稽查等等。在一定稽核中可以使用規(guī)定的稽核腳本模板進行對數(shù)據(jù)進行稽核,另一種方式就是使用自寫腳本片段的方式進行稽核,去拼接稽核體系。
數(shù)據(jù)質(zhì)量稽核,我們可以對數(shù)據(jù)質(zhì)量進行檢查,我們可以創(chuàng)建,可以添加具體某一張表,去選擇目標模式,最終選擇規(guī)則上的指定,最終形成檢查的邏輯,會根據(jù)需要進行執(zhí)行??梢允褂弥芷谛缘姆绞?也可以使用一次性的方式。更多的稽核工具需要結合ETL工具進行貫穿。ETL的方式就是使用稽核過程和數(shù)據(jù)調(diào)度的過程進行融合。
數(shù)據(jù)質(zhì)量問題預警,我們將稽核的結果問題進行統(tǒng)計列表,將出現(xiàn)問題的稽核數(shù)據(jù)列表發(fā)送給稽核數(shù)據(jù)責任人的手中,形成數(shù)據(jù)處理的閉環(huán)。
我們在數(shù)據(jù)治理的過程中,表和模型都是有聲明周期,我們通過識別數(shù)據(jù)使用的情況,我們創(chuàng)建了一套數(shù)據(jù)熱度分析的體系。
數(shù)據(jù)熱度信息采集,主要從數(shù)據(jù)庫執(zhí)行日志的視角進行采集信息,數(shù)據(jù)庫平臺獲取數(shù)據(jù)庫操作日志,通過日志獲取表使用情況。如果單單依靠數(shù)據(jù)表的情況是遠遠不夠的,另外也可以使用數(shù)據(jù)庫瀏覽的熱度,瀏覽權重,數(shù)字化起源依賴進行評估。便依此針對數(shù)據(jù)熱度進行打分,評估出來的數(shù)據(jù)熱度高的數(shù)據(jù)我們需要做的就是保障。相反,熱度低的數(shù)據(jù)是否考慮做數(shù)據(jù)下線的處理。在熱度處理的時候也考慮數(shù)據(jù)血緣的關系,部分數(shù)據(jù)可能在用戶使用占比較少,但是在維護整個數(shù)據(jù)關系發(fā)揮著巨大的作用,我們便以此對表進行加權處理。這樣在數(shù)據(jù)處理會有著更加客觀的治理體系和能力,方便運維人員參考和指導意義。[5]
我們通過熱源分析,可以找到數(shù)據(jù)熱度分布圖,找到數(shù)據(jù)熱度主要分布的數(shù)據(jù)庫。找到拓撲分部還有數(shù)據(jù)趨勢的分析??梢詫?shù)據(jù)熱度詳情的方式進行導出。
在解決礦山數(shù)據(jù)時,根據(jù)礦山數(shù)據(jù)源特點,礦山數(shù)據(jù)在治理過程中會面臨著治理困難,冗余度高等缺點,在導入系統(tǒng)的時候會重新生成一份心得模型表,來協(xié)助礦山數(shù)據(jù)治理。[6]
通過導入的數(shù)據(jù),創(chuàng)建資產(chǎn)虛擬目錄,方便礦山系統(tǒng)管理者維護信息資產(chǎn)。導入完礦山數(shù)據(jù)后,會形成數(shù)據(jù)知識庫。安流程進行導入和治理數(shù)據(jù)。[7]
在導入完快閃數(shù)據(jù)后我們便可以根據(jù)礦山數(shù)據(jù)制定特定的數(shù)據(jù)標準管理體系。建立相對于的數(shù)據(jù)模型,建立好的數(shù)據(jù)模型,便可以針對礦山老數(shù)據(jù)平臺進行在平臺的虛擬重構。重新定義表結構,重新定義表名稱和落地標準。這樣對數(shù)據(jù)庫再次進行操作便可以開啟稽核,準許符合稽核規(guī)則標準的數(shù)據(jù),過濾不合規(guī)則的危險數(shù)據(jù)。[8]當出現(xiàn)稽核預警危險時,將問題提交給礦山數(shù)據(jù)管理人員,這樣便可以針對礦山數(shù)據(jù)進行重構處理,對后期礦山數(shù)據(jù)維護起來更加方便。在礦山數(shù)據(jù)上線數(shù)據(jù)治理中臺時,我們便可以根據(jù)血緣分析標簽,針對血緣對數(shù)據(jù)進行標簽化處理,評估數(shù)據(jù)熱度。形成一個綜合數(shù)據(jù)熱度圖,我們便可以參照這一熱度圖進行數(shù)據(jù)處理,熱數(shù)據(jù)我們便加權維護處理,相對冷數(shù)據(jù)我們便可以進行推薦下線處理。這樣高熱的數(shù)據(jù)得以維護,地熱的數(shù)據(jù)也可以減少數(shù)據(jù)庫冗余,優(yōu)化數(shù)據(jù)庫結構。
在了解大數(shù)據(jù)治理中臺體系中,了解到了大數(shù)據(jù)治理平臺管理方法。數(shù)據(jù)治理在近年來是個火熱的詞,他的出現(xiàn)實現(xiàn)了老數(shù)據(jù)的管理和維護變得運籌帷幄。
在大數(shù)據(jù)平臺階段,用戶對數(shù)據(jù)信息的需求持續(xù)上升,用戶范疇從數(shù)據(jù)信息部門拓展到全企業(yè),數(shù)據(jù)治理無法再僅僅面向數(shù)據(jù)信息部門了,需用變?yōu)槊嫦蛉髽I(yè)用戶的辦公環(huán)境,需用以全企業(yè)用戶為中心,從給用戶提供服務的角度,管控好數(shù)據(jù)信息的同時為用戶提供自助式獲得大數(shù)據(jù)的能力,幫助企業(yè)實現(xiàn)數(shù)字化轉型。
在以往數(shù)據(jù)模型包括礦山數(shù)據(jù)在內(nèi)的老數(shù)據(jù)模型,都存在這治理困難,維護困難等等問題,我們逐漸的將老的數(shù)據(jù)去架構到新的數(shù)據(jù)治理中臺體系中,老的數(shù)據(jù)冗余度高的數(shù)據(jù)便可以變得容易維護,可操作,降冗余,減輕服務器負擔,提升管理者管理數(shù)據(jù)困難程度。
在以往數(shù)據(jù)中都是靠著主外鍵關系來確定各個表之間的關系網(wǎng),有了數(shù)據(jù)治理中臺我們便可以通過這一中臺通過界面化可視化的方式去進一步了解和理解礦山數(shù)據(jù)表各個數(shù)據(jù)分部和聯(lián)系關系。
現(xiàn)階段各領域都開始了大數(shù)據(jù)平臺的搭建,期望運用大數(shù)據(jù)的能力,來實現(xiàn)數(shù)字化轉型。大數(shù)據(jù)平臺的搭建實際上還是數(shù)據(jù)信息的搭建,傳統(tǒng)型數(shù)據(jù)平臺遇到的全部難題大數(shù)據(jù)平臺都會有可能遇到,鑒于數(shù)據(jù)信息量級的發(fā)生變化,大數(shù)據(jù)平臺必定還會出現(xiàn)新的難題。
大數(shù)據(jù)時代,企業(yè)急需建立以用戶為中心的自服務大數(shù)據(jù)治理,信息梳理、數(shù)據(jù)管控、連接用戶、智能化是實現(xiàn)自服務大數(shù)據(jù)治理的四個主要階段,掌握一系列關鍵技術和技術原則,是實現(xiàn)自服務大數(shù)據(jù)治理的重要基礎。