吳信東,董丙冰,堵新政,楊 威
1(明略科技集團(tuán),北京 100084)
2(合肥工業(yè)大學(xué) 大知識科學(xué)研究院,安徽 合肥 230009)
3(大數(shù)據(jù)知識工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230009)
4(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601)
通訊作者:吳信東,E-mail:wuxindong@mininglamp.com
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)規(guī)模逐漸擴(kuò)大.與此同時,劣質(zhì)數(shù)據(jù)也隨之而來,極大地降低了數(shù)據(jù)挖掘的質(zhì)量,對信息社會造成了嚴(yán)重的困擾[1].劣質(zhì)數(shù)據(jù)大量存在于很多領(lǐng)域和機(jī)構(gòu),國外權(quán)威機(jī)構(gòu)的統(tǒng)計(jì)表明:美國的企業(yè)信息系統(tǒng)中,1%~30%的數(shù)據(jù)具有各種錯誤和誤差[2];13.6%~81%的關(guān)鍵數(shù)據(jù)不完整或陳舊情況存在于美國的醫(yī)療信息系統(tǒng)中[3].根據(jù)Gartner 的調(diào)查結(jié)果:在全球財富1 000 強(qiáng)的企業(yè)中,超過25%的企業(yè)信息系統(tǒng)中存在錯誤數(shù)據(jù)[4].
大多數(shù)組織不考慮數(shù)據(jù)質(zhì)量對大數(shù)據(jù)平臺建設(shè)、分析應(yīng)用等方面的重要影響而盲目投入,缺乏對大數(shù)據(jù)資源的整體規(guī)劃和綜合治理,最終導(dǎo)致一些項(xiàng)目實(shí)施的終止和失敗.項(xiàng)目的失敗和數(shù)據(jù)量的激增,使得數(shù)據(jù)治理的重要性逐步得到工業(yè)界和學(xué)術(shù)界的共識.隨著國家政策支持以及產(chǎn)業(yè)實(shí)際需求的增長,如何通過數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力、消除數(shù)據(jù)孤島、挖掘數(shù)據(jù)潛在的價值,將成為重點(diǎn)發(fā)展領(lǐng)域.
數(shù)據(jù)治理的重要前提是建設(shè)統(tǒng)一共享的數(shù)據(jù)平臺,信息系統(tǒng)的建設(shè)發(fā)展到一定階段,數(shù)據(jù)資源將成為戰(zhàn)略資產(chǎn),而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件.同時,在數(shù)據(jù)共享的時代,享受大數(shù)據(jù)帶來便利的同時,也帶來如個人隱私泄露的問題[5].個人隱私信息泄露事件頻繁發(fā)生,使得人們更加注重保護(hù)個人的隱私信息,通常采取一些措施,如在進(jìn)行網(wǎng)站注冊時故意填寫虛假信息,這將會嚴(yán)重的影響數(shù)據(jù)的質(zhì)量和完整性,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果.數(shù)據(jù)治理不僅要規(guī)范數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的價值和管控風(fēng)險,還要做到隱私保護(hù).
本文首先對數(shù)據(jù)治理做全面的分析,然后介紹我們自己設(shè)計(jì)的大數(shù)據(jù)治理模型.本文第1 節(jié)介紹數(shù)據(jù)治理的定義和發(fā)展趨勢.第2 節(jié)介紹數(shù)據(jù)規(guī)范技術(shù)的內(nèi)涵以及應(yīng)用方法.第3 節(jié)介紹數(shù)據(jù)清洗的背景以及清洗的基本方法.第4 節(jié)對數(shù)據(jù)交換的基本概念及其實(shí)現(xiàn)模式進(jìn)行闡述.第5 節(jié)介紹數(shù)據(jù)集成技術(shù)的基本概念和數(shù)據(jù)集成的方法,并說明這些方法的應(yīng)用場景.第6 節(jié)從數(shù)據(jù)治理的成熟度模型開始,引出數(shù)據(jù)治理框架.第7 節(jié)對我們提出的HAO 治理模型進(jìn)行詳細(xì)說明.第8 節(jié)以公安數(shù)據(jù)治理為例,具體介紹治理模型的具體應(yīng)用.最后是對數(shù)據(jù)治理技術(shù)的總結(jié)與展望.
至今為止,數(shù)據(jù)治理還沒有統(tǒng)一標(biāo)準(zhǔn)的定義.IBM 對于數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是一種質(zhì)量控制規(guī)程,用于在管理、使用、改進(jìn)和保護(hù)組織信息的過程中添加新的嚴(yán)謹(jǐn)性和紀(jì)律性[6].DGI 則認(rèn)為,數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)管理中分配決策權(quán)和相關(guān)職責(zé)[6].
數(shù)據(jù)治理的目標(biāo),總體來說就是提高數(shù)據(jù)質(zhì)量,在降低企業(yè)風(fēng)險的同時,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價值的最大化,包括:
· 構(gòu)筑適配靈活、標(biāo)準(zhǔn)化、模塊化的多源異構(gòu)數(shù)據(jù)資源接入體系;
· 建設(shè)規(guī)范化、流程化、智能化的數(shù)據(jù)處理體系;
· 打造數(shù)據(jù)精細(xì)化治理體系、組織的數(shù)據(jù)資源融合分類體系;
· 構(gòu)建統(tǒng)一調(diào)度、精準(zhǔn)服務(wù)、安全可用的信息共享服務(wù)體系.
其次,我們還需理解數(shù)據(jù)治理的職能——數(shù)據(jù)治理提供了將數(shù)據(jù)作為資產(chǎn)進(jìn)行管理所需的指導(dǎo).最后,我們要把握數(shù)據(jù)治理的核心——數(shù)據(jù)資產(chǎn)管理的決策權(quán)分配和指責(zé)分工[7].
由此,數(shù)據(jù)治理從本質(zhì)上看就是對一個機(jī)構(gòu)(企業(yè)或政府部門)的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評估、指導(dǎo)和監(jiān)督(EDM)的過程,通過提供不斷創(chuàng)新的數(shù)據(jù)服務(wù),為企業(yè)創(chuàng)造價值[6].
數(shù)據(jù)治理與數(shù)據(jù)管理是兩個十分容易混淆的概念,治理和管理從本質(zhì)上看是兩個完全不同的活動,但是存在一定的聯(lián)系,下面我們對這兩個概念進(jìn)行詳細(xì)的解讀.
COBIT5(control objectives for information and related technology)對管理的定義:管理是按照治理機(jī)構(gòu)設(shè)定的方向開展計(jì)劃、建設(shè)、運(yùn)營和監(jiān)控活動來實(shí)現(xiàn)企業(yè)目標(biāo)[6].所以,治理過程是對管理活動的評估、指導(dǎo)和監(jiān)督,而管理過程是對治理決策的計(jì)劃、建設(shè)和運(yùn)營.具體分析:首先,數(shù)據(jù)治理與數(shù)據(jù)管理包含不同的活動即職能,數(shù)據(jù)治理包括評估指導(dǎo)和監(jiān)督,數(shù)據(jù)管理包括計(jì)劃建設(shè)和運(yùn)營;其次,數(shù)據(jù)治理是回答企業(yè)決策的相關(guān)問題并制定數(shù)據(jù)規(guī)范,而數(shù)據(jù)管理是實(shí)現(xiàn)數(shù)據(jù)治理提出的決策并給予反饋;最后,數(shù)據(jù)治理和數(shù)據(jù)管理的責(zé)任主體也是不同的,前者是董事會,后者是管理層.
近年來,大數(shù)據(jù)已成為國內(nèi)外專家學(xué)者研究的熱點(diǎn)話題,目前基本上采用IBM 的5V 模型描述大數(shù)據(jù)的特征:第1 個V(volume)是數(shù)據(jù)量大,包括采集、存儲和計(jì)算的量都非常大;第2 個V(velocity)是數(shù)據(jù)增長速度快,處理速度也快,時效性要求高;第3 個V(variety)是種類和來源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第4 個V(value)是數(shù)據(jù)價值密度相對較低,可以說是浪里淘沙卻又彌足珍貴;第五個V(veracity)是各個數(shù)據(jù)源的質(zhì)量良莠不齊,需要精心甄別[8].隨著數(shù)據(jù)量的激增,可以用“5V+I/O”——體量、速度、多樣性、數(shù)據(jù)價值和質(zhì)量以及數(shù)據(jù)在線來概括其特征.這里的“I/O”是指數(shù)據(jù)永遠(yuǎn)在線,可以隨時調(diào)用和計(jì)算,這個特征是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的區(qū)別.
2014 年,吳信東等人基于大數(shù)據(jù)具有異構(gòu)、自治的數(shù)據(jù)源以及復(fù)雜和演變的數(shù)據(jù)關(guān)聯(lián)等本質(zhì)特征,提出了HACE 定理[9].該定理從大數(shù)據(jù)的數(shù)據(jù)處理、領(lǐng)域應(yīng)用及數(shù)據(jù)挖掘這3 個層次(如圖1 所示)來刻畫大數(shù)據(jù)處理框架[8].
框架的第1 層是大數(shù)據(jù)計(jì)算平臺,該層面臨的挑戰(zhàn)集中在數(shù)據(jù)存取和算法計(jì)算過程上;第2 層是面向大數(shù)據(jù)應(yīng)用的語義和領(lǐng)域知識,該層的挑戰(zhàn)主要包括信息共享和數(shù)據(jù)隱私、領(lǐng)域和應(yīng)用知識這兩個方面;架構(gòu)的第3層集中在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法設(shè)計(jì)上:稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜動態(tài)的數(shù)據(jù)以及局部學(xué)習(xí)和模型融合[9].第3 層的3 類算法對應(yīng)3 個階段:首先,通過數(shù)據(jù)融合技術(shù)對稀疏、異構(gòu)、不確定、不完整和多源數(shù)據(jù)進(jìn)行預(yù)處理;其次,在預(yù)處理之后,挖掘復(fù)雜和動態(tài)的數(shù)據(jù);最后,通過局部學(xué)習(xí)和模型融合獲得的全局知識進(jìn)行測試,并將相關(guān)信息反饋到預(yù)處理階段,預(yù)處理階段根據(jù)反饋調(diào)整模型和參數(shù)[9].
Fig.1 A big data processing framework[9]圖1 大數(shù)據(jù)處理框架[9]
面對大數(shù)據(jù)興起帶來的挑戰(zhàn),為了促進(jìn)大數(shù)據(jù)治理的發(fā)展和變革,目前業(yè)界比較權(quán)威的大數(shù)據(jù)治理定義是:大數(shù)據(jù)治理是廣義信息治理計(jì)劃的一部分,它通過協(xié)調(diào)多個職能部門的目標(biāo),來制定與大數(shù)據(jù)優(yōu)化、隱私與貨幣化相關(guān)的策略[10].此定義指出:大數(shù)據(jù)的優(yōu)化、隱私保護(hù)以及商業(yè)價值是大數(shù)據(jù)治理的重點(diǎn)關(guān)注領(lǐng)域,大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的一個新階段,與數(shù)據(jù)治理相比,各種需求的解決在大數(shù)據(jù)治理中變得更加重要和富有挑戰(zhàn)性[6].
· 海量數(shù)據(jù)存儲:根據(jù)本地實(shí)際數(shù)據(jù)量級和存儲處理能力,結(jié)合集中式或分布式等數(shù)據(jù)資源的存儲方式進(jìn)行構(gòu)建,為大數(shù)據(jù)平臺提供PB 級數(shù)據(jù)的存儲及備份能力支撐.云計(jì)算[11,12]作為一種新型的商業(yè)模式,它所提供的存儲服務(wù)具有專業(yè)、經(jīng)濟(jì)和按需分配的特點(diǎn),可以滿足大數(shù)據(jù)的存儲需求;
· 處理效率:大數(shù)據(jù)治理提供多樣化的海量數(shù)據(jù)接入及處理能力,包括對各類批量、實(shí)時、準(zhǔn)實(shí)時及流式的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供快速的計(jì)算能力和搜索能力,比如數(shù)據(jù)加載能力≥130MB/s、億級數(shù)據(jù)秒級檢索、百億數(shù)據(jù)實(shí)時分析≤10s、千億數(shù)據(jù)離線分析≤30m 等等.對于大數(shù)據(jù)的搜索能力方面,為了保證數(shù)據(jù)安全,大數(shù)據(jù)在云計(jì)算平臺上的存儲方式一般為密文存儲,因此,研究人員設(shè)計(jì)了很多保護(hù)隱私的密文搜索算法[13-22],基于存儲在云平臺上大數(shù)據(jù)的計(jì)算安全問題的解決方法一般采用比較成熟的完全同態(tài)加密算法[23-29];
· 數(shù)據(jù)可靠性:圍繞行業(yè)數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)規(guī)定,基于行業(yè)元數(shù)據(jù)體系打造大數(shù)據(jù)平臺采集匯聚、加工整合、共享服務(wù)等全過程的、端到端的數(shù)據(jù)質(zhì)量稽核管控體系,確保數(shù)據(jù)準(zhǔn)確可靠;
· 數(shù)據(jù)安全性:數(shù)據(jù)價值是大數(shù)據(jù)平臺的核心價值,所以數(shù)據(jù)的安全是保證平臺運(yùn)行的基礎(chǔ).數(shù)據(jù)安全包括數(shù)據(jù)存儲的安全、數(shù)據(jù)傳輸過程中的安全,數(shù)據(jù)的一致性、數(shù)據(jù)訪問安全等,如圖2 所示.數(shù)據(jù)安全的總體目標(biāo)是保證數(shù)據(jù)的存儲、傳輸、訪問、展示和導(dǎo)出安全.數(shù)據(jù)安全措施主要有數(shù)據(jù)脫敏控制[30]、數(shù)據(jù)加密控制、防拷貝管理、防泄漏管理、數(shù)據(jù)權(quán)限管理、數(shù)據(jù)安全等級管理等.
Fig.2 Data application security schematic圖2 數(shù)據(jù)應(yīng)用安全示意圖
而數(shù)據(jù)治理技術(shù)就是在數(shù)據(jù)治理的過程中所用到的技術(shù)工具,其中主要包括數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成這4 種技術(shù),下面具體介紹這4 種技術(shù).
數(shù)據(jù)治理的處理對象是海量分布在各個系統(tǒng)中的數(shù)據(jù),這些不同系統(tǒng)的數(shù)據(jù)往往存在一定的差異:數(shù)據(jù)代碼標(biāo)準(zhǔn)、數(shù)據(jù)格式、數(shù)據(jù)標(biāo)識都不一樣,甚至可能存在錯誤的數(shù)據(jù).這就需要建立一套標(biāo)準(zhǔn)化的體系,對這些存在差異的數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn),符合行業(yè)的規(guī)范,使得在同樣的指標(biāo)下進(jìn)行分析,保證數(shù)據(jù)分析結(jié)果的可靠性.例如,對于數(shù)據(jù)庫的屬性值而言,可以建立唯一性規(guī)則、連續(xù)性規(guī)則以及空值規(guī)則等來對數(shù)據(jù)進(jìn)行檢驗(yàn)和約束:唯一性規(guī)則一般是指為主鍵或其他屬性填寫unique 約束,使得給定屬性的每個值與該屬性的其他值不同;連續(xù)性規(guī)則是指屬性的最大值和最小值之間沒有缺失值并且每個值也是唯一的,一般用于檢驗(yàn)數(shù);空值規(guī)則是指使用其他特殊符號來代替空值,以及對于這樣的值應(yīng)該如何處理.
數(shù)據(jù)的規(guī)范化能夠提高數(shù)據(jù)的通用性、共享性、可移植性及數(shù)據(jù)分析的可靠性.所以,在建立數(shù)據(jù)規(guī)范時要具有通用性,遵循行業(yè)的或者國家的標(biāo)準(zhǔn).
數(shù)據(jù)治理過程中可使用的數(shù)據(jù)規(guī)范方法有:規(guī)則處理引擎、標(biāo)準(zhǔn)代碼庫映射.
(1)規(guī)則處理引擎
數(shù)據(jù)治理為每個數(shù)據(jù)項(xiàng)制定相關(guān)聯(lián)的數(shù)據(jù)元標(biāo)準(zhǔn),并為每個標(biāo)準(zhǔn)數(shù)據(jù)元定義一定的處理規(guī)則,這些處理邏輯包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)拼接賦值等.基于機(jī)器學(xué)習(xí)等技術(shù),對數(shù)據(jù)字段進(jìn)行認(rèn)知和識別,通過數(shù)據(jù)自動對標(biāo)技術(shù),解決在數(shù)據(jù)處理過程中遇到的數(shù)據(jù)不規(guī)范的問題.
· 根據(jù)數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)定義規(guī)則模板,圖3 中“出生日期”的規(guī)則如下所示。
? 值域稽核規(guī)則:YYYY:MM:DD 或YYYY-MM-DD;
? 取值范圍規(guī)則:1900 · 將數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)庫數(shù)據(jù)項(xiàng)對應(yīng)。 借助機(jī)器學(xué)習(xí)推薦來簡化人工操作,根據(jù)語義相似度和采樣值域測試,推薦相似度最高的數(shù)據(jù)項(xiàng)關(guān)聯(lián)數(shù)據(jù)表字段,并根據(jù)數(shù)據(jù)特點(diǎn)選擇適合的轉(zhuǎn)換規(guī)則進(jìn)行自動標(biāo)準(zhǔn)化測試.根據(jù)數(shù)據(jù)項(xiàng)的規(guī)則模板自動生成字段的稽核任務(wù). 規(guī)則體系中包含很多數(shù)據(jù)處理的邏輯:將不同數(shù)據(jù)來源中各種時間格式的數(shù)據(jù)項(xiàng),轉(zhuǎn)化成統(tǒng)一的時間戳(timestamp)格式;對數(shù)據(jù)項(xiàng)做加密或者哈希轉(zhuǎn)換;對身份證號做校驗(yàn),檢驗(yàn)是否為合法的18 位身份證號,如果是15 位的,則將其統(tǒng)一轉(zhuǎn)換成18 位;將多個數(shù)據(jù)項(xiàng)通過指定拼接符號,連接成一個數(shù)據(jù)項(xiàng);將某個常量或者變量值賦給某個數(shù)據(jù)項(xiàng)等. 規(guī)則庫中的規(guī)則可以多層級迭代,形成數(shù)據(jù)處理的一條規(guī)則鏈.規(guī)則鏈上,上一條規(guī)則的輸出作為下一條規(guī)則的輸入,通過規(guī)則的組合,能夠靈活地支持各種數(shù)據(jù)處理邏輯.例如:對身份證號先使用全角轉(zhuǎn)半角的規(guī)則,對輸出的半角值使用身份證校驗(yàn)轉(zhuǎn)換規(guī)則,統(tǒng)一成18 位的身份證號;再對18 位身份證號使用數(shù)據(jù)脫敏規(guī)則,將身份證號轉(zhuǎn)成脫敏后的字符串. Fig.3 Rule processing schematic圖3 規(guī)則處理示意圖 (2)標(biāo)準(zhǔn)代碼庫映射 標(biāo)準(zhǔn)代碼庫是基于國標(biāo)或者通用的規(guī)范建立的key-value 字典庫,字典庫遵循國標(biāo)值域、公安裝備資產(chǎn)分類與代碼等標(biāo)準(zhǔn)進(jìn)行構(gòu)建.當(dāng)數(shù)據(jù)項(xiàng)的命名為XXXDM(XXX 代碼)時,根據(jù)字典庫的國標(biāo)或部標(biāo)代碼,通過字典規(guī)則關(guān)聯(lián)出與代碼數(shù)據(jù)項(xiàng)對應(yīng)的代碼名稱數(shù)據(jù)項(xiàng)XXXDMMC(XXX 代碼名稱). 例如,我們想要將所有表示性別“男”的字段都轉(zhuǎn)換成“男”這種同一的表示方式,可以先建立一個數(shù)據(jù)字典,其中的鍵的取值范圍是所有不同表示方式的集合,值為最終我們想要?dú)w一化表示的“男”. 使用數(shù)據(jù)轉(zhuǎn)換規(guī)則時查找數(shù)據(jù)字典,將所有不同的表示方式統(tǒng)一成一種表示方式. 數(shù)據(jù)質(zhì)量一般由準(zhǔn)確性、完整性、一致性、時效性、可信性以及可解釋性等特征來描述,根據(jù)Rahm 等人在2000 年對數(shù)據(jù)質(zhì)量基于單數(shù)據(jù)源還是多數(shù)據(jù)源以及問題出在模式層還是實(shí)例層的標(biāo)準(zhǔn)進(jìn)行分類,將數(shù)據(jù)質(zhì)量問題分為單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多數(shù)據(jù)源模式層問題和多數(shù)據(jù)源實(shí)例層問題這4 大類[31].現(xiàn)實(shí)生活中的數(shù)據(jù)極易受到噪聲、缺失值和不一致數(shù)據(jù)的侵?jǐn)_,數(shù)據(jù)集成可能也會產(chǎn)生數(shù)據(jù)不一致的情況,數(shù)據(jù)清洗就是識別并且(可能)修復(fù)這些“臟數(shù)據(jù)”的過程[32].如果一個數(shù)據(jù)庫數(shù)據(jù)規(guī)范工作做得好,會給數(shù)據(jù)清洗工作減少許多麻煩.對于數(shù)據(jù)清洗工作的研究基本上是基于相似重復(fù)記錄的識別與剔除方法展開的,并且以召回率和準(zhǔn)確率作為算法的評價指標(biāo)[33,34].現(xiàn)有的清洗技術(shù)大都是孤立使用的,不同的清洗算法作為黑盒子以順序執(zhí)行或以交錯方式執(zhí)行,而這種方法沒有考慮不同清洗類型規(guī)則之間的交互簡化了問題的復(fù)雜性,但這種簡化可能會影響最終修復(fù)的質(zhì)量,因此需要把數(shù)據(jù)清洗放在上下文中結(jié)合端到端質(zhì)量執(zhí)行機(jī)制進(jìn)行整體清洗[35].隨著大數(shù)據(jù)時代的到來,現(xiàn)在已經(jīng)有不少有關(guān)大數(shù)據(jù)清洗系統(tǒng)的研究[36,37],不僅有對于數(shù)據(jù)一致性[38-40]以及實(shí)體匹配[41]的研究,也有基于MapReduce 的數(shù)據(jù)清洗系統(tǒng)的優(yōu)化[42]研究.下面對數(shù)據(jù)清洗具體應(yīng)用技術(shù)以及相關(guān)算法進(jìn)行分析. 從微觀層面來看,數(shù)據(jù)清洗的對象分為模式層數(shù)據(jù)清洗和實(shí)例層數(shù)據(jù)清洗[43].數(shù)據(jù)清洗識別并修復(fù)的“臟數(shù)據(jù)”主要有錯誤數(shù)據(jù)、不完整的數(shù)據(jù)以及相似重復(fù)的數(shù)據(jù),根據(jù)“臟數(shù)據(jù)”分類,數(shù)據(jù)清洗也可以分為3 類:屬性錯誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗,下面分別對每種情況進(jìn)行具體分析. 3.2.1 屬性錯誤清洗 數(shù)據(jù)庫中很多數(shù)據(jù)違反最初定義的完整性約束,存在大量不一致的、有沖突的數(shù)據(jù)和噪聲數(shù)據(jù),我們應(yīng)該識別出這些錯誤數(shù)據(jù),然后進(jìn)行錯誤清洗. (1)屬性錯誤檢測 屬性錯誤檢測有基于定量的方法和基于定性的方法. · 定量的誤差檢測一般在離群點(diǎn)檢測的基礎(chǔ)上采用統(tǒng)計(jì)方法來識別異常行為和誤差,離群點(diǎn)檢測是找出與其他觀察結(jié)果偏離太多的點(diǎn),Aggarwal 將關(guān)于離群點(diǎn)檢測方法又分為6 種類型:極值分析、聚類模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型[44],并對這幾種模型進(jìn)行了詳盡的介紹; · 定性的誤差檢測一般依賴于描述性方法指定一個合法的數(shù)據(jù)實(shí)例的模式或約束,因此確定違反這些模式或者約束的就是錯誤數(shù)據(jù). 圖4 描述了定性誤差檢測技術(shù)在3 個不同方面的不同分類,下面我們對圖中提出的3 個問題進(jìn)行分析. · 首先,錯誤類型是指要檢測什么.定性誤差檢測技術(shù)可以根據(jù)捕捉到的錯誤類型來進(jìn)行分類,目前,大量的工作都是使用完整性約束來捕獲數(shù)據(jù)庫應(yīng)該遵守的數(shù)據(jù)質(zhì)量規(guī)則,雖然重復(fù)值也違反了完整性約束,但是重復(fù)值的識別與清洗是數(shù)據(jù)清洗的一個核心(在后續(xù)小節(jié)將會單獨(dú)介紹); · 其次,自動化檢測.根據(jù)人類的參與與否以及參與步驟來對定性誤差檢測技術(shù)進(jìn)行分類,大部分的檢測過程都是全自動化的,個別技術(shù)涉及到人類參與; · 最后,商業(yè)智能層是指在哪里檢測.錯誤可以發(fā)生在數(shù)據(jù)治理的任何階段,大部分的檢測都是針對原始數(shù)據(jù)庫的,但是有些錯誤只能在數(shù)據(jù)治理后獲得更多的語義和業(yè)務(wù)邏輯才能檢測出來. Fig.4 Classification of qualitative error detection techniques[45]圖4 定性誤差檢測技術(shù)分類[45] 不僅可以使用統(tǒng)計(jì)方法來對屬性錯誤進(jìn)行檢測,使用一些商業(yè)工具也可以進(jìn)行異常檢測,如數(shù)據(jù)清洗工具以及數(shù)據(jù)審計(jì)工具等.Potter’s Wheel[46]是一種公開的數(shù)據(jù)清洗工具,不僅支持異常檢測,還支持后面數(shù)據(jù)不一致清洗所用到的數(shù)據(jù)變換功能. (2)屬性錯誤清洗 屬性錯誤清洗包括噪聲數(shù)據(jù)以及不一致的數(shù)據(jù)清洗. · 噪聲數(shù)據(jù)的清洗也叫光滑噪聲技術(shù),主要方法有分箱以及回歸等方法:分箱方法是通過周圍鄰近的值來光滑有序的數(shù)據(jù)值但是只是局部光滑,回歸方法是使用回歸函數(shù)擬合數(shù)據(jù)來光滑噪聲; · 不一致數(shù)據(jù)的清洗在某些情況下可以參照其他材料使用人工進(jìn)行修改,可以借助知識工程工具來找到違反限制的數(shù)據(jù),例如:如果知道數(shù)據(jù)的函數(shù)依賴關(guān)系,通過函數(shù)關(guān)系修改屬性值.但是大部分的不一致情況都需要進(jìn)行數(shù)據(jù)變換,即定義一系列的變換糾正數(shù)據(jù),也有很多商業(yè)工具提供數(shù)據(jù)變換的功能,例如數(shù)據(jù)遷移工具和ETL 工具等,但是這些功能都是有限的. 3.2.2 不完整數(shù)據(jù)清洗 在實(shí)際應(yīng)用中,數(shù)據(jù)缺失是一種不可避免的現(xiàn)象[42].有很多情況下會造成數(shù)據(jù)值的缺失,例如填寫某些表格時需要填寫配偶信息,那沒有結(jié)婚的人就無法填寫此字段,或者在業(yè)務(wù)處理的稍后步驟提供值,字段也可能缺失.處理缺失值目前有以下幾種方法. · 忽略元組:一般情況下,當(dāng)此元組缺少多個屬性值時常采用此方法,否則該方法不是很有效.當(dāng)忽略了此條元組之后,元組內(nèi)剩下的有值的屬性也不能被采用,這些數(shù)據(jù)可能是有用的; · 人工填寫缺失值:這種方法最大的缺點(diǎn)就是需要大量的時間和人力,數(shù)據(jù)清理技術(shù)需要做到最少的人工干預(yù),并且在數(shù)據(jù)集很大、缺失很多屬性值時,這種方法行不通; · 全局變量填充缺失值:使用同一個常量來填充屬性的缺失值.這種方法雖然使用起來較為簡單,但是有時不可靠.例如,用統(tǒng)一的常量“NULL”來填寫缺失值,在后續(xù)的數(shù)據(jù)挖掘中,可能會認(rèn)為它們形成了一個有趣的概念; · 中心度量填充缺失值:使用屬性的中心度量來填充缺失值.中心度量是指數(shù)據(jù)分布的“中間”值,例如均值或者中位數(shù),數(shù)據(jù)對稱分布使用均值、傾斜分布使用中位數(shù); · 使用最可能的值填充:相當(dāng)于數(shù)值預(yù)測的概念.回歸分析是數(shù)值預(yù)測最常用的統(tǒng)計(jì)學(xué)方法,此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定缺失值. 鑒于現(xiàn)在很多人為了保護(hù)自己的隱私或者為了方便,隨意地選擇窗口中給定的值,Hua 等人于2007 年提出了一種識別偽裝缺失數(shù)據(jù)的啟發(fā)式方法,當(dāng)用戶不愿意泄露個人信息時故意錯誤地選擇窗口上的默認(rèn)值(如生日字段),這時數(shù)據(jù)就會被捕獲[47]. 3.2.3 相似重復(fù)記錄清洗 · 相似重復(fù)記錄識別 消除相似重復(fù)記錄,首先應(yīng)該識別出相同或不同數(shù)據(jù)集中的兩個實(shí)體是否指向同一實(shí)體,這個過程也叫實(shí)體對齊或?qū)嶓w匹配.文本相似度度量是實(shí)體對齊的最基礎(chǔ)方法,大致分為4 種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman 距離、Jaro 距離度量、Q-gram 距離[48])、基于單詞的(例如Jaccard 系數(shù))、混合型(例如softTF-IDF)和基于語義的(例如WordNet).隨著知識表示學(xué)習(xí)在各個領(lǐng)域的發(fā)展,一些研究人員提出了基于表示學(xué)習(xí)的實(shí)體匹配算法,但均是以TransE 系列模型為基礎(chǔ)構(gòu)建的.TransE[49]首次提出基于翻譯的方法,將關(guān)系解釋為實(shí)體的低維向量之間的翻譯操作,隨之涌現(xiàn)出一些擴(kuò)展的典型算法,下面對這些算法進(jìn)行簡單介紹. a)MTransE 算法[50]:基于轉(zhuǎn)移的方法解決多語言知識圖譜中的實(shí)體對齊.首先,使用TransE 對單個的知識圖譜進(jìn)行表示學(xué)習(xí);接著,學(xué)習(xí)不同空間的線性變換來進(jìn)行實(shí)體對齊.轉(zhuǎn)移方法有基于距離的軸校準(zhǔn)、翻譯向量、線性變換這3 種.該知識模型簡單復(fù)用TransE,對于提高實(shí)體對齊的精度仍存在很大局限; b)JAPE 算法[51]是針對跨語言實(shí)體對齊的聯(lián)合屬性保護(hù)模型,利用屬性及文字描述信息來增強(qiáng)實(shí)體表示學(xué)習(xí),分為結(jié)構(gòu)表示、屬性表示.IPTransE 算法[52]使用聯(lián)合表示的迭代對齊,即使用迭代的方式不斷更新實(shí)體匹配.該方法分為3 部分:知識表示、聯(lián)合表示、迭代對齊.但這兩種算法都是基于先驗(yàn)實(shí)體匹配,將不同知識圖譜中的實(shí)體和關(guān)系嵌入到統(tǒng)一的向量空間,然后將匹配過程轉(zhuǎn)換成向量表示間距離的過程; c)SEEA 算法[53]分為兩部分:屬性三元組學(xué)習(xí)、關(guān)系三元組學(xué)習(xí).該模型能夠自學(xué)習(xí),不需要對齊種子的輸入.每次迭代,根據(jù)前面迭代過程所得到的表示模型,計(jì)算實(shí)體向量間的余弦相似度.并選取前β對添加到關(guān)系三元組中更新本次表示模型,直到收斂.收斂條件:無法選取前β對實(shí)體對. 實(shí)體對齊方法不僅應(yīng)用于數(shù)據(jù)清洗過程中,對后續(xù)的數(shù)據(jù)集成以及數(shù)據(jù)挖掘也起到重要的作用.除此之外,也有很多重復(fù)檢測的工具可以使用,如Febrl 系統(tǒng)、TAILOR 工具、WHIRL 系統(tǒng)、BigMatch 等,但是很多匹配算法只適用于英文不適合中文,所以中文數(shù)據(jù)清洗工具的開發(fā)還需要進(jìn)一步的研究. · 相似重復(fù)記錄清洗 相似重復(fù)記錄的清洗一般都采用先排序再合并的思想,代表算法有優(yōu)先隊(duì)列算法、近鄰排序算法、多趟近鄰排序算法.優(yōu)先隊(duì)列算法比較復(fù)雜,先將表中所有記錄進(jìn)行排序后,排好的記錄被優(yōu)先隊(duì)列進(jìn)行順序掃描并動態(tài)地將它們聚類,減少記錄比較的次數(shù),匹配效率得以提高,該算法還可以很好地適應(yīng)數(shù)據(jù)規(guī)模的變化.近鄰排序算法是相似重復(fù)記錄清洗的經(jīng)典算法,近鄰排序算法是采用滑動窗口機(jī)制進(jìn)行相似重復(fù)記錄的匹配,每次只對進(jìn)入窗口的w條記錄進(jìn)行比較,只需要比較w×N次,提高了匹配的效率.但是它有兩個很大的缺點(diǎn):首先是該算法的優(yōu)劣對排序關(guān)鍵字的依賴性很大,如果排序關(guān)鍵字選擇得不好,相似的兩條記錄一直沒有出現(xiàn)在滑動窗口上就無法識別相似重復(fù)記錄,導(dǎo)致很多條相似重復(fù)記錄得不到清洗;其次是滑動窗口的值w也很難把控,w值太大可能會產(chǎn)生沒必要的比較次數(shù),w值太小又可能會遺漏重復(fù)記錄的匹配.多趟近鄰排序算法是針對近鄰排序算法進(jìn)行改進(jìn)的算法,它是進(jìn)行多次近鄰排序算法每次選取的滑動窗口值可以不同,且每次匹配的相似記錄采用傳遞閉包,雖然可以減少很多遺漏記錄,但也會產(chǎn)生誤識別的情況.這兩個算法的滑動窗口值和屬性值的權(quán)重都是固定的,所以也有一些學(xué)者提出基于可變的滑動窗口值和不同權(quán)重的屬性值來進(jìn)行相似重復(fù)記錄的清洗.以上算法都有一些缺陷,如都要進(jìn)行排序,多次的外部排序會引起輸入/輸出代價過大;其次,由于字符位置敏感性,排序時相似重復(fù)的記錄不一定排在鄰近的位置,對算法的準(zhǔn)確性有影響. 數(shù)據(jù)交換是將符合一個源模式的數(shù)據(jù)轉(zhuǎn)換為符合目標(biāo)模式數(shù)據(jù)的問題,該目標(biāo)模式盡可能準(zhǔn)確并且以與各種依賴性一致的方式反映源數(shù)據(jù)[54,55]. 早期數(shù)據(jù)交換的一個主要方向是在關(guān)系模式之間從數(shù)據(jù)交換的上下文中尋求一階查詢的語義和復(fù)雜性.2008 年,Afrati 等人開始系統(tǒng)地研究數(shù)據(jù)交換中聚合查詢的語義和復(fù)雜性,給出一些概念并做出了技術(shù)貢獻(xiàn)[56].在一篇具有里程碑意義的論文中,Fagin 等人提出了一種純粹邏輯的方法來完成這項(xiàng)任務(wù)[55].從這時起,在數(shù)據(jù)庫研究界已經(jīng)對數(shù)據(jù)交換進(jìn)行了深入研究.近年,Xiao 等人指出,跨越不同實(shí)體的數(shù)據(jù)交換是實(shí)現(xiàn)智能城市的重要手段,設(shè)計(jì)了一種新穎的后端計(jì)算架構(gòu)——數(shù)據(jù)隱私保護(hù)自動化架構(gòu)(DPA),促進(jìn)在線隱私保護(hù)處理自動化,以無中斷的方式與公司的主要應(yīng)用系統(tǒng)無縫集成,允許適應(yīng)靈活的模型和交叉的服務(wù)質(zhì)量保證實(shí)體數(shù)據(jù)交換[57].隨著云計(jì)算和Web 服務(wù)的快速發(fā)展,Wu 等人將基于特征的數(shù)據(jù)交換應(yīng)用于基于云的設(shè)計(jì)與制造的協(xié)作產(chǎn)品開發(fā)上,并提出了一種面向服務(wù)的基于云的設(shè)計(jì)和制造數(shù)據(jù)交換架構(gòu)[58]. 完善合理的數(shù)據(jù)交換服務(wù)建設(shè),關(guān)系到大數(shù)據(jù)平臺是否具有高效、穩(wěn)定的處理數(shù)據(jù)能力. 數(shù)據(jù)整合是平臺建設(shè)的基礎(chǔ),涉及到多種數(shù)據(jù)的整合手段,其中,數(shù)據(jù)交換、消息推送、通過服務(wù)總線實(shí)現(xiàn)應(yīng)用對接等都需要定義一套通用的數(shù)據(jù)交換標(biāo)準(zhǔn),基于此標(biāo)準(zhǔn)實(shí)現(xiàn)各個系統(tǒng)間數(shù)據(jù)的共享和交換,并支持未來更多系統(tǒng)與平臺的對接.平臺數(shù)據(jù)交換標(biāo)準(zhǔn)的設(shè)計(jì),充分借鑒國內(nèi)外現(xiàn)有的各類共享交換系統(tǒng)的建設(shè)經(jīng)驗(yàn),采用基于可擴(kuò)展標(biāo)記語言(XML)的信息交換框架.XML 定義了一組規(guī)則,用于以人類可讀和機(jī)器可讀的格式編碼文檔,它由國際萬維網(wǎng)聯(lián)盟設(shè)計(jì).XML 文檔格式良好且結(jié)構(gòu)化,因此它們更易于解析和編寫.由于它具有簡化、跨平臺、可擴(kuò)展性和自我描述等特征,XML 成為通過Internet 進(jìn)行數(shù)據(jù)傳輸?shù)耐ㄓ谜Z言[59].XML 關(guān)心的重點(diǎn)是數(shù)據(jù),而其他的因素如數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型、表現(xiàn)以及操作,都是有其他的以XML 為核心的相關(guān)技術(shù)完成.基于基本的XML 語言,通過定義一套數(shù)據(jù)元模型(語義字典)和一套基于XML Schema 的描述規(guī)范來實(shí)現(xiàn)對信息的共同理解,基于此套交換標(biāo)準(zhǔn)完成數(shù)據(jù)的交換.數(shù)據(jù)交換概括地說有以下兩種實(shí)現(xiàn)模式. (1)協(xié)議式交換 協(xié)議式數(shù)據(jù)交換是源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個數(shù)據(jù)交換交互協(xié)議,遵循制定的協(xié)議,通過將一個系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)移植到另一個系統(tǒng)的數(shù)據(jù)庫來完成數(shù)據(jù)交換.Tyagi 等人于2017 年提出一種通用的交互式通信協(xié)議,稱為遞歸數(shù)據(jù)交換協(xié)議(RDE),它可以獲得各方觀察到的任何數(shù)據(jù)序列,并提供單獨(dú)的性能序列保證[60];并于2018 年提出了一種新的數(shù)據(jù)交換交互協(xié)議,它可以逐步增加通信大小,直到任務(wù)完成,還導(dǎo)出了基于將數(shù)據(jù)交換問題與秘密密鑰協(xié)議問題相關(guān)聯(lián)的最小位數(shù)的下限[61].這種交換模式的優(yōu)點(diǎn)在于:它無需對底層數(shù)據(jù)庫的應(yīng)用邏輯和數(shù)據(jù)結(jié)構(gòu)做任何改變,可以直接用于開發(fā)在數(shù)據(jù)訪問層.但是編程人員基于底層數(shù)據(jù)庫進(jìn)行直接修改也是這種模式的缺點(diǎn)之一,編程人員首先要對雙方數(shù)據(jù)庫的底層設(shè)計(jì)有清楚的了解,需要承擔(dān)較高的安全風(fēng)險;其次,編程人員在修改原有的數(shù)據(jù)訪問層時需要保證數(shù)據(jù)的完整性和一致性.此外,這種模式的另一個缺點(diǎn)在于系統(tǒng)的可重用性很低,每次對于不同應(yīng)用的數(shù)據(jù)交換都需要做不同的設(shè)計(jì).下面我們舉一個通俗易懂的例子:安徽人和新疆人有生意上的往來,但由于彼此說的都是家鄉(xiāng)話,交易很難進(jìn)行,于是雙方就約定每次見面都使用安徽話或者新疆話.假如他們規(guī)定一個協(xié)議,每次見面都以安徽話來交談,那么新疆人每句話的語法結(jié)構(gòu)和發(fā)音標(biāo)準(zhǔn)都按照安徽話來修改,同時要保證每句話的完整性和準(zhǔn)確性,保證雙方順利的交談.然而在下次的生意中,新疆人可能面對的是一位廣東人,那么交流依舊出現(xiàn)了困難,此時新疆人又需要把自己的新疆話轉(zhuǎn)換為廣東話. (2)標(biāo)準(zhǔn)化交換 標(biāo)準(zhǔn)化數(shù)據(jù)交換是指在網(wǎng)絡(luò)環(huán)境中建立一個可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn),使得跨平臺應(yīng)用程序之間實(shí)現(xiàn)數(shù)據(jù)共享和交換.下面我們依舊以安徽人與新疆人作交易為例來解釋這種交換模式.為了解決雙方無法溝通的困境,雙方約定每次見面交易都使用普通話這種標(biāo)準(zhǔn)來交流,當(dāng)下次即使遇到全國各地的人,也可以使用普通話來交流,而且大家只需要熟悉普通話的語法規(guī)則即可,不需要精通各地的語言.這種交換模式的優(yōu)點(diǎn)顯而易見,系統(tǒng)對于不同的應(yīng)用只需要提供一個多方共享的標(biāo)準(zhǔn)即可,具有很高的可重用性. 實(shí)現(xiàn)基于XML 的數(shù)據(jù)交換平臺確實(shí)需要一系列的努力和資源來創(chuàng)建/管理交換,但它不是對現(xiàn)有系統(tǒng)的大規(guī)模改變而是有限的改變,所以使用基于XML 數(shù)據(jù)交換的關(guān)鍵優(yōu)勢是信息共享的組織不需要更改其現(xiàn)有的數(shù)據(jù)存儲或標(biāo)準(zhǔn),使得異構(gòu)系統(tǒng)之間可以實(shí)現(xiàn)最大限度的協(xié)同,并能在現(xiàn)有數(shù)據(jù)交換應(yīng)用的基礎(chǔ)上擴(kuò)展更多新的應(yīng)用,從而對不同企業(yè)間發(fā)展應(yīng)用集成起到促進(jìn)作用. 在信息化建設(shè)初期,由于缺乏有效合理的規(guī)劃和協(xié)作,信息孤島的現(xiàn)象普遍存在,大量的冗余數(shù)據(jù)和垃圾數(shù)據(jù)存在于信息系統(tǒng)中,數(shù)據(jù)質(zhì)量得不到保證,信息的利用效率明顯低下.為了解決這個問題,數(shù)據(jù)集成技術(shù)[62]應(yīng)運(yùn)而生.數(shù)據(jù)集成技術(shù)是協(xié)調(diào)數(shù)據(jù)源之間不匹配問題[63-67],將異構(gòu)、分布、自治的數(shù)據(jù)集成在一起,為用戶提供單一視圖,使得可以透明地訪問數(shù)據(jù)源.系統(tǒng)數(shù)據(jù)集成主要指異構(gòu)數(shù)據(jù)集成,重點(diǎn)是數(shù)據(jù)標(biāo)準(zhǔn)化和元數(shù)據(jù)中心的建立. · 數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化的作用在于提高系統(tǒng)的可移植性、互操作性、可伸縮性、通用性和共享性.數(shù)據(jù)集成依據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)包括屬性數(shù)據(jù)標(biāo)準(zhǔn)、網(wǎng)絡(luò)應(yīng)用標(biāo)準(zhǔn)和系統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn).名詞術(shù)語詞典、數(shù)據(jù)文件屬性字典、菜單詞典及各類代碼表等為系統(tǒng)公共數(shù)據(jù),在此基礎(chǔ)上促成系統(tǒng)間的術(shù)語、名稱、代碼的統(tǒng)一,促成屬性數(shù)據(jù)統(tǒng)一的維護(hù)管理; · 元數(shù)據(jù)中心的建立:在建立元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,統(tǒng)一進(jìn)行數(shù)據(jù)抽取、格式轉(zhuǎn)換、重組、儲存,實(shí)現(xiàn)對各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的整合.經(jīng)處理的數(shù)據(jù)保存在工作數(shù)據(jù)庫中,庫中所有屬性數(shù)據(jù)文件代碼及各數(shù)據(jù)文件中的屬性項(xiàng)代碼均按標(biāo)準(zhǔn)化要求編制,在整個系統(tǒng)中保持唯一性,可以迅速、準(zhǔn)確定位.各屬性項(xiàng)的文字值及代碼,也都通過詞庫建設(shè)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)一詞一義.建立元數(shù)據(jù)中心的基本流程如圖5所示. Fig.5 Metadata center圖5 元數(shù)據(jù)中心 數(shù)據(jù)規(guī)范和數(shù)據(jù)交換的完成,對數(shù)據(jù)集成的有效進(jìn)行提供了很大的幫助,但在數(shù)據(jù)集成時仍然需要解決以下難題. 首先是異構(gòu)性.數(shù)據(jù)異構(gòu)分為兩個方面:其一,不同數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)不同,此為結(jié)構(gòu)性異構(gòu);其二,不同數(shù)據(jù)源的數(shù)據(jù)項(xiàng)在含義上有差別,此為語義性異構(gòu);其次是數(shù)據(jù)源的異地分布性;最后是數(shù)據(jù)源的自治性.數(shù)據(jù)源可以改變自身的結(jié)構(gòu)和數(shù)據(jù),這就要求數(shù)據(jù)集成系統(tǒng)應(yīng)具有魯棒性. 為了解決這些難題,現(xiàn)在有模式集成方法、數(shù)據(jù)復(fù)制方法和基于本體的方法這幾種典型的數(shù)據(jù)集成方法: (1)模式集成方法 模式集成方法為用戶提供統(tǒng)一的查詢接口,通過中介模式訪問實(shí)時數(shù)據(jù),該模式直接從原始數(shù)據(jù)庫檢索信息(如圖6 所示).該方法的實(shí)現(xiàn)共分為4 個主要步驟:源數(shù)據(jù)庫的發(fā)現(xiàn)、查詢接口模式的抽取、領(lǐng)域源數(shù)據(jù)庫的分類和全局查詢接口集成[68-73]. Fig.6 Schematic diagram of a pattern integration approach圖6 模式集成方法示意圖 模式集成方法依賴于中介模式與原始源模式之間的映射[74],并將查詢轉(zhuǎn)換為專用查詢,以匹配原始數(shù)據(jù)庫的模式.這種映射可以用兩種方式指定:作為從中介模式中的實(shí)體到原始數(shù)據(jù)源中的實(shí)體的映射——全局視圖(GAV)方法[75],或者作為從原始源中的實(shí)體到中介模式——本地視圖(LAV)方法的映射[76].后一種方法需要更復(fù)雜的推理來解析對中介模式的查詢[67,77,78],但是可以更容易地將新數(shù)據(jù)源添加到穩(wěn)定中介模式中. 模式集成方法的優(yōu)點(diǎn)是為用戶提供了統(tǒng)一的訪問接口和全局?jǐn)?shù)據(jù)視圖;缺點(diǎn)是用戶使用該方法時經(jīng)常需要訪問多個數(shù)據(jù)源,存在很大的網(wǎng)絡(luò)延遲,數(shù)據(jù)源之間沒有進(jìn)行交互.如果被集成的數(shù)據(jù)源規(guī)模比較大且數(shù)據(jù)實(shí)時性比較高更新頻繁,則一般采用模式集成方法. (2)數(shù)據(jù)復(fù)制方法 數(shù)據(jù)復(fù)制方法是將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中,用戶使用時,僅需訪問單一的數(shù)據(jù)源或少量的數(shù)據(jù)源.數(shù)據(jù)復(fù)制方法提供了緊密耦合的體系結(jié)構(gòu),數(shù)據(jù)已經(jīng)在單個可查詢的存儲庫中進(jìn)行物理協(xié)調(diào),因此解析查詢通常需要很少的時間[79],系統(tǒng)處理用戶請求的效率顯著提升;但在使用該方法時,數(shù)據(jù)復(fù)制需要一定的時間,所以數(shù)據(jù)的實(shí)時一致性不好保證.數(shù)據(jù)倉庫方法是數(shù)據(jù)復(fù)制方法的一種常見方式[80],第一個數(shù)據(jù)集成系統(tǒng)便是使用該方法于1991 年在明尼蘇達(dá)大學(xué)設(shè)計(jì)的.該方法的過程是:先提取各個異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),然后轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中,用戶在訪問數(shù)據(jù)倉庫查找數(shù)據(jù)時,類似訪問普通數(shù)據(jù)庫. 對于經(jīng)常更新的數(shù)據(jù)集,數(shù)據(jù)倉庫方法不太可行,需要連續(xù)重新執(zhí)行提取、轉(zhuǎn)換、加載(ETL)過程以進(jìn)行同步.根據(jù)數(shù)據(jù)復(fù)制方法的優(yōu)缺點(diǎn)可以看出:數(shù)據(jù)源相對穩(wěn)定或者用戶查詢模式已知或有限的時候,適合采用數(shù)據(jù)復(fù)制方法.數(shù)據(jù)倉庫方法示意圖如圖7 所示. 下面舉例說明這兩種集成方法具體應(yīng)用的區(qū)別:目前我們想要設(shè)計(jì)一個應(yīng)用程序,該應(yīng)用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息,包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是,把所有這些信息保存在一個后臺數(shù)據(jù)庫中,但是這種廣度的信息收集起來難度大且成本高,即使收集到這些資源,它們也可能會復(fù)制已有數(shù)據(jù)庫中的數(shù)據(jù),不具備實(shí)時性. 此時,我們選擇模式集成方法解決該應(yīng)用程序面臨的問題,讓開發(fā)人員構(gòu)建虛擬模式——全局模式,然后對各個單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”,這些“包裝”只是將本地查詢結(jié)果(實(shí)際上是由相對應(yīng)的網(wǎng)站或數(shù)據(jù)庫返回的結(jié)果)轉(zhuǎn)換為易于處理的表單,當(dāng)使用該應(yīng)用程序的用戶查詢數(shù)據(jù)時,看似是本地查詢,實(shí)則數(shù)據(jù)集成系統(tǒng)會將此查詢轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢.最后,虛擬數(shù)據(jù)庫將這些查詢的結(jié)果反饋給用戶. 如果我們選擇使用數(shù)據(jù)復(fù)制方法來解決此問題的話,首先,我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉庫中,每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時,我們也要手動集成到系統(tǒng)中.所以,兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來選擇. Fig.7 Schematic diagram of data warehouse method圖7 數(shù)據(jù)倉庫方法示意圖 (3)基于本體的數(shù)據(jù)集成 根據(jù)上述介紹,數(shù)據(jù)異構(gòu)有兩個方面:前兩種方法都是針對解決結(jié)構(gòu)異構(gòu)而提出的解決方案;而本體技術(shù)致力于解決語義性異構(gòu)問題.語義集成過程中,一般通過沖突檢測、真值發(fā)現(xiàn)等技術(shù)來解決沖突,常見的沖突解決策略有如下3 類:沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預(yù)把沖突留給用戶解決;沖突避免是對所有的情形使用統(tǒng)一的約束規(guī)則;沖突消解又分為3 類:一是基于投票的方法采用簡單的少數(shù)服從多數(shù)策略;二是基于質(zhì)量的方法,此方法在第1 種方法的基礎(chǔ)上考慮數(shù)據(jù)來源的可信度;三是基于關(guān)系的方法,此方法在第2 種方法的基礎(chǔ)上考慮不同數(shù)據(jù)來源之間的關(guān)系. 本體是對某一領(lǐng)域中的概念及其之間關(guān)系的顯式描述,基于本體的數(shù)據(jù)集成系統(tǒng)允許用戶通過對本體描述的全局模式的查詢來有效地訪問位于多個數(shù)據(jù)源中的數(shù)據(jù)[81].陶春等人針對基于本體的XML 數(shù)據(jù)集成的查詢處理提出了優(yōu)化算法[82].目前,基于本體技術(shù)的數(shù)據(jù)集成方法有3 種,分別為:單本體方法、多本體方法和混合本體方法. 由于單本體方法所有的數(shù)據(jù)源都要與共享詞匯庫全局本體關(guān)聯(lián),應(yīng)用范圍很小,且數(shù)據(jù)源的改變會影響全局本體的改變.為了解決單本體方法的缺陷,多本體方法應(yīng)運(yùn)而生.多本體方法的每個數(shù)據(jù)源都由各自的本體進(jìn)行描述,它的優(yōu)點(diǎn)是數(shù)據(jù)源的改變對本體的影響小,但是由于缺少共享的詞匯庫,不同的數(shù)據(jù)源之間難以比較,數(shù)據(jù)源之間的共享性和交互性相對較差.混合本體方法的提出,解決了單本體和多本體方法的不足:混合本體的每個數(shù)據(jù)源的語義都由它們各自的本體進(jìn)行描述,解決了單本體方法的缺點(diǎn).混合本體還建立了一個全局共享詞匯庫以解決多本體方法的缺點(diǎn),如圖8 所示.混合本體方法有效地解決了數(shù)據(jù)源間的語義異構(gòu)問題. Fig.8 Hybrid ontology approach圖8 混合本體方法 一個機(jī)構(gòu)的數(shù)據(jù)治理能力越高,所享受到數(shù)據(jù)治理帶來的價值也會越多,如增加收入、減少成本、降低風(fēng)險等.于是,很多機(jī)構(gòu)想要準(zhǔn)確地評估本公司的數(shù)據(jù)治理能力,可以利用數(shù)據(jù)治理成熟度模型方法,包括DQM,Dataflux 和IBM 在內(nèi)的一些組織都開發(fā)了相類似的數(shù)據(jù)治理成熟度模型. 我們先介紹一下DQM 集團(tuán)的數(shù)據(jù)治理成熟度模型[83],此數(shù)據(jù)治理成熟度模型共分為5 個階段. (1)意識階段:當(dāng)公司數(shù)據(jù)不統(tǒng)一的情況隨處可見,數(shù)據(jù)質(zhì)量很差卻難以提高,數(shù)據(jù)模型的梳理難以進(jìn)行時,公司會意識到數(shù)據(jù)治理對于數(shù)據(jù)平臺的建設(shè)發(fā)揮著至關(guān)重要的作用,但并沒有定義數(shù)據(jù)規(guī)則和策略,基本不采取行動; (2)被動的反應(yīng)階段:公司在出現(xiàn)數(shù)據(jù)上的問題時,會去采取措施解決問題,但并不會尋其根源解決根本問題,也就是說,公司的行動通常是由危機(jī)驅(qū)動的.該類反應(yīng)性組織的數(shù)據(jù)仍然是“孤立”存在的,很少進(jìn)行數(shù)據(jù)共享,只是努力達(dá)到監(jiān)管的要求; (3)主動的應(yīng)對階段:處在這個階段的組織最終可以識別和解決根本原因,并可以在問題出現(xiàn)之前將其化解.這個階段的組織將數(shù)據(jù)視為整個企業(yè)的戰(zhàn)略資產(chǎn),而不是像第1 階段將數(shù)據(jù)作為一種成本開銷; (4)成熟的管理階段:這個階段的組織擁有一組成熟的數(shù)據(jù)流程,可以識別出現(xiàn)的問題,并以專注于數(shù)據(jù)開發(fā)的方式定義策略; (5)最佳階段:一個組織把數(shù)據(jù)和數(shù)據(jù)開發(fā)作為人員、流程和技術(shù)的核心競爭力. IBM 的數(shù)據(jù)治理成熟度模型也分為5 個階段[84],分別是初始階段、基本管理、定義階段(主動管理)、量化管理、最佳(持續(xù)優(yōu)化)階段(影響數(shù)據(jù)治理成熟度的關(guān)鍵因素有以下3 個:嚴(yán)格性、全面性以及一致性). (1)IBM 的初始階段是指企業(yè)缺乏數(shù)據(jù)治理流程,沒有跟蹤管理,也沒有一個穩(wěn)定的數(shù)據(jù)治理的環(huán)境,僅僅只能體現(xiàn)個人的努力和成果,工作尚未開展; (2)基本管理階段是指該階段有了初始的流程定義,開展了基本的數(shù)據(jù)治理工作,但仍然存在很多問題; (3)定義階段是指企業(yè)在相關(guān)成功案例的基礎(chǔ)上積累了相關(guān)的經(jīng)驗(yàn),形成了部分標(biāo)準(zhǔn)但仍不完善的流程; (4)量化管理階段的企業(yè)能夠運(yùn)用先進(jìn)的工具對數(shù)據(jù)治理的效果進(jìn)行量化,數(shù)據(jù)治理已經(jīng)能取得持續(xù)的效果,并且能根據(jù)既定的目標(biāo)進(jìn)行一致的績效評估; (5)最佳階段是持續(xù)地關(guān)注流程的優(yōu)化,達(dá)到了此階段的企業(yè)已經(jīng)具有創(chuàng)新能力,成為行業(yè)的領(lǐng)導(dǎo)者. 從這些企業(yè)的數(shù)據(jù)治理模型可以看出:數(shù)據(jù)治理從來都不是一次性的程序,而是一個持續(xù)的過程,這個過程必須是漸進(jìn)式迭代型的,每個組織必須采取許多小的、可實(shí)現(xiàn)的、可衡量的步驟來實(shí)現(xiàn)長期目標(biāo). Khatri 等人使用Weill 和Ross 框架進(jìn)行IT 治理,作為設(shè)計(jì)數(shù)據(jù)治理框架的起點(diǎn)[85],IBM 的數(shù)據(jù)治理委員會以支撐域、核心域、促成因素和成果這4 個層次來構(gòu)建數(shù)據(jù)治理框架[84],如圖9 所示. 圖9 的數(shù)據(jù)治理框架所包含的11 個域并不是相互獨(dú)立運(yùn)行的而是相關(guān)聯(lián)的,例如,數(shù)據(jù)的質(zhì)量和安全/隱私要求需要在整個信息生命周期中進(jìn)行評估和管理.IBM 的數(shù)據(jù)治理框架注重數(shù)據(jù)治理的方法以及過程,IBM 數(shù)據(jù)治理委員會最關(guān)鍵的命題是數(shù)據(jù)治理的成果,在下面3 層的支撐作用下,組織最終實(shí)現(xiàn)數(shù)據(jù)治理的目標(biāo)提升數(shù)據(jù)價值. 在IBM 數(shù)據(jù)治理框架的基礎(chǔ)上加以擴(kuò)充,文獻(xiàn)[6]設(shè)計(jì)了一個大數(shù)據(jù)背景下的數(shù)據(jù)治理框架,如圖10 所示. 結(jié)合IBM 公司的數(shù)據(jù)治理框架,我們對文獻(xiàn)[6]給出的大數(shù)據(jù)治理框架進(jìn)行了幾處修改得到圖10.為了與圖9 保持一致,將文獻(xiàn)[6]中大數(shù)據(jù)治理框架圖的“范圍”修改為“核心域”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)質(zhì)量”修改為“數(shù)據(jù)質(zhì)量管理”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)生命周期”修改為“數(shù)據(jù)生命周期管理”.圖10從原則、核心域、實(shí)施與評估這3 個方面來對大數(shù)據(jù)治理全面地進(jìn)行描述,企業(yè)數(shù)據(jù)治理應(yīng)該遵循戰(zhàn)略一致、風(fēng)險管理、運(yùn)營合規(guī)以及價值創(chuàng)造這4 個基本的指導(dǎo)性原則,治理的核心域或者說叫決策域包括戰(zhàn)略、組織、數(shù)據(jù)生命周期管理、數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務(wù)創(chuàng)新、大數(shù)據(jù)安全以及大數(shù)據(jù)架構(gòu)這7 個部分,實(shí)施與評估維度指出大數(shù)據(jù)治理在實(shí)施評估時重點(diǎn)需要關(guān)注促成因素、實(shí)施過程、成熟度評估以及審計(jì)這4 個方面.一個大數(shù)據(jù)治理組織要在4 個基本原則下對7 個核心域進(jìn)行數(shù)據(jù)治理,不斷地推進(jìn)大數(shù)據(jù)治理的工作. Fig.9 IBM data governance framework[84]圖9 IBM 數(shù)據(jù)治理框架[84] Fig.10 Big data governance framework[6]圖10 大數(shù)據(jù)治理框架[6] 框架頂部的4 個原則是數(shù)據(jù)治理自上而下的頂層設(shè)計(jì),對大數(shù)據(jù)治理的實(shí)施具有指導(dǎo)作用,它為所有其他的管理決策確定方向.戰(zhàn)略一致是指數(shù)據(jù)治理的戰(zhàn)略要和企業(yè)的整體戰(zhàn)略保持一致,在制定數(shù)據(jù)治理戰(zhàn)略時要融合企業(yè)的整體戰(zhàn)略、企業(yè)的文化制度以及業(yè)務(wù)需要,來繪制數(shù)據(jù)治理實(shí)現(xiàn)藍(lán)圖;大數(shù)據(jù)的到來不僅伴隨著價值同時也會帶來風(fēng)險,企業(yè)要保持風(fēng)險可控有計(jì)劃地對風(fēng)險進(jìn)行不定期的評估工作;運(yùn)營合規(guī)是指企業(yè)在數(shù)據(jù)治理過程中要遵守法律法規(guī)和行業(yè)規(guī)范;企業(yè)的數(shù)據(jù)治理要不斷地為企業(yè)提供創(chuàng)新服務(wù)創(chuàng)造價值. 框架的核心域也可以叫做決策域,指出數(shù)據(jù)治理需要治理的核心對象,下面對數(shù)據(jù)治理的7 個核心域進(jìn)行一一介紹,其中:戰(zhàn)略制定要根據(jù)大數(shù)據(jù)治理目標(biāo)來制定,根據(jù)戰(zhàn)略的制定,企業(yè)應(yīng)該設(shè)置對應(yīng)的組織架構(gòu)把戰(zhàn)略實(shí)施落到實(shí)處,明確各個部門相關(guān)職責(zé);數(shù)據(jù)生命周期管理是從數(shù)據(jù)的采集、存儲、集成、分析、歸檔、銷毀的全過程進(jìn)行監(jiān)督和管理,根據(jù)出現(xiàn)的問題及時優(yōu)化的過程;數(shù)據(jù)質(zhì)量管理不僅要保障數(shù)據(jù)的完整性、準(zhǔn)確性、及時性以及一致性,而且還包括問題追蹤和合規(guī)性監(jiān)控. 2014 年10 月,美國摩根大通公司電腦系統(tǒng)發(fā)生數(shù)據(jù)泄露,被竊取的信息包括客戶姓名、地址、電話號碼和電子郵箱地址,將對7 600 萬家庭和700 萬小企業(yè)造成影響.2018 年1 月,有一家數(shù)據(jù)分析公司對Facebook 超過8 700 萬用戶進(jìn)行非法的數(shù)據(jù)挖掘,接下來的3 月、9 月以及12 月,Facebook 又多次發(fā)生用戶數(shù)據(jù)泄露事件.大數(shù)據(jù)背景下的信息開放和共享,使得隱私和信息安全問題被顯著放大,IBM 數(shù)據(jù)治理專家Soares 在其著作《Big Data Governance an Emerging Imperative》中以清晰的案例介紹電信行業(yè)利用地理位置數(shù)據(jù)來侵犯個人隱私[10],因此在大數(shù)據(jù)治理過程中,采取一定的措施和策略保證信息安全和隱私保護(hù)尤為重要.下面從大數(shù)據(jù)安全防護(hù)和隱私保護(hù)兩個方面來介紹它們的關(guān)鍵技術(shù). (1)首先,大數(shù)據(jù)安全防護(hù)主要包括以下關(guān)鍵技術(shù). · 大數(shù)據(jù)加密技術(shù):對平臺中的核心敏感數(shù)據(jù)進(jìn)行加密保護(hù),結(jié)合訪問控制技術(shù),利用用戶權(quán)限和數(shù)據(jù)權(quán)限的比較來防止非授權(quán)用戶訪問數(shù)據(jù); · 大數(shù)據(jù)安全漏洞檢測:該技術(shù)可以采用白/黑/灰盒測試或者動態(tài)跟蹤分析等方法,對大數(shù)據(jù)平臺和程序進(jìn)行安全漏洞檢測,減少由于設(shè)計(jì)缺陷或人為因素留下的問題; · 威脅預(yù)測技術(shù):利用大數(shù)據(jù)分析技術(shù),對平臺的各類信息資產(chǎn)進(jìn)行安全威脅檢測,在攻擊發(fā)生前進(jìn)行識別預(yù)測并實(shí)施預(yù)防措施; · 大數(shù)據(jù)認(rèn)證技術(shù):利用大數(shù)據(jù)技術(shù)收集用戶行為和設(shè)備行為數(shù)據(jù),根據(jù)這些數(shù)據(jù)的特征對使用者進(jìn)行身份判斷; (2)其次,對于隱私保護(hù),現(xiàn)有的關(guān)鍵技術(shù)分析如下. · 匿名保護(hù)技術(shù):針對結(jié)構(gòu)化數(shù)據(jù),一般采用數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù);而對于類似圖的非結(jié)構(gòu)化數(shù)據(jù),則一般采用社交網(wǎng)絡(luò)匿名保護(hù)技術(shù); · 數(shù)據(jù)水印技術(shù):水印技術(shù)一般用于多媒體數(shù)據(jù)的版權(quán)保護(hù),但多用于靜態(tài)數(shù)據(jù)的保護(hù),在大數(shù)據(jù)動態(tài)性的特點(diǎn)下需要改進(jìn); · 數(shù)據(jù)溯源技術(shù):由于數(shù)據(jù)的來源不同,對數(shù)據(jù)的來源和傳播進(jìn)行標(biāo)記,為使用者判斷信息真?zhèn)翁峁┍憷? · 數(shù)據(jù)審計(jì)技術(shù):對數(shù)據(jù)存儲前后的完整性和系統(tǒng)日志信息進(jìn)行審計(jì). 大數(shù)據(jù)架構(gòu)是從系統(tǒng)架構(gòu)層面進(jìn)行描述,不僅關(guān)心大數(shù)據(jù)的存儲,還關(guān)心大數(shù)據(jù)的管理和分析.我們首先要明確元數(shù)據(jù)和主數(shù)據(jù)的含義:元數(shù)據(jù)是對數(shù)據(jù)的描述信息,而主數(shù)據(jù)就是業(yè)務(wù)的實(shí)體信息.所以對于元數(shù)據(jù)和主數(shù)據(jù)的管理是對基礎(chǔ)數(shù)據(jù)的管理.數(shù)據(jù)治理不僅要降低企業(yè)成本,還要應(yīng)用數(shù)據(jù)創(chuàng)新服務(wù)為企業(yè)增加價值,大數(shù)據(jù)服務(wù)創(chuàng)新也是大數(shù)據(jù)治理的核心價值. 大數(shù)據(jù)治理的實(shí)施與評估主要包括促成因素、實(shí)施過程、成熟度評估和審計(jì):促成因素包括企業(yè)的內(nèi)外部環(huán)境和數(shù)據(jù)治理過程中采用的技術(shù)工具;大數(shù)據(jù)治理是一個長期的、閉環(huán)的、循序漸進(jìn)的過程,在每一個階段需要解決不同的問題,有不同的側(cè)重點(diǎn),所以應(yīng)該對數(shù)據(jù)生命周期的每個階段有一個很好的規(guī)劃,這就是實(shí)施過程的內(nèi)涵所在;數(shù)據(jù)治理成熟度模型我們已經(jīng)在本節(jié)的上半部分介紹了它的內(nèi)容,但成熟度評估主要是對數(shù)據(jù)的安全性、一致性、準(zhǔn)確性、可獲取性、可共享性以及大數(shù)據(jù)的存儲和監(jiān)管進(jìn)行評估;審計(jì)是第三方對企業(yè)數(shù)據(jù)治理進(jìn)行評價和給出審計(jì)意見,促進(jìn)有關(guān)數(shù)據(jù)治理工作內(nèi)容的改進(jìn),對于企業(yè)的持續(xù)發(fā)展意義重大. 在企業(yè)的數(shù)據(jù)治理過程中,治理主體對數(shù)據(jù)治理的需求進(jìn)行評估來設(shè)定數(shù)據(jù)治理的目標(biāo)和發(fā)展方向,為數(shù)據(jù)治理戰(zhàn)略準(zhǔn)備與實(shí)施提供指導(dǎo),并全程監(jiān)督數(shù)據(jù)治理的實(shí)施過程.通過對實(shí)施成果的評估,全面了解本公司數(shù)據(jù)治理的水平和狀態(tài),更好地改進(jìn)和優(yōu)化數(shù)據(jù)治理過程,以致達(dá)到組織的預(yù)期目標(biāo). 下面介紹我們自己設(shè)計(jì)的HAO 治理模型.該模型從大數(shù)據(jù)開始,為HI(人類智能)、AI(人工智能)和OI(組織智能)三者協(xié)同的HAO 智能[86]提供數(shù)據(jù)治理支持. HAO 治理模型旨在實(shí)現(xiàn)以下需求. (1)建立全面、動態(tài)、可配置的數(shù)據(jù)接入機(jī)制,滿足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)續(xù)傳等需求; (2)建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程,形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對、標(biāo)識等轉(zhuǎn)換處理規(guī)范模式,為一個組織的數(shù)據(jù)融合建庫提供支撐; (3)統(tǒng)籌建設(shè)多元集成、融合建庫的數(shù)據(jù)組織模式,按照業(yè)務(wù)類型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級分類推進(jìn)云建庫和存儲管理,采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來源的數(shù)據(jù)資源關(guān)聯(lián)融合; (4)構(gòu)建知識圖譜分類,建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式,面向使用者提供查詢檢索、比對排序等基礎(chǔ)數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù); (5)HI 和AI 通過知識圖譜和OI 實(shí)現(xiàn)交互和協(xié)同,存取和共享治理過的集成數(shù)據(jù),并利用大數(shù)據(jù)處理模型(以HACE 定理開始的三級結(jié)構(gòu),如圖1 所示)、云計(jì)算和霧計(jì)算機(jī)制來實(shí)現(xiàn)數(shù)據(jù)服務(wù)和隱私保護(hù). HAO 治理模型如圖11 所示. Fig.11 Architecture diagram of HAO governance model圖11 HAO 治理模型架構(gòu)圖 該模型具備以下功能. · 支持不同種類、不同數(shù)據(jù)源、不同目標(biāo)庫的數(shù)據(jù)抽取傳輸.常用數(shù)據(jù)源、目標(biāo)庫類型包括Oracle,SqlServer,MySql,Hbase,Hive,GreenPlum,Gbase,PostgreSQL,SOLR,Redis,ODPS,OTS,GDS 等主流數(shù)據(jù)庫,常用文件類型包括FTP,XML,CSV,JSON,EXCEL 等,常見消息處理類型包括Kafka 和Webservice; · 支持不同類型的抽取匯聚任務(wù)配置,主要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型、跨服務(wù)器的文件型數(shù)據(jù)傳輸,數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)? · 支持?jǐn)?shù)據(jù)清洗和數(shù)據(jù)規(guī)范的規(guī)則自定義,主要包括NULL 值替換、字符串操作、數(shù)據(jù)類型轉(zhuǎn)換、函數(shù)依賴、正則處理、組合字段、數(shù)據(jù)比對、自定義SQL 腳本執(zhí)行、JSON 輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對相似重復(fù)記錄和屬性值異常等問題數(shù)據(jù)清洗規(guī)則,以及MD5 加密規(guī)則; · 實(shí)現(xiàn)基于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動解析,并能按照業(yè)務(wù)場景進(jìn)行自定義配置,實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建; · 通過構(gòu)建知識圖譜實(shí)現(xiàn)作業(yè)流程的可視化設(shè)計(jì),各組件、連接線等以圖形控件形式提供,并按不同功能分組,支持復(fù)制、粘貼、剪切、撤銷等功能,數(shù)據(jù)整合任務(wù)在流程設(shè)計(jì)器中可直觀顯示; · 支持插件二次開發(fā):提供第三方開發(fā)平臺,方便根據(jù)現(xiàn)場實(shí)際業(yè)務(wù)需求,定制項(xiàng)目插件. HAO 治理模型的設(shè)計(jì)準(zhǔn)則包括:(1)數(shù)據(jù)源和治理功能的模塊化;(2)模型的可分解性;(3)快速原型系統(tǒng)構(gòu)建;(4)數(shù)據(jù)更新和融合能力;(5)交互的靈活性和(6)實(shí)時反應(yīng). 下面對HAO 治理模型包括的3 個核心模塊——數(shù)據(jù)接入模塊、數(shù)據(jù)治理模塊、數(shù)據(jù)服務(wù)模塊分別進(jìn)行介紹. 大數(shù)據(jù)工程的數(shù)據(jù)來源包含企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù),其中:企業(yè)內(nèi)部數(shù)據(jù)由資源服務(wù)平臺、綜合資源庫、各業(yè)務(wù)系統(tǒng)生產(chǎn)庫中的結(jié)構(gòu)化數(shù)據(jù)和文件服務(wù)器上的文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)組成,其中包括人財物記錄、財物報表、原材料、顧客信息、氣測數(shù)據(jù)以及企業(yè)的文化和規(guī)章制度等;企業(yè)外部數(shù)據(jù)由社會數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和設(shè)備采集數(shù)據(jù)組成,外部數(shù)據(jù)一般包括地理環(huán)境、人口數(shù)據(jù)、經(jīng)濟(jì)市場、金融數(shù)據(jù)、社會關(guān)系、社交數(shù)據(jù)等等. 在數(shù)據(jù)接入之前,首先需要進(jìn)行數(shù)據(jù)采集,如圖12 所示.數(shù)據(jù)采集基于云計(jì)算和分布存儲之上的采集工具,采用標(biāo)準(zhǔn)化、規(guī)范化的抽取模式,實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的統(tǒng)一抽取、整合、加工、轉(zhuǎn)換和裝載.數(shù)據(jù)采集工具主要包括了數(shù)據(jù)層、接入層、交互層和監(jiān)控層.其中,工具的數(shù)據(jù)層即涉及整個采集平臺中總體架構(gòu)的數(shù)據(jù)層即數(shù)據(jù)支撐層,工具背后的接入層是采集邏輯處理部分,交互層即對應(yīng)總體架構(gòu)的采集門戶. Fig.12 Data acquisition tool architecture diagram圖12 數(shù)據(jù)采集工具架構(gòu)圖 數(shù)據(jù)層指出企業(yè)內(nèi)部和企業(yè)外部數(shù)據(jù)的主要數(shù)據(jù)來源方式,數(shù)據(jù)庫可以是指業(yè)務(wù)系統(tǒng)的Oracle;文件方式是各種文件或FTP 接入的文件包;接口主要是用來企業(yè)對接外部系統(tǒng)使用的;數(shù)據(jù)流是指可以使用Kafka 平臺處理的實(shí)時數(shù)據(jù)流式方式這種來源.接入層主要提供豐富的工具集,針對不同的數(shù)據(jù)接入方式提供相應(yīng)的工具組件,依賴作業(yè)配置引擎和作業(yè)調(diào)度引擎實(shí)現(xiàn)數(shù)據(jù)抽取.監(jiān)控層可監(jiān)控作業(yè)執(zhí)行情況,采集作業(yè)日志,對問題作業(yè)及時告警,方便后期用戶排除故障、維護(hù)作業(yè).交互層提供可視化頁面便捷地實(shí)現(xiàn)數(shù)據(jù)接入與作業(yè)管理. 對采集后各種類型的源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,該模型的數(shù)據(jù)抽取支持3 種方式:全量抽取、增量抽取、實(shí)時抽取,將經(jīng)過數(shù)據(jù)抽取后的數(shù)據(jù)匯入到匯聚庫中;對于其他的數(shù)據(jù)庫系統(tǒng),可以直接通過數(shù)據(jù)交換平臺,把數(shù)據(jù)匯入到匯聚庫中. 數(shù)據(jù)治理模塊主要包括對匯聚庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范,必要時進(jìn)行主題劃分和數(shù)據(jù)關(guān)聯(lián),然后進(jìn)行數(shù)據(jù)集成,治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中. 數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行審查和校驗(yàn),過濾不合規(guī)數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)、糾正錯誤數(shù)據(jù)、完成格式轉(zhuǎn)換,并進(jìn)行清洗前后的數(shù)據(jù)一致性檢查,保證清洗結(jié)果集的質(zhì)量.數(shù)據(jù)清洗的方法除了以上介紹的幾種基本方法以外,該模型還支持自定義清洗規(guī)則,數(shù)據(jù)清洗規(guī)則是由業(yè)務(wù)需求人員與開發(fā)人員配合制定數(shù)據(jù)處理邏輯,經(jīng)過這些規(guī)則進(jìn)行數(shù)據(jù)清洗后,保證數(shù)據(jù)的一致性、準(zhǔn)確性和規(guī)范性更能滿足業(yè)務(wù)上的需求. 數(shù)據(jù)治理技術(shù)及基本方法在前面幾節(jié)進(jìn)行了詳細(xì)介紹. 數(shù)據(jù)服務(wù)模塊以數(shù)據(jù)共享中心構(gòu)建知識圖譜為起點(diǎn),早在2006 年,Web 創(chuàng)始人Berners-Lee 就提出數(shù)據(jù)鏈接的思想,隨后掀起了語義網(wǎng)絡(luò)的狂潮[87],知識圖譜在此基礎(chǔ)上形成.但是直到2012 年,知識圖譜的概念才被谷歌正式提出[88].知識圖譜是由節(jié)點(diǎn)和邊組成的巨型知識網(wǎng)絡(luò),節(jié)點(diǎn)代表實(shí)體,邊代表實(shí)體之間的關(guān)系,每個實(shí)體還由(key-value)鍵值對來描述實(shí)體的內(nèi)在特性.新的知識圖譜中還增加了實(shí)體與實(shí)體之間的事件,即邊表示關(guān)系或事件.楊玉基等人提出用四步法來構(gòu)建知識圖譜,即領(lǐng)域本體構(gòu)建、眾包半自動語義標(biāo)注、外源數(shù)據(jù)補(bǔ)全、信息抽取[89]. 數(shù)據(jù)服務(wù)模塊基于知識圖譜面向不同用戶提供多渠道、多維度的數(shù)據(jù)服務(wù),面向使用者提供模型管理、智能發(fā)現(xiàn)、模型探索、數(shù)據(jù)探索、數(shù)據(jù)訂閱等數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù).模型管理主要是對實(shí)體、關(guān)系進(jìn)行編輯和處理;智能發(fā)現(xiàn)是根據(jù)日志等元信息,將配置到系統(tǒng)的數(shù)據(jù)源反向推導(dǎo)出物理模型關(guān)系,將多個異構(gòu)物理模型歸一到同一實(shí)體后自動生成語義層的業(yè)務(wù)視圖;模型探索是支持關(guān)鍵詞搜索實(shí)體、關(guān)系等,將搜索結(jié)果拖拽到畫布探索實(shí)體之間以及關(guān)系之間的核對關(guān)系,用戶在了解業(yè)務(wù)模型的同時,也可以了解到業(yè)務(wù)模型背后對應(yīng)的物理模型,以及物理數(shù)據(jù)表的生產(chǎn)血緣關(guān)系;數(shù)據(jù)探索是對業(yè)務(wù)模型視圖可以進(jìn)行知識問答式的搜索,在路徑的任意節(jié)點(diǎn)上設(shè)置標(biāo)簽的條件,再在另外的節(jié)點(diǎn)上設(shè)定對應(yīng)標(biāo)簽的答案,使得用戶對數(shù)據(jù)的業(yè)務(wù)關(guān)系充分地了解;數(shù)據(jù)訂閱滿足外部其他平臺對本平臺各類數(shù)據(jù)的需求,通過對不同用戶下放的不同權(quán)限,再結(jié)合數(shù)據(jù)資源目錄服務(wù)的開放數(shù)據(jù)內(nèi)容,為外部用戶提供數(shù)據(jù)訂閱/退訂流程,并通過資源總線服務(wù)完成最終的數(shù)據(jù)投遞. 領(lǐng)域?qū)<覀?人類智能,HI)可以根據(jù)知識圖譜中的實(shí)體、關(guān)系、屬性等核心數(shù)據(jù)進(jìn)行建模,并進(jìn)行高層次的數(shù)據(jù)挖掘分析和加工,可以同知識圖譜、數(shù)據(jù)分析與加工模塊(AI)和組織智能(OI)相互交互和協(xié)同,實(shí)現(xiàn)HAO智能的大智慧問題求解[86].吳信東等人于2008 年所編著的《數(shù)據(jù)挖掘十大算法》一書詳細(xì)地介紹了用途最廣、影響最大的10 種數(shù)據(jù)挖掘算法[90],并于2018 年,吳信東等人基于分布式計(jì)算對大數(shù)據(jù)分析的兩種算法——MapReduce 與Spark 從背景、原理以及應(yīng)用場景進(jìn)行了具體的分析與比較[91].HACE 定理的大數(shù)據(jù)處理框架中(如圖1 所示),第1 層架構(gòu)解決了流數(shù)據(jù)存儲的計(jì)算問題,第2 層架構(gòu)考慮了隱私保護(hù)和模式發(fā)現(xiàn),第3 層架構(gòu)主要描述復(fù)雜的數(shù)據(jù)挖掘算法,HACE 定理在數(shù)據(jù)服務(wù)模塊如關(guān)聯(lián)分析與計(jì)算以及數(shù)據(jù)挖掘得到了廣泛應(yīng)用[8];自然語言處理的應(yīng)用更加廣泛,例如我們平時使用的私人助手Siri 以及出行助手等,都能給人們帶來更加便利的服務(wù).HAO 治理模型涵蓋了數(shù)據(jù)治理的全過程,從數(shù)據(jù)的采集、交換、清洗、規(guī)范、集成、應(yīng)用等融為一體,完成了智能數(shù)據(jù)治理. HAO 智能的核心是在大數(shù)據(jù)問題環(huán)境下,用人機(jī)協(xié)同來實(shí)現(xiàn)組織智能(HI+AI+OI),所以數(shù)據(jù)治理功能的模塊化和交互的靈活性是上面提到的HAO 治理模型6 個設(shè)計(jì)準(zhǔn)則中的兩個. 下面以公安數(shù)據(jù)治理為例,具體介紹HAO 治理模型的大數(shù)據(jù)治理過程. 圖13 描述的是公安數(shù)據(jù)治理框架,平臺架構(gòu)主要包括數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用這4 個部分. (1)數(shù)據(jù)存儲:基于分布式的大數(shù)據(jù)存儲平臺,具有很強(qiáng)的存儲能力和擴(kuò)張能力; (2)數(shù)據(jù)計(jì)算:這是數(shù)據(jù)治理的最主要部分,包括數(shù)據(jù)的探查、提取、清洗、轉(zhuǎn)換、集成等.這些計(jì)算任務(wù)都是基于大數(shù)據(jù)分布式的計(jì)算能力,應(yīng)用MapReduce 批處理和spark streaming 流式處理技術(shù),通過scheduler 任務(wù)調(diào)度器,實(shí)現(xiàn)對調(diào)度任務(wù)的執(zhí)行、管理與監(jiān)控. ? 數(shù)據(jù)探查:通過對數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征等指標(biāo)的分析來評估后續(xù)數(shù)據(jù)治理任務(wù)的工作量; ? 數(shù)據(jù)提取:抽取分布在各個系統(tǒng)中的各種類型的源數(shù)據(jù),提取元數(shù)據(jù),基于深度學(xué)習(xí)的語音識別、圖像識別、視頻處理技術(shù),實(shí)現(xiàn)對非結(jié)構(gòu)化的數(shù)據(jù)提取; ? 數(shù)據(jù)清洗:對缺失數(shù)據(jù)的處理,過濾掉重復(fù)相似的記錄,清除值錯誤的數(shù)據(jù); ? 數(shù)據(jù)轉(zhuǎn)換:將不符合規(guī)范的數(shù)據(jù),按照規(guī)范化的處理規(guī)則,轉(zhuǎn)化成符合標(biāo)準(zhǔn)的數(shù)據(jù),如編碼統(tǒng)一、格式統(tǒng)一、元數(shù)據(jù)統(tǒng)一等; ? 數(shù)據(jù)集成:將轉(zhuǎn)化后的規(guī)范化數(shù)據(jù)進(jìn)行整合,按照一定方式重新組織,如數(shù)據(jù)屬性的融合、關(guān)系融合、數(shù)據(jù)的主題化、標(biāo)簽化等; (3)數(shù)據(jù)管理:對集成后的數(shù)據(jù)統(tǒng)一維護(hù)與管理,包括對數(shù)據(jù)質(zhì)量的檢測、數(shù)據(jù)安全控制、數(shù)據(jù)血緣的監(jiān)控、元素管理等. ? 數(shù)據(jù)質(zhì)量檢測:從各個維度(唯一性、準(zhǔn)確性、完整性、合法性等)檢測,并形成數(shù)據(jù)質(zhì)量報告; ? 數(shù)據(jù)安全控制:對數(shù)據(jù)的使用與訪問,進(jìn)行權(quán)限的管理與控制; ? 數(shù)據(jù)血緣監(jiān)控:追蹤數(shù)據(jù)的來源與去向的整個過程; ? 元數(shù)據(jù)管理:數(shù)據(jù)知識庫的建立與維護(hù),包括對代碼庫、標(biāo)準(zhǔn)庫、標(biāo)簽庫、模型庫、圖譜庫等的管理; (4)數(shù)據(jù)應(yīng)用:這是數(shù)據(jù)價值最直接的體現(xiàn),基于自然語言處理、數(shù)據(jù)挖掘算法模型等技術(shù)對數(shù)據(jù)分析挖掘,包括統(tǒng)計(jì)分析、比對碰撞、關(guān)聯(lián)分析、數(shù)據(jù)挖掘等,將分析結(jié)果提供給上層應(yīng)用,如構(gòu)建專題庫、主題庫、構(gòu)建知識圖譜等. 數(shù)據(jù)處理流程是對源數(shù)據(jù)到目標(biāo)數(shù)據(jù)整個處理過程的監(jiān)管,并描述了數(shù)據(jù)采集、數(shù)據(jù)處理及數(shù)據(jù)展現(xiàn)這3個方面所用到的技術(shù)架構(gòu)和處理邏輯.本節(jié)主要介紹了處理流程中數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)規(guī)范化、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽化、數(shù)據(jù)主題化、構(gòu)建知識圖譜以及數(shù)據(jù)分析與挖掘8 個方面的內(nèi)容. (1)數(shù)據(jù)接入 公安系統(tǒng)中的源數(shù)據(jù),包括結(jié)構(gòu)化文本、關(guān)系型數(shù)據(jù)庫、非結(jié)構(gòu)化的文本及視頻、hadoop 平臺中的數(shù)據(jù)以及流式數(shù)據(jù),經(jīng)過批處理引擎或流式計(jì)算引擎,接入到統(tǒng)一的數(shù)據(jù)源系統(tǒng)中,形成最初的數(shù)據(jù)集市. (2)數(shù)據(jù)預(yù)處理 在對數(shù)據(jù)集市中的數(shù)據(jù)做處理前,根據(jù)數(shù)據(jù)規(guī)則庫定義的規(guī)則,首先對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)質(zhì)量的評估、空值率的計(jì)算、數(shù)據(jù)特征分析、數(shù)據(jù)格式的分析等;然后判斷數(shù)據(jù)是否有治理的價值;然后提取需要治理的數(shù)據(jù)、提取元數(shù)據(jù),經(jīng)過統(tǒng)一的編碼轉(zhuǎn)換處理后,過濾掉臟、亂、差的數(shù)據(jù);然后進(jìn)行數(shù)據(jù)去重等清洗處理. (3)數(shù)據(jù)規(guī)范化 數(shù)據(jù)規(guī)范是將預(yù)處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)知識庫的標(biāo)準(zhǔn),將數(shù)據(jù)統(tǒng)一處理成符合行業(yè)標(biāo)準(zhǔn)、省部級標(biāo)準(zhǔn)及國標(biāo)等標(biāo)準(zhǔn)的規(guī)范化數(shù)據(jù),提高數(shù)據(jù)的可移植性、共享性及復(fù)用性.數(shù)據(jù)規(guī)范過程(標(biāo)準(zhǔn)化過程)中所依賴的數(shù)據(jù)規(guī)范來源于權(quán)威性的行業(yè)規(guī)范、國標(biāo)、部標(biāo)等,對數(shù)據(jù)、名稱、字段及元數(shù)據(jù)等進(jìn)行標(biāo)準(zhǔn)化. (4)數(shù)據(jù)清洗 數(shù)據(jù)清洗是對不完整的數(shù)據(jù)、不一致的數(shù)據(jù)以及異常的數(shù)據(jù)進(jìn)行清洗,并過濾掉重復(fù)相似的記錄. (5)數(shù)據(jù)標(biāo)簽化 數(shù)據(jù)標(biāo)簽根據(jù)數(shù)據(jù)標(biāo)簽庫可以分為技術(shù)標(biāo)簽和業(yè)務(wù)標(biāo)簽:技術(shù)標(biāo)簽是基于表、字段的技術(shù)元數(shù)據(jù),例如空間占用、條目數(shù)、最新更新時間、更新頻率、訪問頻率、數(shù)據(jù)格式、字段數(shù)據(jù)類型、是否壓縮等,通過規(guī)則引擎進(jìn)行規(guī)則計(jì)算,為庫、表、字段等打上相應(yīng)的技術(shù)標(biāo)簽,例如最近一天更新的數(shù)據(jù)、大數(shù)據(jù)集、小數(shù)據(jù)集、頻繁更新數(shù)據(jù)集、壓縮文件、圖片、視頻等;業(yè)務(wù)標(biāo)簽基于庫、表、字段的業(yè)務(wù)定義、描述,值域的具體內(nèi)容,對于數(shù)據(jù)進(jìn)行業(yè)務(wù)標(biāo)簽生成,例如對于庫表來說,數(shù)據(jù)來源/數(shù)據(jù)種類(人口、教育、醫(yī)療等)標(biāo)簽、數(shù)據(jù)內(nèi)容標(biāo)簽(姓名、組織、地址、電話、商品等). (6)數(shù)據(jù)主題化 數(shù)據(jù)按照一定的主題進(jìn)行關(guān)聯(lián)來構(gòu)造一個模型.公安數(shù)據(jù)治理分別以人、物、時空、組織、虛擬標(biāo)識、案件等作為主題,分別建立模型,如圖14 所示. · 以人作為主題時,提取自然人為主體進(jìn)行描述的數(shù)據(jù)資源,并按照公安部的數(shù)據(jù)分類進(jìn)行主題模型的構(gòu)建; · 以物作為主題構(gòu)建模型時,提取特定的物為主體進(jìn)行描述的數(shù)據(jù)資源,針對不同情況涵蓋不同的內(nèi)容,包括物品、物證、微小痕跡、尸體等; · 以時空作為主題時,提取以時間、地點(diǎn)為主體進(jìn)行描述的數(shù)據(jù)資源來構(gòu)建時空主體模型; · 以組織作為主題時,提取法人、單位、特定人群組織結(jié)構(gòu)(如:戶)為主體進(jìn)行描述的數(shù)據(jù)資源來構(gòu)建組織類主題模型; · 以虛擬標(biāo)識作為主題時,以一個物品的標(biāo)簽或者分類信息作為主題進(jìn)行構(gòu)建模型; · 以案件作為主題構(gòu)建模型時,根據(jù)執(zhí)行主體的不同,案件又分為偵查調(diào)查行為和違法犯罪行為:偵查調(diào)查行為是指公安機(jī)關(guān)行使打擊犯罪,維護(hù)社會治安進(jìn)行偵查破案的行為;而違法犯罪行為是指犯罪嫌疑人進(jìn)行違法犯罪的行為. Fig.14 Public security governance theme model diagram圖14 公安治理主題模型圖 (7)知識圖譜構(gòu)建 知識圖譜按照目標(biāo)數(shù)據(jù)可以分為實(shí)體、事件、關(guān)系這3 種類型來建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將數(shù)據(jù)抽象化的內(nèi)在聯(lián)系,以可視化的形式有效表現(xiàn)出來.圖15 是以人為中心實(shí)體構(gòu)建的一個簡單的知識圖譜.以人為中心實(shí)體,建立人與電話號碼所屬關(guān)系、人與護(hù)照所屬關(guān)系及人與人的關(guān)系,同時建立了人與航班的出行事件、人與旅館的住宿事件. Fig.15 Knowledge gragh of character tracking圖15 人物追蹤知識圖譜 (8)數(shù)據(jù)分析與挖掘 對治理后的標(biāo)準(zhǔn)化數(shù)據(jù),采用一定的數(shù)據(jù)挖掘算法模型,對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、關(guān)聯(lián)分析、比對碰撞、數(shù)據(jù)挖掘等,為上層應(yīng)用提供數(shù)據(jù)服務(wù).公安機(jī)關(guān)作為偵查一線的最實(shí)用的技術(shù)是數(shù)據(jù)比對碰撞分析,數(shù)據(jù)比對碰撞分析是指運(yùn)用計(jì)算機(jī)對數(shù)據(jù)進(jìn)行分析,將兩組以上同類型的數(shù)據(jù)集進(jìn)行梳理,通過關(guān)聯(lián)查詢,篩選數(shù)據(jù)集取交集的一種方法. 身處于大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為一個組織最寶貴的財富之一,組織如果想要利用龐大且寶貴的數(shù)據(jù)資產(chǎn)來挖掘其中的商業(yè)價值,在數(shù)據(jù)挖掘之前就需要使用數(shù)據(jù)治理技術(shù),提高數(shù)據(jù)質(zhì)量,減少實(shí)際挖掘所需要的時間.通過第8 節(jié)對公安數(shù)據(jù)治理流程的具體介紹我們會發(fā)現(xiàn):數(shù)據(jù)治理技術(shù)融入到數(shù)據(jù)治理的每一個階段中,而不是孤立使用的,每一個階段都可能用到多個數(shù)據(jù)治理技術(shù). 數(shù)據(jù)治理的核心目標(biāo)是在降低風(fēng)險的同時,為企業(yè)增加價值.合理的數(shù)據(jù)治理,能夠建立規(guī)范的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),消除數(shù)據(jù)的不一致性,提高數(shù)據(jù)質(zhì)量,推動數(shù)據(jù)廣泛共享,充分發(fā)揮數(shù)據(jù)對政府及企業(yè)的業(yè)務(wù)、管理以及戰(zhàn)略決策的重要作用.大數(shù)據(jù)治理對于確保大數(shù)據(jù)的優(yōu)化、共享和安全是至關(guān)重要的,有效的大數(shù)據(jù)治理計(jì)劃可通過改進(jìn)決策、縮減成本、降低風(fēng)險和提高安全合規(guī)等方式,將價值回饋于業(yè)務(wù),并最終體現(xiàn)為增加收入和利潤[6].根據(jù)上述幾節(jié)的描述,數(shù)據(jù)治理包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全合規(guī)、數(shù)據(jù)模型設(shè)計(jì)以及數(shù)據(jù)的應(yīng)用這5 個基本功能. 一個組織數(shù)據(jù)治理的好壞是否達(dá)到自己預(yù)期的目標(biāo),可以通過以下幾個方面進(jìn)行評價. · 從數(shù)據(jù)的質(zhì)量方面考慮; a)數(shù)據(jù)的準(zhǔn)確性:經(jīng)過數(shù)據(jù)治理后的數(shù)據(jù)應(yīng)該是準(zhǔn)確的,而不能在治理過程中給正確的數(shù)據(jù)帶去噪音; b)數(shù)據(jù)的完整性和一致性:數(shù)據(jù)治理之后,數(shù)據(jù)的完整程度以及數(shù)據(jù)的一致性; c)數(shù)據(jù)的安全性:好的數(shù)據(jù)治理要充分地保護(hù)敏感數(shù)據(jù); · 從數(shù)據(jù)治理的效率進(jìn)行考慮:使用每秒處理多少條數(shù)據(jù)進(jìn)行直觀對比,這直接影響到數(shù)據(jù)的及時性; · 數(shù)據(jù)治理模型的成熟度:數(shù)據(jù)治理過程中,選擇的數(shù)據(jù)模型的成熟度直接影響數(shù)據(jù)治理的結(jié)果; · 從是否能追根溯源,找到數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因; · 人工干預(yù)程度:發(fā)現(xiàn)質(zhì)量問題以后,是系統(tǒng)自動處理,還是需要人工干預(yù)處理.然而,現(xiàn)在大數(shù)據(jù)治理也面臨一系列的問題和挑戰(zhàn). · 隨著數(shù)據(jù)產(chǎn)生方式的不斷擴(kuò)展,大數(shù)據(jù)不僅量大、類型多樣,而且數(shù)據(jù)內(nèi)容的維度和知識范疇的粒度也以多樣性展現(xiàn),體現(xiàn)的是數(shù)據(jù)與知識之間的立體關(guān)系[92],所以大數(shù)據(jù)治理技術(shù)的復(fù)雜性也將加大; · 數(shù)據(jù)量的龐大和增長速度之快,就要求數(shù)據(jù)清洗活動要具有可伸縮性和及時性,雖然已經(jīng)提出了多種錯誤檢測的方法,但是仍然有很多錯誤不能被檢測到.要設(shè)計(jì)更具表現(xiàn)力的完整性約束語言,使得數(shù)據(jù)所有者可以輕松地指定數(shù)據(jù)的質(zhì)量規(guī)則,并有效地讓人類專家參與錯誤檢測[45]; · 數(shù)據(jù)治理技術(shù)面臨著更加嚴(yán)峻的隱私安全的挑戰(zhàn).多源數(shù)據(jù)的集成技術(shù)使得數(shù)據(jù)之間的關(guān)聯(lián)性無形地被公開化,很可能會暴露用戶的個人隱私.所以,需要研究主動降低隱私泄露風(fēng)險的策略和風(fēng)險評估模型,用來有效地預(yù)測隱私泄露的風(fēng)險程度并提供風(fēng)險預(yù)警[92].Ni 等人于2010 年提供了一種支持隱私感知訪問控制機(jī)制的綜合框架,即,一種適用于對包含個人身份信息的數(shù)據(jù)實(shí)施訪問控制的機(jī)制[93]; · 由于數(shù)據(jù)治理是一個長期的過程,短期投入的人力、技術(shù)不一定能夠得到實(shí)質(zhì)性的回報,所以數(shù)據(jù)治理面臨著更大的投資回報風(fēng)險. 本文主要介紹了數(shù)據(jù)治理技術(shù),數(shù)據(jù)治理方法不僅需要數(shù)據(jù)治理技術(shù),還需要企業(yè)的制度規(guī)范以及生態(tài)運(yùn)營來配合加強(qiáng)數(shù)據(jù)治理工作.在制度保障方面,一個組織應(yīng)當(dāng)定義模型設(shè)計(jì)規(guī)范、數(shù)據(jù)開發(fā)規(guī)范、數(shù)據(jù)變更規(guī)范、數(shù)據(jù)質(zhì)量管理規(guī)范、數(shù)據(jù)安全規(guī)范、元數(shù)據(jù)規(guī)范等;在組織保障方面,組織應(yīng)當(dāng)設(shè)立數(shù)據(jù)委員會包括決策小組、安全小組、質(zhì)量小組以及穩(wěn)定性小組等來執(zhí)行管理職責(zé),設(shè)立數(shù)據(jù)資產(chǎn)部門包括部門數(shù)據(jù)負(fù)責(zé)人和數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)來執(zhí)行建設(shè)職責(zé).一個組織應(yīng)該對數(shù)據(jù)治理進(jìn)行長期的規(guī)劃,建立有效的數(shù)據(jù)治理體系,挖掘數(shù)據(jù)資產(chǎn)的潛力,從而發(fā)揮數(shù)據(jù)資產(chǎn)在企業(yè)中的核心價值.3 數(shù)據(jù)清洗
3.1 數(shù)據(jù)清洗背景
3.2 數(shù)據(jù)清洗基本方法
4 數(shù)據(jù)交換
4.1 數(shù)據(jù)交換的基本概念
4.2 數(shù)據(jù)交換的實(shí)現(xiàn)模式
5 數(shù)據(jù)集成
5.1 數(shù)據(jù)集成的基本概念
5.2 數(shù)據(jù)集成方法
6 數(shù)據(jù)治理框架
6.1 數(shù)據(jù)治理成熟度模型
6.2 數(shù)據(jù)治理框架
7 HAO 治理模型
7.1 數(shù)據(jù)接入模塊
7.2 數(shù)據(jù)治理模塊
7.3 數(shù)據(jù)服務(wù)模塊
8 數(shù)據(jù)治理具體應(yīng)用
8.1 公安數(shù)據(jù)治理架構(gòu)
8.2 數(shù)據(jù)處理流程
9 總結(jié)與展望