馬朝輝,聶瑞華,譚昊翔,林嘉洺,王欣明,唐華,楊晉吉,趙淦森
1.華南師范大學(xué)計算機(jī)學(xué)院,廣東 廣州 510630
2.華南師范大學(xué)軟件學(xué)院,廣東 佛山 528225
大數(shù)據(jù)治理的數(shù)據(jù)模式與安全
馬朝輝1,聶瑞華1,譚昊翔1,林嘉洺1,王欣明1,唐華2,楊晉吉1,趙淦森1
1.華南師范大學(xué)計算機(jī)學(xué)院,廣東 廣州 510630
2.華南師范大學(xué)軟件學(xué)院,廣東 佛山 528225
大數(shù)據(jù)治理的主要目的是使數(shù)據(jù)的利用價值和利用效率最大化,治理后的數(shù)據(jù)在利用過程中也不可避免會涉及敏感數(shù)據(jù)或者隱私數(shù)據(jù)。從大數(shù)據(jù)治理出發(fā),基于實際應(yīng)用案例,討論大數(shù)據(jù)治理過程中如何利用數(shù)據(jù)模式的重組實現(xiàn)數(shù)據(jù)價值的提升和數(shù)據(jù)處理效率的提升。同時,也提出了數(shù)據(jù)安全訪問策略的自動生成,保障數(shù)據(jù)在重組后得到相應(yīng)的安全防護(hù)。
大數(shù)據(jù)治理;數(shù)據(jù)融合;訪問控制
據(jù)IBM公司的分析,人類文明有90%的數(shù)據(jù)是在過去兩年內(nèi)產(chǎn)生的,到2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍[1]。而我國截至2015年12月,已經(jīng)擁有6.88億的互聯(lián)網(wǎng)用戶,13.06億的手機(jī)用戶①,每天可產(chǎn)生海量的數(shù)據(jù)。大數(shù)據(jù)無論在大型企業(yè),還是政府部門都發(fā)揮著相當(dāng)?shù)淖饔?。?015年7月1日國務(wù)院辦公廳印發(fā)的《關(guān)于運用大數(shù)據(jù)加強(qiáng)對市場主體服務(wù)和監(jiān)管的若干意見》中提到,充分運用大數(shù)據(jù)的先進(jìn)理念、技術(shù)和資源是提升國家競爭力的戰(zhàn)略選擇,是提高政府服務(wù)和監(jiān)管能力的必然要求,有利于政府充分獲取和運用信息,更加準(zhǔn)確地了解市場主體需求,提高服務(wù)和監(jiān)管的針對性、有效性。此外,大數(shù)據(jù)為醫(yī)療、能源、智慧城市、生物醫(yī)學(xué)、基因組學(xué)、交通運輸?shù)阮I(lǐng)域提供了不同的應(yīng)用視角。如何通過大數(shù)據(jù)治理來解決上述城市化問題以及更廣泛的問題是數(shù)字時代的趨勢。
數(shù)據(jù)治理當(dāng)前已經(jīng)成為IT業(yè)界一門新興的學(xué)科,被廣泛研究,但是數(shù)據(jù)治理這個概念則廣泛應(yīng)用在企業(yè)界。數(shù)據(jù)治理是指“從使用零散數(shù)據(jù)變?yōu)槭褂猛恢鲾?shù)據(jù)、從具有很少或沒有組織和流程治理到企業(yè)范圍內(nèi)的數(shù)據(jù)治理、從嘗試處理主數(shù)據(jù)混亂狀況到主數(shù)據(jù)井井有條的一個過程,并最終使企業(yè)能將數(shù)據(jù)作為企業(yè)的核心資產(chǎn)來管理”[2]。大數(shù)據(jù)治理這個概念形成于大數(shù)據(jù)時代,但是對于大數(shù)據(jù)治理的定義眾說紛紜。美國學(xué)者桑尼爾·索雷斯[3]將大數(shù)據(jù)治理定義為:大數(shù)據(jù)治理是廣義信息治理計劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策。梁芷銘[4]綜合不同觀點認(rèn)為:大數(shù)據(jù)治理是不同的人群或組織機(jī)構(gòu)在大數(shù)據(jù)時代為了應(yīng)對大數(shù)據(jù)帶來的種種不安、困難與威脅,運用不同的技術(shù)工具對大數(shù)據(jù)進(jìn)行管理、整合、分析并挖掘其價值的行為。
大數(shù)據(jù)治理對國家治理同樣重要。大數(shù)據(jù)技術(shù)為提升國家的科學(xué)決策、社會監(jiān)管、公共服務(wù)以及應(yīng)急管理能力都提供了良好的契機(jī),現(xiàn)在國家治理的多元主體已經(jīng)和信息化、數(shù)字化分不開了,但是大量數(shù)據(jù)藏身于互聯(lián)網(wǎng)和各種數(shù)字媒介,難分真假、難以辨清,國家治理主體容易迷失在其中,因此大數(shù)據(jù)治理會是國家治理的重要方面。對于國家治理過程中的大數(shù)據(jù)進(jìn)行治理,其主要的作用主要體現(xiàn)在以下幾個方面。
第一,大數(shù)據(jù)能有效提升科學(xué)決策水平[5]。因為大數(shù)據(jù)收集了整個國家各個領(lǐng)域方面的信息資源,對這些數(shù)據(jù)資源進(jìn)行整合之后相當(dāng)于一個龐大的信息資源庫,面對數(shù)據(jù)洪流,客觀、理性地進(jìn)行數(shù)據(jù)分析,強(qiáng)化大數(shù)據(jù)治理,能更好地幫助國家治理決策科學(xué)化,為國家治理提供重要的數(shù)據(jù)支持和決策依據(jù)。
第二,大數(shù)據(jù)通過增強(qiáng)對現(xiàn)象之間的關(guān)聯(lián)與研究,可以有效減少社會危機(jī)發(fā)生的不確定性,增強(qiáng)風(fēng)險預(yù)警能力,降低社會危機(jī)帶來的危害。大數(shù)據(jù)和社會公共管理的有效對接能夠高效實現(xiàn)跨部門、跨領(lǐng)域的管理信息共享,能有效提升公共危機(jī)事件的源頭治理、事前預(yù)警、動態(tài)監(jiān)控和應(yīng)急處置能力。
第三,數(shù)據(jù)共享為政府各職能部門的溝通提供了便利,模糊政府各部門之間、政府與公眾之間的邊界,使得信息孤島現(xiàn)象大幅度減少。
2.1 數(shù)據(jù)融合
數(shù)據(jù)融合能夠成為計算機(jī)領(lǐng)域內(nèi)的研
①http://www.cnnic.net.cn/ hlwfzyj/hlwxzbg/究熱點,與實際需求和數(shù)據(jù)融合技術(shù)的巨大潛能息息相關(guān)。數(shù)據(jù)融合最初是由于軍事作戰(zhàn)需求而提出的,是為了使多種作戰(zhàn)設(shè)備上多傳感器的數(shù)據(jù)信息能夠協(xié)調(diào)、整合與集成而形成的一種數(shù)據(jù)橫向綜合信息處理技術(shù)。因而,國內(nèi)早期研究數(shù)據(jù)融合的研究者[6],從技術(shù)的觀點把數(shù)據(jù)融合理解為一種技術(shù)思路,視為多源信息協(xié)調(diào)處理技術(shù)的總稱。隨著計算機(jī)科學(xué)技術(shù)的迅猛發(fā)展,數(shù)據(jù)融合概念已經(jīng)不再局限于多傳感器數(shù)據(jù)融合技術(shù)領(lǐng)域,概念的覆蓋領(lǐng)域進(jìn)一步擴(kuò)充。在計算機(jī)領(lǐng)域,隨著硬件設(shè)備性能和軟件服務(wù)能力的不斷提升,面對多源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)融合,數(shù)據(jù)集成的技術(shù)手段不再缺乏。而在如何構(gòu)建多源數(shù)據(jù)的集成模型,提供給用戶統(tǒng)一的數(shù)據(jù)視圖的問題上,國外數(shù)據(jù)研究者Lenzerini M提出了自己的一些思考與想法[7],他針對各種數(shù)據(jù)源和全局?jǐn)?shù)據(jù)模式之間如何建立關(guān)聯(lián)關(guān)系,提出了global-as-view和localas-view兩種基礎(chǔ)方法論,并對如何在數(shù)據(jù)整合中處理查詢、如何處理數(shù)據(jù)源不一致性問題等提出了相關(guān)的觀點和方法。
近年來,云計算技術(shù)新軍突起,成為計算機(jī)領(lǐng)域分布式計算的一面旗幟。而伴隨著移動互聯(lián)網(wǎng)時代的到來,信息數(shù)據(jù)資源激增,也是所謂的“大數(shù)據(jù)”時代的到來,面對越來越多的信息源和數(shù)據(jù)源,各種數(shù)據(jù)使用實體對數(shù)據(jù)融合的實際需求更加迫切。大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生、收集和處理規(guī)??涨?,在數(shù)據(jù)集成處理上,Dong X L等從多個維度提出了大數(shù)據(jù)集成與傳統(tǒng)數(shù)據(jù)集成的區(qū)別[8],這些維度包括了數(shù)據(jù)源的數(shù)量、數(shù)據(jù)源的動態(tài)性、數(shù)據(jù)源異構(gòu)和數(shù)據(jù)源的質(zhì)量差異。面對大數(shù)據(jù),數(shù)據(jù)融合要充分考慮數(shù)據(jù)源對象的各種特性,充分考慮大數(shù)據(jù)融合過程中可能出現(xiàn)的數(shù)據(jù)問題。為了降低處理大量復(fù)雜數(shù)據(jù)源整合過程中的任務(wù)復(fù)雜度,Caruccio L等提出了一種基于可視化語言的方法和工具[9]。基于概念層次上的數(shù)據(jù)融合,該可視化語言能夠提供對數(shù)據(jù)源概念數(shù)據(jù)模型構(gòu)建的操作接口或操作方式,這種工具能夠生成多個數(shù)據(jù)源之間的關(guān)聯(lián)模式,自動生成元數(shù)據(jù)并且提供一種機(jī)制,保證階段性地從各個數(shù)據(jù)源中加載更新的數(shù)據(jù)。
《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2014年)》中對大數(shù)據(jù)發(fā)展趨勢的預(yù)測總結(jié)為“融合、跨界、基礎(chǔ)、突破”,可以看出在未來的一個時間階段內(nèi),大數(shù)據(jù)領(lǐng)域數(shù)據(jù)融合成為最為顯著的發(fā)展趨勢。數(shù)據(jù)融合因為實際需求而提出,技術(shù)成果要服務(wù)于實際應(yīng)用?;ヂ?lián)網(wǎng)將各種異構(gòu)網(wǎng)絡(luò)、各種不同的信息系統(tǒng)連在一起,變成一個更龐大的信息資源網(wǎng)絡(luò)。面對Web數(shù)據(jù)形式多樣、表達(dá)自由等特點帶來的數(shù)據(jù)集成信息冗余、準(zhǔn)確度差、數(shù)據(jù)離散等問題,張永新博士對Web數(shù)據(jù)融合進(jìn)行了深入探究[10]。數(shù)據(jù)融合是數(shù)據(jù)分析挖掘的重要前提,提高集成數(shù)據(jù)的質(zhì)量十分關(guān)鍵,張永新針對海量Web信息的數(shù)據(jù)沖突、多源數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)融合的可回溯機(jī)制等保證數(shù)據(jù)集成質(zhì)量的多個方面進(jìn)行了研究和探討。此外,為了解決大數(shù)據(jù)給數(shù)據(jù)融合帶來的新挑戰(zhàn),北京郵電大學(xué)穆化鑫嘗試使用分布式計算的能力來應(yīng)對[11],他提出基于Storm實時計算引擎對物聯(lián)網(wǎng)的異構(gòu)數(shù)據(jù)進(jìn)行融合處理,其工作主要是構(gòu)建一種系統(tǒng)架構(gòu),將現(xiàn)有的數(shù)據(jù)融合相關(guān)算法與Storm分布式實時計算引擎結(jié)合起來,形成一個算法與數(shù)據(jù)分離、高解耦且可擴(kuò)展的實時分布式數(shù)據(jù)融合系統(tǒng)。大數(shù)據(jù)帶來了數(shù)據(jù)融合的挑戰(zhàn),也催生了解決問題的技術(shù),特別地,數(shù)據(jù)融合對于大數(shù)據(jù)與社會治理也提供了強(qiáng)有力的技術(shù)支撐。針對電子政務(wù)工程建設(shè)中政府信息資源利用效率低下的問題,電子科技大學(xué)石西慶提出了一種基于“任務(wù)”的城市級基礎(chǔ)數(shù)據(jù)融合服務(wù)模型,實現(xiàn)政務(wù)基礎(chǔ)數(shù)據(jù)的快速融合服務(wù)發(fā)布,確?;A(chǔ)數(shù)據(jù)的時效性和服務(wù)能力,進(jìn)而構(gòu)建一種電子政務(wù)信息共享服務(wù)平臺[12]。類似地,北京大學(xué)化柏林教授對大數(shù)據(jù)環(huán)境下多源信息數(shù)據(jù)融合的應(yīng)用進(jìn)行了深入研究[13],從國家、社會和企業(yè)的不同層次、不同角度的應(yīng)用研究(如國家政府“單獨兩孩”政策、城市綜合治理和產(chǎn)業(yè)優(yōu)化調(diào)整、企業(yè)的發(fā)展決策等),表征了數(shù)據(jù)驅(qū)動決策的思路貫穿社會多個領(lǐng)域,更體現(xiàn)出數(shù)據(jù)融合在社會治理中的重要作用。
2.2 數(shù)據(jù)融合安全
數(shù)據(jù)融合作為大數(shù)據(jù)治理的一個重要環(huán)節(jié),數(shù)據(jù)機(jī)密性及隱私保護(hù)是其主要面臨的安全問題。數(shù)據(jù)融合的生命周期包括收集、融合、檢索、處理分析,每個階段都存在破壞數(shù)據(jù)的風(fēng)險。在數(shù)據(jù)收集階段,數(shù)據(jù)融合匯聚了來自多個機(jī)構(gòu)或組織的數(shù)據(jù)源,每個數(shù)據(jù)源由不同的安全策略管控,數(shù)據(jù)很有可能沒有按照其安全策略進(jìn)行收集或者不同機(jī)構(gòu)的安全策略存在沖突[14]。在數(shù)據(jù)融合階段,數(shù)據(jù)被融合集成到一個公共平臺,例如data.gov等數(shù)據(jù)開放平臺,孟小峰[15]等指出數(shù)據(jù)被外包或開放到一個不可信的公共平臺,沒有索引加密或訪問控制等安全保護(hù)措施,很可能會引起數(shù)據(jù)的泄露。在數(shù)據(jù)檢索階段,融合數(shù)據(jù)提供檢索服務(wù)來共享數(shù)據(jù),這是最容易發(fā)生數(shù)據(jù)泄露的階段。因為每個用戶都可以從搜索引擎獲取數(shù)據(jù),如果沒有全局安全策略[18]來管控數(shù)據(jù),將面臨著數(shù)據(jù)泄露的風(fēng)險。為了解決這個問題,常見的方法是采用加密文本檢索技術(shù)[19,20]。在數(shù)據(jù)處理分析的階段,同樣存在數(shù)據(jù)泄露的問題,主要原因有:多數(shù)據(jù)源之間的交叉分析挖掘,很可能發(fā)現(xiàn)機(jī)密信息或者暴露隱私;數(shù)據(jù)的處理往往依托大數(shù)據(jù)平臺進(jìn)行分析,如Hadoop和Spark,平臺計算資源是共享的,因而也存在暴露數(shù)據(jù)的可能。
訪問控制是數(shù)據(jù)融合安全防護(hù)的主要機(jī)制之一。Carlo等[19]認(rèn)為多機(jī)構(gòu)合作并共享數(shù)據(jù)的環(huán)境需要提供一種靈活的訪問控制來使用資源,因此提出了管理融合數(shù)據(jù)的訪問框架,該框架將系統(tǒng)劃分成本地環(huán)境以及融合環(huán)境,并用屬性標(biāo)記數(shù)據(jù)資源,通過將本地屬性映射到全局屬性,以達(dá)到統(tǒng)一的訪問控制。Huseyin等[20]認(rèn)為應(yīng)該為數(shù)據(jù)集成分析提供細(xì)粒度的訪問控制,并設(shè)計了一種細(xì)粒度的訪問控制系統(tǒng)GuardMR,該系統(tǒng)使用一種對象約束語言,并自動將策略轉(zhuǎn)換成Java字節(jié)碼來對MapReduce過程實施訪問控制。Gedare和Rahul[21]認(rèn)為在分布式環(huán)境中,訪問控制通過一個中心的訪問管理器進(jìn)行決策,但這樣會制約系統(tǒng)的性能,因此提出了一種硬件級別的權(quán)限緩存,提高系統(tǒng)的決策速度。
數(shù)據(jù)融合集成了來自多個數(shù)據(jù)源的數(shù)據(jù),每個數(shù)據(jù)源由不同的安全策略管控,因此上述方法存在以下問題:擴(kuò)展性受限,上述方法都是對安全策略進(jìn)行統(tǒng)一管理,隨著數(shù)據(jù)源及數(shù)據(jù)量的增加,將制約系統(tǒng)的擴(kuò)展;策略存在沖突,不同機(jī)構(gòu)有自身的安全策略,它們之間很有可能存在沖突的情況。因此,研究數(shù)據(jù)融合的安全策略融合對其安全防護(hù)有重要意義。安全策略融合是將多個訪問策略融合,解決安全沖突并生成一個新的策略,該策略能夠符合原有的安全要求?,F(xiàn)有的研究工作中,Rao[22,23]使用邏輯代數(shù)表示安全策略,并提出一種基于代數(shù)運算的方法生成融合策略。但由于數(shù)理邏輯運算極有可能返回未知的結(jié)果,導(dǎo)致系統(tǒng)決策的不確定性,影響系統(tǒng)的可用性。Hu[24]使用基于語義的安全策略,通過本體映射和合并,將查詢語句重寫成實體和屬性名稱,并映射到本地查詢。Cruz將本地策略存儲在RDF(resource description framework,資源描述框架)中,并在融合過程將本地RDF轉(zhuǎn)變成一個全局RDF。
3.1 圖模型
圖是由一個頂點的有窮非空集合V(G)和一個弧的集合E(G)組成,通常記作G=(V,E)。圖中的頂點即數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)元素,弧的集合E是定義在頂點集合上的一個關(guān)系。用有序?qū)Γ紇,w>表示從v到w的一條弧?;∈怯蟹较蛐缘模脦Ъ^的線段表示,v為弧尾(始點),w為弧頭(終點),該圖為有向圖,如圖1所示。其中V(G)={v,w,u},E(G)={<v,w>,<w,u>}。如果圖中從v到w有一條弧,同時從w到v也有一條弧,那么該圖稱為無向圖,如圖2所示,用無序?qū)Γ╲, w)表示v和w之間的一條邊,其中,V(G)={v,w,u},E(G)={(v,w),(w,u)}。
圖1 有向圖
圖2 無向圖
圖3 數(shù)據(jù)庫的圖表示
3.2 數(shù)據(jù)庫的圖表示
一個學(xué)生管理系統(tǒng)的數(shù)據(jù)庫可以采用如圖3所示的有向圖表示其依賴關(guān)系。
假設(shè)以下條件。
ti:表示數(shù)據(jù)庫中的一個表。
T:表示數(shù)據(jù)庫中表的集合。
G=<V,E>:有向無環(huán)圖(DAG),表示數(shù)據(jù)庫的關(guān)系圖。其中,vi表示圖中的一個節(jié)點,對應(yīng)數(shù)據(jù)庫中的一個表i,V={v1,v2,…,vk│1≤k≤n}是圖中的點集,表示數(shù)據(jù)庫中所有表的集合;e=<vi,vj>是圖中的一條有向邊,表示數(shù)據(jù)庫中表ti外鍵引用表tj,E={<vi,vj>│1≤i,j≤n,i≠j}是圖中的邊集,表示數(shù)據(jù)庫中所有外鍵引用關(guān)系的集合。規(guī)定|V|≥1。
數(shù)據(jù)庫D B的表集合T={t1,t2,…, tk│1≤k≤n},則數(shù)據(jù)庫DB的圖表示為:G=f(DB)。令G=<V,E>,?t∈DB.T,則有vt∈G.V和et=<vt,vj>∈G.E,此外沒有其他的V和e屬于G。
上述建模過程生成了數(shù)據(jù)庫的依賴圖,圖中節(jié)點(數(shù)據(jù)庫的表)的依賴關(guān)系由圖中的邊來表示。因此,當(dāng)兩個節(jié)點之間有邊相連時,兩個節(jié)點之間有相應(yīng)的依賴關(guān)系,具體由邊的方向決定。
數(shù)據(jù)融合過程在一定程度上是針對圖進(jìn)行邊的消減的過程,以形成一個或者多個獨立的節(jié)點。每一條邊的消除,同時需要把邊的兩端節(jié)點的數(shù)據(jù)進(jìn)行融合,減少對應(yīng)的節(jié)點外在依賴,即形成了融合后的數(shù)據(jù)。當(dāng)一個節(jié)點的所有邊都消除后,該節(jié)點就成為自包含的數(shù)據(jù)節(jié)點。
算法的主要問題是擴(kuò)展順序,即節(jié)點間的消邊順序。如圖4所示,本算法思想是從葉子節(jié)點開始往上層節(jié)點擴(kuò)展處理,因為只有葉子節(jié)點和孤立節(jié)點是當(dāng)前已經(jīng)包含完整信息的節(jié)點,即數(shù)據(jù)表。它們不再需要引用其他表的信息,那么它們就是已經(jīng)包含完整信息的表。所以按照這種順序擴(kuò)展后能保證被嵌套擴(kuò)展的節(jié)點已經(jīng)包含了完整信息,那么擴(kuò)展后的節(jié)點也就會包含完整信息。
核心算法就是從傳統(tǒng)關(guān)系型數(shù)據(jù)庫的模式圖G中的葉子節(jié)點集P里取出節(jié)點v,取出以該節(jié)點為弧尾的邊<u,v>,對該邊的弧頭節(jié)點u進(jìn)行擴(kuò)展,即把v節(jié)點的全部信息插進(jìn)節(jié)點u中。當(dāng)節(jié)點u擴(kuò)展完畢,即沒有以該點為弧頭的邊,就把節(jié)點u放入葉子節(jié)點集P。當(dāng)葉子節(jié)點v不再被任何節(jié)點依賴,即沒有以該節(jié)點為弧尾,就把該節(jié)點v移出節(jié)點集P,放入孤立節(jié)點集T。如此循環(huán)處理葉子節(jié)點集,直到葉子節(jié)點集P為空集。
本算法輸入G=(V,E)是有向無環(huán)圖,其中,V為G的點的集合,E為G的邊的集合。規(guī)定|V|≥1。輸出是一個二元組序列S={<u,v>|<u,v>∈E},表示擴(kuò)展順序。按照順序S擴(kuò)展后,模式轉(zhuǎn)換為G′=(V′,E′)。其中,V′為G′的點的集合,E′為G′的邊的集合,為空集。為了表述方便,下面將“節(jié)點”簡稱為“點”,“關(guān)系邊”簡稱為“邊”。
圖4 算法消除邊的示意
圖5 融合數(shù)據(jù)搜索系統(tǒng)的架構(gòu)示意
如圖5所示,在每個數(shù)據(jù)源上有多個數(shù)據(jù)集,而這些數(shù)據(jù)源需要進(jìn)行整合,融合在一起形成一個新的數(shù)據(jù)集。用戶在搜索融合的數(shù)據(jù)集得到查詢結(jié)果。因此,融合搜索由以下幾個關(guān)鍵部分組成,分別是用戶、搜索引擎、融合數(shù)據(jù)、數(shù)據(jù)源、數(shù)據(jù)集、記錄、安全策略融合模塊以及策略處理模塊等,其中安全策略融合模塊將每個數(shù)據(jù)源的訪問策略進(jìn)行融合,生成一個融合訪問策略,而策略處理模塊則是對融合生成數(shù)據(jù)集根據(jù)安全策略進(jìn)行安全標(biāo)記,并且過濾不符合安全要求的結(jié)果。
假定每個數(shù)據(jù)源都是基于BLP(Bell-LaPadula)模型下建立訪問策略的。因此,根據(jù)BLP模式,訪問策略Pi定義為Pi=(fi,LTCi,Mi),其中,i表示第i個數(shù)據(jù)源。當(dāng)不同的數(shù)據(jù)源合并在一起,就會產(chǎn)生一個新的融合數(shù)據(jù)集。因為不同的數(shù)據(jù)源之間存在一些差異,所以融合的訪問策略為PG=(fG,LTCG,MG)必須處理融合時的沖突,并且保持與原有數(shù)據(jù)源中的訪問策略一致。而融合過程主要是3部分的融合:Lattice的融合、映射函數(shù)的轉(zhuǎn)換以及訪問控制矩陣的融合。
4.1 Lattice融合
Hasse圖②https://en.wikipedia.org/ wiki/Hasse_ diagram是一種用于表達(dá)有限的偏序關(guān)系集合的圖,以圖形形式表現(xiàn)偏序關(guān)系集合的傳遞關(guān)系在偏序集合<S,≤>,S的每個元素在Hasse圖是一個頂點。而對于兩個元素s1和s2滿足偏序關(guān)系,即s1∈S和s2∈S并且s1≤s2,則在Hasse圖里偏序關(guān)系表示一段有向線段,從s2指向s1。
因為Lattice是一種特殊的偏序關(guān)系集合,所以Lattice也可以用Hasse圖來表示。因此,Lattice的融合可以轉(zhuǎn)換為兩幅Hasse圖的合并。合并過程主要分為3個階段:初始化階段、沖突處理階段和化簡階段。初始化階段是在兩幅原始的Hasse圖之間添加滿足偏序關(guān)系的線段。在添加關(guān)聯(lián)線段后,融合Hasse圖可能會存在與原有Hasse圖的沖突,所以需要對融合Hasse圖進(jìn)行沖突檢測和處理,刪除一些沖突線段。最后,還需要對融合Hasse圖進(jìn)行化簡,刪除冗余的線段。
4.1.1 初始化階段
假設(shè)兩個Lattice表示為LTC1=<S1,R1>和LTC2=<S2,R2>。在初始化階段,需要對兩個Lattice之間的節(jié)點關(guān)系進(jìn)行考慮。而兩個節(jié)點之間的關(guān)系分為兩種:一種是相等關(guān)系,另一種是支配關(guān)系。
定義1 假設(shè)l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當(dāng)且僅當(dāng)c1=c2和k1=k2時,l1與l2是相等關(guān)系。
定義2 假設(shè)l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當(dāng)且僅當(dāng)c1≥c2和k1?k2,則l1與l2是支配關(guān)系。
如圖6所示,根據(jù)以上兩個定義,在Lattice融合的初始化階段,針對兩個Hasse圖之間的節(jié)點關(guān)系,得出以下規(guī)則:
● 若兩個Hasse圖之間的頂點滿足相等關(guān)系,則在兩個頂點之間添加兩條互相指向的有向線段;
● 若兩個Hasse圖之間的頂點滿足支配關(guān)系,則在兩個頂點之間添加一條由支配頂點指向被支配頂點的有向線段。
圖6 Lattice圖合并示意
4.1.2 沖突處理階段
在添加了兩個節(jié)點的關(guān)系線段之后,此時的融合Hasse圖可能存在冗余的線段或者沖突線段。因此,接下來要處理的就是那些與原有Lattice的Hasse圖沖突的線段。首先,給出Hasse圖里的線段定義。
定義3 路徑在Hasse圖中是一系列的有向線段,連接著一系列的頂點,而連接之間的頂點只出現(xiàn)一次。
定義4 回路在Hasse圖中是一條特殊的路徑,開始頂點與結(jié)束頂點是同一個頂點,且經(jīng)過多于2個頂點。
在Hasse圖里面的兩個節(jié)點的關(guān)系可分為可比關(guān)系和不可比關(guān)系。
定義5 假設(shè)s1和s2分別是Hasse圖里的兩個節(jié)點,當(dāng)且僅當(dāng)s1和s2之間存在路徑時,s1和s2之間的關(guān)系是可比關(guān)系。
定義6 假設(shè)s1和s2分別是Hasse圖里的兩個節(jié)點,當(dāng)且僅當(dāng)s1和s2之間不存在路徑時,s1和s2之間的關(guān)系是不可比關(guān)系。
定義7 當(dāng)如下兩種情況之一出現(xiàn)時,表示一條路徑是沖突的:若這條路徑是回路;若這條路徑起始點和結(jié)束點在原有的Hasse圖中是不可比關(guān)系,但這條路徑在合并Hasse圖中變得可比。
根據(jù)上述定義,對合并過程中出現(xiàn)的兩種沖突情況進(jìn)行討論,如圖7所示。
(1)合并Hasse圖存在回路
在初始化階段添加了兩個原有Hasse之間節(jié)點的全部關(guān)聯(lián)線段后,在生成的合并Hasse圖可能會存在一條回路。
(2)在原有Hasse圖中,不可比的兩個節(jié)點在合并的Hasse圖中存在路徑
在原來的Hasse圖中存在兩個不可比的節(jié)點。但因為初始化節(jié)點添加關(guān)聯(lián)線段后,使得這兩個節(jié)點變得可比。即在某個Lattice里,兩個安全等級l1和l2是不可比的。但在添加了兩個Lattice之間的關(guān)聯(lián)線段后,l1和l2之間可能就存在一條路徑,使得l1和l2變得可比。
針對這兩種情形,給出以下兩條規(guī)則來處理沖突的線段。
● 規(guī)則1:刪除在沖突路徑中出現(xiàn)次數(shù)最多的關(guān)聯(lián)線段。
● 規(guī)則2:若規(guī)則1不適用,則刪除在沖突路徑中涉及的安全級別最高的關(guān)聯(lián)線段。
4.1.3 化簡階段
經(jīng)過沖突處理階段后,合并Hasse圖應(yīng)該不存在任何具有沖突的路徑,但此時的圖可能會比較冗余,因此需要對Hasse圖進(jìn)行最后一個步驟,化簡操作,如圖8所示。
圖7 Lattice圖沖突解決示意
定義8 假設(shè)在Hasse圖中有兩個節(jié)點s1和s2。當(dāng)且僅當(dāng)兩條路徑互相直接指向?qū)Ψ?,即s1→s2和s1→s2,則這兩條路徑是平等關(guān)系。
定義9 假設(shè)在Hasse圖中有兩個節(jié)點s1和s2。當(dāng)且僅當(dāng)一條路徑是s1直接指向s2,如s1→s2,而另一條路徑是由s1到s2,并且中間經(jīng)過若干個節(jié)點,如s1→…→s2,則這兩條路徑是覆蓋關(guān)系。
定義10 冗余線段就是指那些滿足平等關(guān)系或覆蓋關(guān)系的關(guān)聯(lián)線段。
因此,若沖突處理后的Hasse圖存在冗余線段,按照以下兩條規(guī)則對冗余線段進(jìn)行刪除,并化簡Hasse圖,得到最終簡化的Hasse圖。
● 若兩條路徑是平等關(guān)系,則對路徑涉及的兩個節(jié)點進(jìn)行合并,生成新的節(jié)點。
● 若兩條路徑是覆蓋關(guān)系,則刪除那條從起始點直接指向結(jié)束點的關(guān)聯(lián)線段。
4.2 映射函數(shù)轉(zhuǎn)換
在安全策略融合后,需要將原始的Hasse圖上的安全等級映射到新生成的Lattice圖的安全等級。在Hasse圖中,每個安全級別對應(yīng)的是圖中的節(jié)點。因此,安全級別的映射轉(zhuǎn)換就等同于在原有Hasse圖上的節(jié)點映射到融合Hasse圖的節(jié)點。
本文定義了兩個映射函數(shù)的轉(zhuǎn)換函數(shù)。fiG表示從原始Latticei映射轉(zhuǎn)換為融合Lattice映射,其中,i表示原始的格LTCi。fiG表示從融合Lattice映射轉(zhuǎn)換為原始Latticei映射。fiG函數(shù)是將原始的安全等級轉(zhuǎn)換為全局的、融合的安全等級。而fGi則相反,即將全局的、融合的安全等級轉(zhuǎn)換為原始的安全等級。
圖8 Lattice圖化簡示意
4.3 訪問控制矩陣融合
訪問控制矩陣標(biāo)識了主體對客體是否擁有訪問權(quán)限,若主體擁有客體的訪問權(quán)限,則將訪問矩陣對應(yīng)的元素設(shè)置為真。在合并兩個訪問控制矩陣形成新的訪問控制矩陣時,融合數(shù)據(jù)集的訪問屬性與進(jìn)行合并的數(shù)據(jù)集訪問屬性相關(guān)。為了保護(hù)數(shù)據(jù)的機(jī)密性,當(dāng)合并前兩個數(shù)據(jù)集在訪問矩陣中均能訪問時,合并后的數(shù)據(jù)集才可以訪問。
當(dāng)兩個訪問控制矩陣進(jìn)行合并時,新的訪問控制矩陣的主體是兩個數(shù)據(jù)源的主體的并集,客體是兩個數(shù)據(jù)源的并集與新融合的數(shù)據(jù)集。若主體對兩個融合數(shù)據(jù)集具有訪問權(quán)限,則主體對兩個數(shù)據(jù)集都具有訪問權(quán)限,那么主體對新數(shù)據(jù)集擁有訪問權(quán)限,新矩陣中對應(yīng)的元素設(shè)置為真,否則設(shè)置為假。
刑事共犯的追蹤主要是要融合相關(guān)情報部門整理的多個情報源的數(shù)據(jù),根據(jù)給定人員的信息,通過融合的情報數(shù)據(jù)對關(guān)聯(lián)任務(wù)進(jìn)行發(fā)現(xiàn)和追蹤。情報部門的每個情報源刻畫的是一個社會側(cè)面的活動,如出租屋信息刻畫的是社會人員租賃房屋和居住的信息,鐵路出行刻畫的是市民利用鐵路作為交通工具的乘坐信息。融合后的數(shù)據(jù)可以同時反映出不同側(cè)面的活動,提供了更加完整的信息。刑事共犯的數(shù)據(jù)融合將相關(guān)人員的證件號碼、電話號碼等信息作為關(guān)聯(lián)的依據(jù)。
通過這些信息,融合后的數(shù)據(jù)可以提供同行同住、頻繁鄰近空間交往、疑似同伴等偵查過程需要的分析挖掘能力,如圖9所示。若依靠傳統(tǒng)手段,如市民A做了壞事,市民B是A的親戚,A做不做壞事,B都跟A是親戚,沒有意義。融合后的數(shù)據(jù)要找的是A做了壞事,當(dāng)時跟A在一起的有什么人,比如他們在相近時間住在相鄰的酒店、他們經(jīng)常在某些地方先后出現(xiàn)等。這種關(guān)聯(lián)不是很明顯,但是它是很有價值的,因為就算他們不是同行,他也有可能是見證人,有可能見證了事件的發(fā)生。所以需要融合數(shù)據(jù)來分析怎么把不相關(guān)的事情關(guān)聯(lián)起來,這就需要從數(shù)據(jù)處理的角度分析,在事件網(wǎng)絡(luò)上做信息的協(xié)同挖掘,找到他們有可能關(guān)聯(lián)的行為。
圖9 刑事共犯數(shù)據(jù)融合示例
本文從大數(shù)據(jù)治理中的數(shù)據(jù)模式轉(zhuǎn)換和安全防護(hù)的角度,討論了大數(shù)據(jù)中割裂數(shù)據(jù)的融合問題,通過發(fā)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模式和識別數(shù)據(jù)中的實體以及實體之間的關(guān)聯(lián)關(guān)系,依據(jù)關(guān)聯(lián)關(guān)系重組數(shù)據(jù)的存儲和組織形式,消除數(shù)據(jù)的外部依賴,以減少在大數(shù)據(jù)分析挖掘過程中對數(shù)據(jù)的重復(fù)查找和組合的工作。同時,針對數(shù)據(jù)的重組過程提出了基于Bell-LaPadula模型的數(shù)據(jù)保護(hù)機(jī)制。該機(jī)制在數(shù)據(jù)按照相應(yīng)需求進(jìn)行重組的同時,對數(shù)據(jù)訪問控制的安全策略進(jìn)行了相應(yīng)調(diào)整。調(diào)整后的新安全策略能夠使數(shù)據(jù)的私密性得到保障,提供不低于原有安全策略的數(shù)據(jù)訪問保護(hù)。
[1] 馬雙榮.該如何面對大數(shù)據(jù)來襲[N].解放軍報, 2014-04-17.MA S R.How to face the incoming data[N].Jiefangjun Bao, 2014-04-17.
[2] 張一鳴.數(shù)據(jù)治理過程淺析[J].中國信息界, 2012(9): 15-17.ZHANG Y M.Analysis of the data governance process[J].Information China, 2012(9): 15-17.
[3] 桑尼爾·索雷斯.大數(shù)據(jù)治理[M].匡斌,譯.北京: 清華大學(xué)出版社, 2014.SUNIL S.Big data governance[M].Translated by KUANG B.Beijing: Tsinghua University Press, 2014.
[4] 梁芷銘.大數(shù)據(jù)治理:國家治理能力現(xiàn)代化的應(yīng)有之義[J].吉首大學(xué)學(xué)報(社會科學(xué)版), 2015, 36(2): 34-41.LIANG Z M.Mega data governance: an essential approach to the modernization of state governance[J].Journal of Jishou University(Social Science Edition), 2015, 36(2): 34-41.
[5] 張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D].北京: 中共中央黨校, 2014.ZHANG L T.Social value and strategic choice of big data [D].Beijing: PartySchool of the Central Committee of C.P.C, 2014.
[6] 謝紅衛(wèi), 汪浩, 蘇建志.數(shù)據(jù)融合技術(shù)[J].系統(tǒng)工程與電子技術(shù), 1992(12): 40-49.XIE H W, WANG H, SU J Z.Data fusion technology [J].Systems Engineering and Electronics, 1992(12): 40-49.
[7] LENZERINI M.Data integration: a theoretical perspective[C]//The 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, June 2-6, 2002, Madison, WI, USA.New York: ACM Press, 2002: 233-246.
[8] D ONG X L, SR I VASTAVA D.Big data integration[C]// 2013 IEEE 29th International Conference on Data Engineering (ICDE), April 8-11, 2013, Brisbane, Australia.New Jersey: IEEE Press, 2013: 1245-1248.
[9] CARUCCIO L, DEUFEMIA V, MOSCARIELLO M, et al.Data integration by conceptual diagrams[C]// Database and Expert Systems Applications, Sep 1-5, 2014, Munich, Germany.Berlin: Springer International Publishing, 2014: 310-317.
[10] 張永新.面向Web數(shù)據(jù)集成的數(shù)據(jù)融合問題研究[D].濟(jì)南: 山東大學(xué), 2012.ZHANG Y X.Research on data fusion for web data interation[D].Jinan: Shandong University, 2012.
[11] 穆化鑫.基于Storm引擎的物聯(lián)網(wǎng)異構(gòu)數(shù)據(jù)融合系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué), 2015.MU H X.Design and implementation of IoT data fusion system based on Storm[D].Beijing: Beijing University of Posts and Telecommunications, 2015.
[12] 石西慶.基于數(shù)據(jù)融合技術(shù)的電子政務(wù)信息共享服務(wù)平臺模型[D].成都:電子科技大學(xué), 2013.SHI X Q.A model of e-government information sharing service platform based on data fusion technology[D].Chengdu: University of Electronic Science and Technology of China, 2013.
[13] 化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應(yīng)用探討[J].國書情報工作, 2015(16): 5-10.HUA B L, LI G J.Discussion on theory and application of multi-source information fusion in big data environment[J].Library and Information Service, 2015(16): 5-10.
[14] PAN L, XU Q.Visualization analysis of multidomain access control policy integration based on treemaps and semantic substrates [J].Intelligent Information Management, 2012, 4(5): 188-193.
[15] 孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計算機(jī)研究與發(fā)展, 2015(2): 265-281.MENG X F, ZHANG X J.Big data privacy management[J].Journal of Computer Research and Development, 2015(2): 265-281.
[16] SELLAMI M, GAMMOUDI M M, HACID M S.Secure data integration: a formal concept analysis based approach[J].Database and Expert Systems Applications, 2014(8645): 326-333.
[17] SUN W, WANG B, CAO N, et al.Privacypreserving multi-keyword text search in the cloud supporting similaritybased ranking[C]//The 8th ACM SIGSAC Symposium on Information, Computer and Communications Security, May 8-10, 2013, Hangzhou, China.New York: ACM Press, 2013: 71-82.
[18] CAO N, WANG C, LI M, et al.Privacypreserving multi-keyword ranked search over encrypted cloud data[J].IEEE Transactions on Parallel and Distributed Systems, 2014, 25(1): 222-233.
[19] RUBIO-MEDRANO C E, ZHAO Z, DOUPé A, et al.Federated access management for collaborative network environments: framework and case study[C]//The 20th ACM Symposium on Access Control Models and Technologies, June 1-3, 2015, Vienna, Austria.New York: ACM Press, 2015: 125-134.
[20] ULUSOY H, COLOMBO P, FERRARI E, et al.GuardMR: finegrained security policy enforcement for MapReduce systems[C]// The 10th ACM Symposium on Information, Computer and Communications Security, Apr 14-17, 2015, Singapore.New York: ACM Press, 2015: 285-296.
[21] BLOOM G, SIMHA R.Hardwareenhanced distributed access enforc ement for role-basedaccess control[C]//The 19th ACM Symposium on Access Control Models and Technologies, June 25-27, 2014, London, ON, Canada.New York: ACM Press, 2014: 5-16.
[22] RAO P, LIN D, BERTINO E, et al.An algebra for fine-grained integration of XACML policies [C]// The 14th ACM Symposium on Access Control Models and Technologies, June 3-5, 2009, Stresa, Italy.New York: ACM Press, 2009: 63-72.
[23] RAO P, LIN D, BERTINO E, et al.Finegrained integration of access control policies [J].Computers & Security, 2011, 30(2-3): 91-107.
[24] HU Y J, YANG J J.A semantic privacypreserving model for data sharing and integration [C]//The International Conference on Web Intelligence, Mining and Semantics, May 25-27, 2011, Sogndal, Norway.New York: ACM Press, 2011: 1-12.
* 本文為2015中國大數(shù)據(jù)技術(shù)大會(BDTC)演講約稿
Research on data schema and security in data governance
MA Chaohui, NIE Ruihua, TAN Haoxiang, LIN Jiaming, WANG Xinming, TANG Hua, YANG Jinji, ZHAO Gansen
1.School of Computer, South China Normal University, Guangzhou 510630, China
2.School of Software, South China Normal University, Foshan 528225, China
One of the key objectives of big data governance is to maximize the value and efficiency of data usage.It is less than possible to privacy while processing data that has been subjected to data governance.With case study, the way to improve data value and data processing efficiency by re-construct data schemas was investigated.A mechanism for calculating new access control policies was also presented.The generated access control policies could provide appropriate security protection over reconstructed data.
data governance, data fusion, access control
TP391
A
10.11959/j.issn.2096-0271.2016033
馬朝輝(1974-),男,華南師范大學(xué)計算機(jī)學(xué)院博士生,廣東外語外貿(mào)大學(xué)思科信息學(xué)院講師,主要研究方向為網(wǎng)絡(luò)安全、云計算和大數(shù)據(jù)等。
聶瑞華(1963-),男,華南師范大學(xué)計算機(jī)學(xué)院教授,中國計算機(jī)學(xué)會高性能計算專業(yè)委員會委員,廣東高等教育學(xué)會信息網(wǎng)絡(luò)專業(yè)委員會副理事長,華南師范大學(xué)“教育部互聯(lián)網(wǎng)應(yīng)用創(chuàng)新開放平臺示范基地”負(fù)責(zé)人,主要研究方向為計算機(jī)網(wǎng)絡(luò)及應(yīng)用、云計算與大數(shù)據(jù)等。
譚昊翔(1990-),男,華南師范大學(xué)計算機(jī)學(xué)院碩士生,主要研究方向為信息安全和大數(shù)據(jù)等。
王欣明(1980-),男,博士,華南師范大學(xué)計算機(jī)學(xué)院講師,IEEE會員,主要研究方向為軟件工程、程序分析和大數(shù)據(jù)等。
唐華(1973-),男,華南師范大學(xué)軟件學(xué)院院長助理、副教授,廣東省科技咨詢專家?guī)鞂<?,中國計算機(jī)學(xué)會計算機(jī)應(yīng)用專家委員會委員,主要研究方向為計算機(jī)網(wǎng)絡(luò)、信息安全、云計算和大數(shù)據(jù)等。
林嘉洺(1992-),男,華南師范大學(xué)計算機(jī)學(xué)院碩士生,主要研究方向為大數(shù)據(jù)和數(shù)據(jù)挖掘等。
楊晉吉(1968-),男,華南師范大學(xué)計算機(jī)學(xué)院教授,主要研究方向為邏輯、信息安全。
趙淦森(1977-),男,博士,華南師范大學(xué)計算機(jī)學(xué)院教授、副院長,廣東省服務(wù)計算工程中心副主任,中國電子學(xué)會云計算專家委員會專家委員,粵港信息化專委會委員,中國信息系統(tǒng)專委會委員,廣東省計算機(jī)學(xué)會常務(wù)理事,主要研究方向為信息安全、云計算和大數(shù)據(jù)等。
2016-02-28
趙淦森,gzhao@scnu.edu.cn