王紅心,龍文佳
(湖北大學(xué)知行學(xué)院計(jì)算機(jī)與信息工程學(xué)院,湖北武漢 430011)
信息技術(shù)高速發(fā)展的今天,人類社會(huì)活動(dòng)產(chǎn)生的數(shù)據(jù)規(guī)模正以爆炸性的速度增長,大數(shù)據(jù)時(shí)代已然到來[1]。根據(jù)國際數(shù)據(jù)公司(IDC)的預(yù)測(cè),到2022年全球產(chǎn)生的信息總量將達(dá)到40ZB,是2011年全球信息總量的50倍。作為信息時(shí)代的一大新興產(chǎn)業(yè),大數(shù)據(jù)蘊(yùn)含著具有極高價(jià)值的信息,引起了產(chǎn)業(yè)界、學(xué)術(shù)界、國內(nèi)外政府部門的高度關(guān)注??茖W(xué)技術(shù)的發(fā)展是把雙刃劍,大數(shù)據(jù)給人類社會(huì)帶來巨大價(jià)值的同時(shí),也面臨著許多新的問題,其中大數(shù)據(jù)的安全與隱私保護(hù)是社會(huì)各界最為關(guān)注的重要問題之一。
當(dāng)前,大數(shù)據(jù)在數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和數(shù)據(jù)使用等各個(gè)階段均缺乏規(guī)范的監(jiān)管和有效的面向數(shù)據(jù)全生命周期的安全保護(hù)措施。首先,在數(shù)據(jù)獲取階段,出于商業(yè)利益的驅(qū)動(dòng),人們網(wǎng)絡(luò)活動(dòng)的一言一行都在互聯(lián)網(wǎng)商家的跟蹤之下,這種單方面的數(shù)據(jù)獲取方式極大地暴露了用戶的個(gè)人隱私。例如Amazon、京東商城等網(wǎng)絡(luò)電子商務(wù)公司捕獲用戶的消費(fèi)習(xí)慣,利用用戶的歷史消費(fèi)數(shù)據(jù)可以幫助企業(yè)提升營銷的針對(duì)性和精準(zhǔn)度;Facebook、騰訊等社交網(wǎng)絡(luò)服務(wù)供應(yīng)商維護(hù)著用戶的互聯(lián)網(wǎng)人際關(guān)系,可以用來幫助社交網(wǎng)站為用戶提供更加準(zhǔn)確的好友推薦;Google、百度等互聯(lián)網(wǎng)搜索服務(wù)提供商記錄著用戶的信息檢索歷史和檢索習(xí)慣數(shù)據(jù),通過對(duì)這些數(shù)據(jù)的挖掘分析,可以提升用戶搜索結(jié)果的相關(guān)度和準(zhǔn)確度。在這樣的背景之下,這些互聯(lián)網(wǎng)服務(wù)提供商既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的存儲(chǔ)、管理和使用者,所以用戶按照傳統(tǒng)的安全模式來控制商家對(duì)用戶信息數(shù)據(jù)的訪問與使用來保護(hù)自己的隱私,是十分困難的。
在數(shù)據(jù)存儲(chǔ)階段,特別是目前普遍采用的云存儲(chǔ)環(huán)境下,大數(shù)據(jù)面臨著數(shù)據(jù)完整性被破壞的安全風(fēng)險(xiǎn),如何有效地判斷大數(shù)據(jù)在存儲(chǔ)階段的完整性和可用性,成為亟待解決的重要問題。大數(shù)據(jù)的使用方應(yīng)當(dāng)有能力判斷數(shù)據(jù)的完整性,因?yàn)閷?duì)錯(cuò)誤的數(shù)據(jù)進(jìn)行分析將會(huì)得出無意義或錯(cuò)誤的預(yù)測(cè)結(jié)果。然而,大數(shù)據(jù)因其規(guī)模龐大、數(shù)據(jù)類型復(fù)雜、增長速度快等特點(diǎn)使得傳統(tǒng)的完整性審計(jì)方法在計(jì)算效率和通信開銷等方面遇到了極大的瓶頸。
在數(shù)據(jù)分析階段,人們同樣面臨著個(gè)人隱私進(jìn)一步泄露的風(fēng)險(xiǎn)。另外,考慮到大數(shù)據(jù)復(fù)雜的應(yīng)用環(huán)境,大數(shù)據(jù)可能被用于各行各業(yè)不同應(yīng)用的需求,因此對(duì)其實(shí)施的訪問控制粒度與策略也應(yīng)有所不同。大數(shù)據(jù)環(huán)境下實(shí)施訪問控制的難點(diǎn)主要反映在三個(gè)方面:一是角色難以預(yù)設(shè)。在大數(shù)據(jù)復(fù)雜的應(yīng)用場(chǎng)景下,面對(duì)龐大數(shù)量的數(shù)據(jù)使用方,預(yù)先設(shè)置角色,實(shí)現(xiàn)角色和合理劃分相當(dāng)困難。二是難以預(yù)知每個(gè)角色的實(shí)際權(quán)限。大數(shù)據(jù)由于數(shù)量大、類型多樣,大數(shù)據(jù)管理系統(tǒng)很難準(zhǔn)確地為數(shù)據(jù)使用方指定其可以訪問的數(shù)據(jù)范圍。三是難以預(yù)測(cè)訪問的粒度。有些訪問可能是基于數(shù)據(jù)塊或記錄;也有一些是基于文件和對(duì)象。因此,很難用單一模式的訪問控制結(jié)構(gòu)來表達(dá)不同的訪問粒度信息。
綜上所述,從大數(shù)據(jù)的產(chǎn)生、存儲(chǔ)、分析到使用,甚至銷毀階段都存在著影響數(shù)據(jù)安全的因素及風(fēng)險(xiǎn)。為了適應(yīng)對(duì)大數(shù)據(jù)全生命周期的安全保護(hù)需求,本文研究了大數(shù)據(jù)在生命周期的基本特征,分析了大數(shù)據(jù)在各個(gè)階段的安全需求,進(jìn)而建立了一種面向數(shù)據(jù)全生命周期的大數(shù)據(jù)安全保護(hù)模型。在模型基礎(chǔ)上,分別在大數(shù)據(jù)完整審計(jì)方法、大數(shù)據(jù)變粒度訪問控制方法、對(duì)抗數(shù)據(jù)關(guān)聯(lián)性挖掘的隱私保護(hù)方法等提出了相應(yīng)的解決方案。
目前,學(xué)術(shù)界和產(chǎn)業(yè)界分別在數(shù)據(jù)生命周期的各個(gè)階段都有相關(guān)的研究成果,本節(jié)結(jié)合這些成果對(duì)其現(xiàn)狀進(jìn)行分析。
數(shù)據(jù)發(fā)布者是指采集數(shù)據(jù)和發(fā)布數(shù)據(jù)的實(shí)體,包括政府部門、數(shù)據(jù)公司等。在數(shù)據(jù)發(fā)布階段,為保證數(shù)據(jù)持有者公開數(shù)據(jù)后,攻擊者無法從數(shù)據(jù)中識(shí)別出用戶的隱私信息,Samarati等人在1998年首次提出了信息匿名化的概念[1],旨在通過隱藏公開數(shù)據(jù)記錄與特定個(gè)人之間的對(duì)應(yīng)聯(lián)系,從而保護(hù)個(gè)人隱私。由于刪除有關(guān)用戶身份的屬性,不但會(huì)大量丟失數(shù)據(jù)的原始信息,而且并不能有效地隱藏敏感信息,同時(shí)為了避免攻擊者從標(biāo)識(shí)符連接多個(gè)數(shù)據(jù)集,重新確立用戶信息和數(shù)據(jù)記錄的關(guān)系而導(dǎo)致的鏈接攻擊,研究者相繼提出了k-匿名[2],l-diversity[3],t-closeness[4]以及它們相關(guān)的變形算法。由于此類匿名策略往往會(huì)導(dǎo)致發(fā)布數(shù)據(jù)的信息損失而不利于后期的數(shù)據(jù)挖掘與分析,為了減少不必要的信息損失,可以根據(jù)用戶的要求,對(duì)發(fā)布數(shù)據(jù)中的敏感屬性值提供不同程度的隱私保護(hù),因而在此基礎(chǔ)上,個(gè)性化匿名、帶權(quán)重的匿名等一系列匿名策略被相繼提出。然而,大數(shù)據(jù)的一個(gè)重要特征就是數(shù)據(jù)是動(dòng)態(tài)更新的,為保證每一次發(fā)布的數(shù)據(jù)都滿足某種匿名策略的同時(shí),攻擊者也無法聯(lián)合歷史數(shù)據(jù)進(jìn)行分析和推理出用戶的隱私信息,相應(yīng)的支持動(dòng)態(tài)更新匿名保護(hù)策略被提出。Byun等人最先提出了一種支持新增的數(shù)據(jù)重發(fā)布匿名策略[5],使得數(shù)據(jù)集即使因?yàn)樾略龆l(fā)生改變,但仍然能夠滿足l-diversity準(zhǔn)則,從而保證用戶的隱私。為了在支持新增操作的同時(shí),完成數(shù)據(jù)重新發(fā)布時(shí)對(duì)歷史數(shù)據(jù)集進(jìn)行刪除,m-invariance 策略[6]被提出。但是由于大數(shù)據(jù)的多源化和大數(shù)據(jù)之間的關(guān)聯(lián)性強(qiáng)等特性,攻擊者可以通過收集足夠多的數(shù)據(jù)信息去匿名化而獲取用戶的隱私信息,因此匿名技術(shù)仍面臨著新的挑戰(zhàn),現(xiàn)有的匿名技術(shù)還有待改進(jìn)。
目前,大數(shù)據(jù)的存儲(chǔ)技術(shù)主要是采用云計(jì)算技術(shù)。但是,將敏感數(shù)據(jù)存放在不可信或者說是半可信的云服務(wù)方會(huì)帶來許多潛在的威脅。例如,數(shù)據(jù)可能被管理者偷窺、篡改、丟失等,從而使得大數(shù)據(jù)的完整性無法得到保證。目前,解決方法有加密存儲(chǔ)和數(shù)據(jù)審計(jì)技術(shù)。從已有的文獻(xiàn)可知,Juel等人提出的POR(Proof of Retrievability)[7]是早期云數(shù)據(jù)安全審計(jì)方法之一。該方法使用錯(cuò)誤校驗(yàn)碼(Error-correcting Code)作為哨兵來確認(rèn)存儲(chǔ)在CSP中數(shù)據(jù)的完整性以及可恢復(fù)性,但是該審計(jì)方案的審計(jì)次數(shù)有限,并且審計(jì)行為在用戶與CSP之間進(jìn)行,審計(jì)工作無法在雙方互相不信任的情況下保證其公正性。為了解決這一問題,Ateniese等人[8]提出的PDP(Provable Data Possession)將審計(jì)工作轉(zhuǎn)移到公開的第三方(Third Party Auditor,TPA),即審計(jì)在用戶和CSP信任的第三方進(jìn)行,由其提供一個(gè)公正客觀的結(jié)果。為實(shí)現(xiàn)對(duì)云端數(shù)據(jù)的公開安全審計(jì),Ateniese等人首先將基于RSA的同態(tài)標(biāo)簽應(yīng)用于數(shù)據(jù)的完整性驗(yàn)證,降低審計(jì)過程中的通信開銷以及計(jì)算開銷。公開審計(jì)已成為近年來審計(jì)模型的發(fā)展趨勢(shì)。然而,從目前的研究成果來看,公開審計(jì)也存在著一些風(fēng)險(xiǎn)和問題。由于TPA可能從審計(jì)證據(jù)中還原數(shù)據(jù),將審計(jì)工作放在TPA上為用戶數(shù)據(jù)帶來隱私泄露的風(fēng)險(xiǎn),Wang等人[9]通過將隨機(jī)掩碼插入審計(jì)證據(jù)的方式,使得其不能被TPA還原成數(shù)據(jù),從而實(shí)現(xiàn)了云數(shù)據(jù)安全公開審計(jì)中的數(shù)據(jù)隱私保護(hù)。Shacham等人[10]提出的CPOR方法側(cè)重于實(shí)現(xiàn)云端數(shù)據(jù)的可恢復(fù)性,它使用消息驗(yàn)證碼以及同態(tài)標(biāo)簽兩種方式實(shí)現(xiàn)數(shù)據(jù)的公開審計(jì),并采用基于短簽名的同態(tài)標(biāo)簽代替基于RSA的同態(tài)標(biāo)簽實(shí)現(xiàn)更優(yōu)的性能。為了實(shí)現(xiàn)動(dòng)態(tài)可更新數(shù)據(jù)的有效審計(jì),Erway等人[11]在原始的PDP模型的基礎(chǔ)上,將基于等級(jí)的跳表機(jī)制與之結(jié)合,提出了支持?jǐn)?shù)據(jù)塊級(jí)別動(dòng)態(tài)操作的審計(jì)方法DPDP(Dynamic Provable Data Possession),這一方法能夠支持如插入、刪除、修改等常規(guī)數(shù)據(jù)塊的動(dòng)態(tài)操作,但是對(duì)于數(shù)據(jù)動(dòng)態(tài)的更新,尤其是數(shù)據(jù)插入操作的效率,目前還有待提高。因此,如何設(shè)計(jì)具有身份隱私保護(hù)和簡單、高效的云端大數(shù)據(jù)完整性審計(jì)方案,仍然是一個(gè)具有挑戰(zhàn)性的問題。
訪問控制是一種有效防止未授權(quán)用戶獲取機(jī)密和隱私信息的重要技術(shù)。傳統(tǒng)的訪問控制模型都假設(shè)數(shù)據(jù)所有者和服務(wù)器處于同一個(gè)信任域中,服務(wù)器負(fù)責(zé)定義、執(zhí)行訪問控制策略并管理用戶訪問有關(guān)的細(xì)節(jié)。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)外包給大數(shù)據(jù)服務(wù)的提供商,數(shù)據(jù)的所有者和服務(wù)器不在同一個(gè)信任域中,服務(wù)器由大數(shù)據(jù)服務(wù)提供商直接控制,而用戶無法控制服務(wù)器。因此,在大數(shù)據(jù)環(huán)境中,傳統(tǒng)的訪問控制已經(jīng)無法解決這個(gè)問題。最新的研究方法是數(shù)據(jù)所有者采用加密數(shù)據(jù),然后通過控制用戶的解密能力來實(shí)現(xiàn)密文的訪問控制。最原始的外包數(shù)據(jù)訪問控制方法是數(shù)據(jù)所有者在外包數(shù)據(jù)之前選擇一種加密方法對(duì)文件進(jìn)行加密,將解密密鑰發(fā)送給授權(quán)訪問的用戶[12]。因?yàn)槊荑€管理的復(fù)雜度太高,用戶授權(quán)或撤銷的難度較大,基于文件的粒度太粗,以及可能存在的合謀攻擊等問題,這種方式一般只適用于對(duì)存儲(chǔ)在非可信服務(wù)器上少量的數(shù)據(jù)進(jìn)行訪問控制,很難擴(kuò)展到大數(shù)據(jù)環(huán)境這種大規(guī)模的應(yīng)用。2005年,Sahai和Waters等人[13]提出了基于屬性的加密(Attribute Based Encryption,ABE)。由于邏輯屬性可以很好地描述文件的數(shù)據(jù)集,ABE有助于實(shí)現(xiàn)大數(shù)據(jù)環(huán)境中的細(xì)粒度訪問控制。基于ABE的訪問控制主要研究成果可以分為兩類:密文策略ABE(Ciphertext Policy Attribute Based Encryption,CPABE)和密鑰策略ABE(Key Policy Attribute Based Encryption,KP-ABE)。其中,KPABE是密鑰與訪問控制策略相關(guān)聯(lián),而CP-ABE是密文與訪問控制策略相關(guān)聯(lián)。盡管ABE可以實(shí)現(xiàn)靈活安全細(xì)粒度的訪問控制,但是在大數(shù)據(jù)環(huán)境中其權(quán)限撤銷的效率和能否適應(yīng)不同應(yīng)用的多樣化訪問需求仍是一個(gè)難題。因此,傳統(tǒng)的單一粒度訪問控制模式已無法應(yīng)對(duì)大數(shù)據(jù)環(huán)境下動(dòng)態(tài)化和個(gè)性化的安全訪問控制需求,迫切需要研究數(shù)據(jù)安全保護(hù)的變粒度訪問控制機(jī)制。
為了適應(yīng)對(duì)大數(shù)據(jù)全生命周期的安全保護(hù)需求,本文將大數(shù)據(jù)分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩大類,分析了大數(shù)據(jù)在生命周期的基本特征以及大數(shù)據(jù)在各個(gè)階段的安全需求,進(jìn)而建立了一套面向數(shù)據(jù)全生命周期的大數(shù)據(jù)安全保護(hù)模型。并在大數(shù)據(jù)完整審計(jì)方法、大數(shù)據(jù)變粒度訪問控制方法、對(duì)抗數(shù)據(jù)關(guān)聯(lián)性挖掘的隱私保護(hù)方法等方面提出了相應(yīng)的解決方案。
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)從產(chǎn)生到銷毀存在著一定的生命周期。生命周期各階段由于數(shù)據(jù)的用途和處理方式不同,導(dǎo)致數(shù)據(jù)可能遇到的安全風(fēng)險(xiǎn)亦不同,為大數(shù)據(jù)的安全保護(hù)帶來了極大的挑戰(zhàn)。另一方面,大數(shù)據(jù)由于其增長迅速、模態(tài)多樣、真?zhèn)坞y辨、關(guān)聯(lián)復(fù)雜等特征,使得傳統(tǒng)的單一模式的數(shù)據(jù)保護(hù)方法,如加密存儲(chǔ),無法為大數(shù)據(jù)生命周期各階段提供分級(jí)、分類的多模式保護(hù),不能保證大數(shù)據(jù)在復(fù)雜環(huán)境下的數(shù)據(jù)安全;大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全性與可用性的矛盾日益突出。因此,急需建立一種能夠保護(hù)大數(shù)據(jù)全生命周期的安全保護(hù)模型,針對(duì)生命周期不同階段面臨的安全風(fēng)險(xiǎn)提供多模式和全方位的保護(hù)。
大數(shù)據(jù)全生命周期的數(shù)據(jù)保護(hù)模型在開放網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)及其元數(shù)據(jù)的動(dòng)態(tài)演進(jìn)主要包括數(shù)據(jù)獲取與發(fā)布、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)使用、數(shù)據(jù)銷毀等五個(gè)階段。如圖1所示,為本文提出的大數(shù)據(jù)全生命周期數(shù)據(jù)保護(hù)模型的基本框架圖。
圖1 大數(shù)據(jù)全生命周期數(shù)據(jù)保護(hù)模型
由于大數(shù)據(jù)在生命周期的不同階段面臨著不同的安全風(fēng)險(xiǎn),如圖1所示的保護(hù)模型,建立了沿著生命周期的基本路線,根據(jù)各階段特定的安全需求,制定相應(yīng)的安全方案。
在數(shù)據(jù)獲取與發(fā)布階段,為保證采集的數(shù)據(jù)發(fā)布之后,用戶的隱私信息不被惡意的第三方獲取,對(duì)發(fā)布數(shù)據(jù)進(jìn)行匿名化處理[14]。對(duì)于靜態(tài)數(shù)據(jù)的處理,當(dāng)前使用較多的是k-匿名、l-多樣化等靜態(tài)匿名技術(shù);同時(shí),在匿名化過程中,對(duì)每一層數(shù)據(jù)處理都控制其信息損失量在可接受的范圍。對(duì)于持續(xù)更新的大數(shù)據(jù),采用基于動(dòng)態(tài)數(shù)據(jù)集的匿名策略,包括數(shù)據(jù)重發(fā)布匿名技術(shù)、m-invariance匿名技術(shù)等,既保證每一次發(fā)布的數(shù)據(jù)都滿足某種匿名標(biāo)準(zhǔn),又使得攻擊者無法聯(lián)合歷史數(shù)據(jù)進(jìn)行分析與推理。
在數(shù)據(jù)存儲(chǔ)階段,由于用戶失去對(duì)數(shù)據(jù)的物理控制,敏感數(shù)據(jù)存儲(chǔ)在不可信的第三方服務(wù)器中,極易被存儲(chǔ)管理者偷窺。另外,存儲(chǔ)方可能有意或無意丟失、篡改數(shù)據(jù)。一方面為了保證數(shù)據(jù)的安全存儲(chǔ),建議采用數(shù)據(jù)加密技術(shù)。另一方面,為了驗(yàn)證數(shù)據(jù)是否完好無損,通過數(shù)據(jù)完整性驗(yàn)證方法,針對(duì)不同類型的數(shù)據(jù)進(jìn)行審計(jì)。例如,歸檔大數(shù)據(jù)采用靜態(tài)完整性審計(jì)方法;變更頻繁的數(shù)據(jù)采用動(dòng)態(tài)完整性審計(jì)方法;同時(shí)利用群組簽名來構(gòu)造同態(tài)認(rèn)證等進(jìn)行審計(jì)時(shí)的隱私保護(hù)。
在數(shù)據(jù)分析階段,很多原本零散稀疏的數(shù)據(jù),通過結(jié)合來自多方渠道的數(shù)據(jù)集關(guān)聯(lián)分析、聚類分析等挖掘手段后容易泄露用戶的隱私,如用戶的生活軌跡、生活習(xí)慣、交友特性等。針對(duì)大數(shù)據(jù)的強(qiáng)關(guān)聯(lián)特性,采用頻繁模式挖掘、聚類、分類等數(shù)據(jù)挖掘技術(shù),從時(shí)間、空間、來源三個(gè)維度分析隱私數(shù)據(jù)的相關(guān)性特征,然后通過變換、隱藏、隨機(jī)擾動(dòng)等技術(shù)對(duì)相關(guān)信息進(jìn)行干擾、隱藏和破壞,以對(duì)抗數(shù)據(jù)分析階段的數(shù)據(jù)關(guān)聯(lián)性挖掘,達(dá)到隱私保護(hù)的目的。
在數(shù)據(jù)使用階段,為確保合適的數(shù)據(jù)能夠在合適的時(shí)間和地點(diǎn)被合法的用戶或應(yīng)用按需訪問,采用多模式、變粒度的訪問控制機(jī)制,為不同的用戶或應(yīng)用提供基于塊、對(duì)象、文件等多粒度的訪問模式。同時(shí)為滿足大數(shù)據(jù)存儲(chǔ)的不同需求,為用戶提供基于身份的、基于屬性的等多模式安全訪問控制。
本文針對(duì)大數(shù)據(jù)全生命周期數(shù)據(jù)保護(hù)模型中一些核心安全技術(shù)進(jìn)行研究。
在大數(shù)據(jù)存儲(chǔ)環(huán)境下,由于數(shù)據(jù)用途的多樣性,有靜態(tài)的歸檔數(shù)據(jù),也有動(dòng)態(tài)的時(shí)效性數(shù)據(jù)。目前,數(shù)據(jù)審計(jì)方法因效率低下或支持審計(jì)方式單一等問題,無法滿足多樣化的大數(shù)據(jù)完整性驗(yàn)證需求。為此,本文提出了一種“細(xì)分類型,按需審計(jì)”的策略,實(shí)現(xiàn)高效的數(shù)據(jù)完整性驗(yàn)證。該策略將大數(shù)據(jù)按照更新特性分為兩類:(1)靜態(tài)歸檔數(shù)據(jù):即短時(shí)期內(nèi)不會(huì)被更新的數(shù)據(jù)類型;(2)動(dòng)態(tài)數(shù)據(jù):指不斷產(chǎn)生或頻繁更新的數(shù)據(jù)類型。
面向靜態(tài)歸檔大數(shù)據(jù)的完整性審計(jì)方法。研究人員提出將現(xiàn)有的方案拓展到大數(shù)據(jù)環(huán)境下云端數(shù)據(jù)的完整性審計(jì),使之能夠高效實(shí)現(xiàn)TB乃至PB量級(jí)的海量數(shù)據(jù)的完整性驗(yàn)證審計(jì)。針對(duì)海量多媒體數(shù)據(jù),建立一種基于透明可逆水印的公開審計(jì)方案,解決一般歸檔數(shù)據(jù)采用同態(tài)標(biāo)簽審計(jì)方案時(shí)標(biāo)簽計(jì)算量大、存儲(chǔ)空間開銷大、驗(yàn)證信息與數(shù)據(jù)內(nèi)容分離等問題。
面向動(dòng)態(tài)大數(shù)據(jù)的完整性審計(jì)方法。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)更新粒度可能很小,可能僅是一段文字或是一張圖片,現(xiàn)有的動(dòng)態(tài)審計(jì)方法都是將數(shù)據(jù)文件分塊后生成審計(jì)證據(jù),其存儲(chǔ)和更新粒度等于文件塊的大小。因此,無論新增的數(shù)據(jù)量大小,每次操作都需要生成新的數(shù)據(jù)塊。針對(duì)這種數(shù)據(jù)更新量與分塊大小極不匹配的情況,亟需提出一種支持細(xì)粒度更新的數(shù)據(jù)完整性審計(jì)方法。為此,本文將根據(jù)大數(shù)據(jù)頻繁更新的特點(diǎn),結(jié)合現(xiàn)有的動(dòng)態(tài)數(shù)據(jù)審計(jì)的一般方法,利用聚合簽名、認(rèn)證數(shù)據(jù)結(jié)構(gòu)、同態(tài)標(biāo)簽等技術(shù),提出了適用于大數(shù)據(jù)動(dòng)態(tài)更新的完整性驗(yàn)證方案。當(dāng)存儲(chǔ)在云端數(shù)據(jù)更新頻繁且更新量大時(shí),基于同態(tài)標(biāo)簽的審計(jì)方法由于通信開銷大、計(jì)算復(fù)雜,并不適用于容量龐大的大數(shù)據(jù)環(huán)境,研究人員將細(xì)粒度的數(shù)據(jù)更新放到一個(gè)文件塊中進(jìn)行,避免每次更新所帶來的存儲(chǔ)空間浪費(fèi)和通信開銷過大。另外,為了保證數(shù)據(jù)的新鮮度,在數(shù)據(jù)簽名中加入版本號(hào)和時(shí)間戳等信息,防止CSP采取重放攻擊和數(shù)據(jù)偽造,保證在進(jìn)行數(shù)據(jù)更新后,TPA仍能對(duì)最新的數(shù)據(jù)進(jìn)行完整性驗(yàn)證,同時(shí)保證數(shù)據(jù)新鮮度。
大數(shù)據(jù)的訪問場(chǎng)景中,由于應(yīng)用的復(fù)雜多樣,不同用戶在相同數(shù)據(jù)的驅(qū)動(dòng)下可能會(huì)產(chǎn)生不同的應(yīng)用,因此不同應(yīng)用對(duì)相同數(shù)據(jù)的訪問粒度可能不同,有的可能是基于數(shù)據(jù)塊的訪問,有的可能是基于文件或基于對(duì)象的訪問,因此單一模式的訪問控制結(jié)構(gòu)不能表達(dá)不同的訪問粒度信息。另外,現(xiàn)有的基于ABE的訪問控制一般是由數(shù)據(jù)所有者獨(dú)立授權(quán),大數(shù)據(jù)環(huán)境中由于用戶來源廣泛、數(shù)據(jù)屬性繁多,這些屬性事實(shí)上由不同的部門或人員掌握,不可能由一個(gè)人或一個(gè)部門獨(dú)立授權(quán)。因此,本文提出了一種多方協(xié)同授權(quán)的訪問控制方法,實(shí)現(xiàn)用戶訪問的粒度可變性。大數(shù)據(jù)環(huán)境下變粒度安全訪問控制方案,如圖2所示。
根據(jù)圖2所設(shè)計(jì)的訪問控制方案,本節(jié)將其中的核心模塊進(jìn)行分析。
(1)基于數(shù)據(jù)標(biāo)志的變粒度數(shù)據(jù)存儲(chǔ)方法。通過在合適的位置嵌入數(shù)據(jù)標(biāo)志,實(shí)現(xiàn)數(shù)據(jù)粒度的快速可變。在目前通用的細(xì)粒度塊存儲(chǔ)方法中,在數(shù)據(jù)塊之間,如在文件塊的邊界設(shè)置錨,可將粗粒度的文件變成細(xì)粒度的塊進(jìn)行訪問。
圖2 大數(shù)據(jù)環(huán)境下變粒度安全訪問控制方案
(2)基于屬性加密的變粒度訪問控制結(jié)構(gòu)。為了解決訪問控制信息粒度可變的問題,需要將不同粒度的訪問控制信息進(jìn)行分解與合并。目前,基于屬性加密的訪問控制方法中,屬性作為訪問控制信息可以實(shí)現(xiàn)對(duì)數(shù)據(jù)分層、分級(jí)的細(xì)粒度授權(quán)訪問,在變粒度訪問控制方法中,可以將對(duì)細(xì)粒度塊擁有授權(quán)的屬性作為最小訪問控制集,通過對(duì)最小訪問控制集的集合進(jìn)行合并,生成粗粒度數(shù)據(jù)的訪問控制信息。
(3)基于多方協(xié)同授權(quán)屬性加密的變粒度訪問控制方法。傳統(tǒng)環(huán)境中,數(shù)據(jù)訪問是獨(dú)立授權(quán)給某些單一用戶;而大數(shù)據(jù)環(huán)境中,除了部分?jǐn)?shù)據(jù)仍然需要獨(dú)立授權(quán)給某些單一用戶之外,也存在數(shù)據(jù)訪問需要由多個(gè)用戶或多個(gè)部門協(xié)同授權(quán)的情況。為解決訪問用戶的粒度可變問題,本文采用了多方協(xié)同授權(quán)的訪問控制方案。多方協(xié)同的屬性加密(MABE)支持多用戶協(xié)同加密,適用于多用戶協(xié)同授權(quán)的訪問控制,但是加解密開銷大,效率較低。通過對(duì)加密屬性的數(shù)據(jù)結(jié)構(gòu)、屬性的選取、多方協(xié)同機(jī)制進(jìn)行優(yōu)化,使其適合大數(shù)據(jù)環(huán)境下的多方授權(quán)訪問控制,在保護(hù)隱私的前提下提高效率。
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)具有強(qiáng)相關(guān)性,數(shù)據(jù)規(guī)模的擴(kuò)大使得原本稀疏的許多信息升級(jí)為隱私。在大數(shù)據(jù)分析階段,人們可以結(jié)合不同來源的數(shù)據(jù)集進(jìn)行挖掘分析,獲取某些被精心隱藏起來的隱私信息。已有的數(shù)據(jù)干擾策略,由于經(jīng)干擾的數(shù)據(jù)均與真實(shí)的原始數(shù)據(jù)直接相關(guān),對(duì)隱私數(shù)據(jù)的保護(hù)并不理想;已有的查詢限制策略,由于查詢數(shù)據(jù)均來源于原始數(shù)據(jù),對(duì)整個(gè)數(shù)據(jù)集的隱私保護(hù)程度并不高。因此,本文提出了一種隱私數(shù)據(jù)相關(guān)性特征的模式挖掘方案。該方法可以對(duì)抗數(shù)據(jù)的關(guān)聯(lián)性,對(duì)關(guān)聯(lián)特征進(jìn)行隱藏,避免在數(shù)據(jù)分析階段挖掘出相關(guān)數(shù)據(jù)。
本文提出的隱私數(shù)據(jù)相關(guān)性特征的模式挖掘方案具體包括兩個(gè)方面。(1)從時(shí)間、空間、來源三個(gè)維度來探討大數(shù)據(jù)相關(guān)性的描述模型,挖掘潛在的隱私數(shù)據(jù)特征。例如,在某一時(shí)間和某一地點(diǎn),能否挖掘出某類數(shù)據(jù)的來源,或者已知某一時(shí)間/某一地點(diǎn)和某類數(shù)據(jù)的來源,能否挖掘出這類數(shù)據(jù)發(fā)送的地點(diǎn)/時(shí)間,并根據(jù)相關(guān)性特征,構(gòu)建大數(shù)據(jù)隱私特征挖掘模型;(2)提出了對(duì)抗關(guān)聯(lián)性特征挖掘的多種隱私保護(hù)方法。例如,通過信息隱藏等技術(shù),將相關(guān)性特征進(jìn)行保護(hù),以對(duì)抗數(shù)據(jù)分析階段的數(shù)據(jù)關(guān)聯(lián)性挖掘?;蛘咴诙嗝襟w大數(shù)據(jù)中,通過嵌入數(shù)據(jù)的方式對(duì)特征進(jìn)行擾亂,讓數(shù)據(jù)關(guān)聯(lián)性挖掘失效,達(dá)到保護(hù)隱私的目標(biāo)。或者通過對(duì)特定類型數(shù)據(jù)進(jìn)行加密,破壞其相關(guān)性特征,達(dá)到對(duì)抗數(shù)據(jù)關(guān)聯(lián)性挖掘的目的。
大數(shù)據(jù)從產(chǎn)生到銷毀存在一個(gè)完整的生命周期,本文面向大數(shù)據(jù)全生命周期的安全需求,建立了一種全生命周期的數(shù)據(jù)保護(hù)模型,重點(diǎn)提出了大數(shù)據(jù)存儲(chǔ)過程中的按需審計(jì),大數(shù)據(jù)使用過程中的多粒度安全訪問控制,以及大數(shù)據(jù)分析過程中的對(duì)抗相關(guān)性隱私保護(hù)等方法,確保大數(shù)據(jù)在上述三個(gè)階段的安全。由于不同生命周期階段的數(shù)據(jù)安全風(fēng)險(xiǎn)不同,數(shù)據(jù)保護(hù)方法也不同,如何在一個(gè)大系統(tǒng)里將大數(shù)據(jù)全生命周期不同階段的安全防護(hù)措施協(xié)調(diào)起來,實(shí)現(xiàn)大數(shù)據(jù)的全生命和全訪問的安全保護(hù),尚需進(jìn)一步研究的課題。