魏凱敏,翁健,任奎
(1. 暨南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,廣東 廣州 510632;2. 紐約州立大學(xué)布法羅分校計(jì)算機(jī)科學(xué)與工程學(xué)院,紐約 布法羅 14260)
大數(shù)據(jù)安全保護(hù)技術(shù)綜述
魏凱敏1,翁健1,任奎2
(1. 暨南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,廣東 廣州 510632;2. 紐約州立大學(xué)布法羅分校計(jì)算機(jī)科學(xué)與工程學(xué)院,紐約 布法羅 14260)
目前,大數(shù)據(jù)受到社會(huì)各界的廣泛關(guān)注。受數(shù)據(jù)體量大、結(jié)構(gòu)多樣化、處理迅速快等因素影響,大多數(shù)傳統(tǒng)的數(shù)據(jù)安全保護(hù)技術(shù)不再適用于大數(shù)據(jù)環(huán)境,著使得大數(shù)據(jù)安全問(wèn)題日益嚴(yán)重。為此,近些年提出了大量的大數(shù)據(jù)安全保護(hù)技術(shù)。從加密算法、完整性校驗(yàn)、訪問(wèn)控制技術(shù)、密文數(shù)據(jù)去重和可信刪除、密文搜索等視角,對(duì)當(dāng)前大數(shù)據(jù)安全保護(hù)關(guān)鍵技術(shù)的研究現(xiàn)狀進(jìn)行分類(lèi)闡述,分析其優(yōu)缺點(diǎn),并探討它們未來(lái)發(fā)展趨勢(shì)。
大數(shù)據(jù);安全保護(hù)技術(shù);算法;搜索
隨著社會(huì)信息化和網(wǎng)絡(luò)化的快速發(fā)展,物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等信息技術(shù)在人類(lèi)政治、經(jīng)濟(jì)、文化、生活等不同領(lǐng)域不斷滲入和交叉融合,所產(chǎn)生的數(shù)據(jù)超越已往任何年代所產(chǎn)生的數(shù)據(jù)總和,且數(shù)據(jù)類(lèi)型和相互關(guān)系復(fù)雜化。據(jù)IBM統(tǒng)計(jì)[1],目前,世界上每天產(chǎn)生大約250億字節(jié)的數(shù)據(jù)。國(guó)內(nèi)互聯(lián)網(wǎng)公司騰訊,其經(jīng)壓縮處理后的數(shù)據(jù)量達(dá)到 100 PB左右,并且這一數(shù)據(jù)還在以日增200~300 TB,月增10%的速率不斷增長(zhǎng)。
目前,大數(shù)據(jù)受到政府機(jī)關(guān)、工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和高度重視。美國(guó)政府將大數(shù)據(jù)比喻為“未來(lái)的新石油”,一個(gè)國(guó)家擁有的數(shù)據(jù)規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為一個(gè)國(guó)家綜合實(shí)力的象征,對(duì)數(shù)據(jù)的占有和控制將深刻影響時(shí)代的發(fā)展。大數(shù)據(jù)具有著巨大的商業(yè)價(jià)值潛力,其表現(xiàn)出的數(shù)據(jù)整合與控制力量遠(yuǎn)遠(yuǎn)超過(guò)以往任何時(shí)代。比如在 2009年,Google公司在大數(shù)據(jù)方面的業(yè)務(wù),對(duì)美國(guó)經(jīng)濟(jì)的貢獻(xiàn)就達(dá)540億美元[2]。此外,《Nature》、《Science》等學(xué)術(shù)期刊出版了大數(shù)據(jù)對(duì)經(jīng)濟(jì)、環(huán)境、互聯(lián)網(wǎng)等人類(lèi)社會(huì)各方面的影響和挑戰(zhàn)的研究成果。
相對(duì)于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)有5V特征[3],即體量大(volume)、速度快(velocity)、多樣化(variety)、難辨識(shí)(veracity)和價(jià)值密度低(value)。大數(shù)據(jù)規(guī)模不斷增長(zhǎng),已經(jīng)達(dá)到 PB級(jí)別,未來(lái)將達(dá)到EB、ZB,這要求對(duì)大數(shù)據(jù)處理的效率必須高。大數(shù)據(jù)類(lèi)型多樣化,包含不同類(lèi)型的數(shù)據(jù),有結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的,且數(shù)據(jù)真?zhèn)坞y以識(shí)別。這些特征使傳統(tǒng)的數(shù)據(jù)安全保護(hù)方法無(wú)法直接應(yīng)用在大數(shù)據(jù)環(huán)境中,給大數(shù)據(jù)研究和發(fā)展帶來(lái)極大的挑戰(zhàn)。
2.1大數(shù)據(jù)概念和特征
什么是大數(shù)據(jù),迄今并沒(méi)有公認(rèn)的定義。維基百科給出的大數(shù)據(jù)定義:大數(shù)據(jù)[4]又稱(chēng)為海量數(shù)據(jù),是指所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工或者計(jì)算機(jī),在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類(lèi)所能解讀的形式的信息。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有如下幾個(gè)特征[3]。
1)體量大。體量大是大數(shù)據(jù)的基本特征。目前,大數(shù)據(jù)規(guī)模從傳統(tǒng)大型數(shù)據(jù)集的TB 級(jí)增長(zhǎng)到至少PB 級(jí)。
2)速度快。速度快是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。根據(jù)IDC預(yù)測(cè),到2020年全球數(shù)據(jù)使用量將達(dá)到35.2 ZB(1 ZB=210 EB)。在規(guī)模如此龐大的大數(shù)據(jù)中,數(shù)據(jù)處理效率特別關(guān)鍵。
3)多樣化。多樣化是大數(shù)據(jù)的內(nèi)在特性。大數(shù)據(jù)的數(shù)據(jù)類(lèi)型多樣化,有結(jié)構(gòu)化的、非結(jié)構(gòu)化數(shù)據(jù)的和半結(jié)構(gòu)化的。結(jié)構(gòu)化數(shù)據(jù)是指可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)是指不能用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),包括圖片、音頻、視頻等。
4)難辨識(shí)。數(shù)據(jù)真?zhèn)坞y辨是大數(shù)據(jù)應(yīng)用的最大挑戰(zhàn)。
5)價(jià)值密度小。大數(shù)據(jù)由大量碎片化信息數(shù)據(jù)組合而成,而通過(guò)整合這些碎片化的數(shù)據(jù)能夠挖掘到更多有價(jià)值的信息。大數(shù)據(jù)蘊(yùn)含的巨大價(jià)值受到產(chǎn)業(yè)界、學(xué)術(shù)界和政府部門(mén)的高度關(guān)注與重視。
根據(jù)數(shù)據(jù)來(lái)源不同,大數(shù)據(jù)可以分為3類(lèi)[5]:1)人類(lèi)活動(dòng),人在使用互聯(lián)網(wǎng)(包括移動(dòng)互聯(lián)網(wǎng))過(guò)程中所產(chǎn)生的各類(lèi)數(shù)據(jù);2)計(jì)算機(jī),各種計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù),多以文件、數(shù)據(jù)庫(kù)、多媒體等形式存在;3)物理世界,各類(lèi)數(shù)字設(shè)備所采集的數(shù)據(jù),比如氣象系統(tǒng)采集設(shè)備所收集的海量氣象數(shù)據(jù)、視頻監(jiān)控系統(tǒng)產(chǎn)生的海量視頻數(shù)據(jù)等。
2.2大數(shù)據(jù)安全需求
目前,大數(shù)據(jù)受到嚴(yán)重的安全威脅,其安全需求主要體現(xiàn)如下幾個(gè)方面。
1)機(jī)密性
數(shù)據(jù)機(jī)密性是指數(shù)據(jù)不被非授權(quán)者、實(shí)體或進(jìn)程利用或泄露的特性。為了保障大數(shù)據(jù)安全,數(shù)據(jù)常常被加密。常見(jiàn)的數(shù)據(jù)加密方法有公鑰加密、私鑰加密、代理重加密、廣播加密、屬性加密、同態(tài)加密等。然而,數(shù)據(jù)加密和解密會(huì)帶來(lái)額外的計(jì)算開(kāi)銷(xiāo)。因此,理想的方式是使用盡可能小的計(jì)算開(kāi)銷(xiāo)帶來(lái)可靠的數(shù)據(jù)機(jī)密性[6]。
在大數(shù)據(jù)中,數(shù)據(jù)搜索是一個(gè)常用的操作,支持關(guān)鍵詞搜索是大數(shù)據(jù)數(shù)據(jù)安全保護(hù)的一個(gè)重要方面。已有的支持搜索的加密只支持單關(guān)鍵字搜索,并且不支持搜索結(jié)果排序和模糊搜索。目前,這方面的研究集中在明文中的模糊搜索、支持排序的搜索和多關(guān)鍵字搜索等操作。如果是加密數(shù)據(jù),用戶需要把涉及到的數(shù)據(jù)密文發(fā)送回用戶方解密之后再進(jìn)行,這將嚴(yán)重降低效率。
2)完整性
數(shù)據(jù)完整性是指數(shù)據(jù)沒(méi)有遭受以非授權(quán)方式的篡改或使用,以保證接收者收到的數(shù)據(jù)與發(fā)送者發(fā)送的數(shù)據(jù)完全一致,確保數(shù)據(jù)的真實(shí)性。在大數(shù)據(jù)存儲(chǔ)中,云是不可信的。因此,用戶需要對(duì)其數(shù)據(jù)的完整性進(jìn)行驗(yàn)證。遠(yuǎn)程數(shù)據(jù)完整性驗(yàn)證[7]是解決云中數(shù)據(jù)完整性檢驗(yàn)的方法,其能夠在不下載用戶數(shù)據(jù)的情況下,僅僅根據(jù)數(shù)據(jù)標(biāo)識(shí)和服務(wù)器對(duì)于挑戰(zhàn)碼的響應(yīng)對(duì)數(shù)據(jù)的完整性進(jìn)行驗(yàn)證。此外,在數(shù)據(jù)流處理[8]中,完整性驗(yàn)證主要來(lái)源于用戶對(duì)云服務(wù)提供商的不信任性。在這種情況下,確保數(shù)據(jù)處理結(jié)果的完整性也是至關(guān)重要的。
3)訪問(wèn)控制
在保障大數(shù)據(jù)安全時(shí),必須防止非法用戶對(duì)非授權(quán)的資源和數(shù)據(jù)等的訪問(wèn)、使用、修改和刪除等各種操作,以及細(xì)粒度的控制合法用戶的訪問(wèn)權(quán)限。因此,對(duì)用戶的訪問(wèn)行為進(jìn)行有效地驗(yàn)證是大數(shù)據(jù)安全保護(hù)的一個(gè)重要方面。
3.1加密算法
為了保障大數(shù)據(jù)的機(jī)密性,使用加密算法對(duì)數(shù)據(jù)加密。傳統(tǒng)的DES、AES等對(duì)稱(chēng)加密手段,雖能保證對(duì)存儲(chǔ)數(shù)據(jù)的加解密速度,但其密鑰管理較為復(fù)雜,不適合有大量用戶的大數(shù)據(jù)環(huán)境中。而傳統(tǒng)的RSA等非對(duì)稱(chēng)加密手段,雖然其密鑰易于管理,但算法計(jì)算量太大,不適用于對(duì)不斷增長(zhǎng)的大數(shù)據(jù)進(jìn)行加解密。數(shù)據(jù)加密增加了計(jì)算開(kāi)銷(xiāo),且限制了數(shù)據(jù)的使用和共享,造成了高價(jià)值數(shù)據(jù)的浪費(fèi)。因此,開(kāi)發(fā)快速加解密技術(shù)成為當(dāng)前大數(shù)據(jù)安全保護(hù)技術(shù)的一個(gè)重要研究方向。
3.1.1屬性加密
Shai等[9]提出了第1個(gè)屬性加密方案,公鑰、私鑰都和數(shù)據(jù)屬性相關(guān)聯(lián)。當(dāng)用戶私鑰具備解密數(shù)據(jù)的基本屬性時(shí),用戶才能夠解密出數(shù)據(jù)明文。例如:用戶1的私鑰有a、b 2個(gè)屬性,用戶2的私鑰有a、c 2個(gè)屬性,若有一份密文解密的基本屬性要求為a 或b,則用戶1和用戶2都可以解密出明文;同樣,若密文解密的基本屬性要求為a和b,則用戶1可以解密出明文,而用戶2無(wú)法解密此密文。Goyal等[10]提出了一個(gè)細(xì)粒度訪問(wèn)控制的屬性加密方案,在私鑰當(dāng)中嵌入接入策略。只有當(dāng)用戶屬性滿足接入策略時(shí),密鑰才可以恢復(fù),從而解密消息。該方案可以支持任意單調(diào)的包含與/或限門(mén)的接入公式。Yu等[11]則提出了一個(gè)安全、可擴(kuò)展的細(xì)粒度訪問(wèn)控制的屬性加密方案。Li等[12]提出一個(gè)支持用戶審計(jì)的細(xì)粒度訪問(wèn)控制的屬性加密方案,用來(lái)防止大數(shù)據(jù)中非法的密鑰共享。
Bethencourt等[13]提出了密文策略的屬性加密方法,將接入策略嵌入在密文當(dāng)中,而解密私鑰只與屬性集合相關(guān)。當(dāng)密文的接入策略發(fā)生改變時(shí),密文重新加密,且無(wú)需重新分配屬性對(duì)應(yīng)的解密私鑰。該方法需要一個(gè)屬性授權(quán)中心,對(duì)屬性以及屬性對(duì)應(yīng)的解密私鑰進(jìn)行管理。Chase[14]提出了一個(gè)多授權(quán)中心屬性加密系統(tǒng),每個(gè)授權(quán)中心管理不同的屬性域。當(dāng)屬性撤銷(xiāo)或者屬性中一個(gè)用戶撤銷(xiāo)時(shí),密鑰更新就產(chǎn)生問(wèn)題。Hur等[15]討論了這一問(wèn)題并分析了現(xiàn)有撤銷(xiāo)方案的不足,其提出的方案引入了對(duì)稱(chēng)密鑰的群組密鑰管理方案。
基于屬性加密和解密的計(jì)算比較復(fù)雜,通常涉及多個(gè)雙線性對(duì)運(yùn)算,特別是接入策略的表述比較復(fù)雜的情況,將部分計(jì)算外包到云服務(wù)提供商有助于減少數(shù)據(jù)使用者終端的開(kāi)銷(xiāo)。Green等[16]給出了一個(gè)屬性加密的外包解密方案,將復(fù)雜的解密操作由云服務(wù)提供商轉(zhuǎn)化為一個(gè)普通的ElGamal解密問(wèn)題,終端只需要一次模指數(shù)運(yùn)算,可有效降低終端的解密計(jì)算量。
大數(shù)據(jù)中屬性加密的研究重點(diǎn),不是加密技術(shù)本身,而是如何提高服務(wù)效率與質(zhì)量。目前,基于屬性的加密算法的時(shí)間復(fù)雜度很高,使這種加密方式在大數(shù)據(jù)中的應(yīng)用并不廣泛。隨著大數(shù)據(jù)研究的進(jìn)一步深入,加密算法的時(shí)間復(fù)雜度進(jìn)一步降低,屬性加密將應(yīng)用在未來(lái)的大數(shù)據(jù)中。
3.1.2代理重加密
代理重加密算法(PRE,proxy re-encryption)指允許第三方改變數(shù)據(jù)發(fā)送方加密后的密文,使數(shù)據(jù)接收方可以解密,而第三方并不知道原文。代理重加密的一般化流程如圖1所示。
圖1 代理重加密的一般化流程
1988年,Blaze等[17]提出了第一個(gè)代理重加密方案,該方案允許一個(gè)半可信的代理者將數(shù)據(jù)發(fā)送者的密文轉(zhuǎn)換為數(shù)據(jù)接受者可以解密的密文,同時(shí)不泄漏數(shù)據(jù)發(fā)送者的明文消息。Green等[18]提出了一種基于身份的代理重加密方案(IBPRE,identity-based proxy re-encryption),該方案以用戶的唯一身份信息作為公鑰參與重加密,具有單向性、非傳遞性、非交互性等特點(diǎn)。Mizuno等[19]對(duì)IBPRE方案進(jìn)行改進(jìn),優(yōu)化了重加密密文空間的大小并隱藏了代理的身份,同時(shí)證明其具有抵抗選擇明文攻擊(CPA,chosen-plaintext attack)的能力。Zhao等[20]提出了分類(lèi)代理重加密技術(shù),該技術(shù)使數(shù)據(jù)分發(fā)者能夠?qū)γ芪奈袡?quán)實(shí)施細(xì)粒度的分類(lèi)控制。Wu等[21]則給出了無(wú)證書(shū)的代理重加密算法以及基于身份的密鑰托管協(xié)議。Liang等[22]研究了基于身份的可撤銷(xiāo)代理重加密機(jī)制。
Weng等[23]提出的條件代理重加密方案(CPRE,conditional proxy re-encryption)引入了訪問(wèn)控制機(jī)制,只有當(dāng)重加密密鑰和指定密文條件同時(shí)滿足時(shí),解密操作才被允許。在此基礎(chǔ)上,F(xiàn)ang等提出了支持關(guān)鍵詞檢索的匿名條件代理重加密方案[24]和模糊條件代理重加密方案[25],提高了算法的執(zhí)行效率。Chow等[26]提出隨機(jī)預(yù)言機(jī)模型下的單向代理重加密方案。Lan等[27]利用秘密共享機(jī)制和雙線性對(duì)原理構(gòu)造出多條件代理重加密方案。目前,大部分現(xiàn)有方案大多僅限于關(guān)鍵字條件,如何構(gòu)造支持布爾條件的條件代理重加密算法仍需進(jìn)一步研究。
3.1.3同態(tài)加密
同態(tài)加密(homomorphic encryption)[28]是一種加密形式,對(duì)密文做特定的代數(shù)運(yùn)算后得到加密的結(jié)果,與對(duì)明文同樣的運(yùn)算結(jié)果一樣。同態(tài)加密可以無(wú)需對(duì)數(shù)據(jù)解密而進(jìn)行各種操作,比如對(duì)加密數(shù)據(jù)的檢索、比較等,從根本上解決將數(shù)據(jù)及其操作委托給第三方時(shí)的保密問(wèn)題。因此,同態(tài)加密可以運(yùn)用在各種云計(jì)算中。
2009年,IBM研究人員Gentry[29]使用“理想格(ideal lattice)”構(gòu)建了全同態(tài)數(shù)據(jù)加密方案。該方案包括3個(gè)關(guān)鍵步驟:1)構(gòu)建一個(gè)受限同態(tài)加密算法,該算法支持密文的低階多項(xiàng)式運(yùn)算;2)將解密操作“打散”成低階多項(xiàng)式運(yùn)算;3)將受限同態(tài)加密算法轉(zhuǎn)變成全同態(tài)加密算法。該方案密文處理效率很低,離實(shí)際應(yīng)用還有較長(zhǎng)時(shí)間。在此基礎(chǔ)上,Smart等[30]利用中國(guó)剩余定理設(shè)計(jì)了一個(gè)完全同態(tài)加密方案。在該方案中,密鑰和消息長(zhǎng)度都較小。采用明文打包的方法,Gentry等[31]將R-LWE問(wèn)題設(shè)計(jì)為一個(gè)時(shí)間開(kāi)銷(xiāo)僅為多項(xiàng)式對(duì)數(shù)(polylog)的完全同態(tài)加密方案。之后,Gentry等[32]提出了一個(gè)完全同態(tài)加密算法。該算法將模設(shè)置為 2的冪的近似值,以提高效率。這些完全同態(tài)加密方案使用的明文打包技術(shù)僅限于R-LWE問(wèn)題,Brakerski等[33]提出了一種基于標(biāo)準(zhǔn)LWE問(wèn)題的完全同態(tài)加密方案。該方案簡(jiǎn)單且更安全。
上述完全同態(tài)加密方案都是基于理想格中的一種判定問(wèn)題和稀疏子集求和問(wèn)題,而這2個(gè)問(wèn)題只能規(guī)約到平均情況下的困難問(wèn)題。為了提高完全同態(tài)加密方案的安全性,Gentry[34]設(shè)計(jì)了密鑰生成算法,該算法將完全同態(tài)加密方案的安全性建立在稀疏子集求和問(wèn)題和理想格中一種最壞情況下的困難問(wèn)題上。Brakerski等[35]基于標(biāo)準(zhǔn)LWE 問(wèn)題設(shè)計(jì)了新的完全同態(tài)加密方案,該方案有更高的安全性,因?yàn)長(zhǎng)WE 問(wèn)題都可規(guī)約到最壞困難問(wèn)題。Lopez等[36]提出了一種允許多個(gè)密鑰參與的完全同態(tài)加密方案。該方案基于理想格,比傳統(tǒng)的完全同態(tài)加密方案更加靈活、實(shí)用。
與基于格問(wèn)題的全同態(tài)加密不同,Van等[37]在整數(shù)環(huán)上設(shè)計(jì)了一個(gè)新的完全同態(tài)加密方案,其安全性依賴(lài)于近似最大公約數(shù)問(wèn)題。由于Van的方案中公鑰過(guò)大,Coron等[38]提出了一個(gè)改進(jìn)方案,該方案具有較短的公鑰,但是安全性基于較強(qiáng)的近似最大公約數(shù)假設(shè)。為了處理整數(shù)環(huán)上的完全同態(tài)加密,Cheon等[39]提出了批處理完全同態(tài)加密算法,該算法的安全性分別依賴(lài)于判定近似最大公約數(shù)問(wèn)題和無(wú)誤近似最大公約數(shù)問(wèn)題。
加密算法是實(shí)現(xiàn)大數(shù)據(jù)安全保護(hù)與共享的基礎(chǔ)。面對(duì)日益增長(zhǎng)的大數(shù)據(jù),現(xiàn)有加密算法在加解密效率、秘鑰管理等方面有著明顯的不足。已有研究表明,完全同態(tài)加密算法和基于 LWE問(wèn)題的部分同態(tài)加密算法能解決大數(shù)據(jù)安全保護(hù)的計(jì)算問(wèn)題,但是這些算法需要進(jìn)行大量復(fù)雜的指數(shù)運(yùn)算,大大降低了數(shù)據(jù)的處理效率。因此,提高計(jì)算效率將是同態(tài)加密算法研究的重要方向。
3.2完整性校驗(yàn)
當(dāng)大數(shù)據(jù)存儲(chǔ)到云端之后,用戶就失去了對(duì)數(shù)據(jù)的控制權(quán)。用戶最關(guān)心的問(wèn)題是,如果云服務(wù)商不可信,所存儲(chǔ)的文件是否被篡改、丟棄等。解決這個(gè)問(wèn)題的最簡(jiǎn)單方式就是將其全部取回檢查,但該方法不可取,因?yàn)橐馁M(fèi)大量的網(wǎng)絡(luò)帶寬,特別是當(dāng)云端數(shù)據(jù)量非常大時(shí)。當(dāng)前,對(duì)云端大數(shù)據(jù)完整性進(jìn)行校驗(yàn)主要依靠第三方來(lái)完成。根據(jù)是否允許恢復(fù)原始數(shù)據(jù),當(dāng)前的數(shù)據(jù)完整性校驗(yàn)協(xié)議主要可以分為2類(lèi):只驗(yàn)證數(shù)據(jù)完整性的PDP協(xié)議和允許恢復(fù)數(shù)據(jù)的POR協(xié)議。數(shù)據(jù)完整性驗(yàn)證的一般化過(guò)程如圖2所示。
圖2 數(shù)據(jù)完整性驗(yàn)證的一般化過(guò)程
Ateniese等[40]提出了一種可證明的數(shù)據(jù)持有(PDP,provable data possession)協(xié)議。該協(xié)議是基于RSA問(wèn)題設(shè)計(jì)的,它先從服務(wù)器上隨機(jī)采樣相應(yīng)的數(shù)據(jù)塊,并生成持有數(shù)據(jù)的概率證據(jù)。客戶端維持著一定數(shù)量的元數(shù)據(jù),并利用元數(shù)據(jù)來(lái)對(duì)證據(jù)進(jìn)行驗(yàn)證。由于PDP 協(xié)議的通信和存儲(chǔ)開(kāi)銷(xiāo)較大,Wang等[41]提出了一種支持第三方驗(yàn)證的PDP 協(xié)議,該協(xié)議使用了雙線性配對(duì)技術(shù)基于離散對(duì)數(shù)問(wèn)題。Zhu等[42]提出了一種支持?jǐn)?shù)據(jù)動(dòng)態(tài)變化的第三方驗(yàn)證PDP協(xié)議。該協(xié)議使用雙線性配對(duì)技術(shù)和Index-hash表,允許無(wú)限次挑戰(zhàn)詢問(wèn)并能夠保護(hù)數(shù)據(jù)擁有者的隱私。由于該協(xié)議的計(jì)算和通信開(kāi)銷(xiāo)較大,Yang等[43]利用雙線性配對(duì)的特點(diǎn),設(shè)計(jì)了一個(gè)高效的第三方審計(jì)PDP 協(xié)議。該協(xié)議能夠?qū)τ脩舸嬖诙鄠€(gè)云端的數(shù)據(jù)進(jìn)行批量校驗(yàn),并支持?jǐn)?shù)據(jù)的動(dòng)態(tài)操作和審計(jì)機(jī)構(gòu)進(jìn)行無(wú)限次挑戰(zhàn)詢問(wèn)。
Juels等[44]提出可恢復(fù)證明(POR,proof of retrievability)協(xié)議,該協(xié)議使用糾錯(cuò)碼技術(shù)和消息認(rèn)證機(jī)制來(lái)保證遠(yuǎn)程數(shù)據(jù)文件的完整性和可恢復(fù)性。在該協(xié)議中,原始文件首先被糾錯(cuò)碼編碼并產(chǎn)生對(duì)應(yīng)標(biāo)簽,編碼后的文件及標(biāo)簽被存儲(chǔ)在服務(wù)器上。當(dāng)用戶選擇服務(wù)器上的某個(gè)文件塊時(shí),可以采用糾錯(cuò)碼解碼算法來(lái)恢復(fù)原始文件。在POR基礎(chǔ)上,Shacham等[45]提出了一個(gè)基于雙線性對(duì)構(gòu)造的數(shù)字簽名方案,支持無(wú)限次挑戰(zhàn)詢問(wèn)。為了提高效率,Dodis等[46]提出了一種允許第三方審計(jì)的POR協(xié)議。該協(xié)議使用了困難放大技術(shù),允許無(wú)限次挑戰(zhàn)詢問(wèn)。為了支持對(duì)數(shù)據(jù)的動(dòng)態(tài)操作,Wang等[47]提出了一個(gè)基于短簽名和散列的POR協(xié)議。在此基礎(chǔ)上,Wang等[48]提出一個(gè)允許對(duì)多個(gè)數(shù)據(jù)擁有者的數(shù)據(jù)進(jìn)行批量校驗(yàn)的POR協(xié)議,但這些協(xié)議都不能保護(hù)數(shù)據(jù)擁有者的隱私。
目前,大數(shù)據(jù)完整性校驗(yàn)算法還不能支持?jǐn)?shù)據(jù)動(dòng)態(tài)變化。與PDP算法相比,POR算法具有數(shù)據(jù)恢復(fù)功能和更高的實(shí)用性。因此,研究支持?jǐn)?shù)據(jù)動(dòng)態(tài)變化的POR算法將是大數(shù)據(jù)安全保護(hù)的研究要點(diǎn)。此外,數(shù)據(jù)可能屬于不同的所有者且數(shù)據(jù)規(guī)模龐大,研究支持多主權(quán)大數(shù)據(jù)完整性批量校驗(yàn)也將是未來(lái)大數(shù)據(jù)完整性校驗(yàn)協(xié)議的發(fā)展趨勢(shì)。
3.3訪問(wèn)控制
Sandhur等[49]提出了基于角色的訪問(wèn)控制(rolebased access control)方法,不同角色賦予不同的訪問(wèn)控制權(quán)限。針對(duì)云端大數(shù)據(jù)的時(shí)空關(guān)聯(lián)性,Ray等[50]提出了LARB(location-aware role-based)訪問(wèn)控制協(xié)議,在 RBAC(role-based policies access control)的基礎(chǔ)上引入了位置信息,通過(guò)用戶的位置來(lái)判斷用戶是否具有數(shù)據(jù)訪問(wèn)權(quán)限。Zhang等[51]提出的基于尺度的時(shí)空RBAC訪問(wèn)控制模型,使訪問(wèn)控制策略的表達(dá)能力得到增強(qiáng),同時(shí)也增強(qiáng)了模型的安全性。
基于屬性的訪問(wèn)控制(ABAC,attribute based access control)[52]是通過(guò)綜合考慮各類(lèi)屬性,如用戶屬性、資源屬性、環(huán)境屬性等,來(lái)設(shè)定用戶的訪問(wèn)權(quán)限。相對(duì)于RBAC以用戶為中心,ABAC則是考慮全方位屬性,以實(shí)現(xiàn)更加細(xì)粒度的訪問(wèn)控制。在基于密文屬性的加密基礎(chǔ)上,Sun等[53]提出了一種數(shù)據(jù)安全訪問(wèn)控制方法,該方法將公鑰和私鑰形式化為讀寫(xiě)權(quán)限、通過(guò)設(shè)計(jì)密鑰來(lái)進(jìn)行訪問(wèn)控制。Ruj等[54]提出了一種可對(duì)云中大數(shù)據(jù)實(shí)現(xiàn)隱私保護(hù)和認(rèn)證的訪問(wèn)控制框架。在這個(gè)框架中,在數(shù)據(jù)存往云端之前對(duì)其進(jìn)行認(rèn)證,而認(rèn)證過(guò)的用戶可以在云端對(duì)數(shù)據(jù)進(jìn)行ABE,加密存儲(chǔ)。
當(dāng)用戶的屬性發(fā)生變化時(shí),用戶就失去了對(duì)該加密數(shù)據(jù)的訪問(wèn)權(quán)限。針對(duì)這個(gè)問(wèn)題,Liang等[55]提出基于代理重加密的訪問(wèn)控制方法,該方法通過(guò)代理將密文從一種訪問(wèn)結(jié)構(gòu)樹(shù)加密變?yōu)榱硪环N訪問(wèn)結(jié)構(gòu)樹(shù)加密,以達(dá)到權(quán)限撤銷(xiāo)的目的。Hong等[56]利用CP-ABE 算法和公鑰密碼系統(tǒng)來(lái)實(shí)現(xiàn)密文訪問(wèn)控制,該方案不足的是,數(shù)據(jù)擁有者仍然要承受巨大的重加密代價(jià)。Yu等[57]提出了一種基于CP-ABE算法的屬性撤銷(xiāo)方案,該方案假定云服務(wù)商是存在一定可信度的,數(shù)據(jù)所有者將部分工作交付云服務(wù)商執(zhí)行。在此基礎(chǔ)上,Yu等[58]提出了一種基于KP-ABE技術(shù)的細(xì)粒度的訪問(wèn)控制,并使用基于重加密技術(shù)實(shí)現(xiàn)了有效的用戶撤銷(xiāo)機(jī)制。
ABE在授權(quán)的時(shí)候,用戶的每個(gè)屬性都向授權(quán)中心申請(qǐng)簽名私鑰,這給單個(gè)授權(quán)中心增加很多工作負(fù)擔(dān)。為此,Chas[59]首次提出了多授權(quán)中心,要求由不同的認(rèn)證中心來(lái)認(rèn)證每個(gè)用戶保存屬性或訪問(wèn)樹(shù),并使用一個(gè)可信的中心授權(quán)方來(lái)管理和約束各個(gè)授權(quán)中心。在基于多授權(quán)中心的屬性加密方法中,不同的授權(quán)中心管理用戶的多個(gè)屬性,并對(duì)每個(gè)屬性分配加密密鑰。為了防止多個(gè)用戶勾結(jié)非法訪問(wèn)數(shù)據(jù),Yang等[60]提出了一個(gè)云環(huán)境中多授權(quán)中心訪問(wèn)控制模型。在該模型中,可信任的證書(shū)簽發(fā)機(jī)構(gòu)給每個(gè)用戶分配唯一的用戶標(biāo)識(shí)符和唯一的授權(quán)標(biāo)識(shí)符。只有通過(guò)證書(shū)簽發(fā)機(jī)構(gòu)認(rèn)證過(guò)的用戶標(biāo)識(shí)符和密鑰一起來(lái)使用時(shí)才能解密數(shù)據(jù),從而保證數(shù)據(jù)的安全性。在CP-ABE的基礎(chǔ)上,Liu等[61]通過(guò)加入屬性基簽名,提出了一種層次化的屬性基訪問(wèn)控制方案。該方案分層處理 multi authority,然后每層authority使用不同的CP-ABE算法,以實(shí)現(xiàn)粗粒度的訪問(wèn)控制。
大數(shù)據(jù)在給傳統(tǒng)訪問(wèn)控制帶來(lái)挑戰(zhàn)的同時(shí),也帶來(lái)了機(jī)遇。隨著大數(shù)據(jù)的規(guī)模不斷增長(zhǎng),并在不同領(lǐng)域的應(yīng)用,將有更多的數(shù)據(jù)在不同系統(tǒng)中流轉(zhuǎn),研究可耦合的細(xì)粒度訪問(wèn)控制技術(shù)迫在眉睫。此外,在大數(shù)據(jù)中,不同數(shù)據(jù)的功能和安全需求是不一致的,研究多層次和多級(jí)安全的訪問(wèn)控制新技術(shù)將是未來(lái)大數(shù)據(jù)訪問(wèn)控制技術(shù)的發(fā)展方向。
3.4密文數(shù)據(jù)去重與可信刪除
3.4.1密文數(shù)據(jù)去重
存儲(chǔ)在云端大數(shù)據(jù)有很多重復(fù)的、冗余的。為了節(jié)省存儲(chǔ)空間和降低成本,一些重復(fù)數(shù)據(jù)刪除(data deduplication)技術(shù)[62]被用來(lái)刪除在云端的大量重復(fù)數(shù)據(jù)。在云環(huán)境中,數(shù)據(jù)往往是被加密成密文存儲(chǔ),且相同的數(shù)據(jù)會(huì)被加密成不同的密文。因此,很難根據(jù)數(shù)據(jù)內(nèi)容對(duì)重復(fù)的安全數(shù)據(jù)進(jìn)行刪除。密文數(shù)據(jù)去重技術(shù)是近年來(lái)數(shù)據(jù)安全領(lǐng)域中新興的研究熱點(diǎn),其不僅可以節(jié)省存儲(chǔ)空間開(kāi)銷(xiāo),而且可以減少網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,進(jìn)而節(jié)省網(wǎng)絡(luò)帶寬開(kāi)銷(xiāo),在大數(shù)據(jù)時(shí)代具有更為廣闊的應(yīng)用價(jià)值。各大云存儲(chǔ)廠商(如Dropbox、Google Drive等)對(duì)去重?cái)?shù)據(jù)技術(shù)都非常重視。
Douceur等[63]開(kāi)創(chuàng)性地提出了收斂加密的概念,計(jì)算數(shù)據(jù)的散列值作為密鑰,利用傳統(tǒng)的對(duì)稱(chēng)加密算法對(duì)數(shù)據(jù)加密,這就保證了不同用戶共享的相同數(shù)據(jù)文件必將產(chǎn)生相同的密文。Storer等[64]提出了一種基于收斂加密方式的重復(fù)密文數(shù)據(jù)刪除技術(shù)。該技術(shù)通過(guò)使用相同的加密模式來(lái)生產(chǎn)相同的密文數(shù)據(jù),以達(dá)到使用傳統(tǒng)重復(fù)數(shù)據(jù)刪除技術(shù)來(lái)刪除冗余數(shù)據(jù)的目的。Bellare等[65]提出了消息鎖定加密(MLE,message-locked encryption),其本質(zhì)是收斂加密的一般化描述,并給出了 MLE的嚴(yán)格安全定義和安全模型。然而,為了解決消息可預(yù)測(cè)的明文空間易遭受密鑰暴力破擊攻擊的問(wèn)題,Bellare等[66]提出了一個(gè)服務(wù)器輔助的MLE方案(DupLESS),通過(guò)引入一個(gè)可信的密鑰服務(wù)器,利用其私鑰來(lái)幫助用戶生成收斂密鑰,從而達(dá)到擴(kuò)大密鑰空間的作用。Li等[67]提出了支持?jǐn)?shù)據(jù)塊級(jí)去重的密鑰外包存儲(chǔ)方案(DeKey),有效地降低了用戶端密鑰存儲(chǔ)開(kāi)銷(xiāo)。Feng等[68]提出了支持多級(jí)密鑰管理的細(xì)粒度安全去重方案(SecDep),對(duì)文件級(jí)和數(shù)據(jù)塊級(jí)去重采用不同策略,有效降低密鑰開(kāi)銷(xiāo)帶來(lái)的效率瓶頸。
密文數(shù)據(jù)去重是大數(shù)據(jù)安全保護(hù)的重要組成部分。目前,大數(shù)據(jù)中密文數(shù)據(jù)去重研究主要集中在收斂加密方式,即使用相同的密鑰對(duì)相同的數(shù)據(jù)加密產(chǎn)生相同的密文。研究在一般化加密方式中密文數(shù)據(jù)去重是大數(shù)據(jù)安全保護(hù)的研究重點(diǎn)。
3.4.2數(shù)據(jù)可信刪除
數(shù)據(jù)可信刪除是近幾年大數(shù)據(jù)安全保護(hù)技術(shù)的研究熱點(diǎn)。大數(shù)據(jù)存儲(chǔ)在云端時(shí),當(dāng)用戶發(fā)出刪除指令后,可能不會(huì)被云服務(wù)商真正地銷(xiāo)毀,而是被惡意地保留,從而使其面臨被泄露的風(fēng)險(xiǎn)。傳統(tǒng)的保護(hù)存儲(chǔ)在云端數(shù)據(jù)安全的方法是,在將數(shù)據(jù)傳輸之前進(jìn)行加密,則數(shù)據(jù)可信刪除就變成了用戶本地密鑰安全銷(xiāo)毀,一旦用戶安全銷(xiāo)毀密鑰,那么存在數(shù)據(jù)即使被泄露,被泄露的數(shù)據(jù)也不能在多項(xiàng)式時(shí)間內(nèi)被解密,從而保護(hù)了數(shù)據(jù)安全。
很多存儲(chǔ)系統(tǒng)采用覆蓋的方法刪除數(shù)據(jù)[69],而該方法依賴(lài)于物理存儲(chǔ)介質(zhì)的性質(zhì)。一旦數(shù)據(jù)所有者失去了對(duì)數(shù)據(jù)存儲(chǔ)位置的物理控制,就使基于存儲(chǔ)介質(zhì)的覆蓋刪除方法不能滿足大數(shù)據(jù)需求。Perlman[70]首次提出了基于時(shí)間的數(shù)據(jù)可信刪除方法,該方法能實(shí)現(xiàn)數(shù)據(jù)安全刪除,并在規(guī)定時(shí)間后不被訪問(wèn)。與之類(lèi)似,Geabasu等[71]將數(shù)據(jù)密鑰分成的多個(gè)小塊存在網(wǎng)絡(luò)的不同位置,并在規(guī)定時(shí)間后刪除,以實(shí)現(xiàn)數(shù)據(jù)可信刪除。Peterson等[72]提出了在數(shù)據(jù)塊層實(shí)現(xiàn)數(shù)據(jù)的可信刪除的方法,該方法使用全有或全無(wú)的轉(zhuǎn)換技術(shù)存儲(chǔ)每一個(gè)數(shù)據(jù)塊,然后覆蓋其中的一部分,達(dá)到整個(gè)數(shù)據(jù)塊不可用的目的。Cachin等[73]使用圖論、對(duì)稱(chēng)加密算法和門(mén)限秘密共享技術(shù)等相結(jié)合來(lái)實(shí)現(xiàn)基于策略的安全數(shù)據(jù)可信刪除。
由于大數(shù)據(jù)主要存儲(chǔ)在云端,數(shù)據(jù)所有者對(duì)存在云端的數(shù)據(jù)失去控制權(quán),數(shù)據(jù)可信刪除技術(shù)在大數(shù)據(jù)安全保護(hù)中是十分關(guān)鍵的。目前,數(shù)據(jù)可信刪除技術(shù)尚在起步階段,主要通過(guò)第三方來(lái)刪除秘鑰來(lái)實(shí)現(xiàn)。在大數(shù)據(jù)環(huán)境中,如何實(shí)現(xiàn)真正的可信任的數(shù)據(jù)可信刪除是未來(lái)大數(shù)據(jù)安全保護(hù)技術(shù)的研究要點(diǎn)。
3.5密文搜索
大數(shù)據(jù)經(jīng)常以密文形式存儲(chǔ)在云端,這使數(shù)據(jù)查詢變得困難。此外,采用一般加密方法加密時(shí),索引是無(wú)法建立的,從而導(dǎo)致查詢效率低。為了保障云端數(shù)據(jù)的可用性,可搜索加密技術(shù)(searchable encryption)[74]被提了出來(lái),該技術(shù)用來(lái)實(shí)現(xiàn)對(duì)密文的有效檢索和查詢。密文搜索的一般化過(guò)程如圖3所示。數(shù)據(jù)擁有者將加密后的數(shù)據(jù)以及對(duì)應(yīng)的可搜索索引上傳至云端,數(shù)據(jù)使用者隨后向云端提出檢索請(qǐng)求并發(fā)送關(guān)鍵詞陷門(mén),最終由云端安全地返回(排序后的)檢索結(jié)果。該過(guò)程需確保云端未竊取到任何與檢索操作有關(guān)的額外信息。目前,主要的可搜索加密技術(shù)可分為 2種:對(duì)稱(chēng)可搜索加密技術(shù)(symmetry key cryptography based)和非對(duì)稱(chēng)可搜索加密技術(shù)(public key cryptography based)。
圖3 密文搜索的一般化過(guò)程
3.5.1對(duì)稱(chēng)可搜索加密
對(duì)稱(chēng)可搜索加密技術(shù)主要是通過(guò)可搜索加密機(jī)制建立安全加密索引,在文件與檢索關(guān)鍵詞之間建立檢索關(guān)聯(lián)。在密文搜索時(shí),數(shù)據(jù)擁有者為數(shù)據(jù)使用者提供陷門(mén),從而完成密文檢索。Song等[74]針對(duì)加密數(shù)據(jù)上的查詢問(wèn)題提出了第一個(gè)密文搜索算法。Curtmola等[75]首次提出了允許多個(gè)用戶搜索的可搜索對(duì)稱(chēng)加密算法,然而該算法在處理動(dòng)態(tài)變化的大數(shù)據(jù)時(shí)效率非常低。在此基礎(chǔ)上,Van等[76]提出了一種可搜索的對(duì)稱(chēng)加密算法,該算法搜索效率高,且允許數(shù)據(jù)系統(tǒng)升級(jí)更新。針對(duì)云服務(wù)商可能主動(dòng)刪除云上的加密數(shù)據(jù),Kurosawa等[77]定義了抗主動(dòng)攻擊的可搜索的對(duì)稱(chēng)加密算法,并提出了一個(gè)通用可組合安全的高效算法。為了滿足多關(guān)鍵字搜索的需求,Chase等[78]定義了可搜索的結(jié)構(gòu)化對(duì)稱(chēng)加密算法和相應(yīng)模型,并實(shí)現(xiàn)了支持多關(guān)鍵字搜索的加密算法。在此基礎(chǔ)上,Ballard等[79]利用秘密分享和雙線性對(duì)技術(shù)提出對(duì)其進(jìn)行改進(jìn)。
對(duì)稱(chēng)可搜索加密算法的檢索效率較差,其檢索時(shí)間與密文數(shù)據(jù)總長(zhǎng)度呈現(xiàn)線性增長(zhǎng)關(guān)系[80]。為了提高密文搜索效率,Lu等[81]提出了一個(gè)新的可搜索加密算法,該算法能達(dá)到對(duì)數(shù)時(shí)間復(fù)雜度。Strizhov等[82]提出了支持多關(guān)鍵詞的相似性搜索的加密算法,其檢索時(shí)間與文檔總數(shù)之間存在亞線性關(guān)系。上述方案都是針對(duì)單一數(shù)據(jù)源而創(chuàng)建可搜索索引,而在大數(shù)據(jù)分布在云端的不同存儲(chǔ)設(shè)備上,由單一數(shù)據(jù)源所創(chuàng)建的索引必定影響加密數(shù)據(jù)查詢和搜索的效率。針對(duì)該問(wèn)題,Liu等[83]提出了MDS-SSE算法,該算法允許各數(shù)據(jù)源以分散的方式生成索引。
3.5.2非對(duì)稱(chēng)可搜索加密
非對(duì)稱(chēng)可搜索加密技術(shù)允許數(shù)據(jù)發(fā)送者以公鑰加密數(shù)據(jù)與關(guān)鍵詞,而數(shù)據(jù)使用者則利用私鑰自行生成陷門(mén)以完成檢索,從而解決服務(wù)器不可信與數(shù)據(jù)來(lái)源單一等問(wèn)題。Boneh等[84]提出了第1個(gè)非對(duì)稱(chēng)可搜索加密算法。在該算法中,任何公鑰所有者都可以向服務(wù)器中寫(xiě)入數(shù)據(jù),但只有授權(quán)的擁有私鑰的用戶才能夠?qū)γ芪倪M(jìn)行搜索。然而該算法不滿足一致性,Abdalla等[85]針對(duì)這個(gè)問(wèn)題重新定義了非對(duì)稱(chēng)可搜索加密,并提出了一個(gè)新的算法。由于文獻(xiàn)[84]中方案需要安全通道,Baek等[86]提出了一個(gè)可搜索的公鑰加密算法。該算法使用聚合簽名技術(shù),且不需要安全通道,在隨機(jī)預(yù)言模型下被證明是安全的。為了消除隨機(jī)預(yù)言機(jī),F(xiàn)ang等[87]提出了首個(gè)標(biāo)準(zhǔn)模型下不需要安全通道的可搜索的公鑰加密方案。
為了提高非對(duì)稱(chēng)可搜索加密技術(shù)的效率,Bellare等[88]提出確定性加密(DE,deterministic encryption)的概念,即對(duì)于同一個(gè)公鑰和明文輸出的密文相同。Boldyreva等[89]提出可證的確定性加密算法,該算法所加密的數(shù)據(jù)沒(méi)有額外的限制。由于確定性加密算法能加密較大的數(shù)據(jù),而有時(shí)候數(shù)據(jù)間的差異較小。為了提高確定性加密算法的計(jì)算效率,Mironov等[90]首次提出了增量確定性加密,并給出從普通確定性加密算法到增量確定性加密算法的一般過(guò)程。
上述非對(duì)稱(chēng)可搜索的加密算法往往不支持模糊查詢。為此,Boneh等[91]設(shè)計(jì)了允許關(guān)鍵詞比較、子集查詢的非對(duì)稱(chēng)可搜索的加密算法。Katz等[92]提出了基于雙線性對(duì)技術(shù)的公鑰加密算法。該算法支持能任意析取連接詞、多項(xiàng)式和內(nèi)積的關(guān)鍵詞搜索。
大數(shù)據(jù)經(jīng)常以密文形式存儲(chǔ)在云端,為了實(shí)現(xiàn)這些數(shù)據(jù)的安全性和可用性,可搜索加密技術(shù)研究將集中在支持多樣化查詢的搜索和相關(guān)性排序,以及進(jìn)一步提升搜索的效率和精度,具體體現(xiàn)在以下3點(diǎn)。
1)對(duì)稱(chēng)可搜索加密技術(shù)在大數(shù)據(jù)環(huán)境中,其檢索性能顯著下降,且可擴(kuò)展能力差。研究支持多類(lèi)型的搜索,如短語(yǔ)搜索和鄰近搜索等,是未來(lái)大數(shù)據(jù)安全保護(hù)技術(shù)的發(fā)展方向。
2)當(dāng)前非對(duì)稱(chēng)可搜索加密的的查詢效率低。研究簡(jiǎn)單、高效、且安全的非對(duì)稱(chēng)可搜索加密算法是未來(lái)大數(shù)據(jù)安全保護(hù)技術(shù)的研究重點(diǎn)。
3)目前,可搜索加密算法能實(shí)現(xiàn)一般結(jié)構(gòu)數(shù)據(jù)的動(dòng)態(tài)變化和多關(guān)鍵詞的密文搜索。然而,大數(shù)據(jù)結(jié)構(gòu)十分復(fù)雜、類(lèi)型繁多、搜索需求多樣化,研究支持在復(fù)雜結(jié)構(gòu)中的多樣化查詢的加密算法是非常重要的。
繼物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算后,大數(shù)據(jù)將引起信息產(chǎn)業(yè)的又一次顛覆性技術(shù)革命。如何保護(hù)大數(shù)據(jù)安全是當(dāng)前大數(shù)據(jù)研究的重點(diǎn)和熱點(diǎn)。本文首先概述了大數(shù)據(jù)的基本概念特征和安全需求。然后從數(shù)據(jù)使用到銷(xiāo)亡的生命周期,具體包括:加密、驗(yàn)證、訪問(wèn)、去重與刪除、搜索等方面,分別闡述了當(dāng)前大數(shù)據(jù)安全保護(hù)技術(shù)的研究進(jìn)展,分析了它們的優(yōu)缺點(diǎn),并探討了其未來(lái)的發(fā)展趨勢(shì)。
[1]TAYLOR J. What is big data?[EB/OL]. http://www-01.ibm.com/software/data/bigdata.
[2]AGRAWAL D,BERNSTEIN P. Challenges and opportunities with big data[R]. 2012.
[3]Big data[EB/OL]. http://www.villanovau.com/resources/bi/what-isbig-data/.
[4]HASHEM I A T,YAQOOB I,ANUAR N B,et al. The rise of “big data” on cloud computing: review and open research issues[J].Information Systems,2015,47(47): 98-115.
[5]LI G J,CHENG X Q. Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences,2012,27(6):647-657.
[6]HUDIC A,ISLAM S,KIESEBERG P,et al. Data confidentiality using fragmentation in cloud computing[J]. International Journal of Pervasive Computing&Communication,2013,9(1):37-51.
[7]ATENIESE G,BURNS R,et al. Provable data possession at untrusted stores[C]//The 14th ACM Conference on Computer and Communications Security. c2007:598-609.
[8]Nirvanix cloud. Why nirvanix[EB/OL]. http://www.nirvanix.com/company/why-nirvanix.aspx.
[9]SAHAI A,WATERS B. Fuzzy Identity-based encryption[R]. Lecture Notes in Computer Science 3494,2004:457-473.
[10]GOYAl V,PANDEY O,SAHAI A,et al. Attribute-based encryption for fine-grained access control of encrypted data[C]//ACM CSS. c2006: 89-98.
[11]YU S,WANG C,REN K,et al. Achieving secure,scalable and fine-grained data access control in cloud computing[C]//IEEE Infocom. c2010: 15-19.
[12]LI J,ZHAO G,CHEN X,et al. Fine-grained data access control systems with user accountability in cloud computing[C]//The 2nd International Conference on Cloud Computing Technology and Science,IEEE Computer Society. c2010:89-96.
[13]BETHENCOURT J,SAHAI A,WATERS B. Ciphertext-policy Attribute-Based Encryption[C]//IEEE Symposium on Security and Privacy(SP '07),Berkeley. c2007:321-334.
[14]CHASE M. Multi-authority attribute based encryption[R]. Lecture Notes in Computer Science 4392. Berlin: Springer,2007: 515-534.
[15]HUR J,NOH D K. Attribute-Based access control with efficient revocation in data outsourcing systems[J]. IEEE Transactions on Parallel and Distributed Systems,2011,22(7):1214-1221.
[16]GREEN M,HOHENBERGER S,WATERS B. Outsourcing the decryption of ABE ciphertexts[C]//The 9th USENIX Security Symp. c2011:3-18.
[17]BLAZE M,BLEUMER G,STRAUSS M. Divertible protocols and atomic proxy cryptography[R]. Lecture Notes in Computer Science 1403. Berlin: Springer,1998:127-144.
[18]GREEN M,ATENIESE G. Identity-based proxy re-encryption[R]. Lecture Notes in Computer Science 4521. Berlin Heidelberg:Springer,2007:288-306.
[19]MIZUNO T,DOI H. Secure and efficient IBE-PKE proxy re-encryption[J]. IEICE Transactions on Fundamentals of Electronics,Communications and Computer Science,2011,94(1):36-44.
[20]ZHAO J,F(xiàn)ENG D G,YANG L,et al. CCA-secure type-based proxy re-encryption without pairings[J]. Acta Electronica Sinica,2011,39(11):2513-2519.
[21]WU X X,XU L,ZHANG X W. A certificateless proxy re-encryption scheme for cloud-based data sharing[C]//The 18th ACM Conference on Computer and Communications Security(CCS). c2011:869-871.
[22]LIANG K T,LIU J K,WONG D S,et al. An efficient cloud-based revocable identity-based proxy re-encryption scheme for public clouds data sharing[C]//The 19th European Symposium on Research in Computer Security(ESORICS). c2014:257-272.
[23]WENG J,DENG R H,DING X H,et al. Conditional proxy re-encryption secure against chosen-ciphertext attack[C]//The 4th International Symposium on Information,Computer,and Communications Security(ASIACCS). c2009. 322-332.
[24]FANG L M,SUSILO W,GE C P,et al. Chosen-ciphertext secure anonymous conditional proxy re-encryption with keyword search[J]. Theoretical Computer Science,2012,462(1):39-58.
[25]FANG L M,WANG J D,GE C P,et al. Fuzzy conditional proxy re-encryption[J]. Science China Information Sciences,2015,56(5):1-13.
[26]CHOW S,WENG J,YANG Y,et al. Efficient unidirectional proxy re-encryption[R]. Lecture Notes in Computer Science 6055. Berlin:Springer,2010: 316-332.
[27]LAN C H,WANG C F. A new conditional proxy re-encryption scheme based on secret sharing[J]. Chinese Journal of Computers,2013,36(4):895-902.
[28]Homomorphic encryption[EB/OL].https://en.wikipedia.org/wiki/Homomorphic_encryption.
[29]GENTRY C. Fully homomorphic encryption using ideal lattices[C]//The 41st Annual ACM Symposium on Theory of Computing(STOC). c2009:169-178.
[30]SMART N P,VERCAUTEREN F. Fully homomorphic encryption with relatively small key and ciphertext sizes[C]//The Public Key Cryptography(PKC). c2010: 420-443.
[31]GENTRY C,HALEVI S,SMART N P. Fully homomorphic encryption with polylog overhead[C]//Advances in Cryptology. c2012:465-482.
[32]GENTRY C,HALEVI S,SMART N P. Better bootstrapping in fully homomorphic encryption[C]//The Public Key Cryptography(PKC).c2012:1-16.
[33]BRAKERSKI Z,GENTRY C,HALEVI S. Packed ciphertexts in LWE-based homomorphic encryption[C]//The Public-Key Cryptography(PKC). c2013:1-13.
[34]GENTRY C. Toward basing fully homomorphic encryption on worst-case hardness[C]//Advances in Cryptolog. c2010:116-137.
[35]BRAKERSKI Z,VAIKUNTANATHAN V. Fully homomorphicencryption from ring-LWE and security for key dependent messages[C]//Advances in Cryptology. c2011:505-524.
[36]LOPEZ A,TROMER E,VAIKUNTANATHAN V. On-the-fly multiparty computation on the cloud via multi-key fully homomorphic encryption[C]//The 44th Annual ACM Symposium on Theory of Computing(STOC). c2012:1219-1234.
[37]DIJK M V,GENTRY C,HALEVI S,et al. Fully homomorphic encryption over the integers[C]//Advances in Cryptology. c2010:24-43.
[38]CORON J,MANDAL A,NACCACHE D,et al. Fully homomorphic encryption over the integers with shorter public key[C]//Advances in Cryptology. c2011: 487-504.
[39]CHEON J H,CORON J,KIM J,et al. Batch fully homomorphic encryption over the integers[C]//Advances in Cryptology. c2013:315-335.
[40]ATENIESE G,BURNS R,CURTMOLA R,et al. Provable data possession at untrusted stores[C]//The 14th ACM Conference on Computer and Communications Security(CCS). c2007:598-609.
[41]WANG C,WANG Q,REN,K,et al. Privacy-preserving public auditing for data storage security in cloud computing[C]//The 29th IEEE Infocom. c2010: 1-9.
[42]ZHU Y,WANG H,HU Z,et al. Dynamic audit services for integrity verification of outsourced storages in clouds[C]//The 2011 ACM Symposium on Applied Computing(SAC). c2011: 1550-1557.
[43]YANG K,JIA X. An efficient and secure dynamic auditing protocol for data storage in cloud computing[J]. IEEE Transactions on Parallel and Distributed Systems,2013,24(9):1717-1726.
[44]LI N,LI T,VENKATASUBRAMANIAN S. T-Closeness: privacy beyond k-anonymity and l-diversity[C]//The 23rd IEEE International Conference on Data Engineering(ICDE). c2007: 6-115.
[45]ZHU Q,ZHAO T,WANG S. Privacy preservation algorithm for service-oriented information search[J]. Chinese Journal of Computers,2010,33(8):1315-1323.
[46]DODIS Y,VADHAN S,WICHS D. Proofs of retrievability via hardness amplification[C]//The 6th Theory of Cryptography Conference(TCC). c2009:109-127.
[47]WANG Q,WANG C,LI J,et al. Enabling public verifiability and data dynamics for storage security in cloud computing[C]//The 14th European Symposium on Research in Computer Security(ESORICS). c2009:355-370.
[48]WANG Q,WANG C,REN K,et al. Enabling public verifiability and data dynamics for storage security in cloud computing[J]. IEEE Transactions on Parallel and Distributed Systems,2011,22(5):847-859.
[49]SANDHU R S,COYNE E J,F(xiàn)EINSTEIN H L,et al. Role-based access control models[J]. Ansi Incits,2009,4(3): 554-563.
[50]RAY I,KUMAR M,YU L . LRBAC: a location-aware role-based access control model[C]//The 2nd International Conference on Information Systems Security. c2006: 147-161.
[51]ZHANG Y J,F(xiàn)ENG D G. A role-based access control model based on space,time and scale[J]. Journal of Computer Research and Development,2010,47(7): 1252-1260.
[52]Attribute-based access control[EB/OL]. https://en.wikipedia.org/wiki/Attribute-based_access_control.
[53]SUN G Z,DONG Y,LI Y. CP-ABE based data access control for cloud storage[J]. Journal on Communications,2011,32(7):146-152. [54]SUSHMITA R,MILOS S,AMIYA N. Privacy preserving access control with authentication for securing data in clouds[C]//The 12th IEEE/ACM International Symposium on Cluster,Cloud and Grid Computing. c2012: 556-563.
[55]LIANG X H,CAO Z F,LIN H,et al. Attribute based proxy re-encryption with delegating capabilities[C]//The 4th International Symposium on Information,Computer and Communications Security(ASIACCS). c2009:276-286.
[56]HONG C,ZHANG M,F(xiàn)ENG D G. AB-ACCS: a cryptographic access control scheme for cloud storage[J]. Journal of Computer Research and Development,2010,47(Z1):259-265.
[57]YU S C,WANG C,REN K,et al. Attribute based data sharing with attribute revocation[C]//The 5th International Symposium on Information,Computer and Communications Security(ASIACCS). c2010: 261-270.
[58]YU S C,WANG C,REN K,et al. Achieving secure,scalable,and fine-grained data access control in cloud computing[C]//The Infocom. c2010: 1-9.
[59]CHASE M. Multi-authority attribute based encryption[C]//The 4th Theory of Cryptography Conference(TCC). c2007: 515-534.
[60]YANG K,JIA X H. Attribute-based access control for multi-authority systems in cloud storage[C]//The 32nd International Conference on Distributed Computing Systems. c2012: 536-545.
[61]LIU X J,XIA Y J,JIANG S,et al. Hierarchical attribute-based access control with authentication for outsourced data in cloud computing[C]//The 12th International Conference on Trust,Security and Privacy in Computing and Communications,IEEE. c2013:477-484.
[62]Data deduplicaiton[EB/OL]. https://en.wikipedia.org/wiki/Data_ deduplication.
[63]DOUCEUR J R,ADYA A,BOLOSKY W J,et al. Reclaiming space from duplicate files in a serverless distributed file system[C]// International Conference on Distributed Computing Systems. c2002:617.
[64]STORER M W,GREENAN K,LONG D D,et al. Secure data deduplication[C]//The 4th ACM International Workshop on Storage Security and Survivability. c2008: 1-10.
[65]BELLARE M,KEELVEEDHI S,RISTENPART T. Messagelocked encryption and secure deduplication[M]//EUROCRYPT. Berlin Heidelberg: Springer,2013:296-312.
[66]BELLARE M,KEELVEEDHI S,RISTENPART T. DupLESS:server-aided encryption for deduplicated storage[C]//The USENIX on Security(SEC),ACM. c2013:179-194.
[67]LI J,CHEN X,LI M,et al. Secure deduplication with efficient and reliable convergent key management[J]. IEEE Transactions on Parallel and Distributed Systems ,25(6): 1615-1625.
[68]ZHOU Y,F(xiàn)ENG D,XIA W,et al. SecDep: a user-aware efficient fine-grained secure deduplication scheme with multi-level key management[C]//IEEE MASS Storage Systems and Technologies. c2015:1-14.
[69]JOUKOV N,PAPAXENOPOULOS H,ZADOK E. Secure deletion myths,issues,and solutions[C]//ACM Workshop on Storage Security and Survivability. c2006:61-66.
[70]CRESECENZO G D,F(xiàn)ERGUSON N,IMAGLIAZZO R,et al. How to forget a secret?[C]//The 16th Symp on Theoretical Aspects of Computer Science(STACS 1999). c1999: 500-509.
[71]PERLMAN R. File system design with assured delete[C]//IEEE International Security in Storage Workshop. c2005:83-88.
[72]GEAMBASU R,KOHNO T,LEVY A,et al. Vanish: increasing data privacy with self-destructing data[C]//The 17th USENIX Security Symposium. c2009: 299-316.
[73]CACHIN C,HARALAMBIEV K,HSIAO H C,et al. Policy-based secure deletion[C]//ACM Sigsac Conference on Computer & Communications Security. c2013:259-270.
[74]SONG D X,WAGNER D,PERRIG A. Practical techniques for searches on encrypted data[C]//The IEEE Symposium on Security and Privacy(S&P). c2000: 44-55.
[75]CURTMOLA R,GARAY J,KAMARA S,et al. Searchable symmetric encryption: improved definitions and efficient constructions[C]//The 13th ACM Conference on Computer and Communications Security(CCS). c2006. 79-88.
[76]LIESDONK P V,SEDGHI S,DOUMEN J,et al. Computationally efficient searchable symmetric encryption[C]//The International Workshop on Secure Data Management(SDM). c2010: 87-100.
[77]KUROSAWA K,OHTAKI Y. UC-secure searchable symmetric encryption[C]//The 16th International Conference on Financial Cryptography and Data Security(FC). c2012:285-298.
[78]CHASE M,KAMARA S. Structured encryption and controlled disclosure[C]//Advances in Cryptology. c2010: 577-594.
[79]BALLARD L,KAMARA S,MONROSE F. Achieving efficient conjunctive keyword searches over encrypted data[C]//The 7th International Conference on Information and Communications Security(ICICS). c2005:414-426.
[80]SONG D X,WAGNER D,PERRIG A. Practical techniques for searches on encrypted data[C]//The IEEE Symposium on Security and Privacy(S&P 2010). c2010:44-55.
[81]LU Y B. Privacy-preserving logarithmic-time search on encrypted data in cloud[C]//The 19th Network and Distributed System Security Symposium(NDSS 2012). c2012:1-17.
[82]STRIZHOV M,RAY I. Multi-keyword similarity search over encrypted cloud data[M]//ICT Systems Security and Privacy Protection. Berlin Heidelberg: Springer,2014:52-65.
[83]LIU C,ZHU L H,CHEN J J. Efficient searchable symmetric encryption for storing multiple source data on cloud[C]//IEEE Trustcom,Bigdatase.c2015:259-261.
[84]BONEH D,CRESCENZO G D,OSTROVSKY R,et al. Public key encryption with keyword search[C]//Advances in Cryptology. c2004:506-522.
[85]ABDALLA M,BELLARE M,CATALANO D,et al. Searchable encryption revisited: consistency properties,relation to anonymous IBE,and extensions[C]//Advances in Cryptology. c2005:205-222. [86]BAEK J,SAFAVI-NAINI R,SUSILO W. Public key encryption with keyword search revisited[C]//The International Conference on Computational Science and Its Applications(ICCSA). c2008: 1249-1259. [87]FANG L,SUSILO W,GE C,WANG J. A secure channel free public key encryption with keyword search scheme without random oracle[C]//International Conference Cryptology and Network Security(CANS). c2009:248-258.
[88]BELLARE M,BOLDYREVA A,O'NEILL A. Deterministic and efficiently searchable encryption[C]//International Cryptology Conference on Advances in Cryptology. c2007:535-552.
[89]BOLDYREVA A,F(xiàn)EHR S,O'NEILL A. On notions of security for deterministic encryption,and efficient constructions without random oracles[C]//International Cryptology Conference on Advances in Cryptology. c2008: 335-359.
[90]MIRONOV I,PANDEY O,REINGOLD O,ea al. Incremental deterministic public-key encryption[M]//Advances in Cryptology. Berlin Heidelberg: Springer,2012:628-644.
[91]BONEH D,WATERS B. Conjunctive,subset,and range queries on encrypted data[C]//The 4th Theory of Cryptography Conference(TCC). c2007: 535-554.
[92]KATZ J,SAHAI A,WATERS B. Predicate encryption supporting disjunctions,polynomial equations,and inner products[C]//Advances in Cryptology. c2008:146-162.
Data security and protection techniques in big data: a survey
WEI Kai-min1,WENG Jian1,REN Kui2
(1. School of Information Science and Technology,Jinan University,Guangzhou 510632,China;2. Computer Science and Engineering,State University of New York at Buffalo,Buffalo 14260,United States)
Big Data has attracted tremendous attention from all over the world nowadays. Its sheer volume,complex structure and realtime processing requirements often obsolete traditional technologies when coming to provide sufficient security protection. To address this challenge,significant research efforts have been carried out by the research community since recent years.Different technical aspects of big data security,including encryption algorithms,data integrity auditing,access control,secure data duplication,assured deletion,and secure search were surveyed,and in-depth discussions on their pros and cons were provided. Various future research directions were also discussed.
big data,data security and protection,algorithm,search
TP393
A
10.11959/j.issn.2096-109x.2016.00046
2015-03-09;
2015-04-02。通信作者:翁健,cryptjweng@gmail.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61272413,No.61472165,No.61502202);教育部高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)基金資助項(xiàng)目(No.20134401110011)
Foundation Items: The National Natural Science Foundation of China(No.61272413,No.61472165,No.61502202),The Research Fund for the Doctoral Program of Higher Education of China(No.20134401110011)
魏凱敏(1984-),男,湖南株洲人,博士,暨南大學(xué)副研究員,主要研究方向?yàn)橐苿?dòng)網(wǎng)絡(luò)算法分析與設(shè)計(jì)、移動(dòng)網(wǎng)絡(luò)安全。
翁?。?976-),男,廣東茂名人,暨南大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)槊艽a學(xué)與信息安全。
任奎(1978-),男,安徽巢湖人,紐約州立大學(xué)布法羅分校系教授,主要研究方向?yàn)樵朴?jì)算中的數(shù)據(jù)安全、計(jì)算服務(wù)外包安全、無(wú)線系統(tǒng)安全、隱私保護(hù)、物聯(lián)網(wǎng)系統(tǒng)與安全。