方濱興,賈焰,李愛平,江榮
1. 北京郵電大學(xué),北京 100876;2. 國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073
大數(shù)據(jù)隱私保護(hù)技術(shù)綜述
方濱興1,2,賈焰2,李愛平2,江榮2
1. 北京郵電大學(xué),北京 100876;2. 國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073
大數(shù)據(jù)分析帶來(lái)的隱私泄露問題日趨嚴(yán)重,如何在利用大數(shù)據(jù)為各行各業(yè)服務(wù)的同時(shí),保護(hù)隱私數(shù)據(jù)和防止敏感信息泄露成為新的挑戰(zhàn)。大數(shù)據(jù)具有規(guī)模大、來(lái)源多、動(dòng)態(tài)更新等特點(diǎn),傳統(tǒng)的隱私保護(hù)技術(shù)大都已不再適用。為此,給出了大數(shù)據(jù)時(shí)代的隱私概念和生命周期保護(hù)模型;從大數(shù)據(jù)生命周期的發(fā)布、存儲(chǔ)、分析和使用4個(gè)階段出發(fā),對(duì)大數(shù)據(jù)隱私保護(hù)中的技術(shù)現(xiàn)狀進(jìn)行了分類闡述,并對(duì)各技術(shù)的優(yōu)缺點(diǎn)、適用范圍等進(jìn)行分析;對(duì)大數(shù)據(jù)隱私保護(hù)技術(shù)發(fā)展的方向和趨勢(shì)進(jìn)行了闡述。
大數(shù)據(jù);隱私保護(hù);數(shù)據(jù)發(fā)布;數(shù)據(jù)挖掘;數(shù)據(jù)訪問
隨著智慧城市、智慧交通、智能家居、智能電網(wǎng)、智慧醫(yī)療、在線社交網(wǎng)絡(luò)、Web 3.0等數(shù)字化技術(shù)的發(fā)展,人們的衣食住行、健康醫(yī)療等信息被數(shù)字化,可以隨時(shí)隨地通過海量的傳感器、智能處理設(shè)備等終端進(jìn)行收集和使用,實(shí)現(xiàn)物與物、物與人、人與人等之間在任何時(shí)候、任何地點(diǎn)的有效連接,也促成了大數(shù)據(jù)時(shí)代的到來(lái)[1]。
大數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,目前各行各業(yè)都在做大數(shù)據(jù)分析和挖掘,企業(yè)、運(yùn)營(yíng)商等在各自擁有的數(shù)據(jù)或互聯(lián)網(wǎng)上發(fā)布的數(shù)據(jù)中發(fā)掘潛在價(jià)值,為提高自己的利潤(rùn)或達(dá)到其他目的服務(wù)。然而,在享受大數(shù)據(jù)挖掘得到的各種各樣有價(jià)值的信息給生產(chǎn)、生活帶來(lái)便利的同時(shí),也不可避免地泄露了人們的隱私。例如,亞馬遜公司推出了“未下單先調(diào)貨”計(jì)劃,利用大數(shù)據(jù)分析技術(shù),基于對(duì)網(wǎng)購(gòu)數(shù)據(jù)的關(guān)聯(lián)挖掘分析,在用戶尚未下單前預(yù)測(cè)其購(gòu)物內(nèi)容,提前發(fā)出包裹至轉(zhuǎn)運(yùn)中心,縮短配送時(shí)間,但如果處理不好,很可能會(huì)泄露大量用戶的隱私;醫(yī)院在給疾病控制中心等研究部門提供大數(shù)據(jù),進(jìn)行疾病預(yù)防和決策時(shí),如果不進(jìn)行數(shù)據(jù)處理,則會(huì)泄露病人的隱私信息;上市公司在發(fā)布自己財(cái)務(wù)年報(bào)或其他新產(chǎn)品信息時(shí),如果不對(duì)發(fā)布的數(shù)據(jù)進(jìn)行適當(dāng)處理,就會(huì)給商業(yè)上的競(jìng)爭(zhēng)者以可乘之機(jī)。
如何在不泄露用戶隱私的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價(jià)值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題,將直接關(guān)系到大數(shù)據(jù)的民眾接受程度和進(jìn)一步發(fā)展趨勢(shì)。具體而言,實(shí)施大數(shù)據(jù)環(huán)境下的隱私保護(hù),需要在大數(shù)據(jù)產(chǎn)生的整個(gè)生命周期中考慮兩個(gè)方面:如何從大數(shù)據(jù)中分析挖掘出更多的價(jià)值;如何保證在大數(shù)據(jù)的分析使用過程中,用戶的隱私不被泄露。有時(shí)數(shù)據(jù)發(fā)布者惡意挖掘大數(shù)據(jù)中的隱私信息,此種情況下,更需要加強(qiáng)對(duì)數(shù)據(jù)發(fā)布時(shí)的隱私保護(hù),以達(dá)到數(shù)據(jù)利用和隱私保護(hù)二者之間的折中。
本文的主要貢獻(xiàn)為:首先,給出了大數(shù)據(jù)隱私的概念及隱私保護(hù)的生命周期模型;然后,從大數(shù)據(jù)生命周期的4個(gè)階段(即數(shù)據(jù)的發(fā)布、存儲(chǔ)、分析和使用)出發(fā),對(duì)大數(shù)據(jù)隱私保護(hù)中的技術(shù)現(xiàn)狀和發(fā)展趨勢(shì)進(jìn)行了分類闡述,并對(duì)該技術(shù)的優(yōu)缺點(diǎn)、適用范圍等進(jìn)行分析;最后,對(duì)大數(shù)據(jù)隱私保護(hù)技術(shù)發(fā)展的方向和趨勢(shì)進(jìn)行了闡述。
2.1 隱私的概念及量化
在維基百科中,隱私的定義是個(gè)人或團(tuán)體將自己或自己的屬性隱藏起來(lái)的能力,從而可以選擇性地表達(dá)自己1https:// en.wikipedia.org/ wiki/Privacy。具體什么被界定為隱私,不同的文化或個(gè)體可能有不同的理解,但主體思想是一致的,即某些數(shù)據(jù)是某人(或團(tuán)體)的隱私時(shí),通常意味著這些數(shù)據(jù)對(duì)他們而言是特殊的或敏感的。綜上所述認(rèn)為,隱私是可確認(rèn)特定個(gè)人(或團(tuán)體)身份或其特征,但個(gè)人(或團(tuán)體)不愿被暴露的敏感信息。在具體應(yīng)用中,隱私即用戶不愿意泄露的敏感信息,包括用戶和用戶的敏感數(shù)據(jù)。
例如,病人的患病數(shù)據(jù)、個(gè)人的位置軌跡信息、公司的財(cái)務(wù)信息等敏感數(shù)據(jù)都屬于隱私。但當(dāng)針對(duì)不同的數(shù)據(jù)以及數(shù)據(jù)所有者時(shí),隱私的定義也會(huì)存在差別[2]。例如,保守的病人會(huì)視疾病信息為隱私,而開放的病人卻不視之為隱私;小孩子的定位信息對(duì)于父母而言不是隱私,對(duì)于其他人而言卻是隱私;有些用戶的數(shù)據(jù)現(xiàn)在是隱私,可能幾十年后就不是隱私。從隱私的類型劃分,隱私可劃分為五大類。
● 財(cái)務(wù)隱私:與銀行和金融機(jī)構(gòu)相關(guān)的隱私。
● 互聯(lián)網(wǎng)隱私:使某用戶在互聯(lián)網(wǎng)上暴露該用戶自己的信息以及誰(shuí)能訪問這些信息的能力。
● 醫(yī)療隱私:患者患病和治療信息的保護(hù)。
● 政治隱私:用戶在投票或投票表決時(shí)的保密權(quán)。
● 信息隱私:數(shù)據(jù)和信息的保護(hù)。
在隱私數(shù)據(jù)的整個(gè)生命周期中,都必須對(duì)隱私數(shù)據(jù)進(jìn)行準(zhǔn)確描述和量化,才能全面地保護(hù)隱私數(shù)據(jù)。隱私可簡(jiǎn)單描述為:隱私=(信息本體+屬性)×?xí)r間×地點(diǎn)×使用對(duì)象。
可以看出,信息本體就是擁有隱私的用戶,隱私以信息本體和屬性為基礎(chǔ),包含時(shí)間、地點(diǎn)、來(lái)源和使用對(duì)象等多個(gè)因素。為了更好地管理隱私以及進(jìn)行隱私計(jì)算,明確在何種情況下數(shù)據(jù)發(fā)布者、數(shù)據(jù)存儲(chǔ)方以及數(shù)據(jù)使用者對(duì)哪些隱私數(shù)據(jù)進(jìn)行保護(hù),需要對(duì)隱私數(shù)據(jù)進(jìn)行量化。在隱私數(shù)據(jù)的量化過程中,需要綜合考慮用戶的屬性、行為、數(shù)據(jù)的屬性、傳播途徑、利用方式等因素,并對(duì)隱私數(shù)據(jù)的計(jì)算和變更有很好的支撐。
2.2 大數(shù)據(jù)生命周期的隱私保護(hù)模型
在大數(shù)據(jù)發(fā)布、存儲(chǔ)、挖掘和使用的整個(gè)生命周期過程中,涉及數(shù)據(jù)發(fā)布者、數(shù)據(jù)存儲(chǔ)方、數(shù)據(jù)挖掘者和數(shù)據(jù)使用者等多個(gè)數(shù)據(jù)的用戶,如圖1所示。在大數(shù)據(jù)生命周期的各個(gè)階段,大數(shù)據(jù)隱私保護(hù)模型各部分的風(fēng)險(xiǎn)和技術(shù)如下所述。
圖1 大數(shù)據(jù)隱私保護(hù)生命周期模型
(1)數(shù)據(jù)發(fā)布
數(shù)據(jù)發(fā)布者即采集數(shù)據(jù)和發(fā)布數(shù)據(jù)的實(shí)體,包括政府部門、數(shù)據(jù)公司、網(wǎng)站或者用戶等。與傳統(tǒng)針對(duì)隱私保護(hù)進(jìn)行的數(shù)據(jù)發(fā)布手段相比,大數(shù)據(jù)發(fā)布面臨的風(fēng)險(xiǎn)是大數(shù)據(jù)的發(fā)布是動(dòng)態(tài)的,且針對(duì)同一用戶的數(shù)據(jù)來(lái)源眾多,總量巨大,如何在數(shù)據(jù)發(fā)布時(shí),保證用戶數(shù)據(jù)可用的情況下,高效、可靠地去掉可能泄露用戶隱私的內(nèi)容,是亟待解決的問題。傳統(tǒng)針對(duì)數(shù)據(jù)的匿名發(fā)布技術(shù),包括k-匿名、l-diversity匿名、t-closeness匿名、個(gè)性化匿名、m-invariance匿名、基于“角色構(gòu)成”的匿名等方法,可以實(shí)現(xiàn)對(duì)發(fā)布數(shù)據(jù)時(shí)的匿名保護(hù)。在大數(shù)據(jù)的環(huán)境下,如何對(duì)這些技術(shù)進(jìn)行改進(jìn)和發(fā)展,以滿足大數(shù)據(jù)發(fā)布的隱私保護(hù)需求,是需要著重研究的內(nèi)容。
(2)數(shù)據(jù)存儲(chǔ)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)存儲(chǔ)方一般為云存儲(chǔ)平臺(tái),與傳統(tǒng)數(shù)據(jù)的擁有者自己存儲(chǔ)數(shù)據(jù)不同,大數(shù)據(jù)的存儲(chǔ)者和擁有者是分離的,云存儲(chǔ)服務(wù)提供商并不能保證是完全可信的。用戶的數(shù)據(jù)面臨著被不可信的第三方偷窺數(shù)據(jù)或者篡改數(shù)據(jù)的風(fēng)險(xiǎn)。加密方法是解決該問題的傳統(tǒng)思路,但是,由于大數(shù)據(jù)的查詢、統(tǒng)計(jì)、分析和計(jì)算等操作也需要在云端進(jìn)行,為傳統(tǒng)加密技術(shù)帶來(lái)了新的挑戰(zhàn)。比如,同態(tài)加密技術(shù)、混合加密技術(shù)、基于BLS短簽名POR模型、DPDP、Knox等方法,是針對(duì)數(shù)據(jù)存儲(chǔ)時(shí)防止隱私泄露而采取的一些方法。
(3)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘者即從發(fā)布的數(shù)據(jù)中挖掘知識(shí)的人或組織,他們往往希望從發(fā)布的數(shù)據(jù)中盡可能多地分析挖掘出有價(jià)值的信息,這很可能會(huì)分析出用戶的隱私信息。在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)存在來(lái)源多樣性和動(dòng)態(tài)性等特點(diǎn),在經(jīng)過匿名等處理后的數(shù)據(jù),經(jīng)過大數(shù)據(jù)關(guān)聯(lián)分析、聚類、分類等數(shù)據(jù)挖掘方法后,依然可以分析出用戶的隱私。針對(duì)數(shù)據(jù)挖掘的隱私保護(hù)技術(shù),就是在盡可能提高大數(shù)據(jù)可用性的前提下,研究更加合適的數(shù)據(jù)隱藏技術(shù),以防范利用數(shù)據(jù)發(fā)掘方法引發(fā)的隱私泄露。現(xiàn)在的主要技術(shù)包括:基于數(shù)據(jù)失真和加密的方法,比如數(shù)據(jù)變換、隱藏、隨機(jī)擾動(dòng)、平移、翻轉(zhuǎn)等技術(shù)。
(4)數(shù)據(jù)使用
數(shù)據(jù)使用者是訪問和使用大數(shù)據(jù)以及從大數(shù)據(jù)中挖掘出信息的用戶,通常為企業(yè)和個(gè)人,通過大數(shù)據(jù)的價(jià)值信息擴(kuò)大企業(yè)利潤(rùn)或提供個(gè)人生活質(zhì)量。在大數(shù)據(jù)的環(huán)境下,如何確保合適的數(shù)據(jù)及屬性能夠在合適的時(shí)間和地點(diǎn),給合適的用戶訪問和利用,是大數(shù)據(jù)訪問和使用階段面臨的主要風(fēng)險(xiǎn)。為了解決大數(shù)據(jù)訪問和使用時(shí)的隱私泄露問題,現(xiàn)在的技術(shù)主要包括:時(shí)空融合的角色訪問控制、基于屬性集加密訪問控制(attribute-based encryption access control, ABE)、基于密文策略屬性集的加密(ciphertext policy attribute set based encryption, CP-ASBE)、基于層次式屬性集的訪問控制(hierarchical attribute set based encryption, HASBE)等技術(shù)。
下面針對(duì)大數(shù)據(jù)生命周期中的發(fā)布、存儲(chǔ)、挖掘和使用4個(gè)過程中的隱私保護(hù)技術(shù)進(jìn)行闡述。
為了從大數(shù)據(jù)中獲益,數(shù)據(jù)持有方有時(shí)需要公開發(fā)布己方數(shù)據(jù),這些數(shù)據(jù)通常會(huì)包含一定的用戶信息,服務(wù)方在數(shù)據(jù)發(fā)布之前需要對(duì)數(shù)據(jù)進(jìn)行處理,使用戶隱私免遭泄露。此時(shí),確保用戶隱私信息不被惡意的第三方獲取是極為重要的。一般的,用戶更希望攻擊者無(wú)法從數(shù)據(jù)中識(shí)別出自身,更不用說竊取自身的隱私信息,匿名技術(shù)就是這種思想的實(shí)現(xiàn)之一。
Samarati P和Sweeney L在1998年首次提出了匿名化的概念[3]。數(shù)據(jù)發(fā)布匿名是匿名技術(shù)在數(shù)據(jù)發(fā)布中的應(yīng)用,在確保所發(fā)布的信息數(shù)據(jù)公開可用的前提下,隱藏公開數(shù)據(jù)記錄與特定個(gè)人之間的對(duì)應(yīng)聯(lián)系,從而保護(hù)個(gè)人隱私。最初,服務(wù)方僅僅刪除數(shù)據(jù)表中有關(guān)用戶身份的屬性作為匿名實(shí)現(xiàn)方案。但實(shí)踐表明,這種匿名處理方案是不充分的。攻擊者能從其他渠道獲得包含了用戶標(biāo)識(shí)符的數(shù)據(jù)集,并根據(jù)準(zhǔn)標(biāo)識(shí)符連接多個(gè)數(shù)據(jù)集,重新建立用戶標(biāo)識(shí)符與數(shù)據(jù)記錄的對(duì)應(yīng)關(guān)系。這種攻擊稱為鏈接攻擊(linking attack),曾多次造成重大的安全事故。
為了防御鏈接攻擊,常見的靜態(tài)匿名技術(shù)有k-匿名[4]、l-diversity匿名[5]、t-closeness匿名[6]以及以它們的相關(guān)變形為代表的匿名策略[7,8]。隨著研究的進(jìn)步,這些匿名策略的效果逐步提高。但是這些匿名策略以信息損失為代價(jià),不利于數(shù)據(jù)挖掘與分析。為此,研究者隨即提出了個(gè)性化匿名、帶權(quán)重的匿名等一系列匿名策略。相對(duì)于對(duì)所有記錄執(zhí)行相同的匿名保護(hù),這類匿名策略給予每條數(shù)據(jù)記錄以不同程度的匿名保護(hù),減少了非必要的信息損失。下面首先介紹大數(shù)據(jù)中的靜態(tài)匿名技術(shù)。
3.1 大數(shù)據(jù)中的靜態(tài)匿名技術(shù)
在靜態(tài)匿名策略中,數(shù)據(jù)發(fā)布方需要對(duì)數(shù)據(jù)中的準(zhǔn)標(biāo)識(shí)碼進(jìn)行處理,使得多條記錄具有相同的準(zhǔn)標(biāo)識(shí)碼組合,這些具有相同準(zhǔn)標(biāo)識(shí)碼組合的記錄集合被稱為等價(jià)組。k-匿名技術(shù)就是每個(gè)等價(jià)組中的記錄個(gè)數(shù)為k個(gè),即針對(duì)大數(shù)據(jù)的攻擊者在進(jìn)行鏈接攻擊時(shí),對(duì)于任意一條記錄的攻擊都會(huì)同時(shí)關(guān)聯(lián)到等價(jià)組中的其他k-1條記錄[4,9]。這種特性使得攻擊者無(wú)法確定與特定用戶相關(guān)的記錄,從而保護(hù)了用戶的隱私。攻擊者在進(jìn)行鏈接攻擊時(shí)至少將無(wú)法區(qū)分等價(jià)組中的k條數(shù)據(jù)記錄。
若等價(jià)類在敏感屬性上取值單一,即使無(wú)法獲取特定用戶的記錄,攻擊者仍然可以獲得目標(biāo)用戶的隱私信息。為此,研究者提出了l-diversity匿名策略[5]。l-diversity保證每一個(gè)等價(jià)類的敏感屬性至少有l(wèi)個(gè)不同的值,l-diversity使得攻擊者最多以1/l的概率確認(rèn)某個(gè)個(gè)體的敏感信息。這使得等價(jià)組中敏感屬性的取值多樣化,從而避免了k-匿名中的敏感屬性值取值單一所帶來(lái)的缺陷。
若等價(jià)類中敏感值的分布與整個(gè)數(shù)據(jù)集中敏感值的分布具有明顯的差別,攻擊者可以以一定概率猜測(cè)目標(biāo)用戶的敏感屬性值。為此,研究者提出了t-closeness匿名策略[6]。t-closeness匿名以EMD(earth mover’s distance)衡量敏感屬性值之間的距離,并要求等價(jià)組內(nèi)敏感屬性值的分布特性與整個(gè)數(shù)據(jù)集中敏感屬性值的分布特性之間的差異盡可能大。即在l-diversity基礎(chǔ)上,t-closeness匿名考慮了敏感屬性的分布問題,它要求所有等價(jià)類中敏感屬性值的分布盡量接近該屬性的全局分布。
上述匿名策略都會(huì)造成較大的信息損失。在進(jìn)行數(shù)據(jù)使用時(shí),這些信息損失有可能使得數(shù)據(jù)使用者做出誤判[7]。不同的用戶對(duì)于自身的隱私信息有著不同程度的保護(hù)要求。使用統(tǒng)一的匿名標(biāo)準(zhǔn)顯然會(huì)造成不必要的信息損失。個(gè)性化匿名[7]技術(shù)應(yīng)運(yùn)而生,即可根據(jù)用戶的要求對(duì)發(fā)布數(shù)據(jù)中的敏感屬性值提供不同程度的隱私保護(hù)。各級(jí)匿名標(biāo)準(zhǔn)提供的匿名效果不同,相應(yīng)的信息損失也不同。以此避免了不必要的信息損失,從而可顯著提高發(fā)布數(shù)據(jù)的可用性。
對(duì)于大數(shù)據(jù)的使用者而言,屬性與屬性之間的重要程度往往并不相同。例如,對(duì)于醫(yī)學(xué)研究者而言,一個(gè)患者的住址郵編或者工作單位顯然不如他的年齡、家族病史等信息重要[10]。根據(jù)這種思想,帶權(quán)重的匿名策略對(duì)記錄的屬性賦予不同的權(quán)重[8]。較為重要的屬性具有較大的權(quán)重,從而提供較強(qiáng)的隱私保護(hù),其他屬性則以較低的標(biāo)準(zhǔn)進(jìn)行匿名處理,以此盡可能減少重要屬性的信息損失。
數(shù)據(jù)發(fā)布匿名最初只考慮了發(fā)布后不再變化的靜態(tài)數(shù)據(jù),但在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的動(dòng)態(tài)更新是大數(shù)據(jù)的重要特點(diǎn)之一。一旦數(shù)據(jù)集更新,數(shù)據(jù)發(fā)布者便需要重新發(fā)布數(shù)據(jù),以保證數(shù)據(jù)的可用性。此時(shí),攻擊者可以通過對(duì)不同版本的發(fā)布數(shù)據(jù)進(jìn)行聯(lián)合分析與推理,上述基于靜態(tài)數(shù)據(jù)的匿名策略將會(huì)失效,下面介紹大數(shù)據(jù)中的動(dòng)態(tài)匿名技術(shù)。
3.2 大數(shù)據(jù)中的動(dòng)態(tài)匿名技術(shù)
針對(duì)大數(shù)據(jù)的持續(xù)更新特性,研究者提出了基于動(dòng)態(tài)數(shù)據(jù)集的匿名策略,這些匿名策略不但可以保證每一次發(fā)布的數(shù)據(jù)都能滿足某種匿名標(biāo)準(zhǔn),攻擊者也將無(wú)法聯(lián)合歷史數(shù)據(jù)進(jìn)行分析與推理。這些技術(shù)包括支持新增的數(shù)據(jù)重發(fā)布匿名技術(shù)[11]、m-invariance匿名技術(shù)[12]、基于角色構(gòu)成的匿名[13]等支持?jǐn)?shù)據(jù)動(dòng)態(tài)更新匿名保護(hù)的策略。
Byun等人最先提出了一種支持新增的數(shù)據(jù)重發(fā)布匿名策略[11],使得數(shù)據(jù)集即使因?yàn)樾略鰯?shù)據(jù)而發(fā)生改變,但多次發(fā)布后不同版本的公開數(shù)據(jù)仍然能滿足l-diversity準(zhǔn)則,以保證用戶的隱私。在這種匿名策略中,數(shù)據(jù)發(fā)布者需要集中管理不同發(fā)布版本中的等價(jià)類。若新增的數(shù)據(jù)集與先前版本的等價(jià)類無(wú)交集并能滿足l-diversity準(zhǔn)則,則可作為新版本發(fā)布數(shù)據(jù)中的新等價(jià)類出現(xiàn),否則需要等待;而若新增的數(shù)據(jù)集與先前版本的等價(jià)類有交集,則需要插入最為接近的等價(jià)類中;若一個(gè)等價(jià)類過大,還需要對(duì)等價(jià)類進(jìn)行劃分,以形成新的較小的等價(jià)類。
為了在支持新增操作的同時(shí),支持?jǐn)?shù)據(jù)重發(fā)布對(duì)歷史數(shù)據(jù)集的刪除,m-invariance匿名策略被提出[12]。參考文獻(xiàn)[12]的作者在研究中發(fā)現(xiàn),對(duì)于任意一條記錄,只要此記錄所在的等價(jià)組在前后兩個(gè)發(fā)布版本中具有相同的敏感屬性值集合,不同發(fā)布版本之間的推理通道就可以被消除。因此,為了保證這種約束,作者在這種匿名策略中引入虛假的用戶記錄,這些用戶記錄不對(duì)應(yīng)任何原始數(shù)據(jù)記錄,只是為了消除不同數(shù)據(jù)版本間的推理通道而存在。在這種匿名策略中,對(duì)應(yīng)于這些虛假的用戶記錄,作者還引入了額外的輔助表標(biāo)識(shí)等價(jià)類中的虛假記錄數(shù)目,以保證數(shù)據(jù)使用時(shí)的有效性。
為了支持?jǐn)?shù)據(jù)重發(fā)布對(duì)歷史數(shù)據(jù)集的修改,研究者注意到在不同版本的數(shù)據(jù)發(fā)布中,敏感屬性可分為常量屬性與可變屬性兩種,并針對(duì)這種情況提出HD-composition匿名策略[13]。這種匿名策略同時(shí)支持?jǐn)?shù)據(jù)重發(fā)布的新增、刪除與修改操作。為由于數(shù)據(jù)集的改變而發(fā)生的重發(fā)布操作提供了有效的匿名保護(hù)。
在大數(shù)據(jù)環(huán)境下,海量數(shù)據(jù)規(guī)模使得匿名技術(shù)的效率變得至關(guān)重要。研究者結(jié)合大數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)了一系列傳統(tǒng)的數(shù)據(jù)匿名策略,提高了匿名技術(shù)的效率。下面介紹提高大數(shù)據(jù)匿名處理的效率技術(shù)。
3.3 大數(shù)據(jù)中的匿名并行化處理
在大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)的巨規(guī)模特性使得匿名技術(shù)的效率變得至關(guān)重要。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)匿名技術(shù)也是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)處理技術(shù)之一,通用的大數(shù)據(jù)處理技術(shù)也能應(yīng)用于數(shù)據(jù)匿名發(fā)布這一特定目的。當(dāng)前,大數(shù)據(jù)環(huán)境下數(shù)據(jù)匿名技術(shù)的思想、模型與傳統(tǒng)的數(shù)據(jù)匿名技術(shù)一致,主要的不同與問題在于使用大數(shù)據(jù)環(huán)境下的相關(guān)技術(shù)實(shí)現(xiàn)先前的各類數(shù)據(jù)匿名算法。
研究者結(jié)合大數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)了一系列傳統(tǒng)的數(shù)據(jù)匿名策略,提高了匿名技術(shù)的效率。分布式多線程是主流的解決思路,一類實(shí)現(xiàn)方案是利用特定的分布式計(jì)算框架實(shí)施通常的匿名策略,如Zhang等人[14,15]利用MapReduce分布式計(jì)算模型成功地實(shí)現(xiàn)了大數(shù)據(jù)集上可擴(kuò)展的匿名系統(tǒng);另一類實(shí)現(xiàn)方案是Mohammadian等人[16]將匿名算法并行化,使用多線程技術(shù)加速匿名算法的計(jì)算效率,從而節(jié)省了大數(shù)據(jù)中的匿名并行化處理的計(jì)算時(shí)間。
使用已有的大數(shù)據(jù)處理工具與修改匿名算法實(shí)現(xiàn)方式是大數(shù)據(jù)環(huán)境下數(shù)據(jù)匿名技術(shù)的主要趨勢(shì),這些技術(shù)能極大地提高數(shù)據(jù)匿名處理效率。除此之外,大數(shù)據(jù)環(huán)境為信息的搜集、存儲(chǔ)與分析提供了更為強(qiáng)大的支持,攻擊者的能力也隨之提高,從而匿名保護(hù)變得更為困難,研究者需要花費(fèi)更多的努力確保大數(shù)據(jù)環(huán)境下的匿名安全[17,18]。
此外,數(shù)據(jù)的多源化為數(shù)據(jù)發(fā)布匿名技術(shù)帶來(lái)了新的挑戰(zhàn)[19]。攻擊者可以從多個(gè)數(shù)據(jù)源中獲得足夠的數(shù)據(jù)信息以對(duì)發(fā)布數(shù)據(jù)進(jìn)行去匿名化。現(xiàn)有的匿名策略還難以防范此類攻擊,有待進(jìn)一步改進(jìn)。
云計(jì)算的出現(xiàn)為大數(shù)據(jù)的存儲(chǔ)提供了基礎(chǔ)平臺(tái),通過云服務(wù)器的計(jì)算和存儲(chǔ)能力,對(duì)大數(shù)據(jù)的訪問將更快速、更便宜、更簡(jiǎn)單和更標(biāo)準(zhǔn)化。但將敏感的數(shù)據(jù)存放在不可信的第三方服務(wù)器中存在潛在的威脅,因?yàn)樵品?wù)器提供商可能對(duì)用戶的數(shù)據(jù)進(jìn)行偷窺,也可能出于商業(yè)的目的與第三方共享數(shù)據(jù)或者無(wú)法保證數(shù)據(jù)的完整性。如何安全可靠地將敏感數(shù)據(jù)交由云平臺(tái)存儲(chǔ)和管理,是大數(shù)據(jù)隱私保護(hù)中必須解決的關(guān)鍵問題之一。
大數(shù)據(jù)存儲(chǔ)給隱私保護(hù)帶來(lái)了新的挑戰(zhàn),主要包括:大數(shù)據(jù)中更多的隱私信息存儲(chǔ)在不可信的第三方中,極易被不可信的存儲(chǔ)管理者偷窺;大數(shù)據(jù)存儲(chǔ)的難度增大,存儲(chǔ)方有可能無(wú)意或有意地丟失數(shù)據(jù)或篡改數(shù)據(jù),從而使得大數(shù)據(jù)的完整性得不到保證。為解決上述挑戰(zhàn),應(yīng)用的技術(shù)主要包括加密存儲(chǔ)和第三方審計(jì)技術(shù)等,具體介紹如下。
4.1 大數(shù)據(jù)加密存儲(chǔ)技術(shù)
對(duì)于含有敏感信息的大數(shù)據(jù)來(lái)說,將其加密后存儲(chǔ)在云端能夠保護(hù)用戶的隱私,然而若使用傳統(tǒng)的DES[20]、AES[21]等對(duì)稱加密手段,雖能保證對(duì)存儲(chǔ)的大數(shù)據(jù)隱私信息的加解密速度,但其密鑰管理過程較為復(fù)雜,難以適用于有著大量用戶的大數(shù)據(jù)存儲(chǔ)系統(tǒng)。而使用傳統(tǒng)的RSA[22]、Elgamal[23]等非對(duì)稱加密手段,雖然其密鑰易于管理,但算法計(jì)算量太大,不適用于對(duì)不斷增長(zhǎng)的大數(shù)據(jù)隱私信息進(jìn)行加解密。數(shù)據(jù)加密加重了用戶和云平臺(tái)的計(jì)算開銷,同時(shí)限制了數(shù)據(jù)的使用和共享,造成了高價(jià)值數(shù)據(jù)的浪費(fèi)。因此,開發(fā)適用于大數(shù)據(jù)平臺(tái)的快速加解密技術(shù)成為大數(shù)據(jù)隱私信息存儲(chǔ)保護(hù)的一個(gè)重要研究方向。
Lin H Y等人[24]于2012年提出了一種針對(duì)HDFS(Hadoop分布式文件系統(tǒng))的混合加密技術(shù),該技術(shù)將對(duì)稱加密和非對(duì)稱加密進(jìn)行了融合。當(dāng)有新的隱私數(shù)據(jù)文件需要加密時(shí),先通過非對(duì)稱加密方法(AES或RC4)對(duì)該文件內(nèi)容進(jìn)行快速加密,并將其分布式存儲(chǔ)于每個(gè)HDFS節(jié)點(diǎn)上,然后使用對(duì)稱加密方法對(duì)用于加密該文件內(nèi)容的密鑰進(jìn)行加密,并將結(jié)果存儲(chǔ)于該數(shù)據(jù)的頭文件中,以此提供對(duì)密鑰的有效管理。該方法能夠很好地實(shí)現(xiàn)對(duì)大數(shù)據(jù)隱私信息的存儲(chǔ)保護(hù),但是這些加密后的隱私信息需要先經(jīng)過解密才能在大數(shù)據(jù)平臺(tái)中進(jìn)行運(yùn)算,其運(yùn)算結(jié)果在存儲(chǔ)到大數(shù)據(jù)平臺(tái)時(shí)同樣需要重新加密,這個(gè)加解密過程會(huì)造成很大的時(shí)間開銷。
同態(tài)加密算法可以允許人們對(duì)密文進(jìn)行特定的運(yùn)算,而其運(yùn)算結(jié)果解密后與用明文進(jìn)行相同運(yùn)算所得的結(jié)果一致。全同態(tài)加密算法則能實(shí)現(xiàn)對(duì)明文所進(jìn)行的任何運(yùn)算,都可以轉(zhuǎn)化為對(duì)相應(yīng)密文進(jìn)行恰當(dāng)運(yùn)算后的解密結(jié)果[25,26]。將同態(tài)加密算法用于大數(shù)據(jù)隱私存儲(chǔ)保護(hù),可以有效避免存儲(chǔ)的加密數(shù)據(jù)在進(jìn)行分布式處理時(shí)的加解密過程,Chen X等人于2013年將全同態(tài)加密技術(shù)和MapReduce編程模型進(jìn)行結(jié)合[27],通過在reduce模塊之前,增加一個(gè)在密文狀態(tài)下進(jìn)行計(jì)算的轉(zhuǎn)換模塊,使得經(jīng)過全同態(tài)加密后的文件可以在不解密的情況下進(jìn)行MapReduce運(yùn)算,從而能夠大大優(yōu)化存儲(chǔ)的大數(shù)據(jù)隱私信息的運(yùn)算效率。Wang等人[28]基于代理重簽名的思想,設(shè)計(jì)了一個(gè)可以有效地支持用戶撤銷的云端群組數(shù)據(jù)的同態(tài)解密驗(yàn)證方案,保護(hù)群組用戶的身份隱私,且在群組用戶的撤銷過程中,因維護(hù)數(shù)據(jù)完整性所產(chǎn)生的開銷主要由云端而不是用戶來(lái)承擔(dān),減輕了群組在用戶撤銷過程中的計(jì)算和通信開銷。
4.2 大數(shù)據(jù)審計(jì)技術(shù)
當(dāng)用戶將數(shù)據(jù)存儲(chǔ)在云服務(wù)器中時(shí),就喪失了對(duì)數(shù)據(jù)的控制權(quán)。如果云服務(wù)提供商不可信,其可能對(duì)數(shù)據(jù)進(jìn)行篡改、丟棄,卻對(duì)用戶聲稱數(shù)據(jù)是完好的。為了防止這種危害,云存儲(chǔ)中的審計(jì)技術(shù)則被提出。云存儲(chǔ)審計(jì)指的是數(shù)據(jù)擁有者或者第三方機(jī)構(gòu)對(duì)云中的數(shù)據(jù)完整性進(jìn)行審計(jì)。通過對(duì)數(shù)據(jù)進(jìn)行審計(jì),確保數(shù)據(jù)不會(huì)被云服務(wù)提供商篡改、丟棄,并且在審計(jì)的過程中用戶的隱私不會(huì)被泄露。
當(dāng)前已有很多研究者對(duì)云存儲(chǔ)中的審計(jì)進(jìn)行了研究。Ateniese等人[29]提出了一種可證明的數(shù)據(jù)持有(provable data possession,PDP)模型,該模型可以對(duì)服務(wù)器上的數(shù)據(jù)進(jìn)行完整性驗(yàn)證。該模型先從服務(wù)器上隨機(jī)采樣相應(yīng)的數(shù)據(jù)塊,并生成持有數(shù)據(jù)的概率證據(jù)??蛻舳司S持著一定數(shù)量的元數(shù)據(jù),并利用元數(shù)據(jù)來(lái)對(duì)證據(jù)進(jìn)行驗(yàn)證。在該模型中,挑戰(zhàn)應(yīng)答協(xié)議傳輸?shù)臄?shù)據(jù)量非常少,因此所耗費(fèi)的網(wǎng)絡(luò)帶寬較小。
Juels等人[30]提出可恢復(fù)證明(proof of retrievability,POR)模型,該模型主要利用糾錯(cuò)碼技術(shù)和消息認(rèn)證機(jī)制來(lái)保證遠(yuǎn)程數(shù)據(jù)文件的完整性和可恢復(fù)性。在該模型中,原始文件首先被糾錯(cuò)碼編碼并產(chǎn)生對(duì)應(yīng)標(biāo)簽,編碼后的文件及標(biāo)簽被存儲(chǔ)在服務(wù)器上。當(dāng)用戶選擇服務(wù)器上的某個(gè)文件塊時(shí),可以采用糾錯(cuò)碼解碼算法來(lái)恢復(fù)原始文件。POR模型面臨的挑戰(zhàn)在于需要構(gòu)建一個(gè)高效和安全的系統(tǒng)來(lái)應(yīng)對(duì)用戶的請(qǐng)求,Shacham等人[31]改進(jìn)了POR模型。他們的模型構(gòu)建基于BLS短簽名(BLS short signature),即基于雙線性對(duì)構(gòu)造的數(shù)字簽名方案,該模型擁有很短的查詢和響應(yīng)時(shí)間。
上述方案都只能適用于靜態(tài)數(shù)據(jù)的審計(jì),無(wú)法支持對(duì)動(dòng)態(tài)數(shù)據(jù)的審計(jì)。Ateniese等人[32]改進(jìn)了PDP模型,該模型基于對(duì)稱密鑰加密算法,并且支持?jǐn)?shù)據(jù)的動(dòng)態(tài)刪除和修改。Erway等人[33]改進(jìn)了PDP模型,提出了DPDP模型。該模型擴(kuò)展了傳統(tǒng)的PDP模型以支持存儲(chǔ)數(shù)據(jù)的更新操作,該操作的時(shí)間復(fù)雜度為O(1)到O(lgn)。Wang Q等人[34]改進(jìn)了前人的POR模型,通過引入散列樹來(lái)對(duì)文件塊標(biāo)簽進(jìn)行認(rèn)證。同時(shí),他們的方法也支持對(duì)數(shù)據(jù)的動(dòng)態(tài)操作,但是此方案無(wú)法對(duì)用戶的隱私進(jìn)行有效的保護(hù)。
Wang C等人[35]提出了一種支持隱私保護(hù)的審計(jì)方案。他們認(rèn)為第三方審計(jì)(third party auditor,TPA)應(yīng)該滿足如下要求:一是第三方審計(jì)能夠高效地完成對(duì)數(shù)據(jù)的審計(jì),并且不為用戶帶來(lái)多余的負(fù)擔(dān);二是第三方審計(jì)不能為用戶隱私帶來(lái)脆弱性。他們提出的方法基于公鑰加密和同態(tài)認(rèn)證,能夠在保護(hù)用戶隱私的情況下完成公開審計(jì)。Wang B Y等人[36]首次提出一種用于對(duì)云中共享數(shù)據(jù)進(jìn)行審計(jì)的隱私保護(hù)策略。他們?cè)趯?duì)數(shù)據(jù)的審計(jì)過程中利用環(huán)形簽名來(lái)對(duì)數(shù)據(jù)完整性進(jìn)行驗(yàn)證。此策略能夠很好地對(duì)用戶的隱私進(jìn)行保護(hù)。其不足之處在于通信開銷比較大。Wang B Y等人[37]還提出了一種名為Knox的云中數(shù)據(jù)的隱私保護(hù)策略。該策略利用群組簽名來(lái)構(gòu)造同態(tài)認(rèn)證,使得第三方審計(jì)機(jī)構(gòu)不需要從云中獲取整個(gè)數(shù)據(jù)即能完成對(duì)數(shù)據(jù)完整性的審計(jì)。
隨著大數(shù)據(jù)時(shí)代的發(fā)展,可以預(yù)見到,未來(lái)存儲(chǔ)在云中的數(shù)據(jù)會(huì)越來(lái)越多,這也為大數(shù)據(jù)審計(jì)技術(shù)帶來(lái)了巨大的挑戰(zhàn)。在未來(lái)的研究中,以下幾個(gè)方向也許值得研究者們關(guān)注:一個(gè)是云中數(shù)據(jù)量越來(lái)越大、數(shù)據(jù)種類越來(lái)越豐富,如何提供更加高效、安全的審計(jì)服務(wù)值得關(guān)注;另一個(gè)是隨著人們?cè)诰€上的交互越來(lái)越頻繁,云中數(shù)據(jù)動(dòng)態(tài)操作可能更加頻繁,如何應(yīng)對(duì)如此頻繁的數(shù)據(jù)動(dòng)態(tài)操作也值得研究者們關(guān)注。
隨著技術(shù)的進(jìn)步,數(shù)據(jù)挖掘過程中的隱私保護(hù)問題逐漸走進(jìn)了人們的視線,尤其是在大數(shù)據(jù)時(shí)代,成為數(shù)據(jù)挖掘界一個(gè)新的研究熱點(diǎn)。隱私保護(hù)數(shù)據(jù)挖掘,即在保護(hù)隱私前提下的數(shù)據(jù)挖掘,其主要關(guān)注點(diǎn)有兩個(gè):一是對(duì)原始數(shù)據(jù)集進(jìn)行必要的修改,使得數(shù)據(jù)接收者不能侵犯他人隱私;二是保護(hù)產(chǎn)生模式,限制對(duì)大數(shù)據(jù)中敏感知識(shí)的挖掘。
大數(shù)據(jù)中的隱私保護(hù)數(shù)據(jù)挖掘依舊處于起步階段,大數(shù)據(jù)的種種特性給數(shù)據(jù)挖掘中的隱私保護(hù)提出了不少難題和挑戰(zhàn):對(duì)于大規(guī)模數(shù)據(jù)集而言,還沒有有效并且可擴(kuò)展的隱私保護(hù)技術(shù)[38];分布式存儲(chǔ)環(huán)境下,如何有效地對(duì)用戶信息進(jìn)行隱藏,還沒有合適的解決方法[39];大數(shù)據(jù)背景下,如何快速、有效地區(qū)分不同數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域背景存在一定的困難,而不同應(yīng)用對(duì)于隱私保護(hù)的要求也是不同的[40]。下面主要從頻繁模式挖掘、分類和聚類3個(gè)方面討論限制敏感信息的知識(shí)挖掘技術(shù)。
5.1 關(guān)聯(lián)規(guī)則的隱私保護(hù)
關(guān)聯(lián)規(guī)則的隱私保護(hù)主要有兩類方法[41]:第一類是變換(distortion),即修改支持敏感規(guī)則的數(shù)據(jù),使得規(guī)則的支持度和置信度小于一定的閾值而實(shí)現(xiàn)規(guī)則的隱藏;第二類是隱藏(blocking),該類方法不修改數(shù)據(jù),而是對(duì)生成敏感規(guī)則的頻繁項(xiàng)集進(jìn)行隱藏。這兩類方法都對(duì)非敏感規(guī)則的挖掘具有一定的負(fù)面影響。下面分別對(duì)這兩類方法進(jìn)行介紹。
在變換方法中,Atallah等人[42]證明了采用變換方法進(jìn)行關(guān)聯(lián)規(guī)則挖掘是一個(gè)NP難問題。他們將敏感規(guī)則相關(guān)的支持?jǐn)?shù)據(jù)進(jìn)行變換,從而降低敏感規(guī)則的支持度和置信度。Oliveira等人[43]提出了一種對(duì)于數(shù)據(jù)進(jìn)行變換的方法。首先,對(duì)于每一條敏感規(guī)則rpi,找到對(duì)應(yīng)的敏感事務(wù)T[rpi];其次,對(duì)于每一條敏感規(guī)則,將其中對(duì)規(guī)則支持度最低的項(xiàng)設(shè)為犧牲項(xiàng)Victimrpi;然后,根據(jù)事先設(shè)定的暴露閾值ψ,對(duì)每一條敏感規(guī)則計(jì)算其需要隱藏的事務(wù)數(shù)量NumTransrpi;最后進(jìn)行數(shù)據(jù)重構(gòu),對(duì)于每一條敏感規(guī)則rpi,對(duì)T[rpi]中的事務(wù)按照沖突程度升序排序,選取T[rpi]中前NumTransrpi個(gè)事務(wù)TransToSanitize,對(duì)于數(shù)據(jù)集D中的事務(wù)t,如果t∈TransToSanitize,則將t中犧牲項(xiàng)Victimrpi替換之后置入新的數(shù)據(jù)集D′中。
Chang等人[44]提出了關(guān)聯(lián)規(guī)則隱藏的方法,這類方法的特點(diǎn)是不對(duì)數(shù)據(jù)進(jìn)行修改,而是將敏感規(guī)則的相關(guān)數(shù)據(jù)進(jìn)行隱藏(標(biāo)記為未知,常用問號(hào)替代),保持了數(shù)據(jù)的真實(shí)性。Aggarwal等人[45]研究了如何隱藏一個(gè)最小集合,使得對(duì)方無(wú)法通過數(shù)據(jù)挖掘的方法預(yù)測(cè)出敏感信息。他們提出了一種簡(jiǎn)潔的問題建模方法,并設(shè)計(jì)了一個(gè)有效的啟發(fā)式算法。首先挖掘出對(duì)抗規(guī)則,接著推導(dǎo)出隱私集合。在廣泛的人工數(shù)據(jù)集和實(shí)際數(shù)據(jù)集上的測(cè)試表面,使用該方法對(duì)數(shù)據(jù)處理后,數(shù)據(jù)集對(duì)數(shù)據(jù)挖掘算法的各項(xiàng)參數(shù)不敏感,從而可以有效保護(hù)隱私。
5.2 分類結(jié)果的隱私保護(hù)
分類方法的結(jié)果通常可以發(fā)現(xiàn)數(shù)據(jù)集中的隱私敏感信息,因此需要對(duì)敏感的分類結(jié)果信息進(jìn)行保護(hù)。這類方法的目標(biāo)是在降低敏感信息分類準(zhǔn)確度的同時(shí),不影響其他應(yīng)用的性能。
Agrawal等人[46]采用隨機(jī)擾動(dòng)的方式對(duì)原始數(shù)據(jù)進(jìn)行加密,以實(shí)現(xiàn)分類結(jié)果的隱私保護(hù)。算法首先對(duì)數(shù)據(jù)進(jìn)行隨機(jī)擾動(dòng),對(duì)于原始數(shù)據(jù)X1,X2,…,Xn,將其看成滿足特定分布的隨機(jī)變量X,為了隱藏原始數(shù)據(jù)值,在每個(gè)原始值上添加一個(gè)服從隨機(jī)分布Y的隨機(jī)數(shù)Y1,Y2,…,Yn,則擾動(dòng)后的數(shù)據(jù)為X1+Y1,X2+Y2,…,Xn+Yn的形式,記為Z;然后對(duì)數(shù)據(jù)進(jìn)行恢復(fù),數(shù)據(jù)恢復(fù)即已知隨機(jī)變量分布Y、Z以及X+Y=Z的關(guān)系,用Y、Z的值估計(jì)X的過程,應(yīng)用貝葉斯公式可以得到原始數(shù)據(jù)估計(jì)的迭代方程,從而得到原始數(shù)據(jù)的近似X’;最后是分類過程,得到了原始數(shù)據(jù)的模糊近似X’之后即可應(yīng)用普通的分類方法,如利用決策樹對(duì)數(shù)據(jù)進(jìn)行分類,降低分類的準(zhǔn)確度。
Moskowitz L M等人[47]設(shè)計(jì)了名為“Rational Downgrader”的隱私保護(hù)系統(tǒng),該系統(tǒng)著力于降低信息公開過程中隱私泄露的程度,確保普通用戶無(wú)法通過已經(jīng)或?qū)⒁_的信息推測(cè)出應(yīng)被保護(hù)的隱私信息。該系統(tǒng)主要包括3個(gè)部分:其決策部分用于評(píng)估哪些分類規(guī)則可能被推測(cè)出來(lái);示警部分用于測(cè)定已經(jīng)泄露的隱私信息量;降級(jí)約束部分降低敏感結(jié)果的分類準(zhǔn)確度。
Chang等人[48]提出了一種新的范式,以處理由降級(jí)(downgrading)引發(fā)的隱私信息推測(cè)問題。這種新范式包含兩大部分:對(duì)隱私信息推測(cè)問題應(yīng)該采用決策樹進(jìn)行分析以及對(duì)降級(jí)問題進(jìn)行約束、限制。其中,他們使用了一種新的熱力學(xué)激勵(lì)的方式來(lái)處理對(duì)分類規(guī)則進(jìn)行推理的過程,這些被推理的規(guī)則來(lái)源于部分公開的數(shù)據(jù)。
5.3 聚類結(jié)果的隱私保護(hù)
與分類結(jié)果的隱私保護(hù)類似,保護(hù)聚類的隱私敏感結(jié)果也是當(dāng)前研究的重要內(nèi)容之一。Oliveira等人[49]對(duì)發(fā)布的數(shù)據(jù)采用平移、翻轉(zhuǎn)等幾何變換的方法進(jìn)行變換,以保護(hù)聚類結(jié)果的隱私內(nèi)容。此方法首先是對(duì)原始數(shù)據(jù)進(jìn)行幾何變換,以對(duì)敏感信息進(jìn)行隱藏,然后是聚類過程,經(jīng)過幾何變換后的數(shù)據(jù)可以直接應(yīng)用傳統(tǒng)的聚類算法(如K近鄰)進(jìn)行聚類。他們提出的方法在聚類準(zhǔn)確度和保護(hù)隱私方面達(dá)到了較好的平衡。
Vaidya等人[50]提出了一種分布式K-means聚類方法,該方法專門面向不同站點(diǎn)上存有同一實(shí)體集合的不同屬性的情況。使用此聚類方法,每個(gè)站點(diǎn)可以學(xué)習(xí)對(duì)每個(gè)實(shí)體進(jìn)行聚類,但在學(xué)習(xí)過程中并不會(huì)獲知其他站點(diǎn)上所存屬性的相關(guān)信息,從而在信息處理的過程中保障了數(shù)據(jù)隱私。
大數(shù)據(jù)訪問控制技術(shù)主要用于決定哪些用戶可以以何種權(quán)限訪問哪些大數(shù)據(jù)資源,從而確保合適的數(shù)據(jù)及合適的屬性在合適的時(shí)間和地點(diǎn),給合適的用戶訪問,其主要目標(biāo)是解決大數(shù)據(jù)使用過程中的隱私保護(hù)問題。早期的訪問控制技術(shù),如自主訪問控制(discretionary access control,DAC)[51]、強(qiáng)制訪問控制(mandatory access control,MAC)[52]等都面向封閉環(huán)境,訪問控制的粒度都比較粗,難以滿足大數(shù)據(jù)時(shí)代開放式環(huán)境下對(duì)訪問控制的精細(xì)化要求。
大數(shù)據(jù)給傳統(tǒng)訪問控制技術(shù)帶來(lái)的挑戰(zhàn)如下。
● 大數(shù)據(jù)的時(shí)空特性,大數(shù)據(jù)下的訪問控制模型需要在傳統(tǒng)訪問控制的基礎(chǔ)上,充分考慮用戶的時(shí)間信息和位置信息。
● 在大數(shù)據(jù)時(shí)代的開放式環(huán)境下,用戶來(lái)自于多種組織、機(jī)構(gòu)或部門,單個(gè)用戶又通常具有多種數(shù)據(jù)訪問需求[53],如何合理設(shè)定角色并為每個(gè)用戶動(dòng)態(tài)分配角色是新的挑戰(zhàn)。
● 大數(shù)據(jù)面向的應(yīng)用需求眾多,不同的應(yīng)用需要不同的訪問控制策略。以社交網(wǎng)站為例:對(duì)于用戶個(gè)人主頁(yè)的數(shù)據(jù),需要基于用戶社交關(guān)系的訪問控制;對(duì)于網(wǎng)站數(shù)據(jù),需要基于用戶等級(jí)的訪問控制等。
傳統(tǒng)的訪問控制方式,包括自主訪問控制和強(qiáng)制訪問控制技術(shù),難以應(yīng)對(duì)上述挑戰(zhàn)。因此,大數(shù)據(jù)時(shí)代的訪問控制技術(shù)主要包括基于角色的訪問控制和基于屬性的訪問控制方法。
6.1 基于角色的訪問控制
基于角色的訪問控制(role-based access control,RBAC)[54]中,不同角色的訪問控制權(quán)限不盡相同。通過為用戶分配角色,可實(shí)現(xiàn)對(duì)數(shù)據(jù)的訪問權(quán)限控制。由此,在基于角色的訪問控制中,角色挖掘是前提。通常,角色是根據(jù)工作能力、職權(quán)及責(zé)任確定的。大數(shù)據(jù)場(chǎng)景下的角色挖掘,需要大量人工參與角色定義、角色劃分及角色授權(quán)等問題,衍生出了所謂角色工程(role engineering)[55]。角色工程的最終目的是根據(jù)個(gè)體在某一組織內(nèi)所擔(dān)當(dāng)?shù)慕巧虬l(fā)揮的作用來(lái)實(shí)現(xiàn)最佳安全管理。有效的角色工程可以為用戶權(quán)限提供最優(yōu)分配、鑒別異常用戶、檢測(cè)并刪除冗余或過量的角色、使角色定義及用戶權(quán)限保持最新、降低隨之發(fā)生的各類風(fēng)險(xiǎn)等。大數(shù)據(jù)時(shí)代,可用于角色挖掘的數(shù)據(jù)豐富多樣,對(duì)角色權(quán)限的配置也更加靈活復(fù)雜。一方面需要通過挖掘己方數(shù)據(jù),合理配置權(quán)限,實(shí)現(xiàn)數(shù)據(jù)的訪問可控;另一方面,需要挖掘可收集到的對(duì)方數(shù)據(jù),找出重要目標(biāo)角色,以便重點(diǎn)關(guān)注。因此,大數(shù)據(jù)下的角色工程需要從攻擊和防護(hù)的角度綜合考慮。
RBAC最初也主要應(yīng)用于封閉環(huán)境之中。針對(duì)大數(shù)據(jù)時(shí)空關(guān)聯(lián)性,一些研究者提出將時(shí)空信息融合到RBAC當(dāng)中。如Ray等人提出了LARB(location-aware rolebased)訪問控制模型,在RBAC的基礎(chǔ)之上引入了位置信息,通過考慮用戶的位置來(lái)確定用戶是否具有訪問數(shù)據(jù)的權(quán)限[56]。Damiani等人提出的GEO-RBAC,也在分配用戶角色時(shí)綜合考慮了用戶的空間位置信息[57]。張穎君等人提出的基于尺度的時(shí)空RBAC訪問控制模型,引入了尺度的概念,使得訪問控制策略的表達(dá)能力得到增強(qiáng),同時(shí)也增強(qiáng)了模型的安全性[58]。
隨著大數(shù)據(jù)環(huán)境下角色規(guī)模的迅速增長(zhǎng),設(shè)計(jì)算法自動(dòng)實(shí)現(xiàn)角色的提取與優(yōu)化逐漸成為近年來(lái)的研究熱點(diǎn)。參考文獻(xiàn)[59]嘗試將角色最小化,即找出能滿足預(yù)定義的用戶—授權(quán)關(guān)系的一組最小角色集合。參考文獻(xiàn)[60]提出最小擾動(dòng)混合角色挖掘方法,首先以自頂向下的方法預(yù)先定義部分角色,然后以自底向上的方法挖掘候選角色集合。自動(dòng)化角色挖掘大大減少了人工工作量,但也面臨時(shí)間復(fù)雜度高的問題,部分問題甚至屬于NP完全問題。參考文獻(xiàn)[61]提出了一種簡(jiǎn)單的啟發(fā)式算法SMA來(lái)簡(jiǎn)化角色求解。參考文獻(xiàn)[62]針對(duì)大數(shù)據(jù)及噪聲數(shù)據(jù)場(chǎng)景,提出選擇穩(wěn)定的候選角色,并進(jìn)一步將角色挖掘問題分解以降低復(fù)雜度。
大數(shù)據(jù)時(shí)代的訪問控制應(yīng)用場(chǎng)景廣泛,需求也不盡相同。一些研究通過廣泛收集研究對(duì)象的應(yīng)用數(shù)據(jù),試圖挖掘出其中的關(guān)鍵角色,從而有針對(duì)性地采取處理措施。參考文獻(xiàn)[63]提出在RBAC的基礎(chǔ)上增加責(zé)任的概念,即responsibility-RBAC,對(duì)用戶職責(zé)進(jìn)行顯式確認(rèn),以根據(jù)實(shí)際應(yīng)用場(chǎng)景優(yōu)化角色的數(shù)量。
6.2 基于屬性的訪問控制
基于屬性的訪問控制(attributebased access control,ABAC)[64]通過將各類屬性,包括用戶屬性、資源屬性、環(huán)境屬性等組合起來(lái)用于用戶訪問權(quán)限的設(shè)定。RBAC以用戶為中心,而沒有將額外的資源信息,如用戶和資源之間的關(guān)系、資源隨時(shí)間的動(dòng)態(tài)變化、用戶對(duì)資源的請(qǐng)求動(dòng)作(如瀏覽、編輯、刪除等)以及環(huán)境上下文信息進(jìn)行綜合考慮。而基于屬性的訪問控制ABAC通過對(duì)全方位屬性的考慮,可以實(shí)現(xiàn)更加細(xì)粒度的訪問控制。
大數(shù)據(jù)環(huán)境下,越來(lái)越多的信息存儲(chǔ)在云平臺(tái)上。根據(jù)云平臺(tái)的特點(diǎn),基于屬性集加密訪問控制[65]、基于密文策略屬性集的加密[66]、基于層次式屬性集合的加密[67]等相繼被提出。這些模型都以數(shù)據(jù)資源的屬性加密作為基本手段,采用不同的策略增加權(quán)限訪問的靈活性。如HASBE通過層次化的屬性加密,可以實(shí)現(xiàn)云平臺(tái)上數(shù)據(jù)的更加細(xì)粒度的訪問控制,層次化也使得模型更加靈活,具有更好的可擴(kuò)展性。除了提供屬性加密訪問控制之外,ABAC也被當(dāng)作云基礎(chǔ)設(shè)施上訪問控制中的一項(xiàng)服務(wù)[68]。
ABE將屬性與密文和用戶私鑰關(guān)聯(lián),能夠靈活地表示訪問控制策略。但對(duì)于存儲(chǔ)在云端的大數(shù)據(jù),當(dāng)數(shù)據(jù)擁有者想要改變?cè)L問控制策略時(shí),需要先將加密數(shù)據(jù)從云端取回本地,解密原有數(shù)據(jù),之后再使用新的策略重新加密數(shù)據(jù),最后將密文傳回云端。在這一過程中,密文需要來(lái)回傳輸,會(huì)消耗大量帶寬,從而引發(fā)異常,引起攻擊者的注意[69],對(duì)數(shù)據(jù)的解密和重新加密也會(huì)使得計(jì)算復(fù)雜度顯著增大。為此,Yang等人提出了一種高效的訪問控制策略動(dòng)態(tài)更新方法[70]。當(dāng)訪問控制策略發(fā)生變化時(shí),數(shù)據(jù)擁有者首先使用密鑰更新策略UKeyGen生成更新密鑰UK_m,并將其和屬性變化情況(如增加、減少特定屬性)一起發(fā)送到云端。之后,在云端上按照密文更新策略CTUpdate對(duì)原有的密文進(jìn)行更新,而不用對(duì)原有密文進(jìn)行解密。
云端代理重加密將基于屬性的加密與代理重加密技術(shù)結(jié)合,實(shí)現(xiàn)云中的安全、細(xì)粒度、可擴(kuò)展的數(shù)據(jù)訪問控制[71-73]。新的用戶獲取授權(quán)或原有用戶釋放授權(quán)時(shí)的重加密工作由云端代理,減輕數(shù)據(jù)擁有者的負(fù)擔(dān)。同時(shí)對(duì)數(shù)據(jù)擁有者來(lái)說,云端可能并非是完全可信的,在利用云端進(jìn)行代理重加密的同時(shí)還應(yīng)防止數(shù)據(jù)被云端窺探。用戶提交給云的是密文,云端無(wú)法解密,云端利用重加密算法轉(zhuǎn)換為另一密文,新的密文只能被授權(quán)用戶解密,而在整個(gè)過程中云端服務(wù)器看到的始終是密文,看不到明文。云中用戶頻繁地獲取和釋放授權(quán),使得數(shù)據(jù)密文重加密工作繁重,由云端代理重加密工作,可以大大減輕數(shù)據(jù)擁有者的負(fù)擔(dān)。同時(shí),云端無(wú)法解密密文,也就無(wú)法窺探數(shù)據(jù)內(nèi)容。
Sun等人[74]提出了支持高效用戶撤銷的屬性關(guān)鍵詞搜索方案,實(shí)現(xiàn)了可擴(kuò)展且基于用戶制定訪問策略的高細(xì)粒度搜索授權(quán),通過代理重加密和懶惰重加密技術(shù),將用戶撤銷過程中系統(tǒng)繁重的密鑰更新工作交給半可信的云服務(wù)器。Wang等人[75]針對(duì)多中心云計(jì)算環(huán)境的數(shù)據(jù)安全訪問特點(diǎn),將多中心屬性加密和外包計(jì)算相結(jié)合,提出了一種輕量級(jí)的安全的訪問控制方案。該方案具有解密密鑰短、加解密計(jì)算開銷小等優(yōu)勢(shì),適用于輕量級(jí)設(shè)備。該方案可以無(wú)縫應(yīng)用到群組隱私信息保護(hù)中,實(shí)現(xiàn)了群組成員之間的隱私信息定向發(fā)布和共享、群組外的隱私信息保護(hù)功能。
大數(shù)據(jù)為訪問控制帶來(lái)了諸多挑戰(zhàn),但也暗藏機(jī)遇。隨著計(jì)算能力的進(jìn)一步提升,無(wú)論是基于角色的訪問控制還是基于屬性的訪問控制,訪問控制的效率將得到快速提升。同時(shí),更多的數(shù)據(jù)將被收集起來(lái)用于角色挖掘或者屬性識(shí)別,從而可以實(shí)現(xiàn)更加精準(zhǔn)、更加個(gè)性化的訪問控制??傮w而言,目前專門針對(duì)大數(shù)據(jù)的訪問控制還處在起步階段,未來(lái)將角色與屬性相結(jié)合的細(xì)粒度權(quán)限分配將會(huì)有很大的發(fā)展空間。
如何在不泄露用戶隱私的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價(jià)值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題。本文首先介紹了大數(shù)據(jù)帶來(lái)的隱私保護(hù)問題,然后介紹了大數(shù)據(jù)隱私的概念和大數(shù)據(jù)生命周期的隱私保護(hù)模型,接著從大數(shù)據(jù)生命周期的發(fā)布、存儲(chǔ)、分析和使用4個(gè)階段出發(fā),對(duì)大數(shù)據(jù)隱私保護(hù)中的技術(shù)現(xiàn)狀和發(fā)展趨勢(shì)進(jìn)行了分類闡述,對(duì)該技術(shù)的優(yōu)缺點(diǎn)、適用范圍等進(jìn)行分析,探索了大數(shù)據(jù)隱私保護(hù)技術(shù)進(jìn)一步發(fā)展的方向。
[1] 方濱興, 劉克, 吳曼青,等. 大搜索技術(shù)白皮書[R/OL]. (2015-01-0 6)[2015-05-23]. http://wenku.baidu.com/link?url=gqavgz5O7VROHQgJH4_egRVHB_JtcskcX-vWvRgEdzhfMuyidxhO_kdGemK8Qvez 0z-dBIJRp SqZj7o CYLd0i-2iT1mXE2B1B5p4nPW0TO. FANG B X, LIU K, WU M Q, et al. White paper on big search[R/OL]. (2015-01-06)[2015-05-23]. http://wenku.baidu. com/link?url=gqavgz5O7VROHQgJH4_ egRVHB_JtcskcX-vWvRgEdzhfMuyidxhO_kdGemK8Qvez 0z-dBIJRpSqZj7oCYLd0i-2iT1mXE2B1B5p4nPW0TO.
[2] 周水庚, 李豐, 陶宇飛, 等. 面向數(shù)據(jù)庫(kù)應(yīng)用的隱私保護(hù)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2009, 32(5): 847-861. ZHOU S G, LI F, TAO Y F, et al. Privacy preservation in database applications: a survey[J]. Chinese Journal of Computers, 2009, 32(5): 847-861.
[3] SAMARATI P, SWEENEY L. Generalizing data to provide anonymity when disclosing information[C]// Proceedings of the 17th ACM Sigact-Sigmod-Sigart Symposium on Principles of Database System, June 1-3, 1998, Seattle, Washington, USA. New York: ACM Press, 1998.
[4] SWEENY L. k-anonymity: amodel for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and KnowledgeBased Systems, 2012, 10(5): 557-570.
[5] BA R BA R O M, ZEL L ER T. Afaceis exposed for AOL searcher No. 4417749[N/ OL]. New York Times, (2006-08-09) [2013-09-10]. http://www.nytimes. com/2006/08/09/technology/09aol.html.
[6] NARAYANAN A, SHMATIKOV V. How to break anonymity of the netflix prize dataset[J]. Eprint Ar xiv Cs, 2006, arXiv:cs/0610105.
[7] MACHANAVA JJHAL A A, GEHRKE J, KIFER D, et al. l-diversity: privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1): 24.
[8] LI N, LI T, VENKATASUBRAMANIAN S. t-closeness: privacy beyond k-anonymity and l-diversity[C]// Proceedings of IEEE 23rd International Conference on Data Engineering, April 11-15, 2007, Istanbul, Turkey. Piscataway: IEEE Press, 2007: 106-115.
[9] NIU B, LI Q H, ZHU X Y, et al. Enhancing privacy through caching in locationbased services[C]//Proceedings of IEEE INFOCOM, April 26-May 1, 2015, Hong Kong, China. Piscataway: IEEE Press, 2015: 1017-1025.
[10] LI A, JIN S, ZHANG L, et al. A sequential decision-theoretic model for medical diagnostic system [J]. Technology and Health Care, 2015, 23(s1): S37-S42.
[11] BYUN J W, SOHN Y, BERTINO E, et al. Secure anonymization for incremental dataset[C]//Proceedings of the 3rd VLDB Workshop on Secure Data Management (SDM), September 10-11, 2006, Seoul, Korea. [S.l.: s.n.], 2006.
[12] XIAO X K, TAO YF. m-invariance: towards privacy preserving re-publication of dynamic datasets[C]// Proceedings of the 2007, ACM SIGMOD International Conference on Management of Data, June 12-14, 2007,Beijing, China. New York: ACM Press, 2007: 689-700.
[13] BUYY, FUAWC, WONG RCW, et al. Privacy preserving serial data publishing by role composition[C]// Proceedings of the 34th International Conference on Very Large Data Bases, August 23-28, 2008, Auckland, New Zealand. [S.l.: s.n.], 2008: 845-856.
[14] ZHANGX, L IUC, N EPA LS,etal. A hybrid approach for scalable subtree anonymization over big data using MapReduce on cloud [J]. Journal of Computer & System Sciences, 2014, 80(5): 1008-1020.
[15] ZH A NGX, LIUC, NEPA LS,etal. Combining top-down and bottom-up: scalable sub-tree anonymization over big data using MapReduce on cloud [J]. IEEE International Conference on Trust, 2013, 52(1): 501-508.
[16] MOHAMMADIAN E, NOFERESTI M, JALILI R. FAST: fast anonymization of big data streams[C]// Proceedings of the 2014 International Conference on Big Data Science and Computing, Aug 4-7, 2014,Beijing, China. [S.l.:s.n.], 2014.
[17] SEDAYAO J, BHARDWAJ R, GORADE N. Making big data, privac y, and anonymization work together in the enterprise: experiences and issues[C]// Proceedings of the 3rd International Congress on Big Data, June 27-July 2, 2014, Anchorage, Alaska, USA. Piscataway: IEEE Press, 2014.
[18] SUNGZ, WEIS, XIEX. Deanonymization technology and applications in the age of big data [J]. Information &Communications Technologies, 2013(6): 52-57.
[19] NARAYANANA, SHMATIKOVV. Robust de-anonymization of large sparse datasets[C]//Proceedings of the 2008 IEEE Symposium on Security and Privacy, M ay 18-21, 2008, Oakland, USA. Piscataway: IEEE Press, 2008: 111-122.
[20] National Bureau of Standards. Proposed federal information processing data encryption standard [J]. Creptologia, 1977, 1(3): 292-306.
[21] FIPS. Advanced encryption standard (AES): FIPS PUB 197[S/OL]. [2010-10-16]. http:// wenku.baidu.com/link?url=dqgVVuI1EvK Ah4fSiHu7mSAgObQji-LiI6C1_KlYWtuiIU FIZaJUZOpkcOWQMPy9U91SHgPcPrt7U WmAQmT3b8WJZ80idSjZ-qLVileRY3a.
[22] RIVEST R L, SHAMIR A, ADLERNAN L M. A method for obtaining digital signatures and public-key cryptosystems [J].Communications of the ACM, 1978, 21(6): 120-126.
[23] ELGAMAL T. A public key cryptosystem and a signature scheme based on discrete logarithms[J]. IEEE Transactions on Information Theory, 1985, 31(4): 469-472.
[24] LINHY, SHENST, TZENGWG, et al. Toward data confidentiality via integrating hybrid encryption schemes and Hadoop distributed file system[C]// Proceedings of IEEE 26th International Conference on Advanced Information Networking and Applications (AINA), March 26-29, 2012, Fukuoka, Japan. Washington DC: IEEE Computer Society Press, 2012: 740-747.
[25] GEN T RY C. Afully homomorphic encryption scheme [D]. Palo Alto: Stanford University, 2009.
[26] VAN DIJK M, GENTRY C, HALEVI S, et al. Fully homomorphic encryption over the integers[C]// Proceedings of the 29th Annual International Conference on the Theory and Applications of Cryptographic Techniques, May 30-June 3, 2010, Riviera, French. New York: Springer Berlin Heidelberg, 2010: 24-43.
[27] CHEN X, HUANG Q. The data protection of MapReduce using homomorphic encryption[C]// Proceedings of the 4th IEEE International Conference on Software Engineering and Service Science (ICSESS), May 23-25, 2013, Beijing, China. Piscataway: IEEE Press, 2013: 419-421.
[28] WANG B Y, LI B C, LI H. Public auditing for shared data with efficient user revocation in the cloud[C]// Proceedings of IEEE INFOCOM, April 26-May 1, 2015, Hong Kong, China. Piscataway: IEEE Press, 2015: 2904-2912.
[29] AT ENIE SE G, BUR NS R, CUR MO LAR, et al. Provable data possession at untrusted stores[J]. ACM Conference on Computer & Communications Security, 2007, 14(1): 598-609.
[30] JUELS A, KALISKI B S. PORs: proofs of retrievability for large files[C]// Proceedings of the 14th ACM Conference on Computer and Communications Security, October 29-November 2, 2007, Alexandria, VA, USA. New York: ACM Press, 2007: 584-597.
[31] SHACHAM H, WATERS B. Compac t proofs of retrievability[J]. Journal of Cryptology, 2013, 26(3): 442-483.
[32] ATENIESE G, PIETRO R, MANCIN L V, et al. Scalable and efficient provable data possession[C]// Proceedings of International Conference on Security & Privacy in Communication Networks, September 22-25, 2008, Istanbul, Turkey. New York: ACM Press, 2008.
[33] ERWAY C, KüP?ü A, PAPAMANTHOU C,etal. Dynamic prov abled at a possession[C]// Proceedings of the 16th ACM Conference on Computer and Communications Security, November 9-13, 2009, Chicago, IL, USA. New York: ACM Press, 2009: 213-222.
[34] WANG Q, WANG C, LI J, et al. Enabling public verifiability and data dynamics for storage security in cloud computing[C]// Proceedings of ESORICS, September 21-25, 2009, Saint Malo, France. [S.l.:s.n.], 2009: 355-370.
[35] WANGC, WANGQ, RENK, etal. Privacy-preserving public auditing for data storage security in cloud computing[C]// Proceedings of IEEE INFOCOM, March 15-19, 2010, San Diego, CA, USA. Piscataway: IEEE Press, 2010: 525-533.
[36] WANG B Y, LI B C, LI H.Oruta: privacy preserving public auditing for shared data in the cloud[C]//Proceedings of IEEE 5th International Conference on Cloud Computing, November 22-24, 2012, Honolulu, Hawaii, USA. Piscataway: IEEE Press, 2012: 295-302.
[37] WANG B Y, LI B C, LI H. Knox: privacy preserving auditing for shared data with large groups in the cloud[C]// Proceedings of the 10th International Conference on Applied Cryptography and Network Security, June 26-29, 2012, Singapore. Berlin: Springer, 2012.
[38] THURAISINGHAM B. Big data security and privacy[C]//Proceedings of the 5th ACM Conference on Data and Application Security and Privacy, March 2-4, 2015, San Antonio, TX, USA. New York: ACMPress, 2015: 279-280.
[39] WONG R. Big data privacy[J]. J Inform Tech SoftwEng, 2012(2): e114.
[40] WU X, ZHU X, WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1): 97-107.
[41] AGGARWAL C C, PHILIP S Y. A General Survey of Privacy-Preserving Data Mining Models and Algorithms[M]. New York: Springer US, 2008.
[42] ATALL AHM, BERTINOE, ELMAGARMID A, et al. Disclosure limitation of sensitive rules[C]// Proceedings of Workshop on Knowledge and Data Engineering E xchange, November 7, 1999, Chicago, IL, USA. Piscataway: IEEE Press, 1999: 45-52.
[43] OLIVEIRA SRM, ZAIANE OR. Privacy preserving frequent itemset mining[C]// Proceedings of IEEE International Conference on Data Mining, Japan, December 9-12, 2002, Maebashi City. Piscataway: IEEE Press, 2002: 43-54.
[44] CHANGLW, MO SKOW ITZIS. An Integrated Framework for Database Inference and Privacy Protection[M]. Ifip Tc11/ Wg113 Fourteenth Working Conference on Database Security: Data & Application Security. New York: Springer US, 2000: 161-172.
[45] AG G ARWAL C, PEI J, ZHAN G B. A framework for privacy preservation against adversarial data mining[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 20-23, 2006, Philadelphia, USA. New York: ACM Press, 2006.
[46] AGR AWAL R, SRIK ANT R. Privac ypreserving data mining[J]. ACM SIGMOD Record, 2000, 29(2): 439-450.
[47] MOSKOWITZLW, CHANGIS. A Decision Theoretical Based System for Information Downgrading[R/OL]. (2011-08-27)[2015-11-20]. http://wenku.baidu. com/link?url=JAg4rujC4hcwRVbIulvyqgk MJaP fMQ41JAr8v4zfRmZwXWwBNndmD Um10WAIvXYEvlCWb2m34GnIBkADnLpg m8za3iyAHiDnChiaPZwthAW.
[48] CHANGLW,MOSKOWITZIS. Parsimonious downgrading and decision trees applied to the inference problem[C]// Proceedings of the 1998 Workshop on New Security Paradigms, Charlottesville, Virginia, USA, 1998. New York: ACM Press, 1998: 82-89.
[49] OLIVEIRASRM,ZAIANEOR. Privacy preserving clustering by data transformation[J]. Journal of Information and Data Management, 2010, 1(1): 37.
[50] VAID YA J,CLIFTONC. Privacy preserv in gk-meansclustering over vertically partitioned data[C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, 2003, Washington DC, USA. New York: ACM Press, 2003: 206-215.
[51] SANDHU R S, SAMAR ATI P. Access control: principle and practice[J]. IEEE Communications Magazine, 1994, 32(9): 40-48.
[52] SANDHU R S. Lattice-based access control models[J]. Computer, 1993, 26(11): 9-19.
[53] ZHANG W, LI A, CHEEMA M, et al. Probabilistic n-of-N skyline computation over uncertain data streams[J]. World Wide Web, 2015, 18(5): 1331-1350.
[54] SANDHU R S, COYNE E J, FEINSTEIN H L, et al. Role-based access control models[J]. Computer, 1996(2): 38-47.
[55] KUHLMANN M, SHOHAT D, SCHIMPF G. Role mining-revealing business roles for security administration using data mining technology[C]// Proceedings of the 8th ACM Symposium on Access Control Models and Technologies, June 2-3, 2003, Como, Italy. New York: ACM Press, 2003: 179-186.
[56] R AY I, K UM AR M, Y U L J. L R BAC: a location-aware role-based access control model[C]// Proceedings of the 2nd International Conference on Information Systems Security, December 19-21, 2006, Kolkata, India. New York: Springer US, 2006: 147-161.
[57] DAMIANI M L, BERTINO E, CATANIA B, et al. Geo-rbac: a spatially aware rbac[J]. ACM Transactions on Information and System Security (TISSEC), 2007, 10(1): 2.
[58] 張穎君, 馮登國(guó). 基于尺度的時(shí)空R BAC模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 47(7): 1252-1260. ZHANG Y J, FENG D G. A role-based access control model based on space, time and scale[J]. Journal of Computer Research and Development, 2010, 47(7): 1252-1260.
[59] ENE A, HORNE W, MILOSAVLJEVIC N, et al. Fast exact and heuristic methods for role minimization problems[C]// Proceedings of the 13th ACM Symposium on Access Control Model sand Technologies, June 11-13, 2008, Estes Park, CO, USA. New York: ACM Press, 2008: 1-10.
[60] 翟志剛, 王建東, 曹子寧, 等. 最小擾動(dòng)混合角色挖掘方法研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 50(5): 951-960. ZHAI Z G, WANG J D, CAO Z N, et al. Hybrid role mining methods with minimal perturbation[J]. Journal of Computer Research and Development, 2015, 50(5): 951-960.
[61] BLUNDO C, CIMATO S. A simple role mining algorithm[C]//Proceedings of the 2010 ACM Symposium on Applied Computing, March 22-26, 2010, Sierre, Switzerland. New York: ACM Press, 2010: 1958-1962.
[62] NINO V V. Role mining over big and noisy data theory and some applications[D]. Roma: Roma Tre University, 2011.
[63] FELTUSC,PETITM,SLOMANM. Enhancement of business it alignment by including responsibility components in RBAC[C]//Proceedings of the 5th International Workshop on Business/IT Alignment and Interoperability BUSITAL, June 2010, Hammamet, Tunisia. [S.l.:s.n.], 2010.
[64] Attribute-based access control[EB/OL]. [2015-12-08]. https://en.wikipedia.org/wiki/Attribute-based_access_control.
[65] GOYAL V, PANDEY O, SAHAI A, et al. Attribute-based encryption for fine-grained access control of encrypted data[C]// Proceedings of the 13th ACM Conference on Computer and Communications Security, October 30-November 3, 2006, Alexandria, Virginia, USA. New York: ACM Press, 2006: 89-98.
[66] BOBBAR,KHURANAH, PRABHAK ARAN M. Attribute-sets: a practically motivated enhancement to attribute-based encryption[C]// Proceedings of the 14th European Symposium on Research in Computer Security, September 21-25, 2009, Saint-Malo, France. [S.l.: s.t.], 2009: 587-604.
[67] WAN Z, LIU J E, DENG R H. HASBE: a hierarchical attribute-based solution for flexible and scalable access control in cloud computing[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(2): 743-754.
[68] JIN X. Attribute-based access control models and implementation in cloud infrastructure as a service[D]. San Antonio: The University of Texas at San Antonio, 2014.
[69] LI A, HAN Y, ZHOU B, et al. Detecting hidden anomalies using sketch for highspeed network data stream monitoring[J]. Applied Mathematics and Information Sciences, 2012, 6(3): 759-765.
[70] YANGK,JIAX,RENK,etal. Enabling efficient access control with dynamic policy updating for big data in the cloud[C]// Proceedings of IEEE I N FO CO M, April 27-M ay 2, 2014, Toronto, Canada. Piscataway: IEEE Press, 2014: 2013-2021.
[71] BLAZEM,BLEUMERG,STR AU S S M. Divertible protocols and atomic proxy cryptography[C]// Proceedings of International Conference on the Theory and Application of Cryptographic Techniques Espoo, May 13, 1998, Finland. Berlin: Springer, 1998: 127-144.
[72] LI A, XU J, GAN L, et al. An efficient approach on answering top-k queries with grid dominant graph index[C]// Proceedings of the 15th Asia-Pacific Web Conference, April 4-6, 2013, Sydney, Australia. Berlin: Springer, 2013: 804-814.
[73] ZHANGWM,CHENB,YUNH. Improving various reversible data hiding schemes via optimal codes for binary covers[J]. IEEE Transactions on Image Processing, 2012, 21(6): 2991-3003.
[74] SUN W H, YU S C, LOU W J, et al.Protecting your right: attribute-based keyword search with fine-grained ownerenforced search authorization in the cloud[C]//Proceedings of IEEE Conference on Computer Communications, April 27-May 2, 2014, Toronto, Ontario, Canada. Piscataway: IEEE Press, 2014.
[75] WANG Y C, LI F H, XIONG J B, et al. Achieving lightweight and secure access control in multi-authorit y cloud[C]//Proceedings of the 14th IEEE International Conference on Trust, Security and Privacy in Computing and Communications, August 20-22, 2015, Helsinki, Finland. Piscataway: IEEE Press, 2015: 459-466.
Privacy preservation in big data: a survey
FANG Binxing1,2, JIA Yan2, LI Aiping2, JIANG Rong2
1. Beijing University of Posts and Telecommunications, Beijing 100876, China
2. School of Computer, National University of Defense Technology, Changsha 410073, China
Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be conductive to the big data applications while preserving data privacy. Since big data has the characteristics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model of big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.
big data, privacy preservation, data dissemination, data mining, data access
TP309
A
10.11959/j.issn.2096-0271.2016001
方濱興(1960-),男,博士,中國(guó)工程院院士,主要研究方向?yàn)榇髷?shù)據(jù)、計(jì)算機(jī)網(wǎng)絡(luò)和信息安全。
賈焰(1960-),女,博士,國(guó)防科學(xué)技術(shù)大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)、網(wǎng)絡(luò)信息安全和社交網(wǎng)絡(luò)。
李愛平(1974-),男,博士,國(guó)防科學(xué)技術(shù)大學(xué)研究員,主要研究方向?yàn)榇髷?shù)據(jù)分析、數(shù)據(jù)挖掘和網(wǎng)絡(luò)信息安全。
江榮(1984-),男,博士,國(guó)防科學(xué)技術(shù)大學(xué)助理研究員,主要研究方向?yàn)殡[私保護(hù)和網(wǎng)絡(luò)信息安全。
2015-12-24