甘紅梅 四川長(zhǎng)江職業(yè)學(xué)院
大數(shù)據(jù)安全研究方向及現(xiàn)狀
甘紅梅 四川長(zhǎng)江職業(yè)學(xué)院
大數(shù)據(jù)是通過對(duì)海量數(shù)據(jù)進(jìn)行分析來獲得有巨大價(jià)值的產(chǎn)品和服務(wù),隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,大數(shù)據(jù)成為研究熱點(diǎn),然而大數(shù)據(jù)在收集、存儲(chǔ)和使用過程中面臨著諸多安全風(fēng)險(xiǎn)。本文分析總結(jié)了大數(shù)據(jù)在存儲(chǔ)、應(yīng)用分析和管理上的安全方法和現(xiàn)狀以及未來研究的趨勢(shì),只有通過技術(shù)手段和相關(guān)政策法規(guī)相結(jié)合,才能更好的解決大數(shù)據(jù)安全與隱私保護(hù)問題。
大數(shù)據(jù) 數(shù)據(jù)安全 存儲(chǔ) 數(shù)據(jù)分析
大數(shù)據(jù)技術(shù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個(gè)領(lǐng)域,用途差異巨大,但其目標(biāo)可以歸納為如下幾類:①獲得知識(shí)和推測(cè)趨勢(shì);②分析掌握個(gè)性化特征;③通過分析辨識(shí)真相。
大數(shù)據(jù)正在對(duì)每個(gè)領(lǐng)域造成影響,在商業(yè)、經(jīng)濟(jì)和其他領(lǐng)域中,決策行為已日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗(yàn)和直覺。甲骨文、IBM、微軟和SAP共投入超過15億美元成立各自的軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。隨著海量數(shù)據(jù)的進(jìn)一步集中和信息技術(shù)的進(jìn)一步發(fā)展,信息安全成為大數(shù)據(jù)快速發(fā)展的瓶頸。
大數(shù)據(jù)系統(tǒng)的研究主要有3個(gè)方向:存儲(chǔ)、管理和應(yīng)用分析。因而,其安全和隱私保護(hù)也可以從這3個(gè)方面著手。
在典型的大數(shù)據(jù)平臺(tái)(比如Apache Hadoop)中,海量數(shù)據(jù)是存儲(chǔ)在廉價(jià)服務(wù)器集群中各個(gè)節(jié)點(diǎn)的本地硬盤中的。為了保護(hù)存儲(chǔ)介質(zhì)中的數(shù)據(jù),防止敏感數(shù)據(jù)泄露,目前主要使用兩種手段:訪問控制和數(shù)據(jù)加密.但這兩種方法都各有不足:
①訪問控制:存在被外部黑客攻破或內(nèi)部管理員繞過的風(fēng)險(xiǎn);
②數(shù)據(jù)加密:雖然安全性較高,但加密解密海量數(shù)據(jù)會(huì)增加顯著開銷。
為了同時(shí)滿足大數(shù)據(jù)應(yīng)用對(duì)數(shù)據(jù)存儲(chǔ)的高安全和高性能要求,由清華大學(xué)田洪亮等人提出了一種可信固態(tài)硬盤(Trusted SSD,Trusted Solid Stated Drive)的存儲(chǔ)方法,它提供安全增強(qiáng)的存儲(chǔ)設(shè)備接口和協(xié)議,使得用戶可以對(duì)存儲(chǔ)中的數(shù)據(jù)施以細(xì)粒度的訪問控制,從而保障存儲(chǔ)中數(shù)據(jù)的安全。同時(shí)通過實(shí)驗(yàn)表明。無論是在合成的、還是真實(shí)的工作負(fù)載上,可信固態(tài)硬盤的運(yùn)行開銷不到3%,有望成為大數(shù)據(jù)安全的新基礎(chǔ)。
數(shù)據(jù)分析層面的隱私保護(hù)技術(shù),如匿名化(Data Anonymization)和差分隱私(Differential Privacy)等。
匿名化是數(shù)據(jù)挖掘中隱私保護(hù)的最主要的一種技術(shù)手段。匿名化通常有以下五種方法:擾動(dòng)和泛化、K匿名化和I多樣性、分布式隱私保護(hù)、降低數(shù)據(jù)挖掘結(jié)果(隱藏某些關(guān)聯(lián)規(guī)則或輕微改變分類模型)、差分隱私保護(hù)。
差分隱私是研究人員最近提出的,其基本思想是通過添加噪聲的方法,確保刪除或者添加一個(gè)數(shù)據(jù)集中的記錄并不會(huì)影響分析的結(jié)果;因此,即使攻擊者得到了兩個(gè)僅相差一條記錄的數(shù)據(jù)集,通過分析兩者產(chǎn)生的結(jié)果都是相同的,也無法推斷出隱藏的那一條記錄的信息。
經(jīng)過匿名處理后,信息不包含用戶的標(biāo)識(shí)符,就可以公開發(fā)布了嗎?事實(shí)上,僅通過匿名保護(hù)并不能很好的達(dá)到隱私保護(hù)目標(biāo)。例如,美國(guó)在線AOL公司在2006年曾公布了匿名處理后的3個(gè)月內(nèi)近2千萬(wàn)條真實(shí)的搜索記錄,雖然個(gè)人相關(guān)的標(biāo)識(shí)符信息被精心處理過,但記錄的其它內(nèi)容如搜索條目、時(shí)間以及點(diǎn)擊的鏈接并沒有做過任何處理,所以搜索的內(nèi)容涉及到的個(gè)人隱私敏感信息與特定用戶有著密切的聯(lián)系。紐約時(shí)報(bào)隨即公布了其識(shí)別出的1位用戶,編號(hào)為4417749的用戶是一位62歲的寡居?jì)D人,家里養(yǎng)了3條狗,患有某種疾病等等。
另外,大數(shù)據(jù)的可信性在應(yīng)用中也起到關(guān)鍵的作用。數(shù)據(jù)自身就是事實(shí),數(shù)據(jù)可以說明一切,但當(dāng)前網(wǎng)絡(luò)使數(shù)據(jù)面臨著被攻擊的威脅,威脅之一是偽造或刻意制造數(shù)據(jù),使用錯(cuò)誤的數(shù)據(jù)進(jìn)行分析決策往往會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。而當(dāng)前網(wǎng)絡(luò)中虛假信息的產(chǎn)生和傳播變得越來越容易,用信息安全技術(shù)鑒別所有數(shù)據(jù)來源的真實(shí)性是不可能的。威脅之二是數(shù)據(jù)在傳播中的逐步失真,導(dǎo)致的原因之一是人工干預(yù)的數(shù)據(jù)采集過程可能引入誤差;原因之二是現(xiàn)實(shí)情況發(fā)生變化,早期采集的數(shù)據(jù)已不能反映真實(shí)情況,例如,餐廳電話號(hào)碼已經(jīng)變更,但早期的信息已經(jīng)被其它搜索引擎或應(yīng)用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數(shù)據(jù)的應(yīng)用分析,要求使用者有能力判斷數(shù)據(jù)來源的真實(shí)性、保障數(shù)據(jù)傳播途徑和數(shù)據(jù)加工處理過程,同時(shí)根據(jù)實(shí)際應(yīng)用判斷哪些數(shù)據(jù)需要進(jìn)行隱私保護(hù)以及采用哪種隱私保護(hù)方法,防止出現(xiàn)錯(cuò)誤的分析結(jié)果以及用戶隱私信息泄露。
目前大數(shù)據(jù)一般采用分布式文件系統(tǒng)技術(shù)在云端存儲(chǔ),在對(duì)云存儲(chǔ)環(huán)境進(jìn)行安全防護(hù)的前提下,還可以對(duì)關(guān)鍵核心數(shù)據(jù)進(jìn)行冗余備份,強(qiáng)化數(shù)據(jù)存儲(chǔ)安全,提高企業(yè)大數(shù)據(jù)安全存儲(chǔ)能力。數(shù)據(jù)管理層面的安全保護(hù)技術(shù),如加密數(shù)據(jù)查詢和可信硬件等,可以加強(qiáng)大數(shù)據(jù)系統(tǒng)的安全性和隱私性,但無法完全替代在存儲(chǔ)層面的安全措施的作用。企業(yè)和組織中大數(shù)據(jù)分析技術(shù)的信息安全管理平臺(tái)架構(gòu)主要包括所有IT資源(包括網(wǎng)絡(luò)、系統(tǒng)和應(yīng)用)產(chǎn)生的安全信息(包括日志、告警等)進(jìn)行統(tǒng)一實(shí)時(shí)監(jiān)控、歷史分析,對(duì)來自外部的入侵和內(nèi)部的違規(guī)、誤操作行為進(jìn)行監(jiān)控、審計(jì)分析、調(diào)查取證、出具各種報(bào)表報(bào)告。
大數(shù)據(jù)帶來了新的安全問題,但它自身也是解決問題的重要手段。業(yè)界對(duì)系統(tǒng)安全的共識(shí)是,沒有一種安全措施能夠防范所有安全威脅,多層次的安全機(jī)制才能最大限度地保證系統(tǒng)安全。本文分析了大數(shù)據(jù)在存儲(chǔ)、應(yīng)用分析和管理上的安全方法和現(xiàn)狀以及未來需要研究的趨勢(shì),目前用戶數(shù)據(jù)的收集、存儲(chǔ)、管理和使用等均缺乏規(guī)范,更缺乏監(jiān)管,主要依靠企業(yè)的自律,用戶無法確定自己隱私信息的用途,而在商業(yè)化場(chǎng)景中,用戶應(yīng)有權(quán)決定自己的信息如何被利用,實(shí)現(xiàn)用戶可控的隱私保護(hù)。只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好的解決大數(shù)據(jù)安全與隱私保護(hù)問題。
[1]百度文庫(kù):大數(shù)據(jù)
http://baike.baidu.com/link?url=2a26iTggpbJ3iG-jLzwHCrYyBJUub aWVVbRpaMFAfC35PQWBm5y4eWSlgn33IdKiN9kkiWhxokW1_owbO U2c77QSyq6Kv2bp2s8GjvrHOFXRkmzUMGTU3Sfo1cUlx9qC
[2]豆?。捍髷?shù)據(jù)安全問題,http://www.docin.com/p-1399064031. html
[3]田洪亮,張勇,許信輝,李超,邢春曉.可信固態(tài)硬盤:大數(shù)據(jù)安全的新基礎(chǔ)[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):154-168
[4]馬立川,裴慶祺,冷昊,李紅寧.大數(shù)據(jù)安全研究概述[J].無線電通信技術(shù),2015,41(1):01-07
[5]馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258
甘紅梅(1986—),女,四川廣安人,四川長(zhǎng)江職業(yè)學(xué)院,助教,研究方向?yàn)榇髷?shù)據(jù)、信息安全。