李英 張濤
(南陽師范學(xué)院軟件學(xué)院,河南 南陽 473061)
大數(shù)據(jù)時(shí)代數(shù)據(jù)安全隱私保護(hù)研究
李英 張濤
(南陽師范學(xué)院軟件學(xué)院,河南 南陽 473061)
近年來,大數(shù)據(jù)給我們的生活、工作學(xué)習(xí)帶來了潛移默化的影響。然而,大數(shù)據(jù)在采集、存儲(chǔ)及使用過程中,都潛在著風(fēng)險(xiǎn),為此,近些年提出了許多大數(shù)據(jù)安全保護(hù)技術(shù)。本文對(duì)其現(xiàn)狀進(jìn)行分類闡述,分析其優(yōu)缺點(diǎn)。
大數(shù)據(jù);數(shù)據(jù)安全;隱私保護(hù)
人們已經(jīng)逐步認(rèn)識(shí)到大數(shù)據(jù)的價(jià)值,并開始在公共衛(wèi)生、商業(yè)、科學(xué)研究等領(lǐng)域應(yīng)用大數(shù)據(jù)分析技術(shù)。據(jù)統(tǒng)計(jì),當(dāng)今世界每天產(chǎn)生250億字節(jié)左右的數(shù)據(jù)。國(guó)內(nèi)某互聯(lián)網(wǎng)巨頭公司,每天經(jīng)過壓縮處理的數(shù)據(jù)量高達(dá)100PB,而且現(xiàn)在還以日增長(zhǎng)200~300TB,月增長(zhǎng)10PB的速度不斷增長(zhǎng)。因此,當(dāng)今世界各國(guó)政府、工業(yè)界和學(xué)術(shù)界對(duì)大數(shù)據(jù)十分關(guān)注并高度重視??梢灶A(yù)測(cè),隨著大數(shù)據(jù)分析技術(shù)的應(yīng)用推廣,在當(dāng)今時(shí)代大數(shù)據(jù)會(huì)變得越來越重要,它將成為一種與礦產(chǎn)和石油同樣重要的巨大經(jīng)濟(jì)資產(chǎn)。
1.1 大數(shù)據(jù)的定義
研究機(jī)構(gòu)Garther給大數(shù)據(jù)的定義為:需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征[1]。
1.2 大數(shù)據(jù)的結(jié)構(gòu)特點(diǎn)
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫應(yīng)用簡(jiǎn)單,而大數(shù)據(jù)具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性在《計(jì)算機(jī)學(xué)報(bào)》里刊登的《架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》一文中列出,并對(duì)現(xiàn)今主流實(shí)現(xiàn)平臺(tái)——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)做了分析歸納,指出它們的優(yōu)勢(shì)及不足,并也對(duì)每個(gè)方向的研究情況及作者在大數(shù)據(jù)分析上的成績(jī)進(jìn)行介紹,對(duì)以后的研究也做了展望。
大數(shù)據(jù)有四個(gè)特點(diǎn):①數(shù)據(jù)量大,從TB增長(zhǎng)到PB;②數(shù)據(jù)類型多,有網(wǎng)絡(luò)日志、視頻、圖片、地圖信息等;③處理速度快,1秒定律,高價(jià)值的信息能從各種類型的數(shù)據(jù)中快速獲取,與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)不同;④只有對(duì)數(shù)據(jù)正確、準(zhǔn)確分析,才會(huì)帶來很高價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”:Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。
在大數(shù)據(jù)時(shí)代,大量數(shù)據(jù)會(huì)通過網(wǎng)絡(luò)匯聚在一起,安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。下面總結(jié)大數(shù)據(jù)安全問題的幾個(gè)方面。
2.1 數(shù)據(jù)來源安全
大數(shù)據(jù)中的數(shù)據(jù)來源很大部分是來自用戶在網(wǎng)絡(luò)上的自行輸入,如社交網(wǎng)絡(luò)、郵件、微博等,這些信息數(shù)據(jù)可能是不準(zhǔn)確的,因此在采集數(shù)據(jù)時(shí)有必要對(duì)數(shù)據(jù)的真?zhèn)芜M(jìn)行鑒別,否則即使通過數(shù)據(jù)分析也得不到準(zhǔn)確的信息。
2.2 網(wǎng)絡(luò)攻擊
大數(shù)據(jù)已經(jīng)成為網(wǎng)絡(luò)攻擊的目標(biāo):一方面,大數(shù)據(jù)意味著數(shù)據(jù)量大,也意味著其內(nèi)有很多復(fù)雜及敏感的數(shù)據(jù),因此它們很有可能受到不懷好意者的攻擊;另一方面,數(shù)據(jù)的大量匯集,使攻擊者一次能夠獲得更多的數(shù)據(jù)。
2.3 用戶隱私泄密
在大數(shù)據(jù)時(shí)代,用戶隱私泄露的風(fēng)險(xiǎn)很大?;ヂ?lián)網(wǎng)商家手中掌握著人們的一言一行,包括搜索習(xí)慣、閱讀習(xí)慣、購(gòu)物習(xí)慣等。這些無害的數(shù)據(jù)被收集后,也會(huì)泄露個(gè)人隱私。再者,數(shù)據(jù)的集中存儲(chǔ)增加了數(shù)據(jù)被盜的風(fēng)險(xiǎn)。
2.4 數(shù)據(jù)存儲(chǔ)安全
在傳統(tǒng)模式下,個(gè)人與企業(yè)把數(shù)據(jù)存儲(chǔ)在自己的終端設(shè)備中,但當(dāng)用云來存儲(chǔ)數(shù)據(jù)時(shí),數(shù)據(jù)被云服務(wù)商控制著,因此云服務(wù)商可能泄露用戶隱私數(shù)據(jù),更可能泄露給其他用戶。結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都存在于大數(shù)據(jù)中,因此傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法滿足它的要求,所以要用到非關(guān)系數(shù)據(jù)庫,如Apache的HBase和Google的Big Ta?ble等。相對(duì)于較成熟的關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫驗(yàn)證和鑒權(quán)機(jī)制較為薄弱,使數(shù)據(jù)庫容易遭受攻擊,造成敏感數(shù)據(jù)被泄露。
因?yàn)榇髷?shù)據(jù)存在著各種安全問題,所以對(duì)其采取數(shù)據(jù)保護(hù)措施是必需的。為保障大數(shù)據(jù)的安全性,保護(hù)用戶的個(gè)人隱私,筆者提出以下關(guān)鍵技術(shù)。
3.1 數(shù)據(jù)溯源技術(shù)
一種記錄從原始數(shù)據(jù)到目標(biāo)數(shù)據(jù)演變過程的技術(shù)叫做數(shù)據(jù)溯源技術(shù)。這種技術(shù)可以增加分析結(jié)果的正確性,幫助用戶確定數(shù)據(jù)運(yùn)算。多位標(biāo)記法是對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,記錄原始數(shù)據(jù)出處、演算過程等的一種方法。此方法可細(xì)分為why、where、who等類別,分別記錄數(shù)據(jù)演算過程、出處、相關(guān)使用者等。發(fā)展到現(xiàn)在,數(shù)據(jù)溯源技術(shù)取得了巨大進(jìn)步,通常被應(yīng)用在云存儲(chǔ)的場(chǎng)景和一些文件進(jìn)行回復(fù)及溯源等。
3.2 數(shù)據(jù)加密算法
傳統(tǒng)的數(shù)據(jù)加密方法僅在系統(tǒng)和軟件層面對(duì)數(shù)據(jù)進(jìn)行保護(hù),滿足不了大數(shù)據(jù)時(shí)代的數(shù)據(jù)保護(hù)。經(jīng)過各界學(xué)者不斷研究,數(shù)據(jù)加密算法技術(shù)和大數(shù)據(jù)信息保護(hù)技術(shù)都已取得了顯著成果。
3.2.1 對(duì)稱加密算法。由于加密密鑰和解密密鑰相同,并且加密速度快,所以適應(yīng)給大量數(shù)據(jù)加密,因此,對(duì)大數(shù)據(jù)進(jìn)行加密可以選擇對(duì)稱加密算法。
采樣、搜集關(guān)鍵信息是對(duì)其處理的第一步,第二步可以直接采用加密算法對(duì)其進(jìn)行加密。具體過程為:①首先采樣,得到樣本;②其次加密,得到密文。
對(duì)稱加密算法簡(jiǎn)便,運(yùn)行速度快,但是加密的安全性不高。由于此算法對(duì)密鑰保管及分發(fā)等過程未采取任何保護(hù)措施,所以非授權(quán)者易截獲密鑰,并破解密文。
3.2.2 線性混合加密算法。DES算法和AES算法的線性組合是對(duì)對(duì)稱加密算法的一種常見的改進(jìn)。算法中有兩個(gè)對(duì)稱密碼算法組合對(duì)其加密,其運(yùn)算速度快,比單一使用一種算法安全性高,因?yàn)槊芪挠袃煞N算法構(gòu)成,而且兩種密文在設(shè)計(jì)上不同,所以可以抵抗各種攻擊。
3.2.3 密鑰混合加密算法?,F(xiàn)在該算法應(yīng)用廣泛,由于其能夠發(fā)揮對(duì)稱與非對(duì)稱加密算法的優(yōu)點(diǎn),并彌補(bǔ)了對(duì)稱加密算法的不足,所以在一定程度其安全性得到增強(qiáng)。由于該算法還不能確定對(duì)方身份,所以不能夠知道是不是可信的雙方在傳送加密信息。
3.3 身份認(rèn)證技術(shù)
身份認(rèn)證技術(shù)是指系統(tǒng)的用戶在進(jìn)入系統(tǒng)或訪問系統(tǒng)資源時(shí),系統(tǒng)確認(rèn)該用戶的身份是否真實(shí)、合法和唯一。身份認(rèn)證技術(shù)是確認(rèn)作者身份的有效方法。
身份認(rèn)證技術(shù)不僅可以驗(yàn)證操作者的身份,還可以增加黑客盜取信息的難度,增加非法用戶假冒合法用戶身份占用系統(tǒng)資源、刪除或篡改用戶存儲(chǔ)數(shù)據(jù)的難度,這也有利于大數(shù)據(jù)的隱私保護(hù),利于大數(shù)據(jù)的不斷發(fā)展。
3.4 訪問控制
為了能保證大數(shù)據(jù)的安全,必須防止非法用戶對(duì)非授權(quán)資源及數(shù)據(jù)的訪問、使用、修改和刪除等操作,并對(duì)合法用戶的訪問權(quán)限加以限制。
大數(shù)據(jù)快速發(fā)展,如何保證大數(shù)據(jù)的安全是現(xiàn)今各方研究的重點(diǎn)和熱點(diǎn)。本文從大數(shù)據(jù)基本概念、大數(shù)據(jù)結(jié)構(gòu)特點(diǎn)及大數(shù)據(jù)的安全需求來介紹大數(shù)據(jù),并闡述了大數(shù)據(jù)安全保護(hù)的關(guān)鍵技術(shù),分析了它們的優(yōu)缺點(diǎn)。
[1]Meng Xiaofeng,Ci Xiang.Big data management:Con?cepts,techniques and challenges[J].Journal of Computer Research and Development,2013(1):146-169.
Research on Data Security and Privacy Protection in Big Data Age
Li YingZhang Tao
(School of Software,Nanyang Normal University,Nanyang Henan 473061)
In recent years,large data to our life,work and study has brought a subtle influence.However,large data collection,storage and use of the process,are potentially risky,for which in recent years put forward a number of large data security protection technology.In this paper,the present situation is classified and analyzed,and their ad?vantages and disadvantages were analyzed.
big data;data security;privacy protection
TP311.13;TP309
A
1003-5168(2017)08-0021-02
2017-07-03
南陽師范學(xué)院校級(jí)青年項(xiàng)目“云計(jì)算模式下數(shù)據(jù)安全關(guān)鍵技術(shù)研究”(QN2015018)。
李英(1982-),女,碩士,講師,研究方向:分布式計(jì)算,云計(jì)算;張濤(1983-),男,碩士,講師,研究方向:計(jì)算機(jī)網(wǎng)格、云計(jì)算。