南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校 張 琪
大數(shù)據(jù)環(huán)境下的安全與隱私保護(hù)
南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校 張 琪
當(dāng)前時(shí)期,大數(shù)據(jù)已成為互聯(lián)網(wǎng)信息技術(shù)產(chǎn)業(yè)發(fā)展的大熱點(diǎn),人們的生產(chǎn)生活已經(jīng)離不開(kāi)手機(jī)和電腦,個(gè)人信息及隱私都存儲(chǔ)于互聯(lián)網(wǎng)上。為了防止信息的泄露,安全與隱私保護(hù)已成為大數(shù)據(jù)面臨的兩個(gè)重要問(wèn)題。本文分析了解決大數(shù)據(jù)安全與隱私保護(hù)問(wèn)題的關(guān)鍵技術(shù)。
大數(shù)據(jù);信息安全;隱私保護(hù)
大數(shù)據(jù)對(duì)當(dāng)前社會(huì)的影響已經(jīng)深入到方方面面,各大互聯(lián)網(wǎng)企業(yè)早就意識(shí)到大數(shù)據(jù)的重要性,在發(fā)展過(guò)程中收集了大量有用的數(shù)據(jù)。利用大數(shù)據(jù)的專(zhuān)業(yè)的處理技術(shù)提取有用的信息,這些信息有相當(dāng)?shù)膬r(jià)值,可用于公司下一步戰(zhàn)略發(fā)展的指導(dǎo)。不過(guò),大數(shù)據(jù)與生俱來(lái)地存在著及大的安全隱患,由于個(gè)人大量的數(shù)據(jù)存儲(chǔ)于互聯(lián)網(wǎng)上,如果泄漏很容易被用來(lái)分析個(gè)人的基本情況,相當(dāng)于沒(méi)有任何遮擋的暴露隱私。
大數(shù)據(jù)與傳統(tǒng)的信息安全問(wèn)題相比,面臨的挑戰(zhàn)性問(wèn)題有以下幾個(gè)。
1.1 大量個(gè)人數(shù)據(jù)的保護(hù)
大數(shù)據(jù)的存儲(chǔ)沒(méi)有得到妥善處理會(huì)對(duì)用戶(hù)的隱私造成極大的損害。根據(jù)隱私的外在表現(xiàn)形式,可將隱私分為抽象的隱私和具體的隱私,抽象的隱私是指隱私內(nèi)容是由一些數(shù)據(jù)、情報(bào)等形式所形成的,具體的隱私是指隱私的內(nèi)容能夠以具體形狀、行為等形式表現(xiàn)出來(lái)。人們面臨的威脅并不僅僅局限于個(gè)人隱私信息的泄漏,更在于不法分子基于大數(shù)據(jù)對(duì)個(gè)人狀態(tài)和行為的預(yù)測(cè)和分析。比如,通過(guò)分析用戶(hù)的所有微博、微信等信息,可以推測(cè)其生活習(xí)慣、消費(fèi)能力和個(gè)人喜好等。
當(dāng)前的互聯(lián)網(wǎng)公司眾多,大部分公司由于實(shí)力限制對(duì)用戶(hù)數(shù)據(jù)的收集、存儲(chǔ)、管理與使用等環(huán)節(jié)都缺乏規(guī)范,缺乏重視。用戶(hù)無(wú)法確定自己的信息是否保密,是否被他人不正當(dāng)利用,自己也不能控制自己的信息在不再使用時(shí)銷(xiāo)毀掉。
1.2 大量虛假信息的排除
在這個(gè)數(shù)據(jù)爆發(fā)時(shí)代,有用信息多,無(wú)用或虛假信息也不少。很多數(shù)據(jù)收集到后如果不通過(guò)分析判斷很難分辯出哪些是有用的,哪些是虛假無(wú)用的。這些數(shù)據(jù)有可能是人為刻意偽造的,想通用這些信息誤導(dǎo)分析者,使其做出對(duì)其有利的行為。這類(lèi)信息往往具有隱蔽性,混雜在其它真實(shí)數(shù)據(jù)當(dāng)中。比如,淘寶的一些商品的評(píng)價(jià),往往都是各類(lèi)評(píng)價(jià)都有的,但有些商家雇人刷好評(píng),試圖讓人們相信大多數(shù)人還是很看好這件商品的。這樣一些買(mǎi)家的真實(shí)體驗(yàn)的評(píng)價(jià)就被當(dāng)能少數(shù)人的意見(jiàn)而忽略。網(wǎng)絡(luò)中的虛假信息產(chǎn)生的影響是不可低估的,同時(shí)這種虛假信息是很難排除的。還有一種情況是由于信息經(jīng)過(guò)一斷時(shí)間后原始的信息來(lái)源發(fā)生變化,造成的信息失效。這種情況能可能過(guò)數(shù)據(jù)審核發(fā)現(xiàn),對(duì)無(wú)效數(shù)據(jù)進(jìn)行去除或更新。
由于當(dāng)前很多事務(wù)的辦理都在網(wǎng)上,網(wǎng)站或者軟件公司不能很好的保護(hù)用戶(hù)的信息,而且當(dāng)前個(gè)人自己信息的態(tài)度也不是很重視。總之,泄漏很容易,防范不可少。
2.1 軟件根據(jù)提供的服務(wù)要求用戶(hù)提供信息
現(xiàn)在大多數(shù)的手機(jī)軟件都會(huì)在安裝時(shí)開(kāi)啟一些功能來(lái)收集用戶(hù)的數(shù)據(jù)。比如QQ和微信之類(lèi)的社交軟件會(huì)自動(dòng)攻取你的聯(lián)系人信息,當(dāng)有聯(lián)系人也使用相同的軟件時(shí),軟件會(huì)自動(dòng)提醒你是否加為好友,并顯示其一些信息。有些瀏覽器和資訊軟件會(huì)要求用戶(hù)提供位置信息。而用戶(hù)對(duì)這些是沒(méi)有辦法選擇的,不得不接受這些服務(wù)。
2.2 個(gè)人隱私信息的自我泄漏
隨著互聯(lián)網(wǎng)的普及互聯(lián)網(wǎng)+的發(fā)展推動(dòng),越來(lái)越多的單位和個(gè)人傾向于在網(wǎng)上辦理各種事務(wù),交流和娛樂(lè)。人們?cè)诶镁W(wǎng)絡(luò)的時(shí)候?yàn)榱朔奖悖瑫?huì)主動(dòng)提交個(gè)人的真實(shí)姓名,照片甚至生日和家庭住址等信息,這種做法雖然顯得真誠(chéng),但也將自己的隱私暴露給了不該知道的人。
2.3 公司出于利益目地主動(dòng)收集或購(gòu)買(mǎi)數(shù)據(jù)
現(xiàn)在大數(shù)據(jù)已廣泛應(yīng)用于各行各業(yè)中了,每個(gè)行業(yè)對(duì)數(shù)據(jù)都有著及其的渴望。因?yàn)檫@些在數(shù)據(jù)能讓公司更加全面地了解客戶(hù)的特點(diǎn),了解市場(chǎng)的需求,了解當(dāng)前領(lǐng)域的發(fā)展動(dòng)向。所以公司就需要大量的隱私數(shù)據(jù)來(lái)了解真實(shí)的情況,因?yàn)檫@將帶來(lái)巨大的收益而同時(shí)付出的代價(jià)卻是極小了,所以他們會(huì)利用各種辦法收集、購(gòu)買(mǎi)所需數(shù)據(jù),這必然會(huì)造成大量的用戶(hù)隱私信息泄漏。
當(dāng)前迫切需要對(duì)大數(shù)據(jù)面臨的安全問(wèn)題進(jìn)行解決,對(duì)用戶(hù)隱私保護(hù)、數(shù)據(jù)內(nèi)容真實(shí)性驗(yàn)證,數(shù)據(jù)加密、訪問(wèn)控制等方面進(jìn)行技術(shù)研究。
3.1 數(shù)據(jù)匿名發(fā)布保護(hù)技術(shù)
要有效地保護(hù)用戶(hù)的數(shù)據(jù)安全和隱私,數(shù)據(jù)匿名發(fā)布保護(hù)技術(shù)是結(jié)構(gòu)化數(shù)據(jù)(或稱(chēng)關(guān)系數(shù)據(jù))的核心技術(shù)。用戶(hù)一次性、靜態(tài)地發(fā)布數(shù)據(jù)是大部分?jǐn)?shù)據(jù)匿名發(fā)布保護(hù)技術(shù)設(shè)定的前提。但現(xiàn)實(shí)情況下是多變的,用戶(hù)發(fā)布數(shù)據(jù)是持續(xù)多次的。因此攻擊者可以從不同的方式,網(wǎng)絡(luò)地址獲得各種信息,以此來(lái)組建特定用戶(hù)的信息體系。所以這一技術(shù)也不夠成熟,需要進(jìn)一步的研究。
3.2 社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)
社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)中,大量的是用戶(hù)隱私的非結(jié)構(gòu)化數(shù)據(jù)。這類(lèi)數(shù)據(jù)特點(diǎn)是有一定的相關(guān)性,一般竊取信息者都會(huì)利用相關(guān)屬性進(jìn)行分析整合,重塑個(gè)人的信息。由于社交網(wǎng)絡(luò)的圖結(jié)構(gòu)的特征,社交網(wǎng)絡(luò)中的典型匿名保護(hù)為用戶(hù)的用戶(hù)標(biāo)識(shí)匿名與屬性匿名,這些數(shù)據(jù)在發(fā)布時(shí)既隱藏用戶(hù)的標(biāo)識(shí)又隱藏了用戶(hù)間的關(guān)系,這樣攻擊者就不能通過(guò)節(jié)點(diǎn)屬性關(guān)系來(lái)識(shí)別用戶(hù)的身份信息。社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)面臨的問(wèn)題是,攻擊者根據(jù)用戶(hù)在社交網(wǎng)絡(luò)上公開(kāi)的信息來(lái)推測(cè)匿名用戶(hù),進(jìn)一步判斷用戶(hù)與其它用戶(hù)之間的連接關(guān)系。
3.3 數(shù)據(jù)水印技術(shù)
數(shù)據(jù)水印技術(shù)是將保護(hù)識(shí)別信息以隱蔽的方式插入原始數(shù)據(jù)中,且不破壞原結(jié)構(gòu)不影響使用。多用于圖片、文檔和多媒體數(shù)據(jù)中,這類(lèi)數(shù)據(jù)的特點(diǎn)是有一定的冗余信息且在使用中允許有一定的精度差。該技術(shù)可用于殘缺數(shù)據(jù)的驗(yàn)證,前提是殘余數(shù)據(jù)量達(dá)到一定的閾值,就可驗(yàn)證出水印,因此有廣闊的發(fā)展前景。
3.4 數(shù)據(jù)溯源技術(shù)
由于數(shù)據(jù)來(lái)源的多樣,信息來(lái)源變化較快,所以有必要記錄數(shù)據(jù)的來(lái)源及其傳播過(guò)程、處理方式等,為后期的挖掘與決策提供輔助支持。首先通過(guò)分析技術(shù)獲得大數(shù)據(jù)的來(lái)源,然后進(jìn)行安全策略和安全機(jī)制的處理,同時(shí)用戶(hù)卻不希望數(shù)據(jù)來(lái)源本身這個(gè)隱私被分析者得到,所以這是一個(gè)要解決的問(wèn)題。另一個(gè)問(wèn)題是數(shù)據(jù)有大規(guī)模、多樣性和高速性的特點(diǎn),使得標(biāo)記信息是否正確成為此技術(shù)自身的安全問(wèn)題。
3.5 自適應(yīng)的訪問(wèn)控制
由于大數(shù)據(jù)安全管理員可能缺乏一定的專(zhuān)業(yè)知識(shí),使得其無(wú)法為用戶(hù)提供相應(yīng)的訪問(wèn)數(shù)據(jù),針對(duì)這種情況提出了自適應(yīng)訪問(wèn)控制技術(shù)。通過(guò)統(tǒng)計(jì)學(xué)的方法定義了量化的算法,從而實(shí)現(xiàn)用戶(hù)隱私數(shù)據(jù)的可量化控制。
大數(shù)據(jù)時(shí)代的到來(lái),帶來(lái)了新的發(fā)展機(jī)遇,同時(shí)也帶來(lái)了其安全問(wèn)題。針對(duì)大數(shù)據(jù)環(huán)境下的安全和隱私保護(hù)問(wèn)題,行業(yè)內(nèi)的技術(shù)人員研究出了一些關(guān)鍵的技術(shù),但這些技術(shù)并不太完善還需要進(jìn)一步的研究與討論。大數(shù)據(jù)發(fā)展初期還需要政府提出相關(guān)的政策和法律規(guī)范來(lái)促進(jìn)和保護(hù),相信大數(shù)據(jù)會(huì)在未來(lái)更加安全、高效地為人們服務(wù)。
[1]馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014(1).
[2]謝邦昌,姜葉飛.大數(shù)據(jù)時(shí)代 隱私如何保護(hù)[J].中國(guó)統(tǒng)計(jì),2013(06):24-28.
[3]戈悅迎.大數(shù)據(jù)時(shí)代信息安全與公民個(gè)人隱私保護(hù)[J].中國(guó)信息界,2014(1).