牛晨晨,周 暢,張 昪
(蘭州財(cái)經(jīng)大學(xué) 信息工程學(xué)院,甘肅 蘭州 730000)
大數(shù)據(jù)背景下的個(gè)人隱私保護(hù)研究
牛晨晨,周 暢,張 昪
(蘭州財(cái)經(jīng)大學(xué) 信息工程學(xué)院,甘肅 蘭州 730000)
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的快速發(fā)展,數(shù)據(jù)的規(guī)模呈爆炸式增長(zhǎng),標(biāo)志著大數(shù)據(jù)的時(shí)代已經(jīng)來臨。大數(shù)據(jù)在帶來巨大商業(yè)價(jià)值的同時(shí),也不可避免地會(huì)侵犯到個(gè)人隱私。首先就大數(shù)據(jù)與個(gè)人隱私的概念做了說明,其次分析了大數(shù)據(jù)對(duì)個(gè)人隱私造成的威脅,最后討論了個(gè)人隱私保護(hù)的技術(shù)和法律規(guī)范。
大數(shù)據(jù);個(gè)人隱私;隱私侵犯;隱私保護(hù)
大數(shù)據(jù)的概念最早出現(xiàn)在《Nature》雜志于2008年開辦的Big-Data專欄中。在“Big data:science in the petabyte era”一文中,大數(shù)據(jù)被定義為“代表著人類認(rèn)知過程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時(shí)間內(nèi)用當(dāng)前的技術(shù)、方法、手段和理論來獲取、存儲(chǔ)、管理和處理的數(shù)據(jù)”[1]。但是到目前為止業(yè)界對(duì)大數(shù)據(jù)依舊沒有統(tǒng)一的定義。
針對(duì)大數(shù)據(jù)的特征比較有共識(shí)的主要有三點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)[2]。除此之外國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)還提出了4V的特征,即在原來3V的基礎(chǔ)上又加入了價(jià)值性(Value)這一特性[3]。大數(shù)據(jù)的這些特征具體表現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)量:數(shù)據(jù)規(guī)模是巨大的,數(shù)據(jù)的出現(xiàn)往往是PB或ZB級(jí)的;
(2)數(shù)據(jù)多樣性:數(shù)據(jù)的來源不僅多,而且呈現(xiàn)不同的結(jié)構(gòu)特征,除了結(jié)構(gòu)化數(shù)據(jù)之外,也產(chǎn)生了半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù);
(3)數(shù)據(jù)速率:不僅數(shù)據(jù)的產(chǎn)生速度快而且傳播的速度也是非常迅速的,并且呈現(xiàn)流式的特征;
(4)數(shù)據(jù)價(jià)值:數(shù)據(jù)的價(jià)值總量是巨大的,但從中提取的價(jià)值密度卻是非常稀疏的。
1890年,Warren和Brandeis在《哈佛法律評(píng)論》上發(fā)表了《隱私權(quán)》一文,最早提出了隱私的概念。他們認(rèn)為公民的個(gè)人隱私權(quán)是一項(xiàng)獨(dú)特的權(quán)利,神圣不可侵犯,理應(yīng)受到應(yīng)有的保護(hù),以防他人無根據(jù)地發(fā)布個(gè)人想要保守的秘密[4]。
在大數(shù)據(jù)時(shí)代,我們常常將個(gè)人隱私與個(gè)人信息聯(lián)系起來,但是它們是完全不同的兩個(gè)概念,個(gè)人隱私包含在個(gè)人信息當(dāng)中。個(gè)人信息中除了那些被保護(hù)的信息外,其他的信息是可以在法律允許的情況下被開發(fā)利用的,而那些被保護(hù)的信息就是個(gè)人隱私。這里我們就把個(gè)人隱私定義為公民個(gè)人不想讓他人獲知的一些個(gè)人信息,比如個(gè)人身份信息、個(gè)人收入情況以及身體健康狀況等。Banisar等人把個(gè)人隱私分成了四類[5]:
(1)信息隱私:主要是個(gè)人的一些基本信息,包括個(gè)人的身份證號(hào)、收入狀況、婚姻情況以及身體健康狀態(tài)等;
(2)通信隱私:主要是個(gè)人與他人使用不同的通信方式進(jìn)行交流的情況,包括QQ、微信以及郵件等;
(3)空間隱私:主要是個(gè)人所擁有的特定空間,比如個(gè)人的具體家庭地址以及所出入的場(chǎng)所;
(4)身體隱私:主要是個(gè)人的身體受自己支配,保證不被他人或機(jī)構(gòu)進(jìn)行損害,比如藥物測(cè)試等。
大數(shù)據(jù)的發(fā)展是一把雙刃劍,它帶來巨大商業(yè)價(jià)值的同時(shí)也不可避免地對(duì)個(gè)人隱私造成了侵犯。就大數(shù)據(jù)所帶來的隱私威脅,主要牽涉以下幾個(gè)方面:
3.1 個(gè)人隱私信息非自愿上傳
大數(shù)據(jù)時(shí)代背景下,大部分的數(shù)據(jù)并非個(gè)人自愿上傳的,特別是在網(wǎng)上的一些行為數(shù)據(jù)。比如在互聯(lián)網(wǎng)上的一些瀏覽及搜索記錄等都被服務(wù)商所監(jiān)控,并將采集到的這些信息存儲(chǔ)起來,可能服務(wù)商利用這些信息用作他途,而這些卻都是在當(dāng)事人不知情的情況下發(fā)生的。
3.2 侵犯?jìng)€(gè)人隱私行為難以認(rèn)定
由于侵犯?jìng)€(gè)人隱私行為的方式是多樣的,而現(xiàn)有的法律又不是很完善,對(duì)于有些行為是否屬于侵權(quán)很難確定。比如用戶出于保護(hù)隱私的角度采用了匿名的方式,而一旦被侵權(quán)就很難收集到對(duì)自己有力的數(shù)據(jù),想找到真正的侵權(quán)人則更增加了難度。
3.3 個(gè)人隱私信息管理難度增加
由于信息技術(shù)的高速發(fā)展,人們所能獲得的數(shù)據(jù)也更加復(fù)雜,這就使得個(gè)人對(duì)于自己的隱私信息管理難度也增加了。具體體現(xiàn)在:在收集個(gè)人信息時(shí),面對(duì)這些海量的數(shù)據(jù)怎樣確保所收集到信息是完整的;而在存儲(chǔ)所收集到的個(gè)人隱私信息方面有什么更好的方法來防止他人的竊?。辉谑褂眠@些個(gè)人信息時(shí),如何在不增加過多管理工作量的基礎(chǔ)上,使不同的人能夠訪問到不同級(jí)別的數(shù)據(jù);在信息發(fā)布時(shí)如何在保證數(shù)據(jù)有效的同時(shí)不會(huì)泄露自己的隱私。
3.4 個(gè)人隱私保護(hù)技術(shù)難度增加
當(dāng)人們逐漸意識(shí)到要保護(hù)自己的隱私,并試圖將自己在網(wǎng)上的信息進(jìn)行藏匿時(shí),殊不知自己的行為,特別是在社交網(wǎng)絡(luò)上已經(jīng)留下了太多足跡[6]。大數(shù)據(jù)下,可以把那些單點(diǎn)看似不相關(guān)的信息連接起來,那么那些所謂的隱私就將不再是隱私了。單純的從技術(shù)層面就可以通過對(duì)數(shù)據(jù)的抽取和集成來獲取個(gè)人的隱私信息,現(xiàn)實(shí)中的“人肉搜索”就是典型的例子。對(duì)于那些動(dòng)態(tài)的海量數(shù)據(jù)即流數(shù)據(jù)如何來構(gòu)建隱私保護(hù)而不影響到數(shù)據(jù)的有效使用。這些問題都使得大數(shù)據(jù)下對(duì)于個(gè)人隱私保護(hù)技術(shù)的難度增加了。
3.5 多維靈活的個(gè)人隱私保護(hù)政策仍在摸索
現(xiàn)實(shí)生活中企業(yè)為了能夠提供更好的服務(wù)常常要求用戶提交自己的一些敏感信息,而用戶為了獲得更好的體驗(yàn)效果也會(huì)按照要求填寫,但是在數(shù)據(jù)的使用方面往往出現(xiàn)欺詐和隱私泄露的問題,這就使得用戶在注冊(cè)信息時(shí)會(huì)填寫虛假信息,但是虛假的信息就不能獲得服務(wù)商的一些特殊服務(wù),由此造成了惡性循環(huán)。因此如何來構(gòu)建多維靈活的個(gè)人隱私保護(hù)政策是大數(shù)據(jù)時(shí)代背景下的一個(gè)亟需解決的問題。
如果是僅僅為了保護(hù)個(gè)人的隱私信息而把有關(guān)自己的數(shù)據(jù)全部藏匿起來,遠(yuǎn)離大數(shù)據(jù)時(shí)代,就有點(diǎn)因小失大了。因此,針對(duì)大數(shù)據(jù)背景下的個(gè)人隱私保護(hù)本文提出了幾種技術(shù)來解決。
4.1 社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)
社交網(wǎng)絡(luò)是大數(shù)據(jù)的重要來源之一,其所產(chǎn)生的數(shù)據(jù)里面包含了大量的個(gè)人隱私信息。社交網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)不同于以往的結(jié)構(gòu)化數(shù)據(jù),它包含了大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。社交網(wǎng)絡(luò)中最常用的匿名技術(shù)主要是點(diǎn)匿名和邊匿名,其中點(diǎn)匿名采用的是在數(shù)據(jù)發(fā)布時(shí)隱藏用戶的基本特征和屬性,而邊匿名則采用的是隱藏用戶間的關(guān)系。侵權(quán)者常常會(huì)利用各節(jié)點(diǎn)的屬性進(jìn)而識(shí)別出用戶的個(gè)人信息。目前的邊匿名方案實(shí)現(xiàn)有效匿名的方式主要是基于邊的增刪。Zhang L J等主要是根據(jù)節(jié)點(diǎn)的度數(shù)不同來進(jìn)行分組,然后再?gòu)倪@些度數(shù)相同的節(jié)點(diǎn)中進(jìn)行邊的交換[7]。這種方法的最大弊端就是隨機(jī)增加的噪聲點(diǎn)過于離散稀疏化,存在邊匿名保護(hù)不足。另一個(gè)對(duì)社交網(wǎng)絡(luò)實(shí)現(xiàn)匿名保護(hù)技術(shù)的方法就是基于超級(jí)節(jié)點(diǎn)來對(duì)圖結(jié)構(gòu)進(jìn)行切割和聚集操作,這種匿名方案盡管能夠?qū)崿F(xiàn)邊的匿名,但卻是以數(shù)據(jù)可用性的犧牲為代價(jià)。
4.2 數(shù)字水印技術(shù)
數(shù)字水印技術(shù)指的是將標(biāo)識(shí)信息直接嵌入到數(shù)字載體中,并且不影響原來載體的使用,也不容易被察覺和篡改,這種方法常被用于對(duì)多媒體版權(quán)的保護(hù)?,F(xiàn)在也有針對(duì)數(shù)據(jù)庫(kù)和文檔的水印保護(hù)方案。但是由于數(shù)據(jù)的特性而有所不同,對(duì)數(shù)據(jù)庫(kù)和文檔的水印保護(hù)方案要求數(shù)據(jù)中存在多余的信息并且能夠容忍一定程度的誤差。Agrawal等人提出了在數(shù)據(jù)誤差允許的范圍之內(nèi),可以將少量水印信息嵌入到那些隨機(jī)選取的數(shù)據(jù)中相對(duì)不重要的位置上[8-9]。另外,還有一種方法可以通過將數(shù)據(jù)庫(kù)指紋信息嵌入到水印中[10],就可以識(shí)別出擁有該信息的對(duì)象,這種方法還能夠?qū)崿F(xiàn)在分布式環(huán)境下追蹤到泄密者。Agrawal等人提出的數(shù)據(jù)水印技術(shù)所具有的特性在大數(shù)據(jù)時(shí)代背景下前景非常廣闊,例如,大數(shù)據(jù)的起源證明就可以通過強(qiáng)健水印來實(shí)現(xiàn)。
4.3 差分隱私保護(hù)技術(shù)
現(xiàn)在人們對(duì)于自己隱私的保護(hù)越來越重視,因此,便出現(xiàn)了根據(jù)節(jié)點(diǎn)信息來推測(cè)個(gè)人信息的針對(duì)性的隱私獲取方法。2006年Dwork首次提出了一個(gè)統(tǒng)計(jì)隱私模型,也就是差分隱私保護(hù)來解決這個(gè)問題[11]。差分隱私保護(hù)最大的優(yōu)勢(shì)是它提供了更多的語義保證,無論侵權(quán)者采用怎樣的手段,都只能從個(gè)人數(shù)據(jù)中得出有限的結(jié)論。因?yàn)椴罘蛛[私保護(hù)有一個(gè)健壯的攻擊模型,而且還對(duì)隱私泄露的風(fēng)險(xiǎn)進(jìn)行了量化表示,也就是侵權(quán)者不能通過已有的信息來推斷未知的信息即使僅剩一條未知,這樣差分隱私保護(hù)使泄露的風(fēng)險(xiǎn)微乎其微。在差分隱私保護(hù)的模型中任意的添加或刪除一條記錄并不會(huì)改變輸出的結(jié)果,它的目的就是使隱私泄露的風(fēng)險(xiǎn)最小而使數(shù)據(jù)獲得最大化的利用。而且差分隱私保護(hù)技術(shù)由于自身具備與特定領(lǐng)域無關(guān)的特性,因此它能很好地與其他領(lǐng)域結(jié)合,目前已經(jīng)廣泛應(yīng)用于機(jī)器學(xué)習(xí)與密碼學(xué)等。由于差分隱私保護(hù)技術(shù)是基于數(shù)據(jù)失真技術(shù)的,其所加入的噪聲點(diǎn)與全局敏感性有關(guān)而與數(shù)據(jù)集的大小無關(guān),因此可能加入少量的隨機(jī)噪聲點(diǎn)就能夠達(dá)到很好的隱私保護(hù)目的。
4.4 數(shù)據(jù)訪問控制技術(shù)
目前已有服務(wù)商提供了一些方法讓用戶自己控制所發(fā)布的信息以及對(duì)哪些人可見,用戶可以自己制定約束權(quán)來限制所訪問的數(shù)據(jù)的多少。比如在騰訊公司的QQ即時(shí)通訊中,用戶就可以通過設(shè)置“所有人可見”“僅好友可見”“僅自己可見”來保護(hù)自己的隱私?,F(xiàn)在的企業(yè)所提供的軟件應(yīng)該對(duì)這些隱私進(jìn)行更細(xì)粒度的劃分,讓用戶自己來決定自己所發(fā)布的信息可以被哪些人看到,能被看到的信息有多少,這是大數(shù)據(jù)時(shí)代背景下對(duì)個(gè)人隱私保護(hù)的一種趨勢(shì)。
個(gè)人隱私保護(hù)除了先進(jìn)的技術(shù)手段之外,也需要有相應(yīng)的法律規(guī)范與其配套實(shí)施,這樣才能在隱私受到侵犯時(shí)有法可依、有法可循。
5.1 法律法規(guī)層面
截至目前我國(guó)還沒有專門針對(duì)公民個(gè)人隱私信息的立法,一些隱私保護(hù)的條文散見于憲法及其他法律中。但是隨著大數(shù)據(jù)時(shí)代的發(fā)展,相關(guān)立法也會(huì)在不久的將來出臺(tái)。本文以為法律的制定應(yīng)該從以下幾個(gè)方面著手:
(1)數(shù)據(jù)的收集:任何企業(yè)或組織對(duì)于公民個(gè)人信息的收集必須是正規(guī)的,而不是通過欺騙的手段獲得,在數(shù)據(jù)收集傳輸?shù)倪^程中要保證公民個(gè)人信息不被泄露。
(2)數(shù)據(jù)的使用:用戶信息的使用者為其行為承擔(dān)相關(guān)的責(zé)任,不能濫用公民的個(gè)人信息,而且在使用過程中應(yīng)該建立嚴(yán)格的訪問機(jī)制,確保隱私數(shù)據(jù)不被泄露。
(3)數(shù)據(jù)的發(fā)布:對(duì)發(fā)布公民個(gè)人信息,要有明確的界限,確保沒有泄露其隱私,而且發(fā)布的數(shù)據(jù)也是真實(shí)有效的。
(4)數(shù)據(jù)的共享:公民個(gè)人能夠與企業(yè)共享信息,但前提是必須簽訂有效力的法律合同或協(xié)議,確保個(gè)人隱私信息不被泄露,一旦泄露就可以通過簽訂的合同或協(xié)議追究其刑事責(zé)任。
5.2 行業(yè)規(guī)范層面
用戶是企業(yè)創(chuàng)造利潤(rùn)的來源,為了能夠吸引到更多的用戶,企業(yè)應(yīng)該在相應(yīng)的行業(yè)規(guī)范內(nèi)保護(hù)用戶的隱私信息不被泄露。行業(yè)規(guī)范應(yīng)該從以下幾個(gè)方面著手:
(1)數(shù)據(jù)訪問機(jī)制:數(shù)據(jù)的訪問應(yīng)該具有靈活性并且能夠確保訪問的數(shù)據(jù)質(zhì)量。
(2)遵守行業(yè)內(nèi)的隱私規(guī)范:不同的行業(yè)對(duì)于隱私的保護(hù)不同,有些行業(yè)可能會(huì)獲取到更多的用戶信息,這就要求行業(yè)內(nèi)建立更完善的規(guī)范制度來保障公民的個(gè)人隱私。
(3)企業(yè)與用戶間的信任:用戶只有對(duì)企業(yè)充滿信任,才會(huì)放心地提供自己的信息,因此企業(yè)自身應(yīng)該完善隱私保護(hù)機(jī)制,這樣企業(yè)才能良性地發(fā)展。
[1] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al.Big data:science in the petabyte era[J].Nature,2008,455( 7209):8-9.
[2] BRYANT R E,KATZ R H,LAZOWSKA.Big-data computing:creating revolutionary breakthroughs in commerce,science,and society[R/OL].(2008-12-22)[2016-11-16].http:∥cra.org/ccc/wp-content/uploads/sites/2/2015/05/Big_Data.pdf.
[3] BARWICK H.The"four Vs"of big data.[EB/OL].(2011-12-12)[2016-11-20].http:∥www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[4] WARREN S D,BRANDEISr L D.The right to privacy[J].Harvard Law Review,1890,4(5):193-220.
[5] BANISAR D,DAVIES S. Global trends in privacy protection:an international survey of privacy,data protection,and surveillance laws and developments[J].Journal of Computer&Information Law,1999,18(1):3-111.
[6] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[7] ZHANG L J,ZHANG W N.Edge anonymity in social network graphs[C]∥Proceedings of the International Conference on Computational Science and Engineering,Aug 29-31,2009,Vancouver,Canada.IEEE,2009:1-8.
[8] AGRAWAL R,HAAS P J,KIERNAN J.Watermarking relational data:framework,algorithms and analysis[J].The International Journal on Very Large Data Bases,2003,12(2):157-169.
[9] AGRAWAL R,KIERNAN J.Watermarking relational databases[C]∥Proceedings of the 28th International Conference on Very Large Data Bases,Aug 20-23,2002,H K,China:155-166.
[10] GUP F,WANG J M,LI D Y.Finger printing relational databases[C]∥Proceedings of the 2006 ACM Symposium on Applied Computing,Apr 23-27,2006,Dijon,France:487-492.
[11] DWORK C.Differential privacy[M]//BUGLIESI M,PRENEEL B,SASSONE V.Automata,Languages and Programming.Berlin:Springer,2006:1-12.
[責(zé)任編輯、校對(duì):李 琳]
Research on Personal Privacy Protection under Big Data Background
NIUChen-chen,ZHOUChang,ZHANGBian
(Department of Information and Engineering,Lanzhou University of Finance and Economics,Lanzhou 730000,China)
With the rapid development of the Internet, Internet of Things,cloud computing and other information technology,the scale of the data grows in an explosive way, which marks the advent of the era of big data.Big data bring great commercial value,but it will inevitably violate personal privacy.At first,this paper describes the concept of big data and personal privacy,then analyzes the threat of big data to personal privacy,and finally describes and discusses some of the personal privacy protection technologies and legal norms.
big data;personal privacy;privacy violation;privacy protection
2016-12-09
牛晨晨(1989-),男,河南周口人,碩士研究生,主要從事數(shù)據(jù)挖掘研究。
TP309
A
1008-9233(2017)01-0073-04