李宗峰,黃劉生,沈 瑤,許 楊,聶熠文,楊 威
1(中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,合肥 230027) 2(中國科學(xué)技術(shù)大學(xué) 蘇州研究院,江蘇 蘇州 215123)
序列數(shù)據(jù)分為時間序列數(shù)據(jù)、DNA序列數(shù)據(jù)、語音數(shù)據(jù)、自然語言數(shù)據(jù)等.序列數(shù)據(jù)分類是目前數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點.本文將主要研究使用馬爾可夫模型對序列數(shù)據(jù)進行分類時的隱私保護.
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程[4].數(shù)據(jù)挖掘主要有分類、聚類和關(guān)聯(lián)分析等研究方向.分類就是確定對象屬于哪個預(yù)定義的目標(biāo)類[4].分類任務(wù)一般分為兩步,第一步根據(jù)輸入數(shù)據(jù)建立分類模型,第二步利用分類模型對待分類數(shù)據(jù)進行分類.常見的分類模型主要有決策樹模型、神經(jīng)網(wǎng)絡(luò)模型、基于規(guī)則的模型、支持向量機模型、貝葉斯模型等.
序列分類是分類算法的一個類別,其輸入是序列數(shù)據(jù),輸出是對這個序列的某個離散標(biāo)記.針對序列數(shù)據(jù),常見的分類方案有如下幾種:一是借助于序列數(shù)據(jù)的領(lǐng)域知識或者特點進行分類,這種方法存在通用性差、特點難以發(fā)現(xiàn)等特點;二是使用傳統(tǒng)的特征分類算法進行分類,使用這種方法需要找到有效的特征查找方法,但很多序列數(shù)據(jù)難以找到有效的特征;第三種是使用概率模型對數(shù)據(jù)進行分類,該方案在序列數(shù)據(jù)分類中比較常見,針對序列數(shù)據(jù),有較完善的數(shù)學(xué)基礎(chǔ);同時具有效率與準(zhǔn)確性較高,通用性強的優(yōu)勢.
馬爾可夫模型是一個描述隨機過程的概率模型.作為一種分類方法,馬爾科夫模型的準(zhǔn)確度和參與訓(xùn)練的具有代表性的數(shù)據(jù)量密切相關(guān).因此如何獲得足夠多的具有代表性的數(shù)據(jù)成為一個關(guān)鍵問題.
某機構(gòu)或個人獲得的序列數(shù)據(jù)往往是相同類型,會導(dǎo)致數(shù)據(jù)的代表性比較差,無法訓(xùn)練出有效的模型.此時比較好的方案是與多個機構(gòu)合作進行訓(xùn)練,這就可以獲得足夠多有代表性的數(shù)據(jù),所以多個機構(gòu)或個人合作訓(xùn)練模型是一種解決問題的有效辦法.
多個機構(gòu)或個人合作訓(xùn)練模型能夠獲得比較好的模型,但并不是所有的機構(gòu)或個人都同意直接共享數(shù)據(jù).例如某機構(gòu)持有購買的金融市場的金融產(chǎn)品價格數(shù)據(jù)或持有某些具有基因缺陷的人類基因信息.如果直接共享數(shù)據(jù),會造成這些機構(gòu)或個人在法律或者隱私等方面的擔(dān)憂,例如遺傳病的基因標(biāo)記[3].這種情況下,如何保證每個合作的機構(gòu)或個人的數(shù)據(jù)隱私是一個非常重要的考慮.
基于上述實際場景的需求,本文主要介紹了在多方參與者擁有序列數(shù)據(jù)并且保護各方隱私的情況下,共同訓(xùn)練馬爾科夫模型的方案.本文提出的方案不僅可以訓(xùn)練出傳統(tǒng)的一階馬爾可夫模型,還可以訓(xùn)練k階馬爾可夫模型,k階馬爾可夫模型可以提高模型的分類準(zhǔn)確度[5].此方案還能夠?qū)﹄S著時間變化的數(shù)據(jù)做到有效的處理,此外,此方案的各項開銷(計算、通信等開銷)比[2]中介紹的同態(tài)加密方案低,是一種高效可行的方案.
本文主要針對馬爾可夫模型的隱私保護進行討論.在這一節(jié)將首先對馬爾可夫模型進行簡要概述,接著對隱私保護方法進行簡要說明.本文采用的方案與目前已有的同態(tài)加密方案[2]相比,具有簡單、高效以及能夠更好的處理隨時間變化的數(shù)據(jù)等特點.
馬爾可夫模型是一種廣泛使用的統(tǒng)計模型,目前已經(jīng)成功應(yīng)用在語音識別、輸入法等領(lǐng)域.
馬爾可夫鏈分為連續(xù)時間馬爾可夫鏈與離散時間馬爾可夫鏈,本文中使用的馬爾可夫模型為離散時間馬爾可夫鏈.下面分別介紹一階與K階馬爾可夫模型.
馬爾科夫鏈?zhǔn)且幌盗袪顟B(tài)的集合,集合中每一個狀態(tài)發(fā)生的概率只與前一個狀態(tài)有關(guān),與集合中其他狀態(tài)無關(guān).這里為方便表示,將狀態(tài)集合表示為∑.例如,如果用S表示一個長度為n的序列,這個序列的第i個狀態(tài)表示為Si,這個狀態(tài)的值表示為si.這樣第i個狀態(tài)發(fā)生的概率可以如下表示
P(Si=si|Si-1=si-1,Si-2=si-2,…S1=s1)
=P(Si=si|Si-1=si-1)
即任何一個狀態(tài)發(fā)生的概率只與前一個狀態(tài)有關(guān),與前面其他狀態(tài)無關(guān).可以計算出序列S的概率
P(S)=P(Sn=sn|Sn-1=sn-1)P(Sn-1=sn-1|Sn-2=sn-2)…
簡化為:
P(S) =P(sn|sn-1)P(sn-1|sn-2)…P(s1)
上式的主要參數(shù)為每個狀態(tài)的先驗概率和狀態(tài)之間的轉(zhuǎn)移概率.對于任意狀態(tài)Si,其先驗概率為:
上式中num(si)表示狀態(tài)Si出現(xiàn)的次數(shù),∑sj∈∑count(sj)表示所有狀態(tài)出現(xiàn)的次數(shù)總和.
馬爾科夫模型對序列數(shù)據(jù)分類就是首先根據(jù)訓(xùn)練數(shù)據(jù)對每個類計算以下參數(shù):類中每個狀態(tài)發(fā)生的先驗概率,類中狀態(tài)之間的轉(zhuǎn)移概率.經(jīng)過訓(xùn)練之后每個類都有一個先驗概率向量和一個轉(zhuǎn)移概率矩陣.使用馬爾科夫模型的方法如下:對于任意一個新的序列數(shù)據(jù)S,分別使用每個類訓(xùn)練的參數(shù)計算S發(fā)生的概率,然后將所有計算所得的概率求最大值,概率最大值對應(yīng)的類就是S的類標(biāo).
K階馬爾科夫模型相對于一階馬爾科夫模型,每個狀態(tài)發(fā)生的概率不僅僅與前一個狀態(tài)有關(guān),而且與緊鄰的前k個狀態(tài)有關(guān),并且也只與前k個狀態(tài)有關(guān).這種情況下,每種狀態(tài)的發(fā)生概率變?yōu)椋?/p>
P(Si=s|Si-1=si-1,Si-2=si-2,…S1=s1)
=P(Si=si|Si-1=si-1,…,Si-k=si-k)
對于時間序列S其發(fā)生的概率為
K階馬爾可夫模型下,任何一個狀態(tài)的先驗概率為:
上式中num(s1,s2,…,sk-1,sk)表示序列s1,s2,…,sk-1,sk在訓(xùn)練數(shù)據(jù)集中出現(xiàn)的次數(shù),num(所有k長度序列)表示所有長度為k的序列在訓(xùn)練數(shù)據(jù)集中出現(xiàn)的次數(shù)總和.
對于任意狀態(tài)si與序列s1,s2,…,sk-1,sk的轉(zhuǎn)移概率為:
上式中num(s1,s2,…,sk-1,sk,si)是序列s1,s2,…,sk-1,sk,si出現(xiàn)的次數(shù).num(s1,s2,…,sk-1,sk)是序列s1,s2,…,sk-1,sk出現(xiàn)的次數(shù).
K階馬爾科夫模型與一階馬爾科夫模型類似.首先使用訓(xùn)練數(shù)據(jù)針對每個類計算出每個狀態(tài)的先驗概率以及狀態(tài)轉(zhuǎn)移矩陣.對于任意序列S,使用每個類的先驗概率和狀態(tài)轉(zhuǎn)移矩陣計算其發(fā)生的概率,概率最大的類標(biāo)即為序列S的類標(biāo).
隱私包括很多方面,例如數(shù)據(jù)隱私、模型參數(shù)隱私等.本文中隱私主要是指數(shù)據(jù)內(nèi)容隱私以及數(shù)據(jù)統(tǒng)計特征的隱私.本文中隱私為每個參與方所持有的數(shù)據(jù)內(nèi)容以及統(tǒng)計特征,所有參與方數(shù)據(jù)總體的統(tǒng)計特征并不是隱私.一直以來隱私保護問題依賴于數(shù)據(jù)分析方法[1].很多數(shù)據(jù)挖掘和機器學(xué)習(xí)算法通過擴展能夠做到保護隱私,這類拓展大多分為兩類.第一類是對數(shù)據(jù)加擾動,例如隨機化、旋轉(zhuǎn)或多重采樣[2,7-9,12,14].這類方法會造成一定的數(shù)據(jù)損失.第二類是在計算過程中使用密碼學(xué)方法對數(shù)據(jù)進行保護[2,10,11,13,15,16].這類方法理論上不會造成數(shù)據(jù)損失.本文方案屬于第二類.本文主要使用了群,哈希函數(shù),冪乘等來實現(xiàn)隱私保護.
目前已經(jīng)有馬爾可夫模型的隱私保護方案,[2]中提出的方案主要借助同態(tài)加密技術(shù)實現(xiàn)隱私保護,同態(tài)加密具有復(fù)雜、效率低等特點.本文提出的方案比較簡單,效率較高,能夠更好的處理隨時間變化的數(shù)據(jù).
本文提出的方案使用的隱私保護技術(shù)主要參考[1],要點包括可信第三方確定一個群,以及n+1(參與方數(shù)目為n)個密鑰s0,s1,s2…,sn,其中所有密鑰之和為0,其中群是公開的,G是一個p階循環(huán)群,p是素數(shù),g為生成元,G滿足decisional Diffie-Hellman(DDH)assumption.每個參與方獲得一個密鑰,剩下的一個密鑰分給最終模型訓(xùn)練者.對于任意參與者i,在t時刻加密其參數(shù)x,此時計算
Ci=gxH(t)Ki
其中,H(t)為公開的哈希函數(shù).Ki為參與者i的密鑰.每個參與者都計算Ci,并將Ci發(fā)送給最終模型訓(xùn)練者,最終模型訓(xùn)練者計算
化簡可得
本文的隱私保護主要借助于密碼學(xué)技術(shù),包括群運算以及哈希函數(shù)等.本方案使用的密碼學(xué)技術(shù)已經(jīng)在[1]中進行了證明.
本方案為在保護各參與方隱私的前提下合作訓(xùn)練馬爾科夫模型.簡化起見,假設(shè)參與方有A與B,其中A為最終的模型訓(xùn)練者,A與B分別掌握一定數(shù)量的序列數(shù)據(jù),A與B希望合作訓(xùn)練馬爾可夫模型,下面將針對一階與k階馬爾科夫模型進行說明.
訓(xùn)練馬爾可夫模型的核心為:對每一類序列數(shù)據(jù),計算每一個狀態(tài)的先驗概率和狀態(tài)之間的轉(zhuǎn)移概率.
此處使用C表示訓(xùn)練集合中序列數(shù)據(jù)所有類的集合,對于第i個類使用ci作為類標(biāo).
對任意狀態(tài)s,其在類ci中的先驗概率為
上式中num(s,ci)表示類ci中狀態(tài)s出現(xiàn)的次數(shù),num(ci)表示類ci中所有狀態(tài)出現(xiàn)的次數(shù)的總和.
當(dāng)數(shù)據(jù)分布在A和B兩方時,類ci中狀態(tài)s的先驗概率為
上式中,numA(s,ci)表示A的數(shù)據(jù)上,類ci中狀態(tài)s出現(xiàn)的次數(shù),numB(s,ci)表示B的數(shù)據(jù)上,類ci中狀態(tài)s出現(xiàn)的次數(shù),numA(ci)表示A的數(shù)據(jù)上,類ci中所有狀態(tài)出現(xiàn)的次數(shù)的總和,numB(ci)表示B的數(shù)據(jù)上,類ci中所有狀態(tài)出現(xiàn)的次數(shù)的總和.
訓(xùn)練模型,就是計算numA(s,ci)+numB(s,ci)和numA(ci)+numB(ci)的值。此處借鑒了參考文獻[1]中一種處理方法。此方法的正確性已經(jīng)在文獻中進行了證明.
除A、B外,還需有一個可信第三方T,T首先生成群G以及三個密鑰keyA、keyB、keyC,群G生成元為g,階為p,keyA+keyB+keyC=0.T分發(fā)keyA給A,分發(fā)keyB給B,并將訓(xùn)練最終模型的密鑰keyC給A.A與B分別在各自本地數(shù)據(jù)上進行訓(xùn)練,計算每個類中各個狀態(tài)的先驗概率,不同狀態(tài)之間的轉(zhuǎn)移概率等參數(shù).A、B針對每一個參數(shù)計算對應(yīng)的加密參數(shù),例如A計算的某個參數(shù)值為parA,B計算的對應(yīng)的參數(shù)值為parB,則A計算加密參數(shù)為basekeyA*gparA,B計算結(jié)果為basekeyB*gparB,,其中base為A與B共享的哈希函數(shù)H(t):Z→G,t為當(dāng)前時間.A、B將各自計算所得的結(jié)果發(fā)給最終模型訓(xùn)練者A,A將各個參與方的計算結(jié)果與basekeyC相乘得到V=basekeyC*basekeyA*gparA*basekeyB*gparB=gparA+parB,V與g已知,可計算得到parA+parB.將模型所有參數(shù)用上述流程計算可得到最終的模型.算法總結(jié)如算法1所示
算法1.隱私保護的一階馬爾可夫序列分類
輸入:A有數(shù)據(jù)集DA,B有數(shù)據(jù)集DB,T為可信第三方
輸出:保護DA與DB隱私前提下A、B每隔PT時刻合作訓(xùn)練馬爾可夫模型
1 在時刻t,T向A與B分發(fā)密鑰以及g等參數(shù).
2 每隔PT時刻(每一輪):
3 for 每個類cido
4 A在DA上計算類ci中每個狀態(tài)出現(xiàn)的次數(shù).
5 B在DB上計算類ci中每個狀態(tài)出現(xiàn)的次數(shù).
6 for每個狀態(tài)sado:
7 A在DA上計算類ci中sa出現(xiàn)的次數(shù)
numA(Sa,ci)
8 B在DB上計算類ci中sa出現(xiàn)的次數(shù)
numB(Sa,ci)
9 for每個狀態(tài)sbdo:
10 A在DA上計算類ci中sasb出現(xiàn)的次數(shù)
numB(aa,sb,ci)
11 B在DB上計算類ci中sasb出現(xiàn)的次數(shù)
numB(sa,sb,ci)
12 endfor
13 endfor
14 endfor
15 A、B各自計算上面計算的所有次數(shù)對應(yīng)的加密參數(shù),B將計算的參數(shù)發(fā)送給A,A利用B的參數(shù)計算獲得最終模型.
K階馬爾可夫模型與一階馬爾科夫模型類似,但需將每個狀態(tài)的關(guān)聯(lián)狀態(tài)向前進行了拓展,所以K階馬爾可夫模型的需要計算更多的參數(shù).
對于每一個K長度的序列:s1,s2,…,sk,對于每一個類ci,先驗概率為:
上式中num(s1,s2,…,sk,ci)表示類ci中串s1,s2,…,sk出現(xiàn)的次數(shù),num(所有K長度序列)表示串ci中所有K長度序列的數(shù)量.
對于任何一個狀態(tài)si以及k長度串:s1,s2,…,sk,狀態(tài)si到s1,s2,…,sk的轉(zhuǎn)移概率為:
K階馬爾可夫?qū)?yīng)的訓(xùn)練方案與一階馬爾可夫模型的訓(xùn)練方案基本一致,不同點為需要計算的模型參數(shù)數(shù)目會根據(jù)K變化,需要計算更多的先驗概率和轉(zhuǎn)移概率.
使用單核CPU主頻為2.4GHz,內(nèi)存為512M,運行Ubuntu 16.04系統(tǒng)的主機.使用C++進行編程,借助Crypto++庫和Linux Socket.
實驗數(shù)據(jù)為人和老鼠的基因數(shù)據(jù),數(shù)據(jù)由1提供的鏈接下載,數(shù)據(jù)為真實數(shù)據(jù).根據(jù)數(shù)據(jù)的特點,為方便實驗,對數(shù)據(jù)進行了預(yù)處理.對缺失數(shù)值采取刪除處理,并去除一些無用信息后將數(shù)據(jù)整理成每行最多20個,最少18個.根據(jù)對實驗的相關(guān)參數(shù)的分析,將數(shù)據(jù)組織成20、100、200、1000行四個訓(xùn)練數(shù)據(jù)集,標(biāo)記為D1、D2、D3、D4.
為綜合評估本方案,從方案的誤差、時間效率以及與類似方案的對比進行分析.
此處誤差是指多方合作訓(xùn)練馬爾科夫模型與單獨在數(shù)據(jù)集上訓(xùn)練馬爾科夫模型所獲得的兩個模型的誤差.
由理論分析可知,使用此方案訓(xùn)練的馬爾科夫模型沒有誤差.但是實際實驗中仍然可能產(chǎn)生誤差.對過程分析可知需要計算H(t)k這個參數(shù),其中所有K相加為0,故存在K為負(fù)數(shù),此時H(t)k為實數(shù),實數(shù)運算中就會產(chǎn)生誤差.為了避免此類誤差,有兩種解決方法,一種是對所有K加一常數(shù),使其為非負(fù)數(shù),另一種方法是將K當(dāng)成其絕對值,然后標(biāo)記計算結(jié)果,改進計算方式.本實驗使用第二種方法.經(jīng)過實驗驗證,本方案在所選的數(shù)據(jù)集上合作訓(xùn)練馬爾科夫模型與單獨訓(xùn)練馬爾科夫模型相比無誤差.
方案的時間效率主要考慮整體時間開銷,以及模型訓(xùn)練各階段的時間開銷.
表1 一階運行時間實驗結(jié)果Table 1 Experimental result of running time with order 1
對方案的時間效率進行分析,設(shè)計兩組實驗.第一組實驗主要測試不同參數(shù)以及不同數(shù)據(jù)集上實驗的時間開銷.參數(shù)主要有群的階的位數(shù)、可信第三方分發(fā)的密鑰位數(shù)以及馬爾科夫模型階數(shù),實驗只訓(xùn)練一輪.實驗結(jié)果如表1表2所示,實驗結(jié)果中時間單位為秒.
表2 二階運行時間實驗結(jié)果Table 2 Experimental result of running time with order 2
從表1表2可以看到,在其它參數(shù)相同的條件下,馬爾科夫模型階數(shù)、群的階的位數(shù)、密鑰的位數(shù)、數(shù)據(jù)集的規(guī)模分別增長時,訓(xùn)練模型的時間開銷都會增長.此實驗只進行一輪,可以看出只有一輪的情況下,有些參數(shù)情況時時間開銷較小,實際使用的可行性較高.
第二組實驗主要探索模型訓(xùn)練各階段時間開銷,將模型訓(xùn)練過程分為三階段:可信第三方生成及分發(fā)密鑰等參數(shù)、各方本地訓(xùn)練并發(fā)送數(shù)據(jù)給最終模型訓(xùn)練者、最終模型訓(xùn)練者計算模型,三階段依次記為T1、T2、T3.群G的階為2048位,密鑰長度為8位.實驗結(jié)果如表3所示,實驗結(jié)果中時間單位為秒.
表3 各階段時間實驗結(jié)果Table 3 Experimental result of time cost in every period
從表3可看到T1階段的時間開銷最大,其他兩個階段時間開銷比較小.如果是多輪訓(xùn)練,則只會增加T2和T3階段,時間開銷增長較少,所以隨著輪數(shù)增加,本方案優(yōu)勢較高.需要指出的是本實驗中群的階為2048位,當(dāng)群的階為1024位時,則T1會有較大幅度的較少,同理,如果將群的階設(shè)置為4096位,在本實驗環(huán)境中花費六分鐘以上仍未完成T1階段.從本實驗結(jié)果可以看出,雖然T1時間較長,但是T2、T3比較小,實際使用有較高的可行性.
目前隱私保護的馬爾科夫模型訓(xùn)練方案還有同態(tài)加密方案[2].其主要借助于secure logsum協(xié)議,其實驗中使用ElGamal加密系統(tǒng)作為同態(tài)加密工具.本實驗數(shù)據(jù)集D1與同態(tài)加密方案測試的第一個數(shù)據(jù)集的數(shù)量相比近似相同,此處將使用其實驗數(shù)據(jù)與本文方案做比較.實驗結(jié)果如圖1所示,柱狀體的高度表示時間開銷,單位為秒.
圖1 兩種方案時間開銷Fig.1 Time cost of two method
從圖中可以看出,隨著輪數(shù)增加,本文方案具有較小的增長,同態(tài)加密方案則是增加一個固定的數(shù)值.通過對兩個方案進行比較可以知道,兩個方案使用了類似的技術(shù),而從分層的角度看,同態(tài)加密方案有兩層,而本文方案只有一層,本文方案對本問題具有更強的針對性,同態(tài)加密方案有較高的通用性.
本實驗?zāi)M了在保護各參與方數(shù)據(jù)隱私的前提下合作訓(xùn)練馬爾可夫模型的方案.誤差分析說明了方案的正確性,時間效率實驗指出本方案具有較高的可行性,與已有方案的比較試驗證明了本方案具有較高的時間效率優(yōu)勢.
通過對方案分析和對實驗結(jié)果進行探究可以對本方案進行加強和改進,例如在程序流程上可以探索各方合作時如何針對不同的數(shù)據(jù)集調(diào)整訓(xùn)練流程,減小訓(xùn)練時間.另外在某些數(shù)據(jù)量比較大的時候可以考慮把單個參與方虛擬為多個參與方,將數(shù)據(jù)均分到虛擬參與方,減少單個參與方在計算大數(shù)時的較高開銷.
本文首先介紹了用于序列數(shù)據(jù)分類的馬爾科夫模型,然后介紹了隱私保護的馬爾科夫模型,進而提出了一個在隱私保護情況下訓(xùn)練馬爾科夫模型的方案,并針對提出的方案進行實驗. 實驗結(jié)果顯示此方案具有比較好的準(zhǔn)確度和相對較小的開銷.后面將會探索對實驗方案進行改進,在可信第三方發(fā)放密鑰之后,將研究密鑰隨著時間變化,每個參與方的密鑰將會有一個以初始密鑰作為輸入的函數(shù)產(chǎn)生,所有參與方的密鑰都會隨著時間變化,但是仍然保持所有參與方密鑰之和為零的特性.還將探索如何利用現(xiàn)代計算機特性,提高運算效率.
[1] Shi E,Chan H T H,Rieffel E,et al.Privacy-preserving aggregation of time-series data[C].Annual Network & Distributed System Security Symposium(NDSS),Internet Society,2011.
[2] Guo S,Zhong S,Zhang A.A privacy preserving Markov model for sequence classification[C].Proceedings of the International Conference on Bioinformatics,Computational Biology and Biomedical Informatics,ACM,2013:561.
[3] Jha S,Kruger L,Shmatikov V.Towards practical privacy for genomic computation[C].Security and Privacy,SP 2008,IEEE Symposium on.IEEE,2008:216-230.
[4] Tan Pang-ning,Michael Steinbach,Vipin Kumar.Introduction to data mining[M].Beijing:Beijing Posts and Telecom Press,2011.
[5] Andorf C,Silvescu A,Dobbs D,et al.Learning classifiers for assigning protein sequences to gene ontology functional families[J].Structural Induction:Towards Automatic Ontology Elicitation,2008:39.
[6] Chen K,Liu L.Privacy preserving data classification with rotation perturbation[C].Data Mining,F(xiàn)ifth IEEE International Conference on.IEEE,2005:589-592.
[7] Agrawal R,Srikant R.Privacy-preserving data mining[C].ACM Sigmod Record,ACM,2000,29(2):439-450.
[8] Huang Z,Du W,Chen B.Deriving private information from randomized data[C].Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data,ACM,2005:37-48.
[9] Du W,Zhan Z.Building decision tree classifier on private data[C].Proceedings of the IEEE International Conference on Privacy,Security and Data Mining-Volume 14,Australian Computer Society,Inc.,2002:1-8.
[10] Lindell Y,Pinkas B.Privacy preserving data mining[C].Annual International Cryptology Conference,Springer Berlin Heidelberg,2000:36-54.
[11] Yan Cai-rong,Zhu Ming,Shi You-qun.Mining sequential patterns based on privacy preserving [J].Journal of Chinese Computer Systems,2008,29(7):1241-1244.
[12] Lu Cheng-lang,Liu Ming-yong,Wu Zong-da,et al.Personal privacy protection scheme for network information systems[J].Journal of Chinese Computer Systems,2015,36(6):1291-1295.
[13] Lin Shao-cong,Ye A-yong,Xu Li.K-anonymity location privacy protection method with coordinate transformation[J].Journal of Chinese Computer Systems,2016,37(1):119-123.
[14] Qian Ping,Wu Meng,Liu Zhen.A method on homomorphic encryption privacy preserving for cloud computing[J].Journal of Chinese Computer Systems,2015,36(4):840-844.
[15]Xu Wei-jiang,Huang Liu-sheng,Luo Yong-long,et al.Privacy-preserving range searching [J].Journal of Chinese Computer Systems,2009,30(10):1972-1979.
附中文參考文獻:
[4] Tan Pang-ning,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2011.
[11] 燕彩蓉,朱 明,史有群.基于隱私保護的序列模式挖掘[J].小型微型計算機系統(tǒng),2008,29(7):1241-1244.
[12] 盧成浪,劉明雍,吳宗大,等.針對網(wǎng)絡(luò)信息系統(tǒng)的個人隱私保護方案[J].小型微型計算機系統(tǒng),2015,36(6):1291-1295.
[13] 林少聰,葉阿勇,許 力.基于坐標(biāo)變換的k匿名位置隱私保護方法[J].小型微型計算機系統(tǒng),2016,37(1):119-123.
[14] 錢 萍,吳 蒙,劉 鎮(zhèn).面向云計算的同態(tài)加密隱私保護方法[J].小型微型計算機系統(tǒng),2015,36(4):840-844.
[15] 徐維江,黃劉生,羅永龍,等.保護私有信息的范圍搜索算法[J].小型微型計算機系統(tǒng),2009,30(10):1972-1979.