吳宗大 劉曦洋 趙又霖
數(shù)字圖書館的用戶隱私可分為兩種類型[1-2]:(1)用戶資料隱私,具體包括身份標(biāo)識(shí)(如身份證號(hào)、手機(jī)號(hào)等)和背景資料(如職業(yè)、收入、性別等);(2)用戶行為隱私,即在使用圖書信息服務(wù)(如圖書檢索服務(wù)、圖書推薦服務(wù)等)時(shí),用戶行為(即服務(wù)請(qǐng)求)蘊(yùn)含的敏感興趣偏好(如圖書檢索服務(wù)請(qǐng)求蘊(yùn)含用戶偏好的圖書類別)。這些敏感信息被不可信的數(shù)字圖書館服務(wù)器端大量收集,成為隱私泄露的主要根源[3-4]。用戶資料隱私安全可通過數(shù)據(jù)加密技術(shù)給予較好的保證,即用戶資料加密后再存放到數(shù)字圖書館的服務(wù)器端,即使泄露,也難以被他人讀懂[5-6]。然而,數(shù)據(jù)加密并不適用于用戶行為隱私。這是因?yàn)閳D書館信息服務(wù)需要服務(wù)器端的支持,加密用戶服務(wù)請(qǐng)求數(shù)據(jù)會(huì)使得服務(wù)器無法“讀懂”用戶行為,從而使得圖書信息服務(wù)變得不可用[7-9]。所以,相比于用戶資料隱私,由于不允許改變圖書館現(xiàn)有信息服務(wù)的質(zhì)量,用戶行為隱私問題難以通過傳統(tǒng)加密技術(shù)加以解決[10],因而,更富有挑戰(zhàn)性和研究?jī)r(jià)值。
目前,用戶行為隱私保護(hù)研究主要有兩個(gè)方向,即基于法律法規(guī)的角度和基于技術(shù)方法的角度。法律法規(guī)雖然能有效緩解數(shù)字圖書館用戶行為隱私安全問題[11-12],但現(xiàn)有法律法規(guī)還不夠系統(tǒng)全面(尤其是我國(guó)),并且層出不窮的用戶隱私泄露事件[13]表明,法律法規(guī)并不能從根本上解決數(shù)字圖書館的用戶行為隱私安全問題。本文將主要從技術(shù)角度,分析現(xiàn)有方法的特點(diǎn)以及它們?cè)跀?shù)字圖書館行為隱私保護(hù)中的應(yīng)用局限性,以確立理想的圖書館用戶行為隱私保護(hù)方法應(yīng)滿足的應(yīng)用目標(biāo),為后續(xù)該問題的研究和解決提供參照。
圖書館界亦有學(xué)者嘗試從技術(shù)方法角度解決用戶隱私安全問題(包括用戶行為隱私安全問題)。例如,邵志毅等人[3-4]探討了現(xiàn)有信息安全技術(shù)(如加密法、訪問控制、用戶認(rèn)證等)在數(shù)字圖書館中的一些具體應(yīng)用。馬曉亭等人[14]從完整性、機(jī)密性、可用性三個(gè)維度,對(duì)圖書館敏感數(shù)據(jù)的保護(hù)進(jìn)行了研究,分析了大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的安全需求,并據(jù)此設(shè)計(jì)了一個(gè)圖書館敏感數(shù)據(jù)分析與可視化管理系統(tǒng)平臺(tái)。但總體來說,這些技術(shù)方法還不夠深入,且缺乏系統(tǒng)性和整體性,并且它們更多是針對(duì)用戶資料隱私(即它們通常假定服務(wù)器端可信),基本沒有考慮用戶行為隱私保護(hù)問題,因而無法應(yīng)用于保護(hù)數(shù)字圖書館用戶行為隱私安全。從技術(shù)方法角度看,對(duì)數(shù)字圖書館用戶的行為隱私保護(hù)研究還處于初步階段。
針對(duì)不可信網(wǎng)絡(luò)環(huán)境下的用戶隱私保護(hù)問題,計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)者給出了許多有效方法,其中,具有代表性的方法有:加密法、假名法、掩蓋法和模糊法等,這些方法各具特點(diǎn),同時(shí)在用戶行為隱私保護(hù)應(yīng)用中存在不同的局限性。
加密法是指通過加密用戶服務(wù)請(qǐng)求相關(guān)數(shù)據(jù),使其對(duì)不可信服務(wù)器端不可見,從而達(dá)到隱私保護(hù)的目的[15]。因此,加密法能在確保信息服務(wù)基本可用的前提下,不泄露用戶服務(wù)請(qǐng)求背后蘊(yùn)含的用戶隱私,從而實(shí)現(xiàn)較為嚴(yán)格的隱私保護(hù)。具體地,加密法可進(jìn)一步分為:基于隱私信息檢索(Private Information Retrieval,PIR協(xié)議)的隱私保護(hù)和基于密碼協(xié)議的隱私保護(hù)。PIR協(xié)議[16]最早用于安全地訪問外包網(wǎng)絡(luò)環(huán)境下用戶數(shù)據(jù),它允許用戶在服務(wù)器端無法獲知其查詢請(qǐng)求的前提下,從外包數(shù)據(jù)庫(kù)中檢索到目標(biāo)數(shù)據(jù)。PIR協(xié)議經(jīng)改造后,也可應(yīng)用于保護(hù)用戶行為隱私。但PIR協(xié)議由于算法復(fù)雜度高,且使得服務(wù)器無法進(jìn)行定向文本廣告投放,限制了它在數(shù)字圖書館信息服務(wù)中的可用性,難以有效保護(hù)數(shù)字圖書館用戶行為隱私安全。此外,基于PIR協(xié)議的加密法也適用于位置服務(wù)(Location Based Service,LBS)中的用戶隱私保護(hù)。例如,Ghinita等人[17]提出了基于PIR協(xié)議的LBS最近鄰查詢方案;Papadopoulos等人[18]關(guān)注比最近鄰查詢更通用的K近鄰查詢,設(shè)計(jì)了一個(gè)需要安全硬件輔助的PIR協(xié)議。以上研究?jī)H針對(duì)傳統(tǒng)空間查詢,此外,還有一些研究關(guān)注其他的LBS空間查詢,如最短路徑查詢[16]。但是由于PIR協(xié)議需要調(diào)用一些復(fù)雜度較高的密碼運(yùn)算操作,使得它只能支持有限LBS數(shù)據(jù)訪問模式[19],因而難以應(yīng)用于圖書館位置服務(wù)?;诿艽a協(xié)議的用戶隱私保護(hù)方法主要針對(duì)文本檢索服務(wù),主要有基于關(guān)鍵詞檢索的對(duì)稱密鑰加密[20]和基于關(guān)鍵詞檢索的公用密鑰加密[21]。通過擴(kuò)展,基于密碼協(xié)議的用戶隱私保護(hù)方法能幫助用戶檢索到完全滿足關(guān)鍵詞布爾關(guān)系條件表達(dá)式的目標(biāo)文本文檔。然而,正如Pang等人[22-23]所指出,密碼協(xié)議難以應(yīng)用于現(xiàn)代文本檢索服務(wù),因?yàn)楝F(xiàn)代文本檢索需要檢索出與給定用戶查詢最相似的文本文檔(即需支持文本相似性檢索,而不是確定性檢索)。因而,密碼協(xié)議也難以應(yīng)用于現(xiàn)代數(shù)字圖書館文本檢索服務(wù)以保護(hù)用戶行為隱私。
綜上所述,基于加密法的隱私保護(hù)技術(shù)沒有考慮數(shù)字圖書館用戶隱私安全度量問題,無法實(shí)現(xiàn)對(duì)數(shù)字圖書館用戶行為隱私的完全保護(hù)。更重要的是,該類方法不僅要求引入額外的硬件和高復(fù)雜度的算法,而且還要求改變網(wǎng)絡(luò)服務(wù)器端的信息服務(wù)算法,從而引起整個(gè)網(wǎng)絡(luò)信息服務(wù)平臺(tái)架構(gòu)的改變。在現(xiàn)代數(shù)字圖書館中,各類信息服務(wù)作為平臺(tái)的重要組成部分而存在,顯然不能因用戶行為隱私保護(hù)要求而改變整個(gè)平臺(tái)架構(gòu)。因此,加密法無法滿足數(shù)字圖書館用戶行為隱私保護(hù)的可用性約束。
假名法是指將用戶服務(wù)請(qǐng)求中的用戶身份標(biāo)識(shí)用臨時(shí)假名代替,以打破網(wǎng)絡(luò)用戶和服務(wù)請(qǐng)求之間的自然聯(lián)系[24]。假名法通常采用集中式體系結(jié)構(gòu),即通過可信的第三方匿名服務(wù)器完成假名的發(fā)布、使用、撤銷等操作,該類技術(shù)容易集成到已有網(wǎng)絡(luò)服務(wù)中用以保護(hù)用戶行為隱私,并且已在許多網(wǎng)絡(luò)信息系統(tǒng)中得到了應(yīng)用。然而,該類技術(shù)嚴(yán)重依賴于假名有效性。為此,Sun等人[24]和李鳳華等人[25]提出設(shè)置混合區(qū)以增強(qiáng)假名有效性,混合區(qū)是指多個(gè)用戶集中更換假名的特定區(qū)域,處在混合區(qū)內(nèi)的用戶不提交網(wǎng)絡(luò)服務(wù)請(qǐng)求也不接收任何服務(wù)信息,從而增加攻擊者追蹤用戶的難度。Gao等人[26]進(jìn)一步提出了K匿名混合區(qū)模型,即混合區(qū)內(nèi)同時(shí)改變假名的用戶數(shù)不少于整數(shù)K,從而進(jìn)一步改善了用戶隱私保護(hù)效果。然而,混合區(qū)內(nèi)用戶無法通信,不可避免地會(huì)降低信息服務(wù)的質(zhì)量。針對(duì)該問題,Arain等人[27]和Liu等人[28]提出了各自的多混合區(qū)部署方案,以在隱私安全和服務(wù)質(zhì)量之間取得較好的平衡。然而,假名法也受到了許多質(zhì)疑。Narayanan等人[29]和Shang等人[30]分析了假名法對(duì)用戶隱私保護(hù)的不足,并通過實(shí)驗(yàn)結(jié)果表明,通過假名法收集的用戶數(shù)據(jù)往往難以保證質(zhì)量,因?yàn)樵跊]有確認(rèn)身份的情況下,用戶可能會(huì)提交無用數(shù)據(jù)。為此,如果直接將假名法應(yīng)用于數(shù)字圖書館保護(hù)讀者行為隱私安全,可能會(huì)損害數(shù)字圖書館各類信息服務(wù)的服務(wù)質(zhì)量。
吳振剛等人[19]和張學(xué)軍等人[31]的研究成果表明,僅僅采用假名并不能充分地保護(hù)用戶隱私,因?yàn)樗]有對(duì)用戶服務(wù)請(qǐng)求數(shù)據(jù)(如查詢位置或查詢文本)做任何更改,使得攻擊者根據(jù)用戶服務(wù)請(qǐng)求本身,仍有很大概率推測(cè)出用戶真實(shí)身份,即假名法難以抵抗數(shù)據(jù)挖掘技術(shù)的攻擊(即無法滿足隱私安全性約束)。更重要的是,由于用戶身份被隱藏,假名法對(duì)需要用戶身份認(rèn)證的應(yīng)用場(chǎng)景是一個(gè)不可逾越的障礙?,F(xiàn)代數(shù)字圖書館一般要求用戶必須實(shí)名登錄后才能使用各項(xiàng)圖書館信息服務(wù)。綜上可知,假名法難以有效地應(yīng)用于數(shù)字圖書館保護(hù)用戶行為偏好隱私。
掩蓋法是指對(duì)用戶敏感數(shù)據(jù)的掩蓋處理,即通過偽造數(shù)據(jù)或者使用一般化數(shù)據(jù)來掩蓋涉及用戶敏感偏好的行為數(shù)據(jù)[31],使得不可信服務(wù)器難以獲知用戶敏感偏好,該類方法經(jīng)過改造后也適用于數(shù)字圖書館用戶行為隱私保護(hù)。針對(duì)文本檢索服務(wù),Pang等人[32]提出通過向用戶查詢文本中注入“偽關(guān)鍵詞”,以保護(hù)用戶的真實(shí)查詢意圖。隨后,作者改進(jìn)了他們的工作[22],允許用戶定義自己的隱私保護(hù)需求,即允許用戶定義需要保護(hù)的查詢主題以及保護(hù)等級(jí)。針對(duì)個(gè)性廣告推薦服務(wù),Goetz等人[33]提出了一個(gè)基于客戶端的用戶隱私保護(hù)方法,通過綜合考慮用戶隱私保護(hù)度(即用戶愿意與不可信服務(wù)器分享的隱私等級(jí))和網(wǎng)絡(luò)數(shù)據(jù)通信量(即服務(wù)器傳回手機(jī)的文本廣告數(shù)量),為用戶選擇相關(guān)廣告。Shou等人[34]設(shè)計(jì)了一個(gè)針對(duì)個(gè)性網(wǎng)頁檢索服務(wù)的用戶偏好保護(hù)方法:首先建立用戶偏好分層結(jié)構(gòu),其中,高層節(jié)點(diǎn)存儲(chǔ)概括性偏好主題,而低層節(jié)點(diǎn)存儲(chǔ)針對(duì)性偏好主題。然后,通過使用概括性偏好代替針對(duì)性偏好,以保護(hù)用戶敏感偏好。針對(duì)個(gè)性網(wǎng)頁檢索服務(wù),Chen等人[35]提出了類似的用戶偏好保護(hù)方法,即用概括性偏好來掩蓋用戶具體偏好,以保護(hù)用戶數(shù)據(jù)中的敏感信息。Murugesan等人[36]設(shè)計(jì)了一個(gè)文本查詢隱私保護(hù)方法,該方法預(yù)先構(gòu)建若干個(gè)靜態(tài)查詢組,然后在運(yùn)行時(shí)用戶查詢由最相似的靜態(tài)查詢替代,而同一組中的其他查詢則用來隱藏用戶查詢,該方法的主要問題是以相似靜態(tài)查詢替代用戶查詢會(huì)降低查準(zhǔn)率。
總體來說,該類方法不需要改變服務(wù)器端的網(wǎng)絡(luò)服務(wù)算法,也不需要改變現(xiàn)有網(wǎng)絡(luò)服務(wù)平臺(tái)架構(gòu),因而具有較好的實(shí)用性,能很好滿足數(shù)字圖書館用戶行為隱私保護(hù)的實(shí)用性約束。然而,由于改寫了用戶服務(wù)請(qǐng)求攜帶的數(shù)據(jù),該類方法會(huì)在一定程度上降低數(shù)字圖書館信息服務(wù)的準(zhǔn)確性,因而,其隱私保護(hù)需以犧牲信息服務(wù)質(zhì)量為代價(jià),使它難以有效滿足數(shù)字圖書館用戶行為隱私保護(hù)的準(zhǔn)確性約束。
模糊法主要面向位置服務(wù)(LBS),用于保護(hù)用戶位置隱私,即通過“泛化”或“擾動(dòng)”查詢位置信息,使得攻擊者無法識(shí)別出用戶的精確查詢位置[19,31]。在這里,“泛化”是指把用戶的真實(shí)位置用一個(gè)泛化的空間區(qū)域(稱作“隱藏區(qū)”)代替,隱藏區(qū)通常由可信的第三方服務(wù)器結(jié)合K匿名隱私準(zhǔn)則生成[37]。傳統(tǒng)的K匿名隱藏區(qū)生成方法[29-30]在連續(xù)空間查詢中難以實(shí)現(xiàn)預(yù)定的隱私保護(hù)級(jí)別。為此,最近的研究嘗試改進(jìn)該問題。例如,Lee等人[38]通過考慮用戶移動(dòng)位置之間的相關(guān)性來構(gòu)造隱藏區(qū);Chow等人[39-40]提出的方法能有效地防止用戶移動(dòng)軌跡中的目的地位置信息泄露。另外,由于用戶的隱私需求是動(dòng)態(tài)多樣的,隱形區(qū)域的產(chǎn)生也要考慮用戶個(gè)性化隱私需求的影響。Agir等人[41]提出的方法針對(duì)空間連續(xù)查詢中的個(gè)性化用戶位置隱私需求,能在一定范圍內(nèi)自適應(yīng)地自動(dòng)調(diào)整位置隱私級(jí)別。Dewri等人[42]提出了一個(gè)以用戶為中心的位置服務(wù)框架,可以預(yù)先權(quán)衡用戶查詢請(qǐng)求的隱私強(qiáng)度和實(shí)用效果。然而,泛化模糊法通常依賴于第三方匿名服務(wù)器,降低了方法的實(shí)際可用性。模糊法中的位置信息“擾動(dòng)”是指,在用戶查詢中以可控的方式有意地引入部分錯(cuò)誤或噪聲[43]。為了提供更嚴(yán)格的隱私保障,最近的研究嘗試應(yīng)用差分隱私模型來控制連續(xù)查詢中添加的噪聲數(shù)量,其中,最具代表性的是空間不可區(qū)分性模型[44]及其衍生模型[45-46]。
然而,模糊法主要應(yīng)用位置服務(wù)來進(jìn)行隱私保護(hù),通常難以直接應(yīng)用于數(shù)字圖書館中的各類信息服務(wù)(例如圖書檢索服務(wù)、圖書推薦服務(wù)、圖書瀏覽服務(wù)等),即難以直接應(yīng)用模糊法保護(hù)數(shù)字圖書館的用戶行為隱私安全。此外,由于發(fā)送給網(wǎng)絡(luò)服務(wù)器端的是經(jīng)過修改后的位置數(shù)據(jù),很多時(shí)候也會(huì)影響位置服務(wù)的準(zhǔn)確性,這一定程度上降低了方法的實(shí)際可用性(即難以滿足數(shù)字圖書館用戶行為隱私保護(hù)的準(zhǔn)確性約束)。
綜上所述,目前相關(guān)研究提供的諸多用戶行為隱私保護(hù)方法均有各自的局限性,并且不是針對(duì)數(shù)字圖書館而提出,在安全性、實(shí)用性、準(zhǔn)確性、高效性等多項(xiàng)指標(biāo)上,仍無法滿足數(shù)字圖書館的實(shí)際應(yīng)用需求,難以直接應(yīng)用于保護(hù)數(shù)字圖書館用戶的行為隱私。具體來說,數(shù)字圖書館中的用戶行為隱私保護(hù)需要重點(diǎn)關(guān)注以下幾個(gè)方面的問題。
(1)問題一:不僅要關(guān)注數(shù)字圖書館用戶的行為隱私安全性,更要關(guān)注行為隱私保護(hù)方法的實(shí)用性、準(zhǔn)確性和高效性。
通常,各類圖書信息服務(wù)(如圖書檢索服務(wù)、圖書推薦服務(wù)等)作為大型數(shù)字圖書館平臺(tái)的重要組成部分,已成熟運(yùn)行。然而,現(xiàn)有許多技術(shù)方法為了保護(hù)用戶行為隱私,要求改變現(xiàn)有的整個(gè)網(wǎng)絡(luò)服務(wù)平臺(tái)架構(gòu)或服務(wù)器運(yùn)行的圖書信息服務(wù)算法,或者要求犧牲信息服務(wù)的準(zhǔn)確性或高效性(執(zhí)行效率),這極大地降低了方法的實(shí)際可用性。因此,數(shù)字圖書館用戶的行為偏好隱私保護(hù),必須建立在不犧牲現(xiàn)有圖書信息服務(wù)的實(shí)用性、準(zhǔn)確性和高效性基礎(chǔ)之上。
(2)問題二:不僅需要關(guān)注對(duì)用戶當(dāng)前行為(即用戶當(dāng)前服務(wù)請(qǐng)求)的隱私保護(hù),更要關(guān)注對(duì)用戶歷史行為序列的隱私保護(hù),即用戶行為隱私保護(hù)應(yīng)以用戶行為序列(即同一用戶在某一段時(shí)間內(nèi)所發(fā)起的服務(wù)請(qǐng)求的序列)為基本研究?jī)?nèi)容。
數(shù)字圖書館信息服務(wù)中用戶歷史行為序列擁有規(guī)律的特征分布關(guān)聯(lián)性,例如,同一用戶在某段時(shí)間內(nèi)通常喜歡圍繞某些固定的圖書主題展開查詢操作。而現(xiàn)有許多技術(shù)方法僅針對(duì)用戶當(dāng)前行為,沒有考慮用戶歷史行為,這嚴(yán)重降低了技術(shù)方法對(duì)數(shù)字圖書館用戶行為隱私的保護(hù)效果。因此,用戶行為隱私保護(hù)必須建立在用戶行為序列之上,使得攻擊者無論根據(jù)用戶當(dāng)前行為,還是根據(jù)用戶歷史行為,均難以推測(cè)出用戶行為偏好隱私。
(3)問題三:不僅要保護(hù)圖書信息服務(wù)中相關(guān)各類型的用戶行為隱私,更要建立統(tǒng)一的用戶行為隱私模型,將各類型用戶行為隱私作為整體進(jìn)行保護(hù)。
現(xiàn)有的大部分方法通常只針對(duì)某種單一類型的用戶行為隱私,缺乏整體性和系統(tǒng)性,如僅針對(duì)位置服務(wù)或僅針對(duì)查詢服務(wù)。然而,數(shù)字圖書館信息服務(wù)涉及多種類型用戶行為隱私(如圖書瀏覽隱私、查詢隱私、推薦隱私等),并且各類型用戶行為隱私之間存在很強(qiáng)的語義關(guān)聯(lián)性(如同一用戶發(fā)起的各類圖書服務(wù)請(qǐng)求通常圍繞固定的主題)。這就要求不能孤立地考慮某單一類型用戶行為隱私,應(yīng)當(dāng)充分考慮來自同一用戶的各類型行為隱私之間的關(guān)聯(lián)性,建立面向數(shù)字圖書館用戶的統(tǒng)一行為隱私保護(hù)框架和保護(hù)模型,以實(shí)現(xiàn)對(duì)用戶行為隱私的有效保護(hù),只有這樣才能全面改善用戶行為隱私在不可信數(shù)字圖書館服務(wù)端的安全性。
總而言之,數(shù)字圖書館服務(wù)器端是不可信的,它是攻擊者的主要目標(biāo),是導(dǎo)致用戶隱私泄露的主要根源。然而,數(shù)字圖書館信息服務(wù)又離不開服務(wù)器端的支持,用戶發(fā)布的各類圖書服務(wù)請(qǐng)求均蘊(yùn)含著大量偏好隱私,使得數(shù)字圖書館存在多種用戶行為隱私泄露通道。理想的數(shù)字圖書館用戶行為隱私保護(hù)方法應(yīng)滿足以下應(yīng)用目標(biāo):能在“不改變”現(xiàn)有數(shù)字圖書館平臺(tái)架構(gòu)和現(xiàn)有圖書信息服務(wù)算法(即不犧牲系統(tǒng)的實(shí)用性)、“不改變”信息服務(wù)準(zhǔn)確性、以及“不改變”信息服務(wù)高效性的前提下,確保不可信數(shù)字圖書館服務(wù)器難以從用戶提交的各類服務(wù)請(qǐng)求記錄中分析出用戶行為偏好隱私,“全面改善”用戶行為隱私的安全性。
在上述的實(shí)用性、準(zhǔn)確性、高效性和安全性指標(biāo)中,用戶行為隱私的安全性是關(guān)鍵研究目標(biāo)。按照前文分析可知,用戶行為隱私安全性可分為以下三個(gè)層次:(1)第I層安全性,要求攻擊者難以根據(jù)單一類型的用戶當(dāng)前行為,推測(cè)出用戶行為隱私;(2)第II層安全性,在滿足第I層安全性的基礎(chǔ)上,要求攻擊者難以根據(jù)不同類型用戶的當(dāng)前行為,推測(cè)出用戶行為隱私;(3)第III層安全性,在滿足第I層安全性和第II層安全性的基礎(chǔ)上,要求攻擊者難以根據(jù)不同類型的用戶歷史行為序列,推測(cè)出用戶行為隱私。只有第III層次的安全性得到了滿足,才能說數(shù)字圖書館用戶的行為隱私安全性得到了“全面改善”,使得不可信服務(wù)器端的攻擊者無論是根據(jù)用戶行為的當(dāng)前特征,還是用戶行為的歷史特征;無論是根據(jù)單一類型的用戶行為,還是綜合考慮多種類型用戶行為,均難以分析推測(cè)出用戶行為背后蘊(yùn)含的用戶偏好隱私。
結(jié)合上述的幾個(gè)應(yīng)用指標(biāo),表1給出了前文提到的四類用戶行為隱私方法的定性比較結(jié)果,其中:(1)安全性好,當(dāng)且僅當(dāng)相關(guān)安全問題已經(jīng)被充分考慮,并且給出了有效的解決方案;(2)準(zhǔn)確性好,當(dāng)且僅當(dāng)隱私機(jī)制被引入的前后,用戶最終得到的信息服務(wù)結(jié)果不變;(3)可用性好,當(dāng)且僅當(dāng)隱私機(jī)制對(duì)外部用戶和信息服務(wù)算法均透明;(4)高效性好,當(dāng)且僅當(dāng)用戶行為隱私機(jī)制被引入的前后,圖書信息服務(wù)效率不會(huì)明顯下降。從表1可以看出,現(xiàn)有的用戶隱私保護(hù)方法在實(shí)用性、準(zhǔn)確性、高效性、安全性等多個(gè)方面仍無法滿足數(shù)字圖書館的應(yīng)用需求。尤其是安全性,計(jì)算機(jī)科學(xué)領(lǐng)域的許多技術(shù)方法(如加密法、模糊法、假名法、掩蓋法等)經(jīng)過改造后雖然也能應(yīng)用于保護(hù)數(shù)字圖書館用戶行為隱私,但它們通常僅針對(duì)用戶當(dāng)前行為,沒有考慮歷史行為,且通常只針對(duì)某種單一類型的用戶行為隱私(如僅針對(duì)位置服務(wù)或僅針對(duì)查詢服務(wù)),難以應(yīng)用于保護(hù)其他類型的行為隱私,因而,難以有效應(yīng)用于保護(hù)數(shù)字圖書館用戶的行為偏好隱私安全。
表1 隱私保護(hù)方法有效性的定性比較
方法應(yīng)用場(chǎng)景準(zhǔn)確性高效性可用性安全性I安全性II安全性III加密法信息服務(wù)好好不好好不好不好假名法信息服務(wù)好好不好好不好不好掩蓋法文本檢索不好好好好不好不好模糊法位置服務(wù)不好好好好不好不好
筆者最近的研究工作[2]構(gòu)建了一個(gè)面向數(shù)字圖書館的用戶行為隱私保護(hù)框架,它通過在可信客戶端精心構(gòu)造一系列“真假難辨”的偽行為,連同用戶真行為一起,提交給不可信服務(wù)器端,“以假亂真”掩蓋用戶行為背后蘊(yùn)含的敏感偏好。該工作是針對(duì)數(shù)字圖書館用戶行為隱私保護(hù)問題的一次重要研究嘗試,相比于其他已有的技術(shù)方法,具有更好的實(shí)用性和安全性。然而,該工作僅在形式上描述了一個(gè)用戶行為隱私保護(hù)整體框架。但數(shù)字圖書館用戶行為的類型和形式是多種多樣的(如圖書推薦行為、檢索行為等),且均擁有各自的特征。因此,如何在該理論框架下,為各類用戶行為設(shè)計(jì)有效的隱私保護(hù)算法還有待進(jìn)一步深入研究。
針對(duì)不可信網(wǎng)絡(luò)環(huán)境下的用戶行為隱私保護(hù)問題,雖然從技術(shù)方法角度看,目前已經(jīng)擁有了許多富有成效的研究成果,但它們均有各自的局限性,仍存在沒有很好解決的一些問題。更重要的是,這些隱私保護(hù)方法并不是針對(duì)數(shù)字圖書館專門提出,它們?cè)趯?shí)用性、準(zhǔn)確性、高效性、安全性等多個(gè)方面仍無法滿足數(shù)字圖書館的應(yīng)用需求,難以直接應(yīng)用于保護(hù)數(shù)字圖書館用戶的行為隱私。綜合已有隱私保護(hù)方法的不足之處,以及數(shù)字圖書館的實(shí)際應(yīng)用需求,本文得出結(jié)論,理想的數(shù)字圖書館用戶行為隱私保護(hù)方法應(yīng)滿足以下應(yīng)用目標(biāo):能在“不改變”數(shù)字圖書館現(xiàn)有平臺(tái)架構(gòu)、“不改變”現(xiàn)有信息服務(wù)算法、“不改變”信息服務(wù)準(zhǔn)確性、以及“不改變”信息服務(wù)高效性的基本條件下,確保數(shù)字圖書館不可信服務(wù)器端難以從用戶提交的各類信息服務(wù)請(qǐng)求記錄中分析出用戶行為偏好隱私,從而“全面改善”數(shù)字圖書館用戶的行為隱私安全性。