崔燚 臧國全
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)隱私;模糊綜合評估;實證研究
摘要:[背景/目的]大數(shù)據(jù)時代下,隨著數(shù)據(jù)量的井噴式增長,圖書館的數(shù)據(jù)隱私風(fēng)險不斷加大,而目前的保護機制存在一定的局限性。針對這種情況,設(shè)計出一種圖書館數(shù)據(jù)隱私風(fēng)險的模糊評估模型,可以對數(shù)據(jù)隱私提供有針對性的主動保護。[方法]在文獻調(diào)查和專家訪談的基礎(chǔ)上,定性分析大數(shù)據(jù)環(huán)境下圖書館數(shù)據(jù)信息的隱私風(fēng)險因素,運用德爾菲法構(gòu)建包含10個指標維度的隱私風(fēng)險評估指標體系,采用層次分析法計算對各級指標的綜合權(quán)重。通過問卷調(diào)查收集數(shù)據(jù),對鄭州大學(xué)圖書館數(shù)據(jù)信息的隱私風(fēng)險進行模糊綜合評估。[結(jié)果/意義]實證分析結(jié)果表明,鄭州大學(xué)圖書館的隱私風(fēng)險等級處于較低風(fēng)險。綜合來看,隱私風(fēng)險的模糊評估方法具有較好的適用性,可以為提升大數(shù)據(jù)環(huán)境下的圖書館信息保護提供借鑒。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2019)07-0128-05
1背景
隨著數(shù)字信息技術(shù)的演變,云計算、物聯(lián)網(wǎng)、區(qū)塊鏈等技術(shù)得到高速發(fā)展,大數(shù)據(jù)的共享、挖掘與分析的時代已經(jīng)到來[1]。在大數(shù)據(jù)環(huán)境下,圖書館作為高校數(shù)據(jù)和文獻的收集和儲存單位,不但擁有巨量的學(xué)術(shù)資源,還存有大量的學(xué)生用戶信息(如學(xué)號、姓名等),學(xué)生們在圖書館與同學(xué)教師交流互動,連接圖書館公共網(wǎng)絡(luò)分享各種信息,包括個人喜愛的書籍、自己現(xiàn)在的方位、個人的研究方向和研究對象或者不經(jīng)意間暴露其他人的信息等。這些行為為個人平時的活動添加了個性與色彩,但同時也潛藏有大量的隱私安全隱患。比如:2016年4月,土耳其首都爆發(fā)信息泄露事件,黑客入侵了信息機構(gòu),打包了近5,000萬土耳其民眾的個人信息,甚至包括現(xiàn)任總統(tǒng)埃爾多安的個人信息;同年6月,世界最大的反恐資料庫WorldCheck資料外泄,超過200萬個可疑恐怖分子和與犯罪組織有關(guān)的人員的個人資料在網(wǎng)上出現(xiàn),并公開售賣[2]。因此,如何在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下構(gòu)建一個相對保險的用戶隱私保護機制,成為圖書館迫切需要解決的問題。
圖書館數(shù)據(jù)隱私保護研究在大數(shù)據(jù)環(huán)境下體現(xiàn)在以下問題上:在傳統(tǒng)隱私加密技術(shù)方面,HongbingCheng[3]經(jīng)過分析和仿真實驗,通過散列算法設(shè)計了一套云計算加密技術(shù),以保護數(shù)據(jù)用戶在云端的隱私安全;StoianovA[4]等提出了生物識別加密技術(shù)(BE),考慮到生物識別加密在驗證身份、保護隱私和確保安全性等方面的優(yōu)勢,實驗中BE技術(shù)可以幫助克服流行的“零和”心態(tài),這種心態(tài)認為增加識別和信息系統(tǒng)的隱私必然會削弱安全性和功能性;VishnoiM[5]等采用隨機擾動和密碼技術(shù),提出了一種新型的隱私保護數(shù)據(jù)挖掘技術(shù);ForceG[6]基于公鑰加密技術(shù)設(shè)計的數(shù)據(jù)卡模式,保證執(zhí)行復(fù)雜的加密操作和解密信息所需的私鑰的安全;HuH[7]等提出了一種通過使用同態(tài)加密的隱私存儲技術(shù),保護客戶端查詢隱私和服務(wù)器數(shù)據(jù)隱私的查詢。
從全新的隱私保護方法角度,DworkC[8]發(fā)現(xiàn)了數(shù)據(jù)查詢的結(jié)果的變體也有可能引發(fā)信息泄露,提出差分隱私保護,基于大部分情況,關(guān)于數(shù)據(jù)庫的極其準確的信息可以提供并同時確保非常高的隱私;KenekarTV[9]等提出了海量數(shù)據(jù)的分布式隱私保護算法,也就是采用Hadoop平臺的MapReduce分布式計算與隱私保護機制進行融合;葉青青等[10]對本地化差分隱私的原理和特征做了較為全面的總結(jié)和歸納。從動態(tài)數(shù)據(jù)集的發(fā)布角度來看,靜態(tài)數(shù)據(jù)集的發(fā)布問題是差分隱私數(shù)據(jù)發(fā)布的研究重點所在,從數(shù)據(jù)分析可知數(shù)據(jù)的動態(tài)發(fā)布需求是當下社會的主流[11]。張嘯劍等[12]解決了流式直方圖發(fā)布問題,采用了自適應(yīng)滑動窗口機制方法,這是基于差分隱私的流式直方圖發(fā)布的。此外還有對動態(tài)數(shù)據(jù)進行深入探索的DworkC[13-14]等。
由以上分析可知,對高校圖書館在大數(shù)據(jù)環(huán)境下所面臨的數(shù)據(jù)隱私風(fēng)險進行評估、分析與預(yù)測研究者寥寥無幾,而對保障數(shù)據(jù)使用過程中隱私安全性的研究較多,在聚焦與傳統(tǒng)數(shù)據(jù)加密技術(shù)的完善與改進方面成果集中。因此,筆者在構(gòu)建高校圖書館隱私風(fēng)險評價體系時采用了德爾菲法,用定性分析高校圖書館隱私風(fēng)險在大數(shù)據(jù)環(huán)境下的各種因素為基礎(chǔ),結(jié)合層次分析法(AHP)和模糊綜合評價法(FCE)預(yù)測高校圖書館數(shù)據(jù)隱私風(fēng)險,并進行定量評估。
2針對隱私風(fēng)險構(gòu)建評估指標體系
2.1高校圖書館隱私風(fēng)險因素分析
大數(shù)據(jù)時代,圖書館的功能愈加豐富,對文獻的收集和保存、對學(xué)生信息的錄入和數(shù)據(jù)處理與分析的任務(wù)量都在與日俱增。數(shù)據(jù)的使用越發(fā)頻繁和深入,遭受威脅和侵害的用戶個人隱私和圖書館數(shù)據(jù)隱私的比率在顯著上升。公共圖書館、高校圖書館同樣面臨著隱私風(fēng)險,二者的隱私風(fēng)險因素在用戶角度、網(wǎng)絡(luò)安全、數(shù)據(jù)保護等方面重復(fù)較多,涉及范圍類似,因此高校圖書館的隱私保護同樣適用于公共圖書館。筆者以高校圖書館為例,分析和歸納了各種可能存在的風(fēng)險元素。
筆者結(jié)合信息系統(tǒng)的安全模型[15],將高校圖書館隱私風(fēng)險因素分為以下十個方面:軟硬件缺陷是指設(shè)備老化、升級漏洞、人為破壞、電磁輻射、軟件后門等安全風(fēng)險隱患,指各類軟硬件設(shè)施在社交網(wǎng)絡(luò)平臺運行的狀況,如計算機、操作系統(tǒng)、網(wǎng)絡(luò)管理軟件、路由器、服務(wù)器等[16];基礎(chǔ)設(shè)施安全強度不足是指基礎(chǔ)設(shè)施外部強度不夠,容易遭到破壞,或是網(wǎng)絡(luò)設(shè)施防護不到位造成信息物理性遺失;大數(shù)據(jù)應(yīng)用誤區(qū)是指工作人員對大數(shù)據(jù)信息的不了解,導(dǎo)致冗余的信息流入或是必要的信息流出;網(wǎng)絡(luò)通信協(xié)議漏洞是指通信協(xié)議的缺陷,如TCP/IP等,尤其是通過在線竊聽、篡改和偽造網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù);安全設(shè)置方式過于簡單或煩瑣是指圖書館內(nèi)設(shè)置的各類安全保障,如設(shè)置重新搜索、圖書采用“默認設(shè)置”,查看權(quán)限、瀏覽蹤跡搜索等形同虛設(shè),達不到保護隱私的效果;管理疏漏,也就是各類工作人員在社交網(wǎng)絡(luò)方面的業(yè)務(wù)違反操作規(guī)定,或者業(yè)務(wù)不熟練,同樣會造成用戶的隱私數(shù)據(jù)泄露;隱私關(guān)聯(lián)設(shè)置和第三方信息收集是指用戶在使用圖書館信息服務(wù)時,通過微信,QQ等軟件發(fā)布到網(wǎng)上,導(dǎo)致用戶行為信息、關(guān)注信息以及服務(wù)涉及的相關(guān)信息被第三方數(shù)據(jù)收集者引用到其他網(wǎng)絡(luò)平臺上,從而導(dǎo)致隱私泄漏;空間位置共享是指用戶無意中接觸到物理安全保護的位置,并通過空間位置共享使目標暴露,導(dǎo)致空間位置安全出現(xiàn)重大漏洞,可能遭到物理破壞,造成隱私泄漏或損壞;密碼設(shè)置簡單是指用戶使用一些有規(guī)律的字母或數(shù)字作為密碼,雖方便記憶,但過于簡單,易遭破解,造成用戶個人隱私泄露,如生日、姓名、ID、成串的數(shù)字等;黑客攻擊和網(wǎng)絡(luò)崩潰指的是在用戶不知情的情況下,黑客利用網(wǎng)絡(luò)技術(shù)進行惡意攻擊,造成系統(tǒng)癱瘓,無法提供服務(wù),或者在用戶不知情或有疏漏時利用技術(shù)漏洞竊取用戶隱私,更有甚者會竊取或破壞用戶服務(wù)器中的各類數(shù)據(jù)。
2.2建構(gòu)指標體系方法
基于以上分析,筆者構(gòu)建的初步指標體系有15個具體指標,并采用Delphi法,以便更加準確、簡練、清晰地表述指標體系,充分發(fā)揮各類專家的經(jīng)驗和知識結(jié)構(gòu)完成指標篩選[17]。同時,筆者充分發(fā)揮專家的影響和作用,一般分為兩步用德爾菲法開展專家評價,每一步的做法是:第一,專家的遴選。從鄭州大學(xué)、河南工業(yè)大學(xué)、鄭州輕工業(yè)大學(xué)管理學(xué)院、信息管理學(xué)院和計算機系選擇從事信息安全領(lǐng)域或圖書情報學(xué)研究最少在五年以上的教授、專家,人數(shù)為十五人,并具備副高以上職稱,最好具有博士學(xué)位。第二,首輪篩選指標。制訂首輪專家調(diào)查表,用李克特五級量表,請專家按照“輕微、較弱、中等、較強、高?!蔽鍌€等級對每一個指標進行打分,以確定其重要性,賦值依次為[1/2/3/4/5]。通??捶ㄊ?,指標重要性變異系數(shù)小于0.25,均值大于3,指標才可被保留[18]。在首輪篩選指標時,要求達到符合要求十四個,否則就要刪除指標。第三,再一輪篩選指標。在新一輪篩選中,要求各個指標均值大于3才能體現(xiàn)其重要性,如果“惡意程序”“用戶信用”“操作失誤”“網(wǎng)絡(luò)延遲”的變異系數(shù)大于0.25,指標予以刪除,說明專家協(xié)調(diào)程度不夠。經(jīng)過兩輪篩選后,德爾菲法專家評價結(jié)束,說明專家意見達成基本一致。最終,隱私風(fēng)險評估指標體系只包含十個指標,如圖1所示。
2.3指標量化與標準化處理
在圖書館用戶隱私風(fēng)險評估體系中,指標多為定性指標,數(shù)據(jù)性不明顯,直觀性相對模糊。為了對隱私風(fēng)險進行分析評估,使其更具有針對性,筆者對定性指標進行量化[19]采用了專家打分法。
其中,Ri是指標Xi歸一化處理后的標準值,Xi是最小值,Ximin是指標,指標Xi的最大值是Xinax。
2.4計算指標權(quán)重
通常情況下也可能出現(xiàn)專家打分法隨意主觀的情況,無法保證賦權(quán)科學(xué)性與正確性,其準確性又無法進行核查、檢驗。圖書館在用戶隱私風(fēng)險評估過程中,應(yīng)根據(jù)其重要性不同設(shè)置相應(yīng)的權(quán)重,使風(fēng)險指標造成損失和發(fā)生概率存在差異。筆者在科學(xué)、合理的基礎(chǔ)上采用AHP(AnalyticalHierarchyProcess)賦權(quán)法進行指標權(quán)重的計算,由于評估指標方案不是多種方案,而是單一方案,只能進行一致性檢驗和層次單排序方式,具體步驟如下。
2.4.1構(gòu)造判斷矩陣C。設(shè)指標層有n個指標,分別以C1,C2,…Cn表示。依據(jù)AHP法構(gòu)造判斷矩陣的定義可知,矩陣元素Dij采用五分數(shù)值標度法,對指標層的各指標用兩兩對比分析方法進行,并以表1為標度準則構(gòu)建n階評估矩陣,如式(2)。
4實證分析
筆者以鄭州大學(xué)圖書館為調(diào)研對象,實證分析該館用戶的隱私風(fēng)險,調(diào)研時間為2018年10月10日至11月10日大約一個月時間。筆者綜合采用網(wǎng)絡(luò)問卷和紙卷問卷兩種方法進行調(diào)查,發(fā)放問卷300份,回收問卷271份,其中有效問卷233份,問卷結(jié)果依靠調(diào)查范圍的全面性和有效性,從而保障結(jié)論的準確性。依據(jù)調(diào)查結(jié)果,計算圖書館用戶隱私風(fēng)險的隸屬度向量,如表3所示。
根據(jù)隱私風(fēng)險隸屬等級劃分標準,判定該社交網(wǎng)絡(luò)隱私風(fēng)險的等級處于較低風(fēng)險。
5結(jié)語
本文運用Delphi構(gòu)建了評估指標體系,充分考慮圖書館用戶隱私風(fēng)險的各種因素,依據(jù)大數(shù)據(jù)環(huán)境進行條分縷析的梳理,同時,綜合權(quán)重采用AHP分析法計算指標,從而使隱私風(fēng)險模糊評估得以進行。經(jīng)過實證分析,能夠看出該次針對鄭州大學(xué)圖書館的用戶隱私風(fēng)險調(diào)查的結(jié)果是比較理想的,從總體上處于較低風(fēng)險等級層次。在大數(shù)據(jù)環(huán)境下,這種評估方法能夠?qū)D書館用戶的隱私風(fēng)險進行比較客觀、量化的評估和描述,找出問題,采取應(yīng)對措施,從而主動控制和規(guī)避隱私風(fēng)險的出現(xiàn)。相應(yīng)地,社交網(wǎng)絡(luò)隱私風(fēng)險在大數(shù)據(jù)環(huán)境下也能夠有效地加以防范。
推而廣之,為了構(gòu)建保護單位或個人隱私的長效機制,有關(guān)政府部門、相關(guān)單位需要制定健全、完善的法律法規(guī),使隱私數(shù)據(jù)存儲與獲取體系得以建立和健全,進而促進數(shù)據(jù)利用的規(guī)范化、有序化,另外也需要監(jiān)管機制對海量數(shù)據(jù)的運行進行宏觀把握和掌控。在大數(shù)據(jù)環(huán)境下,充分運算的海量數(shù)據(jù)勢必也會給用戶隱私帶來侵害,尤其是負面的傷害,這就要求特殊權(quán)限的實體在綜合運作海量數(shù)據(jù)庫時進行有效監(jiān)控,相應(yīng)地使數(shù)據(jù)流動透明度提升,便于多方監(jiān)督。
本文也存在不足之處:第一,社交網(wǎng)絡(luò)隱私風(fēng)險評估指標體系是基于文獻分析和專家打分,受主觀因素的影響較大,指標覆蓋的準確性和全面性會有所欠缺。第二,在AHP分析法中,指標體系中沒有嚴格限制或要求總個數(shù)及總層次數(shù)。但是,有關(guān)心理學(xué)研究指出,當一組事物個數(shù)較多(如9個以上)時,人類對事物屬性特征的辨別將出現(xiàn)模糊。因此,當同一層次指標數(shù)較多時,需要進行適當?shù)姆纸M歸類,或在增加層次數(shù)的同時減少每組指標個數(shù),以保證進行指標兩兩判斷時有較好的一致性,而本文在對應(yīng)性方面尚有欠缺。第三,實證分析的對象為單一對象,調(diào)查的覆蓋面不夠充分,尚需深入驗證評估指標體系評估方法的有效性與合理性,分析方法的適用性、準確度還需進一步提高。
參考文獻:
[1]Parise.Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink,byViktorMayer-SchonbergerandKennethCukier[J].JournalofInformationTechnologyCaseandApplicationResearch,2016(3).
[2]PriyankJain,ManasiGyanchandani,NilayKhare.Bigdataprivacy:atechnologicalperspectiveandreview[J].JournalofBigData,2016(1).
[3]ChengH,WangW,RongC.Privacyprotectionbeyondencryptionforcloudbigdata[C]//InternationalConferenceonInformationTechnology&ElectronicCommerce,2015.
[4]StoianovA,CavoukianA,CarterF.KeynotePaper:BiometricEncryption:TechnologyforStrongAuthentication,SecurityandPrivacy[J].IFIPAdvancesinInformation&CommunicationTechnology,2012(261):57-77.
[5]VishnoiM,SeejaKR.PrivacyPreservingDataMiningusingAttributeEncryptionandDataPerturbation[J].InternationalJournalofComputers&Technology,2013(3).
[6]ForceG.Portabledataencryptionapproaches[C]//Wescon/95ConferenceRecordMicroelectronicsCommunicationsTechnologyProducingQualityProductsMobile&PortablePowerEmergingTechnologies.IEEE,2002.
[7]HuH,XuJ,XuX.Privatesearchonkey-valuestoreswithhierarchicalindexes[C]//2014IEEE30thInternationalConferenceonDataEngineering(ICDE).IEEEComputerSociety,2014.
[8]DworkC.DifferentialPrivacy[C]//Proceedingsofthe33rdinternationalconferenceonAutomata,LanguagesandProgramming-VolumePartII.Springer,Berlin,Heidelberg,2006.
[9]KenekarTV,DaniAR.AnefficientprivateFIMonhadoopMapReduce[C]//InternationalConferenceonAutomaticControl&DynamicOptimizationTechniques.IEEE,2017.
[10]葉青青,孟小峰,朱敏杰.本地化差分隱私研究綜述[J].軟件學(xué)報,2018(7):159-183.
[11]DworkC,NaorM,PitassiT.Pan-PrivateStreamingAlgorithms[C]//SymposiumonInnovationsinComputerScience,2010.
[12]張嘯劍,孟小峰.基于差分隱私的流式直方圖發(fā)布方法[J].軟件學(xué)報,2016(2):381-393.
[13]DworkC.Differentialprivacyinnewsettings[C]//Acm-siamSymposiumonDiscreteAlgorithms.DBLP,2010.
[14]DworkC.Differentialprivacyundercontinualobservation[C]//AcmSymposiumonTheoryofComputing.ACM,2010.
[15]Gameofinformationsecurityinvestment:Impactofattacktypesandnetworvulnerability[J].ExpertSystemswithApplications,2015(15-16):6132-6146.
[16]趙冬梅,馬建峰,王躍生.信息系統(tǒng)的模糊風(fēng)險評估模型[J].通信學(xué)報,2007(4):51-56,64.
[17]韓正彪,周鵬.基于德爾菲法的我國情報學(xué)哲學(xué)理論實證研究[J].圖書情報工作,2014(11):89-96.
[18]王衛(wèi)軍.基于可用性的移動圖書館服務(wù)能力評價研究[J].情報理論與實踐,2016(1):100-103.
[19]宋杰鯤,張麗波.基于三角模糊熵的信息安全風(fēng)險評估研究[J].情報理論與實踐,2013(8):99-104.
[20]GiangiacomoBravo,F(xiàn)laminioSquazzoni,RiccardoBoero.Trustandpartnerselectioninsocialnetworks:Anexperi?mentallygroundedmodel[J].SocialNetworks,2012(4):481-492.
(編校:崔萌)