曾青云
湖南云麓高新材料有限公司 湖南 長(zhǎng)沙 410000
數(shù)據(jù)爆炸的時(shí)代下,個(gè)人隱私的保護(hù)成為社會(huì)熱點(diǎn)問(wèn)題。但同時(shí)由于隱私的定義和設(shè)計(jì)的領(lǐng)域較為廣泛,在數(shù)據(jù)成為社會(huì)運(yùn)轉(zhuǎn)核心的過(guò)程中,如何合理的定義個(gè)人隱私,并對(duì)其進(jìn)行有效的保護(hù),成為當(dāng)前技術(shù)以及社會(huì)發(fā)展面臨的主要問(wèn)題。在機(jī)器學(xué)習(xí)導(dǎo)致隱私風(fēng)險(xiǎn)的問(wèn)題產(chǎn)生的原因較為復(fù)雜,包括在訓(xùn)練過(guò)程中數(shù)據(jù)采集時(shí)的數(shù)據(jù)泄露、在預(yù)測(cè)階段的數(shù)據(jù)模型反向推測(cè)攻擊、來(lái)自外部黑盒/白盒的模型攻擊等各方面原因都是導(dǎo)致隱私保護(hù)問(wèn)題的重要原因。
在機(jī)器學(xué)習(xí)隱私保護(hù)的過(guò)程中,主要采用三種保護(hù)形式:法律法規(guī)的社會(huì)保護(hù)機(jī)制;加密的技術(shù)保護(hù)機(jī)制;主動(dòng)防御的技術(shù)保護(hù)機(jī)制。法律法規(guī)的監(jiān)督與監(jiān)管是隱私保護(hù)的重要基礎(chǔ)。一方面機(jī)器學(xué)習(xí)的過(guò)程中數(shù)據(jù)采集完成后,數(shù)據(jù)的使用、分析和共享過(guò)程是極不透明的,只有數(shù)據(jù)的擁有者才能夠決定該數(shù)據(jù)的用途[1];另一方面,作為行業(yè)、市場(chǎng)、社會(huì)的監(jiān)督管理者,完善的法律監(jiān)督管理制度有利于規(guī)范機(jī)器學(xué)習(xí)行業(yè)的各種行為。近年來(lái)隨著人工智能技術(shù)大數(shù)據(jù)技術(shù)的快速發(fā)展,世界各國(guó)普遍將隱私保護(hù)作為國(guó)家法律制定的主要參考依據(jù),我國(guó)在2016年頒布了網(wǎng)絡(luò)安全法,2017年進(jìn)一步完善了關(guān)于隱私保護(hù)的條例,而在2020年進(jìn)一步對(duì)個(gè)人信息的保護(hù)進(jìn)行了全面的要求。而歐盟在2018年強(qiáng)制執(zhí)行了通用數(shù)據(jù)的保護(hù)條例,對(duì)于數(shù)據(jù)采集和運(yùn)行過(guò)程中個(gè)人的數(shù)據(jù)管理權(quán)利進(jìn)行有效的明確,并使企業(yè)需要采用匿名化的方式來(lái)保護(hù)個(gè)人敏感數(shù)據(jù)。
關(guān)于個(gè)人隱私保護(hù)的立法,可以從國(guó)家社會(huì)層面上加強(qiáng)對(duì)機(jī)器學(xué)習(xí)行業(yè)的有效規(guī)制,使其能夠明確自身的隱私保護(hù)行為,并依據(jù)法律來(lái)制定機(jī)器學(xué)習(xí)的隱私保護(hù)標(biāo)準(zhǔn)。加密保護(hù)是傳統(tǒng)最常用的隱私保護(hù)方式,通過(guò)限制隱私數(shù)據(jù)的發(fā)布、加密敏感數(shù)據(jù)、添加擾動(dòng)等方式對(duì)數(shù)據(jù)進(jìn)行有效的處理,使其的數(shù)據(jù)保密性能更高,保護(hù)效果更好。在這過(guò)程中常用的有差分保護(hù)形式、數(shù)據(jù)加密方式、同態(tài)加密等技術(shù)。主動(dòng)防護(hù)機(jī)制則是在加密隱私數(shù)據(jù)的基礎(chǔ)上,通過(guò)限制數(shù)據(jù)訪問(wèn)權(quán)限、建立訪問(wèn)安全規(guī)則等形式對(duì)隱私信息進(jìn)行有效的保護(hù)[2]。
對(duì)原數(shù)據(jù)進(jìn)行隱私保護(hù)的技術(shù),應(yīng)用的歷史較久,同時(shí)也具有較為成熟的應(yīng)用經(jīng)驗(yàn)。首先則是針對(duì)數(shù)據(jù)進(jìn)行加密,從而限制數(shù)據(jù)的發(fā)布,使數(shù)據(jù)信息得到有效的保護(hù);其次則是對(duì)數(shù)據(jù)添加擾動(dòng)使其失真,使相關(guān)人員無(wú)法獲得數(shù)據(jù)的真實(shí)信息,從而達(dá)到數(shù)據(jù)保護(hù)的目的。
2.1.1 基于數(shù)據(jù)的限制發(fā)布技術(shù)。該技術(shù)通俗上來(lái)講是采用加密的方式,對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)、識(shí)別方式進(jìn)行泛化、抑制和隱匿,只有在掌握對(duì)應(yīng)的解密方式的前提下,才能正確識(shí)別數(shù)據(jù)信息,從而達(dá)到對(duì)各種數(shù)據(jù)信息的有效保護(hù)。例如當(dāng)前面向機(jī)器學(xué)習(xí)的隱私保護(hù)技術(shù)中,采用的k-anonymity加密以及其延伸的l-diversity和t-closeness技術(shù)。通過(guò)在對(duì)應(yīng)的標(biāo)識(shí)符屬性中進(jìn)行多條記錄的比對(duì),例如k-anonymity技術(shù)采用k-1條記錄對(duì)加密的數(shù)據(jù)進(jìn)行標(biāo)識(shí)符屬性的識(shí)別,并將數(shù)據(jù)信息聯(lián)系到獨(dú)立的個(gè)體當(dāng)中,在豐富敏感數(shù)據(jù)多樣化的過(guò)程中,確保敏感數(shù)據(jù)的屬性值、標(biāo)識(shí)符不會(huì)暴露。t-closeness技術(shù)則采用等價(jià)類(lèi)的敏感屬性值分布,使其數(shù)據(jù)的屬性值分布滿足t-closeness計(jì)算標(biāo)準(zhǔn),從而對(duì)數(shù)據(jù)進(jìn)行加密并確保敏感隱私信息的安全性。但這種加密形式主要采用泛化的形式對(duì)隱私數(shù)據(jù)和信息進(jìn)行有效的保護(hù),無(wú)法逐條對(duì)隱私數(shù)據(jù)進(jìn)行全面的保護(hù),其分布的范圍和保護(hù)的效果會(huì)根據(jù)對(duì)應(yīng)的計(jì)算方式發(fā)生較大的變化,從而無(wú)法確保該技術(shù)應(yīng)用的可靠性。
2.1.2 基于數(shù)據(jù)失真的限制發(fā)布技術(shù)。該技術(shù)主要對(duì)原始數(shù)據(jù)進(jìn)行隨機(jī)化或者添加擾動(dòng)的方式,使最終呈現(xiàn)的數(shù)據(jù)與原始數(shù)據(jù)具有較大的差異,從而對(duì)各種敏感數(shù)據(jù)進(jìn)行有效的保護(hù)。該技術(shù)的應(yīng)用時(shí)間較長(zhǎng),同時(shí)現(xiàn)階段機(jī)器學(xué)習(xí)過(guò)程中最常用的失真保護(hù)方式是差分保護(hù)。差分保護(hù)是在數(shù)據(jù)中添加噪聲,并根據(jù)對(duì)應(yīng)的噪聲指數(shù),使原始數(shù)據(jù)與查詢(xún)數(shù)據(jù)存在較大的差別[3]。例如采用拉普拉斯機(jī)制的差分保護(hù)中,對(duì)于多條數(shù)據(jù)集合添加對(duì)應(yīng)的差分?jǐn)_動(dòng),從而限定隱私攻擊者在推測(cè)計(jì)算時(shí)能夠獲得的敏感數(shù)據(jù)泄漏。
在理論的原則中,添加噪聲擾動(dòng)的方式可以有效實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)的差分保護(hù)。同時(shí)在機(jī)器學(xué)習(xí)過(guò)程中的應(yīng)用,還可以針對(duì)其不同的學(xué)習(xí)模型、梯度來(lái)隨機(jī)引入噪聲,以確保隱私的保護(hù)效果。同時(shí),差分隱私的保護(hù)效果可以滿足隱私疊加以及數(shù)據(jù)整體隱私等優(yōu)點(diǎn),因此在小型的機(jī)器學(xué)習(xí)模型中獲得了廣泛的應(yīng)用。這種對(duì)多個(gè)數(shù)據(jù)源進(jìn)行融合保護(hù)的過(guò)程中,可以實(shí)現(xiàn)數(shù)據(jù)集在多次訪問(wèn)后依然具有良好的差分隱私特性。在現(xiàn)階段該技術(shù)的應(yīng)用過(guò)程中,主要應(yīng)用拉普拉斯噪聲機(jī)制來(lái)對(duì)擾動(dòng)權(quán)重進(jìn)行計(jì)算。但在實(shí)際應(yīng)用的過(guò)程中,由于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)會(huì)不斷計(jì)算最優(yōu)的參數(shù),在展開(kāi)差分隱私保護(hù)的過(guò)程中,每一次參數(shù)的更新都會(huì)導(dǎo)致差分隱私的計(jì)算和保護(hù)過(guò)程,進(jìn)而導(dǎo)致機(jī)器學(xué)習(xí)的成本直線上升。因此在差分?jǐn)_動(dòng)技術(shù)應(yīng)用的過(guò)程中,應(yīng)當(dāng)考慮數(shù)據(jù)訓(xùn)練量的大小以及機(jī)器學(xué)習(xí)模型的規(guī)模。
在無(wú)數(shù)個(gè)節(jié)點(diǎn)參與到機(jī)器學(xué)習(xí)的過(guò)程中,彼此之間的隱私保護(hù)會(huì)成為阻礙機(jī)器學(xué)習(xí)展開(kāi)的原因。在面對(duì)這種情況時(shí),需要采用不分享數(shù)據(jù)隱私保護(hù)技術(shù),通過(guò)同態(tài)加密、聯(lián)邦學(xué)習(xí)的方式,對(duì)不同節(jié)點(diǎn)的原始數(shù)據(jù)進(jìn)行有效的保護(hù)。
2.2.1 同態(tài)加密。該技術(shù)的最大優(yōu)勢(shì)在于不需要對(duì)原數(shù)據(jù)進(jìn)行訪問(wèn),就可以直接展開(kāi)數(shù)據(jù)的運(yùn)算和處理,在密文進(jìn)行直接運(yùn)算后,其計(jì)算的結(jié)果與解密后的計(jì)算結(jié)果完全一致。將這種技術(shù)與聯(lián)邦學(xué)習(xí)進(jìn)行相互結(jié)合的過(guò)程中,可以有效確保各個(gè)節(jié)點(diǎn)共同展開(kāi)模型訓(xùn)練的隱私安全。同時(shí),傳統(tǒng)的同態(tài)加密方式僅支持在加法與乘法的運(yùn)算過(guò)程中,但機(jī)器學(xué)習(xí)的計(jì)算方式更加復(fù)雜,同時(shí)對(duì)數(shù)據(jù)處理量具有較高的要求。在采用同態(tài)加密技術(shù)的過(guò)程中,很容易導(dǎo)致機(jī)器訓(xùn)練的效率變慢,同時(shí)也會(huì)引起加密數(shù)據(jù)總量的增長(zhǎng),在選擇的過(guò)程中需要根據(jù)具體的機(jī)器學(xué)習(xí)項(xiàng)目需求來(lái)進(jìn)行合理的選擇[4]。
2.2.2 聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)是分布式的機(jī)器學(xué)習(xí)模式,允許用戶(hù)在多個(gè)節(jié)點(diǎn)采用本地?cái)?shù)據(jù)展開(kāi)同步的機(jī)器學(xué)習(xí),由于數(shù)據(jù)不會(huì)離開(kāi)節(jié)點(diǎn)本地,因此該數(shù)據(jù)的隱私性可以得到有效的保護(hù)。但在實(shí)際的應(yīng)用過(guò)程中,聯(lián)邦學(xué)習(xí)技術(shù)依然存在較多的隱私保護(hù)問(wèn)題。因此相關(guān)研究人員在聯(lián)邦學(xué)習(xí)展開(kāi)的過(guò)程中,也充分利用了差分隱私、同態(tài)加密等多項(xiàng)技術(shù)對(duì)訓(xùn)練過(guò)程進(jìn)行全面的隱私保護(hù),但同時(shí)也會(huì)帶來(lái)時(shí)間、成本、計(jì)算量等方面的問(wèn)題。因此在選擇該技術(shù)的過(guò)程中,需要有效平衡機(jī)器學(xué)習(xí)速度與隱私保護(hù)之間的關(guān)系。
原數(shù)據(jù)隱私保護(hù)的性能評(píng)估需要對(duì)其隱私的質(zhì)量進(jìn)行全面的評(píng)估,一方面需要對(duì)信息在加密和擾動(dòng)處理后,對(duì)信息的不確定性和不可區(qū)分度進(jìn)行有效的掌握。另一方面還需要對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行有效的評(píng)估。
3.1.1 隱私質(zhì)量。信息的不確定性是指在數(shù)據(jù)經(jīng)過(guò)處理后信息的模糊程度,該模糊程度的指標(biāo)主要依賴(lài)于隱私商值的取值,在該值計(jì)算和取值的過(guò)程中,需要對(duì)其的絕對(duì)值進(jìn)行有效的計(jì)算,從而確保隱私質(zhì)量之間的差值可以量化為信息不確定性的評(píng)估標(biāo)準(zhǔn)。不可區(qū)分度則在原有數(shù)據(jù)集以及可觀測(cè)對(duì)比數(shù)據(jù)集之間的信息差進(jìn)行評(píng)價(jià),通常采用歸一化方差和條件隱私熵值的評(píng)估來(lái)確定對(duì)應(yīng)的指標(biāo),通過(guò)對(duì)其的有效計(jì)算,以確保最終隱私評(píng)估值的效果。
3.1.2 數(shù)據(jù)質(zhì)量。在隱私保護(hù)技術(shù)的過(guò)程中,會(huì)對(duì)數(shù)據(jù)的應(yīng)用效果造成影響。無(wú)論是在經(jīng)過(guò)加密還是擾動(dòng)處理后的數(shù)據(jù),都會(huì)進(jìn)一步增加機(jī)器學(xué)習(xí)的計(jì)算負(fù)擔(dān),并對(duì)學(xué)習(xí)的精準(zhǔn)度造成影響。因此機(jī)器學(xué)習(xí)的隱私保護(hù)效果不應(yīng)當(dāng)僅僅評(píng)價(jià)其隱私的保護(hù)質(zhì)量,還需要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效的評(píng)估。而對(duì)數(shù)據(jù)的質(zhì)量評(píng)估過(guò)程中需要圍繞數(shù)據(jù)的準(zhǔn)確性、一致性、完整性展開(kāi):①準(zhǔn)確性。對(duì)原始的數(shù)據(jù)集以及處理后的數(shù)據(jù)集進(jìn)行相似程度的比較。例如使用度量區(qū)分,對(duì)泛化或者加密后的數(shù)據(jù)集進(jìn)行度量比對(duì),區(qū)分度量值越大,信息數(shù)據(jù)的失真率就越高,但其損失率和準(zhǔn)確度得不到有效的保障[5];②完整性。對(duì)原始數(shù)據(jù)在經(jīng)過(guò)處理后各個(gè)數(shù)據(jù)的失真情況進(jìn)行掌握。在機(jī)器學(xué)習(xí)的過(guò)程中,除去擾動(dòng)加密的數(shù)據(jù)之外,還需要對(duì)其進(jìn)行脫敏處理,也就是對(duì)敏感數(shù)據(jù)進(jìn)行有效的處理,對(duì)其的完整性需要根據(jù)脫敏處理后的數(shù)據(jù)集與原數(shù)據(jù)集進(jìn)行計(jì)算和比較,以確定最終的完整性和數(shù)據(jù)丟失程度;③一致性。用來(lái)評(píng)估處理后的數(shù)據(jù)集兩者之間的相關(guān)性,在該值的確定過(guò)程中,通常采用條件隱私商來(lái)進(jìn)行計(jì)算,當(dāng)相互信息值越小的情況下,隱私級(jí)別越高,但同時(shí)兩者相關(guān)的信息量也就越少。
3.1.3 復(fù)雜度。復(fù)雜度主要對(duì)機(jī)器學(xué)習(xí)所采用的算法以及可擴(kuò)展性進(jìn)行有效的評(píng)估,通常情況下這些算法是相互共有的,為了提升算法的效率則需要對(duì)信息的復(fù)雜程度進(jìn)行有效的計(jì)算,使處理后的信息與原本信息在計(jì)算過(guò)程中CPU占用時(shí)間、計(jì)算成本的差值得到有效控制,從而評(píng)估該隱私算法對(duì)機(jī)器學(xué)習(xí)適應(yīng)性、可擴(kuò)展性所造成的影響。
①對(duì)于機(jī)器學(xué)習(xí)過(guò)程中采用隱私保護(hù)技術(shù)后,該隱私技術(shù)的應(yīng)用效果應(yīng)當(dāng)從訓(xùn)練損失上入手,對(duì)訓(xùn)練后的模型數(shù)據(jù)與訓(xùn)練數(shù)據(jù)進(jìn)行相互比較,使兩者的匹配程度得到量化,從而在不分享原始數(shù)據(jù)的情況下,對(duì)隱私保護(hù)技術(shù)帶來(lái)的學(xué)習(xí)訓(xùn)練精度影響進(jìn)行控制。②需要對(duì)模型收斂度進(jìn)行有效的控制,模型收斂度是指在多個(gè)數(shù)據(jù)進(jìn)行分布訓(xùn)練的過(guò)程中,模型是否能夠在學(xué)習(xí)訓(xùn)練后收斂至統(tǒng)一的全局模型中,同時(shí)收斂的速度、效率對(duì)于機(jī)器學(xué)習(xí)的數(shù)據(jù)分布會(huì)造成直接的影響。③還需要考慮到隱私保護(hù)過(guò)程中的資源消耗,隱私保護(hù)過(guò)程中不可避免的增加了系統(tǒng)的計(jì)算量和通訊量,為了確保隱私保護(hù)技術(shù)能夠?yàn)闄C(jī)器學(xué)習(xí)的發(fā)展和應(yīng)用提供支持,需要對(duì)隱私保護(hù)過(guò)程中需求的內(nèi)存量、數(shù)據(jù)傳輸量、帶寬吞吐量等數(shù)據(jù)進(jìn)行合理的計(jì)算。④通信開(kāi)支。在聯(lián)邦學(xué)習(xí)框架中需要進(jìn)行大量的本地?cái)?shù)據(jù)與中心數(shù)據(jù)之間的信息傳遞,而在添加隱私保護(hù)的過(guò)程中,會(huì)增加兩者之間的數(shù)據(jù)傳輸?shù)偭?,從而?huì)造成通信開(kāi)支的變化。⑤時(shí)延。該指標(biāo)會(huì)對(duì)隱私保護(hù)技術(shù)的應(yīng)用效果以及機(jī)器學(xué)習(xí)的效率造成直接影響。通常情況下需要對(duì)引用隱私保護(hù)技術(shù)后,機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練實(shí)驗(yàn)、數(shù)據(jù)傳輸實(shí)驗(yàn)和推理實(shí)驗(yàn)進(jìn)行有效的計(jì)算和統(tǒng)計(jì),從而確保機(jī)器學(xué)習(xí)的性能,并提升模型的有效程度。
綜上所述,機(jī)器學(xué)習(xí)技術(shù)發(fā)展的過(guò)程中,最大的阻礙是基于隱私保護(hù)的社會(huì)關(guān)注,而通常情況下對(duì)機(jī)器學(xué)習(xí)隱私保護(hù)的方式主要有法律、技術(shù)、主動(dòng)防御3個(gè)方面。而從技術(shù)的角度上來(lái)講,機(jī)器學(xué)習(xí)的隱私保護(hù)需要從原數(shù)據(jù)的隱私保護(hù)以及不分享原數(shù)據(jù)的隱私保護(hù)兩個(gè)方面展開(kāi)。同時(shí)隱私保護(hù)與數(shù)據(jù)的計(jì)算量、學(xué)習(xí)效率、時(shí)效性有相互制約的作用,在完成隱私保護(hù)的過(guò)程中,還需要重視隱私保護(hù)技術(shù)的可行性,從而實(shí)現(xiàn)按需分配的隱私保護(hù)過(guò)程,使機(jī)器學(xué)習(xí)的應(yīng)用更加可靠,滿足社會(huì)發(fā)展的實(shí)際需求。