李鳳華,李暉,牛犇,邱衛(wèi)東
隱私計(jì)算的學(xué)術(shù)內(nèi)涵與研究趨勢(shì)
李鳳華1,李暉2,牛犇1,邱衛(wèi)東3
(1. 中國(guó)科學(xué)院信息工程研究所,北京 100085;2. 西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院,陜西 西安 710126; 3. 上海交通大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,上海 200240)
筆者在國(guó)際上率先提出隱私計(jì)算的概念、定義及學(xué)術(shù)內(nèi)涵,并形成了較為成熟的理論與技術(shù)體系。為了持續(xù)推動(dòng)隱私計(jì)算的學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用,詳細(xì)詮釋了隱私計(jì)算的學(xué)術(shù)內(nèi)涵,包括如何理解全生命周期、延伸控制、隱私量化與映射、脫敏效果評(píng)估,為什么要做迭代按需脫敏、為什么要研究隱私計(jì)算語言以及自存證在泛在共享中的作用等,并對(duì)一些被曲解的學(xué)術(shù)概念予以澄清;給出了隱私計(jì)算九大方面37個(gè)研究點(diǎn),以及數(shù)據(jù)安全八大方面40個(gè)研究點(diǎn),并從18個(gè)維度將隱私計(jì)算與數(shù)據(jù)安全等技術(shù)進(jìn)行了全面對(duì)比,以幫助讀者更好地理解隱私計(jì)算的研究范疇,正確區(qū)分隱私計(jì)算與數(shù)據(jù)安全。
隱私計(jì)算;延伸控制;動(dòng)態(tài)度量;迭代按需脫敏;保護(hù)效果評(píng)估
信息時(shí)代之前,由于信息在小范圍內(nèi)傳播或在封閉信息系統(tǒng)內(nèi)使用,隱私泄露并沒有成為大眾關(guān)注的焦點(diǎn)。然而,移動(dòng)通信、網(wǎng)絡(luò)和信息等技術(shù)的迭代演進(jìn)推動(dòng)人類從IT(information technology)時(shí)代進(jìn)入DT(data technology)時(shí)代,DT時(shí)代的核心是面向數(shù)據(jù)流通的信息廣泛傳播和受控共享,共享數(shù)據(jù)中包含大量個(gè)人隱私信息,因此隱私信息的有效保護(hù)是數(shù)據(jù)有序共享、釋放數(shù)據(jù)價(jià)值的前提條件。當(dāng)前隱私保護(hù)面臨的問題與日俱增,如App頻繁超范圍采集個(gè)人信息,后臺(tái)信息系統(tǒng)中的隱私信息越權(quán)使用、大數(shù)據(jù)殺熟、個(gè)人畫像結(jié)果濫用、個(gè)人信息過度留存,生態(tài)圈之間信息共享缺乏延伸控制來抑制非授權(quán)共享,缺乏抗隱私挖掘的迭代按需脫敏,多副本留存和保護(hù)短板效應(yīng)凸顯,刪除權(quán)無法保障等。
各國(guó)對(duì)隱私保護(hù)的重視程度日益提高。歐盟頒布的《通用數(shù)據(jù)保護(hù)條例(GDPR,general data protection regulation)》強(qiáng)化了對(duì)知情權(quán)、被遺忘權(quán)、刪除權(quán)的要求;我國(guó)頒布的《中華人民共和國(guó)民法典》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》等將隱私保護(hù)的要求提高到了法律和合規(guī)審查的高度。
2015年,筆者在國(guó)際上率先提出了隱私計(jì)算的概念、定義及學(xué)術(shù)內(nèi)涵,并于2016年在《通信學(xué)報(bào)》上正式發(fā)表[1]。自隱私計(jì)算被提出至今,已形成較為成熟的理論與技術(shù)體系,得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和認(rèn)可。然而,一些機(jī)構(gòu)并沒有真正理解隱私計(jì)算的學(xué)術(shù)內(nèi)涵,作為原創(chuàng)者,有必要對(duì)隱私計(jì)算的真正學(xué)術(shù)內(nèi)涵做進(jìn)一步澄清,避免在隱私計(jì)算應(yīng)用中誤導(dǎo)企業(yè)界、投資界、主管部門和研究人員,以進(jìn)一步促進(jìn)隱私計(jì)算生態(tài)的健康發(fā)展。
隱私計(jì)算是面向隱私信息全生命周期保護(hù)的計(jì)算理論和方法,是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時(shí)隱私度量、隱私泄露代價(jià)、隱私保護(hù)與隱私分析復(fù)雜性的可計(jì)算模型與公理化系統(tǒng)。隱私計(jì)算具體是指在處理視頻、音頻、圖像、圖形、文字、數(shù)值、泛在網(wǎng)絡(luò)行為信息流等信息時(shí),對(duì)所涉及的隱私信息進(jìn)行描述、度量、評(píng)價(jià)和融合等操作,形成一套符號(hào)化、公式化且具有量化評(píng)價(jià)標(biāo)準(zhǔn)的隱私計(jì)算理論、算法及應(yīng)用技術(shù),支持多系統(tǒng)融合的隱私信息保護(hù)。隱私計(jì)算涵蓋了信息搜集者、發(fā)布者和使用者在信息產(chǎn)生、感知、發(fā)布、傳播、存儲(chǔ)、處理、使用、銷毀等全生命周期過程的所有計(jì)算操作,并包含支持海量用戶、高并發(fā)、高效能隱私保護(hù)的系統(tǒng)設(shè)計(jì)理論與架構(gòu)。
如圖1所示,隱私計(jì)算框架在隱私信息全生命周期的各個(gè)環(huán)節(jié)中建立了應(yīng)用場(chǎng)景、保護(hù)需求與計(jì)算模型等之間的映射關(guān)系,并基于場(chǎng)景描述和保護(hù)需求,適應(yīng)性地選擇相應(yīng)環(huán)節(jié)的計(jì)算方法實(shí)現(xiàn)相應(yīng)的計(jì)算功能。隱私計(jì)算框架包括隱私信息抽取、場(chǎng)景描述、隱私控制、隱私操作、隱私效果評(píng)估等5個(gè)步驟。隱私信息抽取根據(jù)多模態(tài)文檔的格式、語義等抽取隱私信息,并得到隱私信息向量;場(chǎng)景描述根據(jù)各隱私信息分量的類型、語義等,對(duì)應(yīng)用場(chǎng)景進(jìn)行定義與抽象;隱私控制是根據(jù)主體意愿、使用者的保護(hù)能力決定對(duì)隱私信息分量的操作控制,并生成傳播控制操作集合;隱私操作面向各隱私信息分量選取其對(duì)應(yīng)的隱私保護(hù)算法或信息處理動(dòng)作;隱私保護(hù)效果評(píng)估根據(jù)相關(guān)評(píng)價(jià)準(zhǔn)則,確定所選擇隱私保護(hù)方案的隱私保護(hù)效果。效果評(píng)估還為隱私控制方案的迭代優(yōu)化提供支撐,如效果達(dá)不到預(yù)期要求,則分別從場(chǎng)景描述、重新調(diào)整控制策略、重新定義操作等環(huán)節(jié)進(jìn)行反饋迭代,直至達(dá)到期望的保護(hù)效果。
隱私信息在單一信息系統(tǒng)內(nèi)或者一個(gè)使用者控制范圍內(nèi)的全生命周期不是真正的全生命周期,同一隱私信息跨系統(tǒng)流轉(zhuǎn),其在所有流經(jīng)的信息系統(tǒng)或者在所有使用者控制范圍內(nèi)的全生命周期才是隱私計(jì)算內(nèi)涵中重點(diǎn)關(guān)注的全生命周期。
圖1 隱私計(jì)算框架
延伸控制是指泛在共享環(huán)境下隱私信息在跨域受控交換過程中全生命周期各環(huán)節(jié)隱私操作的迭代控制、控制策略的動(dòng)態(tài)調(diào)整、控制策略的可控傳遞、控制策略執(zhí)行的可信審計(jì)等。延伸控制根據(jù)信息主體或數(shù)據(jù)提供方的控制意圖、當(dāng)前使用者控制約束和數(shù)據(jù)接收者保護(hù)能力生成控制策略,使其隨信息流轉(zhuǎn)過程同步傳遞且不可分割,并根據(jù)使用場(chǎng)景、延伸控制要求不斷動(dòng)態(tài)變化并向前可信可控傳遞,從而實(shí)現(xiàn)迭代控制直至數(shù)據(jù)的所有副本銷毀為止。
延伸控制機(jī)制包括控制意圖、控制策略、隱私操作等??刂埔鈭D由信息主體設(shè)置、場(chǎng)景適應(yīng)的自調(diào)整、信息來源的迭代傳遞等方式多源獲取,通常由信息所有者、搜集/發(fā)布者、使用者實(shí)施;控制策略依據(jù)運(yùn)行環(huán)境信息、接收者保護(hù)能力、上級(jí)傳遞的主體控制意圖、當(dāng)前延伸控制信息等要素迭代生成或調(diào)整,在全生命周期過程中由不同使用者執(zhí)行延伸控制;依據(jù)應(yīng)用場(chǎng)景和延伸控制信息,優(yōu)選脫敏和刪除算法,實(shí)現(xiàn)QoS與差異化脫敏、刪除的效果平衡。
在隱私信息的形式化描述[3]中,隱私屬性分量用于量化隱私信息分量及分量組合的敏感度或者期望保護(hù)程度。隱私屬性分量的劃分及其量化需要從本質(zhì)特征上研究學(xué)術(shù)分類,并研究場(chǎng)景適應(yīng)的分級(jí)方法。例如,GPS數(shù)據(jù)、門牌號(hào)、郵政編碼、小區(qū)名稱、移動(dòng)基站標(biāo)識(shí)本質(zhì)上都屬于位置隱私,但敏感度分級(jí)各不相同。GPS數(shù)據(jù)、門牌號(hào)、移動(dòng)基站標(biāo)識(shí)精度和敏感度高;而郵政編碼、小區(qū)名稱覆蓋的位置范圍更大,精度和敏感度較低。
隱私信息跨系統(tǒng)交換和傳播時(shí),不同信息系統(tǒng)的隱私屬性分量的量化標(biāo)準(zhǔn)可能不同,因此需要在不同系統(tǒng)之間建立隱私量化標(biāo)準(zhǔn)的映射關(guān)系,使得相同隱私信息在不同的隱私信息系統(tǒng)中保護(hù)效果具有一致性。
在隱私信息泛在傳播的迭代按需脫敏過程中,對(duì)隱私信息的脫敏效果評(píng)估主要體現(xiàn)在3個(gè)方面。一是用于信息發(fā)布的單個(gè)隱私信息的脫敏效果評(píng)估,如果脫敏效果評(píng)估達(dá)到預(yù)定要求,就可以發(fā)布;二是用于抗大數(shù)據(jù)隱私挖掘的脫敏效果評(píng)估,具體是對(duì)同一主體關(guān)聯(lián)的所有當(dāng)前信息和歷史信息進(jìn)行大數(shù)據(jù)隱私挖掘分析,評(píng)價(jià)不同時(shí)期、不同算法脫敏后的信息是否能抗大數(shù)據(jù)隱私挖掘;三是通過對(duì)不同主體的同一類信息進(jìn)行脫敏效果評(píng)估,主要用于對(duì)算法的脫敏能力、算法選擇控制的正確性進(jìn)行評(píng)估,以支撐算法的迭代修正,以及算法管理方案的迭代修正。
隱私信息在每一次跨系統(tǒng)共享過程中,需要根據(jù)所處時(shí)空?qǐng)鼍?、隱私信息中的主體關(guān)系、隱私脫敏需求、傳播過程中接收方的保護(hù)能力等要素差異,以及不同保護(hù)算法的特征、適用范圍、保護(hù)效果,對(duì)隱私信息實(shí)現(xiàn)場(chǎng)景適應(yīng)的差異化保護(hù)。因此,同一隱私信息的脫敏不是在首次傳播時(shí)一次性脫敏就能解決問題,而是需要在每次傳播的過程中做迭代按需脫敏。例如,在導(dǎo)航應(yīng)用場(chǎng)景下的服務(wù)過程中,信息系統(tǒng)需要相對(duì)精準(zhǔn)的起始地、目的地和軌跡信息;在服務(wù)結(jié)束后,隱私信息留存時(shí)應(yīng)該做泛化脫敏操作;留存信息在后臺(tái)轉(zhuǎn)移到其他信息系統(tǒng)進(jìn)行利用時(shí),還要做進(jìn)一步的泛化脫敏操作;企業(yè)在跨生態(tài)圈共享導(dǎo)航信息時(shí),則要再次做進(jìn)一步的迭代泛化脫敏操作。這個(gè)典型場(chǎng)景的脫敏應(yīng)用需求可抽象為迭代按需脫敏。
隱私計(jì)算語言(PCL,privacy computing language)用于高效簡(jiǎn)潔地形式化描述隱私信息定義、脫敏、控制等操作,包括隱私定義語言、隱私操作語言、隱私控制語言等。隱私計(jì)算語言能夠便捷地支持隱私信息跨平臺(tái)交換與延伸控制;還可對(duì)開發(fā)者屏蔽復(fù)雜的理論細(xì)節(jié),降低程序開發(fā)者的技術(shù)門檻,提升系統(tǒng)開發(fā)效率,從而快速構(gòu)建隱私保護(hù)信息系統(tǒng)。隱私計(jì)算語言能夠準(zhǔn)確地描述隱私計(jì)算各個(gè)環(huán)節(jié)的操作,便于隱私計(jì)算理論的準(zhǔn)確表達(dá),易于學(xué)者之間交流以及開發(fā)者理解,確保沒有二義性。
在隱私信息泛在共享過程中,隱私信息的延伸控制策略隨隱私信息一起可信可控傳遞,各種主體對(duì)隱私信息的各類操作應(yīng)該進(jìn)行不可篡改的存證記錄,并對(duì)操作與延伸控制策略的一致性進(jìn)行及時(shí)判定及判定結(jié)果存證。這樣,當(dāng)違反延伸控制策略的行為發(fā)生時(shí),可以實(shí)現(xiàn)泛在傳播過程中隨遇、實(shí)時(shí)的違規(guī)、侵權(quán)判定,并支撐溯源取證。
數(shù)據(jù)安全主要指保證數(shù)據(jù)的機(jī)密性、完整性、不可否認(rèn)性等,確保被保護(hù)的數(shù)據(jù)具有可恢復(fù)性,即強(qiáng)調(diào)信息的無損性,大多使用密碼學(xué)、訪問控制等技術(shù)實(shí)施。隱私保護(hù)可分為兩種情況:一是保障信息不受損失的前提下隱私不被非授權(quán)者獲取及處理,稱之為隱私防護(hù),即防護(hù)是在單一信任域中確保信息不泄露;二是在隱私交換過程中信息接收者得到隱私的信息量小于信息發(fā)送方同一隱私的信息量,接收方不能完全獲得發(fā)送方的全部信息,稱之為隱私脫敏。
單一有界信息系統(tǒng)中單一環(huán)節(jié)的數(shù)據(jù)安全和隱私防護(hù)技術(shù)有高度的原理相近性和使用互換性,而用于跨系統(tǒng)交換的隱私脫敏與數(shù)據(jù)安全技術(shù)則有明顯的差異。此外,數(shù)據(jù)脫敏與隱私脫敏也存在差異,數(shù)據(jù)脫敏通常針對(duì)國(guó)家秘密和企業(yè)的商業(yè)秘密而言,不能交換的敏感數(shù)據(jù)以刪除為主要手段,提供部分?jǐn)?shù)據(jù)子集,不以提供假數(shù)據(jù)方式進(jìn)行數(shù)據(jù)脫敏;隱私脫敏則針對(duì)個(gè)人信息,數(shù)據(jù)脫敏的方法可以用于隱私脫敏,但隱私脫敏還有其他替代、泛化、加擾等方式,使得脫敏后的信息存在失真的情況。
在現(xiàn)實(shí)社會(huì)中,目前對(duì)數(shù)據(jù)安全的保護(hù)力度大于對(duì)隱私的保護(hù)力度。數(shù)據(jù)安全主要針對(duì)國(guó)家和企業(yè)部門,數(shù)據(jù)使用部門的管理制度嚴(yán)格,工作人員數(shù)據(jù)安全的自覺性強(qiáng),數(shù)據(jù)泄露很多情況下要承擔(dān)刑事責(zé)任。隱私屬于個(gè)人信息,個(gè)人信息的泄露大多為民事糾紛,公眾保護(hù)意識(shí)普遍不足,法律處罰措施相對(duì)較輕,企業(yè)泄露個(gè)人隱私也以罰款為主。因此,對(duì)隱私信息如果不脫敏,在泛在共享的環(huán)境下隱私無從保護(hù),故數(shù)據(jù)安全和隱私防護(hù)的相關(guān)技術(shù)不適應(yīng)跨系統(tǒng)交換的隱私保護(hù)。
值得強(qiáng)調(diào)的是,密文計(jì)算、安全多方計(jì)算、機(jī)密計(jì)算、可信計(jì)算、訪問控制等屬于數(shù)據(jù)安全范疇,密文計(jì)算、機(jī)密計(jì)算、可信計(jì)算等保護(hù)計(jì)算環(huán)節(jié)的數(shù)據(jù)安全,安全多方計(jì)算可以保護(hù)交換環(huán)節(jié)的數(shù)據(jù)安全,它們可以用于單一信息系統(tǒng)、局部環(huán)節(jié)的隱私防護(hù),隱私信息并沒有被脫敏,具有可逆性,因此某一系統(tǒng)的某一環(huán)節(jié)的隱私泄露會(huì)導(dǎo)致其他系統(tǒng)保護(hù)的失效,具有“一損俱損”的短板效應(yīng)缺陷。在此,對(duì)學(xué)術(shù)界、產(chǎn)業(yè)界容易混淆的若干概念澄清如下。
密文計(jì)算是指計(jì)算過程中的數(shù)據(jù)不被計(jì)算參與方所獲取,主要用于外包計(jì)算場(chǎng)景。同態(tài)加密是密文計(jì)算的代表性技術(shù),是在事先確定轉(zhuǎn)換規(guī)則的前提下,所有參與運(yùn)算的明文數(shù)據(jù)使用該規(guī)則轉(zhuǎn)換為密文,在密文空間中進(jìn)行特定形式的運(yùn)算并得到密文運(yùn)算的結(jié)果,再通過相應(yīng)的轉(zhuǎn)換規(guī)則轉(zhuǎn)換為明文運(yùn)算結(jié)果,該結(jié)果與直接對(duì)明文運(yùn)算得到的結(jié)果一致。本質(zhì)上,密文計(jì)算參與運(yùn)算的明文及明文結(jié)果都沒有信息損失,因此密文計(jì)算用于隱私保護(hù)時(shí),僅能解決計(jì)算過程中的隱私防護(hù),不適用于信息泛在共享的隱私防護(hù)。
在事先確定參與方數(shù)目范圍及交互協(xié)議的前提下,所有參與方以密文形式交互參與運(yùn)算的信息并完成預(yù)先約定的運(yùn)算任務(wù),所有參與方都能得到運(yùn)算結(jié)果的明文,但不能得到相互交互參與運(yùn)算的明文信息。安全多方計(jì)算在有惡意參與者的情況下,誠(chéng)實(shí)參與者仍能得到正確的結(jié)果,不泄露參與方的原始信息。現(xiàn)階段,參與方的數(shù)目一般是兩方和三方。秘密共享、不經(jīng)意傳輸、同態(tài)加密等是構(gòu)造安全多方計(jì)算的重要機(jī)制。本質(zhì)上,安全多方計(jì)算沒有信息損失,主要用于計(jì)算環(huán)節(jié),原始參與方的信息不泄露,但運(yùn)算結(jié)果具有隱私防護(hù)的等價(jià)效果。因此,安全多方計(jì)算用于隱私保護(hù)時(shí),僅能解決計(jì)算過程中的隱私防護(hù),不適用于信息泛在共享的隱私防護(hù)。
人工智能模型訓(xùn)練時(shí)在全部完整數(shù)據(jù)上訓(xùn)練才能達(dá)到最佳效果,但由于收集數(shù)據(jù)量受限或者全量數(shù)據(jù)訓(xùn)練運(yùn)算量大,通常在有限的樣本數(shù)據(jù)上訓(xùn)練,而樣本數(shù)據(jù)與全部完整數(shù)據(jù)的特征偏離程度決定了訓(xùn)練的效果。
將數(shù)據(jù)集中起來進(jìn)行全局訓(xùn)練涉及兩個(gè)問題:① 算力集中導(dǎo)致投資巨大且算力可能得不到充分利用;② 數(shù)據(jù)集中導(dǎo)致數(shù)據(jù)出域,在安全保護(hù)和使用控制沒有得到有效解決的情況下數(shù)據(jù)所有者不愿意分享數(shù)據(jù)。聯(lián)邦學(xué)習(xí)是在這兩個(gè)背景下提出的一種分布式模型訓(xùn)練架構(gòu),首先,可以充分利用分布式算力減少最終模型需求方的算力投入;其次,通過本地樣本數(shù)據(jù)的局部訓(xùn)練,以及訓(xùn)練結(jié)果的迭代聚合,在犧牲少量訓(xùn)練結(jié)果質(zhì)量的條件下,迎合數(shù)據(jù)不愿意出域共享的現(xiàn)狀,間接地減少數(shù)據(jù)泄露的機(jī)會(huì)。然而,分布模式模型訓(xùn)練仍然需要交換中間結(jié)果和模型參數(shù),存在數(shù)據(jù)泄露的問題,當(dāng)然也包含隱私泄露問題。
綜上所述,聯(lián)邦學(xué)習(xí)的本質(zhì)是一個(gè)分布式模型訓(xùn)練架構(gòu),因不進(jìn)行數(shù)據(jù)集中訓(xùn)練,間接地減少了數(shù)據(jù)泄露,但交換的信息仍然存在數(shù)據(jù)泄露,因此,從學(xué)術(shù)本質(zhì)上聯(lián)邦學(xué)習(xí)屬于人工智能的范疇,不屬于數(shù)據(jù)安全和隱私保護(hù)學(xué)科范疇,也不屬于隱私計(jì)算的范疇。
Gartner發(fā)布的2021年前沿科技戰(zhàn)略趨勢(shì)[5]中提到了隱私增強(qiáng)計(jì)算(privacy enhancing computation),但筆者認(rèn)為其命名并不妥當(dāng),隱私保護(hù)的根本目的是不讓隱私本身增強(qiáng),但“隱私增強(qiáng)計(jì)算”的詞義理解為隱私的增強(qiáng)計(jì)算技術(shù),相應(yīng)地屬于挖掘隱私信息的技術(shù)領(lǐng)域,即讓隱私特征信息更加凸顯出來。若要表達(dá)用于隱私保護(hù)的技術(shù),“隱私保護(hù)能力增強(qiáng)計(jì)算(capability enhancing computation for privacy preservation)”的計(jì)算技術(shù)更為恰當(dāng)。此外,目前學(xué)術(shù)界研究的“隱私增強(qiáng)計(jì)算”仍是針對(duì)單一環(huán)節(jié)、單一場(chǎng)景的保護(hù)方案,屬于傳統(tǒng)的隱私保護(hù)技術(shù),只是零散的技術(shù)點(diǎn),沒有形成體系,更不能替代隱私計(jì)算。
有些研究機(jī)構(gòu)將筆者對(duì)隱私計(jì)算定義中的“搜集者、發(fā)布者和使用者”改為“所有者、轉(zhuǎn)發(fā)者和接收者”,并稱其為廣義隱私計(jì)算,實(shí)際上沒有正確理解隱私計(jì)算的內(nèi)涵,不但不是廣義隱私計(jì)算,反而是更為狹義地理解隱私計(jì)算;將“搜集者”改為“所有者”是概念錯(cuò)誤,信息所有者對(duì)隱私具有任意的處置權(quán);而筆者對(duì)隱私計(jì)算定義中的“搜集者”包括搜索服務(wù)商(搜索引擎)、信息收集加工服務(wù)商,它們獲取信息時(shí)應(yīng)保障信息主體的知情權(quán)。將“發(fā)布者”改為“轉(zhuǎn)發(fā)者”是沒有認(rèn)識(shí)到平臺(tái)發(fā)布隱私信息需要承擔(dān)隱私保護(hù)的責(zé)任,“轉(zhuǎn)發(fā)”的語義通常指?jìng)鬏?,而傳輸不承?dān)內(nèi)容侵權(quán)的法律責(zé)任,發(fā)布平臺(tái)則要承擔(dān)法律責(zé)任。將“使用者”改為“接收者”是縮小了范圍,使用者包括數(shù)據(jù)接收和數(shù)據(jù)使用處理兩個(gè)方面,而數(shù)據(jù)接收在語義上只涵蓋數(shù)據(jù)留存,只涉及數(shù)據(jù)刪除權(quán)。數(shù)據(jù)使用則涉及隱私信息的加工、分析、交易等廣泛的行為,對(duì)隱私信息侵權(quán)體現(xiàn)在更廣義的范圍,對(duì)信息主體造成經(jīng)濟(jì)損失和社會(huì)影響。
隱私計(jì)算和數(shù)據(jù)安全的學(xué)術(shù)內(nèi)涵如圖2和圖3所示。
圖2 隱私計(jì)算的學(xué)術(shù)內(nèi)涵
隱私計(jì)算學(xué)術(shù)內(nèi)涵具體分為九大方向:隱私計(jì)算框架、延伸控制、隱私感知、動(dòng)態(tài)度量、迭代按需脫敏、保護(hù)效果評(píng)估、多副本完備刪除、溯源取證、隱私計(jì)算語言。在此基礎(chǔ)上,可分為37個(gè)研究點(diǎn):控制迭代傳遞、操作約束條件、保護(hù)能力量化映射、隱私特征提取、隱私分量、隱私屬性向量、場(chǎng)景識(shí)別、泄露風(fēng)險(xiǎn)評(píng)估、算法通用框架、脫敏原語、組合規(guī)則、差分隱私、本地化差分、個(gè)性化差分、隱私預(yù)算、-匿名、-多樣性、-鄰近性、去標(biāo)識(shí)、混淆、加擾、置亂、泛化、替換、抑制、數(shù)據(jù)合成、可用性、算法復(fù)雜性、脫敏效果評(píng)估、刪除效果評(píng)估、隱私挖掘、操作自存證、權(quán)屬轉(zhuǎn)移、侵權(quán)行為判定、侵權(quán)取證、證據(jù)交叉認(rèn)證、線索挖掘。
數(shù)據(jù)安全的學(xué)術(shù)內(nèi)涵具體分為八大方向:機(jī)密計(jì)算、可信計(jì)算、密文計(jì)算、安全多方計(jì)算、訪問控制、數(shù)據(jù)災(zāi)備、數(shù)據(jù)治理、身份認(rèn)證。在此基礎(chǔ)上,可細(xì)分為40個(gè)研究點(diǎn):可信執(zhí)行環(huán)境、同態(tài)加密、可搜索加密、可交換加密、性質(zhì)保持加密、遠(yuǎn)程驗(yàn)證、完整性可信度量、可信遷移、不經(jīng)意傳輸、秘密共享、門限密碼、混淆電路、零知識(shí)證明、承諾協(xié)議、隱私求交、不經(jīng)意隨機(jī)預(yù)言機(jī)、權(quán)限管理、自主訪問控制、強(qiáng)制訪問控制、基于角色的訪問控制、基于屬性加密的訪問控制、基于行為的訪問控制、網(wǎng)絡(luò)空間的訪問控制、身份鑒別、基于身份加密、數(shù)字簽名、多因子認(rèn)證、交叉認(rèn)證、異地容災(zāi)、安全存儲(chǔ)、糾刪碼、安全刪除、數(shù)據(jù)清洗、分類分級(jí)、合規(guī)性檢測(cè)、消息鑒別、數(shù)據(jù)確權(quán)、追蹤溯源、數(shù)據(jù)審計(jì)、流轉(zhuǎn)管控。
表1 隱私計(jì)算與傳統(tǒng)隱私保護(hù)、數(shù)據(jù)安全等方案的對(duì)比
為了明確科學(xué)地界定隱私計(jì)算的學(xué)術(shù)內(nèi)涵,刻畫不同解決方案之間學(xué)術(shù)內(nèi)涵的差異,幫助理解和判斷什么樣的技術(shù)才是真正的隱私計(jì)算,筆者提出了18個(gè)維度的對(duì)比標(biāo)準(zhǔn)。隱私計(jì)算與傳統(tǒng)隱私保護(hù)、數(shù)據(jù)安全等方案的對(duì)比如表1所示。
相較于隱私保護(hù)的傳統(tǒng)方法,以及密文計(jì)算、機(jī)密計(jì)算、可信計(jì)算、安全多方計(jì)算、聯(lián)邦學(xué)習(xí)和訪問控制技術(shù),隱私計(jì)算的計(jì)算開銷和通信開銷低,支持全生命周期的保護(hù)、延伸控制、迭代脫敏,既可適用于有界系統(tǒng)不出域也可適用于無界系統(tǒng)出域的場(chǎng)景,同時(shí)支持同一隱私信息在不同場(chǎng)景、不同約束條件下的差異化脫敏保護(hù),以及保護(hù)能力在不同信息系統(tǒng)中的量化映射,并包含對(duì)隱私侵權(quán)行為的判定和取證溯源,可適用于海量用戶的細(xì)粒度隱私保護(hù)。
從隱私感知與動(dòng)態(tài)度量、隱私保護(hù)算法、隱私保護(hù)效果評(píng)估、隱私信息延伸控制、隱私侵權(quán)行為存證和溯源等方面進(jìn)一步研究并完善隱私計(jì)算框架及其數(shù)學(xué)基礎(chǔ),細(xì)化全生命周期不同環(huán)節(jié)間的關(guān)聯(lián)機(jī)制、操作控制及其傳遞,研究全流程隱私信息的流轉(zhuǎn)控制模型、脫敏延伸控制模型、刪除延伸控制模型等內(nèi)容,研究業(yè)務(wù)服務(wù)與隱私計(jì)算深度融合的高效隱私信息保護(hù)系統(tǒng)技術(shù)架構(gòu),并針對(duì)典型應(yīng)用場(chǎng)景的隱私信息保護(hù)提供解決方案。
從隱私信息的知識(shí)表示模型、學(xué)術(shù)分類、場(chǎng)景分級(jí)、原子抽象建模、特征分析與隱私分量抽取、智能感知、隱私分量關(guān)聯(lián)關(guān)系挖掘等角度入手,研究隱私分量與場(chǎng)景關(guān)聯(lián)模型、隱私分量量化與動(dòng)態(tài)調(diào)整、隱私分量組合與動(dòng)態(tài)度量、隱私度量的量化指標(biāo)體系等內(nèi)容,解決時(shí)空差異和主體動(dòng)態(tài)下隱私動(dòng)態(tài)交換的精準(zhǔn)度量問題,支撐泛在共享下隱私信息交換控制與按需脫敏。
在不同環(huán)節(jié)、不同場(chǎng)景下研究基于不同數(shù)學(xué)基礎(chǔ)的隱私脫敏原語及其等價(jià)或映射關(guān)系;研究隱私保護(hù)算法通用框架與設(shè)計(jì)準(zhǔn)則、算法選擇和優(yōu)化組合設(shè)計(jì)、算法前后臺(tái)任務(wù)動(dòng)態(tài)調(diào)度、算法保護(hù)能力量化指標(biāo)之間的等價(jià)關(guān)系等內(nèi)容,支撐泛在共享下隱私信息跨系統(tǒng)交換控制、隱私信息保護(hù)系統(tǒng)的柔性重構(gòu)和隱私脫敏功能的動(dòng)態(tài)編排、隱私保護(hù)算法的設(shè)計(jì)與能力評(píng)估。
從延伸控制性、可逆性、復(fù)雜性、偏差性、信息損失性、合規(guī)性等維度入手,研究保護(hù)算法及其組合的效果評(píng)估量化指標(biāo)、量化指標(biāo)的關(guān)聯(lián)關(guān)系和動(dòng)態(tài)權(quán)值、效果評(píng)估系統(tǒng)的計(jì)算模型、隱私挖掘等內(nèi)容,構(gòu)建效果評(píng)估指標(biāo)體系,支撐隱私保護(hù)的效果反饋和隱私保護(hù)方案的迭代優(yōu)化、隱私信息保護(hù)系統(tǒng)能力評(píng)估。
以隱私侵權(quán)行為判決規(guī)則與約束表示為基礎(chǔ),研究延伸控制策略判定、全流程隱私侵權(quán)線索存證、侵權(quán)行為的場(chǎng)景與內(nèi)容的存證、審計(jì)信息可信存證、隱私操作行為和策略聲明的一致性與合規(guī)性檢測(cè)、侵權(quán)事件識(shí)別與判定、侵權(quán)場(chǎng)景構(gòu)建與行為重構(gòu)等內(nèi)容,支撐隱私信息受控共享。
從傳播路徑發(fā)現(xiàn)、通知與確認(rèn)拓?fù)渖?、刪除方案選擇、刪除操作行為可驗(yàn)證等方面,研究自動(dòng)/指定刪除機(jī)制、刪除粒度協(xié)商機(jī)制、信息多副本檢索、刪除粒度控制、自主/自動(dòng)刪除觸發(fā)、刪除效果遠(yuǎn)程驗(yàn)證機(jī)制、刪除不可恢復(fù)性評(píng)估、刪除操作行為審計(jì)等內(nèi)容,支撐刪除可信驗(yàn)證。
隱私計(jì)算因需而生,其核心是泛在環(huán)境下隱私信息全生命周期的保護(hù),其靈魂是迭代延伸控制和按需保護(hù)。從嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)定義角度來講,如果一種技術(shù)架構(gòu)不存在信息泄露,就不需要利用數(shù)據(jù)安全技術(shù)來解決信息泄露、利用隱私保護(hù)技術(shù)來解決隱私泄露。針對(duì)有隱私泄露的應(yīng)用場(chǎng)景,能解決隱私泄露問題的技術(shù)才是隱私保護(hù)技術(shù)。隱私計(jì)算是解決數(shù)據(jù)泛在共享過程中隱私泄露問題的完整理論框架和技術(shù)體系,當(dāng)然針對(duì)不同場(chǎng)景還需要不斷具體細(xì)化、不斷豐富,需要廣大學(xué)者共同努力。作為隱私計(jì)算的提出者,懷抱歷史責(zé)任感來寫這篇文章,希望能正本清源,促進(jìn)大家正確理解隱私計(jì)算的學(xué)術(shù)內(nèi)涵,一起為數(shù)字經(jīng)濟(jì)發(fā)展保駕護(hù)航。
[1] 李鳳華, 李暉, 賈焰,等. 隱私計(jì)算研究范疇及發(fā)展趨勢(shì)[J]. 通信學(xué)報(bào), 2016, 37(4): 1-11.
LI F H, LI H, JIA Y, et al. Privacy computing: concept, connotation and its research trend[J]. Journal on Communications, 2016, 37(4): 1-11.
[2] LI F, HUI L, NIU B, et al. Privacy computing: concept, computing framework, and future development trends[J]. Engineering, 2019, 5(6): 14.
[3] 李鳳華,李暉,牛犇. 隱私計(jì)算理論與技術(shù)[M]. 北京: 人民郵電出版社,2021.
LI F H, LI H, NIU B. Privacy computing theory and technology[M]. Beijing: Posts & Telecom Press, 2021.
[4] 尤為. 專訪李鳳華:隱私數(shù)據(jù)共享和泄露間的矛盾永恒存在,隱私計(jì)算必將越來越成熟[EB].
YOU W. Exclusive interview with Li Fenghua: the contradiction between private data sharing and disclosure is eternal, and private computing will become more and more mature[EB].
[5] Gartner top strategic technology trends for 2021[EB].
Academic connotation and research trends of privacy computing
LI Fenghua1, LI Hui2, NIU Ben1, QIU Weidong3
1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100085, China 2. School of Cyber Engineering, Xidian University, Xi’an 710126, China 3. School of Cyber Science and Engineering, Shanghai Jiaotong University, Shanghai 200240, China
The authors of this paper first proposed the concept, definition and academic connotation of privacy computing, and formed a relatively mature theoretical and technical system accordingly. In order to continuously promote the academic research and industrial application of privacy computing, the academic connotation of privacy computing was elaborated, including how to understand the full-life cycle, extended control, privacy quantification and mapping, desensitization effect evaluation. Besides, the necessity of iterative on-demand desensitization and the motivation to study the language of privacy computing were presented. The role of audit log self-storage in ubiquitous sharing was explained and some distorted academic concepts were also clarified. Moreover, 37 research points in 9 aspects of privacy computing and 40 research points in 8 aspects of data security were given. It helps to better understand the research scope of privacy computing and correctly distinguish between privacy computing and data security.
privacy computing, extended control, dynamic measurement, iterative on-demand desensitization, protection effect evaluation
TP309
A
10.11959/j.issn.2096?109x.2022078
2022?11?09;
2022?11?30
李暉,lihui@mail.xidian.edu.cn
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2021YFB3101301);國(guó)家自然科學(xué)基金(61932015)
The National Key R&D Program of China (2021YFB3101301), The National Natural Science Foundation of China(61932015)
李鳳華, 李暉, 牛犇, 等. 隱私計(jì)算的學(xué)術(shù)內(nèi)涵與研究趨勢(shì)[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2022, 8(6): 1-8.
LI F H, LI H, NIU B, et al. Academic connotation and research trends of privacy computing[J]. Chinese Journal of Network and Information Security, 2022, 8(6): 1-8.
李鳳華(1966?),男,湖北浠水人,博士,中國(guó)科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與系統(tǒng)安全、隱私計(jì)算、密碼應(yīng)用。
李暉(1968?),男,河南靈寶人,博士,西安電子科技大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、隱私計(jì)算、信息論。
牛犇(1984? ),男,陜西西安人,博士,中國(guó)科學(xué)院信息工程研究所副研究員、博士生導(dǎo)師,主要研究方向?yàn)殡[私計(jì)算、網(wǎng)絡(luò)安全防護(hù)。
邱衛(wèi)東(1973? ),男,江西修水人,上海交通大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)取證、密碼分析、人工智能安全、大數(shù)據(jù)隱私保護(hù)。