• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向加密數(shù)據(jù)的安全圖像分類模型研究綜述*

      2020-09-12 10:08:38孫隆隆于詩文王迎雪
      密碼學(xué)報(bào) 2020年4期
      關(guān)鍵詞:同態(tài)加密運(yùn)算

      孫隆隆, 李 輝, 于詩文, 王迎雪

      1. 西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室, 西安710071

      2. 西安電子科技大學(xué) 網(wǎng)絡(luò)與信息安全學(xué)院, 西安710126

      3. 中國電子科學(xué)研究院 社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國家工程實(shí)驗(yàn)室, 北京100041

      1 引言

      近年來, 人工智能相關(guān)技術(shù)的研究產(chǎn)生了突破性進(jìn)展, 特別是以神經(jīng)網(wǎng)絡(luò)模型為核心代表的各種機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等領(lǐng)域, 進(jìn)而深刻地改變著人們的生活. 但是, 技術(shù)是一把雙刃劍. 移動(dòng)終端設(shè)備、視頻監(jiān)控網(wǎng)絡(luò)和傳感器網(wǎng)絡(luò)等隨時(shí)隨地地獲取著個(gè)人用戶的各類信息數(shù)據(jù), 規(guī)范利用此類數(shù)據(jù)可以為用戶帶來更便捷的使用體驗(yàn), 而非法使用數(shù)據(jù)則會(huì)帶來嚴(yán)重的安全和隱私風(fēng)險(xiǎn). 從互聯(lián)網(wǎng)科技巨頭到傳統(tǒng)的酒店、快遞等服務(wù)行業(yè), 無論是蓄意濫用還是受到攻擊, 近年來各類信息泄露事件可謂層出不窮[1,2], 單純依靠機(jī)構(gòu)的自我約束顯然不足以保證數(shù)據(jù)的安全, 為此以歐美為代表的各國政府加緊提出了如《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)、《加州消費(fèi)者隱私法案》(California Consumer Privacy Act, CCPA) 等相關(guān)數(shù)據(jù)保護(hù)法規(guī)[3,4]. 這些法規(guī)對(duì)數(shù)據(jù)接入和使用做出了嚴(yán)格的限制. 部分現(xiàn)有機(jī)器學(xué)習(xí)技術(shù)要求用戶將個(gè)人數(shù)據(jù)上傳到服務(wù)提供商的服務(wù)器, 以便訓(xùn)練一個(gè)可用的模型或利用已訓(xùn)練模型進(jìn)行推理得到結(jié)果, 而在這些法規(guī)限制下, 數(shù)據(jù)獲取變得更加嚴(yán)格, 部分普通機(jī)器學(xué)習(xí)技術(shù)面臨失效.

      自動(dòng)圖像分類具有重要的應(yīng)用價(jià)值, 一直以來都是研究的熱點(diǎn). 由于高性能計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展與提高, 計(jì)算能力愈來愈高、圖像收集愈來愈便捷. 圖像分類技術(shù)已從人工設(shè)計(jì)特征[5]發(fā)展為自動(dòng)提取特征, 從早期的支持向量機(jī)[6]、淺層神經(jīng)網(wǎng)絡(luò)[7]等模型發(fā)展為當(dāng)前主流的深度學(xué)習(xí)模型[8,9], 圖像數(shù)據(jù)量與模型復(fù)雜度均有了極大的提升. 然而, 圖像分類應(yīng)用的普及引出了一個(gè)重要的問題: 如何保障圖像分類模型應(yīng)用過程中的隱私安全?

      同樣,隱私保護(hù)技術(shù)的研究也由來已久. 早期有k 匿名化(k-anonymity)、l 多樣化(l-diversity)[10,11]等技術(shù)用于隱私保護(hù), 但此類方法多只適合于提供數(shù)據(jù)特定統(tǒng)計(jì)學(xué)信息, 難以應(yīng)用于復(fù)雜機(jī)器學(xué)習(xí)模型.近年來研究人員提出了差分隱私(Differential Privacy, DP)[12]的概念, 一些學(xué)者將差分隱私引入各類機(jī)器學(xué)習(xí)模型, 提出了不同隱私保護(hù)方案, 旨在確保發(fā)布已訓(xùn)練完成的模型時(shí), 用于訓(xùn)練模型的數(shù)據(jù)信息不被泄漏. 對(duì)于圖像分類中目前主流的深度學(xué)習(xí)技術(shù), 其使用涉及到兩個(gè)基本過程: 模型訓(xùn)練和模型推理.模型訓(xùn)練過程需要用到大量的訓(xùn)練數(shù)據(jù), 反復(fù)迭代使模型參數(shù)收斂到較優(yōu)值, 完成訓(xùn)練; 模型推理過程相對(duì)簡單, 即利用已訓(xùn)練完成的模型, 輸入數(shù)據(jù)得到輸出. 由此可以看出深度學(xué)習(xí)的使用無法簡單看作數(shù)據(jù)發(fā)布過程, 還存在各種額外的隱私問題.

      由于近年密碼學(xué)發(fā)展研究迅速, 諸如同態(tài)加密(Homomorphic Encryption, HE) 和其他安全多方計(jì)算(Secure Multi-Party Computation, SMC) 協(xié)議等在計(jì)算效率上大幅提升, 實(shí)用性愈來愈強(qiáng), 因此被認(rèn)為在機(jī)器學(xué)習(xí)相關(guān)的隱私保護(hù)問題中具有應(yīng)用前景[13], 同時(shí)各種加密技術(shù)也被引入到云環(huán)境下的密文計(jì)算與查詢應(yīng)用中[14,15]. 針對(duì)保護(hù)輸入圖像數(shù)據(jù)隱私條件下的模型訓(xùn)練與推理問題, 研究人員提出了結(jié)合密碼學(xué)中的加密技術(shù)設(shè)計(jì)訓(xùn)練或推理方案. 此類方法通常被用來解決模型輸入數(shù)據(jù)的隱私保護(hù)問題.

      面對(duì)數(shù)據(jù)安全與隱私性、模型有效性等問題, 已有研究人員提出了許多兼顧兩者的解決方案. 針對(duì)圖像分類模型訓(xùn)練與推理過程中的相關(guān)隱私保護(hù)問題, 本文從問題定義、原理介紹、方案分析三個(gè)方面全面、系統(tǒng)地介紹了最新的研究進(jìn)展, 探討了未來的研究方向. 首先根據(jù)使用場景分析圖像分類模型存在的隱私風(fēng)險(xiǎn), 其次調(diào)研密碼學(xué)研究領(lǐng)域中可用的相關(guān)加密與保護(hù)技術(shù), 簡要介紹它們的設(shè)計(jì)原理和適用場景. 最后系統(tǒng)介紹相關(guān)保護(hù)技術(shù)與圖像分類模型相結(jié)合的研究進(jìn)展, 對(duì)不同方法進(jìn)行多維度的分析與比較. 特別指出, 本文著重于調(diào)研密碼學(xué)技術(shù)在圖像分類模型隱私保護(hù)中的應(yīng)用, 對(duì)于非密碼學(xué)技術(shù)(如差分隱私) 將不展開論述.

      本文的剩余部分按如下結(jié)構(gòu)組織: 第2 節(jié)介紹了圖像分類模型應(yīng)用過程中存在的相關(guān)隱私風(fēng)險(xiǎn);第3 節(jié)介紹了相關(guān)密碼學(xué)技術(shù)的基本原理和研究進(jìn)展; 第4 節(jié)介紹針對(duì)推理過程的相關(guān)模型隱私保護(hù)方案; 第5 節(jié)介紹針對(duì)訓(xùn)練過程的相關(guān)模型隱私保護(hù)方案. 第6 節(jié)總結(jié)了當(dāng)前的研究難點(diǎn), 展望了未來的相關(guān)研究方向. 第7 節(jié)總結(jié)了全文.

      2 圖像分類模型隱私問題分類

      同其他信息安全問題一樣, 圖像分類模型的隱私保護(hù)研究也需要定義安全模型, 目前各類保護(hù)方案使用的安全模型主要有半誠實(shí)模型(Semi-honest Security) 和惡意模型(Malicious Security). 半誠實(shí)模型假設(shè)參與方均嚴(yán)格按照約定計(jì)算協(xié)議內(nèi)容執(zhí)行計(jì)算, 在不違反協(xié)議的前提下推測對(duì)方隱私信息; 惡意模型可以使用任何攻擊手段(容許違背協(xié)議內(nèi)容) 來獲取對(duì)方隱私信息.

      由于深度學(xué)習(xí)的運(yùn)用, 圖像分類模型往往需要大規(guī)模存儲(chǔ)和計(jì)算資源來支撐, 因此通常結(jié)合公有云服務(wù)來使用. 然而, 依托云服務(wù)完成分類模型訓(xùn)練和推理任務(wù)時(shí), 將產(chǎn)生圖像數(shù)據(jù)所有權(quán)與使用權(quán)分離的現(xiàn)象, 從而會(huì)帶來一系列的安全隱私風(fēng)險(xiǎn). 本文根據(jù)圖像分類模型的使用場景將隱私保護(hù)問題分為模型推理和模型訓(xùn)練的隱私保護(hù)兩類.

      2.1 模型推理的隱私問題

      機(jī)構(gòu)或企業(yè)針對(duì)圖像分類需求利用自身已有樣本數(shù)據(jù)在本地完成模型訓(xùn)練, 之后將訓(xùn)練好的模型部署到云端, 利用云服務(wù)面向個(gè)人或其他機(jī)構(gòu)提供推理服務(wù). 推理服務(wù)使用者在使用服務(wù)時(shí)需要將含有敏感信息的圖像上傳云端, 云端模型完成對(duì)圖像推理, 向用戶返回結(jié)果. 此場景中的數(shù)據(jù)擁有者為推理服務(wù)的使用者. 研究主要集中于保護(hù)推理服務(wù)使用者的圖像信息不被云端非法使用.

      根據(jù)對(duì)推理服務(wù)使用者的要求可分為在線推理(Online Inference) 和離線推理(Offline Inference).在線推理要求云端在執(zhí)行推理過程中, 與使用者保持連接以便完成必要的交互計(jì)算, 最終獲得推理結(jié)果;離線推理僅要求使用者僅完成上傳(加密) 圖像數(shù)據(jù)一步操作, 便可以得到推理結(jié)果.

      2.2 模型訓(xùn)練的隱私問題

      圖像分類模型的訓(xùn)練相比推理過程要復(fù)雜許多, 隱私保護(hù)難度更大. 通過調(diào)研圖像分類模型的訓(xùn)練需求, 本文將模型訓(xùn)練進(jìn)一步細(xì)分為外包訓(xùn)練和協(xié)同訓(xùn)練兩種情況, 如圖1所示. 不同情況對(duì)應(yīng)的隱私保護(hù)問題也不同.

      (1) 外包訓(xùn)練: 用戶需要利用自己的圖像數(shù)據(jù)訓(xùn)練一個(gè)圖像分類模型, 由于缺少計(jì)算設(shè)備需要使用云服務(wù)商提供的訓(xùn)練服務(wù). 因此用戶需要將可能含有敏感信息的訓(xùn)練數(shù)據(jù)集上傳到云端, 云端利用這些數(shù)據(jù)集訓(xùn)練一個(gè)分類模型返回給用戶. 此場景中的數(shù)據(jù)擁有者為訓(xùn)練數(shù)據(jù)的提供者者. 研究主要集中于保護(hù)訓(xùn)練圖像數(shù)據(jù)的隱私信息不被云端竊取.

      (2) 協(xié)同訓(xùn)練: 深度學(xué)習(xí)中有一個(gè)基本共識(shí)是, 增加訓(xùn)練數(shù)據(jù)通常都能帶來模型精度的提升. 對(duì)于某些訓(xùn)練任務(wù), 訓(xùn)練圖像可能來自于多個(gè)數(shù)據(jù)擁有者, 為了能夠訓(xùn)練一個(gè)精度更高的模型從而共同受益, 數(shù)據(jù)擁有者們希望在相互不共享私有數(shù)據(jù)的前提下完成模型訓(xùn)練.

      綜上所述, 模型推理與訓(xùn)練涵蓋了圖像分類應(yīng)用的主要使用場景, 下文中將根據(jù)這兩類場景分別介紹當(dāng)前的圖像分類模型隱私保護(hù)方案.

      3 相關(guān)密碼學(xué)方法介紹

      密碼學(xué)等安全保護(hù)技術(shù)是構(gòu)建隱私保護(hù)模型的基礎(chǔ)工具, 針對(duì)圖像分類應(yīng)用, 已有研究方案主要基于安全多方計(jì)算方法, 并尤其以同態(tài)加密技術(shù)為主. 安全多方計(jì)算起源于姚期智教授提出的百萬富翁問題[16]: 兩位百萬富翁想知道誰更富有, 但是他們不想讓對(duì)方知道有關(guān)自己財(cái)富的信息. 安全多方計(jì)算是一種重要的隱私保護(hù)技術(shù), 可用于分布式投票、私人競標(biāo)和拍賣、共享簽名或解密功能以及私人信息檢索等, 同時(shí)在機(jī)器學(xué)習(xí)的隱私保護(hù)問題上也具有廣泛的研究運(yùn)用. 它早期被用于決策樹、關(guān)聯(lián)規(guī)則挖掘、樸素貝葉斯分類和K-means 聚類等模型的隱私問題研究[17–20], 近年來也被引入深度學(xué)習(xí)模型的隱私保護(hù)中. 為全文敘述的連貫性以及便于對(duì)后續(xù)各類方案的理解, 本節(jié)對(duì)同態(tài)加密以及其他相關(guān)技術(shù)做簡單介紹.

      3.1 同態(tài)加密

      早在1978 年, 麻省理工學(xué)院教授Rivest[21]首次提出了同態(tài)的概念, 提出了對(duì)密文執(zhí)行計(jì)算的可能性. 同態(tài)加密是指一類加密方案, 其容許第三方對(duì)密文執(zhí)行某些特定的運(yùn)算類型, 并保證得到的密文解密后為原始明文執(zhí)行對(duì)應(yīng)運(yùn)算的結(jié)果, 此過程保證第三方無法獲得明文的任何信息. 同態(tài)加密的定義如下:

      定義1 設(shè)x 為輸入數(shù)據(jù)、f 為任意運(yùn)算, 若存在加密方案E 滿足以下等式, 其中Enc 為加密運(yùn)算、Dec 為解密運(yùn)算、f′為對(duì)應(yīng)的密文運(yùn)算, 則方案E 是一種同態(tài)加密.

      同態(tài)加密思想巧妙, 用途廣泛. 但遺憾的是, 目前學(xué)界還未找到一種實(shí)際理想的加密方案, 即已有的方案E 均對(duì)輸入x、運(yùn)算f 有一定限制. 通常來講, 根據(jù)容許的運(yùn)算類型和運(yùn)算次數(shù)的不同, 可將現(xiàn)有的同態(tài)加密方案分為以下三類:

      (1) 部分同態(tài)加密(Partially Homomorphic Encryption, PHE): 僅支持對(duì)密文執(zhí)行特定的運(yùn)算, 即對(duì)f 的類型有限制.

      (2) Somewhat 同態(tài)加密(Somewhat Homomorphic Encryption, SWHE): 僅支持對(duì)密文執(zhí)行有限次的運(yùn)算, 即對(duì)f 的使用次數(shù)有限制.

      (3) 全同態(tài)加密(Fully Homomorphic Encryption, FHE): 支持對(duì)密文執(zhí)行任意次的任意運(yùn)算, 即對(duì)f 無任何限制.

      由于對(duì)于有限集合, 加法和乘法運(yùn)算構(gòu)成了對(duì)任意函數(shù)運(yùn)算的完備性, 所以通常將部分同態(tài)加密分為加法同態(tài)和乘法同態(tài)兩類:

      (1) 加法同態(tài): 將f 限制為加法運(yùn)算, 滿足Enc(x)+′Enc(y)=Enc(x+y).

      (2) 乘法同態(tài): 將f 限制為乘法運(yùn)算, 滿足Enc(x)×′Enc(y)=Enc(x×y).

      部分同態(tài)加密在構(gòu)造上相對(duì)容易, 主要依賴于各種公鑰密碼體制. 利用RSA 公鑰密碼體制的同態(tài)性, Rivest 等人構(gòu)造了最早的乘法同態(tài)[21]. 基于GM 概率公鑰密碼體制可以實(shí)現(xiàn)加法同態(tài)[22,23]. 利用ElGamal 公鑰密碼體制同樣可以構(gòu)造一種乘法同態(tài)加密方案[24]. Paillier 于1999 年提出了一種新的概率加密體制, 基于此可以構(gòu)造出加法同態(tài)[25]. 澳大利亞CSIRO 的研究人員實(shí)現(xiàn)并開源了Paillier 方案1https://github.com/n1analytics/python-paillier,已被廣泛使用. 除此之外, 還有許多針對(duì)以上方案的改進(jìn)與優(yōu)化研究, 本文不再詳細(xì)介紹.

      Somewhat 同態(tài)加密盡管在理論上是不完美的, 但在一些計(jì)算相對(duì)簡單的場景下, 卻可以實(shí)際使用.更重要的是, Somewhat 同態(tài)加密是構(gòu)造全同態(tài)加密的基礎(chǔ). 2005 年, Boneh 等人首次構(gòu)造了同時(shí)支持加法和乘法同態(tài)的Somewhat 同態(tài)加密方案BGN[26].

      2009 年是同態(tài)加密的里程碑之年, Gentry 在他的博士論文中首次提出了全同態(tài)加密的構(gòu)造框架[27].簡單來說, Gentry 首先構(gòu)造了Somewhat 同態(tài)加密方案, 在加密過程中引入“噪聲”, 每次執(zhí)行密文運(yùn)算操作都會(huì)使“噪聲” 加大, 需要注意的是當(dāng)“噪聲” 達(dá)到一定程度后會(huì)造成解密錯(cuò)誤, 因此只能執(zhí)行有限次的加法、乘法操作. 為解決這一問題, Gentry 提出了自舉(Bootstrapping) 技術(shù), 可以將原密文轉(zhuǎn)換為一個(gè)新的“噪聲” 更小的密文, 并保證不改變對(duì)應(yīng)明文. 至此, Gentry 完成了全同態(tài)構(gòu)造. 此后在Gentry 工作的啟發(fā)下, 研究人員提出了各種全同態(tài)構(gòu)造方法. 根據(jù)構(gòu)造工具的不同, 可分為四類: (1) 基于多項(xiàng)式環(huán)上的理想格構(gòu)造Somewhat 同態(tài)加密[27,28]. (2) 基于整數(shù)上的分解困難構(gòu)造[29,30]. (3) 基于容錯(cuò)學(xué)習(xí)問題(Learning with Error, LWE)[31–33]. (4) 基于NTRU 密碼體制構(gòu)造[34,35]. 可以說自2009 年來, 全同態(tài)的構(gòu)造研究取得了飛速的進(jìn)步.

      近年來同態(tài)加密的方案設(shè)計(jì)與優(yōu)化層出不窮, 但是將同態(tài)加密運(yùn)用于實(shí)際中還離不開方案的完整可靠實(shí)現(xiàn). 目前較有代表性的開源實(shí)現(xiàn)有: (1) HElib 庫2https://github.com/shaih/HElib, 支持BGV 加密方案[36]和CKKS 加密方案[33], 依賴于NTL 庫. (2) 由微軟開發(fā)的SEAL 庫[37], 實(shí)現(xiàn)了BGV 加密方案和CKKS 方案且不依賴于外部庫.(3) TFHE 庫3https://github.com/tfhe/tfhe, 實(shí)現(xiàn)了CGG 加密方案, 依賴于FFTW. (4) HEAAN 庫4https://github.com/snucrypto/HEAAN, 由CKKS 加密方案的作者開發(fā), 依賴于NTL 庫. (5) 由NuCyper 公司開發(fā)的NuFHE 庫5https://github.com/nucypher/nufhe, 提供了對(duì)TFHE 庫的GPU 加速支持.計(jì)算速度提升兩個(gè)數(shù)量級(jí).

      同態(tài)加密技術(shù)經(jīng)過幾十年的研究, 已有大量的研究成果, 有研究人員針對(duì)同態(tài)加密有更全面詳細(xì)的綜述性介紹[38,39]. 為了更好地推動(dòng)同態(tài)加密研究和應(yīng)用的發(fā)展, 學(xué)界和工業(yè)界成立了同態(tài)加密的標(biāo)準(zhǔn)化組織6http://homomorphicencryption.org/, 發(fā)布了相關(guān)技術(shù)標(biāo)準(zhǔn)[40].

      圖像分類模型的訓(xùn)練和推理需要大量的復(fù)雜計(jì)算, 而同態(tài)加密提供了密文數(shù)據(jù)上的計(jì)算能, 因此如果先對(duì)模型的輸入數(shù)據(jù)加密(此過程實(shí)現(xiàn)了隱私保護(hù)) 然后使用同態(tài)計(jì)算實(shí)現(xiàn)模型訓(xùn)練或推理(此過程保證了模型的可用性) 便可滿足保護(hù)隱私條件下使用模型的需求.

      3.2 其他構(gòu)造工具

      混淆電路[41](Garbled Circuit, GC) 容許計(jì)算參與方安全地求解約定好的布爾電路, 由于數(shù)學(xué)函數(shù)在計(jì)算機(jī)內(nèi)部均由布爾電路實(shí)際表示, 因此可以利用這種方法計(jì)算任何函數(shù). 給定一個(gè)函數(shù)f(x1,x2), x1和x2分別為不同參與方的私有輸入, 其中一方執(zhí)行混淆電路的生成, 另一方求解電路. 計(jì)算過程還需引入不經(jīng)意傳輸(Oblivious Transfer, OT) 使得電路求解方可以安全地加密私有輸入.

      原始的混淆電路方案基于半誠實(shí)模型假設(shè), 此后研究人員使用cut-and-choose 技術(shù)[42]將混淆電路拓展到惡意模型, 同時(shí)近些年來, 也有許多優(yōu)化方法不斷被提出[43,44], 從而大大提升了計(jì)算效率, 使得方案的實(shí)用性不斷增強(qiáng)。

      秘密共享(Secret Sharing, SS) 最早由Shamir 和Blakley 分別提出[45,46], 基本思想是將隱私數(shù)據(jù)拆分為多個(gè)子部分, 分發(fā)給多個(gè)參與者持有, 容許持有者直接對(duì)數(shù)據(jù)進(jìn)行計(jì)算. 對(duì)于一個(gè)(n,t) 門限安全共享方案, 秘密被分割為n 部分且由n 個(gè)參與方分別持有, 方案保證任意大于t 個(gè)參與方可以協(xié)作還原秘密, 而任意小于等于t 個(gè)參與方共謀時(shí)無法還原秘密. 秘密共享基于不共謀假設(shè), 以此來避免計(jì)算復(fù)雜度較高的密碼學(xué)操作. 因此基于秘密共享的方案通常要比基于同態(tài)加密技術(shù)的方案計(jì)算效率更高.

      4 模型推理隱私保護(hù)研究

      利用訓(xùn)練好的模型對(duì)外提供推理服務(wù)是圖像分類領(lǐng)域常用的應(yīng)用模式. Gilad-Bachrach 等人[47]提出的CryptoNets 模型是將全同態(tài)加密與神經(jīng)網(wǎng)絡(luò)相結(jié)合的較早研究之一, 為后期的研究提供了基本思路.圖2 描述了方案的流程與關(guān)鍵技術(shù). 用戶首先將自己的數(shù)據(jù)加密處理, 然后上傳到存儲(chǔ)圖像分類模型的云服務(wù)商, 云端執(zhí)行加密推理后返回加密的結(jié)果, 用戶解密后獲取真實(shí)結(jié)果. 由于同態(tài)加密不支持非多項(xiàng)式運(yùn)算和比較運(yùn)算, 故方案將卷積神經(jīng)網(wǎng)絡(luò)模型中的非線性激勵(lì)函數(shù)ReLU:f(x) = max(0,x) 替換為平方激勵(lì)函數(shù)f(x) = x2, 使用放縮求和函數(shù)f(?x) = ∑xi替換最大池化層, 放縮求和函數(shù)具備和平均池化類似的特性且避免了對(duì)密文執(zhí)行除法運(yùn)算. 由于其使用的全同態(tài)加密只支持整數(shù)運(yùn)算, 因此方案使用多項(xiàng)式編碼的方法近似表示浮點(diǎn)數(shù), 同時(shí)針對(duì)密文下大數(shù)溢出的問題, 提出了利用中國剩余定理進(jìn)行大數(shù)運(yùn)算.以上技術(shù)使得同態(tài)加密與神經(jīng)網(wǎng)絡(luò)的結(jié)合成為可能, 但不足之處在于造成模型分類精度的損失. 文中基于SEAL 庫實(shí)現(xiàn)了CryptoNets 模型, 在MNIST 數(shù)據(jù)集上的模型分類精度可達(dá)98.95%, 單次推理耗時(shí)250秒. 此外由于實(shí)驗(yàn)采用的同態(tài)加密方案支持單指令多數(shù)據(jù)(Single Instruction Multiple Data, SIMD) 操作, 因此支持多達(dá)4096 張圖片的并行推理.

      此后有許多新的研究方案被提出, 其中有部分研究工作引入了服務(wù)器與客戶端的交互, 因此可進(jìn)一步分為兩類: (1) 非交互式方案. 客戶端加密需要推理的圖像后發(fā)送給推理服務(wù)提供方, 推理服務(wù)提供方計(jì)算后將結(jié)果返回客戶端, 中間不容許額外的數(shù)據(jù)交互, 不需要客戶端提供額外的計(jì)算, 因此適用于離線推理需求; (2) 交互式方案. 在推理服務(wù)提供方計(jì)算結(jié)果的過程中容許與客戶端進(jìn)行交互, 客戶端具有一定的計(jì)算能力, 因此適用于在線推理需求.

      4.1 非交互式方案

      Hesamifard 等人[48]提出的CryptoDL 模型同樣采用了明文訓(xùn)練、密文推理的思想. 主要針對(duì)神經(jīng)網(wǎng)絡(luò)模型中非多項(xiàng)式函數(shù)的近似問題做了討論與改進(jìn), 文中比較了數(shù)值分析、泰勒級(jí)數(shù)、切比雪夫多項(xiàng)式等方法, 提出低階多項(xiàng)式近似ReLU、Sigmoid、Tanh 等激勵(lì)函數(shù)并給出了誤差理論保證, 相比CryptoNets方案使用的平方激活函數(shù)等降低了模型推理精度上的損失. 該方案基于HELib 庫實(shí)現(xiàn), 對(duì)MNIST 數(shù)據(jù)集可以實(shí)現(xiàn)99.25% 的分類精度.

      Chou 等人提出的FasterCryptoNets[49]方案主要對(duì)模型簡化與編碼技術(shù)做了改進(jìn). 作者首先結(jié)合文獻(xiàn)[50] 中提出的神經(jīng)網(wǎng)絡(luò)剪枝方法減小原始模型中的參數(shù)數(shù)量, 減少乘法運(yùn)算量. 然后對(duì)剩余參數(shù), 設(shè)計(jì)了一種適合同態(tài)運(yùn)算的網(wǎng)絡(luò)參數(shù)稀疏表示方法, 利用逐級(jí)量化方法實(shí)現(xiàn)明文編碼的最大稀疏性,兩種技術(shù)共同加快了推理速度但也損失少量的分類精度. 此外針對(duì)方案要求的最大稀疏編碼, 方案使用f(x)=2?3x2+2?1x+2?2近似替換ReLU 函數(shù). 實(shí)驗(yàn)結(jié)果表明新方案比原CryptoNets 方案在推理速度上快一個(gè)數(shù)量級(jí).

      此后Brutzkus 等人在文獻(xiàn)[51] 中進(jìn)一步對(duì)編碼表示方法嘗試改進(jìn), 以便加密方案可用于更深更復(fù)雜的模型, 從而提高分類精度. 文中提出了兩種手段: 第一, 基于向量化思想精心設(shè)計(jì)數(shù)據(jù)表示方法, 并基于表示方法定義了一系列運(yùn)算, 以提高計(jì)算速度; 第二, 在加密推理中首次引入遷移學(xué)習(xí)技術(shù), 首先利用公開模型得到得到圖像的語義特征表示, 此過程過濾了圖像的敏感信息, 之后輸入加密網(wǎng)絡(luò)進(jìn)行推理.

      以上方案均采用多項(xiàng)式來近似神經(jīng)網(wǎng)絡(luò)的非線性激勵(lì)函數(shù), 對(duì)于CryptoNets 和CryptoDL 這類僅使用了一兩層激勵(lì)層的模型來說效果理想, 但對(duì)于更深層的網(wǎng)絡(luò)模型, 這種處理方式使得在訓(xùn)練過程中網(wǎng)絡(luò)模型難以收斂, 因此, 如何進(jìn)一步拓展網(wǎng)絡(luò)的深度成為一大挑戰(zhàn). Chabanne 等人[52]將深度學(xué)習(xí)中經(jīng)常使用的BatchNorm 層與原有加密方案結(jié)合從而有效地加深了網(wǎng)絡(luò)層數(shù). 加入BatchNorm 層使得非線性激勵(lì)層的輸入都被限制在一個(gè)穩(wěn)定的分布內(nèi), 從而使加深網(wǎng)絡(luò)層數(shù)成為可能. 與之前方案不同的是, 在訓(xùn)練階段模型仍采用ReLU 激勵(lì)函數(shù), 而在推理階段使用多項(xiàng)式近似替換.

      對(duì)醫(yī)學(xué)圖像進(jìn)行自動(dòng)分類可以顯著減輕高昂的醫(yī)療成本, 而且對(duì)某些疾病診斷精度甚至優(yōu)于經(jīng)驗(yàn)豐富的醫(yī)生. 但是由于醫(yī)療數(shù)據(jù)的高度敏感性, 迫切需要在推理過程中加入隱私保護(hù)手段. Chao 等人[53]提出了CaRENets 方案, 可以在實(shí)際應(yīng)用中實(shí)現(xiàn)高分辨率加密圖像的高效推理. CaRENets 的核心技術(shù)是采用新的全同態(tài)壓縮打包方案, 該方案與卷積神經(jīng)網(wǎng)絡(luò)緊密集成, 使其具有內(nèi)存占用效率和推理速度的雙重優(yōu)勢. 他們將CaRENets 方案應(yīng)用于早產(chǎn)兒視網(wǎng)膜病變(ROP) 和糖尿病視網(wǎng)膜病變(DR) 檢測中. 實(shí)驗(yàn)表明使用壓縮打包方案, 相比CryptoNets 內(nèi)存效率提高了45 倍, 推理速度提高了4–5 倍. 但仍未能應(yīng)用于復(fù)雜模型, 因此分類精度不理想.

      Bourse 等人[54]提出了一種新的面向神經(jīng)網(wǎng)絡(luò)的同態(tài)加密框架FHE-DiNN. 文中首次提出針對(duì)參數(shù)離散化神經(jīng)網(wǎng)絡(luò)進(jìn)行加密推理, 設(shè)計(jì)了第一個(gè)專門針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化的同態(tài)加密方案. 該工作對(duì)同態(tài)加密方案[55]的Bootstrapping 過程進(jìn)行修改, 以減小密文規(guī)模并實(shí)現(xiàn)同態(tài)符號(hào)函數(shù)運(yùn)算, 進(jìn)而利用此符號(hào)函數(shù)作為非線性激勵(lì)函數(shù), 此過程大大提高了網(wǎng)絡(luò)的推理速度, 不過也因此損失了一些推理精確度. 實(shí)驗(yàn)表明在相同安全級(jí)別下, FHE-DiNN 模型推理速度比CryptoNets 方案有兩個(gè)數(shù)量級(jí)的提高, 推理精度損失了2.6%. 文獻(xiàn)[56] 進(jìn)一步針對(duì)參數(shù)離散化神經(jīng)網(wǎng)絡(luò)中的二進(jìn)制參數(shù)網(wǎng)絡(luò)提出了幾種加速密文推理的技巧, 提出約簡樹加法器(Reduce Tree Adder) 和排序網(wǎng)絡(luò)(Sorting Network) 技術(shù)加速點(diǎn)積計(jì)算, 同時(shí)將參數(shù)由{?1,1} 轉(zhuǎn)換為{0, 2} 計(jì)算以提高稀疏性. 最后將方案應(yīng)用于人臉圖像和手寫體數(shù)字的識(shí)別.

      神經(jīng)網(wǎng)絡(luò)使用到大量的矩陣運(yùn)算, 文獻(xiàn)[57] 針對(duì)矩陣的安全外包計(jì)算問題進(jìn)行研究, 并將其應(yīng)用于加密神經(jīng)網(wǎng)絡(luò)模型. 注意到同態(tài)加密方案中的密文包裝(Ciphertext Packing) 技術(shù)可以大幅提高計(jì)算效率,作者將矩陣運(yùn)算變換分解以便適用于密文包裝, 將密文與密文矩陣乘法時(shí)間復(fù)雜度從O(d2) 降為O(d).文中基于以上改進(jìn)提出了加密神經(jīng)網(wǎng)絡(luò)框架E2DM.

      以上方案均使用CPU 進(jìn)行加密計(jì)算, 借鑒深度學(xué)習(xí)領(lǐng)域廣泛采用的GPU 計(jì)算思想, Badawi 等人[58]首次提出可支持GPU 計(jì)算的同態(tài)加密神經(jīng)網(wǎng)絡(luò)模型HCNN, 模型采用了低精度訓(xùn)練、同態(tài)加密優(yōu)化和GPU 加速實(shí)現(xiàn)等技術(shù), 相比CPU 推理速度可提升一個(gè)數(shù)量級(jí)以上.

      4.2 交互式方案

      交互式方案多基于安全多方計(jì)算實(shí)現(xiàn), 相比單純同態(tài)加密推理速度有極大提升. Liu 等人利用秘密共享成功構(gòu)造了不經(jīng)意神經(jīng)網(wǎng)絡(luò)(Oblivious Neural Networks, ONN)[59]. 方案采用了和SecureML[60]相同的思想, 由客戶端C 和服務(wù)器S 加性共享網(wǎng)絡(luò)每層的輸入和輸出值, 對(duì)于一個(gè)約定的函數(shù)y=f(x;w),設(shè)C、S 分別持有xC、xS, 滿足x=xC+xS. 設(shè)計(jì)一種協(xié)議F 使得結(jié)果交互計(jì)算后C 和S 分別得到y(tǒng)C、yS, 且滿足y=yC+yS, 則S 將yS發(fā)送給C, C 便可以得到結(jié)果y. 若服務(wù)器S 半誠實(shí), 則協(xié)議過程S 無法獲得xC, 從而滿足數(shù)據(jù)的隱私性要求. 文中基于此構(gòu)造了不經(jīng)意線性層、激勵(lì)層和池化層并依此提出了MiniONN 技術(shù), 創(chuàng)新之處在于可以將現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型不經(jīng)過任何修改而轉(zhuǎn)換為不經(jīng)意神經(jīng)網(wǎng)絡(luò). 同時(shí)為了加速計(jì)算, 方案還引入了離線的預(yù)計(jì)算手段. 協(xié)議基于ABY 兩方計(jì)算庫和SEAL 同態(tài)加密庫實(shí)現(xiàn), 對(duì)MNIST 圖像的推理時(shí)間降到1.28 秒.

      Juvekar 等人組合使用同態(tài)加密和混淆電路, 提出了安全神經(jīng)網(wǎng)絡(luò)推理框架GAZELLE[61]. 框架基于半誠實(shí)模型, 由同態(tài)層、線性代數(shù)核心和網(wǎng)絡(luò)推理三部分組成, 同態(tài)層提供基本加密運(yùn)算, 為此設(shè)計(jì)了PATH 加法同態(tài)庫; 線性代數(shù)核心提供高效的矩陣運(yùn)算, 結(jié)合密文包裝和密文置換技術(shù)設(shè)計(jì)了用于同態(tài)矩陣-向量乘法和同態(tài)卷積的新算法; 網(wǎng)絡(luò)推理基于安全兩方計(jì)算實(shí)現(xiàn)模型推理, 為此設(shè)計(jì)了一種可以在同態(tài)和混淆電路編碼之間進(jìn)行轉(zhuǎn)換的協(xié)議. 與MiniONN 方案相比, GAZELLE 框架可以隱藏關(guān)于神經(jīng)網(wǎng)絡(luò)的更多信息, 因此安全性更高, 同時(shí)推理時(shí)間縮短20–30 倍.

      Xie 等人將貝葉斯學(xué)習(xí)與同態(tài)加密結(jié)合提出了BAYHENN 方案[62], 方案使用貝葉斯神經(jīng)網(wǎng)絡(luò)提供了對(duì)模型參數(shù)的額外保護(hù). 在貝葉斯學(xué)習(xí)中將網(wǎng)絡(luò)的每一個(gè)參數(shù)看作是一個(gè)分布而不是確定的值, 從而可以利用這種不確定性保護(hù)隱私. 方案使用全同態(tài)加密保護(hù)輸入圖像的隱私, 設(shè)計(jì)了SLC 和SNC 兩種協(xié)議分別用于網(wǎng)絡(luò)線性和非線性部分的計(jì)算, 同樣要求服務(wù)器半誠實(shí). 相比GAZELLE 方案, 推理速度提高了近5 倍, 但由于貝葉斯網(wǎng)絡(luò)參數(shù)的不確定性, 推理精度略有下降.

      4.3 研究小結(jié)

      通過以上調(diào)研可知, 針對(duì)模型推理已有多種隱私保護(hù)方案. 表1對(duì)當(dāng)前主流方案進(jìn)行了比較. 加密技術(shù)與安全假設(shè)一項(xiàng)展示了方案所依賴的密碼學(xué)技術(shù)、秘鑰強(qiáng)度和額外的安全性假設(shè), 安全性假設(shè)影響方案的實(shí)際適用場景. 從分類精度來看, 對(duì)于一些小型數(shù)據(jù)集無論是交互還是非交互式方案, 均能滿足較好的精度要求. 但是對(duì)于復(fù)雜數(shù)據(jù)集, 當(dāng)前各類方案的精度離實(shí)用還有一定差距. 綜合來看, 現(xiàn)有方案主要基于同態(tài)加密和安全多方計(jì)算技術(shù), 前者安全性假設(shè)簡單, 有較強(qiáng)的理論保證, 后者推理速度更快, 能應(yīng)用于較復(fù)雜的分類模型.

      數(shù)據(jù)集 方案 模型 層數(shù) ? 加密技術(shù)與安全假設(shè) 是否交互 分類精度 ?MNIST Gilad-Bachrach et al.[47] CNN 2 FHE;80 否 ????Hesamifard et al. [48] CNN 1 FHE;80 否 ????Chou et al. [49] CNN 2 FHE;128 否 ????Brutzkus et al. [51] CNN 2 FHE;128 否 ????Chabanne et al. [52] CNN 6 FHE;? 否 ????Bourse et al. [54] MLP 2 FHE;80 否 ????Sanyal et al. [56] BNN ? FHE;? 否 ????Jiang et al. [57] CNN 2 FHE;80 否 ????Badawi et al. [58] CNN 2 FHE;128 否 ????Liu et al. [59] CNN 3 FHE,SMP;128; 半誠實(shí) 是 ????Juvekar et al. [61] CNN 2 PATH,SMP;128; 半誠實(shí) 是 ?Xie et al. [62] BayesianNN 2 FHE;128; 半誠實(shí) 是 ????CIFAR-10 Liu et al. [59] CNN 7 FHE,SMP;128; 半誠實(shí) 是 ??Juvekar et al. [61] CNN 7 PATH,SMP;128; 半誠實(shí) 是 ?IDC Xie et al. [62] BayesianNN 6 FHE;128; 半誠實(shí) 是 ???ROP Chao et al. [53] CNN 2 FHE;80 否 ??DRChao et al. [53]CNN2 FHE;80 否 ?

      由于Somewhat 同態(tài)加密方案支持SIMD 操作, 因而一些隱私保護(hù)方案利用SIMD 特性來實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的批量推理功能. 當(dāng)用戶一次需要推理大量圖片時(shí), 這一特性可以有效地降低總推理時(shí)間, 但對(duì)只需要推理單張圖片的情況沒有幫助. 此外同態(tài)加密固有的低效性導(dǎo)致目前還難以將其運(yùn)用于深層的卷積神經(jīng)網(wǎng)絡(luò)模型, 因此當(dāng)前方案使用的模型與數(shù)據(jù)集相對(duì)較小.

      圖像分類模型隱私保護(hù)方案的實(shí)現(xiàn)涉及到深度學(xué)習(xí)、密碼學(xué)和軟件工程學(xué)等領(lǐng)域的知識(shí), 少有研究團(tuán)隊(duì)開源方案實(shí)現(xiàn), 實(shí)驗(yàn)復(fù)現(xiàn)難度較大. 為了方便進(jìn)行不同實(shí)驗(yàn)的比較, 以及面向生產(chǎn)環(huán)境部署方案, 有研究團(tuán)隊(duì)致力于加密深度學(xué)習(xí)框架的開發(fā). Intel 人工智能研究院開源了nGraph-HE 框架[63], 框架基于nGraph 深度學(xué)習(xí)編譯器, 結(jié)合了當(dāng)前先進(jìn)的圖編譯技術(shù), 向下兼容SEAL 和HEAAN 加密庫, 向上兼容TensorFlow、MXNet 和Pytorch 深度學(xué)習(xí)框架. 利用nGraph-HE 框架實(shí)現(xiàn)的CryptoNets 模型取得了與原文中近似的推理速度, 表明框架引入的額外時(shí)間開銷較小. SEALion 是另一個(gè)加密深度學(xué)習(xí)框架[64],其專注于明文訓(xùn)練、密文推理模式. 框架基于TensorFlow 和SEAL 庫, 提供Keras 風(fēng)格的接口, 支持浮點(diǎn)數(shù)到加密數(shù)據(jù)類型的自動(dòng)編碼.

      5 模型訓(xùn)練隱私保護(hù)研究

      圖像分類模型的訓(xùn)練需要大量的圖像數(shù)據(jù), 同樣存在泄漏圖像敏感信息的風(fēng)險(xiǎn). 從分類模型的計(jì)算過程來看, 模型推理僅執(zhí)行一個(gè)前向傳播; 而模型訓(xùn)練要比推理復(fù)雜許多, 對(duì)于非凸模型(如在圖像分類領(lǐng)域廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)), 模型訓(xùn)練時(shí)通常使用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD) 優(yōu)化, 因此需要多次迭代執(zhí)行前向傳播、損失計(jì)算和反向傳播. 二者計(jì)算復(fù)雜度有多個(gè)數(shù)量級(jí)以上的差距.因此不同于推理, 在訓(xùn)練的隱私保護(hù)方案中往往需要用戶將數(shù)據(jù)拆分到多個(gè)服務(wù)器, 服務(wù)器之間基于安全多方計(jì)算協(xié)議完成模型的迭代訓(xùn)練.

      5.1 外包訓(xùn)練

      微軟研究院的團(tuán)隊(duì)提出SecureNN[65], 同時(shí)適用于隱私保護(hù)的訓(xùn)練和推理. 與SecureML 方案不同的是SecureNN 基于三方或四方服務(wù)器訓(xùn)練模型, 安全模型要求任意兩方服務(wù)器不共謀. 文中首先構(gòu)造了多方矩陣計(jì)算、多方比較、多方除法等基本運(yùn)算, 然后基于此實(shí)現(xiàn)了卷積、ReLU 函數(shù)、最大池化函數(shù)和它們導(dǎo)函數(shù)的計(jì)算, 從而實(shí)現(xiàn)在神經(jīng)網(wǎng)絡(luò)上的安全訓(xùn)練和推理. 方案通過新提出的最高有效位(MSB) 計(jì)算協(xié)議加速計(jì)算, 相比SecureML 方案速度提高了8–407 倍, 同時(shí)在安全推理中相比MiniONN 方案也更快. 通常對(duì)于此類多服務(wù)器訓(xùn)練方案, 參與方越多訓(xùn)練速度愈快, 但安全性假設(shè)愈強(qiáng).

      針對(duì)圖像分類常用的分布式訓(xùn)練場景, 文獻(xiàn)[66] 提出了隱私保護(hù)方案CodedPrivateML. 不同于以往方案, CodedProvateML 通過利用最新提出的Lagrange 編碼技術(shù)[67]實(shí)現(xiàn)秘密共享來達(dá)到保護(hù)訓(xùn)練數(shù)據(jù)和模型參數(shù)的目的, 首先利用隨機(jī)量化將數(shù)據(jù)和權(quán)重值變換在有限域, 然后使用Lagrange 編碼技術(shù)將量化后的值與隨機(jī)矩陣編碼, 保證了協(xié)議信息論安全, 最后利用分布式計(jì)算節(jié)點(diǎn)訓(xùn)練. 但拉格朗日編碼僅支持多項(xiàng)式計(jì)算, 為此文中嘗試了一系列量化和近似計(jì)算方法. 假設(shè)對(duì)邏輯回歸中Sigmoid 函數(shù)的近似階數(shù)為r, 訓(xùn)練數(shù)據(jù)拆分為K 份, 分布式節(jié)點(diǎn)為N 個(gè), 則當(dāng)共謀節(jié)點(diǎn)個(gè)數(shù)T 滿足N ≥(2r+1)(K+T ?1)+1時(shí)可保證數(shù)據(jù)安全. CodedPrivateML 相比基于同態(tài)加密的方案訓(xùn)練速度更快, 但實(shí)驗(yàn)中僅進(jìn)行了邏輯回歸模型的訓(xùn)練, 是否適用于深度學(xué)習(xí)模型的訓(xùn)練仍需進(jìn)一步探討.

      以上方案需要多個(gè)服務(wù)器參與協(xié)作才能完成訓(xùn)練, 并且嚴(yán)格要求這些服務(wù)器間不共謀, 該安全性模型要求較高, 現(xiàn)實(shí)應(yīng)用中面臨很多限制. 為此研究人員嘗試完全使用同態(tài)加密技術(shù)訓(xùn)練模型, Han 等人[68]首次實(shí)現(xiàn)了完全基于同態(tài)加密訓(xùn)練的圖像分類模型, 訓(xùn)練過程使用批梯度下降優(yōu)化技術(shù), 以便最大地利用加密方案的SIMD 特性, 同時(shí)使用NAG 優(yōu)化方法避免同態(tài)運(yùn)算中耗時(shí)的除法操作. 此外, 作者同樣采用了在加密圖像推理研究中廣泛使用的多項(xiàng)式函數(shù)來近似激勵(lì)函數(shù). 較之推理過程, 模型訓(xùn)練需要較高的運(yùn)算精度, 因而選擇支持近似定點(diǎn)數(shù)計(jì)算的HEAAN 同態(tài)加密方案[33]. 不足之處在于方案同樣僅實(shí)現(xiàn)了在MNIST 數(shù)據(jù)集的二分類問題上對(duì)邏輯回歸模型的訓(xùn)練.

      5.2 協(xié)同訓(xùn)練

      當(dāng)數(shù)據(jù)所有者為多個(gè)時(shí), 圖像分類模型的訓(xùn)練由多個(gè)用戶協(xié)同完成, 需要設(shè)計(jì)針對(duì)協(xié)同訓(xùn)練的隱私保護(hù)方案. 利用多密鑰同態(tài)加密(Multi-Key Fully Homomorphic Encryption, MK-FHE) 技術(shù)可以滿足這一需求, 文獻(xiàn)[69] 對(duì)此進(jìn)行研究, 首先利用MK-FHE 技術(shù)構(gòu)造方案, 不同數(shù)據(jù)擁有者利用私鑰加密數(shù)據(jù)并發(fā)送給服務(wù)器, 服務(wù)器計(jì)算后將得到的結(jié)果返回給每一個(gè)數(shù)據(jù)擁有者, 最后所有數(shù)據(jù)擁有者共同執(zhí)行多方計(jì)算將結(jié)果解密. 為了避免解密階段的交互過程, 作者又提出基于雙重解密機(jī)制和同態(tài)加密相結(jié)合的方案, 并給出了詳細(xì)的安全性分析.

      多密鑰同態(tài)加密的瓶頸在于巨大的計(jì)算復(fù)雜度, 文獻(xiàn)[70] 針對(duì)多數(shù)據(jù)源情況下的模型訓(xùn)練需求提出了隱私保護(hù)方案PDLM. 不同的用戶可以使用各自的公鑰加密圖像, 方案利用分布式雙陷門公鑰加密系統(tǒng)實(shí)現(xiàn)將多密鑰加密的圖像轉(zhuǎn)換為單一秘鑰加密的圖像, 針對(duì)前向和反向傳播分別設(shè)計(jì)了安全多方計(jì)算協(xié)議, 使用泰勒展開式近似計(jì)算Sigmoid 函數(shù). 訓(xùn)練由秘鑰生成中心、數(shù)據(jù)擁有者、服務(wù)提供者和云計(jì)算服務(wù)商協(xié)同完成, 安全模型假設(shè)服務(wù)提供者和云計(jì)算服務(wù)商不共謀.

      Zhang 等人了提出GELU-Net[71]方案, 利用客戶端和服務(wù)器的協(xié)同計(jì)算來避免多項(xiàng)式近似激勵(lì)函數(shù)所造成的精度損失. 方案在訓(xùn)練過程中要求服務(wù)器半誠實(shí), 利用服務(wù)器(模型所有者) 計(jì)算模型中除激勵(lì)函數(shù)外的其他部分, 客戶端(圖像所有者) 計(jì)算激勵(lì)函數(shù)部分. 以上思路同時(shí)避免了密文間的乘法同態(tài)運(yùn)算, 因此可以采用更高效的加法同態(tài)加密方案Paillier. 另外針對(duì)訓(xùn)練過程中可能存在的隱私泄露問題,該方案還提出了一種基于添加噪聲的安全梯度更新方法, 用于實(shí)現(xiàn)反向傳播過程中的隱私保護(hù), 并給出了安全性分析. 同時(shí)文中指出通過調(diào)整訓(xùn)練策略, 方案也可以支持多數(shù)據(jù)源訓(xùn)練的隱私保護(hù).

      5.3 研究小結(jié)

      從圖像分類模型的訓(xùn)練的要求來看, 模型訓(xùn)練的隱私保護(hù)難度較大, 當(dāng)前相關(guān)研究方案較少, 仍然處于研究的探索階段. 表2 對(duì)現(xiàn)有研究方案進(jìn)行了總結(jié)歸納, 可以看出基于多密鑰加密的方案相比其他多方計(jì)算方案精度損失較大, 另外針對(duì)同樣數(shù)據(jù)集, 與推理相比模型訓(xùn)練的精度損失也更大. 目前的研究方案多適用于淺層網(wǎng)絡(luò), 適用于當(dāng)前圖像分類領(lǐng)域的實(shí)際使用的深度卷積神經(jīng)網(wǎng)絡(luò)模型的隱私保護(hù)方案幾乎還是空白. 同時(shí)部分方案安全性假設(shè)過強(qiáng), 實(shí)際使用環(huán)境很難滿足這些假設(shè), 因此還需研究人員積極探索.

      數(shù)據(jù)集 方案 模型 層數(shù) ? 加密技術(shù)與安全假設(shè) 是否交互 分類精度 ?MNIST? So et al. [66]SS; 不共謀 是 ????Han et al. [68] FHE 否 ????LR 1 Zhang et al. [71]MNIST 2 Paillier; 半誠實(shí) 是 ????Mohassel et al. [60] 2 SMP; 不共謀 是 ???Wagh et al. [65] 3 FHE; 不共謀 是 ????Ma et al. [70] 2 SMP; 不共謀 是 ??CNN CIFAR-10 Ma et al. [70] CNN 2 SMP; 不共謀 是 ?

      面向隱私保護(hù)的模型訓(xùn)練已有優(yōu)秀的開源實(shí)現(xiàn), PySyft 是其中的代表[72]. PySyft 框架集合了差分隱私、安全多方計(jì)算和聯(lián)邦學(xué)習(xí)等技術(shù), 底層基于Pytorch 框架, 框架內(nèi)部實(shí)現(xiàn)了SPDZ 和SecureNN 訓(xùn)練方案. TF-Encrypted 是另一個(gè)基于TensorFlow 的安全多方計(jì)算框架[73], 支持常見的機(jī)器學(xué)習(xí)模型、優(yōu)化方法和分布式計(jì)算.

      6 研究展望

      從以上對(duì)各種方案的介紹分析來看, 雖然對(duì)于一些簡單的圖形分類任務(wù), 如MNIST 數(shù)據(jù)集, 實(shí)驗(yàn)證明一些針對(duì)淺層分類模型的保護(hù)方案, 在安全性與可用性(分類精度和執(zhí)行速度) 方面均取得了不錯(cuò)的效果. 但是對(duì)于復(fù)雜的分類任務(wù), 如ImageNet 數(shù)據(jù)集, 需要使用大型深度分類模型時(shí), 目前還不存在一種在安全性與可用性方面滿足實(shí)用條件的保護(hù)方案. 客觀來講, 面向圖像分類應(yīng)用的隱私保護(hù)問題研究還有很大的探索空間.

      安全性、分類精度和計(jì)算速度是評(píng)價(jià)圖像分類模型隱私保護(hù)方案的三大指標(biāo). 不同的圖像分類應(yīng)用對(duì)三者的需求是不同的, 同時(shí)提高三者難度較大, 因此可以針對(duì)應(yīng)用的特點(diǎn)適當(dāng)側(cè)重某些指標(biāo), 滿足實(shí)用需求. 結(jié)合現(xiàn)有的工作, 本文對(duì)本圖像分類模型隱私保護(hù)問題未來的研究方向給出了展望.

      6.1 相關(guān)密碼學(xué)工具研究

      密碼學(xué)技術(shù)是隱私保護(hù)方案的基礎(chǔ), 其性能直接決定圖像分類模型最終的可用性.

      使用同態(tài)加密的方案存在三個(gè)方面需要改進(jìn): 功能性、時(shí)效性和準(zhǔn)確性. 在功能性上, 目前同態(tài)加密方案還不能支持機(jī)器學(xué)習(xí)模型中用到的所有操作, 如比較運(yùn)算等, 因此需要研究這些操作的代替方法或利用其它安全密碼協(xié)議或隱私保護(hù)手段對(duì)同態(tài)加密做補(bǔ)充; 在時(shí)效性上, 盡管不斷有高效的同態(tài)機(jī)制被提出,同態(tài)運(yùn)算的時(shí)間開銷仍然顯著高于明文上對(duì)應(yīng)運(yùn)算若干各數(shù)量級(jí), 機(jī)器學(xué)習(xí)模型本就屬于計(jì)算密集型任務(wù), 直接用同態(tài)運(yùn)算替換后必然導(dǎo)致模型執(zhí)行時(shí)間的劇增, 因此需要研究加快同態(tài)加密的運(yùn)算速度; 在準(zhǔn)確性上, 目前的同態(tài)加密方案本質(zhì)上只支持有限整數(shù)運(yùn)算, 然而圖像分類中廣泛使用的深度學(xué)習(xí)需要大量的浮點(diǎn)運(yùn)算, 為此需要研究編碼技術(shù)彌補(bǔ)來提高效率. 以上問題的進(jìn)一步解決才能推動(dòng)隱私保護(hù)方案在圖像分類應(yīng)用中實(shí)際使用.

      基于安全多方計(jì)算構(gòu)建隱私保護(hù)訓(xùn)練方案較為靈活, 適用于一些復(fù)雜場景的隱私保護(hù)需求. 與同態(tài)加密方案一樣, 也存在功能性、時(shí)效性和準(zhǔn)確性的問題, 為此可以從密碼學(xué)原語、密碼學(xué)協(xié)議設(shè)計(jì)方向展開研究, 可以基于文獻(xiàn)[74] 中提出的多方矩陣乘法協(xié)議構(gòu)造神經(jīng)網(wǎng)絡(luò)模型. 在方案設(shè)計(jì)前應(yīng)分析清楚部署場景的限制以及攻擊者模型, 如文獻(xiàn)[60,65] 提出的方案需要引入多個(gè)服務(wù)器并假設(shè)相互不共謀, 多數(shù)使用場景很難滿足這一需求, 因此需要設(shè)計(jì)其他協(xié)議.

      6.2 方案的硬件加速

      圖像分類研究的進(jìn)步離不開深度學(xué)習(xí)的技術(shù)發(fā)展, 而深度學(xué)習(xí)技術(shù)的突破得益于GPU 計(jì)算的運(yùn)用.為了突破基于加密技術(shù)的隱私保護(hù)方案的計(jì)算速度瓶頸, 有必要研究同態(tài)加密等技術(shù)的硬件加速方法.

      GPU 提供了強(qiáng)大的并行計(jì)算能力, 文獻(xiàn)[58] 實(shí)現(xiàn)了基于GPU 同態(tài)加密的模型推理, 雖然提升了推理速度, 但使用的計(jì)算資源過于昂貴, 且沒有開源實(shí)現(xiàn)方案. 目前支持GPU 加速的開源同態(tài)加密庫有cuFHE 和nuFHE, 分別采用快速數(shù)論變換(Number Theoretic Transform, NTT) 和(Fast Fourier Transform, FFT) 變換加速多項(xiàng)式乘法, 不足之處在于只提供了布爾運(yùn)算的同態(tài)加密, 無法直接應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型. 此外對(duì)于深度學(xué)習(xí)模型, GPU 顯存占用較多, 而加密方案往往具有較大的密文膨脹率, 需要更多的顯存空間, 這也限制了相關(guān)方案使用GPU 來加速, 因此GPU 加速還需進(jìn)一步研究.

      密碼學(xué)算法大多依賴大數(shù)運(yùn)算, GPU 對(duì)此支持有限, 這也是目前使用GPU 加速效果不甚理想的原因之一. 因此還可以使用FPGA 和ASIC 加速計(jì)算, 目前已有一些嘗試, 但將同態(tài)加密與深度學(xué)習(xí)的硬件加速相結(jié)合的研究還是空白, 為此僅實(shí)現(xiàn)加法和乘法操作是遠(yuǎn)遠(yuǎn)不夠的, 未來發(fā)揮并行計(jì)算的特點(diǎn), 需要實(shí)現(xiàn)針對(duì)密文的張量運(yùn)算, 模型常用操作的向量化.

      6.3 圖像分類模型輕量化與壓縮

      對(duì)于密碼學(xué)技術(shù), 不論是同態(tài)加密還是安全多方計(jì)算, 都需要額外的大量計(jì)算開銷, 除了以上從密碼學(xué)方向進(jìn)行改進(jìn)優(yōu)化, 還可以從圖像分類模型的角度簡化模型, 減小加密模型的時(shí)間開銷, 從而增強(qiáng)相關(guān)隱私保護(hù)方案的實(shí)用性.

      學(xué)界認(rèn)為深度學(xué)習(xí)模型普遍存在參數(shù)冗余. 近年來, 深度學(xué)習(xí)領(lǐng)域的研究人員已經(jīng)意識(shí)到了模型簡化與壓縮的重要性, 提出了許多改進(jìn)方案. 主要分為兩類: 模型輕量化設(shè)計(jì)和模型壓縮.

      模型輕量化在設(shè)計(jì)階段即考慮到計(jì)算復(fù)雜度, 目的在于設(shè)計(jì)高效的圖像分類模型. 已提出的SqueezeNet、MobileNet 和ShuffleNet 等模型[75–77]通過使用卷積核分解、深度可分離卷積、分組卷積等技術(shù)簡化模型. 影響模型計(jì)算速度主要是模型的參數(shù)數(shù)量和參數(shù)執(zhí)行運(yùn)算的復(fù)雜度. 值得注意的是,盡管一些輕量化技術(shù)大幅的減少了模型參數(shù)量, 但變相地增加了運(yùn)算復(fù)雜度, 因此計(jì)算時(shí)間仍然巨大.

      模型壓縮是指將一個(gè)已訓(xùn)練好的模型通過一些技術(shù)手段, 減少參數(shù)量或運(yùn)算復(fù)雜度, 同時(shí)保持原始的分類精度. 常用的壓縮方法可分為兩類: 模型剪枝(Pruning) 和模型量化(Quantization). 模型剪枝可以通過剔除原始模型中不重要的連接和卷積核來減少參數(shù)量. 目前提出有正則化、隨機(jī)、靜態(tài)、動(dòng)態(tài)等剪枝方法[50,78]. 模型量化針對(duì)模型參數(shù), 不改變模型結(jié)構(gòu). 相關(guān)研究證實(shí)使用低精度浮點(diǎn)數(shù)訓(xùn)練模型, 也可以得到與浮點(diǎn)數(shù)訓(xùn)練相匹配的分類精度. 而針對(duì)模型推理過程, 可采用更激進(jìn)的量化策略[79].

      除此之外, 還有神經(jīng)模型搜索(Neural Architecture Methods, NAS)[80]、知識(shí)蒸餾(Knowledge Distillation)[81]等方法用于高效模型設(shè)計(jì).

      目前模型簡化研究多針對(duì)普通使用場景. 未來可根據(jù)密文運(yùn)算的特點(diǎn), 有針對(duì)性地研究模型簡化技術(shù),從而減小隱私保護(hù)方案的計(jì)算負(fù)荷, 提高方案的實(shí)用性.

      6.4 聯(lián)邦學(xué)習(xí)

      針對(duì)多數(shù)據(jù)源模型訓(xùn)練的隱私保護(hù)可以利用聯(lián)邦學(xué)習(xí)(Federated Learning) 技術(shù), 聯(lián)邦學(xué)習(xí)最早由Google 提出[82], 用于多個(gè)移動(dòng)終端用戶協(xié)同訓(xùn)練一個(gè)模型. 文獻(xiàn)[83] 進(jìn)一步提出了聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning). 在訓(xùn)練過程中參與方的數(shù)據(jù)均保存在本地, 不涉及原始數(shù)據(jù)的交換. 首先在本地進(jìn)行模型訓(xùn)練, 然后通過加密手段交換參與各方的用戶中間識(shí)別符, 而非用戶數(shù)據(jù)本身. 任意一方可通過識(shí)別符找出相同的用戶, 將這部分用戶的不同特征作為輸入, 進(jìn)行模型訓(xùn)練和交換參數(shù). 在整個(gè)訓(xùn)練的過程中參與方之間不能反推對(duì)方的特征數(shù)據(jù), 從而有效保護(hù)訓(xùn)練數(shù)據(jù)的隱私.

      聯(lián)系學(xué)習(xí)目前的缺陷在于巨大的通信開銷, 以及對(duì)參與方本地算力的要求, 因此目前僅適合于特定的訓(xùn)練場景. 運(yùn)用于格式化數(shù)據(jù)的模型訓(xùn)練已有良好的效果, 適用于普通場景的圖像(非格式化數(shù)據(jù)) 分類模型聯(lián)邦學(xué)習(xí)訓(xùn)練還需進(jìn)一步研究參數(shù)交換方案, 降低計(jì)算、通信開銷.

      6.5 可拓展性

      盡管本文聚焦于圖像分類任務(wù), 但其所依賴的底層模型“卷積神經(jīng)網(wǎng)絡(luò)” 被廣泛應(yīng)用于其他計(jì)算機(jī)視覺基本任務(wù), 如目標(biāo)定位(Object Localization)、目標(biāo)檢測(Object Detection)、圖像分割(Image Segmentation), 以及一些衍生的高級(jí)任務(wù). 同時(shí), 卷積神經(jīng)網(wǎng)絡(luò)與其他深度學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)等在優(yōu)化方法等方面存在許多共性. 因此相關(guān)隱私保護(hù)方法也可以被其他領(lǐng)域借鑒.

      7 總結(jié)

      本文綜述了基于加密技術(shù)的面向圖像分類應(yīng)用隱私保護(hù)的相關(guān)研究進(jìn)展. 將密碼學(xué)技術(shù)、隱私保護(hù)技術(shù)與機(jī)器學(xué)習(xí)模型相結(jié)合可以解決圖像分類應(yīng)用中存在的安全問題, 具有重要的研究價(jià)值和現(xiàn)實(shí)的應(yīng)用價(jià)值. 文中首先分析了圖像分類應(yīng)用過程存在的不同隱私風(fēng)險(xiǎn). 簡要介紹了當(dāng)前主流的同態(tài)加密、安全多方計(jì)算的技術(shù)原理. 而后根據(jù)不同的隱私需求詳細(xì)論述了不同保護(hù)技術(shù)與圖像分類模型相結(jié)合的研究方案.最后, 針對(duì)這一領(lǐng)域的研究難點(diǎn), 討論了未來的研究方向.

      總體來說, 面向圖像分類應(yīng)用的隱私保護(hù)研究仍處于起步階段. 加密方法的低效性、模型計(jì)算的復(fù)雜性同時(shí)決定了此問題的解決還存在多方面的研究挑戰(zhàn).

      猜你喜歡
      同態(tài)加密運(yùn)算
      重視運(yùn)算與推理,解決數(shù)列求和題
      關(guān)于半模同態(tài)的分解*
      有趣的運(yùn)算
      拉回和推出的若干注記
      一種基于熵的混沌加密小波變換水印算法
      “整式的乘法與因式分解”知識(shí)歸納
      撥云去“誤”學(xué)乘除運(yùn)算
      一種基于LWE的同態(tài)加密方案
      HES:一種更小公鑰的同態(tài)加密算法
      認(rèn)證加密的研究進(jìn)展
      嘉禾县| 小金县| 福州市| 武定县| 台东市| 华亭县| 务川| 黄平县| 肇源县| 井陉县| 湟中县| 台湾省| 蓬莱市| 盐山县| 两当县| 来凤县| 阜城县| 鄱阳县| 额济纳旗| 沾益县| 延寿县| 崇左市| 台北市| 彭水| 读书| 建阳市| 嘉祥县| 资溪县| 田东县| 双流县| 石阡县| 隆安县| 全州县| 巴南区| 江津市| 攀枝花市| 河池市| 台北市| 郑州市| 三亚市| 茂名市|