• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多數(shù)據(jù)源下機(jī)器學(xué)習(xí)的隱私保護(hù)研究

    2020-07-18 15:28:39張銘凱范宇豪夏仕冰
    網(wǎng)絡(luò)空間安全 2020年4期
    關(guān)鍵詞:隱私保護(hù)機(jī)器學(xué)習(xí)

    張銘凱 范宇豪 夏仕冰

    摘 ? 要:在多數(shù)據(jù)源的情況下,隱私保護(hù)機(jī)器學(xué)習(xí)是一個(gè)具有重要現(xiàn)實(shí)意義的研究課題,直接影響著人工智能在現(xiàn)實(shí)社會(huì)中的發(fā)展和推廣。目前,已有許多致力于解決機(jī)器學(xué)習(xí)算法中隱私問題的方案,文章闡述并分析了四種常見的隱私保護(hù)技術(shù),它們包括同態(tài)加密、秘密共享、亂碼電路和差分隱私。介紹了近年來一種流行的聯(lián)合學(xué)習(xí)解決方案框架—聯(lián)邦學(xué)習(xí),并對(duì)其存在的不足進(jìn)行了討論?;趯?duì)現(xiàn)有技術(shù)和方案的分析,文章提出了一種適用于多數(shù)據(jù)源場(chǎng)景的隱私保護(hù)方案,方案具有良好的安全性、健壯性和可校驗(yàn)性三個(gè)特點(diǎn)。

    關(guān)鍵詞:隱私保護(hù);多數(shù)據(jù)源;機(jī)器學(xué)習(xí);同態(tài)加密;聯(lián)邦學(xué)習(xí)

    中圖分類號(hào): TP391 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

    Abstract: In the case of multiple data sources, privacy protection machine learning is a research topic of great practical significance, which directly affects the development and promotion of artificial intelligence in real society. At present, there are many solutions dedicated to solving privacy problems in machine learning algorithms. The article expounds and analyzes four common privacy protection technologies, including homomorphic encryption, secret sharing, garbled circuits, and differential privacy. Introduced a popular joint learning solution framework in recent years-federal learning, and discussed its shortcomings. Based on the analysis of existing technologies and schemes, the article proposes a privacy protection scheme suitable for multiple data source scenarios. The scheme has three characteristics of good security, robustness and verifiability.

    Key words: privacy protection; multiple data sources; machine learning; homomorphic encryption; the federal study

    1 引言

    近年來,機(jī)器學(xué)習(xí)算法得到越來越多的關(guān)注和發(fā)展,其出色的數(shù)據(jù)挖掘技術(shù)在疾病檢測(cè)、經(jīng)濟(jì)預(yù)測(cè)、網(wǎng)絡(luò)優(yōu)化等廣泛領(lǐng)域中得到應(yīng)用并迅速獲得了普及。

    在實(shí)際訓(xùn)練中,機(jī)器學(xué)習(xí)算法需要盡可能多的樣本數(shù)據(jù),但是單數(shù)據(jù)源所能提供的數(shù)據(jù)量有限,算法所需的數(shù)據(jù)大多來自多個(gè)數(shù)據(jù)源,例如不同的人、公司、組織或國(guó)家等。由于每個(gè)參與者對(duì)所得到的學(xué)習(xí)模型都做出了貢獻(xiàn),在未經(jīng)其他參與者授權(quán)之前,通常該模型應(yīng)只在參與者之間共享,而不允許任何單個(gè)參與者擁有模型的全部所有權(quán)。這種限制可以有效防止任何未經(jīng)授權(quán)的個(gè)人或團(tuán)體利用或出售有價(jià)值的模型。

    基于上述原因,如何保護(hù)每個(gè)參與者的隱私問題有著極其重要的現(xiàn)實(shí)意義。數(shù)據(jù)提供者不希望將其私人數(shù)據(jù)透露給其他人,并且經(jīng)過多數(shù)據(jù)源的數(shù)據(jù)訓(xùn)練過的模型也不應(yīng)發(fā)布給任何單個(gè)參與者,因此我們需要使用基于多數(shù)據(jù)源的隱私保護(hù)方法。

    2 隱私技術(shù)的發(fā)展概況

    現(xiàn)有的解決機(jī)器學(xué)習(xí)算法中隱私問題的方案,主要基于四種類型的隱私保護(hù)技術(shù):(1)同態(tài)加密;(2)秘密共享;(3)亂碼電路;(4)差分隱私。本節(jié)主要討論它們的應(yīng)用和不足。

    2.1 同態(tài)加密

    同態(tài)加密技術(shù)是將數(shù)據(jù)轉(zhuǎn)換成密文,并實(shí)現(xiàn)直接對(duì)密文進(jìn)行與明文相同的加法和乘法等基本計(jì)算處理。它已經(jīng)在安全計(jì)算的實(shí)踐中得到了廣泛的應(yīng)用[1]。 同態(tài)加密雖然強(qiáng)大,但其低效的計(jì)算效率限制了其發(fā)展,特別是支持乘法的全同態(tài)加密。

    通過使用全同態(tài)加密,文獻(xiàn)[2]的作者構(gòu)建了一種不需要高效計(jì)算效率的基于云的安全神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)服務(wù)。另外,Yuan等人[3]基于一個(gè)擁有可信加密服務(wù)提供者的模型,為Back-Propagation Neural (BPN)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程提供了一種有效的隱私保護(hù)解決方案。同樣的,文獻(xiàn)[4]的作者提出了在云計(jì)算中保護(hù)隱私的外包分類框架,當(dāng)加密服務(wù)提供者沒有泄密時(shí),就可以有效保護(hù)隱私。顯然,加密服務(wù)提供者的存在降低了這些解決方案的安全性。

    為了避免全同態(tài)加密造成的低效,文獻(xiàn)[5,6]的作者只使用加同態(tài)加密來完成安全加法,而安全乘法則依賴于普通的兩方秘密共享方案。然而其仍然存在漏洞,如果任何兩個(gè)參與者勾結(jié),被保護(hù)的隱私數(shù)據(jù)將被泄露。

    總之,基于同態(tài)加密的解決方案通常需要一個(gè)可信的加密服務(wù)提供者,或者需要依賴于其他隱私技術(shù)。同時(shí)受到同態(tài)加密發(fā)展的限制,它通常仍然需要許多計(jì)算資源,導(dǎo)致其計(jì)算效率并不很令人滿意。

    2.2 秘密共享

    秘密共享技術(shù)允許用戶將一個(gè)秘密 s 分為 n 份子秘密,然后把它們分給n個(gè)用戶。這樣使得當(dāng)k≤n時(shí),任意k份子秘密都可以用來重構(gòu)秘密s,若少于k份子秘密則不能泄露出任何關(guān)于秘密s的信息。根據(jù)是否具有閾值特性,我們將秘密共享技術(shù)主要分為兩類:當(dāng)k=n時(shí)是普通秘密共享;當(dāng)k

    基于普通秘密共享技術(shù),Bogdanov等人 [7]提出了一種名為Share mind的高效 3PC 模型用于隱私保護(hù)計(jì)算,并顯著提高了3PC模型的計(jì)算速度[8]。 2017年,Mohassel等人[9]使用兩個(gè)非勾結(jié)服務(wù)器(2PC模型),提出了新的、高效的機(jī)器學(xué)習(xí)隱私保護(hù)協(xié)議。該協(xié)議主要應(yīng)用于線性回歸、邏輯回歸和使用隨機(jī)梯度下降法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

    顯然,這些安全措施不足以抵御強(qiáng)大的對(duì)手。雖然[10~12]的作者通過能夠抵抗一個(gè)參與者泄密的閾值秘密共享方案,將閾值特征引入到 3PC 模型中,但是在實(shí)際情況中,該方案并不能很容易地?cái)U(kuò)展到多 PC 模型,且閾值的特性也不能很好地繼承。因此,通用性是此類基于閾值秘密共享的現(xiàn)有解決方案的挑戰(zhàn)。

    2.3 亂碼電路

    亂碼電路最初是由Yao[13]引入,這種技術(shù)在解決基于數(shù)字電路的安全多方計(jì)算、對(duì)稱加密和不經(jīng)意傳輸問題方面非常成功。但由于亂碼電路通常效率不夠,一些稍微復(fù)雜的函數(shù)在轉(zhuǎn)換成數(shù)字電路時(shí)仍然包含大量的邏輯門,這將導(dǎo)致大量的解密操作,使計(jì)算效率低下。

    由于低效率和擴(kuò)展困難,亂碼電路的使用率并不高。文獻(xiàn)[14]的作者將解密過程嵌入到亂碼電路中,以實(shí)現(xiàn)密文的安全計(jì)算。此外,Mohassel等人[15]通過使用亂碼電路來解決安全比較問題。亂碼電路方案的擴(kuò)展性弱,并且容易產(chǎn)生很高的計(jì)算復(fù)雜度。因此,亂碼電路不是實(shí)現(xiàn)機(jī)器學(xué)習(xí)隱私保護(hù)算法的主要方案。

    2.4 差分隱私

    差分隱私是通過在原始數(shù)據(jù)集上進(jìn)行額外的處理來實(shí)現(xiàn)機(jī)器學(xué)習(xí)隱私保護(hù)[16~18]。它通過降低數(shù)據(jù)在一次單獨(dú)使用中的價(jià)值來保護(hù)數(shù)據(jù)的隱私。雖然這種方法可以有效保護(hù)隱私數(shù)據(jù),但由此帶來的數(shù)據(jù)使用價(jià)值的降低會(huì)造成基于小數(shù)據(jù)集的機(jī)器學(xué)習(xí)訓(xùn)練準(zhǔn)確度的下降。因此差分隱私只適用于有大量數(shù)據(jù)集合的訓(xùn)練過程。

    3 聯(lián)邦學(xué)習(xí)框架

    最近,McMahan等人[19]提出了一種用于在多個(gè)數(shù)據(jù)源的情況下保護(hù)機(jī)器學(xué)習(xí)的數(shù)據(jù)隱私的新的解決方案框架,稱為聯(lián)邦學(xué)習(xí)。之后,Yang等人[20]對(duì)聯(lián)邦學(xué)習(xí)進(jìn)行了完整詳細(xì)的闡述?;跀?shù)據(jù)分布的類型,聯(lián)邦學(xué)習(xí)具有兩種不同的結(jié)構(gòu)。

    水平聯(lián)邦學(xué)習(xí)的典型結(jié)構(gòu)允許服務(wù)器聚合每個(gè)數(shù)據(jù)提供者在本地計(jì)算的梯度,之后所有數(shù)據(jù)提供者使用服務(wù)器返回的聚合結(jié)果更新系統(tǒng)模型。顯然,任何數(shù)據(jù)提供者都有可能泄露整個(gè)模型。

    垂直聯(lián)邦學(xué)習(xí)的結(jié)構(gòu)則假定有一個(gè)合作者是誠(chéng)實(shí)的,并且不與其他任何數(shù)據(jù)提供者勾結(jié)。 然而,這種基于假設(shè)的方法的安全性同樣存在限制。

    4 線性回歸算法的隱私保護(hù)研究

    Mohassel等人[21]提出了一種基于三方服務(wù)器的隱私保護(hù)方案。方案具有良好的健壯性,它能夠容忍參與計(jì)算的一個(gè)服務(wù)器下線或拒絕服務(wù),方案的不足之處在于無法驗(yàn)證參與者給出數(shù)據(jù)的正確性。本文基于秘密共享技術(shù)構(gòu)建了一種新的基于三方的安全計(jì)算方案并應(yīng)用于構(gòu)造隱私保護(hù)的線性回歸算法。新方案同樣具有良好的健壯性并且能夠在計(jì)算過程中驗(yàn)證計(jì)算結(jié)果的正確性。

    4.1 安全計(jì)算方案

    新的安全計(jì)算方案主要分為三個(gè)部分:秘密分發(fā)協(xié)議、安全計(jì)算協(xié)議、結(jié)果校驗(yàn)協(xié)議。

    4.1.1秘密分發(fā)協(xié)議

    安全乘法協(xié)議借助Mohassel等人[9]提出的安全兩方乘法協(xié)議實(shí)現(xiàn)。任意兩個(gè)服務(wù)器均進(jìn)行安全兩方乘法計(jì)算,最終秘密m·s同樣分為三組秘密分量分別存儲(chǔ)在三個(gè)服務(wù)器。具體算法不在本文累述。

    4.1.3 結(jié)果校驗(yàn)協(xié)議

    結(jié)果校驗(yàn)協(xié)議主要負(fù)責(zé)對(duì)計(jì)算過程中的計(jì)算結(jié)果進(jìn)行校驗(yàn),防止秘密分量間的錯(cuò)誤計(jì)算或單個(gè)服務(wù)器的惡意數(shù)據(jù)。假設(shè)需要校驗(yàn)的結(jié)果數(shù)據(jù)為秘密 ,校驗(yàn)過程如下:

    1) 服務(wù)器A計(jì)算。服務(wù)器B任選一個(gè)隨機(jī)數(shù)R計(jì)算,將K發(fā)送給服務(wù)器C;

    2) 服務(wù)器C利用K計(jì)算,將L發(fā)送給服務(wù)器A;

    3) 服務(wù)器A計(jì)算,將M發(fā)送給服務(wù)器B;

    4) 服務(wù)器B根據(jù)M與R判斷計(jì)算結(jié)果是否正常。當(dāng)M與R相等時(shí),計(jì)算結(jié)果正常。當(dāng)M與R不相等時(shí),計(jì)算結(jié)果異常。

    4.2 隱私保護(hù)的線性回歸算法

    線性回歸算法在日常生活中應(yīng)用廣泛,它通常應(yīng)用于連續(xù)型數(shù)據(jù)的數(shù)值預(yù)測(cè),例如房?jī)r(jià)預(yù)測(cè)、疾病診斷等領(lǐng)域。本文基于前述的安全計(jì)算方案構(gòu)造了隱私保護(hù)的線性回歸算法,算法具有安全性和健壯性的特點(diǎn),同時(shí)能夠?qū)χ虚g結(jié)果進(jìn)行結(jié)果校驗(yàn),驗(yàn)證計(jì)算過程的正確性。線性回歸算法分為訓(xùn)練階段和預(yù)測(cè)階段,本文針對(duì)這兩個(gè)階段分別構(gòu)造了隱私保護(hù)協(xié)議。

    4.2.1訓(xùn)練階段

    1) 服務(wù)器A、B、C分別初始化線性回歸模型參數(shù)W為0。利用秘密分發(fā)協(xié)議將秘密0生成三組秘密分量并發(fā)送給每個(gè)服務(wù)器。

    2) 數(shù)據(jù)擁有者利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)生成三組秘密分量并發(fā)送給每個(gè)服務(wù)器。

    3) 服務(wù)器A、B、C利用安全計(jì)算協(xié)議更新 ,其中代表學(xué)習(xí)速率。

    4) 重復(fù)執(zhí)行步驟2)和步驟3),當(dāng)兩次更新前后模型參數(shù)W的變化量小于一定值后停止更新。參數(shù)W即為訓(xùn)練處出的線形回歸模型。

    4.2.2 預(yù)測(cè)階段

    1) 需求預(yù)測(cè)服務(wù)的用戶利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)X生成三組秘密分量并發(fā)送給每個(gè)服務(wù)器。

    2) 服務(wù)器A、B、C利用安全計(jì)算協(xié)議計(jì)算 。最終預(yù)測(cè)結(jié)果將分散存儲(chǔ)在三個(gè)服務(wù)器中,任選兩個(gè)服務(wù)器將秘密分量發(fā)送給用戶進(jìn)行預(yù)測(cè)結(jié)果的重構(gòu)。

    比較前述的多種隱私保護(hù)技術(shù),秘密共享技術(shù)天然地適合多數(shù)據(jù)源下的機(jī)器學(xué)習(xí)隱私保護(hù)。本節(jié)利用秘密共享技術(shù)和三個(gè)服務(wù)器構(gòu)建了新的具有安全性、健壯性和可校驗(yàn)性的安全計(jì)算協(xié)議,并以此為基礎(chǔ)構(gòu)建了隱私保護(hù)的線性回歸算法。新方案相較于現(xiàn)有方案實(shí)現(xiàn)了對(duì)中間結(jié)果的校驗(yàn),能夠防止計(jì)算過程中的異常錯(cuò)誤?;谏鲜鰞?nèi)容可得,在多數(shù)據(jù)源場(chǎng)景下,秘密共享技術(shù)擁有很大的潛力和較好的發(fā)展前景。

    5 結(jié)束語

    基于多數(shù)據(jù)源的機(jī)器學(xué)習(xí)彌補(bǔ)了單數(shù)據(jù)源下訓(xùn)練數(shù)據(jù)的數(shù)量缺乏和多樣性不足的缺陷,具有廣泛的應(yīng)用前景和現(xiàn)實(shí)意義。而多數(shù)據(jù)源下機(jī)器學(xué)習(xí)的隱私保護(hù)技術(shù)直接影響著這種機(jī)器學(xué)習(xí)方案在現(xiàn)實(shí)社會(huì)中的發(fā)展和推廣,具有十分重要的意義。

    參考文獻(xiàn)

    [1] M. Naehrig, K. Lauter, and V. Vaikuntanathan. Can homomorphic en cryption be practical? In Proceedings of the 3rd ACM Workshop on Cloud Computing Security Workshop, CCSW '11, pages 113–124, New York, NY, USA, 2011. ACM.

    [2] P. Xie, M. Bilenko, T. Finley, R. Gilad-Bachrach, K. E. Lauter, and M. Naehrig. Crypto-nets: Neural networks over encrypted data. CoRR, abs/1412.6181, 2014.

    [3] J. Yuan and S. Yu. Privacy preserving back-propagation neural network learning made practical with cloud computing. IEEE Transactions on Parallel and Distributed Systems, 25(1): 212–221, Jan 2014.

    [4] P. Li, J. Li, Z. Huang, C.-Z. Gao, W.-B. Chen, and K. Chen. Privacy-preserving outsourced classi?cation in cloud computing. Cluster Computing, 21(1): 277-286, Mar 2018.

    [5] J. Vaidya, M. Kantarc?o?glu, and C. Clifton. Privacy-preserving na¨?ve bayes classi?cation. The VLDB Journal, 17(4): 879–898, Jul 2008.

    [6] S. Samet and A. Miri. Privacy-preserving back-propagation and extreme learning machine algorithms. Data Knowl. Eng., 79-80: 40-61, Sept. 2012.

    [7] D. Bogdanov, S. Laur, and J. Willemson. Sharemind: A framework for fast privacy-preserving computations. In S. Jajodia and J. Lopez, editors, Computer Security - ESORICS 2008, pages 192-206, Berlin, Heidelberg, 2008. Springer Berlin Heidelberg.

    [8] D. Bogdanov, M. Niitsoo, T. Toft, and J. Willemson. High-performance secure multi-party computation for data mining applications. International Journal of Information Security, 11(6):403-418, Nov 2012.

    [9] P. Mohassel and Y. Zhang. Secureml: A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy (SP), volume 00, pages 19-38, May 2017.

    [10] T. Araki, J. Furukawa, Y. Lindell, A. Nof, and K. Ohara. High-throughput semi-honest secure three-party computation with an honest majority. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, CCS '16, pages 805-817, New York, NY, USA, 2016. ACM.

    [11] J. Furukawa, Y. Lindell, A. Nof, and O. Weinstein. High-throughput secure three-party computation for malicious adversaries and an honest majority. In J.-S. Coron and J. B. Nielsen, editors, Advances in Cryptology -EUROCRYPT 2017, pages 225-255, Cham, 2017. Springer International Publishing.

    [12] P. Mohassel and P. Rindal. Aby3: A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS '18, pages 35-52, New York, NY, USA, 2018. ACM.

    [13] A. C. Yao. Protocols for secure computations. In 23rd Annual Symposium on Foundations of Computer Science (sfcs 1982), pages 160-164, Nov 1982.

    [14] V. Nikolaenko, U. Weinsberg, S. Ioannidis, M. Joye, D. Boneh, and N. Taft. Privacy-preserving ridge regression on hundreds of millions of records. In 2013 IEEE Symposium on Security and Privacy, pages 334-348, May 2013.

    [15] P. Mohassel and Y. Zhang. Secureml: A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy (SP), volume 00, pages 19-38, May 2017.

    [16] K. Chaudhuri and C. Monteleoni. Privacy-preserving logistic regression. In D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, editors, Advances in Neural Information Processing Systems 21, pages 289-296. Curran Associates, Inc. 2009.

    [17] M. Abadi, A. Chu, I. Goodfellow, H. B. McMahan, I. Mironov, K. Talwar, and L. Zhang. Deep learning with di?erential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, CCS '16, pages 308-318, New York, NY, USA, 2016. ACM.

    [18] S. Song, K. Chaudhuri, and A. D. Sarwate. Stochastic gradient descent with di?erentially private updates. In 2013 IEEE Global Conference on Signal and Information Processing, pages 245-248, Dec 2013.

    [19] McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data, ICAI, 2017.

    [20] Q. Yang, Y. Liu, T. Chen, and Y. Tong. Federated machine learning: Concept and applications. ACM Trans. Intell. Syst. Technol, 10(2):12:1-12:19, Jan. 2019.

    [21] P. Mohassel and P. Rindal. Aby3: A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS '18, pages 35{52, New York, NY, USA, 2018. ACM.

    猜你喜歡
    隱私保護(hù)機(jī)器學(xué)習(xí)
    基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
    基于層次和節(jié)點(diǎn)功率控制的源位置隱私保護(hù)策略研究
    關(guān)聯(lián)規(guī)則隱藏算法綜述
    大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對(duì)策
    大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
    基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
    基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
    前綴字母為特征在維吾爾語文本情感分類中的研究
    社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
    大數(shù)據(jù)時(shí)代的隱私保護(hù)關(guān)鍵技術(shù)研究
    海晏县| 苍梧县| 临朐县| 陇川县| 宁波市| 美姑县| 工布江达县| 德化县| 柘荣县| 赣州市| 嘉祥县| 许昌市| 潢川县| 望城县| 平江县| 济源市| 上犹县| 阿克| 永胜县| 平远县| 卢氏县| 金寨县| 长子县| 曲阜市| 阳高县| 建水县| 清新县| 嵊州市| 疏勒县| 洛阳市| 满城县| 登封市| 尚志市| 稻城县| 徐汇区| 三穗县| 顺义区| 新郑市| 连州市| 德庆县| 尖扎县|