倪高偉 孫苑苑 樊巧云
中國(guó)移動(dòng)通信集團(tuán)江蘇有限公司
隨著通信技術(shù)迅速發(fā)展,社會(huì)對(duì)數(shù)據(jù)安全保護(hù)的需求不斷增長(zhǎng)。近年來(lái),由于移動(dòng)通信技術(shù)的快速升級(jí),數(shù)據(jù)傳輸速度不斷提高,5G 時(shí)代的到來(lái)已使得更多數(shù)據(jù)通過各種渠道飛速傳播。在此過程中,運(yùn)營(yíng)商沉淀了客戶基本信息、行為數(shù)據(jù)、位置數(shù)據(jù)以及用戶終端信息等海量數(shù)據(jù)。這些數(shù)據(jù)具備準(zhǔn)確性、連續(xù)性、高保真性、豐富性等特點(diǎn),不僅在運(yùn)營(yíng)商領(lǐng)域內(nèi)的價(jià)值高,還能為金融、政務(wù)等行業(yè)發(fā)揮刻畫用戶畫像、挖掘潛客群體等可觀的應(yīng)用價(jià)值。然而,移動(dòng)通信大數(shù)據(jù)包含用戶基本信息及行為等隱私信息,具有高敏感性,若在應(yīng)用中的安全保護(hù)措施不當(dāng),極易造成用戶隱私泄露。在數(shù)據(jù)安全保護(hù)法律趨嚴(yán)的背景下,如何實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)價(jià)值挖掘并重,成為運(yùn)營(yíng)商的重要挑戰(zhàn)。對(duì)此,隱私計(jì)算技術(shù)能夠?qū)⒏鞣綌?shù)據(jù)的明文信息和計(jì)算價(jià)值分離,保障數(shù)據(jù)的隱私安全和計(jì)算結(jié)果的準(zhǔn)確性。但行業(yè)實(shí)踐顯示,隱私計(jì)算涉及大量的密碼運(yùn)算和數(shù)據(jù)通信,在很多應(yīng)用場(chǎng)景中其性能與安全性難以得到有效兼顧(而安全性通常被作為數(shù)據(jù)流通和應(yīng)用的一種底線要求),再加上運(yùn)營(yíng)商數(shù)據(jù)體量大,系統(tǒng)穩(wěn)定性、實(shí)時(shí)性要求高,隱私計(jì)算在許多業(yè)務(wù)應(yīng)用中面臨極大挑戰(zhàn)。
針對(duì)上述問題,本文結(jié)合移動(dòng)通信數(shù)據(jù)維度高、體量大、變化快等屬性,提出能夠兼顧數(shù)據(jù)安全性、結(jié)果準(zhǔn)確性、業(yè)務(wù)時(shí)效性和系統(tǒng)穩(wěn)定性的隱私計(jì)算技術(shù)架構(gòu)和解決方案,實(shí)現(xiàn)多方數(shù)據(jù)價(jià)值的高效利用,為移動(dòng)運(yùn)營(yíng)商及其合作伙伴的用戶提供更優(yōu)質(zhì)、更精準(zhǔn)的個(gè)性化服務(wù),同時(shí)幫助機(jī)構(gòu)提升數(shù)據(jù)使用合規(guī)能力,推動(dòng)全行業(yè)健康發(fā)展。
隱私保護(hù)計(jì)算(Privacy-preserving computation,本文簡(jiǎn)稱“隱私計(jì)算”)是指在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下,對(duì)數(shù)據(jù)進(jìn)行分析計(jì)算的一系列信息技術(shù),實(shí)現(xiàn)數(shù)據(jù)在流通和融合過程中的“可用不可見”[1]。從技術(shù)原理來(lái)看,隱私計(jì)算主要包括基于密碼學(xué)的多方安全計(jì)算和同態(tài)加密,基于硬件隔離的可信執(zhí)行環(huán)境,以及源于機(jī)器學(xué)習(xí)領(lǐng)域的聯(lián)邦學(xué)習(xí)技術(shù)等。
多方安全計(jì)算理論由Yao(1982)[2]通過提出并解答著名的“百萬(wàn)富翁問題”而創(chuàng)立。多方安全計(jì)算是一種基于多方數(shù)據(jù)協(xié)同完成計(jì)算目標(biāo),實(shí)現(xiàn)除計(jì)算結(jié)果及其可推導(dǎo)出的信息之外不泄露各方隱私數(shù)據(jù)的密碼技術(shù)[3]。其安全性和和準(zhǔn)確性有密碼學(xué)領(lǐng)域的嚴(yán)格證明,能夠讓多個(gè)參與方的數(shù)據(jù)通過密碼技術(shù)處理后(可以簡(jiǎn)單認(rèn)為是一種“密文”形式)進(jìn)行輸入并協(xié)同計(jì)算一個(gè)指定函數(shù),同時(shí)保證計(jì)算結(jié)果的正確性和輸入數(shù)據(jù)的隱私性。多方安全計(jì)算常采用的技術(shù)包括不經(jīng)意傳輸(Oblivious Transfer,OT)、混淆電路(Garbled Circuit,GC)、秘密分享(Secret Sharing,SS)、零知識(shí)證明(Zero-Knowledge Proof,ZKF)等。
同態(tài)加密(Homomorphic Encryption,HE)由Rivest 等(1978)[4]提出,保證了數(shù)據(jù)在密文上運(yùn)算后解密的結(jié)果和在明文上進(jìn)行對(duì)應(yīng)運(yùn)算的結(jié)果一致。具體來(lái)說,通過使用公鑰pk對(duì)兩個(gè)數(shù)據(jù)x、y加密后產(chǎn)生密文[x]、[y],在密文上進(jìn)行運(yùn)算,比如[x]+[y],也就是求和,得到的密文結(jié)果進(jìn)行解密后與x+y的值保持一致。Goldwasser 和Micali(1982)[5]、Paillier(1999)[6]、Boneh 等(2005)[7]及Gentry(2009)[8]對(duì)同態(tài)加密方案進(jìn)行不斷探討,最終實(shí)現(xiàn)了支持無(wú)限次加法和乘法運(yùn)算的同態(tài)加密方法。后來(lái),一些同態(tài)加密技術(shù),如基于門限的全同態(tài)加密(Threshold Fully Homomorphic Encryption)、基于多比特全同態(tài)加密[9],被用于構(gòu)造多方安全計(jì)算協(xié)議(Asharov,2012)[10]。
可信執(zhí)行環(huán)境的概念源自O(shè)pen Mobile Terminal Platform(OMTP)于2006 年提出的一種保護(hù)移動(dòng)設(shè)備上敏感信息安全的雙系統(tǒng)解決方案[11],在傳統(tǒng)系統(tǒng)運(yùn)行環(huán)境(Rich Execution Environment,REE)之外,提供一個(gè)隔離的安全系統(tǒng)用于處理敏感數(shù)據(jù)。2010 年7 月,Global Platform(致力于安全芯片的跨行業(yè)國(guó)際標(biāo)準(zhǔn)組織,簡(jiǎn)稱GP)起草制定了一整套可信執(zhí)行環(huán)境系統(tǒng)的體系標(biāo)準(zhǔn)[12],成為當(dāng)前許多商業(yè)或開源產(chǎn)品定義其各種功能接口的規(guī)范參考??尚艌?zhí)行環(huán)境的最本質(zhì)屬性是隔離,通過芯片等硬件技術(shù)并與上層軟件協(xié)同對(duì)數(shù)據(jù)進(jìn)行保護(hù),且同時(shí)保留與系統(tǒng)運(yùn)行環(huán)境之間的算力共享。目前,國(guó)際上可信執(zhí)行環(huán)境的代表性硬件產(chǎn)品主要有Intel SGX、ARM TrustZone 等,一些國(guó)內(nèi)廠家也在嘗試提供可信執(zhí)行環(huán)境硬件方案,如兆芯ZX-TCT、海光CSV(ChinaSecurity Virtualization)等。
聯(lián)邦學(xué)習(xí)的本質(zhì)是分布式的機(jī)器學(xué)習(xí),旨在聯(lián)合多方數(shù)據(jù)實(shí)現(xiàn)共同建模,提升模型的效果。2016 年,針對(duì)手機(jī)終端的隱私問題,谷歌公司提出了“聯(lián)邦學(xué)習(xí)”(Federated Learning)算法框架[13]。楊強(qiáng)教授團(tuán)隊(duì)與微眾銀行隨后提出了基于“聯(lián)邦學(xué)習(xí)”的系統(tǒng)性的通用解決方案,可以解決個(gè)人(2C)和公司間(2B)聯(lián)合建模的問題[14]。根據(jù)數(shù)據(jù)集的不同類型,聯(lián)邦學(xué)習(xí)分為橫向聯(lián)邦學(xué)習(xí)(適用于兩個(gè)數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況)、縱向聯(lián)邦學(xué)習(xí)(適用于兩個(gè)數(shù)據(jù)集用戶特征重疊較少,但用戶重疊較多的情況)與聯(lián)邦遷移學(xué)習(xí)(適用于兩個(gè)數(shù)據(jù)集的用戶特征和用戶都重疊較少的情況)等。聯(lián)邦學(xué)習(xí)通常需要結(jié)合多方安全計(jì)算[15]、同態(tài)加密[16]、可信執(zhí)行環(huán)境[17]、差分隱私[18]等安全技術(shù)來(lái)保護(hù)訓(xùn)練過程中被交互的模型信息。
許多數(shù)據(jù)密集型行業(yè)雖然有一定用戶數(shù)據(jù)基礎(chǔ),但僅依賴存量客戶數(shù)據(jù),面臨著數(shù)據(jù)量小、維度不全導(dǎo)致的業(yè)務(wù)精度低下的痛點(diǎn)。對(duì)此,諸多機(jī)構(gòu)近年來(lái)積極探索基于大數(shù)據(jù)、人工智能等的新興技術(shù)方案,希望依托運(yùn)營(yíng)商數(shù)據(jù)提升業(yè)務(wù)發(fā)展水平。然而,數(shù)據(jù)在傳統(tǒng)的明文流通模式中會(huì)暴露信息,易于被復(fù)制并進(jìn)行傳播,再加上數(shù)據(jù)權(quán)屬界定尚不清晰,導(dǎo)致其流通和使用過程難以有效管控。一直以來(lái),由于缺乏數(shù)據(jù)在計(jì)算過程中的隱私保護(hù)技術(shù),數(shù)據(jù)共享的參與機(jī)構(gòu)往往需要通過制定嚴(yán)格的數(shù)據(jù)共享規(guī)范來(lái)約束數(shù)據(jù)使用方式、落實(shí)數(shù)據(jù)保密責(zé)任。而僅依靠管理手段的數(shù)據(jù)安全保護(hù)實(shí)施成本和風(fēng)險(xiǎn)都較高,同時(shí)造成基于跨域數(shù)據(jù)的人工智能、機(jī)器學(xué)習(xí)應(yīng)用難以進(jìn)行,限制了運(yùn)營(yíng)商數(shù)據(jù)對(duì)外賦能的應(yīng)用落地。
2022 年12 月《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》對(duì)外公布,提出“建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營(yíng)權(quán)等分置的產(chǎn)權(quán)運(yùn)行機(jī)制”,以建立基于數(shù)據(jù)價(jià)值流通的數(shù)據(jù)要素共享新模式。數(shù)據(jù)融合應(yīng)用的需求驅(qū)動(dòng)了隱私計(jì)算技術(shù)的創(chuàng)新應(yīng)用。這些技術(shù)基于密碼學(xué)、統(tǒng)計(jì)學(xué)及硬件安全等不同方法,能夠?qū)崿F(xiàn)不同程度上的數(shù)據(jù)“可用不可見”,解決其在流通過程中信息暴露的問題。以多方安全計(jì)算技術(shù)為例,從上述數(shù)據(jù)產(chǎn)權(quán)的角度看,該技術(shù)能夠有效分離數(shù)據(jù)要素的持有權(quán)和使用權(quán),即在數(shù)據(jù)要素持有權(quán)不變的情況下,對(duì)其在特定場(chǎng)景中的使用價(jià)值進(jìn)行流通(如圖1 所示)。這就規(guī)避了數(shù)據(jù)明文流通使用容易帶來(lái)的持有權(quán)變更問題。
圖1 多方安全計(jì)算有效分離數(shù)據(jù)持有權(quán)和使用權(quán)
一些隱私計(jì)算技術(shù)由于涉及數(shù)據(jù)加解密、數(shù)據(jù)密文計(jì)算和通信等過程,其計(jì)算效率有所下降。因此在實(shí)踐中,隱私計(jì)算技術(shù)的應(yīng)用需要綜合考慮隱私保護(hù)程度、數(shù)據(jù)處理量、時(shí)效性等實(shí)際業(yè)務(wù)需求,通過合理的系統(tǒng)架構(gòu)設(shè)計(jì)實(shí)現(xiàn)落地,在保障數(shù)據(jù)安全性和系統(tǒng)可靠性的同時(shí),滿足業(yè)務(wù)對(duì)海量數(shù)據(jù)計(jì)算的性能要求。
數(shù)據(jù)是運(yùn)營(yíng)商的立身之本。江蘇移動(dòng)積累了PB 級(jí)的用戶數(shù)據(jù),包括身份、上網(wǎng)、位置、社交、支出、通信、終端、時(shí)序等多種類型,數(shù)據(jù)實(shí)時(shí)性強(qiáng),準(zhǔn)確性高,具有高保真性,能夠?yàn)榻鹑?、電商等領(lǐng)域相關(guān)業(yè)務(wù)帶來(lái)巨大價(jià)值賦能。
為實(shí)現(xiàn)海量用戶數(shù)據(jù)的安全高效利用,江蘇移動(dòng)深入研究并優(yōu)化隱私計(jì)算理論和應(yīng)用思路,開發(fā)建設(shè)了“AnDFusion安數(shù)聚”(簡(jiǎn)稱“安數(shù)聚”)隱私計(jì)算平臺(tái)。該平臺(tái)建立在企業(yè)的數(shù)據(jù)、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)設(shè)施之上,向上提供保護(hù)用戶隱私的聯(lián)合營(yíng)銷、風(fēng)控、監(jiān)管等業(yè)務(wù)應(yīng)用,其架構(gòu)如圖2所示。平臺(tái)內(nèi)部主要功能模塊包括場(chǎng)景應(yīng)用、應(yīng)用服務(wù)、計(jì)算引擎、數(shù)據(jù)服務(wù)和系統(tǒng)管理,各模塊功能如下:
圖2 安數(shù)聚隱私計(jì)算平臺(tái)功能架構(gòu)
(1)場(chǎng)景應(yīng)用模塊將企業(yè)內(nèi)部以及外部業(yè)務(wù)合作方的多種類型數(shù)據(jù)進(jìn)行安全融合,面向金融、互聯(lián)網(wǎng)等行業(yè)客戶提供聯(lián)合風(fēng)控、聯(lián)合營(yíng)銷、集團(tuán)監(jiān)管等業(yè)務(wù);
(2)應(yīng)用服務(wù)模塊涵蓋從多個(gè)業(yè)務(wù)中抽象出來(lái)的場(chǎng)景能力,包括基于多方數(shù)據(jù)的隱匿查詢、安全求交、聯(lián)合統(tǒng)計(jì)、聯(lián)合建模(聯(lián)邦學(xué)習(xí))等。隱匿查詢是指查詢方隱藏被查詢對(duì)象關(guān)鍵詞,數(shù)據(jù)提供方匹配查詢結(jié)果卻無(wú)法獲知具體對(duì)應(yīng)哪個(gè)查詢對(duì)象,同時(shí)保護(hù)查詢方的查詢意圖和數(shù)據(jù)提供方的數(shù)據(jù);隱私求交是在不泄漏參與方各自原始數(shù)據(jù)的前提下協(xié)同計(jì)算輸出集合的交集,一方或兩方能夠得到交集結(jié)果,但是雙方都無(wú)法獲知交集以外的對(duì)方集合數(shù)據(jù)的任何信息,實(shí)現(xiàn)保護(hù)隱私安全的數(shù)據(jù)求交;聯(lián)合統(tǒng)計(jì)是在保護(hù)各方數(shù)據(jù)的前提下,利用多方數(shù)據(jù)聯(lián)合統(tǒng)計(jì)分析,只向需求方輸出統(tǒng)計(jì)結(jié)果;聯(lián)合建模為參與方不直接交互原始數(shù)據(jù),但是能得到和明文數(shù)據(jù)匯聚建模相同效果的模型。
(3)計(jì)算引擎模塊包括若干個(gè)通過網(wǎng)絡(luò)互連的計(jì)算節(jié)點(diǎn),各個(gè)計(jì)算節(jié)點(diǎn)之間通過安全通信方式實(shí)現(xiàn)互聯(lián)互通,對(duì)外提供密文計(jì)算接口,按照多方安全加密協(xié)議在計(jì)算節(jié)點(diǎn)之間實(shí)現(xiàn)密文計(jì)算。加密協(xié)議主要負(fù)責(zé)密文計(jì)算任務(wù)的執(zhí)行,提供多方安全計(jì)算協(xié)議,包括秘密分享、混淆電路、同態(tài)加密、不經(jīng)意傳輸?shù)?。同時(shí)平臺(tái)提供多方計(jì)算的密文函數(shù)庫(kù)和算法庫(kù),支持編寫類Python 代碼,實(shí)現(xiàn)類Python 的科學(xué)計(jì)算函數(shù)庫(kù)(Numpy),深度學(xué)習(xí)函數(shù)庫(kù)(Pytorch),機(jī)器學(xué)習(xí)算法庫(kù)(Pai)等函數(shù)庫(kù),上層應(yīng)用可基于多方計(jì)算密文函數(shù)庫(kù)和算法庫(kù)靈活定義應(yīng)用算法,滿足不同應(yīng)用場(chǎng)景的多方數(shù)據(jù)計(jì)算需求。
(4)數(shù)據(jù)服務(wù)模塊負(fù)責(zé)對(duì)接用戶的數(shù)據(jù)源和明文計(jì)算服務(wù),支持接入多種數(shù)據(jù)源、多種數(shù)據(jù)類型,并與本地明文計(jì)算服務(wù)對(duì)接進(jìn)行預(yù)處理和本地計(jì)算。數(shù)據(jù)接入后形成數(shù)據(jù)目錄根據(jù)權(quán)限進(jìn)行發(fā)布管理和使用授權(quán),在計(jì)算過程中對(duì)提供的數(shù)據(jù)加密后發(fā)送給計(jì)算引擎進(jìn)行計(jì)算,計(jì)算完成后從計(jì)算引擎獲取密文結(jié)果進(jìn)行解密。
(5)系統(tǒng)管理模塊包括任務(wù)管理、用戶管理、證書管理、配置管理、資源管理和日志管理等,為安數(shù)聚平臺(tái)提供基礎(chǔ)服務(wù)功能;負(fù)責(zé)整體計(jì)算資源的管理,計(jì)算任務(wù)管理和調(diào)度功能,驅(qū)動(dòng)數(shù)據(jù)接入和計(jì)算引擎進(jìn)行相應(yīng)工作;并根據(jù)數(shù)據(jù)的隱私性要求以及任務(wù)的實(shí)際情況靈活進(jìn)行明文計(jì)算以及密文計(jì)算,對(duì)計(jì)算任務(wù)和計(jì)算資源進(jìn)行有效組織、劃分和調(diào)度,在保證數(shù)據(jù)隱私性的前提下最大限度的提升計(jì)算效率。
安數(shù)聚平臺(tái)基于微服務(wù)技術(shù)架構(gòu),實(shí)現(xiàn)系統(tǒng)功能靈活組裝。通過數(shù)據(jù)、算法和算力的解耦,平臺(tái)能夠支持每個(gè)參與方在系統(tǒng)運(yùn)行過程中動(dòng)態(tài)地接入或退出平臺(tái),適配實(shí)時(shí)任務(wù)數(shù)量變化動(dòng)態(tài)擴(kuò)展,具有非常高的可伸縮性,滿足不同參與角色的價(jià)值需求。
平臺(tái)根據(jù)參與方間的關(guān)系,如數(shù)據(jù)提供方和計(jì)算方是否重疊、是否有獨(dú)立的調(diào)度方,靈活提供點(diǎn)對(duì)點(diǎn)對(duì)等模式、統(tǒng)一控制模式和代理計(jì)算模式三種部署模式(如圖3 所示)。三種部署方式既可以獨(dú)立部署,又可以混合部署。參與方可以根據(jù)多方計(jì)算的實(shí)際運(yùn)營(yíng)要求進(jìn)行選擇或組合,以點(diǎn)對(duì)點(diǎn)部署模式為主實(shí)現(xiàn)去中心化運(yùn)營(yíng),以統(tǒng)一控制部署模式為主實(shí)現(xiàn)中心調(diào)度,以代理計(jì)算模式為主實(shí)現(xiàn)集中式運(yùn)營(yíng)。
圖3 安數(shù)聚隱私計(jì)算平臺(tái)部署架構(gòu)
(1)點(diǎn)對(duì)點(diǎn)模式一般適合兩方計(jì)算的場(chǎng)景,兩個(gè)參與方各自在本地部署一套對(duì)等的多方計(jì)算平臺(tái),各自有完整的控制面,任何一方都可以獨(dú)立運(yùn)行。該模式中,多方計(jì)算的兩方同時(shí)扮演任務(wù)調(diào)度方、數(shù)據(jù)提供方和計(jì)算方,并由其中一方發(fā)起多方計(jì)算任務(wù)。需要完成多方計(jì)算任務(wù)時(shí),通過控制面配置參與兩方為對(duì)等關(guān)系,協(xié)調(diào)調(diào)度兩方的計(jì)算資源以及數(shù)據(jù)資源,實(shí)現(xiàn)多方計(jì)算。
(2)統(tǒng)一控制模式在點(diǎn)對(duì)點(diǎn)模式的基礎(chǔ)上增加一個(gè)統(tǒng)一控制面,一般存在一個(gè)主動(dòng)建設(shè)方部署該控制面,實(shí)現(xiàn)對(duì)所有參與方統(tǒng)一任務(wù)管理與調(diào)度。該模式中,多方計(jì)算的各實(shí)例都同時(shí)扮演任務(wù)數(shù)據(jù)提供方和計(jì)算方,而調(diào)度方則獨(dú)立部署,統(tǒng)一調(diào)度各方資源并發(fā)起多方計(jì)算任務(wù)。統(tǒng)一控制模式便于各個(gè)參與方的數(shù)據(jù)資源、計(jì)算資源的共享與發(fā)現(xiàn),以及多個(gè)參與方的任務(wù)管理與調(diào)度,因此其易于支持超過兩方的多方計(jì)算任務(wù),也可靈活的實(shí)現(xiàn)參與方的新增與移除。
(3)代理計(jì)算模式將密文計(jì)算的資源從各個(gè)參與方的部署環(huán)境中獨(dú)立出來(lái),各參與方本地只進(jìn)行數(shù)據(jù)加解密,不直接參與密文計(jì)算。該模式中,多方計(jì)算的各實(shí)例扮演任務(wù)數(shù)據(jù)提供方,而計(jì)算方和調(diào)度方則獨(dú)立部署,發(fā)起多方計(jì)算任務(wù)并調(diào)度各方資源,同時(shí)執(zhí)行密文計(jì)算任務(wù)。這種將密文計(jì)算過程放到獨(dú)立資源池中進(jìn)行的模式,簡(jiǎn)化了對(duì)各個(gè)參與方的部署要求,并實(shí)現(xiàn)了密文計(jì)算資源的共享。此模式適合集團(tuán)公司部署場(chǎng)景,在集團(tuán)公司總部部署密文計(jì)算資源池以及統(tǒng)一的控制面,從而實(shí)現(xiàn)對(duì)整體平臺(tái)的管控,快速構(gòu)建共享的多方計(jì)算平臺(tái)。
安全是隱私計(jì)算平臺(tái)的根本,安數(shù)聚平臺(tái)遵照系統(tǒng)通用安全設(shè)計(jì)要求和行業(yè)隱私技術(shù)應(yīng)用規(guī)范,從通信安全、存儲(chǔ)安全、數(shù)據(jù)隱私安全、計(jì)算過程安全等多個(gè)方面,提供了可靠的安全技術(shù)方法,支撐整個(gè)平臺(tái)的應(yīng)用安全,如圖4 所示。
圖4 安數(shù)聚隱私計(jì)算平臺(tái)安全架構(gòu)
系統(tǒng)通用安全參考了網(wǎng)絡(luò)安全等級(jí)保護(hù)中的相關(guān)要求,這些安全要求在一般信息系統(tǒng)中都會(huì)使用,這里不做詳細(xì)展開(比如其中涉及大量的安全管理方面的內(nèi)容),僅對(duì)圖4 中抽取的計(jì)算環(huán)境安全中的重要部分進(jìn)行說明。
(1)通信安全:平臺(tái)各參與方之間通信的安全協(xié)議參照SSL 協(xié)議進(jìn)行實(shí)現(xiàn),SSL 協(xié)議符合標(biāo)準(zhǔn)《GM/T 0024-2014 SSL VPN 技術(shù)規(guī)范》。各參與方都需要持有具有相同信任根的證書鏈,使用證書鏈建立SSL 安全通道,在建立安全通道前會(huì)進(jìn)行雙向認(rèn)證,確定對(duì)方身份。安全通道通過密鑰交換技術(shù)產(chǎn)生雙方共享的傳輸保護(hù)密鑰,對(duì)傳輸數(shù)據(jù)進(jìn)行機(jī)密性、完整性保護(hù)和驗(yàn)證,可以避免因傳輸協(xié)議受到攻擊而出現(xiàn)信息被竊取或篡改等風(fēng)險(xiǎn)。在出現(xiàn)通信延時(shí)、中斷等情況時(shí),采用超時(shí)重試機(jī)制完成安全通信通道的恢復(fù),當(dāng)檢測(cè)到數(shù)據(jù)完整性被破壞時(shí),會(huì)中斷此次通信,并重試。
(2)存儲(chǔ)安全:平臺(tái)對(duì)一些重要、敏感數(shù)據(jù)(比如業(yè)務(wù)數(shù)據(jù)、個(gè)人信息相關(guān)的數(shù)據(jù)等)在存儲(chǔ)時(shí)進(jìn)行機(jī)密性和完整性保護(hù),防止被竊取和篡改。
一些常見的技術(shù)類型,比如身份認(rèn)證、訪問控制、數(shù)據(jù)加密、數(shù)字簽名等,其中底層的標(biāo)準(zhǔn)密碼算法(如SM 系列)也會(huì)被這些技術(shù)所依賴。
毫無(wú)疑問,系統(tǒng)通用安全是隱私計(jì)算過程安全和平臺(tái)應(yīng)用安全的重要保障。而隱私計(jì)算過程安全是整個(gè)隱私計(jì)算平臺(tái)的安全核心所在,其包括數(shù)據(jù)隱私安全和數(shù)據(jù)使用安全兩個(gè)重要方面。
(3)數(shù)據(jù)隱私安全:包括原始輸入數(shù)據(jù)的隱私安全以及計(jì)算結(jié)果的隱私安全。平臺(tái)的每個(gè)數(shù)據(jù)提供方都在任務(wù)開始時(shí)將原始數(shù)據(jù)加密后發(fā)給計(jì)算引擎,在整個(gè)計(jì)算過程中都以加密的方式存在于計(jì)算引擎中,在計(jì)算結(jié)束后,結(jié)果以密文形式發(fā)送至結(jié)果接收方環(huán)境,結(jié)果接收方在本地進(jìn)行解密(其本地環(huán)境包含一個(gè)數(shù)據(jù)解密模塊),轉(zhuǎn)換為結(jié)果明文。結(jié)果解密機(jī)制能夠保證當(dāng)結(jié)果密文進(jìn)入接收方環(huán)境之后再進(jìn)行解密。結(jié)果僅能由指定的結(jié)果方取走。因此整個(gè)計(jì)算過程中,數(shù)據(jù)節(jié)點(diǎn)是看不到中間數(shù)據(jù)的,結(jié)束后也看不到其他參與方拿到的結(jié)果。獲取結(jié)果的參與方也無(wú)法獲得除結(jié)果外的其他信息。安數(shù)聚隱私計(jì)算平臺(tái)采用多方安全計(jì)算(MPC)協(xié)議,該協(xié)議具有嚴(yán)格的密碼學(xué)理論證明,能夠保證整個(gè)計(jì)算過程中數(shù)據(jù)的隱私安全。
(4)數(shù)據(jù)使用安全:包括數(shù)據(jù)授權(quán)使用以及使用過程可追溯。數(shù)據(jù)提供方能夠?qū)ψ陨頂?shù)據(jù)的用法(即運(yùn)行在什么算法上)、用量(使用多少次、使用期限等)進(jìn)行授權(quán),只有經(jīng)過授權(quán)的數(shù)據(jù)才能被輸入運(yùn)行。由于隱私計(jì)算過程中“數(shù)據(jù)不可見”,因此需要對(duì)數(shù)據(jù)濫用、違規(guī)使用等情況具備過程追溯能力。安數(shù)聚隱私計(jì)算平臺(tái)通過計(jì)算合約技術(shù),將數(shù)據(jù)用法、用量記入合約,并通過相關(guān)方簽名生效,在計(jì)算過程中嚴(yán)格核驗(yàn),保證數(shù)據(jù)在授權(quán)范圍內(nèi)使用,并按月將相關(guān)信息上傳到業(yè)務(wù)存證平臺(tái),以備相關(guān)監(jiān)控審計(jì)使用。
在系統(tǒng)通用安全和計(jì)算過程安全的雙重保重下,安數(shù)聚隱私計(jì)算平臺(tái)采用無(wú)安全漏洞、知識(shí)產(chǎn)權(quán)明確、自主可控的應(yīng)用類算法對(duì)外提供應(yīng)用服務(wù)。
本方案采用密碼算法改進(jìn)、系統(tǒng)架構(gòu)優(yōu)化和軟硬件結(jié)合等理論和工程化創(chuàng)新手段,使得平臺(tái)在保障數(shù)據(jù)安全性的同時(shí),具備計(jì)算高性能、場(chǎng)景可通用、數(shù)據(jù)規(guī)模和算力易擴(kuò)展、平臺(tái)高可用等特點(diǎn),能夠支持跨機(jī)構(gòu)及跨行業(yè)的數(shù)據(jù)交換、聯(lián)合建模及聯(lián)合統(tǒng)計(jì)等通用功能。具體地,安數(shù)聚隱私計(jì)算平臺(tái)采用算法、算力和數(shù)據(jù)層層解耦合的部署架構(gòu),此架構(gòu)實(shí)現(xiàn)的平臺(tái)優(yōu)勢(shì)如下:
(1)計(jì)算性能高:通過優(yōu)化應(yīng)用層面算法設(shè)計(jì),對(duì)消耗資源較多的密文模塊進(jìn)行分析,從而設(shè)計(jì)出針對(duì)密文算法有效的優(yōu)化方式;同時(shí),在計(jì)算引擎層面,通過算法邏輯分析解構(gòu)明文本地計(jì)算和密文交互計(jì)算,實(shí)現(xiàn)明密文混合計(jì)算,最大程度優(yōu)化計(jì)算效率;支持在數(shù)據(jù)標(biāo)簽保密的情況下達(dá)到亞秒級(jí)模型預(yù)測(cè);同時(shí)在接入端側(cè)使用專用半同態(tài)加速芯片,模冪性能達(dá)到9 萬(wàn)次/秒,約等于1000 核CPU;另外,通過優(yōu)化計(jì)算并行度,實(shí)現(xiàn)對(duì)CPU、網(wǎng)絡(luò)帶寬等計(jì)算資源的有效利用。例如,密碼學(xué)層面提高加解密模塊的并行度,使得CPU 達(dá)到最大使用率。算法層面實(shí)現(xiàn)任務(wù)并行,例如可以按數(shù)據(jù)集特征或樣本批次,將算法劃分為多個(gè)子任務(wù),以實(shí)現(xiàn)線程或進(jìn)程級(jí)別的并行。調(diào)度層面進(jìn)行優(yōu)化,以保證各個(gè)參與方都可以最大程度參與到任務(wù)中,減少因調(diào)度問題造成的資源閑置。
(2)場(chǎng)景通用性強(qiáng):底層密文算法模塊綜合運(yùn)用同態(tài)加密、秘密分享、不經(jīng)意傳輸?shù)让艽a學(xué)協(xié)議,構(gòu)造通用密文計(jì)算;在此基礎(chǔ)上構(gòu)造高通用性密文算子庫(kù),包括400 余個(gè)函數(shù)和200 余個(gè)建模算法,實(shí)現(xiàn)隱匿查詢、安全求交、聯(lián)合統(tǒng)計(jì)、聯(lián)合建模等多種應(yīng)用服務(wù)功能,可面向客戶畫像、聯(lián)合風(fēng)控等通用性業(yè)務(wù)場(chǎng)景,在客戶現(xiàn)場(chǎng)定制開發(fā)業(yè)務(wù),縮短app 上線時(shí)間,獲得市場(chǎng)先發(fā)優(yōu)勢(shì)。
(3)參與方易擴(kuò)展:平臺(tái)支持從兩方到任意數(shù)據(jù)參與方的動(dòng)態(tài)加入,支持多種部署方式,如計(jì)算引擎與數(shù)據(jù)接入既可一起部署或分開部署,系統(tǒng)管理可以部署在一方也可以部署在多方。靈活的部署方式和豐富的場(chǎng)景能力可以廣泛滿足多個(gè)參與方對(duì)于聯(lián)合統(tǒng)計(jì)、計(jì)算、AI 建模等業(yè)務(wù)場(chǎng)景需求。
(4)支持海量數(shù)據(jù)集建模:最大可支持百億級(jí)建模(行數(shù)乘以列數(shù))。
(5)安全性強(qiáng):平臺(tái)兼顧全方位、多維度的數(shù)據(jù)安全設(shè)計(jì);支持高安全等級(jí)建模,如基于多方安全計(jì)算技術(shù)進(jìn)行純密文建模和預(yù)測(cè),對(duì)算法、交集、模型、衍生變量、標(biāo)簽可提供高級(jí)別保護(hù),支持聯(lián)合預(yù)測(cè)時(shí)對(duì)ID 進(jìn)行隱匿等;
(6)多種建模架構(gòu)可選:參與方可靈活選擇多方安全計(jì)算純密文建?;蚵?lián)邦建模(明密文混合計(jì)算);
(7)平臺(tái)架構(gòu)高可用:支持系統(tǒng)級(jí)的兩地三中心部署架構(gòu);支持節(jié)點(diǎn)級(jí)的雙活和負(fù)載均衡。
電商行業(yè)近年來(lái)迫于新業(yè)務(wù)增長(zhǎng)壓力和客戶需求變化,亟待通過隱私計(jì)算技術(shù)實(shí)現(xiàn)與運(yùn)營(yíng)商數(shù)據(jù)的安全融合計(jì)算,根據(jù)運(yùn)營(yíng)商數(shù)據(jù)中的用戶通信及消費(fèi)特征補(bǔ)全自身用戶畫像,并進(jìn)一步進(jìn)行分析篩選,提升精準(zhǔn)獲客營(yíng)銷能力,同時(shí)降低新客拓展成本,實(shí)現(xiàn)運(yùn)營(yíng)商數(shù)據(jù)賦能業(yè)務(wù)提質(zhì)增效。
電商平臺(tái)作為建模需求方,江蘇移動(dòng)作為數(shù)據(jù)提供方,共同基于安數(shù)聚隱私計(jì)算平臺(tái)進(jìn)行聯(lián)合建模,共享數(shù)據(jù)應(yīng)用價(jià)值。聯(lián)合模型充分利用江蘇移動(dòng)的大數(shù)據(jù)優(yōu)勢(shì)和電商平臺(tái)行業(yè)經(jīng)驗(yàn),有效識(shí)別潛在高價(jià)值用戶,定點(diǎn)投放,提升營(yíng)銷回報(bào)。
江蘇移動(dòng)與電商平臺(tái)應(yīng)用安數(shù)聚隱私計(jì)算平臺(tái)的模型訓(xùn)練業(yè)務(wù)流程分五個(gè)階段。
(1)算法準(zhǔn)備:電商平臺(tái)導(dǎo)入算法。
(2)求交數(shù)據(jù)準(zhǔn)備:電商平臺(tái)和江蘇移動(dòng)準(zhǔn)備雙方的求交數(shù)據(jù)集,創(chuàng)建并且發(fā)布數(shù)據(jù)集。江蘇移動(dòng)提供7000 萬(wàn)條全量數(shù)據(jù),數(shù)據(jù)字段包括手機(jī)號(hào)MD5 值(ID 列),用于求交;電商平臺(tái)提供10 萬(wàn)條訓(xùn)練數(shù)據(jù),數(shù)據(jù)字段包括手機(jī)號(hào)MD5值(ID 列)、label(y 列)、用戶平臺(tái)訪問及消費(fèi)信息等195個(gè)特征列。
(3)安全求交:電商平臺(tái)創(chuàng)建安全求交合約后提交審批;江蘇移動(dòng)審批后,電商平臺(tái)執(zhí)行求交任務(wù),得到交集手機(jī)號(hào)MD5 值、label(y 列)和195 個(gè)特征列;江蘇移動(dòng)得到交集手機(jī)號(hào)MD5 值。
(4)訓(xùn)練數(shù)據(jù)準(zhǔn)備:電商平臺(tái)將求交結(jié)果文件發(fā)布為訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)字段包含手機(jī)號(hào)MD5 值(ID 列)、label(y 列)、用戶平臺(tái)訪問及消費(fèi)信息等195 個(gè)特征列;同時(shí),江蘇移動(dòng)基于求交結(jié)果補(bǔ)充特征數(shù)據(jù)后在平臺(tái)發(fā)布訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)字段包括手機(jī)號(hào)MD5 值(ID)、用戶通話及流量使用行為信息等271 個(gè)特征列。
(5)模型訓(xùn)練:電商平臺(tái)作為建模發(fā)起方,創(chuàng)建縱向邏輯回歸算法訓(xùn)練合約,江蘇移動(dòng)審批通過后,電商平臺(tái)執(zhí)行模型訓(xùn)練任務(wù),進(jìn)行模型訓(xùn)練和模型評(píng)估,模型訓(xùn)練成功后發(fā)布在電商平臺(tái)和江蘇移動(dòng)兩方,存儲(chǔ)在雙方各自的服務(wù)器路徑中。
經(jīng)驗(yàn)證,江蘇移動(dòng)與電商平臺(tái)聯(lián)合建立的模型AUC 值≥0.8,其準(zhǔn)確性較常規(guī)建模提高近40%,相關(guān)建模耗時(shí)如表1所示。
表1 基于安數(shù)聚隱私計(jì)算平臺(tái)的聯(lián)合建模任務(wù)耗時(shí)
面對(duì)各行各業(yè)廣泛多樣的數(shù)據(jù)融合應(yīng)用需求,運(yùn)營(yíng)商數(shù)據(jù)在不同領(lǐng)域的業(yè)務(wù)場(chǎng)景均有廣闊應(yīng)用空間。在如供應(yīng)鏈金融等諸多體系內(nèi),通信運(yùn)營(yíng)商作為支持性機(jī)構(gòu),沉淀的企業(yè)、個(gè)人等不同主體的行為等數(shù)據(jù)能夠作為銀行評(píng)判客戶風(fēng)險(xiǎn)的補(bǔ)充信息,助力提升銀行信貸融資服務(wù)水平,對(duì)于促進(jìn)國(guó)家普惠金融健康發(fā)展、助推實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展具有重要意義。
展望未來(lái),大數(shù)據(jù)與實(shí)體產(chǎn)業(yè)深度融合將具有可觀的市場(chǎng)空間和前景。江蘇移動(dòng)基于多樣場(chǎng)景下的數(shù)據(jù)流通實(shí)踐,與合作伙伴協(xié)同建立數(shù)據(jù)生態(tài),進(jìn)一步支撐大數(shù)據(jù)和人工智能等新興技術(shù)應(yīng)用,形成廣泛的價(jià)值鏈閉環(huán),促進(jìn)從“內(nèi)部服務(wù)”向“外部鏈接、構(gòu)建生態(tài)”轉(zhuǎn)型,實(shí)現(xiàn)數(shù)據(jù)生態(tài)真正轉(zhuǎn)變?yōu)闃I(yè)務(wù)價(jià)值,推動(dòng)我國(guó)產(chǎn)業(yè)優(yōu)化升級(jí)、形成高質(zhì)量發(fā)展新格局。