強鋒薛雨杉相妹
(中國工商銀行軟件開發(fā)中心,上海 200100)
對于銀行、保險、信托券商等金融領(lǐng)域企業(yè),有大量和外部開展數(shù)據(jù)共享交易的業(yè)務(wù)需求,數(shù)據(jù)流通對金融業(yè)的業(yè)務(wù)有著極為重要的價值。近年來,數(shù)據(jù)泄露事件頻發(fā),明確數(shù)據(jù)的所有權(quán),并將所有權(quán)與使用權(quán)進行分離,成為開展普遍數(shù)據(jù)流通業(yè)務(wù)的前提[1]。如何從最底層的技術(shù)手段,將數(shù)據(jù)的所有權(quán)和使用權(quán)進行分離,從源頭保證數(shù)據(jù)協(xié)作的合規(guī)性,能夠真正做到數(shù)據(jù)的“可用不可得、可用不可見、可用不可擁”[2],在旺盛的業(yè)務(wù)需求面前成為最大的挑戰(zhàn)。在眾多學(xué)術(shù)界和工業(yè)界的嘗試中,隱私計算(Privacy Preserving Computing)技術(shù)被日益關(guān)注。對于數(shù)據(jù)及隱私保護問題,隱私計算通過綜合密碼學(xué)、統(tǒng)計學(xué)等基礎(chǔ)學(xué)科理論及工程優(yōu)化實現(xiàn),可以有針對地解決目前數(shù)據(jù)協(xié)作中所遇到的各項技術(shù)挑戰(zhàn)。本文將對數(shù)據(jù)流通相關(guān)的法律法規(guī)進行梳理,并結(jié)合隱私計算原理及其具體應(yīng)用場景,對隱私計算在金融領(lǐng)域的合規(guī)性進行分析和研究,最后給出隱私計算相關(guān)技術(shù)落地過程的建議。
目前,各國對于數(shù)據(jù)流通、協(xié)作等方面的立法正逐步完善[3-4]。2018年歐盟委員會《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)、2020年美國《加州消費者隱私法案》(California Consumer Privacy Act,CCPA)明確了個人數(shù)據(jù)可應(yīng)用的范圍及應(yīng)用中用戶的知悉權(quán)[5];在發(fā)展中國家,印度、巴西等國也已為個人信息保護立法;我國也相繼出臺了《數(shù)據(jù)安全法(草案)》《個人信息保護法(草案)》等法律法規(guī)。另外,在我國最新通過的《民法典》《網(wǎng)絡(luò)安全法》中,對個人信息傳輸和使用過程中的安全問題都提出了明確的要求。由此可見,數(shù)據(jù)安全、個人隱私保護的法制化已邁向全方位的階段[6]。
金融領(lǐng)域在個人信息保護的立法和實踐已實行多年[7]。在《中華人民共和國中國人民銀行法》《中華人民共和國商業(yè)銀行法》《中華人民共和國證券法》《中華人民共和國保險法》中,均明確提出了保護個人金融信息的要求[8]。金融標準化技術(shù)委員會也于2020年2月推出了《個人金融信息保護技術(shù)規(guī)范》(簡稱《規(guī)范》)[9]?!兑?guī)范》對個人金融信息全生命周期(收集、傳輸、存儲、使用、刪除、銷毀等各環(huán)節(jié))的保護措施提出了安全防護要求,包括事先告知金融數(shù)據(jù)主體共享或轉(zhuǎn)讓其金融數(shù)據(jù)的目的,并已征得主體同意;對數(shù)據(jù)進行去標識化處理,且確保數(shù)據(jù)接收方無法復(fù)原并重新識別數(shù)據(jù)主體[10-11]。同時,根據(jù)金融產(chǎn)品或服務(wù)的需要,將收集的個人金融信息委托給第三方機構(gòu)(包含外包服務(wù)機構(gòu)與外部合作機構(gòu))處理的情況,對第三方機構(gòu)等受委托者也提出了明確的要求:委托處理的信息應(yīng)采用去標識化(不應(yīng)僅使用加密技術(shù))等方式進行脫敏處理;對委托行為進行個人金融信息安全影響評估,并確保受委托者具備足夠的數(shù)據(jù)安全能力,且提供了足夠的安全保護措施[12-15]。
通過對以上法律法規(guī)的總結(jié),可以發(fā)現(xiàn):個人信息數(shù)據(jù)的共享、開放、交易,應(yīng)遵循數(shù)據(jù)“不可還原”“不可重標識”的基本原則;對已授權(quán)數(shù)據(jù)或無需授權(quán)數(shù)據(jù)的使用合規(guī)性,相關(guān)的法律法規(guī)及技術(shù)規(guī)范明確要求了數(shù)據(jù)協(xié)作過程涉及的各個環(huán)節(jié),各參與方需要承擔相應(yīng)的職責。
隱私計算技術(shù)主要分為聯(lián)邦學(xué)習(Federated Learning)、多方安全計算(Secure Muti-Party Computation)、同態(tài)加密(Homomorphic Encryption)及差分隱私(Differential Privacy)4個主要方向。雖然這4種技術(shù)原理不同,但是對于“可用不擁”“不可還原”“不可重標識”的合規(guī)性要求,均具有天然的契合優(yōu)勢。
聯(lián)邦學(xué)習是指多個參與方在互不公開原始數(shù)據(jù)的前提下,通過傳輸加密的梯度參數(shù)等模型訓(xùn)練中間參數(shù),共同訓(xùn)練AI模型的技術(shù),實現(xiàn)同時使用但不泄露各方數(shù)據(jù),將各方數(shù)據(jù)價值最大化利用。聯(lián)邦學(xué)習是機器學(xué)習技術(shù)和多種隱私保護技術(shù)的有機結(jié)合,包括多方安全計算、差分隱私等。按照參與方之間的數(shù)據(jù)特點,聯(lián)邦學(xué)習可以分為橫向聯(lián)邦學(xué)習、縱向聯(lián)邦學(xué)習和聯(lián)邦遷移學(xué)習(見圖1)[16-17]。
圖1 聯(lián)邦學(xué)習分類示意圖
與直接匯集各參與方數(shù)據(jù)進行建模的技術(shù)方案相比,聯(lián)邦學(xué)習避免了原始數(shù)據(jù)的傳輸,并對模型訓(xùn)練和推理過程中的參數(shù)進行保護和控制,從根本上保證數(shù)據(jù)的“可用不擁”“不可還原”“不可重標識”,從而滿足各項法律法規(guī)對合規(guī)性的要求。
多方安全計算是密碼學(xué)的重要分支,通過一系列經(jīng)過嚴格證明的密碼學(xué)協(xié)議(如秘密共享、不經(jīng)意傳輸?shù)?,實現(xiàn)了互不信任的多個參與方在不泄露自身原始數(shù)據(jù)的前提下,得到準確的計算結(jié)果。
在通過多方安全計算技術(shù)處理數(shù)據(jù)的過程中,各處理者所能獲取的信息都被限定在了盡可能小的范圍,同時通過對這些信息進行加密,就能從技術(shù)上限定這些信息僅能被用于當前處理的目的,從而滿足監(jiān)管對數(shù)據(jù)要素流通和協(xié)作的合規(guī)性要求。
同態(tài)加密是指滿足密文同態(tài)運算性質(zhì)的加密算法。明文數(shù)據(jù)經(jīng)過同態(tài)加密后,可以基于得到的密文進行特定的計算。密文計算的結(jié)果通過解密,等同于明文數(shù)據(jù)直接計算的結(jié)果,實現(xiàn)數(shù)據(jù)的“可算不可見”(見圖2)。
圖2 同態(tài)加密示意圖
同態(tài)加密技術(shù)可以避免數(shù)據(jù)處理者接觸明文數(shù)據(jù),與“可用不擁”“不可還原”“不可重標識”的合規(guī)性要求相通,同樣能夠避免數(shù)據(jù)泄露的現(xiàn)實風險。
差分隱私是一種通過對原始數(shù)據(jù)加入噪聲,在損失部分數(shù)據(jù)精度的前提下保護數(shù)據(jù)隱私的技術(shù)。最早由Dwork在2006年提出[18],是針對統(tǒng)計數(shù)據(jù)庫的隱私泄露問題的一種隱私保護技術(shù)。在這個場景下,差分隱私技術(shù)能最大限度減少個體被識別的機會,同時有效控制對計算結(jié)果的影響。差分隱私不僅僅被應(yīng)用到統(tǒng)計數(shù)據(jù)庫安全領(lǐng)域,也被廣泛應(yīng)用于數(shù)據(jù)隱私發(fā)布與數(shù)據(jù)隱私挖掘中。通過對差分隱私技術(shù)進行相關(guān)的本地化工程實踐,并對需要進行聯(lián)合建模的數(shù)據(jù)進行安全處理,差分隱私技術(shù)也能夠保護特定用戶的隱私信息不被泄露。
在利用隱私計算技術(shù)完成場景建設(shè)時,通常會根據(jù)不同場景的需求和合規(guī)性要求,綜合利用多種隱私計算技術(shù)實現(xiàn)數(shù)據(jù)聯(lián)合應(yīng)用合規(guī)。
金融領(lǐng)域的數(shù)據(jù)共享交易,在數(shù)據(jù)安全及應(yīng)用合規(guī)性的保障,以往只能通過法務(wù)及商務(wù)上的約定。當數(shù)據(jù)輸出后,數(shù)據(jù)所有方則完全失去了對數(shù)據(jù)的控制,即使在法務(wù)和商務(wù)上具備事先的約定。但是如果出現(xiàn)輸出數(shù)據(jù)被泄露的情況,對于數(shù)據(jù)所有方也會造成無法挽回的損失。
而隱私計算技術(shù),可以做到數(shù)據(jù)的“可用不擁”,即完成雙方約定的計算目標,但雙方原始數(shù)據(jù)均不輸出。實現(xiàn)法律法規(guī)對數(shù)據(jù)協(xié)作過程中的要求,并且在此基礎(chǔ)上,可以為數(shù)據(jù)協(xié)作的各方提供更加安全的數(shù)據(jù)保障。以金融領(lǐng)域的5個常見案例,介紹其具體原理。
信用評分卡模型作為金融業(yè)一項重要的風險控制手段在行業(yè)中被廣泛應(yīng)用?;诼?lián)邦學(xué)習的信用評分卡建模,可以實現(xiàn)銀行和外部數(shù)據(jù)方合作建立申請評分卡。在此場景中,銀行擁有部分特征和標簽,數(shù)據(jù)方擁有部分特征。
首先,利用隱私保護集合求交技術(shù),在雙方不公開各自數(shù)據(jù)的前提下確認共有的交集用戶,不暴露用戶差集。然后,對共有樣本的原始數(shù)據(jù)進行分箱,通過結(jié)合同態(tài)加密,秘密分享等隱私計算技術(shù),計算分箱的證據(jù)權(quán)重值(Weight of Evidence,WOE),解決特征之間量綱化問題。在聯(lián)邦學(xué)習的建模過程中,只能得到群體(如分箱)的統(tǒng)計信息,例如WOE和IV(Information Value,信息價值),但并不暴露任何個人原始數(shù)據(jù)及分箱結(jié)果。并且,在對預(yù)處理后的數(shù)據(jù)進行訓(xùn)練過程中,雙方各自的數(shù)據(jù)均保留在本地。隱私計算技術(shù)以數(shù)據(jù)最小化為原則,將中間梯度通過秘密碎片、加密等形式進行傳遞,保證參與方在整個計算的過程中難以得到除計算結(jié)果之外的額外信息,也難以逆推原始輸入數(shù)據(jù)和隱私信息。在最后模型應(yīng)用的過程中,只獲取由多個特征分箱統(tǒng)計結(jié)果的組合構(gòu)成的預(yù)測違約概率,但無法反推出概率計算的過程和用戶的原始數(shù)據(jù)。
聯(lián)邦信用評分卡建模在整個過程中用到了聯(lián)邦學(xué)習、同態(tài)加密等隱私計算技術(shù),使得用戶個人信息“不可還原”,從而滿足了《規(guī)范》中對于個人金融信息使用時的安全防護要求。
三要素核驗是指通過驗證個人用戶姓名、手機號、身份證三要素是否一致,也是金融領(lǐng)域廣泛應(yīng)用的身份驗證的重要手段。
目前,三要素的實現(xiàn)是由查詢方將待查詢?nèi)说男彰?、手機號、身份證信息以明文方式發(fā)送給數(shù)據(jù)商或中間服務(wù)商,中間服務(wù)商可以通過與數(shù)據(jù)商進行匹配后,將查詢?nèi)厥欠褚恢碌慕Y(jié)果返回給查詢方。在這種操作方式中,由于直接采取明文數(shù)據(jù)傳輸和匹配,會存在兩方面風險:一方面會造成被查詢者的個人信息可以被定位和標識;另一方面企業(yè)查詢清單可能被留存,造成用戶行為及企業(yè)信息泄露。與法規(guī)中對傳輸數(shù)據(jù)“不可被標識”原則相違背。
基于隱私計算的匿蹤要素核驗,通過將雙方數(shù)據(jù)進行“不可被標識”“不可還原”處理,通信運營商僅可以獲取查詢方的查詢次數(shù),但無法獲取用戶的任何查詢條件(要素信息),并實現(xiàn)三要素核驗結(jié)果的返回。
隱私計算技術(shù),避免了用戶的業(yè)務(wù)查詢數(shù)據(jù)被服務(wù)商和中間商獲取,從技術(shù)手段保證了法律法規(guī)中對于個人信息處理“不可被標識”的要求。
在銀行貸中監(jiān)測系統(tǒng)中,銀行信貸客戶經(jīng)理通過使用“貸款客戶不動產(chǎn)信息風險監(jiān)測”模塊,可以對客戶在不動產(chǎn)領(lǐng)域的風險予以監(jiān)測及評估,從而識別優(yōu)質(zhì)的和風險的企業(yè)并給予合理的普惠扶持及監(jiān)控管理。在該場景中,金融機構(gòu)與地方金控集團合作,通過聯(lián)邦學(xué)習引入政務(wù)數(shù)據(jù),可以在確保數(shù)據(jù)隱私的前提下,顯著提升銀行對企業(yè)的貸中監(jiān)測能力。銀行更加全面準確地掌握企業(yè)的實時資產(chǎn)負債水平,對于臨近資不抵債狀態(tài)的企業(yè)實現(xiàn)及時提示預(yù)警,在加強實體經(jīng)濟扶持的同時進一步確保貸款質(zhì)量。
該場景使用隱私集合求交技術(shù)實現(xiàn)樣本對齊,在不泄露雙方交集客戶的前提下,完成雙方共有客戶的篩選工作。然后,通過聯(lián)邦學(xué)習平臺的隱私數(shù)據(jù)探查技術(shù),在不暴露雙方數(shù)據(jù)的前提下,采用雙方特征和銀行機構(gòu)的標簽,共同訓(xùn)練縱向聯(lián)邦的邏輯回歸模型。在整個訓(xùn)練過程中,數(shù)據(jù)不出域也不參與交換。建模完成后模型分片存儲在銀行機構(gòu)和企業(yè)的節(jié)點中。模型的線上推理也是通過隱私計算技術(shù)協(xié)作完成。
在整個過程中,各算法任務(wù)遵從不傳輸原始數(shù)據(jù)的原則,利用聯(lián)邦學(xué)習、多方安全計算等隱私計算技術(shù),確保個體數(shù)據(jù)“不可被還原”,個體ID“不可被標識”,從而使此數(shù)據(jù)合作場景符合《網(wǎng)絡(luò)安全法》及《個人金融信息保護技術(shù)規(guī)范》的法規(guī)要求。
個人風險偏好模型作為個人金融業(yè)務(wù)中較為重要的客戶風險評測參考,在實踐中會結(jié)合客戶的風險測評等級和購買行為進行雙重驗證?;诼?lián)邦學(xué)習的風險偏好預(yù)測模型,可以實現(xiàn)銀行和外部數(shù)據(jù)方合作建立個人風險偏好預(yù)測。在此場景中,銀行擁有部分特征和標簽,其中標簽定義可分為以客戶實際購買產(chǎn)品的風險等級或以客戶測評得到的風險等級為準,分別用于“預(yù)測客戶未來最近一次的風險測評等級”的場景和“預(yù)測客戶在未來3個月內(nèi)購買的產(chǎn)品的最高風險級別”的場景。另外,數(shù)據(jù)方也擁有部分特征。
該場景采用了基于集成樹模型等方法,訓(xùn)練多分類模型;在訓(xùn)練中,雙方原始數(shù)據(jù)均保留在本地,將中間梯度通過加密形式傳遞,實現(xiàn)隱私計算技術(shù)中的數(shù)據(jù)最小化原則,保證各參與方在整個計算過程中難以得到除計算結(jié)果之外的額外信息,也難以逆推原始輸入數(shù)據(jù)和隱私信息。在模型應(yīng)用過程中,獲取由多個特征最優(yōu)分箱結(jié)果的組合,構(gòu)成預(yù)測用戶風險等級的模型,但無法反推出概率計算的過程和用戶原始數(shù)據(jù)。
在該案例中,聯(lián)邦學(xué)習平臺通過采用混淆樣本分箱方案和混淆樣本分裂方案,解決了有標簽一方不想暴露真實標簽的痛點,能夠在雙方數(shù)據(jù)都得到保護的情況下,結(jié)合雙方的數(shù)據(jù)對模型效果進行提升。在建模過程中,對模型訓(xùn)練和推理過程中的參數(shù)進行保護和控制,保證雙方數(shù)據(jù)的“可用不擁”“不可還原”“不可重標識”,避免了數(shù)據(jù)泄露的風險,實現(xiàn)了合法合規(guī)。
隨著不法分子的洗錢手段日趨智能和隱蔽,新的洗錢形式不斷涌現(xiàn),銀行自有數(shù)據(jù)樣本量和豐富度面臨著挑戰(zhàn)。以往的反洗錢模型是基于核實后是否為洗錢客戶的正負樣本標簽以及行內(nèi)樣本數(shù)據(jù)訓(xùn)練二分類模型,并用來評估一筆交易為洗錢案件的概率,對概率較高的交易進行人工核實,發(fā)掘風險名單。通過隱私計算技術(shù),可以合規(guī)引入外部數(shù)據(jù),構(gòu)建更高效的反洗錢模型。
在該場景中,通過使用聯(lián)邦學(xué)習技術(shù)與外部數(shù)據(jù)進行聯(lián)合數(shù)據(jù)建模。在樣本對齊階段,無需傳輸原始用戶信息,而是使用密碼學(xué)算法計算中間掩碼,確保除共有用戶可根據(jù)掩碼匹配外,其余用戶信息不可反推,保護了全量用戶信息。在交集數(shù)據(jù)的基礎(chǔ)上,對雙方變量的IV值、相關(guān)性等指標進行分析,評估外部數(shù)據(jù)對反洗錢聯(lián)邦模型的貢獻和業(yè)務(wù)解釋性。在整個過程中,使用同態(tài)加密等密碼學(xué)技術(shù),不暴露銀行建模標簽和各方數(shù)據(jù)。建模過程使用聯(lián)邦學(xué)習技術(shù),確保數(shù)據(jù)的不出域,僅需傳輸部分同態(tài)加密的梯度和模型參數(shù)等。最后,在模型的應(yīng)用過程中,使用分布在銀行和數(shù)據(jù)提供方的模型聯(lián)合計算,模型預(yù)測結(jié)果在銀行匯總。
在該場景中,聯(lián)邦學(xué)習和多方安全計算技術(shù)的應(yīng)用實現(xiàn)了數(shù)據(jù)深度挖掘的同時也保護了原始數(shù)據(jù)的隱私性,并采用了多項隱私計算技術(shù)確保了合規(guī)要求中對用戶個人信息的保護。
隱私計算技術(shù)最大程度降低了數(shù)據(jù)泄露的風險,但仍存在部分潛在風險。
隱私計算應(yīng)用應(yīng)確保數(shù)據(jù)協(xié)同使用過程中授權(quán)聯(lián)調(diào)的完整性?!秱€人金融信息保護技術(shù)規(guī)范》規(guī)定了“金融業(yè)機構(gòu)應(yīng)遵循合法、正當、必要的原則,向個人金融信息主體明示收集與使用個人金融信息的目的、方式、范圍和規(guī)則等,獲得個人金融信息主體的授權(quán)同意。”由此可見,從個人信息的收集、使用到金融機構(gòu)和其他參與方的協(xié)同使用均需獲得授權(quán)[19]。
從技術(shù)上來說,隱私計算給原來不能融合的數(shù)據(jù)提供了聯(lián)合計算的機會,但在業(yè)務(wù)應(yīng)用的過程中,仍然需要確保用戶授權(quán)鏈條的完整性,即用戶既需要授權(quán)給金融機構(gòu)查詢其外部數(shù)據(jù)的權(quán)限,也需要授權(quán)給數(shù)據(jù)生產(chǎn)方在不泄露隱私的前提下,應(yīng)用和分享其數(shù)據(jù)的權(quán)力。
隱私計算在金融領(lǐng)域的應(yīng)用還屬于初期階段,隱私計算相關(guān)技術(shù)也涉及復(fù)雜的前沿理論知識,開發(fā)、使用門檻較高。因此,在隱私計算相關(guān)技術(shù)的落地過程時有如下建議。
(1)數(shù)據(jù)方應(yīng)該對原始數(shù)據(jù)擁有絕對的控制權(quán)。數(shù)據(jù)是企業(yè)的核心資產(chǎn),同時企業(yè)也是數(shù)據(jù)泄露的責任主體。在沒有數(shù)據(jù)方參與的情況下,要確保其他方無法恢復(fù)數(shù)據(jù)方的原始數(shù)據(jù)。
(2)控制接口調(diào)用次數(shù)和數(shù)據(jù)的用法用量。無限制地調(diào)用接口可能造成隱私信息的泄露,比如無限制調(diào)用預(yù)測接口可能會造成模型參數(shù)或樣本數(shù)據(jù)的泄露;對于支持自定義運算(通用)的場景,也需要對具體的運算進行審核和確認,防止通過不同的運算恢復(fù)原始數(shù)據(jù)。
(3)根據(jù)數(shù)據(jù)敏感程度進行分級管理和保護。例如,《個人金融信息保護技術(shù)規(guī)范(JR/T 0171)》將《工業(yè)數(shù)據(jù)分類分級指南(試行)》等行業(yè)技術(shù)規(guī)范均規(guī)定了信息敏感度的分級分類方法,因此對不同等級的數(shù)據(jù)應(yīng)采用不同級別的安全保護。