關(guān)杏元 王彥博 李曉林 張月
隨著數(shù)字化時代的來臨,大數(shù)據(jù)、人工智能等精尖技術(shù)進入了高速發(fā)展階段。然而,對一些行業(yè)而言,存在數(shù)據(jù)樣本量少、特征少、標注信息缺失、數(shù)據(jù)質(zhì)量差等問題,同時由于相同行業(yè)不同企業(yè)間的競爭以及同一企業(yè)中不同業(yè)務(wù)條線、業(yè)務(wù)系統(tǒng)間的阻隔性等情況,難以實現(xiàn)有效的數(shù)據(jù)信息交流與整合,易造成“數(shù)據(jù)孤島”現(xiàn)象,這使大數(shù)據(jù)、人工智能相關(guān)技術(shù)難以發(fā)揮出預(yù)期的應(yīng)用效果。
當前隱私與數(shù)據(jù)保護已成為全球關(guān)注的焦點,無論是機構(gòu)還是個人都對隱私和數(shù)據(jù)保護越發(fā)重視,政府機構(gòu)也出臺了相關(guān)的法律法規(guī)來保護數(shù)據(jù)安全和隱私。而聯(lián)邦學(xué)習(xí)(Federated Learning)作為一種新興的人工智能技術(shù),能夠在隱私、安全和監(jiān)管的要求下,讓AI系統(tǒng)更加高效、準確地使用數(shù)據(jù),突破小數(shù)據(jù)(數(shù)據(jù)樣本和特征受到制約)和弱監(jiān)督(數(shù)據(jù)標注信息受到制約)等條件約束,實現(xiàn)機器學(xué)習(xí)模型的可用性,為“數(shù)據(jù)孤島”以及“隱私計算”問題提供了解決方案。
聯(lián)邦學(xué)習(xí)的發(fā)展歷程
聯(lián)邦學(xué)習(xí)概念源自Google于2016年為更新Gboard系統(tǒng)的輸入預(yù)測模型而設(shè)計的一個機器學(xué)習(xí)系統(tǒng)。聯(lián)邦學(xué)習(xí)面向的場景是分散式多用戶,每個用戶客戶端擁有當前用戶的數(shù)據(jù)集。傳統(tǒng)的機器學(xué)習(xí)的做法是將這些數(shù)據(jù)收集在一起,得到匯總數(shù)據(jù)集,基于匯總數(shù)據(jù)訓(xùn)練得到模型。聯(lián)邦學(xué)習(xí)方法則是由參與方共同訓(xùn)練得到全局模型,首先各參與方基于自己的本地數(shù)據(jù)訓(xùn)練本地模型,再通過參數(shù)交換和聚合操作,得到全局模型;在該過程中,用戶數(shù)據(jù)始終存儲在本地,不對外發(fā)送,滿足數(shù)據(jù)安全和隱私保護要求。
最初的聯(lián)邦學(xué)習(xí)框架是在機器學(xué)習(xí)本身的技術(shù)層面思考信息流的傳遞,保護原始數(shù)據(jù)不出庫。但聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展,對其提出了增強安全的要求,不僅要求保護原始數(shù)據(jù),同時要求進一步保護中間交互的參數(shù),以此提高系統(tǒng)安全性。通過聯(lián)邦學(xué)習(xí)結(jié)合差分隱私、同態(tài)加密、秘密分享等密碼學(xué)技術(shù)的綜合應(yīng)用,對數(shù)據(jù)隱私實現(xiàn)端到端的閉環(huán)保護。此外,通過對代碼、算法、通信、硬件等方面的優(yōu)化,可提升聯(lián)邦學(xué)習(xí)系統(tǒng)的性能,縮小其與傳統(tǒng)集中式機器學(xué)習(xí)用戶體驗的差距。
發(fā)展至今,聯(lián)邦學(xué)習(xí)技術(shù)逐漸趨于成熟,在業(yè)務(wù)場景得到了較好的嘗試和應(yīng)用。同時,國際和國內(nèi)機構(gòu)也在推動聯(lián)邦學(xué)習(xí)等隱私計算技術(shù)的標準建立。例如,IEEE在2021年3月正式發(fā)布了P3652.1《聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用指南》;3GPP、ISO、ITU-T及中國金融標準化委員會(金標委)等機構(gòu)也組織制定聯(lián)邦學(xué)習(xí)的相關(guān)標準,促進聯(lián)邦學(xué)習(xí)技術(shù)向著更具通用性、可用性、安全性的方向發(fā)展,為聯(lián)邦學(xué)習(xí)技術(shù)生態(tài)發(fā)展奠定了基礎(chǔ)。
聯(lián)邦學(xué)習(xí)的三種模式
聯(lián)邦學(xué)習(xí)面向的場景是多參與方,每個參與方擁有各自的數(shù)據(jù)集。根據(jù)參與方持有數(shù)據(jù)情況的不同,聯(lián)邦學(xué)習(xí)可分為三種模式:橫向聯(lián)邦學(xué)習(xí)(Horizontal Federated Learning)、縱向聯(lián)邦學(xué)習(xí)(Vertical Federated Learning)和聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning)。
橫向聯(lián)邦學(xué)習(xí)
橫向聯(lián)邦學(xué)習(xí)是指在參與聯(lián)合建模的各方之間用戶重疊較少,而用戶特征重疊較多的情況下,通過把各參與方的數(shù)據(jù)集按用戶維度切分,并取出雙方用戶特征相同而用戶不相同的那部分數(shù)據(jù)進行訓(xùn)練。
在金融場景中,橫向聯(lián)邦學(xué)習(xí)適用于金融機構(gòu)間的聯(lián)合建模,即參與方之間業(yè)務(wù)場景相似,用戶特征相同,而用戶群體交集較小的場景。例如,兩家不同地區(qū)的銀行機構(gòu),它們的用戶群體相互交集很小,但是它們的業(yè)務(wù)很相似,因此用戶特征是相同的;但由于某些特定業(yè)務(wù)場景,如小微企業(yè)信貸等,各參與方可使用的建模樣本均較少,因而難以各自采用傳統(tǒng)機器學(xué)習(xí)算法構(gòu)建模型,在這種情況下,可以通過橫向聯(lián)邦學(xué)習(xí)來聯(lián)合使用多個不同機構(gòu)間的樣本數(shù)據(jù),擴大模型訓(xùn)練的樣本空間,從而構(gòu)建更準確、泛化能力更好的模型。
縱向聯(lián)邦學(xué)習(xí)
縱向聯(lián)邦學(xué)習(xí)是指在參與聯(lián)合建模各方數(shù)據(jù)集的用戶重疊較多,而用戶特征重疊較少的情況下,通過把數(shù)據(jù)集按照特征維度切分,并取出雙方用戶相同而用戶特征不相同的那部分數(shù)據(jù)進行訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)往往用以解決一方數(shù)據(jù)維度過少,僅用一方數(shù)據(jù)無法較好地實現(xiàn)建模目標,或是一方只有Y標簽,需要使用其他參與方的特征來構(gòu)建聯(lián)合模型的場景,多用于異業(yè)之間的聯(lián)合建模。在金融場景中,縱向聯(lián)邦學(xué)習(xí)常用于金融機構(gòu)與其他行業(yè)機構(gòu)之間的聯(lián)合建模,即參與方的用戶交集比較大,但各參與方所擁有的用戶特征差異性大。例如,銀行與運營商之間的聯(lián)合建模,它們的用戶交集較大,但銀行記錄的都是用戶的收支信息、信貸行為、還款記錄等金融行為信息,而運營商擁有用戶短信、上網(wǎng)情況等通信行為信息,因此它們之間的用戶特征差異性很大,銀行機構(gòu)在智能風(fēng)控、智能營銷、反欺詐、存客運營等業(yè)務(wù)場景中,均可使用縱向聯(lián)邦學(xué)習(xí),通過參與方之間特征的互補來提升模型的信息量,以增強聯(lián)合模型的識別和預(yù)測能力。
聯(lián)邦遷移學(xué)習(xí)
聯(lián)邦遷移學(xué)習(xí)是指在參與方數(shù)據(jù)集的用戶與用戶特征重疊都較少,往往無法基于用戶或特征進行切分,在這種情況下可以利用遷移學(xué)習(xí)來克服樣本和標簽不足的情況。
遷移學(xué)習(xí)的目的是把源領(lǐng)域的知識遷移到目標領(lǐng)域,使得目標領(lǐng)域能夠跨越數(shù)據(jù)積累直接實現(xiàn)應(yīng)用智能,通常適用于源領(lǐng)域數(shù)據(jù)量充足,而目標領(lǐng)域數(shù)據(jù)量較小的場景。例如,在金融領(lǐng)域的反洗錢、大額信貸業(yè)務(wù)等場景或是在業(yè)務(wù)啟動階段,普遍存在金融樣本有限問題,難以采用通用的機器學(xué)習(xí)算法建模。利用源領(lǐng)域的大量數(shù)據(jù)訓(xùn)練好一個模型,通過遷移學(xué)習(xí),將數(shù)據(jù)、模型和任務(wù)都遷移到目標領(lǐng)域的小數(shù)據(jù)中,可以得到一個魯棒性較好的新模型。聯(lián)邦遷移學(xué)習(xí)將遷移學(xué)習(xí)方法與多方安全計算中的同態(tài)加密等算法相結(jié)合,實現(xiàn)了聯(lián)邦化的遷移學(xué)習(xí)算法。
基于聯(lián)邦學(xué)習(xí)的隱私計算
聯(lián)邦學(xué)習(xí)的基本原理是在企業(yè)、機構(gòu)或終端各自數(shù)據(jù)不出本地的前提下,通過基于密碼學(xué)機制下的參數(shù)交換,建立虛擬的共有模型。這個共有模型的性能經(jīng)與傳統(tǒng)方式下將各方數(shù)據(jù)匯聚在一起再使用機器學(xué)習(xí)方法訓(xùn)練的模型進行對比,兩者效果基本一致。
聯(lián)邦學(xué)習(xí)的參與方一般包括數(shù)據(jù)方、算法方、協(xié)調(diào)方、計算方、結(jié)果方、任務(wù)發(fā)起方等,這些不同角色可以根據(jù)不同的實現(xiàn)機制,由不同的實體承擔,或是由某一實體承擔多個角色。目前的聯(lián)邦學(xué)習(xí)的實現(xiàn)架構(gòu)主要分為兩種:一種是基于協(xié)調(diào)方的中心化聯(lián)邦架構(gòu),另一種是點對點的去中心化聯(lián)邦架構(gòu)。在中心化聯(lián)邦架構(gòu)中,各參與方需要與中心協(xié)調(diào)方或中央服務(wù)器合作完成聯(lián)合訓(xùn)練;而在點對點的去中心化聯(lián)邦架構(gòu)中,各個參與方是對等關(guān)系,不存在中心化的服務(wù)器,所有交互都是參與方之間通過多方安全計算等密碼協(xié)議直接進行交互和計算的。
橫向聯(lián)邦學(xué)習(xí)通常是基于中心化聯(lián)邦架構(gòu),通過中心協(xié)調(diào)方來協(xié)調(diào)和匯總?cè)值哪P?。模型?xùn)練之前,中心協(xié)調(diào)方將初始模型分發(fā)給各參與方,各參與方再根據(jù)本地數(shù)據(jù)集進行模型訓(xùn)練, 然后各參與方把本地訓(xùn)練得到的模型參數(shù)加密上傳至中心協(xié)調(diào)方,中心協(xié)調(diào)方對所有模型梯度進行聚合,再將聚合后的全局模型參數(shù)加密傳回給各參與方,反復(fù)此步驟,直到全局模型收斂得到最優(yōu)模型。而縱向聯(lián)邦學(xué)習(xí)根據(jù)不同業(yè)務(wù)場景、參與方之間的信任度、安全強度需求等,可選擇采用中心化聯(lián)邦架構(gòu)或去中心化的點對點網(wǎng)絡(luò)架構(gòu),與之對應(yīng)的是采用密碼學(xué)技術(shù)的差異。聯(lián)邦學(xué)習(xí)常采用同態(tài)加密、差分隱私以及秘密共享、不經(jīng)意傳輸、混淆電路等多方安全計算技術(shù)來增強中間交互模型參數(shù)的安全性。此外,隨著產(chǎn)業(yè)應(yīng)用的需求,聯(lián)邦學(xué)習(xí)也與其他多元技術(shù)融合來滿足更多應(yīng)用場景。例如,通過采用差分隱私進一步增強對梯度參數(shù)的保護程度,防止中間梯度信息的泄漏與原始數(shù)據(jù)的反推;與可信執(zhí)行環(huán)境融合,進一步提升本地隱私數(shù)據(jù)的安全性或模型的安全等級。
聯(lián)邦學(xué)習(xí)的金融應(yīng)用場景
反欺詐場景
機器學(xué)習(xí)在金融反欺詐的應(yīng)用場景中迅速發(fā)展,并已取得顯著成效,金融詐騙行為能夠被有效識別。但在巨大的經(jīng)濟利益驅(qū)動下,金融詐騙手段層出不窮,傳統(tǒng)基于單一企業(yè)的數(shù)據(jù)建模逐漸難以應(yīng)對不斷升級的詐騙手段,需要通過聯(lián)邦學(xué)習(xí)等隱私計算技術(shù)打通企業(yè)間的數(shù)據(jù)孤島,構(gòu)建跨行業(yè)數(shù)據(jù)共享的反欺詐模型,以提升金融反欺詐的效率與精準性。
借助聯(lián)邦學(xué)習(xí)技術(shù),可以在保證用戶隱私信息、企業(yè)的數(shù)據(jù)安全以及企業(yè)的數(shù)據(jù)所有權(quán)與控制權(quán)的前提下,融合銀行機構(gòu)、電商、運營商、政務(wù)等多元數(shù)據(jù),實現(xiàn)跨行業(yè)、跨機構(gòu)的反欺詐體系建設(shè)。基于金融行為特征、消費行為特征、通信行為特征、社交行為特征等,構(gòu)建針對不同細分金融反欺詐業(yè)務(wù)場景的專有模型,通過跨行業(yè)、跨機構(gòu)的多樣性欺詐數(shù)據(jù)特征互補,從而提升金融行業(yè)的整體反欺詐能力。
以國內(nèi)某商業(yè)銀行為例,其借助聯(lián)邦學(xué)習(xí)技術(shù),引入外部數(shù)據(jù)源,聯(lián)合行內(nèi)已有樣本和特征,利用聯(lián)邦Fastboost算法構(gòu)建反欺詐模型,并與現(xiàn)有欺詐系統(tǒng)進行對接,具體應(yīng)用如圖1所示。
實證結(jié)果表明,通過聯(lián)邦學(xué)習(xí)算法構(gòu)建的跨機構(gòu)反欺詐模型, 其AUC指標達到0.84,KS指標達到0.55,KS指標對比僅基于行內(nèi)數(shù)據(jù)構(gòu)建的模型提升了約15%。這表明聯(lián)邦學(xué)習(xí)模型能夠?qū)τ脩羝墼p行為進行有效識別,有效提升商業(yè)銀行的風(fēng)險防控能力。
信貸風(fēng)控場景
在信貸風(fēng)控領(lǐng)域,因信審過程需要調(diào)用不同的數(shù)據(jù)接口,因此面臨著信貸審核成本高昂的情況;此外,銀行等金融機構(gòu)在面對中小微企業(yè)的信貸需求時,缺乏企業(yè)經(jīng)營情況等有效數(shù)據(jù),導(dǎo)致中小微企業(yè)融資難、融資貴、融資慢;同樣,消費金融類企業(yè)在面對風(fēng)控時,缺乏互聯(lián)網(wǎng)用戶行為畫像等有效數(shù)據(jù)。
在中小微企業(yè)信貸場景中,針對中小微企業(yè)信貸評審數(shù)據(jù)稀缺、不全面、歷史信息沉淀不足等問題,通過聯(lián)邦學(xué)習(xí)機制,在確保數(shù)據(jù)提供方數(shù)據(jù)安全以及隱私保護的情況下,能夠為銀行融匯企業(yè)經(jīng)營數(shù)據(jù)、稅務(wù)數(shù)據(jù)、工商數(shù)據(jù)、支付數(shù)據(jù)等多源信息,豐富建模特征體系,共同提升模型的有效性。此外,通過將風(fēng)險前置,從風(fēng)險源頭切入,采用隱私計算還可幫助金融機構(gòu)過濾信貸黑名單客戶以及過濾明顯沒有轉(zhuǎn)化價值的貸款客戶。
以國內(nèi)某商業(yè)銀行為例,其在進軍中小微企業(yè)貸款市場過程中,苦于沒有充足的數(shù)據(jù)特征維度用以判斷企業(yè)的信用評分,因此將風(fēng)控縮緊,雖然保證了業(yè)務(wù)安全性,卻降低了盈利性。借助聯(lián)邦學(xué)習(xí)的方式,該銀行與某支付機構(gòu)進行跨機構(gòu)數(shù)據(jù)協(xié)作,對企業(yè)進行信用評估。銀行提供建模樣本Y標簽,外部合作機構(gòu)提供相關(guān)樣本的X數(shù)據(jù)特征,采用聯(lián)邦邏輯回歸算法構(gòu)建風(fēng)險評分模型,對客戶進行評分區(qū)間預(yù)測,相關(guān)方案如圖2所示。
基于外部數(shù)據(jù)源輔助的模型訓(xùn)練結(jié)果顯示,其AUC指標達到0.71,KS指標達到0.34,能夠為銀行在中小微信貸場景提供有效的風(fēng)控能力。
此外,聯(lián)邦學(xué)習(xí)技術(shù)也可用于消費金融機構(gòu)信貸場景。針對消費金融機構(gòu)Y樣本量不足、好壞樣本區(qū)分度不夠、樣本呈偏態(tài)分布等問題,建議通過聯(lián)邦學(xué)習(xí)機制,融合多家信貸機構(gòu)的數(shù)據(jù)進行小樣本聯(lián)合建模,并不斷積累業(yè)務(wù)數(shù)據(jù)迭代優(yōu)化模型。
銀保營銷場景
銀行在保險業(yè)務(wù)的推廣方面存在天然優(yōu)勢,同時也是其重要業(yè)務(wù)組成的一部分,但是目前銀行在保險產(chǎn)品的營銷和精準獲客方面存在以下的問題:一是獲客難度大。銀行在尋找客戶過程中,因客戶畫像不精準,導(dǎo)致獲客轉(zhuǎn)化率低。二是客戶需求把握不準。因客戶維度的缺失,導(dǎo)致銀行營銷人員對潛在客戶的需求定位不清晰,難以挖掘其真實需求,潛在價值沒有得到充分的發(fā)揮。三是總成本居高不下。因獲客轉(zhuǎn)化率低,同時產(chǎn)品推介針對性不強,導(dǎo)致銀行保險業(yè)務(wù)營銷的整體ROI偏低。
以國內(nèi)某商業(yè)銀行為例,在代銷保險業(yè)務(wù)中銀行希望從數(shù)億客群中挖掘出潛在的保險用戶,進行銀保交叉營銷。在實施過程中,采用聯(lián)邦學(xué)習(xí)技術(shù),利用保險公司已有人群特征標簽作為種子用戶,并選用聯(lián)邦推薦算法,構(gòu)建多維、準確的聯(lián)邦推薦模型,從而識別出更多潛在相似人群,同時優(yōu)化營銷渠道。
對模型運行結(jié)果及營銷結(jié)果進行統(tǒng)計分析,實證結(jié)果表明, 在轉(zhuǎn)化率、ROI、長短期保險營銷比例等方面,聯(lián)邦學(xué)習(xí)模型結(jié)果均有較為明顯的提升,如圖3所示。
結(jié)語
聯(lián)邦學(xué)習(xí)是當前隱私立法時代能夠兼顧隱私與數(shù)據(jù)保護要求以及機器學(xué)習(xí)、數(shù)據(jù)挖掘應(yīng)用需求的一項前沿IT技術(shù)。在商業(yè)銀行具體業(yè)務(wù)場景中,基于聯(lián)邦學(xué)習(xí)的隱私計算平臺能夠解決數(shù)據(jù)使用合法合規(guī)的問題,拓寬金融行業(yè)數(shù)據(jù)邊界,并打破數(shù)據(jù)割裂的壁壘。借助聯(lián)邦建??梢栽诒Wo用戶信息不泄露的前提下,將來自支付應(yīng)用的消費數(shù)據(jù)、交通出行數(shù)據(jù)、通信數(shù)據(jù)、上網(wǎng)行為數(shù)據(jù)等多方、多維度信息納入聯(lián)邦風(fēng)控模型、聯(lián)邦反欺詐模型、聯(lián)邦營銷模型、聯(lián)邦反洗錢模型等多類業(yè)務(wù)場景中,在滿足合規(guī)經(jīng)營的前提下,進一步推動銀行數(shù)字化轉(zhuǎn)型、智能化發(fā)展,全面提升商業(yè)銀行的業(yè)務(wù)質(zhì)效。
(龍盈智達〔北京〕科技有限公司大數(shù)據(jù)中心楊璇、袁開蓉以及同盾科技有限公司人工智能研究院彭宇翔、張明明對本文亦有貢獻。王彥博〔wangyanbo@lyzdfintech.com〕為本文通信作者)
責任編輯:孫 爽