◆蔣農(nóng)
(中國人民財產(chǎn)保險股份有限公司杭州市分公司 浙江 310000)
我國正在全面深入推進“互聯(lián)網(wǎng)+”戰(zhàn)略,打造數(shù)字經(jīng)濟新優(yōu)勢。眾多的傳統(tǒng)行業(yè)擁抱互聯(lián)網(wǎng)。在推進“數(shù)字化轉(zhuǎn)型”的進程中,面臨著“以產(chǎn)品為中心”向“以客戶為中心”的戰(zhàn)略轉(zhuǎn)型。傳統(tǒng)行業(yè)通過多年的積累,已擁有大量的客戶數(shù)據(jù),但主要是客戶的交易數(shù)據(jù),缺少客戶的行為數(shù)據(jù),難以洞察客戶潛在需求。而互聯(lián)網(wǎng)企業(yè)則相反,他們把持了巨大的流量資源,能夠?qū)蛻舻木W(wǎng)絡(luò)行為有更加全面的了解。傳統(tǒng)行業(yè)希望與互聯(lián)網(wǎng)企業(yè)進行客戶數(shù)據(jù)共享來構(gòu)建更為全面完整的客戶畫像體系。
但是簡單的數(shù)據(jù)共享必定帶來客戶個人信息泄露問題。國家已經(jīng)或正在出臺的《數(shù)據(jù)安全法》、《個人信息保護法》等法律和《刑法》相關(guān)條款都規(guī)定了企業(yè)對和客戶信息安全和個人隱私保護的義務(wù)。如何解決既能保護數(shù)據(jù)安全又能實現(xiàn)數(shù)據(jù)共享呢?聯(lián)邦學(xué)習(xí)技術(shù)在這一領(lǐng)域開始發(fā)揮重要作用。
聯(lián)邦學(xué)習(xí)構(gòu)建了一個隱私保護機器學(xué)習(xí)系統(tǒng),使得擁有數(shù)據(jù)的多方能夠聯(lián)合建立并訓(xùn)練數(shù)據(jù)模型,并且任意一方的數(shù)據(jù)都不會泄露給其他參與者,打破數(shù)據(jù)孤島。
除了數(shù)據(jù)孤島,企業(yè)也有保護核心高價值數(shù)據(jù)的需求,通過隱私計算和聯(lián)邦學(xué)習(xí)實現(xiàn)數(shù)據(jù)的所有權(quán)和使用權(quán)分離是一種有效的解決方式。
聯(lián)邦學(xué)習(xí)最早在 2016 年由谷歌提出,其本質(zhì)是一種分布式機器學(xué)習(xí)技術(shù),或機器學(xué)習(xí)框架,目標(biāo)是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,實現(xiàn)共同建模,提升AI模型的效果。
我們把每個參與共同建模的數(shù)據(jù)擁有方稱為參與方,根據(jù)多個參與方之間數(shù)據(jù)分布、業(yè)態(tài)、數(shù)據(jù)特征的不同,把聯(lián)邦學(xué)習(xí)分為三類:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。以多家企業(yè)對客戶數(shù)據(jù)進行聯(lián)合建模為例,對三類聯(lián)邦學(xué)習(xí)的適用場景解釋如下:
橫向聯(lián)邦學(xué)習(xí)適用于各企業(yè)的業(yè)態(tài)相同但觸達(dá)客戶不同的場景,即客戶特征重疊多,客戶樣本重疊少時的場景,比如不同地區(qū)的保險公司,他們的業(yè)務(wù)相似(特征相似),但用戶不同(樣本不同)。
在傳統(tǒng)的機器學(xué)習(xí)建模中,通常是把模型訓(xùn)練需要的數(shù)據(jù)集合到一個數(shù)據(jù)中心然后再訓(xùn)練模型,之后預(yù)測。在橫向聯(lián)邦學(xué)習(xí)中,可以看作是基于樣本的分布式模型訓(xùn)練,分發(fā)全部數(shù)據(jù)到不同的機器,每臺機器從服務(wù)器下載模型,然后利用本地數(shù)據(jù)訓(xùn)練模型,之后返回給服務(wù)器需要更新的參數(shù);服務(wù)器聚合各機器上的返回的參數(shù),更新模型,再把最新的模型反饋到每臺機器。
在這個過程中,每臺機器都是相同且完整的模型,且機器之間不交流不依賴,在預(yù)測時每臺機器也可以獨立預(yù)測,可以把這個過程看作成基于樣本的分布式模型訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)的適用于各企業(yè)的業(yè)態(tài)不同,但是觸達(dá)的客戶相同的場景,即客戶樣本重疊多,客戶特征重疊少的場景,比如同一地區(qū)的保險公司和電信運營商,他們觸達(dá)的用戶都為該地區(qū)的居民(樣本相同),但業(yè)務(wù)不同(特征不同)。
某保險公司擁有大量的精準(zhǔn)車險客戶數(shù)據(jù),包括承保、理賠相關(guān)的標(biāo)簽,希望能與某電信運營商合作聯(lián)合建模,以便挖掘到對寵物保險有需求的客戶,因為電信運營商擁有相同的客戶覆蓋,但有額外的客戶行為數(shù)據(jù)。但是由于國家的數(shù)據(jù)保護條款和各企業(yè)自身對數(shù)據(jù)的嚴(yán)格規(guī)定,雙方都不能直接將客戶數(shù)據(jù)與對方共享。針對這個問題,可以通過縱向聯(lián)邦學(xué)習(xí)來解決。
兩家企業(yè)的客戶數(shù)據(jù)都有共同的ID,但是特征是完全不一樣的,可以通過一方特征來彌補另一方特征的不足。首先進行用戶匹配,需要找出用戶的交集,但是不能泄露差集。通過 RSA 和 Hash 的機制,保證雙方最終只用到交集部分,且差集部分不向?qū)Ψ叫孤?。這個過程中,各方的原始數(shù)據(jù),以及數(shù)據(jù)加密態(tài)都沒有被傳輸。雙方通過損失中間結(jié)果,用同態(tài)加密的機制進行交互,模型訓(xùn)練完之后,會各自得到一個模型,各自的模型會部署在各自的一方。
當(dāng)參與者之間數(shù)據(jù)特征和數(shù)據(jù)樣本重疊都很少時可以考慮使用聯(lián)邦遷移學(xué)習(xí),如不同地區(qū)的保險公司和電信運營商之間的聯(lián)合。
遷移學(xué)習(xí),是指利用數(shù)據(jù)、任務(wù)或模型之間的相似性,將源領(lǐng)域?qū)W習(xí)過的模型,應(yīng)用于目標(biāo)領(lǐng)域的一種學(xué)習(xí)過程。遷移學(xué)習(xí)的核心是,找到源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似性,即模型中的不變量。
前文中提到聯(lián)合建模雙方通過同態(tài)加密的機制進行數(shù)據(jù)交互。同態(tài)加密可以不通過對數(shù)據(jù)進行解密,而直接進行運算。
傳統(tǒng)的加密技術(shù)存在一個問題:原始信息倘若經(jīng)過AES或DES等加密方式進行加密后,就無法再將其運用到其他計算工作中去了。而通過同態(tài)加密的方式能對數(shù)據(jù)加密后仍然可以下對其進行相應(yīng)的數(shù)據(jù)計算。
同態(tài)加密分為全同態(tài)加密、部分同態(tài)加密和層次同態(tài)加密。全同態(tài)加密可以對相關(guān)數(shù)據(jù)進行多次的乘法和加法運算,例如f(En(m1),En(m2),…,En(mk))=En(f(m1,m2,…,mk))。部分同態(tài)加密是指同態(tài)加密算法中僅對于加法或乘法有同態(tài)的性質(zhì),部分同態(tài)加密能做的事情,全同態(tài)加密也能做;但是全同態(tài)加密一般計算開銷比較大,所以部分同態(tài)加密方案夠用的時候沒必要選用全同態(tài)加密。層次同態(tài)加密算法是指可進行有限次的加法或乘法運算,它較部分同態(tài)加密算法有較高的效率,也有廣泛運用,如BGN 算法、姚氏混淆電路等。
聯(lián)邦學(xué)習(xí)模型訓(xùn)練整個過程的本質(zhì)是通過局部算子的安全加密,然后利用同態(tài)加密的性質(zhì)進行聯(lián)合運算,隱藏各自局部信息的過程。首先,B方對特征進行同態(tài)加密,然后給到A方,A方會對自己的特征進行分箱處理,在分箱中進行密文求和的操作,再把結(jié)果給到B方進行解密。在這個過程中,沒有明文數(shù)據(jù)傳輸,A方不知道B方的特征值,同時B方也不知道A方特征值,從而在安全隱私保護的情況下,完成了特征工程的計算。
目前業(yè)界中主要的聯(lián)邦學(xué)習(xí)框架有FATE,TensorFlow Federated,PaddleFL,Pysyft等。
FATE(Federated AI Technology Enabler)是微眾銀行AI部門發(fā)起的開源項目,為聯(lián)邦學(xué)習(xí)生態(tài)系統(tǒng)提供了可靠的安全計算框架。FATE項目使用多方安全計算(MPC)以及同態(tài)加密(HE)技術(shù)構(gòu)建底層安全計算協(xié)議,以此支持不同種類的機器學(xué)習(xí)的安全計算,包括邏輯回歸、基于樹的算法、深度學(xué)習(xí)和遷移學(xué)習(xí)等。FATE提供20多個聯(lián)邦學(xué)習(xí)算法組件涵蓋LR,GBDTDNN等主流算法,覆蓋了常規(guī)商業(yè)應(yīng)用場景建模需求,涵蓋聯(lián)邦特征工程,聯(lián)邦機器學(xué)習(xí)模型訓(xùn)練,聯(lián)邦模型評估,聯(lián)邦在線推理。
谷歌開源的TensorFlow Federated框架較好地支持橫向聯(lián)邦學(xué)習(xí)。其中,可以通過FederatedLearning(FL)API,與Tensorflow/Keras交互,完成分類、回歸等任務(wù)。用戶也可以通過其提供的FederatedCore(FC)API,通過在強類型函數(shù)編程環(huán)境中將TensorFlow與分布式通信運算名相結(jié)合,簡潔地表達(dá)新的聯(lián)合算法。
PaddleFL是一個基于PaddlePaddle的開源聯(lián)邦學(xué)習(xí)框架。它提供很多聯(lián)邦學(xué)習(xí)策略及其在計算機視覺、自然語言處理、推薦算法等領(lǐng)域的應(yīng)用。此外,PaddleFL還將提供傳統(tǒng)機器學(xué)習(xí)訓(xùn)練策略的應(yīng)用,例如多任務(wù)學(xué)習(xí)、聯(lián)邦學(xué)習(xí)環(huán)境下的遷移學(xué)習(xí)。PaddleFL 開源框架中包含了 DiffieHellman筆安全算子,及LR等機器學(xué)習(xí)算法。PaddleFL的優(yōu)勢在于通過與百度機器學(xué)習(xí)開源框架PaddlePaddle的交互,吸引相關(guān)生態(tài)開發(fā)者加入開發(fā)。
PySyft是用于安全和隱私深度學(xué)習(xí)的Python庫,它在主流深度學(xué)習(xí)框架(例如PyTorch和TensorFlow)中使用聯(lián)邦學(xué)習(xí),差分隱私和加密計算(例如多方計算(MPC)和同態(tài)加密(HE))將隱私數(shù)據(jù)與模型訓(xùn)練分離。
某財產(chǎn)保險公司與本地區(qū)的電信運營商合作,基于存量的客戶交易數(shù)據(jù),通過聯(lián)邦學(xué)習(xí)構(gòu)建多方共同訓(xùn)練客戶模型,挖掘客戶潛在需求。
電信運營商基于FATE開源框架開發(fā)了“AI聯(lián)邦學(xué)習(xí)平臺”,并提供了企業(yè)間互操作的功能。運營商利用其覆蓋了數(shù)億用戶、擁有數(shù)百特征變量的生態(tài)數(shù)據(jù),包括用戶基礎(chǔ)畫像、通話行為、上網(wǎng)行為、短信行為、賬單行為、關(guān)系網(wǎng)絡(luò)等,與保險公司豐富的業(yè)務(wù)場景結(jié)合,聯(lián)合建模,可在精準(zhǔn)營銷、反欺詐、智能核保等方面進行應(yīng)用。
聯(lián)合建模首先確定統(tǒng)一的客戶ID,如手機號碼或身份證號作為模型的輸入變量,同時兼顧應(yīng)用場景需要,附加了其他可選特征碼,如設(shè)備號、IP地址、WI-FI標(biāo)識、MAC地址等,通過模型機器學(xué)習(xí)過程,輸出為客戶標(biāo)簽。
圖1 服務(wù)架構(gòu)和業(yè)務(wù)流程
某保險公司以車險業(yè)務(wù)為主,并正在積極向非車險業(yè)務(wù)滲透。對于存量的車險客戶,保險公司缺少非車險相關(guān)的客戶標(biāo)簽。以開展寵物保險為例,寵物保險價格相對較高,面向的客戶群必須有較高的認(rèn)同性,只有精準(zhǔn)篩選出目標(biāo)客戶才能獲得理想的轉(zhuǎn)化率。保險公司希望獲取關(guān)愛寵物、有較高的收入的年輕人群,而這些標(biāo)簽在保險公司既有的客戶畫像中不存在。
而電信運營商卻能通過客戶的上網(wǎng)行為、使用APP的習(xí)慣、通訊記錄等流量數(shù)據(jù)中,精準(zhǔn)地捕捉到目標(biāo)客戶群。
通過聯(lián)邦學(xué)習(xí)平臺,保險公司、運營商在不泄露客戶隱私的情況下共享了客戶標(biāo)簽。通過精準(zhǔn)營銷,轉(zhuǎn)化率為提高了一個數(shù)量級。
首先,保險公司對現(xiàn)有存量的客戶數(shù)據(jù)按已有標(biāo)簽進行初步篩選,通過傳統(tǒng)的客戶分類方法實現(xiàn)了約9.5:1篩選率的漏斗,將漏斗輸出的客戶資源向數(shù)據(jù)交易平臺發(fā)起查詢申請。
然后,電信運營商開始對寵物保險標(biāo)簽建檔,采用的模型規(guī)則有:URL規(guī)則,即特定寵物相關(guān)網(wǎng)址的規(guī)則,寵物相關(guān)活動場所的電信消費規(guī)則等。模型初步建好以后,用Y樣本進行驗證,即用于評估效果好壞的歷史用戶情況,比如針對有寵物險需求的用戶進行短信、電話等觸達(dá),了解其中哪些客戶是有意向進一步了解寵物保險內(nèi)容的,哪些是已購買寵物保險的。通過驗證,修改或改善模型。
雙方確定客戶樣本對齊ID:首選為手機的IMEI號或手機號。
聯(lián)邦學(xué)習(xí)平臺調(diào)用保險側(cè)引擎和電信側(cè)引擎,開始聯(lián)合建模,并進行模型訓(xùn)練。
經(jīng)過幾輪訓(xùn)練,保險公司得到客戶本地樣本,獲取了額外標(biāo)簽。
保險公司根據(jù)新產(chǎn)生的標(biāo)簽實施精準(zhǔn)營銷,二次篩選率約為52:1,最終的營銷對象鎖定在總客戶數(shù)量的1/500左右,以最低的營銷成本換取了19%左右的轉(zhuǎn)化率。
傳統(tǒng)保險公司想做個性化定價是一件非常困難的事情。由于數(shù)據(jù)量不足,對客戶的畫像不夠全面,做千人千面的定價是非常難的。通過與互聯(lián)網(wǎng)企業(yè)合作,可以融合海量的客戶行為數(shù)據(jù),極大地擴充客戶標(biāo)簽,對客戶實施精準(zhǔn)分類、精準(zhǔn)定價。
保險公司擁有承保和理賠數(shù)據(jù)等幾十個維度的數(shù)據(jù),合作互聯(lián)網(wǎng)企業(yè)擁有客戶的人口屬性、職業(yè)、興趣愛好、教育狀況、財務(wù)狀況等幾百個維度的數(shù)據(jù)。通過架設(shè)聯(lián)邦學(xué)習(xí)平臺,實施客戶精準(zhǔn)分類,構(gòu)建了一個基于聯(lián)邦學(xué)習(xí)的保險定價機制。
互聯(lián)網(wǎng)企業(yè)擁有的海量數(shù)據(jù)對于傳統(tǒng)金融行業(yè)及機構(gòu)來說是數(shù)字化轉(zhuǎn)型的有力驅(qū)動力?;诼?lián)邦學(xué)習(xí)的智慧金融能實現(xiàn)保護數(shù)據(jù)安全基礎(chǔ)上打破數(shù)據(jù)壁壘,實現(xiàn)行業(yè)上下游業(yè)務(wù)場景的深度結(jié)合,解決保險企業(yè)、中介機構(gòu)及代理人數(shù)據(jù)孤立、客戶精準(zhǔn)分層等困擾。聯(lián)邦學(xué)習(xí)概念的落地,需要傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)行業(yè)共同努力,借助開源框架或收費框架,搭建符合實際需求的平臺,并通過合理的商務(wù)合作模式保證合作雙方的利益,推進“互聯(lián)網(wǎng)+”戰(zhàn)略有效實施。