林 寧,張 亮
(1.泰州機電高等職業(yè)技術學校,江蘇 泰州 225300;2.南京師范大學泰州學院,江蘇 泰州 225300)
隨著計算機技術的飛速發(fā)展,海量的信息存在于各種商業(yè)網(wǎng)站和信息分發(fā)應用中,信息過載現(xiàn)象嚴重阻礙了每個人的正常生活??萍嫉陌l(fā)展給人們生活帶來便捷的同時,信息過載、數(shù)據(jù)冗余等問題也令人頭疼。用戶的選擇越來越多,想要選擇到適合自己的事物就變得困難。為了解決此問題,越來越多的人開始關注用戶個性化推薦系統(tǒng)。該系統(tǒng)利用用戶與各種事物的歷史交互數(shù)據(jù)以及事物之間各特征屬性,構(gòu)建個性化的用戶推薦模型,對用戶未來可能感興趣的內(nèi)容進行精準預測,在眾多的數(shù)據(jù)信息中自動篩選出用戶感興趣的信息及商家。基于聯(lián)邦學習的用戶推薦系統(tǒng)越來越受到廣泛的關注。具體來說,推薦系統(tǒng)包括3 個方面的內(nèi)容,即用戶喜好、項目屬性、用戶與事物的交互數(shù)據(jù)(如時間、空間數(shù)等附加信息)[1]。推薦系統(tǒng)開發(fā)者通過向用戶推薦匹配的商品來增加銷售量,或者為目標用戶提供匹配的娛樂內(nèi)容來增加契合度,進而提高廣告的曝光率、點擊量等,從而最終為商家提高營業(yè)額[2]。隨著各種數(shù)據(jù)保護條例和隱私保護法規(guī)的頒布,以及個人用戶對隱私數(shù)據(jù)的保護,人們逐漸意識到隱私數(shù)據(jù)的保護是非常有必要的。然而傳統(tǒng)的機器算法是有缺陷的,如在用戶上傳數(shù)據(jù)信息時,很難直接建立起一個有效的模型來保護用戶的數(shù)據(jù)隱私安全。鑒于此,谷歌(Google)公司提出了基于聯(lián)邦學習技術來建立用戶隱私保護機制。
近年來,隨著分布式學習和邊緣計算技術的快速發(fā)展,互聯(lián)網(wǎng)生態(tài)逐漸向移動化和開放化發(fā)展,使得用戶終端能夠存儲相當多的原始數(shù)據(jù)[3]。在傳統(tǒng)的集中式推薦系統(tǒng)中,系統(tǒng)首先需要收集到足夠多的數(shù)據(jù)并建立數(shù)據(jù)關系,構(gòu)建用戶推薦系統(tǒng),那么在真實情況下,平臺能保護好用戶的隱私數(shù)據(jù)嗎?用戶的隱私數(shù)據(jù)會不會另作他用?數(shù)據(jù)安全問題已經(jīng)成為人們關注的熱點之一。
有研究學者提出聯(lián)邦學習算法可以解決用戶隱私數(shù)據(jù)泄露的問題,而且算法正逐漸受到人們的廣泛關注。聯(lián)邦學習的個性化推薦系統(tǒng)是通過挖掘聯(lián)合分布在各個設備上的數(shù)據(jù)集,但又不共享各設備上的原始數(shù)據(jù),通過交換模型參數(shù)或中間結(jié)果的方式,構(gòu)建基于虛擬全局的用戶數(shù)據(jù)模型,建立分布式機器學習訓練模型。一些學者將聯(lián)邦學習應用到推薦算法中,在模型訓練的整個過程中,用戶的原始交互數(shù)據(jù)不用上傳到平臺,而是通過模型參數(shù)或者中間結(jié)果進行數(shù)據(jù)分析和挖掘,構(gòu)建一套保護用戶隱私數(shù)據(jù)的機器學習模型。聯(lián)邦學習的推薦系統(tǒng)不要求用戶上傳原始數(shù)據(jù)到平臺,這大大降低數(shù)據(jù)泄露的可能性。因此,基于聯(lián)邦學習模式的推薦算法來解決用戶隱私問題,越來越受到人們的廣泛關注[4]。目前國內(nèi)對基于聯(lián)邦學習的個性化推薦系統(tǒng)研究缺少系統(tǒng)的歸納總結(jié)。本研究首先對推薦系統(tǒng)、聯(lián)邦學習及聯(lián)邦推薦系統(tǒng)進行概述。
1992 年,Xerox 公司最早采用協(xié)同過濾算法來解決資訊過載問題。后期在新聞的篩選中,幫助閱讀者篩選感興趣的新聞,例如亞馬遜網(wǎng)絡書店和Facebook 的廣告就非常有名。他們也是采用傳統(tǒng)的協(xié)同過濾算法,為用戶提供其可能感興趣的書籍或廣告。傳統(tǒng)的推薦模型基于信息直接篩選分析而成,協(xié)同過濾算法先對相似喜好的用戶進行數(shù)據(jù)挖掘,建立用戶群,再對這些相似用戶進行動態(tài)分析,形成對該目標用戶的某一信息的喜好程度精準預測[5]。根據(jù)協(xié)同過濾算法的學習模式不同,可以分為基于領域(物品)的推薦系統(tǒng)和基于模型的推薦系統(tǒng)[6]。其中,基于領域的推薦系統(tǒng)是推薦用戶之前喜歡物品的相似物品,通過物品的屬性特征計算物品與之前物品的相似度,然后進行推薦[7];而基于模型的推薦系統(tǒng)是給用戶推薦一個新的物品,通過對其喜好程度進行量化,結(jié)合機器學習算法來針對不同用戶計算物品的向量進行訓練,建立用戶推薦模型來精準預測用戶對于新事物的喜好得分,最后采用訓練好的模型為用戶提供個性化推薦[8]。
深度學習技術在計算機網(wǎng)絡技術領域已經(jīng)受到普遍的應用,其強大的擬合能力和高度的非線性表示能力在推薦系統(tǒng)算法領域得到相當高的關注。深度學習是根據(jù)用戶信息特征進行深層次挖掘,然后經(jīng)過大量的數(shù)據(jù)來學習有效的特征表示及復雜的映射,最后建立起有效的數(shù)據(jù)模型[9]。近幾年,記錄多分支的淺層神經(jīng)網(wǎng)絡模型得到了廣泛運用,但是基于深度學習的數(shù)據(jù)模型在推薦系統(tǒng)中的應用還處于初級階段,深度學習技術對領域本身并無特殊要求,在未來多個潛在領域會有廣泛的應用。
基于用戶隱私數(shù)據(jù)保護的推薦算法不勝枚舉,但是在保護用戶隱私的前提下進行精準推薦是人們探討的熱點話題。一方面要保護用戶的隱私數(shù)據(jù),另一方面又要根據(jù)用戶的個人信息和交互記錄進行推薦,同時還要防護來自不同方面的攻擊威脅。傳統(tǒng)的推薦系統(tǒng)建立在各數(shù)據(jù)參與方完全信任的情況下,然而現(xiàn)實中卻存在著數(shù)據(jù)信息泄露的隱患。這種隱患藏匿于平臺與用戶之間、用戶與用戶之間、平臺與平臺之間。在理想的推薦場景中,用戶是充分信任平臺的,用戶將自己的個人信息完全提供給平臺使用,然而平臺方可能存在對用戶信息泄露或濫用等行為。因此,人們的關注熱點是能確保用戶隱私信息不泄露的推薦系統(tǒng)。另外,在一些特殊場景中,比如分享推薦,用戶與用戶之間會進行信息的交換,而一些潛在的惡意用戶會竊取其他用戶的隱私信息,那么用戶數(shù)據(jù)的安全性就會受到威脅。在平臺與平臺之間也可能會共享用戶的交互記錄,然而平臺之間也并非完全可信,跨平臺之間的信息泄露也時有發(fā)生。傳統(tǒng)的隱私保護推薦系統(tǒng),采用密碼學或者模糊化方法對隱私數(shù)據(jù)進行保護[10];而近期隱私保護推薦系統(tǒng)的相關工作多以聯(lián)邦學習為主,并整合加密算法和模糊化算法以更好地保護用戶數(shù)據(jù)隱私安全。
在2016 年,Google 公司就提出過聯(lián)邦學習的框架結(jié)構(gòu),其本質(zhì)上是聯(lián)合分布在各個設備上的數(shù)據(jù)集,又不共享各設備上的原始數(shù)據(jù),建立分布式的學習框架,在保護各方的隱私數(shù)據(jù)的前提下,共同訓練一個共享的數(shù)據(jù)模型[11]。另外,聯(lián)邦學習對數(shù)據(jù)的集中存儲不做要求,各參與方對己方數(shù)據(jù)有絕對的掌控權(quán)。聯(lián)邦學習可以分為模型架構(gòu)、聯(lián)邦化、優(yōu)化和隱私保護等4 個方法。其中,聯(lián)邦學習的模型架構(gòu)主要有兩種,即中心化聯(lián)邦架構(gòu)和去中心化聯(lián)邦架構(gòu),其中,中心化聯(lián)邦架構(gòu)即客戶端/服務器架構(gòu)模式,企業(yè)是中心服務器,主要是控制協(xié)調(diào)全局模型;去中心化聯(lián)邦架構(gòu)主要采用的是對等模式,針對聯(lián)合多家數(shù)據(jù)單薄的困境企業(yè)進行模型訓練。另外,不同模型的聯(lián)邦化也是學者研究的重點,包括機器學習、元學習、深度學習、強化學習和遷移學習等方面。聯(lián)邦學習的模型優(yōu)化主要包括模型壓縮、溝通策略、激勵機制和客戶抽樣策略等方面。另外,同態(tài)加密、差分隱私、局部差分隱私等策略均為用戶數(shù)據(jù)隱私保護技術的研究熱點內(nèi)容。
用戶個性化推薦系統(tǒng)是根據(jù)用戶與某物品的交互數(shù)據(jù)以及物品特有的屬性特點,找出用戶潛在的興趣偏好并建立模型,精準預測后進行用戶推薦。一方面,目前主流的推薦模型首先需要收集用戶的交互信息并將數(shù)據(jù)信息上傳到平臺,然后訓練出一個推薦模型,最后生成對每個用戶的推薦結(jié)果。當用戶隱私數(shù)據(jù)被上傳的時候就有可能存在信息泄露的風險[12]。另一方面,由于個人用戶擔心數(shù)據(jù)信息的泄露,往往不愿意上傳自己的原始數(shù)據(jù),這也會導致集中訓練模型缺乏數(shù)據(jù)的問題,最終訓練的推薦模型預測性能較差。
而聯(lián)邦推薦系統(tǒng)是一種分布式機器學習系統(tǒng),有效保護用戶隱私信息,它將集中式的學習框架分布到聯(lián)邦學習范式的場景中,為用戶提供精準的信息推薦。鑒于此,在保護用戶隱私數(shù)據(jù)的同時,還要提高推薦模型的預測性能。聯(lián)邦推薦系統(tǒng)是聯(lián)邦學習領域的一個重要應用場景。當前,聯(lián)邦推薦系統(tǒng)的研究方向主要在架構(gòu)設計、系統(tǒng)聯(lián)邦化和隱私保護技術的應用等方面,見圖1。
圖1 聯(lián)邦推薦系統(tǒng)的研究方向
聯(lián)邦學習的推薦系統(tǒng)是不需要直接訪問各方的具體數(shù)據(jù),而是通過協(xié)調(diào)訓練的方式進行推薦模型的搭建,最終形成的推薦系統(tǒng)。該系統(tǒng)在保護個人隱私的前提下,具有良好的推薦效果,相比傳統(tǒng)的推薦模型來說更有優(yōu)勢[13]。聯(lián)邦推薦系統(tǒng)的流程具體見圖2,其中需要注意:一是每個參與服務器需要從中心服務器中下載所有物品的特征矩陣,而非原始數(shù)據(jù);二是每個參與服務器均需要在本地進行信息的整合和篩選,去除不相關的數(shù)據(jù)信息;三是每個參與服務器在本地計算全部物品特征矩陣和個人用戶特征矩陣,及時更新本地個人用戶特征和物品特征;四是每個客戶端都需要將更新之后的物品特征按照安全協(xié)議的要求上傳到中心服務器;五是中心服務器再通過聯(lián)邦平均求解的方式對全部物品特征矩陣進行重新計算,并反饋給每個服務器用于新一輪的計算[14]。
圖2 聯(lián)邦推薦系統(tǒng)的流程
聯(lián)邦推薦系統(tǒng)可以跟據(jù)不同商品的應用場景分為橫向聯(lián)邦推薦系統(tǒng)、縱向聯(lián)邦推薦系統(tǒng)、聯(lián)邦強化推薦系統(tǒng)和聯(lián)邦遷移推薦系統(tǒng)[15]。其中,橫向聯(lián)邦推薦系統(tǒng)研究的是物品相同但用戶不同的情況,同時在保護用戶隱私的情況下,進行用戶行為信息的共享;縱向聯(lián)邦系統(tǒng)研究的是用戶相同但物品不同的情況;聯(lián)邦強化推薦系統(tǒng)研究的是用戶及時反饋的數(shù)據(jù)情況,提升推薦的及時性;聯(lián)邦遷移推薦系統(tǒng)研究的則是物品相同但用戶重疊、數(shù)據(jù)不足的問題。
當前,聯(lián)邦推薦系統(tǒng)的應用尚處于探索階段,但得到各領域廣泛的關注,包括電商、社交軟件、在線視頻、在線廣告等領域。通過對新聞事件的數(shù)據(jù)分析,搜索系統(tǒng)NewsMiner 數(shù)據(jù)庫的相關數(shù)據(jù)。據(jù)查,聯(lián)邦學習技術的行業(yè)應用最早是在2018 年,應用在金融、IT 和通信領域,后來被逐漸擴展到智慧城市、教育、汽車、金融等多個行業(yè)領域。一是聯(lián)邦學習技術在金融業(yè)的應用,仍處于研究階段。推進聯(lián)邦學習在金融業(yè)應用的參與主體主要是科技公司(如百度、騰訊、京東等)、互聯(lián)網(wǎng)金融機構(gòu)(如微眾銀行、螞蟻金服等)、少數(shù)傳統(tǒng)商業(yè)銀行(如江蘇銀行、浦發(fā)銀行、中國建設銀行等)。二是聯(lián)邦學習在醫(yī)療業(yè)的應用,目前仍處于探索階段,需要得到科技公司和國內(nèi)外權(quán)威科研機構(gòu)、高校、醫(yī)療機構(gòu)的支持與幫助。國際性科技期刊Nature(《自然》)曾發(fā)表過關于聯(lián)邦學習技術在醫(yī)療領域應用的文章,聯(lián)邦學習技術在醫(yī)療應用領域也有強大的潛力。新冠疫情以來,越來越多的研究者支持通過聯(lián)邦學習技術以及來自各地區(qū)各醫(yī)療機構(gòu)的數(shù)據(jù)來開發(fā)模型。三是聯(lián)邦學習在電信業(yè)的應用,電信業(yè)是聯(lián)邦學習技術的最早應用領域,解決移動設備數(shù)據(jù)訓練問題。如今,聯(lián)邦學習技術已經(jīng)從最初的電信業(yè)已經(jīng)逐漸輻射到客戶體驗和精準營銷、網(wǎng)絡通信和衛(wèi)星網(wǎng)絡等。
基于聯(lián)邦學習的個性化推薦系統(tǒng)可以保護用戶的數(shù)據(jù)隱私安全,但面向未來,基于聯(lián)邦學習的個性化推薦系統(tǒng)在理論研究和實踐應用方面還將面臨嚴峻挑戰(zhàn),包括以下4 個方面。
1)聯(lián)邦推薦系統(tǒng)的冷啟動挑戰(zhàn)。當新事物和新用戶在進行數(shù)據(jù)挖掘和分析時,會出現(xiàn)數(shù)據(jù)量不足的問題。相比而言,傳統(tǒng)的集中式推薦系統(tǒng)有強大的數(shù)據(jù)信息量作支撐。而聯(lián)邦推薦系統(tǒng)下的冷啟動問題更為嚴峻,聯(lián)邦學習的推薦系統(tǒng)如何在數(shù)據(jù)資源不足的情況下構(gòu)建有效的模型去解決數(shù)據(jù)稀疏問題,即是聯(lián)邦推薦系統(tǒng)面臨的冷啟動挑戰(zhàn)。
2)聯(lián)邦推薦系統(tǒng)的異質(zhì)性挑戰(zhàn)。聯(lián)邦推薦系統(tǒng)中由于用戶為真實的個體,以及用戶設備數(shù)量和型號各異,導致異質(zhì)性問題更為嚴重。因此,在聯(lián)邦學習框架下細粒度的建模數(shù)據(jù)異質(zhì)性以及模型異質(zhì)性也成為目前推薦系統(tǒng)領域的主要挑戰(zhàn)。
3)聯(lián)邦推薦系統(tǒng)的實時性挑戰(zhàn)。實時性挑戰(zhàn)主要體現(xiàn)在聯(lián)邦推薦模型的更新周期和更新效率上。聯(lián)邦推薦系統(tǒng)還需要進一步研究用戶與服務端的數(shù)據(jù)信息的傳輸延時等問題;提高聯(lián)邦推薦模型的更新效率和更新頻率,進一步完成推薦系統(tǒng)的用戶體驗,也是非常關鍵的問題。
4)參與機制不夠完善。在聯(lián)邦個性化推薦系統(tǒng)中,需要參與各方提供數(shù)據(jù)并共同完成推薦模型。各方參與商在推薦模型中的獲利不同,需要全面地評估各參與方的貢獻能力,完善定價策略,合理分配各方的利益。截至目前,仍然沒有建立起各方都認同的貢獻評價策略,這將為聯(lián)邦推薦系統(tǒng)的應用帶來巨大的挑戰(zhàn)。