田蕾,葛麗娜
基于差分隱私的廣告推薦算法
田蕾1,2,葛麗娜2,3,4*
(1.廣西民族大學(xué) 電子信息學(xué)院,南寧 530006; 2.廣西民族大學(xué) 網(wǎng)絡(luò)通信工程重點(diǎn)實(shí)驗(yàn)室,南寧 530006; 3.廣西民族大學(xué) 人工智能學(xué)院,南寧 530006; 4.廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室(廣西民族大學(xué)),南寧 530006)( ? 通信作者電子郵箱66436539@qq.com)
隨著移動(dòng)互聯(lián)網(wǎng)行業(yè)進(jìn)入快速發(fā)展階段,用戶數(shù)據(jù)以及瀏覽數(shù)據(jù)大幅增加,所以準(zhǔn)確把握用戶潛在需求和提高廣告推薦效果顯得極其重要。DeepFM模型作為目前較為先進(jìn)的推薦方法,可以從原始特征中抽取到各種復(fù)雜度特征,但模型沒(méi)有對(duì)數(shù)據(jù)進(jìn)行防護(hù)。為了在DeepFM模型中實(shí)現(xiàn)隱私保護(hù),提出一種基于差分隱私的DeepFM模型——DP-DeepFM,在模型訓(xùn)練過(guò)程中將高斯噪聲加入Adam優(yōu)化算法中,并進(jìn)行梯度裁剪,防止加入噪聲過(guò)大引發(fā)模型性能下降。在廣告Criteo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與DeepFM相比,DP-DeepFM的準(zhǔn)確率僅下降了0.44個(gè)百分點(diǎn),但它能提供差分隱私保護(hù),更具安全性。
差分隱私;推薦算法;梯度下降;深度學(xué)習(xí);Adam優(yōu)化算法
隨著5G時(shí)代的到來(lái)與發(fā)展,以及各種手機(jī)終端應(yīng)用的出現(xiàn),互聯(lián)網(wǎng)中積攢了大量用戶,給互聯(lián)網(wǎng)廣告帶來(lái)了巨大商機(jī),其中騰訊、阿里、字節(jié)跳動(dòng)等互聯(lián)網(wǎng)公司提供了巨大的互聯(lián)網(wǎng)廣告平臺(tái),吸引了越來(lái)越多的廣告商進(jìn)入互聯(lián)網(wǎng)市場(chǎng)。根據(jù)用戶的基本信息與交互記錄挖掘用戶的潛在需求,并依此進(jìn)行個(gè)性化廣告推薦變得至關(guān)重要[1]。影響推薦算法性能的一個(gè)關(guān)鍵因素是用戶的數(shù)據(jù)量是否足夠,然而當(dāng)用戶數(shù)據(jù)量龐大時(shí),更容易造成隱私泄露。因此,如何更好地利用用戶可使用瀏覽數(shù)據(jù),并防止用戶隱私數(shù)據(jù)的泄漏是目前需要解決的問(wèn)題。
早年的推薦算法主要是一些單一的模型,如邏輯回歸(Logistic Regression, LR)[2]、協(xié)同過(guò)濾(Collaborative Filtering, CF)[3]、矩陣分解(Matrix Factorization, MF)[4]等。后來(lái),推薦算法演變成混合模型,如梯度提升決策樹(shù)(Gradient Boosting Decision Tree, GBDT)+LR[5]、GBDT+因子分解機(jī)(Factorization Machine, FM)[6]等。然而,這些模型是簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,在擬合非線性數(shù)據(jù)時(shí)存在分類能力不足的問(wèn)題。近年來(lái),研究人員開(kāi)始將深層神經(jīng)網(wǎng)絡(luò)應(yīng)用于推薦算法[7],并考慮了神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,以捕捉高階特征的相互作用。Wide&Deep模型[8]同時(shí)考慮了高階特征和低階特征,但是低階特征需要手動(dòng)交叉生成。DeepFM算法[9]兼顧了低階和高階特征,具有較好的覆蓋性;但對(duì)于包含用戶隱私的數(shù)據(jù),給攻擊者提供了更多的背景知識(shí),用戶將面臨隱私安全問(wèn)題。包含用戶隱私的歷史行為數(shù)據(jù)一旦被攻擊者獲取,將對(duì)用戶以及預(yù)估模型造成不可預(yù)估的后果。
然而,高效發(fā)展的推薦模型技術(shù)存在數(shù)據(jù)隱私泄漏問(wèn)題,因?yàn)橥扑]技術(shù)的精確度往往需要龐大數(shù)量的用戶數(shù)據(jù)作為支撐,而用戶的個(gè)人信息以及使用記錄具有隱私敏感性,攻擊者能夠利用算法的過(guò)擬合缺陷,通過(guò)隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)技術(shù)和置信度來(lái)重現(xiàn)模型訓(xùn)練的數(shù)據(jù),從而呈現(xiàn)嚴(yán)重的隱私問(wèn)題[10]。2018年美國(guó)的劍橋分析(Cambridge Analytica)數(shù)據(jù)分析公司發(fā)生了隱私泄漏事件,該公司私自泄漏了將近5 000萬(wàn)Facebook用戶的個(gè)人隱私信息,引發(fā)了用戶的強(qiáng)烈譴責(zé)[11]。Google Prediction API和Amazon Machine Learning等機(jī)器學(xué)習(xí)服務(wù)可以從購(gòu)買記錄中泄漏會(huì)員信息[12]。因此,用戶的數(shù)據(jù)隱私研究是CTR(Click-Through Rate)預(yù)估模型發(fā)展過(guò)程中不容回避的一個(gè)重要問(wèn)題。
目前,差分隱私(Differential Privacy, DP)技術(shù)[13]在隱私保護(hù)領(lǐng)域被廣泛應(yīng)用,能在保護(hù)敏感數(shù)據(jù)的同時(shí),盡量提高數(shù)據(jù)的可用性[14],極為契合推薦系統(tǒng)隱私保護(hù)的需求。自從McSherry等[15]首次將DP引入到推薦系統(tǒng)并證明了它的有效性后,眾多學(xué)者提出了各自的基于DP的推薦算法。如Ren等[16]提出了一種基于自動(dòng)編碼器和DP的推薦模型,設(shè)計(jì)了兩種將DP應(yīng)用于自編碼的方法:輸入擾動(dòng)和目標(biāo)函數(shù)擾動(dòng),在保證推薦精準(zhǔn)度的同時(shí)能有效保護(hù)用戶數(shù)據(jù)的隱私。Zhu等[17]指出,向數(shù)據(jù)集中添加噪聲是最直接有效的方法,但是這種方法會(huì)影響學(xué)習(xí)模型的效用,因?yàn)樗鼑?yán)重依賴于訓(xùn)練數(shù)據(jù)集中的屬性值。Abadi等[18]提出了基于DP的梯度下降(Differentially-Private Stochastic Gradient Descent, DP?SGD)算法,在隨機(jī)梯度下降過(guò)程中加入了噪聲,但是添加的噪聲過(guò)大會(huì)嚴(yán)重影響模型精度。
DeepFM模型[9]是目前比較有效的研究成果之一,它能夠同時(shí)學(xué)習(xí)低階和高階的組合特征,但該模型存在對(duì)于潛在特征挖掘不充分的問(wèn)題,也忽視了對(duì)于用戶個(gè)人隱私的保護(hù);并且,基于深度學(xué)習(xí)的DP技術(shù)還尚未成熟,因?yàn)樘荻葦_動(dòng)在每次迭代訓(xùn)練過(guò)程中都對(duì)梯度添加噪聲,導(dǎo)致噪聲不斷地累加,可能會(huì)影響模型的最終效用。因此,本文提出一種基于DP的廣告推薦算法DP-DeepFM,在模型訓(xùn)練過(guò)程中將高斯噪聲加入到Adam優(yōu)化算法中,并進(jìn)行梯度裁剪以防止加入噪聲過(guò)大引發(fā)的模型性能下降。
本文工作如下:
1)提出一種基于DP的Adam優(yōu)化算法DP-DeepFM,通過(guò)在梯度優(yōu)化過(guò)程中加入高斯噪聲并設(shè)置梯度閾值的方式來(lái)保證模型準(zhǔn)確度。
2)將基于DP的Adam優(yōu)化算法應(yīng)用于DeepFM模型中進(jìn)行廣告推薦,并在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明該算法能在隱私保護(hù)下獲得更好的準(zhǔn)確度。
差分隱私(DP)具有嚴(yán)格的數(shù)學(xué)框架,用于評(píng)估和保護(hù)數(shù)據(jù)隱私。該模型主要通過(guò)向查詢或者分析的結(jié)果中添加適當(dāng)?shù)脑肼曇赃_(dá)到隱私保護(hù)的目的。本文涉及的DP的基本定義和性質(zhì)如下:
參數(shù)敏感度用于確定機(jī)制中的特定查詢所需要的噪聲,它僅與查詢類型相關(guān)。對(duì)于不同的算法,DP具有不同的實(shí)現(xiàn)機(jī)制,其中拉普拉斯機(jī)制和高斯機(jī)制通常用于數(shù)值結(jié)果的保護(hù),而指數(shù)機(jī)制適用于非數(shù)值結(jié)果。
這兩種性質(zhì)在證明相關(guān)算法是否滿足DP的過(guò)程中起著重要作用。
DeepFM模型[9]是一種可以從原始特征中抽取到各種復(fù)雜度特征的端到端模型,模型框圖如圖1所示。
圖1 DeepFM模型框圖
FM部分實(shí)現(xiàn)了對(duì)于一階和二階組合特征的建模,模型表達(dá)式如式(4):
FM部分的輸出結(jié)果如式(5)所示,由兩部分組成:“+”的前部分反映的是一階特征,“+”的后部分反映的是二階的組合特征對(duì)于預(yù)測(cè)結(jié)果的影響。
DP提供了可衡量的隱私保證,有助于降低在機(jī)器學(xué)習(xí)中暴露敏感訓(xùn)練數(shù)據(jù)的風(fēng)險(xiǎn)?;谏疃葘W(xué)習(xí)的DP技術(shù)可分為三種:輸入擾動(dòng)、梯度擾動(dòng)和輸出擾動(dòng)。與輸入擾動(dòng)和輸出擾動(dòng)相比,梯度擾動(dòng)方法更適用于深度學(xué)習(xí)算法,這是因?yàn)樘荻葦_動(dòng)不需要對(duì)目標(biāo)進(jìn)行強(qiáng)假設(shè),它只需要限制每次梯度更新的敏感性,而不是整個(gè)學(xué)習(xí)過(guò)程。梯度擾動(dòng)流程如圖2所示。其次,梯度擾動(dòng)可以在每次迭代時(shí)釋放噪聲梯度,而不會(huì)破壞隱私保證,因?yàn)镈P不受后處理的影響。Adam優(yōu)化算法[22]是梯度下降優(yōu)化算法的擴(kuò)展,具有以下幾種優(yōu)勢(shì):1)適合處理涉及大量數(shù)據(jù)或大量參數(shù);2)只需極少量超參數(shù),調(diào)參容易;3)計(jì)算高效,占用內(nèi)存少。
圖2 梯度擾動(dòng)流程
因此,本文根據(jù)文獻(xiàn)[23]的思路,在DeepFM模型進(jìn)行梯度優(yōu)化時(shí),采用基于DP的Adam優(yōu)化算法,通過(guò)梯度裁剪的方法,將梯度的變化設(shè)置在可控范圍內(nèi)。梯度裁剪是DP訓(xùn)練的一個(gè)重要操作,基于DP的Adam優(yōu)化算法能夠自適應(yīng)地控制梯度裁剪的比例在給定的范圍波動(dòng),控制迭代訓(xùn)練過(guò)程中梯度裁剪的粒度。并且隨機(jī)噪聲被采樣并添加到裁剪的梯度中,通過(guò)比較在訓(xùn)練數(shù)據(jù)集中使用或不使用該特定數(shù)據(jù)點(diǎn)時(shí)的更新,從統(tǒng)計(jì)學(xué)上無(wú)法知道特定數(shù)據(jù)點(diǎn)是否包含在訓(xùn)練數(shù)據(jù)集中。算法偽代碼如算法1所示。
算法1 基于DP的Adam優(yōu)化算法
10) End for
11) End for
12) End
定理1 DP-DeepFM模型滿足差分隱私。
本章將主要介紹DP-DeepFM模型的實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)結(jié)果表明,與其他三種先進(jìn)的模型相比,本文算法具有較高的性能,在隱私保護(hù)下能夠獲得更好的準(zhǔn)確性。
1)數(shù)據(jù)集:本文采用Criteo數(shù)據(jù)集(https://www.kaggle.com/c/criteo-display-ad-challenge/data),該數(shù)據(jù)集包含4 500萬(wàn)用戶的廣告點(diǎn)擊記錄,且記錄按時(shí)間排序;數(shù)據(jù)中的標(biāo)簽屬性代表廣告是否被點(diǎn)擊。本文將數(shù)據(jù)集隨機(jī)分為兩部分:80%用于訓(xùn)練,其余20%用于測(cè)試。
2)評(píng)價(jià)指標(biāo):本文使用受試者工作特征曲線下面積(Area Under the receiver operating characteristic Curve, AUC)和Logloss(Logistic regression loss,稱為邏輯回歸損失或交叉熵?fù)p失)兩種指標(biāo)對(duì)模型進(jìn)行評(píng)估。AUC可以評(píng)價(jià)模型的排序能力,綜合表現(xiàn)模型的性能,它的值越大,表示分類結(jié)果越準(zhǔn)確;Logloss常用于評(píng)估推薦系統(tǒng)的排名情況,值越小,模型效果越好。
3)實(shí)驗(yàn)環(huán)境:本文使用Python語(yǔ)言和Tensorflow-gpu框架實(shí)現(xiàn)了所有模型,通過(guò)GPU Quadro P4000加速,并調(diào)整參數(shù)以記錄各個(gè)模型的訓(xùn)練效果。
為了體現(xiàn)DP-DeepFM模型能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)隱私保護(hù)以及準(zhǔn)確率保障,將本文算法和其他經(jīng)典推薦模型進(jìn)行對(duì)比。
1)EDIF(Exploring Different Interaction among Features)模型[25]將特征的聚合向量作為輸入,并行引入壓縮激勵(lì)網(wǎng)絡(luò)層和顯式高階交互層兩層,提高了特征交互的能力。
2)FM模型[24]使用特征隱向量的內(nèi)積作為交叉特征的權(quán)重,可以將一階特征和高階特征共同融入模型,提高模型的表達(dá)能力。
本節(jié)將從兩個(gè)方面驗(yàn)證算法的有效性與可行性。
3.3.1模型性能比較
表1是在Criteo數(shù)據(jù)集下,DP-DeepFM模型與FM模型[24]、EDIF模型[25]以及DeepFM模型的對(duì)比情況,以驗(yàn)證本文提出的基于差分隱私推薦算法優(yōu)于其他經(jīng)典推薦模型。
表1 模型性能比較
由表1可知,本文提出的DP-DeepFM模型相較于FM模型在Criteo數(shù)據(jù)集上的AUC提高了0.71個(gè)百分點(diǎn),Logloss降低了0.29個(gè)百分點(diǎn),因?yàn)镕M模型主要用于稀疏特征的處理,但不能進(jìn)行高階特征交互,而DP-DeepFM模型通過(guò)端到端的方式同時(shí)獲得了淺層特征交互表示與深層特征交互表示,使模型性能提高。雖然DP-DeepFM模型相較于DeepFM模型以及EDIF模型在準(zhǔn)確率上有所降低,僅分別降低了0.44和0.39個(gè)百分點(diǎn),但是EDIF模型僅僅考慮了特征之間的高階交互,沒(méi)有考慮到模型有數(shù)據(jù)泄漏的風(fēng)險(xiǎn),DP?DeepFM模型在略失精度的同時(shí),提高了模型的安全性。
3.3.2不同差分隱私方案對(duì)DeepFM模型性能影響比較
本部分將主要考察DP-DeepFM模型在不同的差分隱私優(yōu)化算法中的性能比較,以驗(yàn)證本文提出的DP-DeepFM模型優(yōu)于其他經(jīng)典推薦模型。圖3是在Criteo數(shù)據(jù)集下,DeepFM模型在DP-SGD算法和基于差分隱私的Adam優(yōu)化算法(DP-Adam)中的表現(xiàn)情況。
圖3 不同差分隱私方案對(duì)模型準(zhǔn)確率和Logloss的影響
如圖3所示,隨著隱私預(yù)算的增大,梯度擾動(dòng)過(guò)程中注入的噪聲減少,隱私保護(hù)的級(jí)別逐漸降低,準(zhǔn)確率逐漸提高,損失率逐漸降低。這表明本文方法在保護(hù)用戶隱私的同時(shí)能夠有效保證模型的性能。DeepFM模型在DP-SGD算法中的表現(xiàn)比在DP-Adam算法中差,這是因?yàn)镈P-SGD算法對(duì)噪聲的添加量極其敏感,即添加的噪聲對(duì)模型精度影響較大。但DP的實(shí)現(xiàn)方式是將隨機(jī)噪聲加入梯度優(yōu)化算法,在相同的隱私預(yù)算下,本文向模型里注入較小的噪聲,保證了模型的準(zhǔn)確度,因此本文的基于差分隱私的Adam優(yōu)化算法要優(yōu)于DP-SGD算法。
目前,DeepFM模型在工業(yè)界和學(xué)術(shù)界得到了廣泛的研究,由于現(xiàn)有的推薦模型在推薦過(guò)程中難免會(huì)出現(xiàn)隱私泄漏問(wèn)題,因此本文提出了一種基于差分隱私技術(shù)的DeepFM模型,有效地保護(hù)用戶的隱私數(shù)據(jù)。在廣告Criteo數(shù)據(jù)集進(jìn)行多次對(duì)比實(shí)驗(yàn)的結(jié)果表明,相較于其他廣告推薦模型,本文DP?DeepFM模型在保護(hù)數(shù)據(jù)隱私性的同時(shí)能保證推薦結(jié)果的有效性。下一步工作需要進(jìn)一步考慮如何在提高隱私保護(hù)的前提下優(yōu)化廣告推薦模型,提高算法準(zhǔn)確率,從而實(shí)現(xiàn)推薦精度、算法性能和隱私保護(hù)之間的平衡。
[1] 陳檢. 基于神經(jīng)網(wǎng)絡(luò)與因子分解機(jī)的點(diǎn)擊率預(yù)估應(yīng)用研究[J]. 信息技術(shù)與信息化, 2018(8): 204-207.(CHEN J. Application research of click rate estimation based on neural network and factor decomposition machine[J]. Information Technology and Informatization, 2018(8): 204-207.)
[2] WANG Y, BI X, QU A. A logistic factorization model for recommender systems with multinomial responses[J]. Journal of Computational and Graphical Statistics, 2020, 29(2): 396-404.
[3] 孫曉寒,張莉. 基于評(píng)分區(qū)域子空間的協(xié)同過(guò)濾推薦算法[J]. 計(jì)算機(jī)科學(xué), 2022, 49(7): 50-56.(SUN X H, ZHANG L. Collaborative filtering recommendation algorithm based on rating region subspace[J]. Computer Science, 2022, 49(7): 50-56.)
[4] 田震,潘臘梅,尹樸,等. 深度矩陣分解推薦算法[J]. 軟件學(xué)報(bào), 2021, 32(12): 3917-3928.(TIAN Z, PAN L M, YIN P, et al. Deep matrix factorization recommendation algorithm[J]. Journal of Software, 2021, 32(12):3917-3928.)
[5] ZHANG H, ZHONG H, BAI W, et al. Cross-platform rating prediction method based on review topic[J]. Future Generation Computer Systems, 2019, 101: 236-245.
[6] SHAO Y, WANG C. HIBoosting: a recommender system based on a gradient boosting machine[J]. IEEE Access, 2019, 7: 171013-171022.
[7] XU J, HE X, LI H. Deep learning for matching in search and recommendation[J]. Foundations and Trends? in Information Retrieval, 2020, 14(2/3): 102-288.
[8] WILSON C M, FRIDLEY B L, CONEJO-GARCIA J R, et al. Wide and deep learning for automatic cell type identification[J]. Computational and Structural Biotechnology Journal, 2021, 19: 1052-1062.
[9] GUO H, TANG R, YE Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2017: 1725-1731.
[10] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2015: 1322-1333.
[11] HINDS J, WILLIAMS E J, JOINSON A N. “It wouldn’t happen to me”: privacy concerns and perspectives following the Cambridge Analytica scandal[J]. International Journal of Human-Computer Studies, 2020, 143: No.102498.
[12] SHOKRI R, STRONATI M, SONG C, et al. Membership inference attacks against machine learning models[C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 3-18.
[13] 熊平,朱天清,王曉峰. 差分隱私保護(hù)及其應(yīng)用[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 101-122.(XIONG P, ZHU T Q, WANG X F. A survey on differential privacy and applications[J]. Chinese Journal of Computers, 2014, 37(1): 101-122.)
[14] 胡雨谷,葛麗娜. 一種改進(jìn)的差分隱私參數(shù)設(shè)置及數(shù)據(jù)優(yōu)化算法[J]. 計(jì)算機(jī)工程與科學(xué), 2021, 43(10): 1758-1765.(HU Y G, GE L N. An improved differential privacy parameter setting and data optimization algorithm[J]. Computer Engineering and Science, 2021, 43(10): 1758-1765.)
[15] McSHERRY F, MIRONOV I. Differentially private recommender systems: building privacy into the Netflix Prize contenders[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009: 627-636.
[16] REN J, XU X, YAO Z, et al. Recommender systems based on autoencoder and differential privacy[C]// Proceedings of the IEEE 43rd Annual Computer Software and Applications Conference. Piscataway: IEEE, 2019: 358-363.
[17] ZHU T, YE D, WANG W, et al. More than privacy: applying differential privacy in key areas of artificial intelligence[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(6): 2824-2843.
[18] ABADI M, CHU A, GOODFELLOW I, et al. Deep learning with differential privacy[C]// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2016: 308-318.
[19] 張嘯劍,孟小峰. 面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(4): 927-949.(ZHANG X J, MENG X F. Differential privacy in data publishing and analysis[J]. Chinese Journal of Computers, 2014, 37(4): 927-949.)
[20] BU Z, DONG J, LONG Q, et al. Deep learning with Gaussian differential privacy[J]. Harvard Data Science Review, 2020, 2(3): No.cfc5dd25.
[21] 李楊,溫雯,謝光強(qiáng). 差分隱私保護(hù)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(9): 3201-3205, 3211.(LI Y, WEN W, XIE G Q. Survey of research on differential privacy[J]. Application Research of Computers, 2012, 29(9): 3201-3205, 3211.)
[22] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2023-08-03].https://arxiv.org/pdf/1412.6980.pdf.
[23] 李敏,李紅嬌,陳杰. 差分隱私保護(hù)下的Adam優(yōu)化算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2020, 37(6): 253-258, 296.(LI M, LI H J, CHEN J. Adam optimization algorithm based on differential privacy protection[J]. Computer Applications and Software, 2020, 37(6): 253-258, 296.)
[24] RENDLE S. Factorization machines[C]// Proceedings of the 2010 IEEE International Conference on Data Mining. Piscataway: IEEE, 2010, 995-1000
[25] YANG L, ZHENG W, XIAO Y. Exploring different interaction among features for CTR prediction[J]. Soft Computing, 2022, 26(13): 6233-6243.
Advertising recommendation algorithm based on differential privacy
TIAN Lei1,2, GE Lina2,3,4*
(1,,530006,;2,,530006,;3,,530006,;4(),530006,)
With the rapid development of the mobile Internet industry, user data and browsing data have increased significantly, so it is extremely important to accurately grasp the potential needs of users and improve the effect of advertisement recommendation. As a relatively advanced recommendation method at present, DeepFM model can extract various complexity features from the original features, but the model does not protect the data. In order to realize the privacy protection in DeepFM model, a new DeepFM model based on Differential Privacy (DP) was proposed, namely DP-DeepFM. The Gaussian noise was added to Adam optimization algorithm in the training process of DP-DeepFM and the gradient clipping was performed to prevent the addition of excessive noise causing poor model performance. Experimental results on advertising dataset Criteo show that compared with DeepFM, DP-DeepFM only has the accuracy decreased by 0.44 percentage points, but it provides differential privacy protection and is more secure.
Differential Privacy (DP); recommendation algorithm; gradient descent; deep learning; Adam optimization algorithm
1001-9081(2023)11-3346-05
10.11772/j.issn.1001-9081.2023010106
2023?02?10;
2023?04?10;
國(guó)家自然科學(xué)基金資助項(xiàng)目(61862007)。
田蕾(1998—),女,山東鄒城人,碩士研究生,CCF會(huì)員,主要研究方向:差分隱私、推薦算法; 葛麗娜(1969—),女,廣西環(huán)江人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:信息安全、機(jī)器學(xué)習(xí)。
TP302.1
A
2023?04?11。
This work is partially supported by National Natural Science Foundation of China (61862007).
TIAN Lei, born in 1998, M. S. candidate. Her research interests include differential privacy, recommendation algorithm.
GE Lina, born in 1969, Ph. D., professor. Her research interests include information security, machine learning.