程曉娜,孫志鋒
浙江大學(xué) 電氣工程學(xué)院,杭州310027
隨著互聯(lián)網(wǎng)娛樂和社交的日漸成熟,抖音、微視、快手等短視頻App 逐漸成為流行的娛樂方式[1],2018 年6月,抖音首次對(duì)外公布,其日活用戶已超過1.5 億,月活用戶超過3 億。而短視頻App 用戶日常的活躍度很大程度上依賴于視頻流的推薦質(zhì)量。不同于傳統(tǒng)的視頻推薦問題,新興短視頻的推薦頁面是每次只展示一個(gè)視頻的“feed 流”形式[2],缺失了用戶從具有多個(gè)視頻的展示頁面進(jìn)行選擇性點(diǎn)擊的過程,這使得對(duì)用戶的興趣點(diǎn)分析更加困難。如何根據(jù)更加隱晦的用戶隱式反饋行為挖掘用戶的個(gè)性化特征,從而進(jìn)行個(gè)性化的短視頻推薦,是非常重要的問題。
要完成從用戶請(qǐng)求到將個(gè)性化推薦內(nèi)容呈現(xiàn)給用戶,需要一個(gè)完整的推薦系統(tǒng)。推薦系統(tǒng)架構(gòu)通常由用戶行為日志存儲(chǔ)系統(tǒng)、視頻候選集、推薦算法模塊等部分組成[3]。目前的工業(yè)生產(chǎn)中常用的短視頻推薦架構(gòu)結(jié)構(gòu)如圖1所示。在推薦系統(tǒng)中,推薦算法是十分關(guān)鍵的一環(huán),其有效性直接影響著用戶的使用體驗(yàn)和活躍度等關(guān)鍵績(jī)效指標(biāo)(Key Performance Indicator,KPI)。
圖1 短視頻推薦系統(tǒng)一般架構(gòu)
對(duì)于推薦算法,國(guó)內(nèi)外學(xué)者研究出了大量的模型,目前被廣泛應(yīng)用的主要是基于內(nèi)容的推薦、基于協(xié)同過濾的推薦和混合推薦算法等[4]?;趦?nèi)容的推薦算法[5-6]兼顧用戶信息和物品信息,主要是對(duì)文本描述信息的挖掘,其方法多采用詞頻-反文檔頻率(TF-IDF)法生成文本向量空間模型,文獻(xiàn)[5]對(duì)于復(fù)雜文本應(yīng)用HMM模型進(jìn)一步抽取信息,文獻(xiàn)[6]則將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到基于內(nèi)容的推薦中,從多媒體資源的文本信息中預(yù)測(cè)隱向量因子。但基于內(nèi)容的方法需要用戶和物品的描述信息,難以解決描述信息表達(dá)不完整、不充分的問題,而基于協(xié)同過濾的算法則不依賴于描述信息?;趨f(xié)同過濾的推薦算法是最早發(fā)展且目前應(yīng)用最為廣泛的推薦算法[7],分為基于用戶的協(xié)同過濾[8]、基于物品的協(xié)同過濾[9]和基于模型的協(xié)同過濾[10],根據(jù)用戶對(duì)物品的歷史評(píng)分?jǐn)?shù)據(jù),計(jì)算用戶相似度或者物品相似度,從而進(jìn)行推薦,不需要物品的具體內(nèi)容信息,但其性能受到評(píng)分?jǐn)?shù)據(jù)的稀疏性和新用戶/新物品的冷啟動(dòng)問題的制約。文獻(xiàn)[11]隨機(jī)抓取局部特征,并在局部特征上利用自動(dòng)編碼機(jī)進(jìn)行學(xué)習(xí),改進(jìn)了基于模型的矩陣分解算法,使得局部性特征得到了更加準(zhǔn)確的表達(dá)。文獻(xiàn)[12]提出一種用戶隱式信任計(jì)算方法,建立用戶間接信任,一定程度上改善了冷啟動(dòng)的問題。文獻(xiàn)[13]在矩陣分解中融合基于社交網(wǎng)絡(luò)的特征矩陣,緩解了數(shù)據(jù)稀疏的問題,文獻(xiàn)[14]則深入研究了社交信息變化對(duì)基于模型的社交關(guān)系推薦的影響,從社交網(wǎng)絡(luò)中心節(jié)點(diǎn)入手提升了推薦質(zhì)量,但現(xiàn)階段短視頻的穩(wěn)定版本中尚沒有設(shè)計(jì)“好友關(guān)系”的模式,因此無法利用社交方面的數(shù)據(jù)。同時(shí),以上所述的基于協(xié)同過濾的方法的特征矩陣均依賴于用戶對(duì)物品的顯式評(píng)分信息,無法直接適用于沒有顯式評(píng)分的隱式反饋場(chǎng)景[15]?;陔[式反饋場(chǎng)景,Liu M等人提出成對(duì)因子混合相似性模型[16],取得了比相似度學(xué)習(xí)和成對(duì)偏好更好的效果,但是本文的短視頻推薦場(chǎng)景基于線上分布式大規(guī)模數(shù)據(jù)集實(shí)驗(yàn),需要更加高效的在線算法?;旌贤扑]模型[17-19]能兼顧用戶-物品評(píng)分?jǐn)?shù)據(jù)以及物品描述信息,且能有效利用分類和回歸算法,拓寬了推薦算法的思路,例如文獻(xiàn)[20]將電商推薦看作分類問題并將XGBoost模型應(yīng)用到其中,但其模型較為簡(jiǎn)單,難以應(yīng)對(duì)復(fù)雜的場(chǎng)景。文獻(xiàn)[21]提出了GBM 和LR融合模型,證明了提升樹算法在特征交叉上的優(yōu)勢(shì),并將融合模型應(yīng)用到廣告點(diǎn)擊率(Click Through Rate,CTR)預(yù)估中,但GBM算法在分布式大規(guī)模數(shù)據(jù)集上的效率往往遜于XGBoost算法[22]。
在短視頻推薦場(chǎng)景中,一方面,用戶只有隱式反饋行為,而沒有對(duì)視頻的顯式評(píng)分,所以只能基于隱式反饋設(shè)計(jì)推薦算法。另一方面,用戶通常僅僅播放視頻,而點(diǎn)贊、評(píng)論等互動(dòng)行為稀疏,導(dǎo)致現(xiàn)有推薦算法的個(gè)性化不足。為此,本文提出LFM-XGB-LR融合模型,基于隱式反饋數(shù)據(jù),利用LFM 生成用戶偏好嵌入和視頻特性嵌入,提升了模型的個(gè)性化性能,并利用了XGB和LR 在特征交叉和分布式運(yùn)算上的優(yōu)勢(shì),最終使模型總體的性能得到了明顯提升。
隱語義模型(Latent Factor Model,LFM)是一種隱含語義分析技術(shù),最早于文本挖掘領(lǐng)域被提出,用于表示文本的潛在語義。LFM 通過如下的公式計(jì)算用戶u對(duì)物品i 的喜好程度:
其中,pu,k代表用戶u 對(duì)第k 個(gè)隱類的喜好程度,qi,k代表物品i 和第k 個(gè)隱類屬性的關(guān)系。LFM 算法的損失函數(shù)為:
其中λ‖ pu‖2+λ‖ qi‖2是用來防止過擬合的正則化項(xiàng)。最小化以上損失函數(shù)的算法,一般采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)或者交替最小二乘法(Alternating Least Squares,ALS)。
由陳天奇首次提出的極限梯度提升算法(eXtreme Gradient Boosting,XGBoost)[22]是一種基于前向分步相加和提升(boosting)的集成(Ensemble)模型,其基學(xué)習(xí)器是分類回歸樹(Classification And Regression Tree,CART),模型的損失函數(shù)為:
泰勒二階展開近似與轉(zhuǎn)化后的目標(biāo)函數(shù)為:
求解得到的目標(biāo)函數(shù)最優(yōu)解為:
本章結(jié)合短視頻應(yīng)用場(chǎng)景,詳細(xì)介紹LFM-XGB-LR模型的具體構(gòu)建和實(shí)現(xiàn)。模型整體將視頻推薦問題類比為分類問題,即對(duì)于每一個(gè)用戶視頻對(duì)(useri,itemj),判斷用戶i 是否對(duì)視頻j 感興趣。樣本數(shù)據(jù)集的數(shù)學(xué)表示為T={(x1,y1),(x2,y2),…,(xN,yN)},xi?Rn,yi?R ,其中xi表示第i 個(gè)樣本的特征向量,yi表示第i 個(gè)樣本的標(biāo)簽。
3.1.1 用戶隱式反饋行為的轉(zhuǎn)化
短視頻推薦場(chǎng)景屬于隱式反饋推薦,不同于用戶對(duì)物品有顯式評(píng)分反饋的場(chǎng)景,只能獲取用戶的隱式反饋行為,如是否完整播放視頻、點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等。根據(jù)業(yè)務(wù)場(chǎng)景的特性,本文以用戶對(duì)視頻的觀看完成度定義正負(fù)樣本,當(dāng)觀看完成度小于閾值α 時(shí),該視頻是該用戶的負(fù)樣本,即:
將用戶行為類型集合記為B={ }b1,b2,…,bn,用戶行為流水集合記為S={ }S1,S2,…,Ss,…,Sm,表1給出了用戶行為流水?dāng)?shù)據(jù)的日志數(shù)據(jù)格式。行為類型數(shù)據(jù)中,除了記錄了用戶的每次播放時(shí)長(zhǎng),也記錄了點(diǎn)贊、評(píng)論、收藏、關(guān)注視頻作者等正向互動(dòng)行為。在之前的算法中,一般將播放行為和正向互動(dòng)行為分為兩類賦予權(quán)重,其中,播放行為以播放時(shí)長(zhǎng)/視頻總時(shí)長(zhǎng) 來衡量喜好程度,正向互動(dòng)行為則賦予相同的正整數(shù)權(quán)重。但將所有正向互動(dòng)行為賦予相同權(quán)重并不十分符合實(shí)際情況,例如,用戶“點(diǎn)贊”一個(gè)視頻和“關(guān)注視頻作者”體現(xiàn)出的喜好程度,明顯后者更強(qiáng)。從大量統(tǒng)計(jì)數(shù)據(jù)和用戶行為分析,足夠長(zhǎng)時(shí)間段的數(shù)據(jù)統(tǒng)計(jì)中,一種互動(dòng)行為的發(fā)生總次數(shù)越少,則用戶發(fā)生這種行為時(shí),體現(xiàn)出的對(duì)視頻的喜好程度越強(qiáng)。為了更加細(xì)致地挖掘隱式反饋行為,本文設(shè)計(jì)如下正向行為權(quán)重轉(zhuǎn)化公式:
其中:
N(bi)表示bi這種行為在統(tǒng)計(jì)時(shí)間段中發(fā)生的總次數(shù),rank(bi)表示行為bi按照N(bi)從大到小的排序次序(從1 開始),rank(bi)越大(排序越靠后),則用戶發(fā)生行為bi時(shí),根據(jù)統(tǒng)計(jì)行為分析,其代表的偏好權(quán)重應(yīng)該越大。一種可以想到的方式是以等差數(shù)列對(duì)這些行為從小到大依次賦權(quán)重值,但為了更加準(zhǔn)確地表示權(quán)重的差異,將排在第n+1-rank(bi) 位的行為的總次數(shù)N(bn+1-rank(bi))取對(duì)數(shù)作為行為bi的權(quán)重,取對(duì)數(shù)是為了避免N(bi)數(shù)量級(jí)上的差異導(dǎo)致的小權(quán)重行為的結(jié)果偏差(為了增加權(quán)重?cái)?shù)據(jù)的可拓展和可移植性,對(duì)權(quán)重?cái)?shù)值做了取整,實(shí)驗(yàn)中為了保證準(zhǔn)確性,權(quán)重結(jié)果保留兩位小數(shù))。然后將wbi進(jìn)行標(biāo)準(zhǔn)化:
根據(jù)公式,wbi越大,表示用戶對(duì)視頻發(fā)生行為bi時(shí),用戶對(duì)該視頻的喜好程度越高,這符合大量數(shù)據(jù)行為分析的結(jié)果,同時(shí),直觀上,行為總次數(shù)越少,可以理解為行為成本越高,那么用戶發(fā)生這種行為時(shí),說明用戶對(duì)視頻的喜好程度越強(qiáng),符合認(rèn)知。
3.1.2 基于ALS算法的Embedding計(jì)算
將用戶對(duì)視頻的行為權(quán)重表示為矩陣Am×n,其中Ai,j表示用戶i 對(duì)視頻j 的隱式反饋行為的權(quán)重,以3.1.1 節(jié)設(shè)計(jì)的方法計(jì)算。對(duì)于j ∈Su_negative,有Ai,j=0。對(duì)于用戶i 未看到過視頻j 的,Ai,j為空缺值(待預(yù)測(cè))。
假設(shè)待求解的User Embedding 和Item Embedding均是k 維向量,有pu,qi∈Rk。用Pk×m表示m 個(gè)用戶的隱向量矩陣,Qk×n表示n 個(gè)視頻的隱向量矩陣。根據(jù)隱語義模型,有Am×n≈PTk×m×Qk×n。本文采用ALS算法迭代計(jì)算User Embedding 和Item Embedding,步驟如下:
步驟1 隨機(jī)生成一個(gè)P(0)。
表1 用戶行為日志數(shù)據(jù)格式
步驟2 固定P(0),求解Q(0),此時(shí)的損失函數(shù)為C=,將損失函數(shù)對(duì)qi的導(dǎo)數(shù),有:
即:
令M1=(PPT+λE),M2=PrTi,則:
按照上式依次計(jì)算q1,q2,…,qn,從而得到q(0)。步驟3 固定q(0),求解p(1)。根據(jù)對(duì)稱性,有:
其中,M1=(QQT+λE),M2=QrTu。
步驟4 循環(huán)執(zhí)行步驟2 和步驟3,直到損失函數(shù)收斂到閾值范圍內(nèi),得到的pu和qi即為User Embedding和Item Embedding。
本文模型樣本的特征向量由Embedding 和統(tǒng)計(jì)學(xué)特征兩部分組成,本節(jié)說明統(tǒng)計(jì)特征的計(jì)算方法,包含用戶和視頻統(tǒng)計(jì)特征。
3.2.1 總量特征
用戶和視頻的總量特征表征用戶活躍度和視頻熱度的總體情況。視頻的總量特征包括點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等互動(dòng)總次數(shù)、播放完整總次數(shù)等;用戶的總量特征包括用戶總播放量、總點(diǎn)贊量、總評(píng)論量以及用戶在視頻一級(jí)、二級(jí)分類下的行為總量。公式表示如下:
其中:
3.2.2 均值特征
均值特征表征用戶和視頻的平均表現(xiàn)水平,包括用戶和視頻的平均播放時(shí)長(zhǎng)、平均播放完成度、各一二級(jí)視頻分類的平均播放時(shí)長(zhǎng)等特征,是總量特征在統(tǒng)計(jì)人數(shù)/視頻數(shù)上的平均。其中,播放完成度定義為:
3.2.3 比率特征
在播放量、點(diǎn)贊量、轉(zhuǎn)發(fā)量等總量特征的基礎(chǔ)上進(jìn)一步計(jì)算點(diǎn)贊率、轉(zhuǎn)發(fā)率、評(píng)論率等比率特征,相對(duì)于總量特征,比率特征的表達(dá)更加穩(wěn)定。如點(diǎn)贊率可以由r點(diǎn)贊=n點(diǎn)贊/n曝光計(jì)算。但由于比率特征受基數(shù)影響大,引入威爾遜區(qū)間取95%置信區(qū)間做平滑,修正后的點(diǎn)贊率如下:
其中,z 取t-分布95%概率區(qū)間下的統(tǒng)計(jì)量。
3.2.4 對(duì)比特征
對(duì)比特征是為了更好地表征用戶的差異性偏好。例如用戶A 和B 對(duì)運(yùn)動(dòng)類視頻的點(diǎn)贊率都是8%,但用戶A 對(duì)所有視頻的平均點(diǎn)贊率為5%,用戶B 對(duì)所有視頻的平均點(diǎn)贊率為10%,顯然此時(shí)只用點(diǎn)贊率來衡量?jī)蓚€(gè)用戶對(duì)運(yùn)動(dòng)類視頻的喜歡程度是不夠準(zhǔn)確的。因此,對(duì)行為類特征引入對(duì)比特征,計(jì)算公式如下:
記LFM 生成的User/Item Embedding 向量為Fem,統(tǒng)計(jì)特征為Fsta,將兩部分特征向量進(jìn)行拼接(concatenate),有:
FXGB_i即為XGBoost 模型的訓(xùn)練集樣本T 中的xi,將樣本輸入XGB模型,訓(xùn)練過程如下:
步驟1 每次循環(huán)生成一棵樹fm(x)。
步驟2 循環(huán)開始時(shí),對(duì)于每一個(gè)樣本,計(jì)算gi=?y?(t-1)l(yi,和
步驟3 采用貪婪算法生長(zhǎng)樹,對(duì)于FXGB中每個(gè)特征的每個(gè)取值,計(jì)算增益值,選取增益值Gain=最大的作為分割點(diǎn)。
為了在融合模型中利用XGB 模型特征交叉的結(jié)果,將模型輸出轉(zhuǎn)化為獨(dú)熱(one-hot)向量。對(duì)于模型生成的每一棵決策樹,每個(gè)樣本經(jīng)過這棵樹都確定地落在其某個(gè)葉子節(jié)點(diǎn)上。葉子節(jié)點(diǎn)是特征交叉的結(jié)果,可以表示為:其中,d 為樹的深度,ti表示樣本落在樹的第i 個(gè)葉節(jié)點(diǎn),ql(x)表示樹的第l 層的結(jié)構(gòu)函數(shù)。將每個(gè)樣本通過每棵決策樹轉(zhuǎn)化為one-hot 交叉特征,拼接后的交叉特征維數(shù)為樹的棵樹×每棵樹葉子節(jié)點(diǎn)數(shù),記為Fcross。
在下一步融合邏輯回歸(Logistic Regression,LR)模型之前,由于LR 模型對(duì)于離散化特征的學(xué)習(xí)效率更高,考慮到大規(guī)模的數(shù)據(jù)集,先采用等頻分割[23]的方式對(duì)FXGB進(jìn)行離散化,記離散化后的特征向量為F′XGB,并與Fcross融合,有:
FLR=cat(F′XGB,Fcross)
將FLR_i作為xi,將訓(xùn)練樣本T 輸入LR模型,以對(duì)數(shù)損失(Logarithmic loss,Logloss)為損失函數(shù),有:
其中:
使用梯度下降法迭代求解參數(shù)向量θ,有:
回歸參數(shù)求解步驟如下:
步驟1 初始化參數(shù)向量θ。
步驟2 對(duì)訓(xùn)練集中的每個(gè)樣本,計(jì)算該樣本的梯度。
步驟4 重復(fù)步驟2 和步驟3,直到參數(shù)收斂誤差小于規(guī)定閾值。
最后將解得的參數(shù)向量代入式(12)計(jì)算樣本得分。
LFM-XGB-LR 融合模型的結(jié)構(gòu)如圖2。模型最終輸出的是預(yù)測(cè)為正樣本的概率,概率值越大,表示用戶越喜歡該視頻,按此值給用戶待推薦的視頻進(jìn)行排序,得到Top100推薦結(jié)果。
本文的實(shí)驗(yàn)數(shù)據(jù)集是某短視頻App 從7 月1 日到8月8日的用戶流水?dāng)?shù)據(jù)及用戶和視頻屬性信息,過濾掉記錄數(shù)少于10條的用戶后,包含954 183位活躍用戶對(duì)1 259 672 個(gè)視頻的觀看、點(diǎn)贊、評(píng)論、查看bgm、查看評(píng)論、關(guān)注視頻作者等行為和行為時(shí)間戳,每天的流水?dāng)?shù)據(jù)量為五千萬左右。用戶屬性信息包括用戶注冊(cè)時(shí)間、性別、年齡、地區(qū)(城市線)、受教育水平等,視頻屬性信息包括視頻一級(jí)分類、二級(jí)分類、標(biāo)簽、上傳者、上傳時(shí)間等。
訓(xùn)練樣本構(gòu)造采用時(shí)間滑窗的方式如圖3 所示,F(xiàn)sta的提取分長(zhǎng)短期,長(zhǎng)期特征為31 天,中期特征為14天,短期特征為7天和1天;Fem的計(jì)算中,以31為行為權(quán)重估計(jì)周期,當(dāng)用戶對(duì)同一視頻有多種行為時(shí),以權(quán)重最高的計(jì)算。在正負(fù)樣本的選取上,考慮到正負(fù)樣本的均衡,將播放完整度小于30%且沒有互動(dòng)行為(互動(dòng)行為均為正向行為)的作為負(fù)樣本,有互動(dòng)行為的作為正樣本,此時(shí)正負(fù)樣本比例約為1∶2。
超參數(shù)(hyper parameter)的選取采用網(wǎng)格搜索(Grid Search)方法,涉及的超參數(shù)的最終選取結(jié)果如表2。根據(jù)圖4 的模型誤差和AUC 隨迭代次數(shù)的變化趨勢(shì),LFM 的損失函數(shù)在700 次迭代后收斂于0.8E?4,為了保證得到嵌入向量的準(zhǔn)確性,將LFM 的迭代次數(shù)設(shè)置為1 000;融合模型的誤差在800 次迭代后收斂于0.9E?4,同時(shí)測(cè)試集AUC穩(wěn)定上升至最大值0.819保持不變,據(jù)此,將模型收斂誤差閾值設(shè)置為1E?4,由于模型最終的輸出是預(yù)測(cè)為正樣本的概率值,1E?4 之內(nèi)的誤差不會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生干擾。由于實(shí)驗(yàn)數(shù)據(jù)量較大,模型的計(jì)算均使用Spark在分布式數(shù)據(jù)庫(kù)上進(jìn)行。
推薦問題要同時(shí)考慮推薦結(jié)果的準(zhǔn)確率和召回率,本文使用AUC、MAP@10/20/50、top10/20/50 平均命中率作為評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè)。
圖2 LFM-XGB-LR融合模型結(jié)構(gòu)圖
AUC(Area Under the Curve of ROC)是ROC 曲線下的面積,計(jì)算方式如下:
其中,P 表示模型對(duì)樣本的打分,有:
MAP(Mean Average Precision)是AP(Average Precision)在用戶粒度上的平均,AP@n的計(jì)算公式如下:
其中,ppi是在i 處的命中率,且有:本實(shí)驗(yàn)中取n=30。
topK 平均命中率評(píng)估模型推薦出的前K 個(gè)item 的命中率在用戶粒度上的平均,對(duì)于每個(gè)用戶,其topK命中率定義如下:
為了驗(yàn)證本文提出的融合模型的有效性,分別采用以下幾種方法作為對(duì)比實(shí)驗(yàn):
實(shí)驗(yàn)1 傳統(tǒng)基于item的協(xié)同過濾方法,其中用戶對(duì)物品的評(píng)分以公式計(jì)算。
實(shí)驗(yàn)2 Fsta(統(tǒng)計(jì)類特征)+XGBoost模型。
實(shí)驗(yàn)3 F′sta(離散化的統(tǒng)計(jì)類特征)+LR模型。
實(shí)驗(yàn)4 FXGB+XGBoost模型。
實(shí)驗(yàn)5 F′XGB+LR模型。
實(shí)驗(yàn)6 Fcross+LR模型。
實(shí)驗(yàn)7 LFM-XGB-LR融合模型。
各種方法的評(píng)估指標(biāo)情況如表3。
從實(shí)驗(yàn)結(jié)果可以看出,本文提出的LFM-XGB-LR融合模型在評(píng)估上對(duì)比傳統(tǒng)模型有明顯提升。具體分析來看,第一,基于LFM的用戶偏好嵌入和物品特性嵌入作為高階特征,更加充分地挖掘了用戶的隱式反饋數(shù)據(jù),使得特征表達(dá)更加充分和完整,可以看到加入Embedding 特征的各組模型的指標(biāo)均得以提升;對(duì)比LFM 嵌入前后特征重要性top10(表4),特征重要性以特征被選作分裂節(jié)點(diǎn)的次數(shù)計(jì)算,用戶偏好嵌入特征重要性排進(jìn)top10,且在37/80 棵決策樹的根節(jié)點(diǎn)被選用,說明用戶嵌入有效緩解了用戶互動(dòng)行為稀疏導(dǎo)致的低階偏好特征重要性低的問題,模型更加“重視”用戶偏好特征,從而提升了模型的個(gè)性化性能;同時(shí),從圖5的視頻類別變化看出,LFM 嵌入修正了推薦視頻的類別分布,各個(gè)類別的視頻更加均勻,這使得更多類型的優(yōu)秀視頻能被推薦給更多用戶,有效改善了視頻嚴(yán)重傾斜到單一類別上導(dǎo)致的調(diào)性單一以及拉空優(yōu)質(zhì)視頻庫(kù)的問題。第二,融合模型充分發(fā)揮了XGBoost模型在特征交叉上的優(yōu)異性能,能夠根據(jù)信息增益自動(dòng)做特征交叉,省去了人工做笛卡爾特征交叉的工作,且選擇出的交叉特征更加有效;XGBoost分布式的運(yùn)算架構(gòu)也提高了分布式數(shù)據(jù)集上的算法效率。第三,LR 模型在離散特征的處理上效率優(yōu)于連續(xù)特征,且特征表達(dá)的充分與否對(duì)模型性能至關(guān)重要,本文的融合模型結(jié)合了LFM 嵌入和XGB 交叉特征優(yōu)勢(shì)并且進(jìn)行了合理的特征離散化,各項(xiàng)評(píng)估指標(biāo)表明,LR模型的優(yōu)勢(shì)得以很好地發(fā)揮。
圖3 數(shù)據(jù)集構(gòu)造圖
圖4 模型誤差和AUC隨迭代次數(shù)變化
表2 超參數(shù)設(shè)置
表3 對(duì)比實(shí)驗(yàn)各項(xiàng)評(píng)估數(shù)據(jù)
表4 加入LFM嵌入前后特征重要性top10特征對(duì)比
圖5 加入LFM嵌入對(duì)視頻類別分布的影響
同時(shí),為排除測(cè)試集的時(shí)間干擾因素,采取k 折交叉驗(yàn)證(K-fold Cross Validation)的方式,取k=8,分別將八組樣本作為測(cè)試集,其余作為訓(xùn)練集,以AUC為評(píng)價(jià)指標(biāo),得到的結(jié)果如表5所示??梢钥吹礁鱾€(gè)實(shí)驗(yàn)的AUC 指標(biāo)雖隨時(shí)間有所波動(dòng),但本文的融合模型在各組實(shí)驗(yàn)上均有穩(wěn)定提升。
表5 各實(shí)驗(yàn)的交叉驗(yàn)證AUC值
個(gè)性化推薦是信息流領(lǐng)域的核心問題,而由于其業(yè)務(wù)場(chǎng)景的特性,在絕大多數(shù)情況下,這些問題只能基于用戶的隱式反饋行為解決。本文提出了一種基于用戶行為邏輯的隱式行為權(quán)重計(jì)算方式,并在此基礎(chǔ)上將文本處理領(lǐng)域的LFM 模型應(yīng)用到推薦問題上,以向量嵌入的方式解決了這類問題中由于用戶互動(dòng)行為數(shù)據(jù)的稀疏性導(dǎo)致的個(gè)性化不足問題;同時(shí),考慮到XGBoost模型更擅長(zhǎng)特征交叉而LR模型更擅長(zhǎng)大規(guī)模離散特征的計(jì)算,本文設(shè)計(jì)了基于LFM 向量嵌入的XGBoost 和LR 融合模型。對(duì)比實(shí)驗(yàn)的各項(xiàng)評(píng)測(cè)指標(biāo)表明,融合模型的效果優(yōu)于傳統(tǒng)協(xié)同過濾和分類模型,后續(xù)線上實(shí)驗(yàn)也證明了本文模型的有效性。