顧亦然,徐澤彬,楊海根
(南京郵電大學(xué) a.自動化學(xué)院、人工智能學(xué)院;b.智慧校園研究中心;c.寬帶無線通信技術(shù)教育部工程研究中心,江蘇 南京 210023)
隨著5G網(wǎng)絡(luò)的普及,人們可以使用更快速、更穩(wěn)定的網(wǎng)絡(luò),用戶可以獲取的短視頻數(shù)據(jù),以及訪問短視頻資源的終端設(shè)備越來越多,短視頻平臺的用戶規(guī)模和視頻資源與日俱增,短視頻行業(yè)蓬勃發(fā)展,越來越多的人利用短視頻來消遣娛樂以及獲得利潤。隨之而來的就是海量的用戶信息以及視頻信息。所以如何在信息過載的前提下,對海量的視頻數(shù)據(jù)進(jìn)行篩選,更加精確地將用戶感興趣的短視頻推薦給用戶,為用戶提供個性化短視頻推薦是當(dāng)下需要研究的熱點之一。
在短視頻推薦相關(guān)領(lǐng)域,網(wǎng)絡(luò)中的用戶和項目都爆炸式增長,那么考慮用戶與項目之間的交互過程即對用戶觀看短視頻時的互動行為進(jìn)行預(yù)測,可以為短視頻推薦提供有力的支撐,對用戶行為預(yù)測的本質(zhì)就是對每種行為的點擊率(Click-through-rate,CTR)進(jìn)行預(yù)測。點擊率預(yù)測[1]為推薦系統(tǒng)提供了支持與保障[2]。點擊率預(yù)測根據(jù)用戶、項目及上下文特征預(yù)測用戶點擊該項目的概率,幫助搜索引擎、推薦系統(tǒng)等向用戶展示更個性化、更精準(zhǔn)的內(nèi)容。
近年來,隨著數(shù)據(jù)量的日益龐大以及深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,越來越多的學(xué)者利用神經(jīng)網(wǎng)絡(luò)來進(jìn)行點擊率預(yù)測,并取得很好的效果,文獻(xiàn)[3]將寬結(jié)構(gòu)網(wǎng)絡(luò)(類似LR)和深結(jié)構(gòu)網(wǎng)絡(luò)(類似DNN)并行集成在一起,通過考慮低階和高階特征交互取得了一些改進(jìn)。由于FM在點擊率預(yù)測上有上較好的效果,文獻(xiàn)[4]通過用FM模型替換寬結(jié)構(gòu)網(wǎng)絡(luò)來改進(jìn)文獻(xiàn)[3]中的模型,使得寬結(jié)構(gòu)網(wǎng)絡(luò)不再依賴專業(yè)知識特征工程。現(xiàn)如今某些項目中點擊率預(yù)測需要對用戶的多個行為進(jìn)行預(yù)測,由于多個任務(wù)間可能存在某些聯(lián)系,因此一些學(xué)者提出多任務(wù)模型,文獻(xiàn)[5]提出了隱層參數(shù)硬共享的方式來進(jìn)行多任務(wù)學(xué)習(xí),該模型在輸入層之上建立共享層,共享層使用一個共享的子網(wǎng)絡(luò),學(xué)習(xí)共同的模式,包含行為間關(guān)聯(lián)信息。在共享層之上用一些特定的全連接層(FC)學(xué)習(xí)特定的任務(wù)。這是一種十分經(jīng)典的方法,又稱為共享底層結(jié)構(gòu)(Shared-Bottom)。共享底層結(jié)構(gòu)最大的缺點就是底層強(qiáng)制共享,難以學(xué)習(xí)到適用于所有任務(wù)的表達(dá),尤其是任務(wù)間相關(guān)性不好的時候。文獻(xiàn)[6]提出一種基于點擊率預(yù)測模型的新聞推薦系統(tǒng),通過一鍵編碼和梯度增強(qiáng)決策樹處理數(shù)據(jù)特征,解決傳統(tǒng)新聞推薦中受時間、不活躍用戶比例高、新聞數(shù)據(jù)規(guī)模大等因素影響的問題。文獻(xiàn)[7]提取用戶行為序列的特征作為用戶特征的擴(kuò)展,結(jié)合因子分解機(jī)結(jié)構(gòu)將其與用戶、商品特征進(jìn)行交叉,能夠有效提取特征質(zhì)量,優(yōu)化點擊率預(yù)測模型的性能。文獻(xiàn)[8]提出一種融合結(jié)構(gòu)的點擊率預(yù)測模型,該模型能夠靈活融合不同結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)來分別學(xué)習(xí)原始高維稀疏特征的高階表示,使點擊率預(yù)測模型能夠利用更豐富的高階特征信息,提高預(yù)測精度。上述方法在點擊率預(yù)測時沒有考慮到用戶歷史數(shù)據(jù)中蘊含的用戶興趣,只是將最終的點擊率預(yù)測結(jié)果作為用戶的偏好興趣,文獻(xiàn)[9]構(gòu)建了一種基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)(ADIN)模型,設(shè)計了一個局部激活單元和自適應(yīng)激活函數(shù),根據(jù)用戶歷史行為和給定廣告自適應(yīng)地學(xué)習(xí)用戶興趣,提高點擊率預(yù)測精度。文獻(xiàn)[10]提出一種名為專注膠囊網(wǎng)絡(luò)(ACN)的方法,使用transformers進(jìn)行功能交互,利用膠囊網(wǎng)絡(luò)從用戶歷史記錄中捕獲用戶多個興趣,提高在線廣告中點擊率預(yù)測精度。文獻(xiàn)[11]提出一種基于DIN(深度興趣網(wǎng)絡(luò))的新模型,該模型可以更好地利用類似于注意力激活網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu),捕捉用戶多樣性和興趣偏好,提高淘寶點擊率預(yù)測效果。上述提到的一系列點擊率預(yù)測方法只是將整體預(yù)測結(jié)果反映為用戶的興趣偏好或采用某個方法捕捉用戶興趣,沒有考慮到用戶的興趣會隨時間發(fā)生變化這一因素。
本文在對用戶觀看短視頻過程中的4種互動行為(讀評論、點贊、點擊頭像、轉(zhuǎn)發(fā))進(jìn)行點擊率預(yù)測時,主體是用戶?,F(xiàn)實中短視頻用戶興趣可能是隨著時間變化的,考慮用戶興趣變化這一因素對提升預(yù)測準(zhǔn)確性尤為重要。本文在MMOE模型[12]的基礎(chǔ)上考慮用戶興趣變化,將排序后的用戶歷史行為序列作為語料庫,引入Word2Vec訓(xùn)練得到詞嵌入模型,模型學(xué)習(xí)用戶的動態(tài)興趣,有效捕獲用戶興趣的變化。將通過特征工程構(gòu)建的統(tǒng)計特征與詞嵌入模型構(gòu)建的用戶動態(tài)興趣特征輸入MMoE模型進(jìn)行用戶行為預(yù)測。
Word2vec是Google在2013年開源的一款將文本表示為向量的詞嵌入工具[13],通過訓(xùn)練把一些文本內(nèi)容轉(zhuǎn)化為機(jī)器能夠識別與理解的N維向量進(jìn)行空間向量運算,Word2vec主要模型有Skip-gram與CBOW,在模型的實際訓(xùn)練過程中,Skip-gram的耗時多于CBOW,但是學(xué)習(xí)詞向量更細(xì)致[14]。當(dāng)語料庫中有大量低頻詞時,使用Skip-gram學(xué)習(xí)較為合適。Skip-gram是使用中心詞預(yù)測周圍詞,而CBOW是使用周圍詞預(yù)測中心詞,兩模型整體結(jié)構(gòu)相反,這里僅以Skip-gram模型為例進(jìn)行介紹。
Skip-gram模型是根據(jù)已有的內(nèi)容來預(yù)測上下文的,根據(jù)中心詞Wt來預(yù)測其上下文詞語Wt-c,…,Wt-1,Wt+1,…Wt+c的向量,其中c為上下文窗口大小。Skip-gram模型由三層神經(jīng)網(wǎng)絡(luò)構(gòu)成,包括輸入層、映射層、輸出層。輸入層為中心詞Wt的one-hot向量,輸入層與映射層之間的權(quán)重矩陣為Wv·p,映射層和輸出層之間的權(quán)重矩陣Wp·v,輸出層為詞語出現(xiàn)在中心詞周圍的概率分布。中心詞Wt的one-hot向量乘以模型訓(xùn)練后得到的權(quán)值矩陣Wv·p,即詞語Wt的Word2Vec詞向量。Skip-gram 模型的結(jié)構(gòu)如圖1所示。
圖1 Skip-gram模型結(jié)構(gòu)
對Skip-gram模型的訓(xùn)練目的就是讓優(yōu)化目標(biāo)L的值盡可能地變大,優(yōu)化目標(biāo)L的計算公式為
(1)
其中,c(c>0)為表示的是窗口的大小,T為訓(xùn)練文本的大小。其中基本的Skip-gram模型計算條件概率的公式為
(2)
本文首先在原始數(shù)據(jù)中抽取一系列基本id特征,基本id特征可以最直觀地反映用戶的選擇。然后選取基本用戶特征與短視頻特征,并通過特征工程將選取的基本特征轉(zhuǎn)化為更好表達(dá)問題本質(zhì)的統(tǒng)計特征,使得將這些特征運用到預(yù)測模型中能提高對不可見數(shù)據(jù)的模型預(yù)測精度。最后構(gòu)建能反映用戶興趣變化的embedding特征。
基本id特征包括用戶id,短視頻id,短視頻作者id,短視頻背景音樂(bgm_song)id,以及短視頻背景音樂歌手(bgm_singer)id。
統(tǒng)計特征就是利用統(tǒng)計分析方法,在原有的基本特征的基礎(chǔ)上計算得到新的特征。本文主要是從用戶、短視頻以及短視頻作者這3個層面來構(gòu)建統(tǒng)計特征。從用戶的層面,構(gòu)建的統(tǒng)計特征為:用戶視頻觀看時長、停留時長占視頻總時長的比率、用戶觀看過的視頻數(shù)量、用戶與短視頻某一交互行為的總次數(shù)、平均次數(shù)、用戶觀看某一作者視頻占觀看的所有作者的比率;從短視頻的層面,構(gòu)建的統(tǒng)計特征為:某一個短視頻被用戶觀看的次數(shù);從短視頻作者的層面,構(gòu)建的統(tǒng)計特征為:某個短視頻作者被點擊過的次數(shù)以及觀看某個視頻作者的用戶占所有用戶的比率。統(tǒng)計特征總覽如表1所示:
表1 統(tǒng)計特征總覽表
用戶的歷史行為數(shù)據(jù)中蘊含了用戶自身的偏好和興趣,但是用戶的興趣并不是不變的,隨著時間變化,用戶興趣可能也會發(fā)生變化。本文從數(shù)據(jù)中提取用戶-短視頻序列、用戶-短視頻作者序列、用戶-短視頻背景音樂序列、用戶-短視頻背景音樂歌手序列。下面以用戶-短視頻序列為例,其中包含了每個用戶歷史觀看的所有的短視頻id,但這僅僅能反映用戶的整體偏好,不能反映用戶的興趣變化,本文考慮時間因素,在提取用戶-短視頻序列時先將數(shù)據(jù)按照時間順序進(jìn)行排序,再進(jìn)行提取,這樣便可提取出每個用戶按照時間順序的排序歷史觀看短視頻序列,這個序列不僅反映了用戶偏好,也蘊含了用戶一段時間的興趣變化。由于模型只接受數(shù)值型輸入,因此需要將序列中的元素進(jìn)行向量化,本文利用Word2vec來得到詞向量。
本文將按時間順序排序的用戶歷史觀看序列作為語料庫,通過numpy計算語料庫中詞語詞頻,圖2為隨機(jī)抽取的部分語料庫詞頻:圖2中數(shù)字表示詞出現(xiàn)的次數(shù),從圖2中可以看出語料庫中有大量低詞頻。因此本文采用的是Skip-gram模型。
圖2 部分語料庫詞頻
本文將按時間順序排序的用戶歷史觀看序列作為語料庫引入Word2Vec訓(xùn)練得到詞嵌入模型,模型學(xué)習(xí)到用戶的動態(tài)興趣,有效捕獲到用戶興趣的變化,通過詞嵌入模型得到序列中短視頻id詞向量,構(gòu)建embedding特征,embedding特征中蘊含了用戶對于短視頻的興趣變化。通過同樣的方法處理用戶-短視頻作者序列、用戶-短視頻背景音樂序列、用戶-短視頻背景音樂歌手序列,得到一系列蘊含用戶興趣變化的embedding特征。
本文需要盡可能準(zhǔn)確地對短視頻用戶在觀看短視頻過程中的互動行為發(fā)生概率進(jìn)行預(yù)測。對多個行為發(fā)生概率的預(yù)測,可以看做模型需要去完成的多個任務(wù),選擇一個合適的模型,可以提高行為預(yù)測的準(zhǔn)確性。不同的模型適合不同的多任務(wù)應(yīng)用場景,當(dāng)任務(wù)間的相關(guān)性忽略不計時,使用單任務(wù)模型即可完成相應(yīng)的工作,當(dāng)任務(wù)間存在相關(guān)性時,使用多任務(wù)模型便是更好的選擇。本文將對任務(wù)間的相關(guān)性進(jìn)行分析,并選擇合適的模型進(jìn)行實驗。
在對于短視頻用戶行為(如:查看評論、點贊、點擊頭像、轉(zhuǎn)發(fā))的相關(guān)性進(jìn)行分析時,如果僅從行為本身,很難將用戶行為具體量化地來進(jìn)行分析,于是本文使用在2.2節(jié)構(gòu)建的與用戶行為相關(guān)的統(tǒng)計特征之間的相關(guān)性來間接衡量用戶行為間的相關(guān)性。在每個用戶觀看的多個短視頻中,統(tǒng)計各個行為的和,利用行為統(tǒng)計特征來進(jìn)行相關(guān)性分析,得到用戶行為特征相關(guān)性圖,如圖3所示,圖3中數(shù)字為正表示正相關(guān),數(shù)字為負(fù)表示負(fù)相關(guān)。由圖3看出,短視頻用戶在觀看短視頻過程中的查看評論,點贊,點擊頭像,轉(zhuǎn)發(fā)這4個行為中,點贊與查看評論是正相關(guān)的關(guān)系,點贊與點擊頭像是負(fù)相關(guān)的關(guān)系,而點贊與轉(zhuǎn)發(fā)幾乎不相關(guān),可見不同的任務(wù)之間存在一定的相關(guān)性,同時也存在沒那么相關(guān)的任務(wù),任務(wù)間關(guān)系復(fù)雜。因此如果使用單任務(wù)模型來對每個任務(wù)單獨進(jìn)行訓(xùn)練的話,就忽略了任務(wù)之間的相關(guān)性的影響,所以,通過任務(wù)相關(guān)性的分析研究,本文使用多任務(wù)模型來對短視頻用戶的行為進(jìn)行預(yù)測。多任務(wù)模型通過學(xué)習(xí)不同任務(wù)的聯(lián)系和差異,可提高每個任務(wù)學(xué)習(xí)效率和質(zhì)量。
圖3 用戶行為特征相關(guān)性圖
通過3.1節(jié)對短視頻用戶行為特征間的相關(guān)性分析可知:多行為間既有相關(guān)性可以忽略不計的,又存在有一定相關(guān)性的。為了在任務(wù)間相關(guān)性不唯一的情況下也能通過模型的訓(xùn)練得到較為準(zhǔn)確的預(yù)測結(jié)果,本文使用MMoE模型對短視頻用戶觀看短視頻時的行為發(fā)生的概率進(jìn)行預(yù)測。
MMoE模型是Google的研究人員2018年提出的一種NN模型中多目標(biāo)優(yōu)化的模型結(jié)構(gòu)。由于多任務(wù)共享底層模型最大的缺點就是底層強(qiáng)制共享,難以學(xué)習(xí)到適用于所有任務(wù)的表達(dá),尤其在任務(wù)間相關(guān)性不好時,MMoE模型相較于共享底層模型,在共享底層結(jié)構(gòu)的基礎(chǔ)上將共享層進(jìn)行替換,引入多個專家網(wǎng)絡(luò)集群(即多個NN網(wǎng)絡(luò),全連接層FC),然后再對每個任務(wù)分別引入一個門網(wǎng)絡(luò),門網(wǎng)絡(luò)的數(shù)量和任務(wù)的數(shù)量是一致的,不同的門網(wǎng)絡(luò)針對各自的任務(wù)學(xué)習(xí)專家網(wǎng)絡(luò)的不同組合模式,使不同的任務(wù)可以多樣化地使用共享層。即對專家網(wǎng)絡(luò)的輸出進(jìn)行自適應(yīng)加權(quán)來篩選出適用于某任務(wù)的專家網(wǎng)絡(luò)學(xué)習(xí)內(nèi)容,不同任務(wù)對應(yīng)的門網(wǎng)絡(luò)輸出權(quán)重分布不同,說明專家學(xué)到了針對不同任務(wù)的特征,專家網(wǎng)絡(luò)與對應(yīng)的門網(wǎng)絡(luò)的組合結(jié)果作為共享層提取的隱含特征傳遞到該特定任務(wù)的特定網(wǎng)絡(luò)層中。結(jié)構(gòu)圖如圖4所示。
圖4 考慮用戶興趣變化的MMoE模型圖
其中輸入為x(input feature),考慮到捕捉到任務(wù)的相關(guān)性和區(qū)別,不同任務(wù)的門網(wǎng)絡(luò)可以學(xué)習(xí)到不同的組合專家的模式。不同的門為不同任務(wù)分配不同專家的權(quán)重,這種動態(tài)作加權(quán)和的操作,和attention機(jī)制的出發(fā)點是一樣的。如果兩任務(wù)間相關(guān)性不強(qiáng),經(jīng)門網(wǎng)絡(luò)之后,二者得到的權(quán)重系數(shù)差別較大,可以利用部分專家網(wǎng)絡(luò)輸出的信息,近似于多個單任務(wù)學(xué)習(xí)模型。如果兩個任務(wù)緊密相關(guān),經(jīng)過門網(wǎng)絡(luò)得到的權(quán)重分布相差不多,類似于shared-bottom模型。
門網(wǎng)絡(luò)的輸入x也是,門控網(wǎng)絡(luò)一般為多層感知機(jī),并且門控網(wǎng)絡(luò)需要通過一個softmax層,通過線性變換把輸入映射到n*d維,再通過softmax計算得到每個Expert的權(quán)重,可形象化表示為
gk(x) = softmax (Wgkx)
(3)
其中,Wgk∈Rn·d為可更新的參數(shù)矩陣,n為專家個數(shù),d為輸入特征維數(shù),gk(x)為第k個任務(wù)的各個Expert的組合權(quán)重。第i個Expert網(wǎng)絡(luò)的輸出為fi(x),則此時第k個任務(wù)的底層共享網(wǎng)絡(luò)輸出為
(4)
最終得到第k個任務(wù)的輸出表達(dá)為
yk=hk(fk(x))
(5)
本文的數(shù)據(jù)集來源于某大數(shù)據(jù)比賽公開數(shù)據(jù)集,數(shù)據(jù)集中的各項數(shù)據(jù)均采用脫敏處理。數(shù)據(jù)集包含了用戶行為特征表和短視頻特征表。用戶行為特征表中包含某短視頻平臺2 000名用戶14d內(nèi)觀看視頻的1 048 575條歷史行為數(shù)據(jù),其中包括用戶觀看的短視頻id,觀看時長,停留時長以及用戶觀看短視頻時是否有互動行為。短視頻特征表中包含了106 447條短視頻特征數(shù)據(jù),其中包括短視頻對應(yīng)作者id,短視頻播放時長,短視頻背景音樂id和短視頻背景音樂歌手id,以及人工提取的關(guān)鍵詞和標(biāo)簽序列特征。
預(yù)測用戶的行為是否發(fā)生本質(zhì)是一個二分類問題,當(dāng)喜好閾值不確定時,通常使用AUC指標(biāo)來衡量預(yù)測結(jié)果的準(zhǔn)確性。本實驗中采用uAUC作為單個行為預(yù)測結(jié)果的評估指標(biāo),uAUC定義為不同用戶下AUC的平均值。公式為
(6)
其中,n為驗證集中的有效用戶數(shù),有效用戶指對于某個待預(yù)測的行為,過濾掉驗證集中全是正樣本或全是負(fù)樣本的用戶后剩下的用戶。AUCi為第i個有效用戶的行為預(yù)測結(jié)果的AUC。
本文對短視頻用戶行為預(yù)測的目的是為后續(xù)短視頻推薦提供支持與保障??紤]不同的行為對最終推薦的作用不同,實驗對200名經(jīng)常使用短視頻軟件的用戶進(jìn)行調(diào)查,用戶包含了各年齡層,通過調(diào)查發(fā)現(xiàn)將近一半的用戶在看到感興趣的短視頻時會查看評論,占總?cè)藬?shù)比例最高,其余行為的人數(shù)占總?cè)藬?shù)比例由高到低為:點贊、查看頭像、轉(zhuǎn)發(fā)??梢娬驹趯嶋H為用戶推薦其感興趣的短視頻的角度,行為預(yù)測模型若能對查看評論這一行為預(yù)測更準(zhǔn)確,那么模型便具備更優(yōu)的性能。行為預(yù)測模型對4個行為的發(fā)生概率進(jìn)行預(yù)測,首先計算4個行為的uAUC,然后對每個行為的uAUC分配不同的權(quán)重,計算得到W-uAUC,W-uAUC能夠更貼近實際應(yīng)用來評估行為預(yù)測模型的好壞。4個行為的權(quán)重如表2所示。
表2 行為權(quán)重表
W-uAUC計算公式為
(7)
其中,uAUCi為第i個行為的uAUC值,Wi為第i個行為的權(quán)重。
本實驗將MMoE模型與shared-bottom模型以及在點擊率預(yù)測領(lǐng)域比較有代表性的單任務(wù)模型Wide&Deep、DeepFM進(jìn)行實驗對比。為了保持特征的一致性,本文先在4個模型中只加入基礎(chǔ)的id特征,包括用戶id、短視頻id、短視頻作者id、短視頻背景音樂id、短視頻背景音樂歌手id與播放時長這6個特征。
本文以數(shù)據(jù)集中前7天的數(shù)據(jù)作為訓(xùn)練集,分別預(yù)測第8~14天的用戶點擊行為發(fā)生概率,結(jié)果如表3所示。
表3 前7天數(shù)據(jù)預(yù)測第8~14天各模型的W-uAUC得分
由實驗結(jié)果可以看出,4個模型的預(yù)測精度隨著時間的推移整體都在降低。不難看出,前面相鄰天數(shù)的數(shù)據(jù)對預(yù)測的準(zhǔn)確率影響更大,比如近一兩天存在某些用戶感興趣的熱點短視頻。因此,本文將選取前幾天的用戶數(shù)據(jù)進(jìn)行訓(xùn)練,對未來一天的用戶點擊率進(jìn)行預(yù)測,以得到最優(yōu)的預(yù)測效果。
本文分別選取前10天,前11天,前12天,前13天數(shù)據(jù)作為訓(xùn)練集,預(yù)測第11天,第12天,第13天,第14天用戶的點擊行為發(fā)生概率。結(jié)果如表4所示。
表4 由前10~13天預(yù)測后一天的各模型W-uAUC得分
由實驗結(jié)果可以看出,當(dāng)選取前13天作為訓(xùn)練集,預(yù)測第14天的用戶點擊行為概率,4個模型都具有最高的預(yù)測精度。因此最終本文選取前13天數(shù)據(jù)作為模型的訓(xùn)練集,第14天的數(shù)據(jù)作為驗證集,預(yù)測第14天用戶行為發(fā)生概率。經(jīng)uAUC評價指標(biāo)計算得到每個模型對于每個行為的預(yù)測得分如圖5所示。可見MMOE對每個行為的預(yù)測準(zhǔn)確性總體高于其它模型,計算4個行為的W-uAUC得分,如表5所示。
表5 各模型W-uAUC得分
圖5 模型各行為得分
由實驗結(jié)果可知:DeepFM的預(yù)測效果明顯優(yōu)于Wide&Deep,但是這兩個模型都是單任務(wù)模型,對于每一個行為的預(yù)測都需要單獨對模型進(jìn)行訓(xùn)練,從而忽略了用戶行為間的隱藏關(guān)聯(lián)。多任務(wù)模型shared-bottom、MMoE的預(yù)測效果要優(yōu)于單任務(wù)模型。MMoE模型利用門網(wǎng)絡(luò)與專家網(wǎng)絡(luò)相結(jié)合,考慮了行為間不同的關(guān)聯(lián)性,預(yù)測效果相較于shared-bottom有進(jìn)一步提高。MMoE預(yù)測的得分相較于Wide&Deep,DeepFM和shared-bottom分別有5.9%、1.9%與0.3%的提升,因為shared-bottom與MMoE同為多任務(wù)模型,而shared-bottom只是MMoE專家數(shù)為1的特例,所以在加入特征較少時,提升不明顯。
MMoE在使用5個id特征與視頻播放時長特征訓(xùn)練的基礎(chǔ)上,先分別同時加入1.2節(jié)構(gòu)建的一系列統(tǒng)計特征和1.3節(jié)構(gòu)建的4個蘊含用戶興趣變化的embedding特征進(jìn)行訓(xùn)練,MMoE對每個行為的預(yù)測的uAUC得分如圖6所示,再計算W-uAUC得分如表6所示。
表6 不同特征下MMoE的W-uAUC得分
圖6 MMoE使用不同特征下各行為uAUC得分
由實驗結(jié)果可知,模型加入更好表達(dá)問題本質(zhì)的統(tǒng)計特征,預(yù)測得分由0.642提升到0.649,加入反映用戶興趣變化的embedding特征,預(yù)測得分由0.642提升到0.652,說明MMoE模型考慮用戶興趣變化可提高預(yù)測性能,當(dāng)同時加入統(tǒng)計特征與embedding時,得分提高到0.660,說明統(tǒng)計特征與embedding特征不會相互制約,同時加入模型不會出現(xiàn)過擬合現(xiàn)象。
MMoE中專家數(shù)量是一個超參數(shù),專家數(shù)量太少的話模型的表達(dá)能力不夠,不能充分地學(xué)到針對不同任務(wù)的特征,數(shù)量過多的話又會增加模型的參數(shù)導(dǎo)致模型過擬合。本文使用驗證集測試的方式來確定最優(yōu)的專家數(shù)量。因為當(dāng)MMoE的專家網(wǎng)絡(luò)層只有一個專家時,模型中的門網(wǎng)絡(luò)不起作用,則模型中只有一個單一的共享層,即為shared-bottom模型,所以將專家數(shù)從2開始進(jìn)行設(shè)定,以步長為1對專家數(shù)進(jìn)行遞增來訓(xùn)練模型,模型對于不同專家數(shù)量的預(yù)測得分如表7 所示。
表7 不同專家數(shù)量下MMoE W-uAUC得分
由實驗結(jié)果可知,當(dāng)專家數(shù)設(shè)定為4時,模型具有最優(yōu)的預(yù)測效果,當(dāng)專家數(shù)量過少時專家網(wǎng)絡(luò)對于不同任務(wù)的特征的學(xué)習(xí)不夠充分,當(dāng)專家數(shù)量大于4時,模型會產(chǎn)生過擬合,從而導(dǎo)致預(yù)測效果變差。在實驗的最后階段,同樣使用驗證集測試的方式對模型中的其它參數(shù)進(jìn)行調(diào)優(yōu),最終模型預(yù)測的W-uAUC得分為0.661。
本文對短視頻用戶行為進(jìn)行預(yù)測,通過數(shù)據(jù)集構(gòu)建一系列統(tǒng)計特征,考慮用戶對短視頻的興趣可能會隨時間而變,本文對蘊含用戶興趣與偏好的幾組序列特征按照時間排序,并作為語料庫利用Word2Vec訓(xùn)練得到詞嵌入模型,模型捕捉到用戶的興趣變化并構(gòu)建含有用戶興趣變化的enbedding特征??紤]任務(wù)間的相關(guān)性特點,本文選取MMoE模型進(jìn)行用戶行為預(yù)測,并根據(jù)短視頻用戶行為預(yù)測的目的,提出貼近實際應(yīng)用的W-uAUC評價指標(biāo)來評估預(yù)測模型好壞。通過實驗分析,MMoE相較于shared-bottom、Wide&Deep、DeepFM能得到更精確的預(yù)測結(jié)果,并且考慮用戶興趣變化的MMoE模型具有最優(yōu)的預(yù)測精度。未來將考慮在原有MMoE模型上進(jìn)行改進(jìn),更準(zhǔn)確地篩選出適用于某任務(wù)的專家網(wǎng)絡(luò)學(xué)習(xí)內(nèi)容。