武 維,李澤平*,楊華蔚,林 川,王忠德
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025;2.貴州財(cái)經(jīng)大學(xué)大數(shù)據(jù)應(yīng)用與經(jīng)濟(jì)學(xué)院,貴陽(yáng) 550025)
提前預(yù)測(cè)視頻的受歡迎程度是許多應(yīng)用的重要部分,如推薦、廣告和信息檢索等[1]。通過(guò)對(duì)YouTube 視頻網(wǎng)站上的大量用戶(hù)反饋行為觀察發(fā)現(xiàn),部分視頻在發(fā)布后的一段時(shí)間內(nèi),經(jīng)用戶(hù)反饋后該視頻的流行度呈增長(zhǎng)趨勢(shì)。為了捕獲視頻流行度的動(dòng)態(tài)變化過(guò)程,本文首先采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)建模并計(jì)算出視頻的流行趨勢(shì)指數(shù),同時(shí)離散化視頻的點(diǎn)贊量和點(diǎn)踩量,把流行度預(yù)測(cè)任務(wù)轉(zhuǎn)化為分類(lèi)問(wèn)題;將視頻的流行度分為“受歡迎”和“不受歡迎”兩類(lèi),采用神經(jīng)網(wǎng)絡(luò)模型對(duì)視頻的內(nèi)容特征進(jìn)行建模;最后融合視頻的流行趨勢(shì)和內(nèi)容特征以預(yù)測(cè)視頻的流行度。
基于用戶(hù)反饋量的宏觀積累過(guò)程來(lái)預(yù)測(cè)流行度有很大的實(shí)用價(jià)值,長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)能夠有效地捕捉事件的變化過(guò)程[2],被廣泛應(yīng)用于股票走勢(shì)預(yù)測(cè)[3]、溫度變化趨勢(shì)預(yù)測(cè)[4]以及醫(yī)學(xué)研究中的抑郁趨勢(shì)預(yù)測(cè)[5]等。LSTM 網(wǎng)絡(luò)能夠有效地捕捉視頻的流行趨勢(shì),目前已有研究者采用LSTM 網(wǎng)絡(luò)對(duì)視頻的流行動(dòng)態(tài)進(jìn)行建模和預(yù)測(cè)流行度,且取得了較好的效果[6]。受到這些研究工作的啟發(fā),本文采用LSTM 網(wǎng)絡(luò)對(duì)視頻的流行趨勢(shì)進(jìn)行建模,捕獲視頻流行度的變化趨勢(shì)。
最近,基于深度學(xué)習(xí)的模型被應(yīng)用于用戶(hù)的偏好預(yù)測(cè)[7]、App的流行度預(yù)測(cè)[8]、電影的受歡迎程度預(yù)測(cè)[9]。部分深度學(xué)習(xí)模型主要分析了內(nèi)容特征對(duì)預(yù)測(cè)性能的影響[10],而另一部分較為新穎的研究工作則重點(diǎn)關(guān)注分類(lèi)模型的性能[11],其中較為著名的基于深度學(xué)習(xí)的分類(lèi)模型是神經(jīng)網(wǎng)絡(luò)因子分解機(jī)(Neural Factorization Machine,NFM)[12],它比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型具有更優(yōu)秀的特征表達(dá)能力。NFM 是一種新穎的深度學(xué)習(xí)模型,結(jié)合了線(xiàn)性的二階特征交互和非線(xiàn)性的高階特征交互,能有效地學(xué)習(xí)稀疏特征。實(shí)際情況下的流行度受外部因素影響容易波動(dòng),難以捕捉,但是用戶(hù)反饋事件的變化趨勢(shì)在很大程度影響了視頻的流行度,NFM 能夠有效地學(xué)習(xí)內(nèi)容特征,但它不能捕捉內(nèi)容的流行趨勢(shì),因此如何結(jié)合視頻流行度變化過(guò)程和內(nèi)容特征建模是流行度預(yù)測(cè)研究工作的難題。
綜合分析現(xiàn)有的研究成果可知,流行度動(dòng)態(tài)變化過(guò)程難以捕捉,但視頻的內(nèi)容特征對(duì)流行度預(yù)測(cè)模型的性能有很大的影響。目前,聯(lián)合流行度變化過(guò)程和內(nèi)容特征建模的研究工作較為少見(jiàn)。LSTM 網(wǎng)絡(luò)應(yīng)用于流行度的動(dòng)態(tài)變化過(guò)程建模具有高效性[13],能夠有效捕捉流行度的變化趨勢(shì)。以NFM為例的基于深度學(xué)習(xí)的模型有效地結(jié)合了線(xiàn)性的二階特征交互和非線(xiàn)性的高階特征交互,具有優(yōu)秀的模型表達(dá)和泛化能力,但無(wú)法捕獲視頻的流行度變化趨勢(shì)。對(duì)此,本文提出一種融合內(nèi)容特征和時(shí)序信息的深度注意力視頻流行度預(yù)測(cè)(Deep Attention video popularity prediction model Fusing Content and Temporal information,DAFCT)。該模型融合了視頻的內(nèi)容特征和時(shí)序信息,具有優(yōu)秀的特征表達(dá)及泛化能力,并且能夠捕獲視頻的流行趨勢(shì)。
基于注意力機(jī)制的LSTM 網(wǎng)絡(luò)減少了對(duì)外部信息的依賴(lài)[14],已經(jīng)被廣泛應(yīng)用于文本分類(lèi)、情感分析、點(diǎn)擊率預(yù)測(cè)等領(lǐng)域。2017 年,Wu 等[15]提出了一個(gè)深度時(shí)間上下文網(wǎng)絡(luò)(Deep Temporal Context Network,DTCN),通過(guò)對(duì)facebook 推文的流行度動(dòng)態(tài)變化過(guò)程建模從而預(yù)測(cè)帖子的流行度,預(yù)測(cè)結(jié)果表明該模型對(duì)預(yù)測(cè)長(zhǎng)期的流行動(dòng)態(tài)有顯著的能力。2018年,Yuan 等[16]通過(guò)將注意力引入LSTM 網(wǎng)絡(luò)對(duì)引文的流行趨勢(shì)建模,從而預(yù)測(cè)引文的流行度,在computer science 引文數(shù)據(jù)集上準(zhǔn)確 率可達(dá)85%。2019 年,Varuna 等[17]通過(guò)分 析Github上項(xiàng)目的Fork、Star等反饋事件,構(gòu)建了時(shí)間序列信息,采用LSTM 網(wǎng)絡(luò)對(duì)Github 上的時(shí)間序列信息建模并預(yù)測(cè)流行趨勢(shì)。同年7 月,在國(guó)際人工智能大會(huì)上,Liao 等[18]分析了在線(xiàn)文章的點(diǎn)擊量、瀏覽量、轉(zhuǎn)發(fā)量、點(diǎn)贊量等宏觀事件發(fā)生的次數(shù),將注意力機(jī)制引入LSTM 網(wǎng)絡(luò)對(duì)微信文章隨時(shí)間的變化過(guò)程進(jìn)行建模以預(yù)測(cè)流行趨勢(shì),進(jìn)一步融合了內(nèi)容特征,從而預(yù)測(cè)出微信文章的流行度。該文的流行度趨勢(shì)建模過(guò)程如下,其中,c是當(dāng)前的視頻為注意力權(quán)重為序列向量,為隱層輸出,為權(quán)重矩陣。
從以上對(duì)流行趨勢(shì)預(yù)測(cè)的最新研究成果的分析總結(jié)可知,LSTM網(wǎng)絡(luò)能夠很好地捕獲視頻的流行趨勢(shì),因此,本文采用了基于注意力機(jī)制的LSTM網(wǎng)絡(luò)來(lái)捕捉視頻的流行趨勢(shì)。
基于深度學(xué)習(xí)的流行度預(yù)測(cè)模型自2016 年以來(lái)便一直是學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn),對(duì)深度學(xué)習(xí)的流行度預(yù)測(cè)模型的關(guān)注始于2016 年Chen 等[19]提出的基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的模型,該模型基于圖像像素以及圖像描述等內(nèi)容特征建模,最初應(yīng)用于廣告的點(diǎn)擊率預(yù)測(cè),后來(lái)被廣泛應(yīng)用于流行度預(yù)測(cè)研究當(dāng)中。為了提高預(yù)測(cè)性能,2017 年He 等[20]對(duì)深度學(xué)習(xí)模型進(jìn)行改進(jìn),提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過(guò)濾(Neural Collaborative Filtering,NCF)模型,經(jīng)實(shí)驗(yàn)驗(yàn)證NCF 模型的預(yù)測(cè)準(zhǔn)確率達(dá)到了87.30%。2019 年,Luo 等[21]提取了新媒體中的政策信息,分析了政策信息中的內(nèi)容特征,采用DNN 建立了一個(gè)基于政策信息的流行度預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果顯示該模型優(yōu)于梯度提升決策樹(shù)(Gradient Boost Decision Tree,GBDT)模型?;谏疃葘W(xué)習(xí)的流行度預(yù)測(cè)模型大多都是基于DNN改進(jìn)的,計(jì)算公式如下:
以上研究成果只基于單個(gè)項(xiàng)目的內(nèi)容特征進(jìn)行建模,忽略了流行趨勢(shì)對(duì)流行度預(yù)測(cè)模型性能的影響,在實(shí)際情況下視頻的流行度常常受到外界因素的干擾不容易建模,因此如何聯(lián)合內(nèi)容特征和流行趨勢(shì)建模是流行度預(yù)測(cè)研究亟待解決的問(wèn)題。
本文采用LSTM 網(wǎng)絡(luò)捕捉視頻的流行趨勢(shì),將注意力機(jī)制引入LSTM 網(wǎng)絡(luò)以降低外界因素的干擾,構(gòu)建了基于注意力機(jī)制的Attention-LSTM 模型。為了更形象地表征流行度的增長(zhǎng)趨勢(shì),本文使用OA-L表示視頻流行度的趨勢(shì)指數(shù),由Attention-LSTM 模型計(jì)算可得,Attention-LSTM 模型如圖1 所示。通過(guò)分析用戶(hù)的點(diǎn)贊、瀏覽、評(píng)論等反饋信息,給定時(shí)間間隔t,將隨時(shí)間變化的用戶(hù)反饋量構(gòu)建為時(shí)間序列dt,則得到反饋序列,LSTM網(wǎng)絡(luò)的計(jì)算公式改寫(xiě)為:
圖1 Attention-LSTM模型Fig.1 Attention-LSTM model
Attention-LSTM模型計(jì)算過(guò)程如下:
給定某一時(shí)間間隔t,將n個(gè)隱層輸出記為Hi:
這些隱層輸出hi經(jīng)softmax層后,得到注意力權(quán)重:
將注意力權(quán)重記為Ai:
則Attention-LSTM模型輸出此時(shí)的流行趨勢(shì):
由上述計(jì)算可得OA-L的值為小于1 的數(shù),表征某一視頻的流行趨勢(shì)指數(shù),接下來(lái)通過(guò)與NFM 模型的預(yù)測(cè)結(jié)果結(jié)合,進(jìn)而計(jì)算出視頻的流行度。從實(shí)驗(yàn)結(jié)果來(lái)看,Attention-LSTM模型能夠有效地捕獲視頻的流行趨勢(shì),且對(duì)提高流行度預(yù)測(cè)模型的性能有很大幫助。
視頻的內(nèi)容包括視頻類(lèi)型和數(shù)值信息,通常能為流行度預(yù)測(cè)提供有用的信息,是影響視頻流行度的關(guān)鍵因素之一。針對(duì)不同類(lèi)型的視頻,不同用戶(hù)的喜好不同,用戶(hù)的反饋表現(xiàn)則截然不同。本文采用NFM 模型對(duì)視頻的內(nèi)容特征建模。NFM 模型首先采用one-hot 編碼技術(shù)將類(lèi)型特征轉(zhuǎn)換為onehot 向量,然后將視頻類(lèi)型的one-hot 向量輸入到NFM 模型的嵌入(embedding)層,接著視頻類(lèi)型特征和數(shù)值特征通過(guò)一個(gè)二階特征交互池層組合,輸入隱藏層后由激活函數(shù)計(jì)算得到輸出結(jié)果。NFM 模型結(jié)合了線(xiàn)性的二階特征交互和非線(xiàn)性的高階特征交互,能夠從稀疏數(shù)據(jù)中學(xué)習(xí)特征,有效地提高了特征的表達(dá)能力。圖2 給出了用于內(nèi)容特征學(xué)習(xí)的NFM模型。
圖2 NFM模型Fig.2 NFM model
例如,給定視頻類(lèi)型的集合為M={m1,m2,…,mk},對(duì)于第i(i=1,2,…,k)個(gè)視頻mi的類(lèi)型,將視頻類(lèi)型的one-hot 特征向量x使用嵌入技術(shù)進(jìn)行降維后得到視頻類(lèi)型的embedding向量表示:
其中:λi為第i個(gè)視頻類(lèi)型的embedding 向量,xi為第i個(gè)視頻類(lèi)型的one-hot向量。
將embedding向量νx輸入到二階交互層:
其中:σ、WL、bL分別為sigmoid函數(shù)、隱藏層的權(quán)重矩陣和偏置向量,L為隱藏層的層數(shù)。
將隱藏層的輸出yL輸入到全連接層后得到NFM 模型的輸出:
流行度變化過(guò)程中的時(shí)序信息難以捕獲,而視頻的內(nèi)容特征很大程度上決定了視頻的流行度,是流行度預(yù)測(cè)任務(wù)必不可少的條件。本文的DAFCT 首先采用RNN 挖掘時(shí)序信息以捕獲視頻的流行趨勢(shì),引入注意力機(jī)制排除外界因素的干擾;然后采用深度神經(jīng)網(wǎng)絡(luò)處理內(nèi)容特征,針對(duì)稀疏的高維特征則采用嵌入技術(shù)進(jìn)行降維以降低模型的計(jì)算復(fù)雜性;最后,使用concatenate 方法融合時(shí)序信息和內(nèi)容特征。本文DAFCT如圖3所示。
如圖3給定n個(gè)視頻,用pi表示視頻的流行度,將所有的n個(gè)流行度pi表示為P:
圖3 DAFCT結(jié)構(gòu)Fig.3 DAFCT structure
式(21)為視頻的點(diǎn)贊概率,即為視頻的受歡迎程度。結(jié)合2.1 節(jié)Attention-LSTM 模型的流行趨勢(shì) 和2.2 節(jié)NFM 模型的輸出,經(jīng)一個(gè)全連接層計(jì)算:
其中:OA-L為視頻的流行趨勢(shì)指數(shù),ONFM是NFM模型的預(yù)測(cè)結(jié)果。代入式(21)后得到流行度:
下面說(shuō)明DAFCT的信息融合過(guò)程及應(yīng)用:
1)內(nèi)容特征和時(shí)序信息嵌入。本文的研究工作將視頻的統(tǒng)計(jì)信息分為時(shí)序信息和視頻的內(nèi)容,其中時(shí)序信息為給定時(shí)間間隔t內(nèi)的用戶(hù)反饋序列,視頻的內(nèi)容包括視頻類(lèi)型等信息。進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),模型訓(xùn)練的時(shí)序信息對(duì)應(yīng)的特征為時(shí)序特征,視頻的內(nèi)容則對(duì)應(yīng)內(nèi)容特征,視頻的內(nèi)容包括視頻類(lèi)型等特征。由圖3 可知,DAFCT 使用了嵌入技術(shù)對(duì)高維的特征降維,從而得到低維的稠密特征。假設(shè)當(dāng)前視頻有7 種類(lèi)型,這7 種視頻類(lèi)型表示為{0,1,2,3,4,5,6},如果第i個(gè)視頻的類(lèi)型為5,在數(shù)據(jù)預(yù)處理階段使用one-hot 編碼技術(shù)得到該視頻的類(lèi)型x=[0,0,0,0,0,1,0],由此得到一個(gè)稀疏的向量,而在實(shí)際情況中的數(shù)據(jù)維度往往是非常巨大的,直接輸入模型會(huì)影響預(yù)測(cè)性能。針對(duì)這種情況,定義一個(gè)嵌入(embedding)向 量em=[0,0.1,0.25,0,0,1,0],則m·(em)T=[0.5],可以看到這個(gè)值表征了該視頻所屬的類(lèi)型。本文只是做了簡(jiǎn)單的假設(shè),實(shí)際情況下的視頻類(lèi)型遠(yuǎn)遠(yuǎn)多于這個(gè)設(shè)定,數(shù)據(jù)維度往往大得多,計(jì)算復(fù)雜度高,嵌入向量是根據(jù)實(shí)驗(yàn)而設(shè)定的,各不相同。由此可知使用嵌入技術(shù)能有效降低特征向量的維度。
2)信息提取。由圖3 可知,DAFCT 的流行度趨勢(shì)捕捉過(guò)程和視頻的內(nèi)容特征處理過(guò)程是并行的。Attention-LSTM 模型首先根據(jù)輸入的時(shí)序信息提取時(shí)序特征,輸入的時(shí)序特征經(jīng)遺忘門(mén)后通過(guò)一個(gè)sigmoid 函數(shù)計(jì)算出要丟棄的時(shí)序信息,然后根據(jù)要丟棄的信息更新舊的細(xì)胞狀態(tài);同時(shí)通過(guò)輸入門(mén)將細(xì)胞存儲(chǔ)的候選信息添加到新的細(xì)胞ct中將時(shí)序信息存儲(chǔ)下來(lái);最后通過(guò)輸出門(mén)輸出視頻的流行趨勢(shì),計(jì)算過(guò)程如2.1節(jié)所示。NFM 模型首先通過(guò)一個(gè)特征的二階交互層,使得視頻類(lèi)型與其他內(nèi)容特征如視頻id 等特征之間進(jìn)行了交互組合,然后將這些組合的特征輸入到隱藏層學(xué)習(xí)內(nèi)容特征,最后通過(guò)一個(gè)激活函數(shù)輸出預(yù)測(cè)結(jié)果,計(jì)算過(guò)程如2.2節(jié)所示。NFM 主要是對(duì)組合的特征學(xué)習(xí),而不是單一的特征,使用了2 層隱藏層,相對(duì)于其他基于神經(jīng)網(wǎng)絡(luò)的模型更淺,有效地提高了模型的預(yù)測(cè)性能。
3)信息融合。如圖3 所示,DAFCT 使用了concatenate 方法將Attention-LSTM 模型捕捉的流行趨勢(shì)和NFM 模型挖掘的內(nèi)容特征融合起來(lái),計(jì)算公式為,其中OA-L為Attention-LSTM模型的輸出,ONFM為NFM模型的輸出。
4)DAFCT 的應(yīng)用。為了驗(yàn)證DAFCT,本文設(shè)計(jì)了深度注意力視頻流行度預(yù)測(cè)(Deep Attention Video Popularity Prediction,DAVPP)算法求解該模型,并應(yīng)用于視頻的流行度預(yù)測(cè)。
算法1 DAVPP算法。
輸入 歷史反饋序列dt,t-1 時(shí)刻的時(shí)序特征xt-1,經(jīng)one-hot 技術(shù)編碼后的內(nèi)容特征向量x,權(quán)重矩陣W和U,偏置向量b,視頻類(lèi)型mi;
輸出 流行度pi。
實(shí)驗(yàn)的硬件平臺(tái):Dell 服務(wù)器6 個(gè)CPU 核心,1 顆Nvidia Geforce Raytracing 2080 共享GPU 核,內(nèi)存32 GB,顯存11 GB。軟件環(huán)境:服務(wù)系統(tǒng)Ubuntu16.04,終端系統(tǒng)Windows 10,編譯平臺(tái)Pycharm Profession,Python 3.7,TensorFlow 1.9.0。
實(shí)驗(yàn)采用kaggle(https://www.kaggle.com)平臺(tái)的YouTube 視頻數(shù)據(jù)集,該數(shù)據(jù)集是情感分析、文本分類(lèi)、流行度分析、時(shí)間序列變化分析以及訓(xùn)練機(jī)器學(xué)習(xí)算法研究的國(guó)際常用數(shù)據(jù)集之一。本文選取了數(shù)據(jù)集中2018 年5 月13 日到8 月26 日的歷史數(shù)據(jù)作為數(shù)據(jù)集,數(shù)據(jù)預(yù)處理分為以下三個(gè)部分:
1)時(shí)間序列特征構(gòu)建。
本文的Attention-LSTM 模型主要用于捕獲視頻的流行趨勢(shì),因此在構(gòu)建時(shí)間序列時(shí)以view、like、dislike、video_id 等特征構(gòu)建了時(shí)間序列,沒(méi)有考慮這些操作數(shù)的變化規(guī)律是否具有周期性。
構(gòu)建的宏觀時(shí)間序列為:從數(shù)據(jù)集中抽出每隔一天的view、like、dislike、video_id 操作數(shù)作為宏觀時(shí)間序列來(lái)計(jì)算,并將這些數(shù)據(jù)按照時(shí)間順序進(jìn)行排序,加上video_id 后得到時(shí)間序列數(shù)據(jù)集。
2)內(nèi)容特征。
為了保證實(shí)驗(yàn)的有效性,內(nèi)容特征的選取在時(shí)間上與時(shí)序特征同步,內(nèi)容特征包括publish_time、video_type、channel、video_id和describe,內(nèi)容特征的預(yù)處理步驟如下:
步驟1 對(duì)每個(gè)樣本計(jì)算點(diǎn)贊量與點(diǎn)贊量和點(diǎn)踩量之和的比值,得到的結(jié)果若大于0.5,則認(rèn)為該視頻內(nèi)容是受用戶(hù)歡迎的;反之則認(rèn)為該視頻不受歡迎。
步驟2 將視頻的受歡迎程度分為兩類(lèi):“受歡迎(1)”和“不受歡迎(0)”。
步驟3 去除數(shù)據(jù)集中特征取值相同的字段,這些字段會(huì)對(duì)流行度預(yù)測(cè)效果產(chǎn)生干擾。
最后,為了使得正負(fù)樣本平衡,分別采用了上采樣和降采樣的方式對(duì)數(shù)據(jù)集做了處理,但從實(shí)驗(yàn)效果來(lái)看降采樣方式最佳,于是最終本文采用了降采樣方式對(duì)數(shù)據(jù)集做了處理,得到了20 000個(gè)正樣本和20 000個(gè)負(fù)樣本。最后選取數(shù)據(jù)集的前80%作為訓(xùn)練集,剩下的20%作為測(cè)試集。
本文使用準(zhǔn)確率(Acc)、召回率(re)和F1 分?jǐn)?shù)(F1)3 個(gè)指標(biāo)評(píng)估DAFCT 的性能。給定訓(xùn)練集V={v1,v2,…,vn},正樣本集為,負(fù)樣本集為FA=,準(zhǔn)確率是評(píng)估模型整體性能的指標(biāo),表示模型預(yù)測(cè)正確的樣本數(shù)占所有樣本數(shù) |V|的比例:
其中:X表示實(shí)際vi∈TR,且DAFCT 算法預(yù)測(cè)所得為vi∈TR的樣本數(shù)量;Y表示實(shí)際vi∈FA,且DAFCT 算法預(yù)測(cè)為vi∈FA的樣本數(shù)量。
召回率表示在所有的實(shí)際正例中,被正確預(yù)測(cè)的樣本有多少:
其中:Z表示實(shí)際vi∈FA,而DAFCT 算法預(yù)測(cè)為vi∈TR的樣本數(shù)量。F1分?jǐn)?shù)表示綜合了準(zhǔn)確率和召回率之后的性能指標(biāo):
其中pre為精確度,表示被分為正例的樣本中,實(shí)際為正例的比例:
其中:U表示實(shí)際vi∈TR,而DAFCT 算法預(yù)測(cè)為vi∈FA的樣本數(shù)量。
在使用Attention-LSTM 模型挖掘時(shí)序信息以捕捉視頻流行趨勢(shì)時(shí),采用了神經(jīng)元為128 的單層LSTM 網(wǎng)絡(luò);使用NFM模型學(xué)習(xí)內(nèi)容特征時(shí),DNN 隱藏層的神經(jīng)元個(gè)數(shù)為128,激活函數(shù)使用的是ReLU,同時(shí)利用L2 正則化對(duì)模型參數(shù)進(jìn)行約束;DAFCT 訓(xùn)練過(guò)程中的batch size 取1 024,模型在訓(xùn)練過(guò)程中訓(xùn)練了60 個(gè)epoch,輸出層的激活函數(shù)采用sigmoid 函數(shù)。實(shí)驗(yàn)流程如圖4所示。
圖4 實(shí)驗(yàn)流程Fig.4 Experimental flow
為了便于觀察模型的預(yù)測(cè)效果,實(shí)驗(yàn)分別與Attention-LSTM模型和NFM模型做了對(duì)比。
圖5是DAFCT 與Attention-LSTM 模型和NFM 模型的準(zhǔn)確率、召回率和F1 分?jǐn)?shù)對(duì)比。其中:DAFCT 的準(zhǔn)確率、召回率、F1 分?jǐn)?shù)的均值分別為0.892 6、0.780 3、0.765 3;Attention-LSTM 模型的準(zhǔn)確率、召回率、F1 分?jǐn)?shù)的均值分別為0.756 9、0.672 1、0.667 3;NFM 模型的準(zhǔn)確率、召回率、F1 分?jǐn)?shù)的均值分別為0.844 7、0.747 2、0.734 6。與Attention-LSTM 模型相比,DAFCT 的召回率和F1 分?jǐn)?shù)分別提高了10.82、9.80 個(gè)百分點(diǎn);與NFM 模型相比,召回率和F1 分?jǐn)?shù)分別提高了3.31、3.07 個(gè)百分點(diǎn)。由此可見(jiàn),Attention-LSTM 模型的整體性能不如NFM 模型和DAFCT,雖然Attention-LSTM 模型能夠有效地捕獲視頻的流行趨勢(shì),但對(duì)時(shí)間序列數(shù)據(jù)要求嚴(yán)格,而且特征的表達(dá)能力有限;而NFM 模型雖然特征的表達(dá)能力強(qiáng),但不能有效地挖掘視頻的流行趨勢(shì),也存在一定缺陷。從實(shí)驗(yàn)結(jié)果來(lái)看,結(jié)合二者能夠有效地提高流行度預(yù)測(cè)模型的性能。
圖5 三個(gè)對(duì)比模型的召回率、F1分?jǐn)?shù)和準(zhǔn)確率對(duì)比Fig.5 Comparison of recall,F(xiàn)1 score and accuracy of three comparison models
從圖6 可以觀察到,整體上Attention-LSTM 模型的F1 分?jǐn)?shù)最小,DAFCT 的F1 分?jǐn)?shù)最大。Attention-LSTM 模型在第17個(gè)epoch 時(shí)F1 分?jǐn)?shù)突然增長(zhǎng),第19 個(gè)epoch 時(shí)突然下降,而后便一直增長(zhǎng),但增速不高,在第56 個(gè)epoch 達(dá)到平穩(wěn),可以看出此時(shí)Attention-LSTM 模型開(kāi)始收斂;NFM 模型在第9 個(gè)epoch 時(shí)F1 分?jǐn)?shù)突增到0.734 0,在第10 個(gè)epoch 時(shí)增長(zhǎng)至最大值0.738 2 后在第11 個(gè)epoch 時(shí)降低,而后的幾個(gè)epoch 內(nèi)都呈增長(zhǎng)趨勢(shì),到了大約第17 個(gè)epoch 時(shí)突然下降并在接下來(lái)的幾次訓(xùn)練過(guò)程中有輕微波動(dòng),在第31 個(gè)epoch 時(shí)趨于穩(wěn)定,逐步收斂;而DAFCT 在第7 個(gè)epoch 前的F1 分?jǐn)?shù)波動(dòng)較大,由圖6 可清晰觀察到從第7 到16 個(gè)epoch 過(guò)程中的F1 分?jǐn)?shù)的增速最快,第17 個(gè)epoch 之后增速平穩(wěn),約第30 到48 個(gè)epoch過(guò)程中出現(xiàn)輕微的起伏,而后穩(wěn)步收斂。由以上分析可知,從評(píng)估指標(biāo)F1 分?jǐn)?shù)來(lái)看,與Attention-LSTM 模型相比,本文的DAFCT 的特征學(xué)習(xí)能力更強(qiáng),雖然DAFCT 的學(xué)習(xí)速度沒(méi)有NFM模型快,但DAFCT更穩(wěn)定,且整體性能更好。
圖6 三個(gè)對(duì)比模型的F1分?jǐn)?shù)對(duì)比Fig.6 Comparison of F1 scores of three comparison models
表1 顯示了DAFCT 和其他多種模型的預(yù)測(cè)性能對(duì)比,包括邏輯回歸(Logistic Regression,LR)[22]分類(lèi)器、NFM 模型、隨機(jī)森林(Random Forest,RF)[23]分類(lèi)器、支持向量機(jī)(Support Vector Machine,SVM)[24]、Attention-LSTM 模型?;谏窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型大多是由LR 演進(jìn)而來(lái),LR 通過(guò)給特征賦予權(quán)重因子來(lái)對(duì)樣本進(jìn)行分類(lèi);NFM 模型通過(guò)引入一個(gè)二階交互層使得線(xiàn)性特征和非線(xiàn)性的高階特征交互來(lái)提高模型的特征表達(dá)能力;RF 模型是基于決策樹(shù)的分類(lèi)器,它結(jié)合了多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練;SVM是基于特征空間的線(xiàn)性分類(lèi)器,通過(guò)最大化特征的間隔距離將分類(lèi)問(wèn)題轉(zhuǎn)化為凸二次規(guī)劃問(wèn)題求解;Attention-LSTM是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊的神經(jīng)網(wǎng)絡(luò),通過(guò)引入注意力機(jī)制過(guò)濾掉無(wú)關(guān)信息。本文的DAFCT 通過(guò)引入Attention-LSTM 網(wǎng)絡(luò)捕獲視頻的流行趨勢(shì),引入NFM模型處理內(nèi)容特征,此外還引入了注意力機(jī)制使得特征的重要程度都能體現(xiàn),從而達(dá)到了更好的預(yù)測(cè)性能。從實(shí)驗(yàn)結(jié)果可以看出本文提出的DAFCT 在性能整體上明顯優(yōu)于對(duì)比模型。
表1 所提模型與其他模型的預(yù)測(cè)性能對(duì)比Tab.1 Prediction performance comparison of the proposed model and other models
為了觀察LR、NFM、RF、SVM、Attention-LSTM 和DAFCT的整體分類(lèi)性能,繪制了各模型的準(zhǔn)確率,如圖7 所示。從圖7 可以看出,RF 模型的分類(lèi)性能較低,而本文的DAFCT 的性能最好。RF模型開(kāi)始的學(xué)習(xí)速度最快,但很快就收斂且增速呈下降趨勢(shì);LR 模型的學(xué)習(xí)速度相對(duì)來(lái)說(shuō)較為緩慢;SVM 和NFM 模型雖然穩(wěn)定,但分類(lèi)的準(zhǔn)確率沒(méi)有DAFCT 高。由圖7清晰可見(jiàn),本文提出的DAFCT 在訓(xùn)練過(guò)程中學(xué)習(xí)速度快且準(zhǔn)確率高。
圖7 各對(duì)比模型的準(zhǔn)確率對(duì)比Fig.7 Accuracy comparison of models
基于視頻內(nèi)容特征的分類(lèi)器性能很大程度上依賴(lài)于提取的內(nèi)容特征,并且預(yù)測(cè)效果受到限制。Attention-LSTM模型對(duì)時(shí)間序列要求嚴(yán)格,因此只能捕獲視頻的流行趨勢(shì),模型的特征表達(dá)能力較差,從以上實(shí)驗(yàn)結(jié)果來(lái)看存在的缺陷還比較大;基于內(nèi)容特征的分類(lèi)器如NFM、LR、RF 等則無(wú)法捕捉視頻的流行趨勢(shì)。與其他分類(lèi)器相比較,本文的DAFCT 能夠有效地捕獲視頻的流行趨勢(shì),并且能夠有效提高流行度預(yù)測(cè)模型的性能,且特征的學(xué)習(xí)和表達(dá)能力更強(qiáng)。從以上實(shí)驗(yàn)結(jié)果分析可知,用戶(hù)反饋事件的積累量能夠有效地表達(dá)視頻的流行趨勢(shì),而且能夠幫助提高流行度預(yù)測(cè)模型的性能,即這些用戶(hù)反饋的時(shí)序信息是影響流行度的重要因素;除此之外,內(nèi)容特征很大程度上影響了流行度預(yù)測(cè)模型的效果,是流行度預(yù)測(cè)研究工作當(dāng)中必不可少的,因此結(jié)合二者才能夠使得流行度預(yù)測(cè)模型的性能更佳。
本文提出一種融合內(nèi)容特征和時(shí)序信息的深度注意力流行度預(yù)測(cè)模型DAFCT,能夠有效地表達(dá)視頻的流行趨勢(shì)且提高流行度的預(yù)測(cè)性能。為了排除外界因素的干擾,增加了注意力機(jī)制,采用Attention-LSTM 模型挖掘時(shí)序信息以捕捉流行趨勢(shì),利用NFM 模型處理內(nèi)容特征,模型成功地捕捉了流行趨勢(shì)并得到了較好的預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果顯示,本文的DAFCT 的分類(lèi)性能優(yōu)于其他分類(lèi)器,但也可以看出本文設(shè)計(jì)的Attention-LSTM 模型存在局限性,在今后的研究工作當(dāng)中,將會(huì)進(jìn)一步把模型應(yīng)用在其他領(lǐng)域,探索該模型存在不足的原因并進(jìn)行改善;另外,還將對(duì)DAFCT 的應(yīng)用及模型的高效求解算法做進(jìn)一步的研究。