摘要:隨著網(wǎng)絡和電視服務行業(yè)的發(fā)展,網(wǎng)絡電視平臺可以為用戶提供更豐富的電視頻道,但對于用戶來說,挑選喜愛頻道的難度也大幅增加。為此,提出一種可解釋性電視頻道個性化推薦方法,將詞向量表示方法Word2Vec和LDA主題模型相結(jié)合,通過學習電視頻道播放的節(jié)目簡介中的潛在主題,實現(xiàn)可解釋性。與現(xiàn)有方法的實驗對比表明,本文提出的算法可以為用戶提供比較精確的推薦,能夠大大增強用戶黏性。
關(guān)鍵詞: 可解釋性;主題模型;電視頻道;推薦方法
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)17-0033-03 開放科學(資源服務)標識碼(OSID) :
0 引言
網(wǎng)絡電視的廣泛普及,使電視行業(yè)發(fā)生了翻天覆地的變化。用戶通過網(wǎng)絡電視獲得了更豐富的電視頻道和觀看體驗,但信息過載的問題也給電視服務行業(yè)帶來了前所未有的挑戰(zhàn)。在當前的互聯(lián)網(wǎng)電視服務中,大部分僅為用戶提供電視頻道的直播和視頻點播服務,即電子節(jié)目指南(Electronic Program Guides,EPG) 。用戶可以根據(jù)電子節(jié)目指南中的菜單列表選擇電視頻道或視頻等。然而,普通的EPG并非基于用戶的個人偏好進行設(shè)計。因此,如何引導用戶快速找到他們喜愛的頻道,提高用戶的觀看體驗,成了IPTV 服務供應商面臨的重要挑戰(zhàn)。目前,關(guān)于電視節(jié)目推薦的方法較多,并且能夠達到良好的效果,但電視頻道推薦方面的研究仍待擴展。
1 研究現(xiàn)狀
電視推薦屬于推薦系統(tǒng)應用的一大領(lǐng)域。文獻[1]中對電視領(lǐng)域推薦系統(tǒng)的研究綜述闡明,在電視領(lǐng)域內(nèi),大部分項目的推薦已經(jīng)廣泛應用,例如電視節(jié)目、電影、電子商務、音樂、教育等,其中推薦項目主要集中在電視節(jié)目。文獻[2]為了解決在電視節(jié)目推薦中的初始數(shù)據(jù)集稀疏性問題,構(gòu)造了隨機游走模型,能夠進一步獲取電視節(jié)目之間的隱性相似關(guān)系,對初始評分矩陣進行填充,進而更加全面地為用戶推薦電視節(jié)目。在文獻[3]中,使用多層感知網(wǎng)絡來挖掘用戶特征和節(jié)目特征,進一步使用協(xié)同過濾方法來獲取信息,為用戶進行個性化推薦。文獻[4]關(guān)注了電視節(jié)目收看中多用戶使用同一賬號的問題,使用聚類方法將同一用戶賬號的收視按照不同的觀看時段進行劃分,從而可以在同一用戶賬號中挖掘不同用戶的觀看特征,進而滿足不同人群的收視需求,評分替代策略也可以進一步解決冷啟動問題。
當前研究大多偏向探究電視領(lǐng)域內(nèi)的電視節(jié)目或電影推薦,也有少部分研究電視頻道推薦問題。文獻[5]提出了一種新的觀看模型,通過觀看時間挖掘觀看偏好,獲得用戶的積極與消極反饋,并引入七個關(guān)鍵特征的定義,進一步提升推薦效果。文獻[6]通過大數(shù)據(jù)高性能計算平臺與數(shù)據(jù)倉庫進行數(shù)據(jù)分析,高效地塑造出用戶畫像和用戶觀看行為特征,同時引入工程學角度,實現(xiàn)算法自動化監(jiān)控和運行,基于不同用戶的觀看場景可以自動化選擇不同的推薦方案,以實現(xiàn)在用戶使用場景下推薦。文獻[7]構(gòu)建了一種長短期興趣結(jié)合的網(wǎng)絡電視直播頻道推薦方法,該方法基于一個多層時間自注意力網(wǎng)絡,同時結(jié)合用戶歷史觀看數(shù)據(jù)挖掘出用戶的觀看喜好特征,能夠自適應地獲取用戶歷史觀看記錄中的頻道切換模式,從而為用戶推薦電視頻道。
2 基于詞向量的可解釋性電視頻道個性化推薦方法
在電視頻道推薦方法中,基于協(xié)同過濾和主題模型的方法雖然可以達到一定的準確率,但在處理短文本問題時還存在部分弊端[8]。而深度學習方法只使用時序信息,并沒有利用內(nèi)容特征,同時也缺乏對推薦的解釋性。為了解決其他推薦方法中解釋性差和語義不清的問題,本文將LDA主題模型和Word2vec結(jié)合起來,即將單詞嵌入和主題模型結(jié)合,應用于電視頻道推薦,提出了可解釋性電視頻道推薦方法(Ex?plainable Recommendation Method of TV Channels,WLDA)。
W-LDA方法不僅可以通過主題-詞概率分布對潛在主題的含義進行解釋,同時可以通過主題-頻道概率分布解釋電視頻道的主題。更重要的是,能夠使用詞向量計算用戶向量和頻道向量之間的相似度,從而表現(xiàn)出電視頻道推薦的可解釋性。
LDA主題模型為電視節(jié)目簡介中出現(xiàn)的每個詞項指定潛在主題。實際上,主題模型和單詞嵌入相似,都是從文本中得到詞項的意義。然而,詞嵌入和主題模型之間存在一些關(guān)鍵區(qū)別,這使得它們相輔相成。首先,詞嵌入是連續(xù)的表示,而主題分配是離散的表示。其次,單詞嵌入是在窗口的概念上訓練,而主題模型采用更全局的觀點,即分配當前詞項的潛在主題時需要依賴于同一文本中出現(xiàn)的其他單詞。LDA主題模型和詞嵌入的結(jié)合使?jié)撛谥黝}在語義方面更加明確和連貫,增加了電視頻道推薦的可解釋性。
2.1 表示主題與詞嵌入
Word2vec作為將文本轉(zhuǎn)換成詞向量的訓練模型,實際上是一個三層的神經(jīng)網(wǎng)絡模型。該模型通過觀察輸入詞語及其上下文詞語的關(guān)系,從大量的文本中生成詞向量,將詞項表示為多維數(shù)值向量,從而通過計算詞項之間的距離確定語義相似度。實際上,如果單詞在相似的上下文中出現(xiàn),這樣的單詞也將在Word2vec向量空間中彼此相鄰。常用的兩種詞向量訓練方法包括CBOW模型和Skip-gram模型,如圖1 和圖2所示,這兩種方法本質(zhì)上是交換了輸入和輸出。
電視頻道播放節(jié)目介紹中的詞w 都與一個輸入矩陣Uw 和一個輸出矩陣Vw 相關(guān)聯(lián),兩個矩陣的維度為K×z,其中K表示主題數(shù),z表示單詞嵌入維度。在頻道c 的節(jié)目介紹文本和中心詞語wt 的影響下,預測周圍單詞wt + j 的概率也取決于單詞w 的主題[9]。假如中心詞是“籃球”,如果主題與歷史有關(guān),則周圍詞“發(fā)展”“起源”出現(xiàn)的概率較大;如果主題與運動有關(guān),則周圍詞“競技”“賽事”出現(xiàn)的概率較大。在主題s 下給定中心詞語wt來預測wt + j的概率,公式如式(1) 所示。
式中,Λ 為所有節(jié)目介紹的詞匯集合。計算P (wt + j|wt,s) 與傳統(tǒng)Skip-gram模型類似,可以依靠負采樣來解決。
2.2 基于詞嵌入的主題模型
W-LDA方法在電視頻道播放的節(jié)目簡介中學習模型參數(shù)的值,即學習每個主題s 對應的單詞嵌入量Uw,s 和Vw,s,以及每個頻道c的主題分布P (s|c)。模型的可解釋性在于模型參數(shù)的值具有實際意義,并且可以解釋推薦過程。算法在每次迭代中,都會更新詞嵌入,然后更新頻道-主題概率分布P (s|c)。為了更新詞嵌入,W-LDA方法迭代每個Skip-gram wt + j| wt ,進行負例采樣,然后計算Skip-gram的后驗主題概率分布。在模型擬合時,將EM方法與負采樣相結(jié)合,在E步中,使用貝葉斯定理計算主題概率分布并得出目標函數(shù)。在M步中,使用梯度下降法最大化目標函數(shù),并更新Uw和Vw。
對于每個頻道c,給定單詞w1,w2,...wTd,對數(shù)似然函數(shù)Lc 定義如式(3) 。
式中,n(c,wt,wt + j )代表在頻道c中Skip-gram wt + j| wt的數(shù)目。使用拉格朗日乘數(shù)法,可以得到P (s|c)的更新規(guī)則如式(6) 所示。
3 實驗效果
為了通過實驗證明電視頻道個性化推薦方法的有效性,使用了某廣電運營公司大數(shù)據(jù)基礎(chǔ)營銷服務平臺中的真實數(shù)據(jù),即用戶收視歷史數(shù)據(jù)。該數(shù)據(jù)統(tǒng)計了2019年7月1日至2019年9月30日期間的電視頻道觀看歷史記錄,共有245個電視頻道,1 329個用戶,561 288條數(shù)據(jù)。字段包括用戶設(shè)備號、統(tǒng)計日期、頻道號、收看開始時間、收看結(jié)束時間和觀看時間。
3.1 推薦過程的可解釋性
本文選取主題K=50,單詞嵌入維度z=400來驗證W-LDA的可解釋性。如表1所示,在主題4和主題9 下,本文按照概率排序選擇了前5個詞進行展示??梢钥闯觯黝}4中的大部分詞與體育競技相關(guān),而該主題下概率較高的頻道主要是體育頻道。這與用戶10004的興趣高度相似,而與用戶10022相似度較低,說明用戶10004 對體育頻道相對感興趣,而用戶10022則興趣不大。
對于主題9來說,概率較高的詞和動畫少兒有關(guān),所以該主題下的頻道主要是少兒頻道和教育頻道。這與用戶10022的相似度較高,說明該用戶對少兒教育興趣較大。總體來說,可以為用戶10022推薦卡酷少兒頻道、金鷹卡通等電視頻道;為用戶10004推薦CCTV5、CCTV5+和北京電視臺體育頻道等相關(guān)頻道。
3.2 推薦方法效果對比
當推薦數(shù)N 分別為5、10、15 和20 時,計算WLDA方法、LDA主題模型、協(xié)同過濾與LSTM方法[10]四種不同方法的準確率、召回率和F1值來進行對比。所有方法均將原始數(shù)據(jù)分成前兩個月的數(shù)據(jù)作為訓練數(shù)據(jù),后一個月作為測試數(shù)據(jù)。其中,LSTM方法參數(shù)設(shè)置為:epoch 為50倍,batch size為5,sgd的學習速率為0.01。
如圖3所示,在推薦頻道數(shù)目N較少時,LDA主題模型與LSTM方法有較高的準確率,而隨著N的增加,W-LDA方法也能取得了較好的效果。從F1值分析,在N=15和N=20時,W-LDA方法可以獲得比較好的效果。
4 結(jié)束語
本文提出的詞嵌入和主題模型的結(jié)合方法不僅可以解釋電視頻道的潛在主題,還能夠利用詞向量計算用戶向量和頻道向量之間的相似度,從而更加明確地解釋推薦過程。該方法表明了電視頻道推薦的可解釋性。同時,使?jié)撛谥黝}在電視節(jié)目簡介上的語義更加明確和連貫,進一步增強了電視頻道推薦的可解釋性。
參考文獻:
[1] VéRAS D,PROTA T,BISPO A,et al.A literature review of rec?ommender systems in the television domain[J].Expert Systems with Applications,2015,42(22):9046-9076.
[2] 張凌云.基于隨機游走模型的電視節(jié)目推薦系統(tǒng)設(shè)計與實現(xiàn)[D].北京:北京郵電大學,2022.
[3] 黃耀,董安明,周酉,等.融合深度學習和協(xié)同濾波的個性化影視節(jié)目推薦算法[J].計算機與網(wǎng)絡,2021,47(13):40-41.
[4] 朱曉松.直播電視節(jié)目推薦方法研究[D].秦皇島:燕山大學,2020.
[5] LIN S C,LIN T W,LOU J K,et al.Personalized TV recommenda?tion:fusing user behavior and preferences[EB/OL].2020:arXiv:2009.08957.http://arxiv.org/abs/2009.08957.
[6] 徐若航.基于在線推薦的廣電個性化適配系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學,2020.
[7] 楊中偉.基于深度學習的網(wǎng)絡電視直播頻道推薦算法研究[D].廣州:華南理工大學,2022.
[8] 寇菲菲,杜軍平,石巖松,等.面向搜索的微博短文本語義建模方法[J].計算機學報,2020,43(5):781-795.
[9] ALAM M H,RYU W J,LEE S.Joint multi-grain topic sentiment:modeling semantic aspects for online reviews[J]. Information Sciences,2016(339):206-223.
[10] 任思璇.網(wǎng)絡電視用戶個性化直播頻道推薦方法研究[D].廣州:華南理工大學,2018.
【通聯(lián)編輯:唐一東】