齊平平
摘 ?要:為了研究動(dòng)態(tài)數(shù)據(jù)下的TextRank與用戶情感傾向在推薦算法中的應(yīng)用,本文在TextRank算法進(jìn)行細(xì)致分析的基礎(chǔ)上,結(jié)合動(dòng)態(tài)數(shù)據(jù)的時(shí)效性特點(diǎn)進(jìn)行了綜合改進(jìn),結(jié)合時(shí)間衰減參數(shù)與時(shí)效性參數(shù)TL,將原本單一的PR值變?yōu)榱司C合PR值,實(shí)驗(yàn)結(jié)果證明,綜合PR值相比于原PR值是更加合理的。在此基礎(chǔ)上,利用綜合PR值數(shù)據(jù)與用戶自身的靜態(tài)數(shù)據(jù)以及用戶情感傾向進(jìn)行整合,通過(guò)推薦算法的綜合篩選,得出最終的推薦結(jié)果,為用戶提供了一個(gè)良好的體驗(yàn)。
關(guān)鍵詞:動(dòng)態(tài)數(shù)據(jù) ?TextRank ?PR值 ?推薦算法 ?情感傾向
中圖分類號(hào):TP301 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-098X(2021)04(b)-0159-04
Research on TextRank and User Emotional Tendency in Recommendation Algorithm
QI Pingping
(School of Communication and Electronic Engineering, East China Normal University, Shanghai, 200241 China)
Abstract: In order to study the application of TextRank under dynamic data and user sentiment in the recommendation algorithm, a comprehensive improvement was made based on the detailed analysis of the TextRank algorithm, combined with the timeliness characteristics of dynamic data, combined with time attenuation parameters and timeliness parameters TL, The original single PR value is changed to a comprehensive PR value. The experimental results prove that the comprehensive PR value is more reasonable than the original PR value. On this basis, the comprehensive PR value data is integrated with the user's own static data and the user's emotional tendency, and the final recommendation result is obtained through the comprehensive screening of the recommendation algorithm, providing a good experience for the user.
Key Words: Dynamic data; TextRank; PR value; Recommendation algorithm; Emotional tendency
1 ?研究背景
互聯(lián)網(wǎng)的快速發(fā)展給全世界的人們帶來(lái)極大便利的同時(shí),也帶來(lái)了一些麻煩,其中網(wǎng)絡(luò)信息過(guò)剩的問(wèn)題尤為突出:人們?cè)诰W(wǎng)絡(luò)上搜索某個(gè)信息時(shí)往往會(huì)迷失在龐大的網(wǎng)絡(luò)數(shù)據(jù)之中,從而無(wú)法獲得自己想要的信息。于是,推薦算法應(yīng)運(yùn)而生,其在很大程度上幫助人們解決了信息過(guò)剩的問(wèn)題,但是面對(duì)互聯(lián)網(wǎng)的實(shí)時(shí)更新的動(dòng)態(tài)數(shù)據(jù),傳統(tǒng)的推薦算法例如協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則的推薦等都無(wú)法滿足人們對(duì)于信息獲取的要求,于是個(gè)性化推薦算法出現(xiàn)。在個(gè)性化推薦算法百家齊放的過(guò)程中,對(duì)于網(wǎng)絡(luò)實(shí)時(shí)的動(dòng)態(tài)數(shù)據(jù)的處理一直都是大問(wèn)題,國(guó)內(nèi)外有許多的專家學(xué)者都有深入研究,如Kim在研究中提出了通過(guò)獲取用戶自身的數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行整合為用戶推薦電子商務(wù)類的個(gè)性化信[1]。Luis等通過(guò)應(yīng)用語(yǔ)義分析的相關(guān)技術(shù),利用已知的網(wǎng)絡(luò)靜態(tài)數(shù)據(jù)建立推薦模型,開(kāi)發(fā)出了一款可以向用戶推薦電影院等相關(guān)信息的系統(tǒng),此系統(tǒng)在系統(tǒng)評(píng)估中取得了相對(duì)較好的結(jié)果[2]。曾子明等從情景數(shù)據(jù)采集、情景計(jì)算、情景建模、模型評(píng)估等分析情景感知模型的構(gòu)建過(guò)程,搭建以用戶為中心的智慧圖書館場(chǎng)景式服務(wù)體系框架[3]。這些研究方案中都有提及到給用戶提供全新的個(gè)性化服務(wù),但是均未考慮到動(dòng)態(tài)數(shù)據(jù)的時(shí)效性,于是本文提出了一種在動(dòng)態(tài)數(shù)據(jù)下采用TextRank算法與用戶情感傾向分析算法,為用戶提供及時(shí)有效地信息推薦。
2 ?動(dòng)態(tài)數(shù)據(jù)與TextRank
2.1 動(dòng)態(tài)數(shù)據(jù)
動(dòng)態(tài)數(shù)據(jù)一般指的是在系統(tǒng)應(yīng)用中隨時(shí)間變化而改變的數(shù)據(jù),動(dòng)態(tài)數(shù)據(jù)的準(zhǔn)備和系統(tǒng)切換的時(shí)間有直接關(guān)系[4]。在本文中,動(dòng)態(tài)數(shù)據(jù)特用來(lái)代指用戶所處情境中的網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)信息。就國(guó)內(nèi)網(wǎng)絡(luò)數(shù)據(jù)熱度而言,采用百度、B站、微博三大熱門網(wǎng)站的動(dòng)態(tài)數(shù)據(jù),模擬用戶處于華東師范大學(xué)“畢業(yè)花”的情境下給予及時(shí)有效的信息推薦。
動(dòng)態(tài)數(shù)據(jù)的獲取是相對(duì)比較難得一個(gè)點(diǎn),本文采用了情景感知算法對(duì)用戶所處的情境進(jìn)行感知以便獲取到用戶所處情境下的動(dòng)態(tài)信息,從而進(jìn)行數(shù)據(jù)的綜合分析,獲得華東師范大學(xué)“畢業(yè)花”情景下的動(dòng)態(tài)數(shù)據(jù)。
2.2 TextRank
TextRank是一種基于文本內(nèi)容分層的排序算法,在原有的谷歌網(wǎng)頁(yè)排序算法PageRank的基礎(chǔ)上改進(jìn)而來(lái)的[5]。區(qū)別于PageRank依賴網(wǎng)頁(yè)之間相互鏈接關(guān)系構(gòu)造網(wǎng)絡(luò),TextRank依賴于文本中詞語(yǔ)的共現(xiàn)關(guān)系構(gòu)造關(guān)系網(wǎng)絡(luò)。在TextRank中,最核心的迭代過(guò)程為:
(1)
式中:S(Vi)是網(wǎng)頁(yè)i的中重要性(即PR值)。d是阻尼系數(shù),一般設(shè)置為0.85。In(Vi)是存在指向網(wǎng)頁(yè)i的鏈接的網(wǎng)頁(yè)集合。Out(Vj)是網(wǎng)頁(yè)j中的鏈接存在的鏈接指向的網(wǎng)頁(yè)的集合[6]。
TextRank算法一般較多地用于純粹的語(yǔ)義分析當(dāng)中,在推薦算法中還未嘗試融合進(jìn)去。本文中,就將借助TextRank算法對(duì)動(dòng)態(tài)數(shù)據(jù)信息進(jìn)行處理。在TextRank數(shù)據(jù)處理過(guò)程中也需要對(duì)動(dòng)態(tài)數(shù)據(jù)中的時(shí)間進(jìn)行處理以便得到時(shí)間t。
由于在處于某一情境時(shí),不單單要考慮到所處情境的情境關(guān)鍵詞語(yǔ),也需要關(guān)注該詞語(yǔ)的時(shí)效性問(wèn)題,所以上文中將S(Vi)與TL分別推導(dǎo)出來(lái)了,利用S(Vi)與TL對(duì)兩者進(jìn)行權(quán)值的賦予可以得到符合本文系統(tǒng)的參數(shù)。首先,將綜合PR值定義為:
(2)
式中:STL為綜合PR值。P為S(Vi)的權(quán)值參數(shù),Q為TL的權(quán)值參數(shù),且P+Q=1。
3 ?綜合PR值
在2階段中,將STL與S(Vi)進(jìn)行了求解,并得到了一個(gè)綜合的PR值,對(duì)于選取的模擬情境下的綜合PR值進(jìn)行了求取,在進(jìn)行綜合PR值計(jì)算后,“畢業(yè)”成為這一情境下的最主要的關(guān)鍵詞,“上?!薄爱厴I(yè)典禮”等關(guān)鍵詞的綜合PR值相對(duì)較小原因是由于動(dòng)態(tài)數(shù)據(jù)的相對(duì)不足,主要原因有:(1)該情境的熱點(diǎn)相對(duì)較低,網(wǎng)絡(luò)上的動(dòng)態(tài)數(shù)據(jù)相比較少;(2)由于綜合PR值有一個(gè)改善過(guò)程并添加了時(shí)間因素,導(dǎo)致對(duì)最終結(jié)果有一定的影響。
將TextRank算法下的PR值進(jìn)行求解與本文所得綜合PR值進(jìn)行對(duì)比可以得到綜合PR值與原本的PR值相比較而言,整體趨勢(shì)基本一致,但是在如“上?!钡汝P(guān)鍵詞上有一定的區(qū)別,其主要原因?yàn)椋壕C合PR值得求解中加入的時(shí)間參數(shù)對(duì)于最終結(jié)果帶來(lái)了一些影響,模擬情境下的時(shí)間為2020年12月即T的時(shí)間,此時(shí)的各個(gè)情境關(guān)鍵詞的TL是不一樣的,例如“畢業(yè)典禮”“畢業(yè)生”等詞匯與當(dāng)前的時(shí)間是不相符的,此時(shí)去對(duì)“華東師范大學(xué)畢業(yè)花”這一情境求取綜合PR值,很明顯本文提出的綜合PR值更加的合理。
4 ?推薦算法改進(jìn)
4.1 推薦算法的簡(jiǎn)單介紹
綜合PR值帶來(lái)的是處于某一情境下的動(dòng)態(tài)信息處理的最終結(jié)果,這樣的結(jié)果對(duì)于推薦算法來(lái)說(shuō)是最好的推薦原因。但同時(shí)在推薦時(shí)也得考慮到用戶的靜態(tài)數(shù)據(jù)即用戶的所處情景的天氣、季節(jié)等數(shù)據(jù)。目前已有的一些推薦算法主要分為基于內(nèi)容的推薦算法、基于協(xié)同過(guò)濾的推薦算法等[7],這些算法更多的是基于用戶使用數(shù)據(jù)的推薦而不是基于某一情境下的推薦,對(duì)于冷啟動(dòng)問(wèn)題的處理相對(duì)比較差。這些推薦算法由于存在著或多或少的缺陷,因而本文將會(huì)選用組合推薦算法進(jìn)行設(shè)計(jì),主要采用了組合推薦算法中的加權(quán)推薦技術(shù),結(jié)合PR值與用戶的情感分析、用戶所處情景的天氣與季節(jié)因素進(jìn)行綜合分析然后得出推薦結(jié)果。
4.2 用戶情感分析
從上文中獲得的用戶動(dòng)態(tài)數(shù)據(jù)中,將獲得的動(dòng)態(tài)數(shù)據(jù)利用CBOW模型與Skip-gram模型[8]進(jìn)行轉(zhuǎn)換使其轉(zhuǎn)換為詞向量,本文采用了百度AI開(kāi)方平臺(tái)上的用戶情感傾向分析算法,可以調(diào)用百度情感分析API的參數(shù),再將上文所獲得的用戶動(dòng)態(tài)數(shù)據(jù)導(dǎo)入,便可獲得用戶在該情境下的情感傾向。任意選取了用戶動(dòng)態(tài)文本分割后的10條數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì),在任意選取的這10段用戶動(dòng)態(tài)文本中用戶的positive_prob值遠(yuǎn)遠(yuǎn)大于negative_prob值,這是由于互聯(lián)網(wǎng)上一般大都是積極的信息居多,我們平常瀏覽到的信息也以積極向上為主,消極的相比之下就很少。
4.3 組合推薦算法模型的建立
前3個(gè)階段中,分別獲取到了用戶處于某一情境下的綜合PR值與用戶情緒傾向分析結(jié)果positive_prob值與negative_prob值,接下來(lái)我們需要獲取用戶手機(jī)數(shù)據(jù)得到天氣信息與季節(jié)信息數(shù)據(jù)分別用Weather與Season表示。
傳統(tǒng)的組合推薦中常用的有加權(quán)、變換等級(jí)別七種,結(jié)合本文所述,選用加權(quán)進(jìn)行推薦的方式進(jìn)行組合,將綜合PR值、pp值與np值以及Weather與Season進(jìn)行加權(quán)組合便可以得到推薦算法模型[10]。
(5)
(6)
(7)
式中:RER表示最終推薦指數(shù),ZHPR表示綜合PR值,Qweather與Qseason分別表示weather與season的權(quán)值,Wp,Wn分別表示positiveprob值與negativeprob值的權(quán)值,w1、w2、w3分別表示ZHPR、prob、WS的權(quán)值。在權(quán)重的配比選擇時(shí),一方面采用樂(lè)條件熵的計(jì)算方法,另一方面選擇了主觀賦值的方法。
在通過(guò)組合推薦算法的研究下,我們最終得到了推薦的最終結(jié)果即PR值與綜合PR值下推薦算法得到的推薦指數(shù)對(duì)比。通過(guò)對(duì)比可以發(fā)現(xiàn)綜合PR值相對(duì)于原PR值的推薦指數(shù)更高,其原因主要是增加了用戶情感傾向、動(dòng)態(tài)數(shù)據(jù)的時(shí)效性等因素。圖中的推薦指數(shù)值這么小的原因是:推薦算法在運(yùn)行過(guò)程中獲得推薦信息很多,多達(dá)上千件,導(dǎo)致推薦指數(shù)值看起來(lái)相對(duì)較低,但是其相對(duì)于長(zhǎng)尾信息來(lái)說(shuō)其占比還是很高的。通過(guò)圖1我們可以輕易的發(fā)現(xiàn)兩種情況下的推薦指數(shù)具有一致性,但仔細(xì)觀察也能發(fā)現(xiàn)兩者存在著差別,別小看這一點(diǎn)的提升,對(duì)于科技日益發(fā)展的今天來(lái)說(shuō)也會(huì)給用戶帶來(lái)巨大的體驗(yàn)。
5 ?結(jié)語(yǔ)
本文中就動(dòng)態(tài)數(shù)據(jù)下的用戶信息為基礎(chǔ)條件,對(duì)該數(shù)據(jù)進(jìn)行了用戶情感傾向分析,并采用了添加時(shí)效性參數(shù)的TextRank算法與用戶本身包含有的靜態(tài)信息相結(jié)合得出了一種新的組合推薦算法,在算法中,我們利用不同方向的技術(shù)相互之間彼此融合,為推薦算法提供了一種新的思路。當(dāng)然也有不足之處,數(shù)據(jù)集帶來(lái)的局限性還是有一定的影響,我們后續(xù)的工作也會(huì)繼續(xù)補(bǔ)足。
參考文獻(xiàn)
[1] 袁靜.國(guó)內(nèi)外情景感知服務(wù)研究綜述[J].國(guó)家圖書館學(xué)刊,2018,27(3):39-47.
[2] Luis Omar Colombo–Mendoza, et al. RecomMetz: A context-aware knowledge-based mobile recommender[J]. Expert Systems with Applications,2015,42(3):1202-1222.
[3] 曾子明,孫守強(qiáng).基于情景感知的智慧圖書館場(chǎng)景式服務(wù)研究[J].圖書與情報(bào),2019(4):101-108.
[4] 喬蕊,董仕,魏強(qiáng),等.基于區(qū)塊鏈技術(shù)的動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)安全機(jī)制研究[J].計(jì)算機(jī)科學(xué),2018,45(2):57-62.
[5] 楊延?jì)?,趙國(guó)濤,袁振強(qiáng),等.融合語(yǔ)義特征的TextRank關(guān)鍵詞抽取方法[J/OL].計(jì)算機(jī)工程:1-8[2021-01-04].
[6] 歐霖,趙永標(biāo).基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)[J].現(xiàn)代信息科技,2020,4(18):23-25,28.
[7] 趙壘.面向eCRM的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].曲阜:曲阜師范大學(xué),2015.
[8] 黃艷群,王妮,劉紅蕾,等.基于Skip-gram詞嵌入算法的結(jié)構(gòu)化患者特征表示方法研究[J].北京生物醫(yī)學(xué)工程,2019,38(6):568-574,604.
[9] 顧德喜,李貴霖,時(shí)祥凱,等.基于百度AI開(kāi)放平臺(tái)的人臉識(shí)別門禁系統(tǒng)[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2019,19(6):33-36.
[10] 陳豪,王澤珺.個(gè)性化推薦算法綜述[J].企業(yè)科技與發(fā)展,2019(2):56-57.