葉文權(quán)+陸興華
摘要: 關(guān)鍵詞: 中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A文章編號(hào): 2095-2163(2017)06-0005-04
Abstract: The current search algorithm generally ignores the users' interest behavior. It just relies on the surface of the keywords to predict the users' search preferences, to provide users with contents automatically. This kind of search algorithm cannot reflect users' real needs deeply. It does not customize a personalized search model according to the users' longterm search habits and search interests. This paper proposes a personalized search model based on users' behavior when they browse websites, such as the time, types of websites and whether there are any further actions such as saving or copying when browsing the webpage. All of these can enrich contents about personalized search model proposed in this paper,which makes the search algorithm be more accurate and close to the users' real needs.
0引言
隨著互聯(lián)網(wǎng)逐漸融入人們的日常生活,網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)增加,如搜狗、百度等搜索引擎可以為用戶帶來(lái)更方便的數(shù)據(jù)查找,用戶對(duì)數(shù)據(jù)查找的準(zhǔn)確性要求也越來(lái)越高,希望隨時(shí)隨地地找到所期待的數(shù)據(jù),使得數(shù)據(jù)對(duì)于人們來(lái)說(shuō)是更加透明、獲取更加快捷、更加智能,創(chuàng)造更加舒適化、安全化、透明化的信息獲取環(huán)境。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心公布了第 39 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截止2016年12月,我國(guó)網(wǎng)民規(guī)模達(dá)7.31億,全年共計(jì)新增網(wǎng)民4299萬(wàn)人[1]。由此可見(jiàn),網(wǎng)絡(luò)早已深入普通民眾的日常生活中,正因?yàn)楫?dāng)前網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)信息流量十分龐大,網(wǎng)民們才對(duì)網(wǎng)絡(luò)搜索的準(zhǔn)確度提出了更高的要求,然而當(dāng)前眾多搜索引擎的搜索準(zhǔn)確度均為有限,每個(gè)人的上網(wǎng)習(xí)慣和事物喜好傾向的不同也就導(dǎo)致了搜索引擎“眾口難調(diào)”的現(xiàn)狀。因此,本文研究的是在基于用戶日常的上網(wǎng)習(xí)慣中提取用戶的興趣點(diǎn),并融合計(jì)算用戶的興趣度,再進(jìn)一步設(shè)計(jì)建立用戶的個(gè)性化搜索模型,也就相當(dāng)于為用戶量身打造了一個(gè)專屬于某用戶的搜索引擎,以此來(lái)提高搜索的準(zhǔn)確度。
1用戶瀏覽行為分析
大量研究分析得出,用戶對(duì)網(wǎng)頁(yè)的興趣度通常體現(xiàn)在用戶的瀏覽行為上。用戶的許多瀏覽行為都能映射出用戶的興趣和偏好。例如:瀏覽網(wǎng)頁(yè)的時(shí)間、瀏覽網(wǎng)頁(yè)的類型、在網(wǎng)頁(yè)中進(jìn)行保存、復(fù)制等操作、把網(wǎng)頁(yè)加入收藏夾、訪問(wèn)網(wǎng)頁(yè)的次數(shù)等行為都在一定程度上表現(xiàn)出用戶的興趣[2]。
用戶興趣度計(jì)算的最小瀏覽組合為以下五種:保存頁(yè)面、打印頁(yè)面、將頁(yè)面加入收藏夾、訪問(wèn)同一頁(yè)面的次數(shù)、在頁(yè)面上的瀏覽時(shí)間。分析這五種瀏覽行為之間的關(guān)系可以發(fā)現(xiàn),如果用戶進(jìn)行了收藏頁(yè)面、保存頁(yè)面、打印頁(yè)面等操作,則說(shuō)明對(duì)其興趣度較高。除此之外,如果用戶在瀏覽頁(yè)面時(shí)對(duì)頁(yè)面內(nèi)容有復(fù)制、粘貼、剪切等行為的話,也從側(cè)面反映了用戶對(duì)該頁(yè)面有著較濃的興趣。
用戶的各種瀏覽行為之間的關(guān)系既各自獨(dú)立,又相互聯(lián)系,而用戶本身的瀏覽習(xí)慣也有著顯著不同,因此選擇哪些瀏覽行為來(lái)分析用戶的興趣就尤顯其研究存在的重要性。若僅選擇少數(shù)幾個(gè)瀏覽行為,則容易導(dǎo)致用戶興趣的精度不高,但選擇過(guò)多又會(huì)造成計(jì)算方法的繁冗復(fù)雜。經(jīng)過(guò)對(duì)用戶瀏覽行為的綜合考慮,本文選擇了從用戶的實(shí)際瀏覽動(dòng)作、對(duì)頁(yè)面的訪問(wèn)次數(shù)、在頁(yè)面上的瀏覽時(shí)間這三個(gè)方面來(lái)估算用戶的興趣度。
2基于用戶行為的興趣度估算
如果用戶在某時(shí)間內(nèi)依次共瀏覽了多個(gè)頁(yè)面或者多次訪問(wèn)同一個(gè)頁(yè)面,記用戶在該時(shí)間內(nèi)瀏覽的各頁(yè)面為ω1, ω2, ω3, …, ωn。在分析用戶的瀏覽行為時(shí),用戶的實(shí)際瀏覽動(dòng)作、對(duì)頁(yè)面的訪問(wèn)次數(shù)、在頁(yè)面上的瀏覽時(shí)間這三類典型的瀏覽行為近似地代替所有的瀏覽行為[3]。因此在本次研究中,用戶對(duì)頁(yè)面的興趣度就可視作為上述三類行為的函數(shù)。
2.1基于用戶瀏覽動(dòng)作的用戶興趣度計(jì)算
如果用戶對(duì)一個(gè)頁(yè)面感到興趣,則有很大幾率會(huì)對(duì)該頁(yè)面開(kāi)展一系列的瀏覽動(dòng)作,如:保存、打印、收藏和復(fù)制。因此,可以利用用戶的這些瀏覽行為來(lái)進(jìn)行用戶興趣度的計(jì)算。
2.2基于用戶訪問(wèn)次數(shù)的用戶興趣度計(jì)算
調(diào)查顯示,用戶在瀏覽頁(yè)面時(shí),很少會(huì)發(fā)生保存頁(yè)面、收藏頁(yè)面和打印頁(yè)面等瀏覽行為,因此,僅是依托用戶的瀏覽動(dòng)作來(lái)計(jì)算用戶的興趣度也未臻至全面,故而還需要對(duì)用戶的訪問(wèn)次數(shù)和瀏覽時(shí)間進(jìn)行分析,進(jìn)而計(jì)算用戶的興趣度,豐富用戶的個(gè)性化搜索模型。
用戶對(duì)一個(gè)頁(yè)面的興趣度很大程度上反映在其對(duì)該頁(yè)面的訪問(wèn)頻度上[4],由此,研究可以定義用戶在某段時(shí)間內(nèi)對(duì)某一頁(yè)面的訪問(wèn)次數(shù)為Freqω,可知Freqω越大,用戶的興趣度Interestω也就越大?;谟脩粼L問(wèn)次數(shù)的用戶興趣度計(jì)算函數(shù)可表示為:InterestFreqW=Freqωmaxv∈WFreqω (4)其中,W為某一時(shí)間段內(nèi)用戶訪問(wèn)的所有頁(yè)面的集合。雖然式(4)可以對(duì)用戶的興趣度進(jìn)行量化計(jì)算,但是隨著時(shí)間的推移,用戶對(duì)某個(gè)網(wǎng)頁(yè)的訪問(wèn)次數(shù)會(huì)逐漸地累積,這些冗余的數(shù)據(jù)就未必能夠真實(shí)地反映當(dāng)前用戶的興趣,這就導(dǎo)致了對(duì)用戶興趣度計(jì)算的準(zhǔn)確率下降,并且隨著時(shí)間的推移,精度還會(huì)越來(lái)越低。因此,這里提出需對(duì)用戶的瀏覽次數(shù)進(jìn)行周期性地更新,設(shè)定以“周”為單位,每經(jīng)過(guò)一周,就對(duì)數(shù)據(jù)擇取1次更新處理[5]。更新方法如下:endprint
2.3基于用戶瀏覽頁(yè)面的速度計(jì)算用戶興趣度
用戶對(duì)某個(gè)頁(yè)面的瀏覽時(shí)間越長(zhǎng),則從一定程度上表明了用戶對(duì)該頁(yè)面具有較高興趣,因此用戶對(duì)頁(yè)面的瀏覽時(shí)間也是分析用戶興趣度的一個(gè)重要指標(biāo)。用戶的瀏覽時(shí)間與用戶瀏覽網(wǎng)頁(yè)的速度密不可分,為了更為有效地規(guī)整集成各類因素,本文將用戶的瀏覽時(shí)間與瀏覽速度相對(duì)應(yīng)?;谟脩魹g覽頁(yè)面的速度來(lái)計(jì)算用戶的興趣度,不僅要考慮用戶在頁(yè)面的停留時(shí)間,還需要考慮頁(yè)面大小的影響。
2.4利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行整合建模
三種用戶興趣度之間并不是相互獨(dú)立的,而是相互依存,相互聯(lián)系的,只有對(duì)這三種用戶興趣度進(jìn)行整合后,才能真實(shí)地反映用戶興趣度。在求用戶興趣度時(shí),要先判斷InterestActivitω的取值, 由之前推導(dǎo)可知,當(dāng)InterestActivitω取值為1時(shí),可直接將Interestω置為1。
當(dāng)InterestActivitω=0時(shí),則要考慮用戶對(duì)頁(yè)面的訪問(wèn)次數(shù)以及訪問(wèn)速度下的用戶興趣度的取值了,本文利用三層BP神經(jīng)網(wǎng)絡(luò)來(lái)支持設(shè)計(jì)這兩者的融合。BP(back propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的思想概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)由輸入層、輸出層和隱含層構(gòu)成,隱含層的數(shù)量由一層到多層不等,隱含層的數(shù)量越多,則神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜[7]。本次研究中,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)結(jié)構(gòu)如圖1所示。
3用戶個(gè)性化興趣庫(kù)的建立
基于用戶行為計(jì)算給出的興趣度只是一個(gè)用戶興趣度的初步模型,該模型是對(duì)用戶的有限次操作所得到的,分析可知其結(jié)果精度還稍顯遜色,因?yàn)殡S著時(shí)間的推移,用戶的興趣度可能發(fā)生多維的變化?;诖?,研究擬將建立針對(duì)特定用戶的個(gè)性化興趣庫(kù),將基于用戶行為計(jì)算出來(lái)的用戶興趣度數(shù)據(jù)保存在用戶的個(gè)性化興趣庫(kù)中,隨著用戶不斷地在網(wǎng)絡(luò)上發(fā)生一些特定的瀏覽行為,用戶的個(gè)性化興趣庫(kù)即會(huì)日趨完善,并更加豐富,而且越來(lái)越接近用戶的日常搜索習(xí)慣。這也相當(dāng)于是一個(gè)隨著用戶的使用次數(shù)越多而漸至達(dá)到完善的用戶個(gè)人興趣數(shù)據(jù)庫(kù),當(dāng)該興趣庫(kù)積累擴(kuò)充到一定程度時(shí),其對(duì)用戶的興趣度預(yù)測(cè)將會(huì)極其接近用戶的真實(shí)興趣。
3.1PageRank算法
PageRank算法是Google創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1997年構(gòu)建早期的搜索系統(tǒng)原型時(shí)研究提出的鏈接分析算法[8],是Google用來(lái)標(biāo)識(shí)一個(gè)網(wǎng)頁(yè)的重要性、衡量一個(gè)網(wǎng)站優(yōu)劣的標(biāo)準(zhǔn)。該算法的主要思想是:首先網(wǎng)頁(yè)通過(guò)鏈接關(guān)系建立起Web圖,每個(gè)網(wǎng)頁(yè)都設(shè)置一個(gè)相同的PR(PageRank)值,如果一個(gè)網(wǎng)頁(yè)通過(guò)超鏈接鏈向另一個(gè)網(wǎng)頁(yè),則表示向鏈出網(wǎng)頁(yè)投了一票,并將自身PR值平均分配給鏈出網(wǎng)頁(yè)。PR值越高,證明該網(wǎng)頁(yè)越受歡迎,其受歡迎等級(jí)分為0~10級(jí),10級(jí)為滿分。獲得更高評(píng)分的網(wǎng)頁(yè)在網(wǎng)頁(yè)搜索時(shí)將會(huì)獲得較前排名。具體來(lái)說(shuō),一個(gè)網(wǎng)頁(yè)的PR值主要由三個(gè)因素決定[9],基于表述如下:
1)一個(gè)網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè)越多,該網(wǎng)頁(yè)的PR值越高;
2)一個(gè)網(wǎng)頁(yè)鏈入網(wǎng)頁(yè)的排名越高,該網(wǎng)頁(yè)的PR值也會(huì)越高;
3)一個(gè)網(wǎng)頁(yè)鏈入網(wǎng)頁(yè)的出度越少,該網(wǎng)頁(yè)的PR值越高。
由以上三個(gè)因素,推導(dǎo)可知PageRank算法的原始公式為:PRμ=∑v∈IμPRvOutv(12)其中,Iμ是網(wǎng)頁(yè)μ的鏈入頁(yè)面的集合,Outv是網(wǎng)頁(yè)v鏈出頁(yè)面的數(shù)目。
3.2基于用戶個(gè)性化興趣庫(kù)的搜索內(nèi)容推薦
PageRank雖然是一種堪稱經(jīng)典的搜索分析算法,并且在Google中也占據(jù)著舉足輕重的地位,但是其缺點(diǎn)卻也顯而易見(jiàn),該算法對(duì)網(wǎng)頁(yè)的排名過(guò)于公式化,因?yàn)槊總€(gè)用戶都是有著不同興趣愛(ài)好的獨(dú)立個(gè)體,如果一味追求公式化而忽略用戶的興趣反而會(huì)造成搜索精度大幅下降,給用戶帶來(lái)差等體驗(yàn)。因此,如果能將該算法與用戶個(gè)性化興趣庫(kù)有機(jī)地結(jié)合起來(lái)將會(huì)大大地提高搜索精度[10]。
用戶在轉(zhuǎn)入網(wǎng)絡(luò)搜索時(shí)往往是帶有強(qiáng)烈的個(gè)人興趣的,因此,用戶在輸入關(guān)鍵詞展開(kāi)搜索時(shí),PageRank算法可以計(jì)算出每個(gè)網(wǎng)頁(yè)的PR值,先進(jìn)行預(yù)排名,之后再在用戶個(gè)性化興趣庫(kù)中對(duì)相應(yīng)搜索內(nèi)容進(jìn)行興趣度匹配,將興趣度匹配吻合程度最高的頁(yè)面的排名提前,將興趣度匹配程度較低的頁(yè)面排名移后或者刪除,綜合所有網(wǎng)頁(yè)的排名后即可提交給用戶。如果用戶在排名較前的頁(yè)面中找到感興趣的內(nèi)容并伴隨著相應(yīng)的瀏覽行為,又可對(duì)用戶的瀏覽行為調(diào)取興趣度分析計(jì)算,從而將數(shù)據(jù)返回至用戶個(gè)性化興趣庫(kù)中,最后即使用戶個(gè)性化興趣庫(kù)得以充實(shí)與完善。
4實(shí)驗(yàn)分析
本節(jié)實(shí)驗(yàn)分析的關(guān)鍵步驟就是對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析整理,過(guò)程中采集實(shí)驗(yàn)數(shù)據(jù)時(shí)運(yùn)用的是Web日志挖掘的方法。該方法主要分為數(shù)據(jù)預(yù)處理、會(huì)話識(shí)別、模式發(fā)現(xiàn)以及模式分析這四個(gè)階段。其基本過(guò)程就是根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)經(jīng)由提取、分解、合并后轉(zhuǎn)化為用戶會(huì)話文件,再運(yùn)用統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類、歸類、序列模式、依賴關(guān)系等技術(shù)從Web日志數(shù)據(jù)中挖掘和發(fā)現(xiàn)用戶使用Web的各種潛在的規(guī)律和模式。最后,在模式分析階段把在模式發(fā)現(xiàn)階段產(chǎn)生的規(guī)則和模式過(guò)濾掉,去除那些無(wú)用的模式,并把發(fā)現(xiàn)的結(jié)果模式通過(guò)一定的方法直觀地展現(xiàn)出來(lái)。
采集得到特定用戶群一個(gè)月內(nèi)瀏覽http://www.163.com/網(wǎng)站中的瀏覽日志文件,使用本文中的興趣度計(jì)算方法來(lái)計(jì)算用戶興趣度,并與用戶對(duì)瀏覽網(wǎng)頁(yè)的興趣度自評(píng)加以對(duì)比,來(lái)衡定、并驗(yàn)證本文方法的合理性及對(duì)用戶興趣度預(yù)測(cè)的準(zhǔn)確性。通過(guò)Web日志挖掘獲取到瀏覽行為數(shù)據(jù)3 246條,對(duì)這些數(shù)據(jù)進(jìn)行清洗、篩選,選擇其中有效數(shù)據(jù)為2 951條,再對(duì)這些瀏覽行為設(shè)計(jì)展開(kāi)基于用戶行為的興趣度計(jì)算,繼而利用Matlab軟件中的神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)整合,輸出最終的用戶興趣度。不僅如此,研究又將該用戶興趣度與用戶對(duì)瀏覽網(wǎng)頁(yè)的興趣度自評(píng)結(jié)果做出了比較對(duì)照,部分?jǐn)?shù)據(jù)對(duì)比結(jié)果如表1所示。endprint
由表1實(shí)驗(yàn)數(shù)據(jù)可以分析得到,本文建立的用戶個(gè)性化搜索模型對(duì)用戶的興趣預(yù)測(cè)精度高,說(shuō)明了該用戶興趣模型在搜索引擎系統(tǒng)中發(fā)揮了突出的作用,能夠?yàn)橛脩敉扑]其真正感興趣的內(nèi)容,更加貼近用戶的真實(shí)需求,大大節(jié)省了用戶的時(shí)間成本,同時(shí)更增進(jìn)了用戶的查詢信息的滿意度。
5結(jié)束語(yǔ)
隨著目前網(wǎng)絡(luò)的普及以及信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)與現(xiàn)代生活早已息息相關(guān),并且產(chǎn)生了重大的影響。特別地,針對(duì)當(dāng)代快節(jié)奏的生活方式,在五花八門(mén)的各式網(wǎng)頁(yè)中海量搜索用戶感興趣的內(nèi)容已經(jīng)明顯滯后于時(shí)代的發(fā)展。本文通過(guò)對(duì)用戶的瀏覽行為進(jìn)行分析,計(jì)算用戶的興趣度,建立用戶的個(gè)性化興趣庫(kù),從而提出用戶的個(gè)性化搜索模型。在此基礎(chǔ)上,由實(shí)驗(yàn)分析可知,該模型能夠高效反映用戶的興趣點(diǎn),并在用戶進(jìn)行瀏覽器搜索時(shí)提供用戶所感興趣的內(nèi)容,大大節(jié)省了用戶的時(shí)間,并給用戶帶來(lái)更好的使用體驗(yàn)。
參考文獻(xiàn):
[1] 郝水龍,吳共慶,胡學(xué)鋼. 基于層次向量空間模型的用戶興趣表示及更新[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(2):190-197.
[6] 史寶明,賀元香,張永. 個(gè)性化信息檢索中用戶興趣建模與更新研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(3):7-10.
[7] 潘慶先,董紅斌,韓啟龍,等. 一種基于BP神經(jīng)網(wǎng)絡(luò)的屬性重要性計(jì)算方法[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(1):18-25.
[8] 馮海濤. 基于網(wǎng)頁(yè)時(shí)間權(quán)值的PageRank算法改進(jìn)[J]. 西安郵電大學(xué)學(xué)報(bào),2013,18(2):121-124.
[9] 邵晶晶,李波,劉漢平. PageRank的改進(jìn)算法—調(diào)整阻尼因子[J]. 應(yīng)用數(shù)學(xué),2008,21(S1):57-61.
[10]孫克雷,陳安東. 基于用戶興趣的個(gè)性化推薦算法研究[J]. 安徽建筑大學(xué)學(xué)報(bào),2017,25(1):65-69.
[11]王沖,紀(jì)仙慧. 基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 計(jì)算機(jī)科學(xué),2016,43(3):275-278,312.
[47] LEDERER S,MULLER C,TIMMERER C. Dynamic adaptive streaming over http dataset[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, NC, USA:ACM, 2012:89-94.
[48]OYMAN O, SINGH S. Quality of experience for http adaptive streaming services[J]. IEEE Communications Magazine, 2012,50(4):20-27.
[49]ESSAILI A E,SCHROEDER D,STAEHLE D, et al. Qualityofexperience driven adaptive http media delivery[C]// Communications (ICC), 2013 IEEE International Conference on. Budapest:IEEE, 2013:2480-2485.
[50]MOK R K,LUO X,CHAN E W W,et al. Qdash: A QoEaware dash system[C]//Proceedings of the 3rd Multimedia Systems Conference.Chapel Hill, North Carolina: ACM, 2012: 11-22.
[51]HOUDAILLE R,GOUACHE S. Shaping http adaptive streams for a better user experience[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, North Carolina:ACM, 2012:1-9.
[52]THANG T C,HO Q D,KANG J W, et al. Adaptive streaming of audiovisual content using mpeg dash[J]. IEEE Transactions on Consumer Electronics, 2012, 58(1):78-85.
[53]MLLER C, LEDERER S, TIMMERER C. An evaluation of dynamic adaptive streaming over http in vehicular environments[C]// Proceedings of the 4th Workshop on Mobile Video. Chapel Hill, North Carolina:ACM,2012:37-42.
[54]PIRES K, SIMON G. Dash in twitch: Adaptive bitrate streaming in live game streaming platforms[C]// Proceedings of the 2014 Workshop on Design, Quality and Deployment of Adaptive Video Streaming. Sydney, Australia:ACM,2014:13-18.endprint