宮玲玲 喬鴻
山東師范大學(xué)管理科學(xué)與工程學(xué)院 山東 250014
本文用戶興趣建模過程中充分考慮了用戶使用移動(dòng)設(shè)備的特點(diǎn)。通過爬取用戶已瀏覽的WAP頁面,從中識(shí)別出手機(jī)用戶的長(zhǎng)期、短期興趣,建立基于本體的加權(quán)關(guān)鍵詞用戶興趣模型。用戶使用手機(jī)瀏覽網(wǎng)頁時(shí)自動(dòng)根據(jù)用戶的興趣模型調(diào)整打開WAP頁面的信息界面,使用戶能在較短時(shí)間找到自己需要的移動(dòng)信息。
基于本體的研究一直存在一個(gè)問題:領(lǐng)域本體的構(gòu)建一直依賴設(shè)計(jì)人員的知識(shí)和經(jīng)驗(yàn),本體的有效性難以保證。本文直接根據(jù)ODP(Open Directory Project)開放式目錄信息構(gòu)建領(lǐng)域本體,可避免以上的問題。ODP是目前互聯(lián)網(wǎng)上最大的、最廣泛的網(wǎng)絡(luò)資源目錄。由來自世界各地的志愿者共同建設(shè)和維護(hù)的,且一直處在不斷更新中。
本文領(lǐng)域本體的構(gòu)建根據(jù)ODP的前三個(gè)層次,ODP開放式目錄將知識(shí)體系按多層次化結(jié)構(gòu)來表示,上層主題父類是對(duì)下層所有子類的共同屬性的概括,而下層子類則是從不同角度對(duì)上層父類的細(xì)化。第三層根據(jù)中文維基百科的分類索引進(jìn)行特征詞的擴(kuò)充,這樣基本能夠涵蓋大部分概念及其關(guān)系。本文使用Stanford大學(xué)開發(fā)的Protégé 4.1本體編輯器來建立領(lǐng)域本體。
用戶興趣模型的創(chuàng)建首先需要收集用戶興趣,這一過程為用戶興趣模型的建立提供必要的數(shù)據(jù)源?,F(xiàn)代個(gè)性化系統(tǒng)中,多采用隱式的信息收集方式,或二者結(jié)合的方式。由于移動(dòng)設(shè)備屏幕顯示的限制,本文采用隱性方式自動(dòng)構(gòu)建用戶模型。通過移動(dòng)用戶瀏覽WAP頁面的行為來挖掘用戶興趣。用戶瀏覽的過程中,記錄下用戶瀏覽頁面的完整URL、頁面大小(傳輸?shù)淖止?jié)數(shù))、用戶瀏覽頁面的時(shí)間等信息。用戶瀏覽頁面的這些信息主要來源于WAP門戶網(wǎng)站及相關(guān)接入服務(wù)提供商(SP)的WAP服務(wù)器,這些服務(wù)器中詳細(xì)記錄了用戶的瀏覽信息。
用戶對(duì)于自己感興趣的內(nèi)容會(huì)花費(fèi)較多的時(shí)間去閱讀和思考,所以用戶瀏覽WAP頁面的行為從一定程度上能夠反映出用戶對(duì)頁面內(nèi)容的興趣度。一般,用戶瀏覽的時(shí)間和文章的長(zhǎng)度成正比,與用戶移動(dòng)終端屏幕顯示的字?jǐn)?shù)成反比。綜合考慮各個(gè)因素,文中依據(jù)用戶相對(duì)閱讀速度的不同,判斷其興趣度。相對(duì)閱讀速度與用戶對(duì)頁面的興趣度成反比。相對(duì)閱讀速度即用戶i閱讀頁面j的速度與其平均閱讀速度的比率,如式1所示。
公式(1)中,Rateij表示用戶i閱讀頁面j的相對(duì)閱讀速度,Rij是用戶i閱讀頁面j的速度,Ri是用戶i的平均閱讀速度。
根據(jù)獲得的wap頁面的大小和用戶在頁面的停留時(shí)間來計(jì)算用戶的閱讀速度,如式2所示。size(j)表示頁面j的大小,tij表示用戶i閱讀新聞j所用的時(shí)間。當(dāng)t1≤tij≤t2時(shí),
其中,t1表示最小閱讀時(shí)間,t2表示最大閱讀時(shí)間。當(dāng)tij
用戶i的平均閱讀速度如式3所示:
在公式(3)中,size(i)是用戶i所有閱讀過的頁面的大小之和,time(i)是用戶閱讀過的頁面所花費(fèi)的時(shí)間之和。
根據(jù)用戶的相對(duì)閱讀速度可以對(duì)應(yīng)出用戶對(duì)WAP頁面的興趣度。如表1所示。
表1 頁面興趣度對(duì)應(yīng)表
本文采用基于本體的加權(quán)關(guān)鍵詞興趣表示方法。用戶興趣模型是用戶興趣領(lǐng)域本體的部分映射。每個(gè)用戶有一棵用戶興趣樹,按用戶存儲(chǔ)在用戶興趣庫中,用戶興趣樹如圖1所示。同一用戶所有興趣類別的集合構(gòu)成該用戶的用戶興趣集,某個(gè)興趣類別包含的特征詞的集合構(gòu)成興趣類別的特征詞集。該方法通過不同組合的興趣節(jié)點(diǎn)及其權(quán)值構(gòu)成用戶個(gè)體興趣本體來表示用戶的興趣。
圖1 用戶興趣模型
定義用戶興趣樹中節(jié)點(diǎn)為三元組,其中每個(gè)節(jié)點(diǎn)定義為:
node={keyword,weight,time}
其中,keyword是這一節(jié)點(diǎn)的興趣類別,weight為該興趣類別的權(quán)重,用來表示用戶對(duì)該興趣類別的偏好程度。time為權(quán)重的最新更新時(shí)間。
用戶興趣樹的生成算法:
(1) 用戶興趣樹的根節(jié)點(diǎn)為用戶ID,用來標(biāo)識(shí)用戶信息;
(2) 根據(jù)用戶的子興趣類型n創(chuàng)建興趣類型節(jié)點(diǎn)及其父節(jié)點(diǎn),子節(jié)點(diǎn)與父節(jié)點(diǎn)相連,父節(jié)點(diǎn)與根節(jié)點(diǎn)相連。
(3) 子興趣節(jié)點(diǎn)n的權(quán)值為其下的特征詞節(jié)點(diǎn)it的權(quán)值之和再疊加上自身的權(quán)值,如式4所示:
(4) 向上逐個(gè)計(jì)算父節(jié)點(diǎn)的權(quán)值,父節(jié)點(diǎn)權(quán)值為其子興趣節(jié)點(diǎn)權(quán)值之和。
在初始狀態(tài)下,用戶興趣模型中僅存在根節(jié)點(diǎn)。本文中手機(jī)用戶使用手機(jī)號(hào)碼作為識(shí)別用戶身份的惟一標(biāo)識(shí),即用手機(jī)號(hào)碼表示用戶ID。
根據(jù)用戶的瀏覽日志記錄,得到用戶的瀏覽歷史頁面URL,從而獲得WML文檔。通過WML解析器對(duì)WML文檔進(jìn)行預(yù)處理,去除其中與用戶興趣挖掘無關(guān)的內(nèi)容,提取出文檔的標(biāo)題和文本。文本采用向量空間模型(VSM)的表示方法。特征詞按照其TF/IDF值降序排列,因?yàn)闄?quán)值高的特征詞能夠更好的反映該文本的內(nèi)容,而權(quán)值低的詞與文檔本身的內(nèi)容關(guān)系較弱。所以只需要使用最能夠代表文檔特征的前K個(gè)特征詞及其權(quán)值參與計(jì)算即可。
WAP頁面的歸類通過計(jì)算頁面特征詞向量和興趣領(lǐng)域本體中興趣子類的相似度得到,取相似度最高的類別作為該頁面的類別。WAP頁面D向量表示為D={k1,w1;k1,w2...kn,wn},用戶興趣類別N和頁面D的相似度采用余弦相似度計(jì)算方式,如式5所示:
twi表示興趣領(lǐng)域本體中興趣類別N的特征詞的權(quán)重,如果N的特征詞集中有ki,則權(quán)值為1,否則為0。
本文用戶興趣模型采用基于本體的加權(quán)關(guān)鍵詞興趣表示方法,它隨著用戶興趣的變化也進(jìn)行相應(yīng)的更新。從移動(dòng)設(shè)備存儲(chǔ)的容量和運(yùn)行的效率方面考慮,需定期淘汰用戶次要的和過時(shí)的興趣類別。用戶興趣分為長(zhǎng)期和短期興趣。長(zhǎng)期興趣反映出用戶長(zhǎng)期的偏好特征,而短期興趣隨著時(shí)間的推移發(fā)生改變。用戶短期興趣很難與用戶偶然性的瀏覽相區(qū)分。本文所建立的用戶模型能同時(shí)反映出用戶的長(zhǎng)期興趣和短期興趣的變化。
文中當(dāng)發(fā)現(xiàn)用戶一個(gè)興趣類別M時(shí),查詢?cè)撚脩衄F(xiàn)有的興趣類別。如果此興趣類別已經(jīng)包含在興趣模型中,則對(duì)該興趣類別及其特征詞的權(quán)重和時(shí)間進(jìn)行修改。如果發(fā)現(xiàn)此興趣類別不在用戶興趣模型中,則直接在用戶興趣模型中生成一個(gè)新的興趣類別,并對(duì)應(yīng)相應(yīng)的權(quán)重和時(shí)間。興趣領(lǐng)域本體中興趣類別M的特征詞集中和WAP頁面的特征詞相對(duì)應(yīng)的特征詞加入用戶興趣模型興趣類別M下,并對(duì)應(yīng)相應(yīng)的權(quán)重。特征詞的權(quán)重的更新方法如式6所示,不是將TF/IDF值直接累加,而是將原模型中的所有特征詞的權(quán)重乘以一個(gè)衰減系數(shù)。新的特征詞的權(quán)重也不是直接歸并進(jìn)去,歸并的時(shí)候需要乘以用戶對(duì)該頁面的興趣度,興趣度在用戶興趣收集時(shí)已根據(jù)相對(duì)閱讀速度得到。
其中,wi表示特征詞ti新的權(quán)值;λ(t)為時(shí)間衰減系數(shù);wi′表示其原權(quán)值;Iij是用戶i對(duì)當(dāng)前瀏覽的頁面j的興趣度;wj是頁面j中該特征詞的TF/IDF值。λ(t)是與時(shí)間相關(guān)的函數(shù),如式7所示:
其中,k值的大小決定了特征值權(quán)重的衰減速度。k值越大,衰減速度越快。興趣類別的自身權(quán)重的更新方式與以上特征詞的更新方式相同,只是公式6中jw表示頁面與所屬興趣類別的余弦相似度。更新用戶模型時(shí),原模型中所有興趣類別及其特征詞的權(quán)重均乘以衰減系數(shù)的原因是用戶的短期興趣有隨著時(shí)間的推移而逐漸消失的特點(diǎn),使用時(shí)間衰減系數(shù)能使短期興趣的特征詞的權(quán)值逐漸減小直至淘汰出用戶興趣模型。
移動(dòng)個(gè)性化服務(wù)是移動(dòng)網(wǎng)絡(luò)快速發(fā)展的產(chǎn)物,是一個(gè)有巨大應(yīng)用前景的研究領(lǐng)域。本文研究了移動(dòng)環(huán)境下基于領(lǐng)域本體構(gòu)建用戶興趣模型。根據(jù)用戶瀏覽相對(duì)速度,分析用戶對(duì)WAP頁面的偏好程度,反映到用戶興趣模型中,能夠及時(shí)反映出用戶興趣的變化。該模型完全采用自動(dòng)用戶建模,不會(huì)給用戶帶來負(fù)擔(dān),能夠更好的為移動(dòng)環(huán)境下個(gè)性化服務(wù)提供基礎(chǔ)。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第28次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告.[2012-07-19].http://www.cnnic.net.cn.
[2] 曹建.WAP編程與開發(fā)實(shí)例教程[M].北京:電子工業(yè)出版社.2001.
[3] 蘭楊.移動(dòng)個(gè)性化信息服務(wù)中用戶興趣建模的研究[D].成都:電子科技大學(xué).2009.
[4] 李善平,尹奇,胡玉杰.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展.2004.
[5] 李強(qiáng).基于本體論的個(gè)性化和社會(huì)化元搜索引擎的研究[D].浙江:浙江大學(xué).2006.