鄒依彤,王紅霞
(沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽,110159)
推送服務(wù)主要體現(xiàn)為如下三種形式:RSS頻道推送、郵件推送、推送代理推送。
RSS也稱之為聚合RSS,全稱是Really Simple Syndication,是一種很受歡迎的資源共享應(yīng)用,同時(shí)也是資源共享模式的延伸,最早的RSS服務(wù)器就具備了較為完善的服務(wù)推送功能,用戶無需自己手動(dòng)輸入搜索內(nèi)容,另一方面,在時(shí)效性方面,RSS也能夠根據(jù)用戶的需求實(shí)時(shí)的更新所需要的信息。
是指將用戶感興趣的信息以電子郵件的形式推送給用戶,用戶也可以選擇閱讀、下載或刪除推送的消息,同時(shí)底層的服務(wù)及協(xié)議均由基本的電子郵件服務(wù)提供商提供。
這種方式需要在一定程度上依賴用戶,用戶需要首先描述自己的需求,然后服務(wù)器把這份請(qǐng)求傳遞給推送代理,將用戶的需求信息傳送至查詢代理,篩選信息的所有工作都交由查詢代理來完成。因?yàn)檫@種方式需要用戶的干預(yù),因此智能性還有待提高。
首先建立文本數(shù)據(jù)庫,這個(gè)步驟又可以細(xì)分為:首先選擇要使用的文檔,然后確定對(duì)這些文檔所做的操作,構(gòu)造出文本的模型,進(jìn)而生成文檔的邏輯視圖。之后對(duì)生成的邏輯視圖建立倒排索引。在推送之前還需對(duì)推送進(jìn)行預(yù)處理,如根據(jù)用戶的反饋進(jìn)行實(shí)時(shí)的調(diào)整,在獲得結(jié)果之后,還會(huì)根據(jù)用戶的感興趣程度對(duì)結(jié)果進(jìn)行排序,最后反饋給用戶。整個(gè)過程中,為了提高工作效率,必須先對(duì)搜索范圍內(nèi)的文檔進(jìn)行文本預(yù)處理,使其成為關(guān)鍵詞類的倒排文件,建立倒排文件的流程如下:詞法、語法分析→刪除無用詞匯→詞干提取→選擇關(guān)鍵詞作為索引詞。
這一步驟主要是對(duì)詞語的切分,主要采用的中文分詞方法有:最佳匹配法、反向最大匹配法、逐詞遍歷法、正向最大匹配法、設(shè)立切分標(biāo)識(shí)法。這幾種方式由于正向最大匹配法原理簡單,而且具有更大的應(yīng)用范圍,因此,這里使用正向最大匹配法來實(shí)現(xiàn)詞語的切分。
本步驟的主要目的是進(jìn)行信息過濾,其目的是把不相關(guān)或相關(guān)程度較低的文檔過濾掉,并將剩下的文檔按照與用戶興趣相似的程度進(jìn)行排序。信息過濾的流程如下:根據(jù)用戶興趣關(guān)鍵字搜索并返回一批文檔,然后將文檔預(yù)處理,過濾掉無用的及其他干擾信息,然后計(jì)算該文檔向量與用戶興趣文檔的相似程度,判斷相似度是否大于某一閾值,將符合條件的結(jié)果反饋給用戶。
首先根據(jù)用戶的反饋行為,計(jì)算每個(gè)頁面的“興趣度”,然后用戶瀏覽的頁面統(tǒng)一用tf/tdf的方法產(chǎn)生每個(gè)文件的特征詞向量,即1P。之后修改1F中的每個(gè)特征詞 ijK 的權(quán)重 ijKW ,產(chǎn)生新的文件向量,將所有文件向量中的相關(guān)特征詞按權(quán)重和排序,產(chǎn)生新的User Profile。最后將 Fi作為輸出,Ii( W)作為期望的輸出,從而訓(xùn)練和更新興趣模型。
向量模型中的權(quán)重是根據(jù)單詞出現(xiàn)的頻率定義的,現(xiàn)在普遍使用的權(quán)重計(jì)算方法是:
從上面的公式可以知道,當(dāng)詞條在文章中出現(xiàn)的次數(shù)越多,權(quán)重值也就越大。
由于用戶的感興趣程度是一個(gè)抽象的概念,因此考慮對(duì)其進(jìn)行簡單的量化,把用戶對(duì)推送結(jié)果的反饋分為五個(gè)等級(jí):設(shè)置很不感興趣的值為-2,不感興趣的值為-1,一般為0,感興趣為+1,很感興趣為+2,根據(jù)用戶的評(píng)價(jià)值,對(duì)用戶模型進(jìn)行學(xué)習(xí)、反饋和更新。
反饋學(xué)習(xí)的公式為:P=P+α×*f*D,其中,P為用戶興趣的矢量表示,D為用戶評(píng)價(jià)文檔的矢量表示,根據(jù)用戶的相關(guān)反饋信息,不斷調(diào)整用戶的興趣模型,使它能夠更精確地描述用戶的興趣和需求。
本體在用戶興趣層面上詳細(xì)描述了概念模型和詞與詞之間的語義關(guān)系,有利于邏輯推理的語義推導(dǎo),有利于建立用戶的個(gè)性化興趣模型,也為根據(jù)相似用戶進(jìn)行推薦提供了基礎(chǔ)。本體用戶模型的形式化表示為:OUM={PI,C,D,S},其中,PI表示用戶個(gè)人信息,用于標(biāo)識(shí)區(qū)分各個(gè)用戶,C={ 1C,, 2C , 3C ,… nC }表示領(lǐng)域本體中用戶感興趣的概念集合;D={1D,2D,3D,…表示用戶對(duì)集合C中所有概念的興趣度集合,表示集合C中所有兩兩概念之間的語義相似度。其中,每個(gè)元素表示 C i和 C j之間的語義相似度。
實(shí)驗(yàn)對(duì)326個(gè)已登錄的用戶使用1000部電影標(biāo)本進(jìn)行實(shí)驗(yàn),主要測(cè)試服務(wù)檢索和主動(dòng)推送性能,其中,服務(wù)檢索方面的性能通過查全率和查準(zhǔn)率兩個(gè)方面進(jìn)行刻畫;主動(dòng)推送性能利用推送的全面性和多樣性來表達(dá),實(shí)驗(yàn)結(jié)果證明:針對(duì)服務(wù)檢索,引入本體后的模型與傳統(tǒng)的推送服務(wù)相比,有明顯的提高,檢索的服務(wù)質(zhì)量也有明顯的提升;另一方面,模型對(duì)個(gè)性化服務(wù)的質(zhì)量、推送的多樣性也有了明顯的提高。