張昊
(湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北武漢,430205)
Web文本挖掘主要是為了能夠在Web頁面內(nèi)成功提取關(guān)鍵知識信息,個性化推薦就如同“信息找人”這一方式,想要提高個性化推薦的精準(zhǔn)率,就要保證信息有效性這一重要基礎(chǔ),所以文本挖掘作為如今個性化推薦中的熱門研究話題[1]。Web文本挖掘技術(shù)作為多樣化的個性化推薦中分支,包括了建立特征表示,提取重要文檔,進(jìn)行聚類分析以及計(jì)算相似性。以往利用空間向量模型表示文本,最終的推薦結(jié)果準(zhǔn)確度不高,并且關(guān)鍵文本的判斷推理能力不強(qiáng),無法有效優(yōu)化個性化推薦集[2]。不僅如此用戶在訪問電商網(wǎng)站存在自身興趣愛好改變的可能性,因此需要一種精準(zhǔn)性更高的文本挖掘技術(shù),來對用戶的變化及時(shí)跟蹤且及時(shí)響應(yīng)。本文就此提出基于文本挖掘技術(shù)的電子商務(wù)網(wǎng)站個性化推薦技術(shù),提高電商網(wǎng)站的推薦精準(zhǔn)性。
自信息運(yùn)動論在學(xué)術(shù)界提出后,就上升了“信息”概念至“全信息理論”,一定程度上代表獲取信息資源,完成開發(fā)且加以利用的全過程[3]。在Web訪問的過程中也作為產(chǎn)生信息的運(yùn)動過程,用戶在每一次訪問過程中都會在Web服務(wù)器中留下信息,也就是挖掘?qū)ο笈c傳統(tǒng)推薦模型相結(jié)合,加入Web文本挖掘、BM25F模型內(nèi),在電商網(wǎng)站平臺構(gòu)建個性化推薦模型(見圖1)。
圖1 基于Web挖掘的個性化推薦模型
根據(jù)上文建立此模型分為上、下兩部分,上面主要為了對Web服務(wù)器數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,完成服務(wù)器日志預(yù)處理,成功提取事物集并運(yùn)用模型計(jì)算文本表示與權(quán)重,通過聚類分析得到Web文本文檔集。下面主要經(jīng)Web數(shù)據(jù)預(yù)處理,對用戶會話進(jìn)行分析,對不同會話內(nèi)不同Web頁面中關(guān)鍵特征詞條的權(quán)重。之后運(yùn)用該模型中夾角余弦完成會話和Web文本文檔集的相似性結(jié)果,計(jì)算得出個性化推薦集[4]。
挖掘文本數(shù)據(jù)作為提取訪客的頁面訪問日志,提取相關(guān)頁面的核心關(guān)鍵詞,用于對用戶網(wǎng)頁訪問行為興趣的跟蹤依據(jù)。
首先分析電商網(wǎng)站的頁面結(jié)構(gòu),通常包括了菜單索引、商品詳情、導(dǎo)航欄、服務(wù)說明等模塊,其中關(guān)聯(lián)個性化推薦的功能即商品信息展示[5]。由于如今提取關(guān)鍵詞條技術(shù)僅僅能夠獲取文本內(nèi)容,包括了商品詳情,且為了可以更快捷的在平臺網(wǎng)站中成功檢索此商品,多數(shù)內(nèi)容都要利用爬蟲技術(shù)優(yōu)化。
再者提取用戶的交易事務(wù),其中包含了過濾數(shù)據(jù)、識別用戶和會話的步驟,數(shù)據(jù)過濾主要是為了對無關(guān)、錯誤數(shù)據(jù)進(jìn)行清洗,通過清洗這些數(shù)據(jù)有助于減少后續(xù)形成個性化推薦的聚類分析負(fù)荷。用戶識別文本就是利用cookie技術(shù)跟蹤訪客,有著極高的技術(shù)可行性,但是不足之處就是存在關(guān)閉瀏覽器cookie的可能性。假若發(fā)生此種情況運(yùn)用SessionID技術(shù),會在訪客訪問中產(chǎn)生動態(tài)化唯一標(biāo)識,可是無法記錄用戶的重復(fù)性訪問行為。會話識別主要用于區(qū)分用戶的單一訪問,用戶登錄電商網(wǎng)站后會自動獲取單一會話,對會話行動進(jìn)行跟蹤假若30分鐘以上并無任何活動就會自動斷開。
文本挖掘的首要核心任務(wù)即在訪問頁面中提取文本特征詞條,如訪客在網(wǎng)站中產(chǎn)生的一系列頁面訪問A1,A2,A3,...,An,對n個網(wǎng)絡(luò)頁面內(nèi)獲取每頁核心詞條,能夠?qū)崟r(shí)掌握用戶的不同行為偏好及具體變化情況。需要運(yùn)用分詞技術(shù)來獲取特征詞條,但是難處就在于最大化消除歧義,在中文語法內(nèi)斷句不同歧義就會有所不同[6]。為了對這一問題妥善解決,如今CRFs算法作為常規(guī)中文分詞用法,基于條件隨機(jī)域算法CRF基礎(chǔ)上演變形成。此算法居于線性序列,在給定A參數(shù) (λ1,λ2,λ3,...λn)的線性鏈CRFs對應(yīng)序列X=x1,...xr中Y=y1,...,yr狀態(tài)的條件概率公式如下:
公式(1)內(nèi)XZ作為歸一化因子,能夠?qū)⑷繝顟B(tài)序列概率與均作為二值的特征函數(shù),相應(yīng)的權(quán)重為[7]。
此模型算法能夠較好的解決如今中文分詞內(nèi)可能遇到的相關(guān)問,那么解決此問題也為后續(xù)特征詞條的提取打下良好基礎(chǔ)。因?yàn)榘l(fā)生此詞條的對應(yīng)所在位不同,那么重要度也就有較大差別,所以需要對應(yīng)重要度權(quán)重位進(jìn)行劃分。本文劃分了網(wǎng)站一個頁面包括標(biāo)題、內(nèi)容、meta描述標(biāo)簽以上3個域,權(quán)重分別對應(yīng)0.5,0.3,0.2。所獲取每個頁面內(nèi)的排名前六詞條,用于表示當(dāng)前頁面,詞條量過少則代表整體頁面,如果過多就必然加大后續(xù)的聚類分析負(fù)荷。
在提取對應(yīng)特征詞條后,轉(zhuǎn)變完整交易事務(wù)為特征層詞條為表示的詞條組,多個交易事務(wù)會形成相關(guān)矩陣,對于單一頁面特征詞用T={t1,t2,t3...tn}表示,完整交易事務(wù)用Page={p1,p2,p3,...pm}表示,那么表示單一頁面的特征詞條權(quán)重公式如下[8]:
聚類分析算法主要是為了對于特征詞條之間相似基礎(chǔ)上,完成目標(biāo)數(shù)據(jù)分類,最終成功凝聚接近相似數(shù)據(jù)。本文選用層次聚類分析尋找相似點(diǎn)高的用戶群,以聚類分析結(jié)果為依據(jù),可以相互推薦相似興趣點(diǎn)的用戶購買行為。對于最后的推薦排序問題,可以對比用戶在電商平臺的購買結(jié)果,以及購物車、收藏夾內(nèi)的清單情況,假若存在重復(fù)可以進(jìn)行清洗。之后依據(jù)用戶的相似群內(nèi)商品相似度作為排序依據(jù),為了確保用戶最終滿意可以選擇推薦數(shù)量直至恰當(dāng)。
使用Web文本挖掘技術(shù)跟蹤網(wǎng)站服務(wù)器日志,對跟蹤結(jié)果完成預(yù)處理,形成處理后的用戶會話U={u1,u2,u3,...um},ui表示類似上節(jié)pci,具體的計(jì)算公式如下:
計(jì)算ui中,wu
針對聚類分析中所在頁面的交易事務(wù)權(quán)重表示公式如下:
對用戶會話U、文本文檔pc之間相似性結(jié)果進(jìn)行計(jì)算,本文使用夾角余弦公式:
根據(jù)以上計(jì)算過程可以產(chǎn)生最終的推薦結(jié)果,所得每個頁面推薦值主要包括兩部分,分別是相似值和權(quán)重值。
本文為了對比提出基于web文本挖掘技術(shù)的個性化推薦模型應(yīng)用實(shí)效,選用某模型Java變成和Apache Tomcat6.0服務(wù)器,以及MySQL數(shù)據(jù)庫,所開發(fā)的電商網(wǎng)站為實(shí)驗(yàn)平臺,建立個性化推薦模型。將本文提出此模型對比傳統(tǒng)TF*IDF方法,根據(jù)最終的個性化推薦結(jié)果精準(zhǔn)率、召回率,證實(shí)本文提出此個性化推薦模型的應(yīng)用效果。召回率作為推薦結(jié)果內(nèi)包含相關(guān)文檔所占整個集合的相關(guān)文檔比例,精準(zhǔn)率作為在個性化推薦結(jié)果文檔的占比。
運(yùn)用TF*IDF計(jì)算因?yàn)閃eb文本特征為特征詞集合,分析特征詞個數(shù)逐漸增加精準(zhǔn)率和召回率比較,實(shí)驗(yàn)由3個特征次數(shù)逐漸增加18個對比精準(zhǔn)率與召回率(見圖2、圖3)。
圖2 精準(zhǔn)率
圖3 召回率
經(jīng)對比分析兩種模型精準(zhǔn)率、召回率逐漸衰減,根據(jù)精準(zhǔn)率相較本文建立個性化推薦模型下降率逐漸平緩,最終計(jì)算結(jié)果發(fā)現(xiàn)本文該模型較傳統(tǒng)TF*IDF模型的計(jì)算結(jié)果明顯優(yōu),精準(zhǔn)率呈平緩下降趨勢,可以很好的解決傳統(tǒng)算法中個性化信息推薦滯后這一問題。在召回率方面隨著詞條量的逐漸增加,最終計(jì)算結(jié)果都呈明顯下降趨勢,但是本文提出該模型的結(jié)果始終更高。但是要注意的一點(diǎn)就是需要嚴(yán)格控制特征詞條的數(shù)量選擇,假若詞語過多也會一定程度上降低最終結(jié)果的有效性。
總而言之,本文提出基于Web文本挖掘技術(shù)的電商網(wǎng)站個性化推薦模型,在實(shí)驗(yàn)中發(fā)現(xiàn)通過挖掘服務(wù)器日志、提取特征詞條,并對特征詞條進(jìn)行聚類分析,最后匹配文檔形成個性化推薦結(jié)果以上過程。在實(shí)驗(yàn)中與TF*IDF相較本文提出的個性化推薦模型,能夠有效解決傳統(tǒng)算法中個性化信息推薦滯后的問題。但是本模型也存在一定不足之處,由于文中劃分電商網(wǎng)頁的3個“域”,所以對模型的計(jì)算復(fù)雜度進(jìn)一步加劇,也要增強(qiáng)和解決服務(wù)器的日志過濾,都作為后續(xù)要解決的重要問題。