〔摘要〕個(gè)性化服務(wù)質(zhì)量的優(yōu)劣取決于能否準(zhǔn)確地獲取用戶興趣模型。本文先探討用戶興趣概念,接著討論用戶興趣的信息采集方法,以此為基礎(chǔ)構(gòu)建基于加權(quán)關(guān)鍵詞的用戶興趣模型,并用實(shí)例來驗(yàn)證使用加權(quán)關(guān)鍵詞表示用戶興趣模型是有效的。
〔關(guān)鍵詞〕信息采集;加權(quán)關(guān)鍵詞;用戶興趣
〔中圖分類號(hào)〕G252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2012)11-0010-04
隨著Web20的發(fā)展,用戶既是信息的使用者,又是信息的生產(chǎn)者。現(xiàn)在人們在生活中能接觸的多元化的信息量遠(yuǎn)比人類歷史上任何一個(gè)時(shí)期都高,并且信息產(chǎn)生的速度也在不停地成倍增長[1]。雖然這些信息是一種寶貴的資源,而與“垃圾信息”混雜在一起卻又限制了它的價(jià)值。在合適的時(shí)間內(nèi),普通用戶找到自己需要的信息變得越來越困難。為了解決這一問題,許多研究項(xiàng)目和公司正在探索個(gè)性化應(yīng)用程序裁剪個(gè)性化的信息提交給個(gè)體用戶[2]。而個(gè)性化服務(wù)質(zhì)量的優(yōu)劣取決于能否準(zhǔn)確地獲取用戶興趣模型[3]。本文先探討用戶興趣概念,接著討論用戶興趣的信息采集方法,以此為基礎(chǔ)構(gòu)建基于加權(quán)關(guān)鍵詞的用戶興趣模型,并用實(shí)例來驗(yàn)證使用加權(quán)關(guān)鍵詞表示用戶興趣模型是有效的。
1 用戶興趣概念
目前,關(guān)于用戶興趣還沒有統(tǒng)一的定義,國內(nèi)外的學(xué)者、專家根據(jù)他們的研究給予了各自的定義。
有專家認(rèn)為用戶興趣即我們所希望發(fā)掘的潛在的用戶的意圖、期望。它包括兩個(gè)方面:①用戶興趣的內(nèi)容:即用戶對服務(wù)的期望的特征描述。對于電子商務(wù)網(wǎng)站,用戶興趣內(nèi)容可能是某幾種產(chǎn)品;對于新聞網(wǎng)站,用戶興趣內(nèi)容可能是一組代表用戶喜好的新聞?lì)愋偷奈谋咎卣鳌Mǔ?,用戶興趣的內(nèi)容可以由文本來表示。②用戶興趣的權(quán)值:多數(shù)情況下,用戶興趣內(nèi)容存在一定數(shù)量的不同類別。對于單一用戶興趣內(nèi)部的區(qū)分,我們將對相應(yīng)內(nèi)容賦予權(quán)值,以代表對用戶不同興趣內(nèi)容的評級[4]。
另有專家認(rèn)為用戶興趣是系統(tǒng)中關(guān)于用戶的信息集合,系統(tǒng)收集和維護(hù)這些信息是為了改進(jìn)用戶存取的質(zhì)量。應(yīng)用用戶興趣主要是讓用戶得到更多的相關(guān)信息[2]。
還有專家認(rèn)為用戶興趣是一個(gè)與特定用戶相關(guān)的個(gè)人數(shù)據(jù)集合,它常用于存儲(chǔ)個(gè)人特征描述,這些信息能用于發(fā)現(xiàn)個(gè)人特征和偏愛[5]。
筆者認(rèn)為用戶興趣是一個(gè)數(shù)據(jù)集合,它用于存儲(chǔ)個(gè)人某些方面的偏好,它一般包含核心興趣和擴(kuò)展興趣,其中核心興趣包含與用戶查找目標(biāo)和興趣相關(guān)的信息,擴(kuò)展興趣包含與用戶個(gè)人相關(guān)的信息,如姓名、年齡、受教育程度、職業(yè)等。
2 用戶興趣的信息采集
問卷調(diào)查法是調(diào)查者就某些問題向有關(guān)人員(被調(diào)查者)發(fā)放調(diào)查表(問卷),填妥回收后直接獲取調(diào)查對象的有關(guān)信息的方法[6],它主要包括問卷設(shè)計(jì)、數(shù)據(jù)收集、統(tǒng)計(jì)分析等步驟。
問卷調(diào)查法的優(yōu)點(diǎn)主要有:問卷法節(jié)省時(shí)間、經(jīng)費(fèi)和人力;問卷法具有很好的匿名性;可以避免偏見、減少調(diào)查誤差;問卷資料便于定量分析和處理[7]。
問卷調(diào)查的缺點(diǎn)主要有:對被調(diào)查者的文化水平有一定的要求;回答率往往難以保證;不能保證填答問卷的環(huán)境和填答質(zhì)量[7]。
對構(gòu)建個(gè)體用戶的興趣模型的系統(tǒng)而言,精確的用戶識(shí)別是非常重要的。目前,主要識(shí)別用戶方法有5種:軟件代理、登錄、增強(qiáng)的代理服務(wù)器、Cookies和會(huì)話識(shí)別[2]。對用戶而言,這些方法是透明的且提供了跨會(huì)話的跟蹤。這些技術(shù)中,Cookies具有最小侵入性且對用戶而言不需要有任何行動(dòng)。因此,Cookies已經(jīng)被廣泛使用并且能有效地識(shí)別用戶。如果用戶已經(jīng)注冊并且他們每次訪問時(shí)都登錄,那么就可以在計(jì)算機(jī)之間和跨會(huì)話地跟蹤用戶,從而可以在一個(gè)基于登錄的系統(tǒng)中精確和一致地識(shí)別用戶。
軟件代理、登錄、增強(qiáng)的代理服務(wù)器等3個(gè)技術(shù)更精確,但它們需要用戶的積極參與。軟件代理是駐留在用戶計(jì)算機(jī)上的一些小程序,通過一些協(xié)議與服務(wù)器收集并共享它們的信息。識(shí)別用戶時(shí),這種方法在協(xié)議和應(yīng)用的實(shí)施方面有更多的控制,因此它是最可靠的。用戶登錄時(shí),通??梢哉_地識(shí)別用戶自己,因此用戶可以從不同的物理地點(diǎn)使用相同的興趣模型。另一方面,用戶必須通過注冊程序創(chuàng)建一個(gè)賬戶,每次訪問網(wǎng)站時(shí),都要登錄和退出系統(tǒng)。增強(qiáng)的代理服務(wù)器也可以提供較精確的用戶識(shí)別。然而,它有一些不足,它需要用戶在代理服務(wù)器上注冊他們的計(jì)算機(jī),因此,他們通常僅能從一個(gè)地方連接并識(shí)別用戶。