王 福(內(nèi)蒙古工業(yè)大學(xué) 圖書(shū)館,呼和浩特 010051)
調(diào)查顯示,自2004年以來(lái),Internet上的PIW(Publicity Indexable Web)頁(yè)面數(shù)已達(dá)到了1010數(shù)量級(jí),每天新增頁(yè)面的數(shù)量超過(guò)800萬(wàn),Web已成為人們獲取信息的重要手段。用戶的網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)蘊(yùn)涵著用戶興趣模式,使得基于網(wǎng)絡(luò)學(xué)習(xí)者的興趣、個(gè)性特征的挖掘和對(duì)應(yīng)的學(xué)習(xí)策略的生成及推送成為研究熱點(diǎn)。本文主要研究構(gòu)建網(wǎng)絡(luò)學(xué)習(xí)者模型,依據(jù)學(xué)習(xí)者個(gè)性挖掘機(jī)理,并以此為基礎(chǔ)提出網(wǎng)絡(luò)學(xué)習(xí)者的信息推送服務(wù)系統(tǒng)框架。[1]
用戶興趣感知構(gòu)建的有顯性方式和隱性方式兩種。顯性方式是通過(guò)用戶的注冊(cè)信息,包括用戶的職業(yè)、研究方向、從事專業(yè)、感興趣領(lǐng)域等方面進(jìn)行構(gòu)建。由于注冊(cè)時(shí)這些信息已經(jīng)固定,一旦用戶研究方向發(fā)生遷移則原感知和構(gòu)建的信息過(guò)時(shí),除非系統(tǒng)提供改變這些信息的功能并且用戶隨時(shí)通過(guò)系統(tǒng)設(shè)置來(lái)及時(shí)改變,所以這種構(gòu)建方式是靜態(tài)的,需要用戶不斷參與。隱性方式則是可以隨用戶興趣的遷移動(dòng)態(tài)更新用戶興趣模型,通過(guò)系統(tǒng)后臺(tái)記錄和累積用戶行為,根據(jù)用戶的行為偏好挖掘用戶興趣,隨時(shí)刪除用戶感知興趣模型中低度特征項(xiàng),該方式動(dòng)態(tài)實(shí)現(xiàn)構(gòu)建,實(shí)時(shí)檢測(cè)用戶興趣的遷移,不需要用戶的直接參與。
在實(shí)際應(yīng)用中根據(jù)項(xiàng)目的實(shí)際,結(jié)合上述兩種方式的優(yōu)點(diǎn)完成對(duì)用戶行為模式進(jìn)行挖掘,對(duì)網(wǎng)站學(xué)習(xí)優(yōu)化、用戶興趣變化動(dòng)態(tài)感知、學(xué)習(xí)內(nèi)容的自適應(yīng)導(dǎo)航等應(yīng)用提供必要的支持。個(gè)性化信息服務(wù)推送就是通過(guò)前面建立的用戶興趣模型,運(yùn)用PUSH技術(shù)為用戶主動(dòng)推送信息,而不需要用戶實(shí)時(shí)請(qǐng)求,克服了以前用戶PULL模式的缺點(diǎn)。
通過(guò)對(duì)學(xué)習(xí)者訪問(wèn)行為及其Web日志分析,不但可以挖掘出用戶行為與個(gè)性興趣間的關(guān)聯(lián)關(guān)系,并以此捕獲用戶個(gè)性特征,還可以獲取學(xué)習(xí)者的興趣及遷移趨勢(shì)。用戶行為與用戶興趣是個(gè)性化服務(wù)系統(tǒng)為用戶定制的個(gè)性化學(xué)習(xí)策略與推薦個(gè)性化學(xué)習(xí)資源的依據(jù)。用戶興趣感知挖掘是個(gè)性化信息服務(wù)推送的前提,用戶曾瀏覽Web頁(yè)面的內(nèi)容及次數(shù)、用戶訪問(wèn)頁(yè)面的Log都可以作為用戶興趣挖掘的主要途徑,具體挖掘的流程如圖1所示。[2]
圖1 用戶興趣感知挖掘流程
Web內(nèi)容挖掘(Web Contenet Mining)是指從Web頁(yè)面及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過(guò)程,它是Web數(shù)據(jù)挖掘的一個(gè)重要研究領(lǐng)域,在搜索引擎、知識(shí)服務(wù)、網(wǎng)絡(luò)教育等領(lǐng)域有著極其廣泛的應(yīng)用前景。Web頁(yè)面內(nèi)容挖掘主要對(duì)象是頁(yè)面文本文檔,它是針對(duì)HTML文檔的結(jié)構(gòu)化與半結(jié)構(gòu)化文本挖掘。
目前Web頁(yè)面內(nèi)容挖掘基本上采用Web頁(yè)面文本內(nèi)容、文字格式、文檔結(jié)構(gòu)、頁(yè)面布局和鏈接結(jié)構(gòu)中的一種或若干種對(duì)頁(yè)面的標(biāo)示。Breuel考慮了HTML文檔的結(jié)構(gòu),提出將HTML文檔分析成一棵HTML標(biāo)簽樹(shù),然后從樹(shù)中提取相關(guān)的信息。對(duì)獲得的信息運(yùn)用一定的數(shù)據(jù)清洗算法進(jìn)行“數(shù)據(jù)清洗”,通過(guò)清洗可以剔除與主題信息無(wú)關(guān)的信息,如:飄動(dòng)或懸停的廣告信息,以及位于頁(yè)面下方的版權(quán)信息和一些導(dǎo)航鏈接等,從而準(zhǔn)確獲取Web文本的關(guān)鍵詞,并通過(guò)權(quán)重的設(shè)置進(jìn)行深度揭示,即可實(shí)現(xiàn)基于頁(yè)面內(nèi)容的用戶興趣感知挖掘。[3]
3.1.1 噪聲信息清洗
HTML文檔是一種半結(jié)構(gòu)化文檔,可以通過(guò)標(biāo)簽分析工具DOM 接口讀取。DOM(Document Object Model)即文檔的對(duì)象模型,它是W3C制定的一種標(biāo)準(zhǔn),通過(guò)DOM頁(yè)面的標(biāo)簽樹(shù),構(gòu)造工具按照HTML語(yǔ)法構(gòu)造文檔樹(shù),文檔樹(shù)是按照Web頁(yè)面中標(biāo)簽嵌套關(guān)系構(gòu)造而成,可以理解成標(biāo)簽樹(shù)的葉子節(jié)點(diǎn)為基本元素的“圖像”、“文字”、“音頻”、“視頻”等,而標(biāo)簽樹(shù)的根節(jié)點(diǎn)為頁(yè)面內(nèi)的標(biāo)簽。在上述構(gòu)造的標(biāo)簽樹(shù)中反復(fù)多次出現(xiàn)的極有可能是噪聲,可以通過(guò)工具裁剪掉這些信息從而進(jìn)化網(wǎng)頁(yè),如:網(wǎng)頁(yè)中的換行符、空白、無(wú)用的鏈接等信息。
3.1.2 信息抽取與揭示
目前國(guó)內(nèi)信息抽取系統(tǒng)有“中科天璣(Golaxy)”,國(guó)外系統(tǒng)有“GATE”。不同系統(tǒng)的遍歷標(biāo)簽樹(shù)的策略不同,有廣度優(yōu)先策略、深度優(yōu)先策略和聚焦搜索(最佳優(yōu)化)策略。通過(guò)這些策略,可以有效獲取頁(yè)面關(guān)鍵詞,進(jìn)而結(jié)構(gòu)化文本內(nèi)容,即:運(yùn)用一定的權(quán)重為提取的關(guān)鍵詞加權(quán)。目前從應(yīng)用和研究的現(xiàn)狀來(lái)說(shuō),表示用戶興趣感知的方法如下。
(1)TF·IDF權(quán)值表示法。TF·IDF是在文本處理領(lǐng)域使用最廣泛的權(quán)值表示方法,它基于兩個(gè)觀點(diǎn):特征在文檔中出現(xiàn)次數(shù)越多越重要、特征在越多的文本中出現(xiàn)越不重要。TF·IDF權(quán)值一般有兩項(xiàng),其中TF項(xiàng)反映了第一個(gè)觀點(diǎn),IDF項(xiàng)反應(yīng)了第二個(gè)觀點(diǎn),該算法的表達(dá)式為:
Wij=TFij×IDFj=TFij×log(N/Nj)(其中,i,j=1,2,3……n)
表達(dá)式中Wij代表Tj特征在Di文檔中出現(xiàn)的次數(shù),IDFj代表出現(xiàn)特征Tj的文檔的倒數(shù)。N代表文檔總數(shù),Nj代表特征項(xiàng)Tj出現(xiàn)的文檔數(shù),TFij表示特征Tj在文檔Di中出現(xiàn)的頻度。[3]
(2)抽取本體元素法。本體(Ontology)是一個(gè)哲學(xué)概念,本體庫(kù)是建立存儲(chǔ)和檢查用戶興趣的基本特征和屬性的數(shù)據(jù)庫(kù),這些特征一般用層次概念樹(shù)的形式表示,用戶的一個(gè)興趣類由樹(shù)的節(jié)點(diǎn)形式來(lái)表示。通過(guò)本體庫(kù)來(lái)表示用戶興趣的模型可以實(shí)現(xiàn)知識(shí)的共享和重用,從而實(shí)現(xiàn)用戶本體興趣的共享以及用戶本體知識(shí)交流和共享,也可通過(guò)本體推理機(jī)制及語(yǔ)義關(guān)系來(lái)分析處理用戶興趣模型。
隨著本體應(yīng)用的發(fā)展,在過(guò)去十多年里,已經(jīng)出現(xiàn)了如:Ontolingua Server、Onto Saurus等許多本體構(gòu)建工具,借助這些工具,用戶還需要了解本體描述語(yǔ)言的細(xì)節(jié),就可以方便地輸入、編輯本體。同時(shí),這些工具還提供了友好的圖形化界面和一致性檢查機(jī)制。但是,這些工具提供的僅僅是本體編輯功能,僅支持手工構(gòu)建本體的方式。手工方法費(fèi)時(shí)、費(fèi)力,使得本體的構(gòu)建成為一項(xiàng)艱巨的任務(wù),制約了本體的發(fā)展和應(yīng)用。[3]
(3)細(xì)興趣粒度表示法。粒度粗細(xì)是按照模型中表示用戶興趣的信息粒度來(lái)區(qū)分的,粗興趣粒度用于表示用戶模型中的興趣,細(xì)粒度用于用戶模型中用戶感興趣的主題或關(guān)鍵詞,具體如表1所示。
表1 粗粒度用戶興趣示例
細(xì)粒度興趣是用戶粗粒度興趣的挖掘和劃分,用于在用戶興趣特征集中區(qū)識(shí)別用戶興趣的主題或關(guān)鍵詞,如表2所示。
表2 細(xì)粒度用戶興趣示例
3.1.3 用戶興趣聚類
要實(shí)現(xiàn)不同興趣用戶分組需進(jìn)行用戶興趣聚類。通過(guò)用戶興趣聚類可以把用戶劃分為若干個(gè)類別。同類的用戶興趣差別應(yīng)該盡可能細(xì)微,而不同興趣用戶類的差別應(yīng)該盡可能大。用戶興趣聚類需要選擇與興趣模型有密切聯(lián)系的參數(shù)和算法,所以相似度量的設(shè)計(jì)需要結(jié)合用戶興趣模型的數(shù)據(jù)特征,也需要在對(duì)不同算法和不同參數(shù)選擇所得到的不同結(jié)果中快速、準(zhǔn)確地選出最優(yōu)結(jié)果。同時(shí)要建立用戶興趣聚類的評(píng)估指標(biāo),從而對(duì)用戶興趣劃分質(zhì)量給與評(píng)估。用戶興趣聚類的過(guò)程一般為:使用若干聚類算法,合理設(shè)置相關(guān)參數(shù),多次運(yùn)行獲得結(jié)果。開(kāi)始時(shí),初始化所有文本使其組成一個(gè)單獨(dú)的簇,通過(guò)迭代算法,使相近的簇進(jìn)行合并,直到組成一個(gè)簇或滿足預(yù)先設(shè)定的條件為止。圖2為個(gè)性聚類過(guò)程示意圖。
圖2 用戶個(gè)性聚類過(guò)程
用戶瀏覽行為是其興趣偏好的真實(shí)反映。通過(guò)用戶的操作可以揭示出用戶的興趣,如:收藏網(wǎng)頁(yè)、訪問(wèn)時(shí)間、下載文件、翻頁(yè)次數(shù)、輸入的關(guān)鍵詞等。以兩種主要的操作行為:訪問(wèn)時(shí)的停留時(shí)間和翻頁(yè)次數(shù)為例,利用二元線性回歸模型分析這兩種操作與用戶興趣偏好之間的關(guān)系,可得到線性回歸方程:
Ki=AX1+BX2+C
其中X1表示停留時(shí)間,X2表示下載文件,Ki表示用戶對(duì)當(dāng)前網(wǎng)頁(yè)i興趣度,A、B、C為常數(shù),隨著網(wǎng)站的不同而變化。另外,考慮的影響因素如果增加,則可以類推用多元線性回歸模型完成用戶興趣度量,回歸模型分析可以使用MATLAB或MATHCAD等工具。通過(guò)挖掘用戶日志可以得到相關(guān)數(shù)據(jù),針對(duì)每一簇用戶的興趣點(diǎn),建立用戶興趣特征文件,以此為不同簇用戶進(jìn)行信息推送,圖3為用戶興趣挖掘的機(jī)理圖。
圖3 用戶興趣挖掘的工作機(jī)理
Web訪問(wèn)行為序列模式挖掘包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式應(yīng)用四個(gè)主要步驟。行為數(shù)據(jù)的收集主要是從Web服務(wù)器、Web代理服務(wù)器和客戶端三個(gè)級(jí)別收集。收集到的原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)全、事務(wù)識(shí)別等數(shù)據(jù)預(yù)處理步驟,放到訪問(wèn)序列數(shù)據(jù)庫(kù)中;然后對(duì)其進(jìn)行序列模式挖掘,實(shí)際推送系統(tǒng)就是挖掘結(jié)果的應(yīng)用,圖4即為基于用戶興趣挖掘的框架。
圖4 基于用戶興趣挖掘的框架
數(shù)據(jù)預(yù)處理、用戶興趣分析和個(gè)性化信息推送是該框架的三個(gè)主要部分。首先,無(wú)論是靜態(tài)的網(wǎng)上采集用戶注冊(cè)時(shí)提交的基本信息還是系統(tǒng)從后臺(tái)記錄和積累的用戶瀏覽行為都需要進(jìn)行數(shù)據(jù)預(yù)處理,所以數(shù)據(jù)預(yù)處理是框架的基礎(chǔ)。其次,需要對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和凈化,進(jìn)而歸類和存儲(chǔ);然后通過(guò)使用多種挖掘方法對(duì)數(shù)據(jù)挖掘,使用多種數(shù)據(jù)挖掘的方法對(duì)數(shù)據(jù)進(jìn)行分析??梢岳们懊嫣岬降木垲惙治稣页霾煌脩粝肴サ南嗨菩跃垲惓纱?,也可以使用或關(guān)聯(lián)規(guī)則挖掘高頻可能性進(jìn)而產(chǎn)生關(guān)聯(lián),也就是說(shuō)達(dá)到了分析用戶行為獲取用戶興趣的目的。[3-5]通過(guò)以上操作后就可以得到用戶興趣視圖,以此為依據(jù)為用戶進(jìn)行信息推送。
基于用戶興趣挖掘的個(gè)性化信息推送服務(wù)的流程,簡(jiǎn)單來(lái)說(shuō)完成下圖五層工作。第一層:存儲(chǔ)層,在該層中主要存儲(chǔ)信息資源和用戶興趣特征信息,這些信息是從網(wǎng)上搜集到的。第二層:數(shù)據(jù)訪問(wèn)接口,該層主要功能是為用戶訪問(wèn)數(shù)據(jù)提供便利,包括資源訪問(wèn)接口、用于異構(gòu)數(shù)據(jù)訪問(wèn)的XML訪問(wèn)接口和有數(shù)據(jù)口訪問(wèn)接口。第三層:業(yè)務(wù)邏輯層,該層是負(fù)責(zé)對(duì)網(wǎng)上搜集信息進(jìn)行分類整理,抽取元素?fù)?jù),個(gè)性化區(qū)分信息,主要有知識(shí)協(xié)同構(gòu)建、索引服務(wù)和知識(shí)資源服務(wù)。第四層:呈現(xiàn)層,指系統(tǒng)采用何種計(jì)算機(jī)語(yǔ)言和腳本來(lái)為用戶提供推送服務(wù)。第五層:客戶層也稱用戶層,用戶直接面對(duì)這一層,通過(guò)應(yīng)用程序用戶推送的信息在瀏覽器中顯示,也稱個(gè)性化、多粒度、交互式知識(shí)服務(wù)界面。通過(guò)以上五層實(shí)現(xiàn)了信息的個(gè)性化推送。個(gè)性化服務(wù)系統(tǒng)還提供了用戶與服務(wù)商交流的界面,通過(guò)該界面實(shí)現(xiàn)用戶反饋,如圖5所示。
圖5 個(gè)性化信息推送服務(wù)流程圖
通過(guò)Agent機(jī)制變以前信息獲取的PULL方式為PUSH方式,運(yùn)用PUSH技術(shù)借助用戶興趣信息庫(kù)把信息資源按照用戶興趣特征有計(jì)劃、有目的地推送到用戶面前。這不僅實(shí)現(xiàn)了信息推送的目的性和高效性,而且可以有效地降低網(wǎng)絡(luò)負(fù)載。個(gè)性化推送改變了傳統(tǒng)信息流方向,減少了網(wǎng)絡(luò)污染,提高資源的利用率,這正是個(gè)性化信息服務(wù)推送的核心思想。
基于用戶興趣挖掘的信息推送技術(shù)的特點(diǎn)有如下幾個(gè)方面。
(1)主動(dòng)性。根據(jù)用戶興趣偏好,當(dāng)有新的信息需要提交或到達(dá)時(shí),按照傳送信息的類型和重要等級(jí)進(jìn)行推送。它是基于用戶興趣的信息推送技術(shù)主動(dòng)從網(wǎng)絡(luò)中收集、分類跟蹤興趣的信息,并以E-Mail、手機(jī)短信、OPAC系統(tǒng)等各種形式推送到用戶前。
(2)針對(duì)性。個(gè)性化推送系統(tǒng),通過(guò)分析用戶興趣特征,構(gòu)建個(gè)性化檢索式進(jìn)行檢索、分析、匯總和推送。目前個(gè)性化系統(tǒng)實(shí)現(xiàn)了Web2.0技術(shù),通過(guò)該技術(shù)用戶可以定制個(gè)性化的瀏覽界面和檢索界面以及設(shè)置自己偏好的信息傳輸方式。
(3)動(dòng)態(tài)性。個(gè)性化系統(tǒng)可以感知和捕捉用戶興趣變化和遷移,動(dòng)態(tài)修改用戶興趣特征數(shù)據(jù)庫(kù),不斷挖掘用戶潛在的興趣和偏好,提供及時(shí)、準(zhǔn)確的信息服務(wù),更具人性化。
(4)智能性。用戶可以通過(guò)控制搜索的深度,系統(tǒng)可以自動(dòng)過(guò)濾掉無(wú)用的信息,使得信息推送更具有智能性,提高了信息推送的準(zhǔn)確性。
(5)高效性。個(gè)性化服務(wù)系統(tǒng)克服了用戶檢索的盲目性、根據(jù)用戶需求驅(qū)動(dòng),所以針對(duì)性強(qiáng)、效率高。
5.2.1 智能代理
智能代理通過(guò)計(jì)算機(jī)程序搜集信息資源、用戶興趣特征。通過(guò)用戶定義的規(guī)則自動(dòng)搜集用戶特征信息,根據(jù)這些信息為用戶推送信息資源到指定地址。它是架起用戶與信息資源之間的橋梁。通過(guò)用戶行為分析預(yù)測(cè)用戶需求,按照用戶興趣特征檢索并過(guò)濾污染信息,最后實(shí)現(xiàn)信息推送是智能代理要解決的主要問(wèn)題。
5.2.2 智能搜索引擎技術(shù)
智能搜索技術(shù)是利用網(wǎng)絡(luò)機(jī)器人(Spider)等搜索軟件,按照分類、索引、概念在信息資源庫(kù)中按主題和關(guān)鍵詞搜索,把結(jié)果存儲(chǔ)到信息資源庫(kù)中,并對(duì)這些信息進(jìn)行分類、匯總。在此基礎(chǔ)上按照用戶興趣特征生成主題詞或關(guān)鍵詞把用戶需要的信息進(jìn)行推送。該技術(shù)需要對(duì)信息資源庫(kù)及時(shí)更新,保證用戶接收到信息的質(zhì)量,提高用戶滿意度。
5.2.3 信息過(guò)濾技術(shù)
根據(jù)用戶的信息需求對(duì)動(dòng)態(tài)資源流進(jìn)行過(guò)濾就是信息過(guò)濾技術(shù),它的原則是把復(fù)合或滿足用戶需求的信息推送給用戶,使得信息獲取效率提高?;谙蛄靠臻g模型的信息過(guò)濾方法是目前信息過(guò)濾比較成熟的方法,該技術(shù)可通過(guò)在模型中設(shè)置權(quán)值、詞位、詞序等限制條件,增強(qiáng)過(guò)濾的準(zhǔn)確性。信息過(guò)濾技術(shù)是構(gòu)建信息推送系統(tǒng)的核心技術(shù),它根據(jù)一定的標(biāo)準(zhǔn)將那些不相關(guān)的信息單元濾掉,僅保存需要的信息。
[1]林龍.從iGoogle談個(gè)性化信息推送服務(wù)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2009(3):115-117.
[2]袁麗芬,等.XML的信息推送服務(wù)及實(shí)現(xiàn)[J].情報(bào)科學(xué),2003(6):619-620,623.
[3]邱均平,等.信息獲取與用戶服務(wù)[M].北京:科學(xué)出版社,2010.
[4]易明.基于Web挖掘的個(gè)性化信息推薦[M].北京:科學(xué)出版社,2010.
[5]尹曉莉.智能推送技術(shù)在信息化服務(wù)中的應(yīng)用[J].中華醫(yī)學(xué)科研管理雜志,2010(2):132-134.