石 建 劉紅鷹
〔摘 要〕針對(duì)人們提出的網(wǎng)絡(luò)信息個(gè)性化服務(wù)內(nèi)容及相關(guān)技術(shù)問(wèn)題,本文重點(diǎn)介紹了當(dāng)前具有代表性的個(gè)性化信息服務(wù)優(yōu)先領(lǐng)域的研究。并認(rèn)為用戶(hù)的興趣和行為表達(dá)、聚類(lèi)與分類(lèi)、個(gè)性化信息服務(wù)安全與系統(tǒng)評(píng)價(jià)等,為目前Web個(gè)性化信息系統(tǒng)所采用的關(guān)鍵技術(shù)中,應(yīng)重點(diǎn)關(guān)注的領(lǐng)域。
〔關(guān)鍵詞〕個(gè)性化;Web技術(shù);信息服務(wù);優(yōu)先領(lǐng)域
〔中圖分類(lèi)號(hào)〕G351 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)05-0121-03
Study on Technologies of the Web Personalized Information ServiceShi Jian Liu Hongying
(Library,F(xiàn)ourth Military Medical University,Xi餫n 710033,China)
〔Abstract〕For the web personalized information services and related technical questions,the paper focused on the current representative of personalized information services priority areas of research.And that the user餾 interests and acts of expression,clustering and classification,personalized information services such as security and evaluation system,for the present personalized Web information systems used by key technology,should focus on areas of concern.
〔Keywords〕personalization;web technologies;information service;priority areas
隨著Web信息爆炸式的增長(zhǎng),人們獲取有用信息變得愈加困難,“信息過(guò)量”和“信息饑餓”的矛盾愈顯突出。類(lèi)似搜索引擎及數(shù)據(jù)庫(kù)檢索等通用性質(zhì)的工具,已不能滿足不同背景、不同目的和不同時(shí)期用戶(hù)的查詢(xún)請(qǐng)求,個(gè)性化服務(wù)內(nèi)容及相關(guān)技術(shù)問(wèn)題已成為科技工作者探究的主要課題。目前已存在多種網(wǎng)絡(luò)個(gè)性化服務(wù)系統(tǒng),如,從最初國(guó)外的卡內(nèi)基?梅隆大學(xué)創(chuàng)制個(gè)性化導(dǎo)航系統(tǒng)“WebWatcher”開(kāi)始,已研制出諸如WUM、SETA、TELL IM、WebLogMiner等多個(gè)較為成熟的個(gè)性化推薦系統(tǒng);國(guó)內(nèi)也從2000年清華大學(xué)的路海明等,提出基于多Agent混合智能實(shí)現(xiàn)個(gè)性化推薦技術(shù)開(kāi)始,到目前也研制出多個(gè)相對(duì)成功的個(gè)性化服務(wù)系統(tǒng)及定制的門(mén)戶(hù)網(wǎng)站。如網(wǎng)易、新浪的個(gè)性化服務(wù),中國(guó)人民大學(xué)、浙江大學(xué)、廈門(mén)大學(xué)、華東理工大學(xué)圖書(shū)館的Mylibrary系統(tǒng),以及中國(guó)科學(xué)院建立的數(shù)字圖書(shū)館——基于個(gè)性集成定制的門(mén)戶(hù)網(wǎng)站等[1-2]。但在實(shí)踐過(guò)程中,發(fā)現(xiàn)仍有很多領(lǐng)域值得繼續(xù)深入研究,其中包括:
1 用戶(hù)興趣與行為的表達(dá)
個(gè)性化信息服務(wù)中,必須考慮用戶(hù)的興趣、偏好和需求差異對(duì)行為的影響,以提高個(gè)性化信息服務(wù)的針對(duì)性和面向用戶(hù)的合理性。這給個(gè)性化支撐技術(shù)的研制和應(yīng)用帶來(lái)較大的困難,因?yàn)椴煌瑢?zhuān)業(yè)、不同用戶(hù)個(gè)體所表現(xiàn)出來(lái)的需求興趣和行為千差萬(wàn)別,同一技術(shù)支撐下的服務(wù)內(nèi)容難以取得相同的滿意程度。利用何種技術(shù)方法跟蹤、學(xué)習(xí)、提取、表達(dá)用戶(hù)的多興趣,是一個(gè)最基本也是最重要的問(wèn)題。
1.1 探尋興趣優(yōu)化的過(guò)濾方法
實(shí)現(xiàn)個(gè)性化服務(wù)需要準(zhǔn)確的識(shí)別用戶(hù),跟蹤用戶(hù)的興趣和行為,對(duì)用戶(hù)的興趣和行為進(jìn)行描述。由于用戶(hù)興趣是多面的、動(dòng)態(tài)的,跟蹤、學(xué)習(xí)和表達(dá)用戶(hù)興趣,需開(kāi)發(fā)優(yōu)化的過(guò)濾方法。依據(jù)文獻(xiàn)報(bào)道,用戶(hù)興趣及特征優(yōu)化的方法主要包括:基于內(nèi)容的過(guò)濾技術(shù)、協(xié)作式過(guò)濾技術(shù)、混合方式過(guò)濾技術(shù)?;趦?nèi)容的過(guò)濾源于信息檢索,采用與信息檢索相似的技術(shù),信息對(duì)象的過(guò)濾是建立在其內(nèi)容與用戶(hù)興趣相比較的基礎(chǔ)上;協(xié)作過(guò)濾也稱(chēng)協(xié)作過(guò)濾,是“相似”用戶(hù)的合作過(guò)程,是用戶(hù)通過(guò)相互協(xié)作、依據(jù)信息的評(píng)價(jià)來(lái)過(guò)濾信息[3]。與基于內(nèi)容的過(guò)濾相比,基于協(xié)作的過(guò)濾有很大差別,不是計(jì)算信息特征集合的相似度,而是計(jì)算用戶(hù)的相似度,這種系統(tǒng)通過(guò)比較當(dāng)前用戶(hù)與其他用戶(hù)的興趣特征之相似度計(jì)算出用戶(hù)間的相關(guān)度,來(lái)預(yù)測(cè)待過(guò)濾信息是否為用戶(hù)感興趣信息?;旌鲜竭^(guò)濾與其中單純的基于內(nèi)容的過(guò)濾或單純的協(xié)作式過(guò)濾相比,能使信息過(guò)濾系統(tǒng)的相對(duì)查全率和相對(duì)查準(zhǔn)率大幅度提高。
1.2 建立興趣表達(dá)的用戶(hù)模型
實(shí)現(xiàn)個(gè)性化服務(wù)需要準(zhǔn)確的識(shí)別用戶(hù),跟蹤用戶(hù)的興趣和行為,同時(shí)對(duì)用戶(hù)的興趣和行為進(jìn)行描述與概括,構(gòu)建和更新用戶(hù)興趣模型及計(jì)算用戶(hù)興趣模型的相似性等問(wèn)題。其中最為關(guān)鍵的是如何進(jìn)行用戶(hù)興趣模型的建造[3-4]。用戶(hù)建模過(guò)程中面臨諸多問(wèn)題,其中之一就是用戶(hù)模型構(gòu)建需求內(nèi)容標(biāo)準(zhǔn)缺乏統(tǒng)一。有人將興趣內(nèi)容歸為九類(lèi),如,個(gè)人信息(包括性別、年齡、語(yǔ)言、文化等),認(rèn)知方式、設(shè)備、使用環(huán)境、歷史行為、目標(biāo)、使用系統(tǒng)的經(jīng)驗(yàn)、領(lǐng)域知識(shí)等,但并不被廣泛接納。再有則是建模技術(shù)。目前用戶(hù)建??煞郑菏止ざㄖ平?、示例用戶(hù)建模、自動(dòng)用戶(hù)建模等。其中自動(dòng)用戶(hù)建模通過(guò)用戶(hù)的行為推測(cè)用戶(hù)對(duì)web頁(yè)面及其他內(nèi)容的興趣,無(wú)需用戶(hù)提供信息,不造成對(duì)用戶(hù)的干擾,有利于提高個(gè)性化服務(wù)系統(tǒng)的易用性,較符合前瞻性的發(fā)展要求。
2 個(gè)性化過(guò)程中的分類(lèi)和聚類(lèi)
Web個(gè)性化服務(wù)是通過(guò)對(duì)用戶(hù)有關(guān)數(shù)據(jù)的分析,來(lái)捕獲用戶(hù)的行為偏好及興趣以及為用戶(hù)提供幫助的一系列服務(wù)技術(shù),涉及的主要問(wèn)題包括:如何充分運(yùn)用用戶(hù)和會(huì)話識(shí)別、協(xié)作過(guò)濾、顯示和隱式收集方式以及高效的并行算法,來(lái)高效準(zhǔn)確地采集、處理Web個(gè)性化數(shù)據(jù),以保證數(shù)據(jù)收集和處理的數(shù)量和質(zhì)量。其中分類(lèi)和聚類(lèi)技術(shù),特別是聚類(lèi)技術(shù)對(duì)于改進(jìn)興趣信息搜索結(jié)果的顯示,具有不可替代的位置。因?yàn)樗軌驇椭覀儼l(fā)現(xiàn)特征迥異的不同用戶(hù)群,輔助信息服務(wù)機(jī)構(gòu)對(duì)各用戶(hù)群的特征進(jìn)行深刻洞察。目前就已存在比較前沿的分類(lèi)與聚類(lèi)算法有:
2.1 基于模糊聚類(lèi)方法
模糊聚類(lèi)是利用模糊等價(jià)關(guān)系將給定的對(duì)象分為一些等價(jià)類(lèi),通過(guò)一定的閾值來(lái)確定對(duì)象的相似類(lèi)別。這種聚類(lèi)方法使得屬于同一類(lèi)別的用戶(hù)之間的相似性升高,而不同類(lèi)別上的用戶(hù)之間的相似性降低。和傳統(tǒng)的聚類(lèi)相比更顯得有效。因?yàn)閭鹘y(tǒng)聚類(lèi)把目標(biāo)用戶(hù)硬性劃分到某個(gè)聚類(lèi)中。而模糊聚類(lèi)是一種軟聚類(lèi),用戶(hù)相對(duì)于每個(gè)聚類(lèi)都有一個(gè)隸屬度,不會(huì)被生硬性劃分到某個(gè)聚類(lèi)中[5-6]。加之Web站點(diǎn)內(nèi)容的動(dòng)態(tài)變化,用戶(hù)瀏覽Web時(shí)目的性不很明確,具有模糊性和不確定性,而模糊聚類(lèi)算法將用戶(hù)對(duì)項(xiàng)目的評(píng)分轉(zhuǎn)換為具有相似性的用戶(hù)群對(duì)項(xiàng)目的評(píng)分,然后結(jié)合項(xiàng)目類(lèi)別屬性相似性的影響,計(jì)算出目標(biāo)項(xiàng)目的相似項(xiàng)目集合,就使聚類(lèi)顯得更自然,更符合客觀實(shí)際,比傳統(tǒng)方法中的項(xiàng)目的相似性計(jì)算更加精確。
2.2 基于網(wǎng)格聚類(lèi)方法
基于網(wǎng)格的方法是采用一個(gè)多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu)。把數(shù)據(jù)空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)格結(jié)構(gòu)[7]。所有的聚類(lèi)操作都在網(wǎng)格結(jié)構(gòu)上進(jìn)行。這種方法的主要優(yōu)點(diǎn)是它的處理速度快,其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目,只與量化空間中分成多少個(gè)單元有關(guān)。代表的算法有:sting算法(統(tǒng)計(jì)信息網(wǎng)絡(luò))CLIQE算法(聚類(lèi)高緯空間)、WAVE-CLUSTER算法(采用小波變換聚類(lèi))。
2.3 基于模型的聚類(lèi)方法
基于模型的方法為每一個(gè)聚類(lèi)假定了一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。一個(gè)基于模型的算法可能通過(guò)構(gòu)建反映數(shù)據(jù)點(diǎn)空間分布的密度函數(shù)來(lái)定位聚類(lèi)。也可能基于標(biāo)準(zhǔn)的統(tǒng)計(jì)數(shù)字決定聚類(lèi)數(shù)目,考慮“噪聲”數(shù)據(jù)或孤立點(diǎn),從而產(chǎn)生健壯的聚類(lèi)方法。該方法試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。這樣的方法常基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的。基于模型的方法主要有兩類(lèi):統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法[7-8]。
3 個(gè)性化信息服務(wù)安全與系統(tǒng)評(píng)價(jià)
由于Web個(gè)性化信息或以MyLibrary為代表的個(gè)性化數(shù)字圖書(shū)館更多地依賴(lài)數(shù)據(jù)庫(kù)技術(shù)和動(dòng)態(tài)網(wǎng)頁(yè)技術(shù),從本質(zhì)上并沒(méi)有改變?cè)械男畔⒔M織方式和安全保障方式,缺乏對(duì)用戶(hù)特征的定量分析和精確描述及開(kāi)放機(jī)制,用戶(hù)無(wú)法實(shí)現(xiàn)對(duì)興趣資源的安全索取和防止隱私濫用,也不能添加自己需要的外部資源及進(jìn)行有效的系統(tǒng)效果評(píng)價(jià)[9],個(gè)性化信息安全保障與系統(tǒng)個(gè)性化服務(wù)評(píng)價(jià)標(biāo)準(zhǔn)的建立卻已成為優(yōu)先研究領(lǐng)域。
3.1 信息安全技術(shù)保障
Web個(gè)性化信息安全保障,與通信保密、信息安全兩個(gè)概念相比,其層次更高、提供的安全保障更為全面[2,10]。個(gè)性化信息安全保障不僅要求保證個(gè)性信息在過(guò)濾、存儲(chǔ)、傳輸和使用過(guò)程中的保密性、完整性、真實(shí)性、可用性和不可否認(rèn)性,同時(shí)還要求把信息系統(tǒng)建設(shè)成一個(gè)具有預(yù)警、保護(hù)、檢測(cè)、響應(yīng)、恢復(fù)和反擊等六大能力的縱深防御體系。由于當(dāng)前網(wǎng)絡(luò)信息和特征化信息安全是涉及計(jì)算機(jī)科學(xué),網(wǎng)絡(luò)技術(shù),通信技術(shù),密碼技術(shù),信息安全技術(shù),應(yīng)用數(shù)學(xué),數(shù)論以及信息論等多種學(xué)科的綜合性學(xué)科,這給研究人員帶來(lái)較大的困難,所以在眾多的個(gè)性化系統(tǒng)中,鮮有考慮用戶(hù)的個(gè)人隱私信息安全問(wèn)題。但在某些項(xiàng)目方面,如,防火墻技術(shù)、數(shù)據(jù)加密技術(shù)、虛擬局域網(wǎng)(VLAN)與虛擬專(zhuān)用網(wǎng)(VPN)技術(shù)、入侵檢測(cè)(IDS)與安全審計(jì)技術(shù)、安全掃描與防病毒技術(shù)等,已投入不少的人力、物力,研究也已取得成效。今年初,美國(guó)網(wǎng)絡(luò)安全部門(mén)召集在信息安全保障領(lǐng)域做出過(guò)卓越貢獻(xiàn)的七名非常優(yōu)秀的專(zhuān)家,以訪談的形式預(yù)測(cè)該領(lǐng)域的未來(lái),專(zhuān)家圍繞一些有爭(zhēng)議的和非常尖銳的問(wèn)題侃侃而談,預(yù)測(cè)未來(lái)15年信息安全保障技術(shù)領(lǐng)域可能會(huì)有的突破,Steve Bellovin教授看好2個(gè)領(lǐng)域,其一是希望可以設(shè)計(jì)出一種能承受破壞的安全體系機(jī)構(gòu),使得即使有難以避免的故障,也不可能導(dǎo)致更大范圍的系統(tǒng)滲透;其次是致力于對(duì)人的教育,讓其明白各種安全敏感行為所帶來(lái)的后患。國(guó)內(nèi)將安全保護(hù)及可用性作為信息安全保障的終極目標(biāo)也越來(lái)越受到關(guān)注,有人預(yù)估[10]不到3年時(shí)間,信息安全一個(gè)新興領(lǐng)域——數(shù)據(jù)恢復(fù)服務(wù)行業(yè)悄然興起。
3.2 個(gè)性化信息服務(wù)評(píng)價(jià)
網(wǎng)絡(luò)信息服務(wù)主要是以計(jì)算機(jī)硬件和通信設(shè)備為依托,以應(yīng)用軟件為手段,以數(shù)據(jù)庫(kù)信息資源為利用對(duì)象,將信息提供、信息發(fā)布和咨詢(xún)服務(wù)與中介統(tǒng)一起來(lái),最大限度地實(shí)現(xiàn)面向用戶(hù)的個(gè)性化服務(wù)[11]。目前在學(xué)術(shù)界引起廣泛關(guān)注的是網(wǎng)絡(luò)信息個(gè)性化定制服務(wù)的手段和內(nèi)容及其它增值服務(wù),也就是信息企業(yè)從各種渠道收集信息、數(shù)據(jù),制定統(tǒng)一標(biāo)準(zhǔn)格式,匯編成數(shù)據(jù)庫(kù),通過(guò)網(wǎng)絡(luò)對(duì)用戶(hù)提供服務(wù)。諸如,數(shù)據(jù)庫(kù)服務(wù)、搜索引擎服務(wù)、資源導(dǎo)航服務(wù)、信息推送服務(wù)等,對(duì)其服務(wù)質(zhì)量的評(píng)價(jià)多基于構(gòu)建一套基于網(wǎng)絡(luò)信息服務(wù)指標(biāo)體系的研究。針對(duì)Web信息個(gè)性化服務(wù)目前還沒(méi)有建立一種有效的個(gè)性化信息服務(wù)評(píng)價(jià)體系。由于專(zhuān)家的看法并非一致,基本上都落在信息獲得與內(nèi)容、娛樂(lè)性、易用性、安全性、隱私性、可靠性、存取性、回應(yīng)性、補(bǔ)償性、站點(diǎn)美觀以及個(gè)性化等指標(biāo)上,有必要對(duì)網(wǎng)絡(luò)信息服務(wù)的相關(guān)評(píng)價(jià)指標(biāo)進(jìn)行整理與探討,并進(jìn)一步加以整合[12]。建立評(píng)估模型,從系統(tǒng)評(píng)價(jià)(例如:響應(yīng)時(shí)間、內(nèi)存管理、可擴(kuò)展性以及互操作性等)、建模性能以及可用性等方面來(lái)評(píng)價(jià)個(gè)性化系統(tǒng)的性能。
4 結(jié)束語(yǔ)
個(gè)性化是一個(gè)非?;钴S的研究領(lǐng)域,向用戶(hù)提供個(gè)性化的信息服務(wù)和主動(dòng)信息服務(wù),無(wú)論從理論研究還是實(shí)際應(yīng)用,都具有廣闊的前景。而Web個(gè)性化技術(shù)仍然是有待發(fā)展的技術(shù),本文通過(guò)展示W(wǎng)eb個(gè)性化服務(wù)中有待深入研究的幾個(gè)核心問(wèn)題,驅(qū)使領(lǐng)域?qū)I(yè)研究人員更加警示。與此相關(guān)語(yǔ)義信息的有效利用、Web個(gè)性化與語(yǔ)義Web的有機(jī)融合、以及如何把Web訪問(wèn)活動(dòng)自動(dòng)轉(zhuǎn)變成本體論及如何從本體論中歸納出個(gè)性化使用等,都是目前重要的研究課題。
參考文獻(xiàn)
[1]楊曉湘,孫坦.中美圖書(shū)館MyLibrary個(gè)性化服務(wù)系統(tǒng)的比較研究[J].現(xiàn)代情報(bào),2005,(10):218-221.
[2]吳輝娟,袁方.個(gè)性化服務(wù)技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,(2):32-35.
[3]梁勁.基于Web用戶(hù)訪問(wèn)信息挖掘技術(shù)的個(gè)性化定制服務(wù)[J].福建電腦,2008,(2):147-148.
[4]蔣衛(wèi)星,張彬,金甌.Web個(gè)性化技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2008,(5):34-35.
[5]溫會(huì)平,陳俊杰.基于用戶(hù)模糊聚類(lèi)的個(gè)性化推薦算法[J].計(jì)算機(jī)與數(shù)字工程,2008,(2):13-16.
[6]柴世紅,康正軍.基于模糊聚類(lèi)的網(wǎng)站用戶(hù)分類(lèi)[J].甘肅科技,2008,(3):20-23.
[7]于洪濤,段軍義,杜照豐.一種基于聚類(lèi)技術(shù)的個(gè)性化信息檢索方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,(8):33-36.
[8]陳為思,張前磊.自適應(yīng)個(gè)性化數(shù)字圖書(shū)館用戶(hù)建模研究[J].江西圖書(shū)館學(xué)刊,2008,(2):75-78.
[9]付曉翠,許盈.基于Web數(shù)據(jù)挖掘的個(gè)性化搜索引擎研究綜述[J].現(xiàn)代計(jì)算機(jī):專(zhuān)業(yè)版,2008,(3):141-144.
[10]馬芳,葉惠敏.國(guó)外信息安全保障技術(shù)的回顧與前瞻——國(guó)外專(zhuān)家談2008年信息安全保障問(wèn)題[J].信息安全與通信保密,2008,(6):14-19.
[11]盧濤,雷雪.網(wǎng)絡(luò)信息服務(wù)質(zhì)量評(píng)價(jià)及其實(shí)證研究[J].圖書(shū)情報(bào)知識(shí),2008,(1):35-40.
[12]焦玉英,雷雪.基于用戶(hù)滿意度的網(wǎng)絡(luò)信息服務(wù)質(zhì)量評(píng)價(jià)模型及調(diào)查分析[J].圖書(shū)情報(bào)工作,2008,(2):81-84.