程軍鋒
(隴南師范高等??茖W(xué)校物理與信息技術(shù)系,甘肅隴南 742500)
計(jì)算機(jī)網(wǎng)絡(luò)的高速發(fā)展,使得Web數(shù)據(jù)呈快速的增長(zhǎng),如何在這些異構(gòu)的海量Web數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)和知識(shí),特別是當(dāng)前隨著新的數(shù)據(jù)對(duì)象不斷出現(xiàn),在大量Web數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí),已經(jīng)成為數(shù)據(jù)挖掘技術(shù)面臨的一個(gè)新的挑戰(zhàn).
Web數(shù)據(jù)挖掘指從Web網(wǎng)頁(yè)文本、圖像、音頻、視頻、用戶使用數(shù)據(jù)和活動(dòng)日志等中挖掘出有用的、隱含的、感興趣的知識(shí)和模式的過(guò)程,Web數(shù)據(jù)挖掘是一項(xiàng)綜合的技術(shù),涉及網(wǎng)頁(yè)知識(shí)、數(shù)據(jù)挖掘、語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)論等領(lǐng)域.Web數(shù)據(jù)挖掘的目標(biāo)是從Web的鏈接結(jié)構(gòu)、網(wǎng)頁(yè)內(nèi)容和使用日志中探尋有用的信息[1].在發(fā)現(xiàn)權(quán)威頁(yè)面和潛在的用戶,垃圾郵件的處理,針對(duì)性的營(yíng)銷活動(dòng)等方面有著重要的應(yīng)用價(jià)值.隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,Web數(shù)據(jù)挖掘內(nèi)容和技術(shù)也在不斷的發(fā)展,又出現(xiàn)了Web空間數(shù)據(jù)挖掘等領(lǐng)域,文獻(xiàn)[2]對(duì)Web空間數(shù)據(jù)挖掘的相關(guān)技術(shù)進(jìn)行了研究.
對(duì)于Web數(shù)據(jù)挖掘,根據(jù)挖掘過(guò)程中的任務(wù),可將Web數(shù)據(jù)挖掘劃分為三種類型.
指從Web文本、圖像、音頻、視頻等內(nèi)容中發(fā)現(xiàn)有價(jià)值的信息和抽取知識(shí)的過(guò)程.Web內(nèi)容挖掘分為文本數(shù)據(jù)挖掘(包括文本和網(wǎng)頁(yè)文件格式)和多媒體數(shù)據(jù)挖掘(圖像、聲音等多媒體數(shù)據(jù)),涉及對(duì)文檔的重構(gòu)使得文檔結(jié)構(gòu)化,對(duì)文本和多媒體數(shù)據(jù)的挖掘,對(duì)挖掘結(jié)果的處理和優(yōu)化.在文獻(xiàn)檢索系統(tǒng),垃圾郵件的處理,信息過(guò)濾,電子資源檢索中都有著一定的應(yīng)用.
Web結(jié)構(gòu)挖掘是對(duì)頁(yè)面間相互的鏈接進(jìn)行分析和處理,對(duì)網(wǎng)頁(yè)進(jìn)行分類,發(fā)現(xiàn)網(wǎng)站的結(jié)構(gòu),獲取不同網(wǎng)頁(yè)相似度和網(wǎng)站的關(guān)聯(lián)度,從相互鏈接中發(fā)現(xiàn)權(quán)威頁(yè)面和有價(jià)值的頁(yè)面,對(duì)頁(yè)面和網(wǎng)站進(jìn)行評(píng)級(jí)、分類等.對(duì)Web結(jié)構(gòu)挖掘已經(jīng)有PageRank和HITS算法,是兩種經(jīng)典的挖掘算法.PageRank是超鏈接結(jié)構(gòu)分析中最成功的代表之一,是評(píng)價(jià)網(wǎng)頁(yè)權(quán)威性的一種重要工具,搜索引擎google就是利用PageRank算法和其他統(tǒng)計(jì)因素相結(jié)合的方法,對(duì)檢索出來(lái)的大量結(jié)果進(jìn)行相關(guān)度的排序,將最有可能相似和最權(quán)威的頁(yè)面排到檢索結(jié)果的最前面.文[3]對(duì)Web結(jié)構(gòu)挖掘PageRank算法進(jìn)行了研究,針對(duì)PageRank算法對(duì)外鏈接權(quán)值平均和不考慮鏈接的重要程度,結(jié)果存在主題漂移現(xiàn)象不足的情況,提出了一種改進(jìn)的算法.由j.kleiberg提出的HITS算法中引入另一種稱為Hub的網(wǎng)頁(yè),Hub網(wǎng)頁(yè)是提供指向權(quán)威網(wǎng)頁(yè)鏈接集合的網(wǎng)頁(yè),它本身可能并不重要,但是Hub網(wǎng)頁(yè)卻提供指向權(quán)威網(wǎng)頁(yè)的某個(gè)主題而言最為重要的鏈接站點(diǎn)的集合,j.kleiberg認(rèn)為,網(wǎng)頁(yè)的重要性應(yīng)該依賴于用戶提出的檢索主題,把每個(gè)網(wǎng)頁(yè)將其Authority和Hub權(quán)值分開考慮,最后得到Authority和Hub值較大的頁(yè)面.
Web使用挖掘就是通過(guò)對(duì)計(jì)算機(jī)機(jī)上的日志文件,如在服務(wù)器的Log文件和cookies文件等,涉及關(guān)聯(lián)規(guī)則的挖掘,從中發(fā)現(xiàn)頻繁模式.如購(gòu)買計(jì)算機(jī)的用戶過(guò)一段時(shí)間購(gòu)買打印機(jī)的概率,或者買計(jì)算機(jī)同時(shí)買電腦包的概率等.通過(guò)挖掘用戶的訪問(wèn)模式,發(fā)現(xiàn)日志記錄中的規(guī)則,如在經(jīng)常訪問(wèn)的路徑,對(duì)網(wǎng)站的結(jié)構(gòu)進(jìn)行改進(jìn).通過(guò)聚類把不確定形式的用戶和數(shù)據(jù)進(jìn)行歸類,發(fā)現(xiàn)潛在的客戶和隱含群體,針對(duì)用戶進(jìn)行相關(guān)的營(yíng)銷等策略,提供針對(duì)性的活動(dòng),從而提高服務(wù)的質(zhì)量.
包括數(shù)據(jù)的建模,數(shù)據(jù)的清洗和轉(zhuǎn)化,通過(guò)把日志文件、無(wú)結(jié)構(gòu)的文件和半結(jié)構(gòu)化的Web文件轉(zhuǎn)化成數(shù)據(jù)挖掘階段使用的數(shù)據(jù),在這過(guò)程中把無(wú)用的、噪聲數(shù)據(jù)清除掉,填充缺失值,檢測(cè)并去掉離群點(diǎn)數(shù)據(jù),保留挖掘價(jià)值比較高,并對(duì)數(shù)據(jù)進(jìn)行聚合和歸約,使挖掘結(jié)果是更加精確的數(shù)據(jù).文[4]就對(duì)Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行了研究,并提出了一些相關(guān)的處理方法.
利用計(jì)算機(jī)語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)知識(shí),使用數(shù)據(jù)挖掘的分類、聚類、頻繁集挖掘和預(yù)測(cè)等技術(shù)和手段,應(yīng)用數(shù)據(jù)挖掘的各種算法,挖掘出有價(jià)值的信息和隱含的知識(shí).
通過(guò)數(shù)據(jù)挖掘算法發(fā)現(xiàn)的模式并不一定是有趣的,必須對(duì)挖掘出來(lái)的結(jié)果進(jìn)行分析和評(píng)價(jià),發(fā)現(xiàn)用戶感興趣的模式和規(guī)則,扔棄一些不符合要求的模式,使得Web挖掘結(jié)果更加精確和符合用戶的要求.
分類是根據(jù)現(xiàn)有訓(xùn)練集構(gòu)造一個(gè)分類器來(lái)預(yù)測(cè)未知數(shù)據(jù)的類標(biāo)號(hào),在針對(duì)營(yíng)銷,網(wǎng)絡(luò)欺詐,網(wǎng)絡(luò)入侵等方面有著廣泛的使用.如垃圾郵件的處理,可根據(jù)主題把郵件歸到已有的類中.目前,已經(jīng)出現(xiàn)許多分類算法,ID3、CS5、CART、BAYES、KNN等.其中KNN(K-最近鄰)是一種消極學(xué)習(xí)的方法,通過(guò)找出與測(cè)試樣本相對(duì)接近的所有樣本,然后利用這些最近鄰類標(biāo)號(hào)來(lái)確定測(cè)試樣本的類標(biāo)號(hào).文[5]針對(duì)支持向量機(jī)的Web文本算法分類效率低的問(wèn)題,提出了一種基于支持向量機(jī)Web文本的快速增量分類FVI-SVM算法.算法通過(guò)計(jì)算支持向量的共享最近鄰相似度,去除冗余支持向量,克服了在增量學(xué)習(xí)過(guò)程中不斷加入相似文本特征向量而導(dǎo)致增量學(xué)習(xí)的訓(xùn)練時(shí)間消耗加大、分類效率下降的問(wèn)題.文[6]對(duì)非結(jié)構(gòu)化數(shù)據(jù)集的處理進(jìn)行了相關(guān)的研究和優(yōu)化,提出了蟻分類算法Ant_M iner3,提高了分類的效率.
聚類可用來(lái)對(duì)Web上的文檔進(jìn)行分類,它是一種無(wú)監(jiān)督學(xué)習(xí)方法,是將物理或抽象對(duì)象的集合分成相似對(duì)象類的過(guò)程稱為聚類[7]251-305.聚類要求同一簇中數(shù)據(jù)盡可能相似,簇間數(shù)據(jù)盡可能相異,聚類在Web使用挖掘中可根據(jù)用戶和頁(yè)面進(jìn)行聚類.常見的聚類算法有k-means、二分k-means、BIRCH、CURE、POCK等算法.文[8]對(duì)Web文本聚類模型進(jìn)行了研究,討論Web文本聚類的分詞、特征表示、特征選擇和K-means算法等關(guān)鍵技術(shù),實(shí)現(xiàn)了該文本聚類系統(tǒng),證明有很好的聚類結(jié)果.文[9]中對(duì)Web用戶聚類進(jìn)行了研究,提出基于用戶訪問(wèn)路徑以及節(jié)點(diǎn)高度的相似性評(píng)價(jià)函數(shù),建立相似矩陣,通過(guò)矩陣研究用戶的關(guān)系.而[10]對(duì)基于短語(yǔ)特征的Web文檔聚類方法進(jìn)行了研究.
關(guān)聯(lián)規(guī)則是通過(guò)分析事物間的相互聯(lián)系,挖掘出數(shù)據(jù)間頻繁出現(xiàn)的模式,找出相關(guān)聯(lián)的數(shù)據(jù),如發(fā)現(xiàn)權(quán)威頁(yè)面,找到用戶的購(gòu)買興趣和偏好等,在改變網(wǎng)頁(yè)導(dǎo)航和購(gòu)物營(yíng)銷中有著重要的應(yīng)用價(jià)值[11].Apriori算法是通過(guò)計(jì)算最小支持度的一種發(fā)現(xiàn)頻繁項(xiàng)集的方法,但需要頻繁的掃描大量的候選項(xiàng).Fp-grow th算法是使用一種模式頻繁樹結(jié)構(gòu)組織數(shù)據(jù),首先通過(guò)掃描數(shù)據(jù)項(xiàng)集構(gòu)造樹,并直接從該樹結(jié)構(gòu)中得到頻繁項(xiàng)集,對(duì)于事務(wù)序列數(shù)據(jù)的挖掘.文[12]對(duì)日志挖掘中的用戶序列模式進(jìn)行了相關(guān)研究,并提出IAx算法.對(duì)于動(dòng)態(tài)Web點(diǎn)擊流中頻繁訪問(wèn)序列,文[13]提出一種基于False-Negative方法和時(shí)間敏感滑動(dòng)窗的算法FTS-Stream.文[14]在傳統(tǒng)經(jīng)典算法Apriori基礎(chǔ)上,克服了對(duì)于候選項(xiàng)掃描過(guò)多的問(wèn)題,根據(jù)利用弱關(guān)聯(lián)規(guī)則的向上關(guān)閉特性設(shè)計(jì)了一個(gè)改進(jìn)的高效算法.
預(yù)測(cè)是根據(jù)現(xiàn)有的知識(shí),對(duì)事物或?qū)ο蟮奈磥?lái)趨勢(shì)和數(shù)據(jù)做出預(yù)測(cè),比如顧客的未來(lái)購(gòu)買行為和意向等.K-最近鄰分類器KNN是一種簡(jiǎn)單有效的協(xié)同過(guò)濾算法,既可以用做分類,也可以用做預(yù)測(cè),通過(guò)計(jì)算機(jī)當(dāng)前用戶模型和過(guò)去用戶模型的相關(guān)性,預(yù)測(cè)用戶的未來(lái)行為,如購(gòu)買意向、偏好和其他相似特性.而在進(jìn)行預(yù)測(cè)時(shí),模型之間的相關(guān)性通過(guò)Pearson相關(guān)系數(shù)計(jì)算.研究的不斷深入,有理由相信數(shù)據(jù)挖掘技術(shù)在Web數(shù)據(jù)挖掘中有廣闊的前景.
網(wǎng)絡(luò)技術(shù)的高速發(fā)展使因特網(wǎng)一個(gè)分布式的巨大資源服務(wù)中心,Web上的數(shù)據(jù)量以指數(shù)級(jí)的形式在增長(zhǎng),數(shù)據(jù)類型也越來(lái)越豐富.巨大的信息資源空間在為數(shù)據(jù)挖掘提供寬廣的應(yīng)用空間的同時(shí),也提出了一些挑戰(zhàn),特別是多媒體和流數(shù)據(jù)等新的數(shù)據(jù)形式的出現(xiàn),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在處理這些Web數(shù)據(jù)時(shí)已經(jīng)遇到一定的困難.但隨著Web數(shù)據(jù)
[1]劉兵.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009.
[2]劉正濤,王建東.Web數(shù)據(jù)空間技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用.2012(7):12-17.
[3]范聰賢,劉秋菊,徐汀榮.應(yīng)用Web結(jié)構(gòu)挖掘的PageRank算法的改進(jìn)研究.計(jì)算機(jī)工程與應(yīng)用,2010(9):127-129.
[4]趙偉,何丕廉,陳霞,等.Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J].計(jì)算機(jī)應(yīng)用,2003(5):62-67.
[5]丁文軍,薛安榮.基于SVM的Web文本快速增量分類算法[J].計(jì)算機(jī)應(yīng)用研究,2012(4):1275-1279.
[6]吳林旭,姚躍華,黃晶.基于蟻群優(yōu)化在Web數(shù)據(jù)挖掘分類模型的實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2009(3):89-91.
[7]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù):第二版[M].北京:機(jī)械工業(yè)出版社,2007.
[8]賈丙靜,吳長(zhǎng)勤,葛華.Web文本聚類的研究與實(shí)現(xiàn)[J].長(zhǎng)春師范學(xué)院學(xué)報(bào),2011(6):26-30.
[9]周寬久,王艷萍,李瑤.Web用戶聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2006(16):184-186.
[10]楊瑞龍.基于短語(yǔ)特征的Web文檔聚類方法研究[D].重慶大學(xué),2010.
[11]鄢沛,郭皎,應(yīng)宏.Web可用性設(shè)計(jì)方法研究[J].重慶三峽學(xué)院學(xué)報(bào),2010(3).
[12]李明星,衡萍,董沛武.Web日志挖掘中的用戶序列模式識(shí)別[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2005(11):1570-1572.
[13]張嘯劍,邵超,張亞?wèn)|.動(dòng)態(tài)Web點(diǎn)擊流中頻繁訪問(wèn)序列的挖掘[J].計(jì)算機(jī)工程,2009(14):58-62.
[14]陳曉紅,秦楊.基于Web數(shù)據(jù)挖掘的高效關(guān)聯(lián)規(guī)則研究[J].計(jì)算機(jī)工程與科學(xué),2005(11):48-51.