摘要:因特網(wǎng)自上世紀(jì)九十年代出現(xiàn)以來(lái),得以迅速發(fā)展,因特網(wǎng)已經(jīng)成為一個(gè)分布式、全球性的信息服務(wù)中心,已經(jīng)悄然進(jìn)入了人們的日常生活,而且其信息量還在不斷的快速擴(kuò)充。根據(jù)一項(xiàng)調(diào)查,WEB擁有的部分信息空間已經(jīng)超過(guò)了數(shù)十億頁(yè)面,更為恐怖的是這個(gè)數(shù)字還在以大約每五個(gè)月翻一番的速度增長(zhǎng)。對(duì)WEB數(shù)據(jù)的挖掘具有重大的現(xiàn)實(shí)意義,也是目前各學(xué)者研究的重點(diǎn)。本文主要簡(jiǎn)單介紹WEB數(shù)據(jù)挖掘的定義和WEB數(shù)據(jù)挖掘的內(nèi)容,最后概括闡述了其應(yīng)用。
關(guān)鍵詞:WEB數(shù)據(jù)挖掘;內(nèi)容;應(yīng)用
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 18-0000-02
1 WEB數(shù)據(jù)挖掘的定義
到目前為止,對(duì)于WEB數(shù)據(jù)挖掘的確切定義還沒(méi)有明確的說(shuō)法。WEB數(shù)據(jù)挖掘其實(shí)就是數(shù)據(jù)挖掘的一種,其對(duì)象是WEB而已,可以從數(shù)據(jù)挖掘的定義中探索WEB數(shù)據(jù)挖掘(Web Mining)的定義:從WWW(World Wide Web)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,即為用戶(hù)提取和挖掘WEB頁(yè)面的信息,從而最終應(yīng)用于商業(yè)運(yùn)作以滿(mǎn)足管理者的需要。WEB數(shù)據(jù)挖掘的定義非常簡(jiǎn)單,但是實(shí)際中提取信息是非常難的,首先,因特網(wǎng)是一個(gè)開(kāi)放性、動(dòng)態(tài)性以及異構(gòu)性的全球分布式網(wǎng)絡(luò),資源的分布非常分散,而且動(dòng)態(tài)變化莫測(cè),也沒(méi)有統(tǒng)一的管理組織,想要獲取定向的信息是一件非常難得的事情。
其次,WEB數(shù)據(jù)最大的特點(diǎn)就是半結(jié)構(gòu)化。簡(jiǎn)單說(shuō)就是,WEB數(shù)據(jù)實(shí)際是有一定的結(jié)構(gòu)的,但是它的結(jié)構(gòu)受到了自述層次的影響,它并不是非常完整的結(jié)構(gòu)。而傳統(tǒng)的數(shù)據(jù)庫(kù),其數(shù)據(jù)的結(jié)構(gòu)性非常強(qiáng),因此可以建立一定的數(shù)據(jù)模型,在數(shù)據(jù)處理的時(shí)候就可以根據(jù)一定的描述尋找特定的數(shù)據(jù)。WEB數(shù)據(jù)非常的復(fù)雜,由于其是半結(jié)構(gòu)化的數(shù)據(jù),因此不具備可描述性,它的數(shù)據(jù)在每一個(gè)站點(diǎn)都是相互獨(dú)立的,具有自述性和動(dòng)態(tài)可變性。WEB數(shù)據(jù)的挖掘相對(duì)傳統(tǒng)的數(shù)據(jù)庫(kù)模式要困難得多,WEB信息量的增加一直誘惑著人們不斷的探究更好的數(shù)據(jù)挖掘方式。
2 WEB數(shù)據(jù)挖掘的內(nèi)容
WEB上含有豐富的信息,而且其信息的增長(zhǎng)速度也非??臁J紫仁琼?yè)面本身包含的信息,這是WEB頁(yè)面信息的基礎(chǔ)。其次,用戶(hù)使用WEB信息時(shí)會(huì)留下一些瀏覽記錄,這些記錄也是非常寶貴的資源,它體現(xiàn)了客戶(hù)的需求和習(xí)慣。最后,客戶(hù)使用還會(huì)留下一些超鏈接,這也是一部分資源。因此,根據(jù)不同的挖掘?qū)ο?,WEB數(shù)據(jù)挖掘內(nèi)容一般包括三部分:WEB內(nèi)容挖掘(Web Content Mining)、WEB結(jié)構(gòu)挖掘(Web Structure Mining)和WEB使用挖掘(Web Usage Mining)。
2.1 WEB內(nèi)容挖掘。內(nèi)容挖掘也就是對(duì)WEB頁(yè)面信息的提取,從頁(yè)面的文檔內(nèi)容以及其描述中提取信息的過(guò)程。這是一種基于索引的信息挖掘,類(lèi)似的代理技術(shù)都是一類(lèi)。挖掘的信息主要是文本信息,近些年隨著多媒體技術(shù)的應(yīng)用越來(lái)越廣泛,多媒體信息也是內(nèi)容挖掘的對(duì)象。文本挖掘的主要目的是對(duì)頁(yè)面信息進(jìn)行分類(lèi)、摘要以及關(guān)聯(lián)分析,最主要的功能就是分類(lèi)和聚類(lèi)。多媒體信息挖掘則是利用多媒體提取工具進(jìn)行特征提取,抽列出圖形、語(yǔ)音、視頻等的文件名、類(lèi)型、URL、父URL、關(guān)鍵字、顏色向量等,形成特征二維表,然后采用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。大多是關(guān)聯(lián)規(guī)則或者分類(lèi)。
一般情況下,對(duì)于WEB內(nèi)容的挖掘可以采取兩種主要的策略:一是對(duì)于有鎖定網(wǎng)絡(luò)的查詢(xún)語(yǔ)言,采取直接挖掘文件內(nèi)容的策略;二是在其他工具搜索的基礎(chǔ)上加以改進(jìn),主要是對(duì)查詢(xún)結(jié)果進(jìn)一步處理,從而得到更有價(jià)值、更準(zhǔn)確的信息。
2.2 WEB的使用挖掘。WEB使用挖掘又被稱(chēng)為日志挖掘,其他兩種數(shù)據(jù)挖掘的對(duì)象是網(wǎng)上的原始數(shù)據(jù)對(duì)象,而此類(lèi)挖掘的對(duì)象是用戶(hù)訪(fǎng)問(wèn)WEB服務(wù)器以后留下的信息,主要是網(wǎng)絡(luò)服務(wù)器訪(fǎng)問(wèn)記錄、用戶(hù)注冊(cè)信息等。通過(guò)對(duì)訪(fǎng)問(wèn)記錄的數(shù)據(jù)挖掘,可以發(fā)現(xiàn)用戶(hù)感興趣的內(nèi)容以及喜歡的訪(fǎng)問(wèn)方式。其實(shí)現(xiàn)的主要方式是對(duì)站點(diǎn)的日志文件和相關(guān)數(shù)據(jù)進(jìn)行分析,所以又被稱(chēng)為日志挖掘。WEB使用挖掘的信息有助于幫助分析客戶(hù)的喜好,了解用戶(hù)的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義,從而改進(jìn)服務(wù)系統(tǒng)。
WEB使用挖掘主要在兩個(gè)方面比較吸引人,也是比較具有市場(chǎng)開(kāi)發(fā)價(jià)值的:一般訪(fǎng)問(wèn)模式追蹤和個(gè)性化的使用記錄。WEB使用記錄的挖掘方法也主要有兩種:基于WEB事物的方法和基于數(shù)據(jù)立方體的方法,對(duì)Web日志文件的研究,主要能完成簡(jiǎn)單的統(tǒng)計(jì)分析和智能分析兩大任務(wù)。
2.3 WEB結(jié)構(gòu)挖掘。WEB結(jié)構(gòu)的挖掘是從WWW的整體結(jié)構(gòu)和連接關(guān)系中發(fā)現(xiàn)知識(shí),是對(duì)頁(yè)面進(jìn)行排序,重建WEB站點(diǎn)結(jié)構(gòu)的過(guò)程,對(duì)于網(wǎng)絡(luò)資源的檢索結(jié)果具有重要的意義。
這一類(lèi)型挖掘的目標(biāo)是尋找頁(yè)面的結(jié)構(gòu),尋找頁(yè)面的更過(guò)組織信息,以此對(duì)頁(yè)面進(jìn)行分類(lèi)和聚類(lèi)等處理,通過(guò)對(duì)頁(yè)面信息的處理,尋找到權(quán)威頁(yè)面,也就是精準(zhǔn)信息。因此,可以看出WEB結(jié)構(gòu)挖掘的主要是指從WWW的組織結(jié)構(gòu),以及結(jié)構(gòu)中的超鏈接推導(dǎo)出用戶(hù)想要的信息。并不僅僅是網(wǎng)頁(yè)的挖掘,還有很多超鏈接信息。WEB結(jié)構(gòu)挖掘主要還是依靠數(shù)據(jù)挖掘技術(shù),重新建立曲站點(diǎn)的結(jié)構(gòu),對(duì)WEB頁(yè)面的文檔結(jié)構(gòu)、文檔的路徑以及頁(yè)面的超鏈接進(jìn)行挖掘,舉例來(lái)說(shuō),如果用戶(hù)搜索了某個(gè)頁(yè)面,這個(gè)頁(yè)面存在一個(gè)超鏈接,那么這個(gè)頁(yè)面實(shí)際上就包含了超鏈接指向的頁(yè)面的信息。目前,具有廣泛影響的超鏈接分析算法主要是Page-Rank算法和HITS算法,相比較之下Page-Rank算法更為著名,搜索引擎Google的核心算法就是Page-Rank算法。
3 WEB數(shù)據(jù)挖掘的應(yīng)用
如今的互聯(lián)網(wǎng)市場(chǎng)競(jìng)爭(zhēng)越來(lái)越激烈,電商已經(jīng)成為很大的產(chǎn)業(yè)規(guī)模,涉及到人們的日常生活以及各行各業(yè)。對(duì)各大電商而言,用戶(hù)數(shù)量和架構(gòu)是非常關(guān)鍵的因素,直接關(guān)系到投放廣告的收入。而且現(xiàn)在用戶(hù)對(duì)因特網(wǎng)的認(rèn)識(shí)越來(lái)越深入,簡(jiǎn)單依靠大信息量已經(jīng)很難留住用戶(hù)了,提高服務(wù)質(zhì)量已經(jīng)成為必然選擇。目前,WEB的應(yīng)用越來(lái)越個(gè)性化,效果越來(lái)越好,這是客戶(hù)和企業(yè)發(fā)展的必然,因此WEB挖掘的應(yīng)用主要表現(xiàn)在個(gè)性化服務(wù)、完善網(wǎng)站設(shè)計(jì)、商業(yè)智能化、完善系統(tǒng)性能以及定性描述上,具體到現(xiàn)在,主要的研究對(duì)象是個(gè)性化服務(wù)、推薦系統(tǒng)和自適應(yīng)站點(diǎn)。個(gè)性化服務(wù)就是網(wǎng)站根據(jù)用戶(hù)的訪(fǎng)問(wèn)情況,為用戶(hù)提供個(gè)性化的信息服務(wù),減少用戶(hù)索引的時(shí)間,方面用戶(hù)的使用。推薦系統(tǒng)顧名思義就是根據(jù)用戶(hù)以前的使用情況,為用戶(hù)推薦可能感興趣的信息。自適應(yīng)站點(diǎn)是一種更加有效、自動(dòng)化程度更高的方法。
WEB數(shù)據(jù)挖掘的應(yīng)用不僅可以為管理者提供個(gè)性化網(wǎng)站,還可以比較準(zhǔn)確的測(cè)定投資回報(bào)率,查看網(wǎng)站流量模式,發(fā)現(xiàn)用戶(hù)的興趣和需要,優(yōu)化用戶(hù)需求強(qiáng)烈的地方,從而有目的有依據(jù)的穩(wěn)步提高用戶(hù)的滿(mǎn)意度。
4 結(jié)束語(yǔ)
目前,WEB擁有的部分信息空間已經(jīng)超過(guò)了數(shù)十億頁(yè)面,更為恐怖的是這個(gè)數(shù)字還在以大約每五個(gè)月翻一番的速度增長(zhǎng),巨大信息蘊(yùn)含了巨大的市場(chǎng)。WEB可以以長(zhǎng)文本的形式展現(xiàn)給用戶(hù),而且可以轉(zhuǎn)化為更多類(lèi)別的數(shù)據(jù),甚至包括動(dòng)態(tài)網(wǎng)頁(yè)鏈接、讀取等,是一個(gè)具有巨大開(kāi)發(fā)價(jià)值的信息源。但是,面臨巨大的信息量,很多用戶(hù)不知所從,如何讓獲取想要的信息是普遍的問(wèn)題。因此,基于WEB的數(shù)據(jù)挖掘成為近年來(lái)的研究熱點(diǎn)。本文主要簡(jiǎn)單介紹WEB數(shù)據(jù)挖掘的定義和WEB數(shù)據(jù)挖掘的內(nèi)容,最后概括闡述了其應(yīng)用。
參考文獻(xiàn):
[1]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002,12.
[2]徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2001,4.
[3]王書(shū)舟.基于Web挖掘的自適應(yīng)網(wǎng)站研究[D].哈爾濱理工大學(xué)碩士學(xué)位論文,2003.
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2012年18期