豐新秋
摘要: 計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,使得信息的發(fā)布與傳播不再受到時(shí)間和空間的限制。然而,網(wǎng)絡(luò)在帶來(lái)大量信息的同時(shí),也帶來(lái)了很多問(wèn)題:諸如信息過(guò)量難以消化;信息真假難以辨識(shí);信息形式不一致等等。解決這些問(wèn)題可以將傳統(tǒng)的數(shù)據(jù)挖掘(Date Mining)同Web結(jié)合起來(lái),即從Web文檔和Web活動(dòng)中抽取用戶感興趣的潛在的有用模式和隱藏的信息,為用戶提供具備自適應(yīng)性和智能的信息服務(wù)。
關(guān)鍵詞 ;數(shù)據(jù)挖掘; web;挖掘;網(wǎng)絡(luò)技術(shù)
中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-2851(2009)12-0174-01
近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),通過(guò)對(duì)大型的數(shù)據(jù)集進(jìn)行探查??梢园l(fā)現(xiàn)有用的知識(shí),從而為決策支持提供有力的依據(jù)。
一、 Web數(shù)據(jù)挖掘定義及分類
Web數(shù)據(jù)挖掘(Web Date Mining),簡(jiǎn)稱Web挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從數(shù)據(jù)挖掘、計(jì)算機(jī)技術(shù)、信息科學(xué)等多個(gè)領(lǐng)域進(jìn)行的一項(xiàng)技術(shù)。
Web 數(shù)據(jù)挖掘的分類根據(jù)數(shù)據(jù)挖掘?qū)ο蟮牟煌梢詫eb數(shù)據(jù)挖掘分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 訪問(wèn)信息挖掘三類(見(jiàn)圖1)。Web 內(nèi)容挖掘就是指從Web 的文檔中發(fā)現(xiàn)提取有用信息; Web 結(jié)構(gòu)挖掘是指對(duì)html 頁(yè)面間的鏈接結(jié)構(gòu)進(jìn)行挖掘; Web 訪問(wèn)信息挖掘是從網(wǎng)絡(luò)訪問(wèn)者的交談或活動(dòng)中提取信息。
二、 Web數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘的過(guò)程可以分為6個(gè)步驟:
(一)理解業(yè)務(wù):從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,將其轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。
(二)理解數(shù)據(jù):收集初步的數(shù)據(jù),進(jìn)行各種熟悉數(shù)據(jù)的活動(dòng)。包括數(shù)據(jù)描述,數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量驗(yàn)證等。
(三)準(zhǔn)備數(shù)據(jù):將最初的原始數(shù)據(jù)構(gòu)造成最終適合建模工具處理的數(shù)據(jù)集。包括表、記錄和屬性的選擇,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清理等。
(四)建模:選擇和應(yīng)用各種建模技術(shù),并對(duì)其參數(shù)進(jìn)行優(yōu)化。
(五)模型評(píng)估:對(duì)模型進(jìn)行較為徹底的評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)其是否真正實(shí)現(xiàn)了預(yù)定的商業(yè)目的。
三、Web 數(shù)據(jù)挖掘的常用工具
Web 數(shù)據(jù)挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問(wèn)模式挖掘工具或用戶導(dǎo)航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對(duì)文本的分析。IBM 公司的產(chǎn)品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實(shí)現(xiàn)的方法是對(duì)Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問(wèn)行為、頻度和內(nèi)容等信息, 從而找出一定的模式和規(guī)則。由Sstphen Tumer 博士編制的免費(fèi)個(gè)人軟件Analog 是一個(gè)用來(lái)分析Server Logs 的工具。
四、數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀
數(shù)據(jù)挖掘是一個(gè)新興的邊緣學(xué)科,它匯集了來(lái)自機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能以及管理信息系統(tǒng)等各學(xué)科的成果。多學(xué)科的相互交融和相互促進(jìn),使得這一新學(xué)科得以蓬勃發(fā)展,而且已初具規(guī)模。在美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)的數(shù)據(jù)庫(kù)研究項(xiàng)目中,KDD被列為90年代最有價(jià)值的研究項(xiàng)目。人工智能研究領(lǐng)域的科學(xué)家也普遍認(rèn)為,下一個(gè)人工智能應(yīng)用的重要課題之一,將是以機(jī)器學(xué)習(xí)算法為主要工具的大規(guī)模的數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)。盡管數(shù)據(jù)挖掘還是一個(gè)很新的研究課題,但它所固有的為企業(yè)創(chuàng)造巨大經(jīng)濟(jì)效益的潛力,已使其很快有了許多成功的應(yīng)用,具有代表性的應(yīng)用領(lǐng)域有市場(chǎng)預(yù)測(cè)、投資、制造業(yè)、銀行、通訊等。
美國(guó)鋼鐵公司和神戶鋼鐵公司利用基于數(shù)據(jù)挖掘技術(shù)的ISPA系統(tǒng),研究分析產(chǎn)品性能規(guī)律和進(jìn)行質(zhì)量控制,取得了顯著效果。通用電器公司(GE)與法國(guó)飛機(jī)發(fā)動(dòng)機(jī)制造公司(sNEcMA),利用數(shù)據(jù)挖掘技術(shù)研制了CASSIOP.EE質(zhì)量控制系統(tǒng),被三家歐洲航空公司用于診斷和預(yù)測(cè)渡音737的故障,帶來(lái)了可觀的經(jīng)濟(jì)效益。該系統(tǒng)于1996年獲歐洲一等創(chuàng)造性應(yīng)用獎(jiǎng)。
中國(guó)的公安部門(mén)也在研究利用KDD技術(shù)總結(jié)各類案件的共性和發(fā)生規(guī)律,從而在宏觀上制定最有效的社會(huì)治安綜合治理的方案和措施;在微觀上指出犯罪人的特點(diǎn),劃定罪犯的范圍,為偵破工作提供方向。
五、 結(jié) 語(yǔ)
網(wǎng)絡(luò)下的數(shù)據(jù)挖掘和個(gè)性化智能服務(wù)都還處于發(fā)展初期,還沒(méi)有形成比較成熟的理論,尤其是在Web挖掘的實(shí)際應(yīng)用方面所做的工作較少。對(duì)于某一特定領(lǐng)域的研究人員來(lái)說(shuō),由于他們的研究領(lǐng)域相對(duì)固定,挖掘其信息需求相對(duì)容易,但對(duì)普通用戶來(lái)說(shuō),由于其本身的動(dòng)態(tài)性與不確定性,對(duì)其興趣模型進(jìn)行挖掘還是一個(gè)難題。隨著信息科學(xué)技術(shù)的發(fā)展,作為一種獲取知識(shí)的有效手段,Web挖掘的方法和應(yīng)用將得到更深更廣的研究,這對(duì)信息服務(wù)機(jī)構(gòu)提高信息服務(wù)水平有著深遠(yuǎn)的意義。