孫學軍
(1.山東大學計算機科學與技術學院,山東 濟南 250101;2.臨沂大學繼續(xù)教育學院,山東費縣 273400)
Web文本數(shù)據(jù)挖掘技術及其在電子商務中的應用*
孫學軍1,2
(1.山東大學計算機科學與技術學院,山東 濟南 250101;2.臨沂大學繼續(xù)教育學院,山東費縣 273400)
簡要介紹了數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘及Web文本數(shù)據(jù)挖掘技術。從特征項提取、文本關聯(lián)分析、文本分類、文本聚類等方面對Web文本數(shù)據(jù)挖掘技術在電子商務中的應用作了探討,并略述了Web文本數(shù)據(jù)挖掘技術的應用現(xiàn)狀及其發(fā)展趨勢。
數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;Web文本數(shù)據(jù)挖掘
目前,隨著互聯(lián)網(wǎng)的迅速普及,電子商務已如雨后春筍般地迅速發(fā)展壯大起來。電子商務(Electronic Commerce)就是利用計算機技術、網(wǎng)絡技術和遠程通信技術,實現(xiàn)整個商務(買賣)過程中的電子化、數(shù)字化和網(wǎng)絡化。與傳統(tǒng)的商務活動相比,它具有交易虛擬化、交易成本低、交易效率高、交易透明化、可以實現(xiàn)對市場資源的優(yōu)化、有利于企業(yè)的技術創(chuàng)新活動與市場進行無縫隙連接以及有利于企業(yè)內部提高團隊合作效率等優(yōu)勢。
所以,當今絕大數(shù)企業(yè)和商家都擁有了自己的商務網(wǎng)站。一個商務網(wǎng)站水平的高低也成為當今社會衡量一個企業(yè)是否踏入現(xiàn)代企業(yè)行列的一個很重要的標志。但是,在電子商務給我們帶來方便、快捷的同時,它也給我們帶來了一個很大的困惑。那就是如何從大量的、紛雜的web信息中找出有用的、有潛在價值的信息。結合著數(shù)據(jù)庫技術的快速發(fā)展,數(shù)據(jù)挖掘技術誕生了。由于Web上面的信息絕大多數(shù)是非結構化的或者半結構化的,采用傳統(tǒng)的數(shù)據(jù)挖掘技術顯然是不行的了。因此,最近幾年出現(xiàn)了Web數(shù)據(jù)挖掘技術、Web文本數(shù)據(jù)挖掘技術等面向Web的數(shù)據(jù)挖掘技術,很好地解決了上面的問題。
1.1.1 數(shù)據(jù)挖掘定義
從技術角度來看,數(shù)據(jù)挖掘 (data mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程[1]。該定義主要包括以下幾層含義:1)數(shù)據(jù)源必須是真實的、大量的、含噪聲的;2)發(fā)現(xiàn)的是用戶感興趣的知識;3)發(fā)現(xiàn)的知識要可接受、可理解、可運用;4)并不要求發(fā)現(xiàn)放之四海而皆準的知識,僅支持特定的問題即可。
1.1.2 數(shù)據(jù)挖掘常用的知識表示模式和方法
數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識,知識要通過一定的模式給出??捎糜跀?shù)據(jù)挖掘系統(tǒng)的模型和方法主要有以下幾種[1]。
1)廣義知識挖掘 廣義知識是指描述類別特征的概括性知識。該模式挖掘的主要目的就是根據(jù)這些數(shù)據(jù)的微觀特性發(fā)現(xiàn)有普遍性的、更高層次概念的中觀和宏觀的知識。主要的方法有概念描述、多維數(shù)據(jù)分析、多層次概念描述問題等幾種。
2)關聯(lián)知識挖掘 關聯(lián)知識反映一個事件和其他事件之間的依賴或關聯(lián)。數(shù)據(jù)庫中的數(shù)據(jù)關聯(lián)是現(xiàn)實世界中事物聯(lián)系的變現(xiàn)。關聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關聯(lián)信息。關聯(lián)可以分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)、數(shù)量關聯(lián)等。關聯(lián)知識挖掘最常用的方法是關聯(lián)規(guī)則挖掘。
3)類知識挖掘類知識刻畫了一類事物,這類事物具有某種意義上的共同特征,并明顯和不同事物相區(qū)別。這里的類知識是指數(shù)據(jù)挖掘的分類和聚類兩類數(shù)據(jù)挖掘應用所對應的知識。其中,分類的目的是學會一個分類模型(稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中。該類挖掘的目的就是根據(jù)樣本數(shù)據(jù)形成的類知識并對源數(shù)據(jù)進行分類,進而也可以預測未來數(shù)據(jù)的歸類。它常用的方法主要有決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡、遺傳算法與進化理論、類比學習、非線性回歸、粗糙集和模糊集等。而聚類是把一組個體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個體之間的差別盡量小,而不屬于同一類別的個體之間的差別盡可能的大。通過聚類技術可以對源數(shù)據(jù)庫中的記錄劃分為一系列有意義的子集,進而實現(xiàn)對數(shù)據(jù)的分析。它常用的方法主要有基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法、基于網(wǎng)絡的聚類方法和基于模型的分類方法。
4)預測型知識挖掘預測型知識是指由歷史的和當前的數(shù)據(jù)產生的并能預測未來數(shù)據(jù)趨勢的知識。該模式挖掘的主要目的是對未來數(shù)據(jù)的概念分類和趨勢輸出。它常采用的模式主要有趨勢預測模式、周期分析模式、序列模式和神經(jīng)網(wǎng)絡等。
5)特異型知識挖掘特異型知識是源數(shù)據(jù)中所蘊含的極端特例或明顯區(qū)別于其他數(shù)據(jù)的知識描述,它揭示了事物偏離常規(guī)的異常規(guī)律。它主要的任務有孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn)等。
1.1.3 數(shù)據(jù)挖掘過程
該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息作出決策或豐富知識。數(shù)據(jù)挖掘的過程通常有以下幾步[2]。
1)確定主題在理解數(shù)據(jù)和實際業(yè)務問題的基礎上,提出數(shù)據(jù)挖掘要解決的問題,定義挖掘的目標,確定挖掘要發(fā)現(xiàn)的知識類型。
2)數(shù)據(jù)篩選搜索與業(yè)務數(shù)據(jù)有關的內部和外部數(shù)據(jù)信息,從中選擇出適用于挖掘主題的目標數(shù)據(jù)集。
3)數(shù)據(jù)清理來源于業(yè)務數(shù)據(jù)庫的目標數(shù)據(jù)集中可能存在噪聲數(shù)據(jù)、空缺數(shù)據(jù)、過時數(shù)據(jù)、冗余數(shù)據(jù)等,為提高挖掘的質量,需要合理地處理噪聲數(shù)據(jù),刪除過時數(shù)據(jù)和冗余數(shù)據(jù),填補空缺數(shù)據(jù)等。
4)數(shù)據(jù)變換選擇的目標數(shù)據(jù)可能來源于不同的業(yè)務數(shù)據(jù)庫,可能會存在數(shù)據(jù)格式、數(shù)據(jù)類型不一致等問題。即使來源于同一業(yè)務數(shù)據(jù)庫中的數(shù)據(jù),也可能會存在數(shù)據(jù)表示形式不適合具體的挖掘算法,因此有必要對目標數(shù)據(jù)進行相應的數(shù)據(jù)變換。
5)選擇算法數(shù)據(jù)挖掘算法分為多種類型,同一類型也存在多種算法,也就是說,實現(xiàn)同一個目標的挖掘算法有很多種。因此,應根據(jù)以下兩個要素選擇合適的算法:一是要根據(jù)數(shù)據(jù)的特點;二是要根據(jù)用戶的目標。選擇合適的知識發(fā)現(xiàn)算法還包括選擇適當?shù)哪P秃蛥?shù)。
6)數(shù)據(jù)挖掘運用選擇的算法從清理過的目標數(shù)據(jù)集中提取出用戶感興趣的知識(模式),并以一定的方式表示出來。
7)模式解釋對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行解釋。經(jīng)過用戶或機器評估后,可能會發(fā)現(xiàn)這些模式中存在冗余或無關的模式,此時應該將其刪除。如果模式不能滿足用戶的要求,就要分析問題的原因,并返回到前面的某些處理步驟中進行反復提取。
8)知識評價將發(fā)現(xiàn)的知識以便于用戶理解的方式呈現(xiàn)給用戶。這期間也包含對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。
9)知識展示由于挖掘出來的知識最終是呈現(xiàn)給用戶的,所以,通常以便于用戶對知識理解的圖形等直觀方式作為最終結果。因此,在知識發(fā)現(xiàn)的過程中還包括對挖掘出的模式進行可視化處理等。
1.2.1 Web 數(shù)據(jù)挖掘技術概念
Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術從Web文檔及Web服務中自動發(fā)現(xiàn)并提取人們感興趣的信息[3]。它是一項綜合技術,涉及Internet技術、人工智能技術、計算機語言學、信息學、統(tǒng)計學等多個學科領域。Web數(shù)據(jù)挖掘是對數(shù)據(jù)挖掘的一種新的應用,但又不同于傳統(tǒng)的數(shù)據(jù)挖掘。其主要區(qū)別在于:傳統(tǒng)的數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結構化數(shù)據(jù),并利用關系表等存儲結構來挖掘知識;而Web挖掘的對象是半結構化或非結構化數(shù)據(jù)。
1.2.2 Web數(shù)據(jù)挖掘技術的分類
Web數(shù)據(jù)挖掘依靠它所挖掘的站點信息來源可以分為以下三種類型[3]。
1)Web內容挖掘 Web內容挖掘是指對站點的Web頁面內容進行挖掘。該類挖掘目前主要包括改進傳統(tǒng)的WWW搜索引擎、在WWW上更智能地提取信息的搜索工具、數(shù)據(jù)庫方法、對HTML頁面內容進行挖掘等幾種方法。
2)Web訪問挖掘 Web訪問挖掘是對用戶訪問Web時在服務器方留下的訪問記錄進行挖掘,即對用戶訪問Web站點的存取方式進行挖掘。挖掘的對象是在服務器上的包括Server Log Data等在內的日志文件記錄。目前,該類挖掘流行的手段包括路徑分析、關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)、聚類和分類、改進Web站點的效率、實現(xiàn)個性化推薦、商業(yè)智能的發(fā)現(xiàn)、發(fā)現(xiàn)導航模式和抽取訪問信息特性等。
3)Web結構挖掘 Web結構挖掘是對Web頁面之間的鏈接結構進行挖掘。在整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的鏈接結構之中。例如,如果我們發(fā)現(xiàn)一個論文頁面經(jīng)常被引用,那么,這個頁面一定是非常重要的。發(fā)現(xiàn)的這種知識可以被用來改進搜索引擎,如PageRank和Clever方法等。
1.2.3 Web 數(shù)據(jù)挖掘的過程
電子商務中Web數(shù)據(jù)挖掘的過程一般由3個主要的階段組成:數(shù)據(jù)準備、挖掘操作、結果表達和解釋。由于篇幅有限,在此不再贅述。
Web文本挖掘是指在包括Web頁面內容、頁面之間的結構、用戶訪問信息等在內的各種Web文本數(shù)據(jù)信息中,應用數(shù)據(jù)挖掘方法以幫助人們從大量的Web文檔集合中發(fā)現(xiàn)隱含的信息模式,提取潛在的、有價值的知識的過程[4]。它是一項綜合技術,涉及Web數(shù)據(jù)挖掘、計算語言學、信息學等多個領域。它主要包含兩個高層次目標:預測和描述。其中,所謂預測是指用一些變量或數(shù)據(jù)庫的若干已知字段預測其它感興趣的變量或字段的位置或未來的值;而描述則指找到描述Web數(shù)據(jù)的可理解模式。
Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯(lián)分析以及利用Web文檔進行趨勢預測等。所以,Web挖掘過程一般包括相關網(wǎng)頁采集、文本的預處理、文本模型表示、信息或文本特征性抽取、文本分類(聚類)或結果集的數(shù)據(jù)挖掘等步驟。
Web文本數(shù)據(jù)挖掘的特點主要有以下兩個:1)Web文本挖掘的對象是海量、異構、分布的Web文本;2)Web在邏輯上是一個由文檔集合超鏈接構成的圖。
通過前面提到的內容,大家已對數(shù)據(jù)挖掘技術、Web數(shù)據(jù)挖掘技術以及Web文本數(shù)據(jù)挖掘技術已有所了解。那么如何在電子商務中應用好Web文本數(shù)據(jù)挖掘技術呢?我認為應主要從以下幾個方面進行探討。
對Web文本中出現(xiàn)的詞條及其權值的選取稱為特征提取。特征提取主要是識別文本中詞項的意義,并且提取的多數(shù)是文本集中表示的概念,以及從文本的內容抽取出來一些能代表文本內容的詞條,然后通過分析這些特征詞條以達到分析Web文本內容的目的。
它也就是在詞條切分完成之后,選取出可以表征該文本內容特征的特征詞,而去除掉那些與表達內容特征無關的多余詞條,并將其放入特征詞庫中。不同的詞條在文本中的作用是不同的,因此基于Web的文本挖掘的特征提取的重點是對文本中出現(xiàn)的詞匯、名字、術語、日期和短語的特征提取,目標是實現(xiàn)提取過程的自動化。但在實際應用中,到底選擇何種特征來表示文本還需要結合處理速度、識別分類精度、存儲空間等方面的具體要求來決定。目前,文本特征項提取的方法主要有以下兩種,簡要介紹如下。
1)文本頻度法 文本頻度(Document Frequencv,DF)是指在所有供訓練學習的文本中,含有某詞條的文本總數(shù)。若某詞條在某類文本中的DF值越高,則表明此詞條在該類文本中的代表性越強;反之則代表性越弱。強者正是文本分類所需依據(jù)的特征,弱者則對于文本分類不重要甚至是噪聲信息。為此可設定一個閾值threshold,保留DF值高于此閾值的詞條作為有價值特征,消除低于此閾值的詞條[5]。
文本頻度法是最簡單的特征維度消減算法,其計算復雜度與訓練文本的數(shù)量成正比。這種算法的效率很高,但是,如果閾值設得過低將導致信息遺失。
2)詞條頻度法 詞條頻度(Term Frequency,TF)是指某詞條在某類文本中出現(xiàn)的次數(shù)占該類文本總詞條數(shù)的比例,基于詞條頻度的特征選取算法的步驟如下:
①設供學習的樣本數(shù)為Ⅳ,屬于類Cj的文本數(shù)為Nj。將詞條集{ti(Cj)}按詞條類屬分為Nj個子集{ti}j。
②對每個子集{ti}j統(tǒng)計包括重復出現(xiàn)詞條在內的詞條總數(shù)nij,然后逐一統(tǒng)計ti(Cj)在子集{ti}j中的出現(xiàn)次數(shù)nij,計算每個子集中每個詞條的詞條頻度(ti)=nij/nj。
③刪除每個子集中的重復詞條,對每個子集{ti}j中的全部詞條按值從大到小排序,對類Cj設置閾值λj,將TFj(ti)≥λj的全部詞條裝入特征詞庫{ti(Cj)}中。
文本關聯(lián)分析主要是實現(xiàn)Web頁面信息的概念提升及多層關聯(lián)規(guī)則的挖掘功能。在Web文本內容挖掘的過程中,它主要是利用向量空間模型法(VSM)。它的主要優(yōu)點在于將非結構化的文本表示為向量形式,使得各種數(shù)學處理成為可能。但是,向量空間模型關于詞間關系相互獨立的基本假設(正交假設)在實際環(huán)境中很難滿足,文本中出現(xiàn)的詞往往存在一定的相關性,即出現(xiàn)斜交情況,在某種程度上會影響計算的結果。同時詞匯具有的同義或者多義現(xiàn)象也會影響文本信息的分析和處理。在這種情況下,為了更加有效地解決文本信息處理時存在的各種歧義問題,可以結合潛在語義索引的概念,對于詞進行概念上的提升,使其包含更加豐富的語義信息,并根據(jù)需要形成多個抽象級。在不同的抽象級上,分別對應相應的具體含義。因此在進行文本信息處理時,需要構建一個概念詞典。概念詞典主要反應了層次結構的語義組織,不同的層次表明了其抽象的程度不同。層次越高,則概括性就越強,包含的下位概念可能就越多。在不同概念級別上將進行多層關聯(lián)規(guī)則的挖掘;在頁面集合中尋找不同詞語之間的關系[5]。
分類是數(shù)據(jù)挖掘中一項非常重要的任務,分類的目的是讓機器學會一個分類函數(shù)或分類模型。該模型能把Web文本映射到已存在的多個類別中的某一類,使檢索或查詢的速度更快,準確率更高。文本分類是將待分類的Web文本分配到已經(jīng)存在的某些類別中,屬于有教師的機器學習問題,是文本挖掘的核心。
它一般分為訓練和分類兩個階段,具體過程如下[6]。
1)訓練階段
① 定義類別集合 C={C1,…,Ci,…,Cm},這些類別可以是層次式的,也可以是并列式的;
② 給出訓練文檔集合 S={S1,…,Sj,…,Sm},每個訓練文檔Sj被標上所屬的類別標識Ci;
③統(tǒng)計S中所有文檔的特征矢量V(Ci),確定代表C中每個類別的特征矢量;
2)分類階段
① 對于測試文檔集合T={d1,…,dk,…,dm}中的每個待分類文檔dk,計算其特征矢量V(dk)與每個V(Ci)之間的相似度sim(dk,Ci);
②選取相似度最大的一個類別arg max sim(dk,Ci)作為dk的類別;
文本分類可實現(xiàn)將Web文本歸類,以便于用戶在搜索時可以快速地找到相關的Web文檔,文本分類是將文檔歸入到已經(jīng)存在的類中;文本聚類的目標和文本分類是一樣的,只是實現(xiàn)的方法不同,文本聚類是無教師的機器學習,在文檔歸類之前沒有定義好的類可供選擇,在文本聚類時,將所有類型接近的文檔歸為一類,使類型相同的文檔盡量歸為一類,類型不相同的盡量隔離開來,聚類的標準可以是Web文本的屬性,也可以是Web文本的內容。
常用的文本聚類算法可以歸為兩類:分割式的聚類和分層式的聚類。分割聚類算法通過優(yōu)化一個評價函數(shù)把數(shù)據(jù)集分割為k個部分。分層聚類是由不同層次的分割聚類組成,層次之間的分割具有嵌套的關系。分層聚類法的構造過程類似于構造哈夫曼樹的過程。
目前,Web文本數(shù)據(jù)挖掘主要在以下幾個方面得到了很好地應用[7]。
1)為電子商務與政務提供技術支持 在電子商務領域,網(wǎng)絡信息挖掘可以提供不同用戶的特定信息,有的放矢地傳播網(wǎng)絡廣告,可以建立客戶關系管理系統(tǒng),極大地提升企業(yè)的競爭優(yōu)勢。在電子政務領域,通過對政務數(shù)據(jù)進行定性和定量分析,可為高層管理者提供決策參考.
2)信息檢索 Web文本數(shù)據(jù)挖掘對網(wǎng)絡用戶充分利用WWW資源是很有幫助的,它不僅可以對搜索結果進行有效的組織,使用戶比較準確地找到需要的資料,還可以通過加快搜索時間,幫助用戶節(jié)約檢索時間,提高Web文本的利用價值.
3)追蹤互聯(lián)網(wǎng)中的文檔 對Internet上的文檔,可以制定一個組織方案,利用文本分類對這些文檔進行自動編目。這樣,用戶不僅能夠方便地瀏覽文檔,而且還可以通過限制搜索范圍使文檔的查找更為容易。
隨著新的、更好的Web文本數(shù)據(jù)挖掘技術的出現(xiàn),它將會在更多的領域得到更多的、更好的應用。比如,為企業(yè)的決策部門提供盡可能多的、有效的信息支持;給用戶提供綜合信息服務;幫助企業(yè)和商家關心和分析競爭對手、合作伙伴、市場變換等企業(yè)外部環(huán)境等,以及幫助個人獲取最新的、來自世界范圍的和自己所感興趣的Web信息,并在此基礎上進行分析和進一步的利用等等。
電子商務雖以其方便、快捷的特點贏得了廣大用戶的信賴,但它也隨之帶來了大量的Web信息,特別是大量的文本信息。人們亟需新的技術來處理這些大量的、異構的、半結構化的數(shù)據(jù),搜尋有潛在價值的信息,Web文本數(shù)據(jù)挖掘技術因此應運而生。它是將WWW技術和數(shù)據(jù)挖掘相結合的一種新技術,并已成為數(shù)據(jù)挖掘研究領域中一個重要的課題。本文結合著數(shù)據(jù)挖掘技術和Web數(shù)據(jù)挖掘技術,著重對Web文本數(shù)據(jù)挖掘技術的應用及其發(fā)展趨勢進行了相應的探討。隨著文本挖掘技術的不斷發(fā)展和完善,其應用領域也會不斷拓寬,應用前景也會更加廣闊。
[1]毛國君,段立娟,王實,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2007.
[2]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術[M].北京:電子工業(yè)出版社,2004.
[3]Liu Bing.Web數(shù)據(jù)挖掘原理[M].北京:清華大學出版社,2009.
[4]王繼成,潘金貴,張福炎.Web文本挖掘技術研究[J].計算機研究與發(fā)展,2000,37(5):513 -520.
[5]劉洋.基于Web的內容挖掘技術研究[D].哈爾濱:哈爾濱工業(yè)大學,2003.
[6]唐菁.基于Web的文本挖掘[J].計算機工程與應用,2002,21:198 -201.
[7]徐妙君,顧沈明.面向Web的文本挖掘技術研究[J].控制工程,2003,(5):44 -46,50.
Web Text Data Mining and Its Application in E-commerce
SUN Xue - jun1,2
(1.School of Computer Science & Technology,Shandong University,Jinan Shandong 250101,China;
2.School of Further Education,Linyi University,F(xiàn)ei County Shandong 273400,China)
The paper introduces data mining,web data mining,and web text data mining technology,and explores the application of web text data mining technology in E-commerce in matter of feature item extraction,analysis of related parts of text,text classification,and text cluster.It also outlines the current application and its development trend.
data mining;web data mining;web text data mining
TP 311.13
A
1673-2103(2011)02-0035-05
2010-11-07
孫學軍(1977-),男,山東費縣人,講師,在讀碩士研究生,研究方向:數(shù)據(jù)挖掘技術。