鄭 霞,陳建國
(1.閩江學(xué)院計(jì)算機(jī)科學(xué)系,福建福州 350001;2.福建工程學(xué)院軟件學(xué)院,福建福州 350003)
基于XML的Web內(nèi)容挖掘方法
鄭 霞1,陳建國2
(1.閩江學(xué)院計(jì)算機(jī)科學(xué)系,福建福州 350001;2.福建工程學(xué)院軟件學(xué)院,福建福州 350003)
在分析Web內(nèi)容挖掘特征的基礎(chǔ)上,提出一種基于XML技術(shù)的Web內(nèi)容挖掘模型.利用HITS算法確定權(quán)威Web頁面,利用HTML Tidy工具將非XML文件經(jīng)過數(shù)據(jù)清洗后轉(zhuǎn)換成結(jié)構(gòu)良好的XML文檔,結(jié)合互聯(lián)網(wǎng)上傳統(tǒng)科技論文的自動(dòng)抽取系統(tǒng)實(shí)例,采用文本聚類分類技術(shù)進(jìn)行面向XML文檔數(shù)據(jù)的數(shù)據(jù)挖掘.實(shí)驗(yàn)結(jié)果表明,該模型工作良好,可以自動(dòng)、有效地提取網(wǎng)頁內(nèi)容.
Web挖掘;數(shù)據(jù)挖掘;文本聚類;非XML文檔
Web數(shù)據(jù)挖掘是從浩瀚的Web信息資源中發(fā)現(xiàn)未知的、潛在的、有價(jià)值知識(shí)的一種技術(shù)[1].由于Web數(shù)據(jù)具有數(shù)據(jù)量龐大,頁面復(fù)雜,結(jié)構(gòu)各異,冗余數(shù)據(jù)多等特點(diǎn),并且大部分網(wǎng)頁是非XML文檔形式,因此Web數(shù)據(jù)挖掘比傳統(tǒng)數(shù)據(jù)挖掘更復(fù)雜,難度更大.由于XML能夠?qū)⒉煌瑏碓吹慕Y(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因此給Web數(shù)據(jù)挖掘帶來了很大方便[2].
目前關(guān)于XML技術(shù)和Web內(nèi)容挖掘技術(shù)的結(jié)合研究已取得一定成果,例如采用直接解析HTML頁面[3],或者將HTML頁面轉(zhuǎn)換成XML格式后存入關(guān)系數(shù)據(jù)庫,然后對關(guān)系數(shù)據(jù)庫展開數(shù)據(jù)挖掘[4].本文以互聯(lián)網(wǎng)上傳統(tǒng)科技論文的自動(dòng)抽取系統(tǒng)為實(shí)例,提出一種基于XML的Web內(nèi)容挖掘模型和關(guān)鍵技術(shù).
數(shù)據(jù)挖掘就是從數(shù)據(jù)庫或其他信息庫中的海量數(shù)據(jù)源中獲取蘊(yùn)含的、潛在有用的信息和知識(shí)的過程[5].Web內(nèi)容挖掘是從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息,抽取有用數(shù)據(jù)的過程[6].這些數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù).
XML(可擴(kuò)展標(biāo)記語言)是一個(gè)基于互聯(lián)網(wǎng)的元數(shù)據(jù)標(biāo)記語言,用于定義特定領(lǐng)域相關(guān)的,結(jié)構(gòu)化的,語義的標(biāo)記語言[5].XML具有平臺(tái)無關(guān)性的信息內(nèi)容,其結(jié)構(gòu)分離,并能滿足各種不同的需求[7];結(jié)構(gòu)靈活,易于擴(kuò)展,使Web的異構(gòu)數(shù)據(jù)的轉(zhuǎn)換和傳輸?shù)腦ML成為標(biāo)準(zhǔn).
數(shù)據(jù)是數(shù)據(jù)挖掘的基礎(chǔ),數(shù)據(jù)準(zhǔn)備主要包括以下步驟:
(1)定義業(yè)務(wù)問題,確定挖掘目標(biāo),制定挖掘計(jì)劃.
(2)數(shù)據(jù)選擇,利用HITS算法確定權(quán)威Web頁面.
對于數(shù)據(jù)挖掘來說數(shù)據(jù)質(zhì)量是一個(gè)很關(guān)鍵的問題.因?yàn)槿绻麛?shù)據(jù)挖掘基于的數(shù)據(jù)是不準(zhǔn)確的,那么挖掘出來的結(jié)果也沒有價(jià)值.數(shù)據(jù)預(yù)處理可以保證數(shù)據(jù)挖掘所需數(shù)據(jù)集合的質(zhì)量.
(1)數(shù)據(jù)抽?。簩⒎荴ML形式的Web頁面內(nèi)容轉(zhuǎn)換為XML文檔,對數(shù)據(jù)值進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化描述,使其具有相同含義和具有相同的形式.
(2)數(shù)據(jù)清洗:對這些含有歧義、冗余、錯(cuò)誤、空值的數(shù)據(jù)進(jìn)行整理和清洗,從而保證數(shù)據(jù)的質(zhì)量.
采用擴(kuò)展樣式表轉(zhuǎn)換語言XSLT析取數(shù)據(jù),采用基于XML的查詢語言XQuery(XML Query)的析取器來析取大量復(fù)雜的數(shù)據(jù).
(1)文本聚類:利用文本聚類方法對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行聚類,將文檔集合分成若干簇,且同一簇內(nèi)的文檔相似度盡可能大,使用戶迅速定位到所需要的信息.聚類的結(jié)果可以用來指導(dǎo)分類.
(2)文本分類:按照定義的分類準(zhǔn)則將文檔集各文檔放入相應(yīng)類.包括特征表示、特征提取、特征匹配與分類步驟.
對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價(jià),將挖掘后的XML數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶,并將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中.挖掘模型如圖1所示.
圖1 基于XML的Web內(nèi)容挖掘模型圖Fig.1 Model diagram of XML-based Web content mining
本文選擇一個(gè)傳統(tǒng)科技論文網(wǎng)站作為Web內(nèi)容挖掘和分析的來源.傳統(tǒng)科技論文主要由文字、圖表、圖像等傳統(tǒng)媒體格式所構(gòu)成,以非結(jié)構(gòu)化的形式保存,缺少統(tǒng)一的論文格式規(guī)范,限制了基于XML的快速檢索機(jī)制以及開放存取在科技期刊的應(yīng)用.如何快速地從這些信息中獲取對用戶有用的、結(jié)構(gòu)良好的數(shù)據(jù)知識(shí),成為人們關(guān)注的熱點(diǎn).因此本文以Web頁面中的傳統(tǒng)科技論文數(shù)據(jù)挖掘?yàn)槔?,利用XML技術(shù)來實(shí)現(xiàn)Web內(nèi)容數(shù)據(jù)挖掘方法.
首先需要確定挖掘的目標(biāo)和對象,本文選擇一個(gè)科技論文網(wǎng)站作為Web內(nèi)容挖掘的信息源;挖掘目標(biāo)是將非結(jié)構(gòu)化的傳統(tǒng)論文經(jīng)過數(shù)據(jù)挖掘轉(zhuǎn)換成結(jié)構(gòu)良好的XML文檔格式.
本文利用HITS算法確定權(quán)威Web頁面,HITS算法是通過頁面間的超鏈接關(guān)系來挖掘其中有效信息,并通過內(nèi)容權(quán)威度和鏈接權(quán)威度對網(wǎng)頁質(zhì)量進(jìn)行評估.內(nèi)容權(quán)威度與頁面內(nèi)部提供的信息質(zhì)量有關(guān),被越多頁面引用的網(wǎng)頁,說明其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與頁面的超鏈接頁的質(zhì)量有關(guān),也就是引用越多高質(zhì)量頁面的網(wǎng)頁,說明其鏈接權(quán)威度越高.PageRank算法的基本思想是根據(jù)網(wǎng)頁重要性來確定權(quán)威頁面,即如果網(wǎng)頁A在下一條指向網(wǎng)頁B的超鏈接,則認(rèn)為網(wǎng)頁B得到了網(wǎng)頁A的認(rèn)可.如果有許多網(wǎng)頁指向網(wǎng)頁B,則說明網(wǎng)頁B相對比較重要.
首先,利用HTML Tidy工具清除網(wǎng)頁文件中格式不規(guī)范的地方,接著轉(zhuǎn)換為XHTM格式文檔.通過HTML Tidy工具的轉(zhuǎn)換命令為:Tidy-asxhtml***.Html-gb2312***.html;本文采用程序編寫,使用Tidy庫提供的函數(shù)在XMLHelper.tidyHTML()方法中執(zhí)行轉(zhuǎn)換.該方法傳入?yún)⒖紴轫撁鎁RL,返回結(jié)果為一個(gè)XHML文檔.核心代碼如下:
接著在頁面中找到論文所在區(qū)域,從中抽取數(shù)據(jù).先定位到論文標(biāo)題,接著搜索“作者”“摘要”“關(guān)鍵詞”等論文要素.可以使用XPath表達(dá)式:
(1)分類集合定義A=(a1,ai,...,an):本實(shí)例中,根據(jù)用戶所輸入的檢索條件和檢索對象,設(shè)置默認(rèn)分類集合A=(標(biāo)題,作者,摘要,關(guān)鍵詞,內(nèi)容,參考文獻(xiàn)等…).
(2)訓(xùn)練文本集合B=(b1,…,bi,...,bn),統(tǒng)計(jì)V(bi)的所有文本的特征向量數(shù)據(jù),以確定每個(gè)V(ai)的特征向量.本實(shí)例中訓(xùn)練集合B=(字體、字體大小、加粗、行間距、對齊等…),如表1所示.
(3)將文本集合B和集合ai的每個(gè)文本依次進(jìn)行匹配,計(jì)算V(bi)和每個(gè)V(ai)之間的特征矢量mix(bi,ai);
表1 科技論文網(wǎng)站論文格式-訓(xùn)練文本集(節(jié)選)Table 1 Format of papers of scientific papers website-training text set(Excerpt)
(4)選擇具有最大相似度的兩個(gè)特征向量,即集合間兩個(gè)特征向量的重復(fù)程度,將其放入新的文本集合中.
處理后的數(shù)據(jù)保存到成結(jié)構(gòu)化的XML文檔格式,使用戶能夠準(zhǔn)確地進(jìn)行數(shù)據(jù)檢索和分析及進(jìn)一步的處理.處理的數(shù)據(jù)格式如下(節(jié)選):
本文在介紹了Web數(shù)據(jù)挖掘的有關(guān)理論的基礎(chǔ)上,提出一種基于XML技術(shù)的Web內(nèi)容挖掘的模型,并結(jié)合互聯(lián)網(wǎng)上傳統(tǒng)科技論文的自動(dòng)抽取系統(tǒng)實(shí)例,重點(diǎn)闡述基于XML的Web內(nèi)容挖掘模型的實(shí)現(xiàn)方法.實(shí)驗(yàn)表明,利用HITS算法能夠準(zhǔn)確定位權(quán)威Web頁面,采用XSL技術(shù)進(jìn)行數(shù)據(jù)析取能夠精確地分析抽取Web文本內(nèi)容,采用文本聚類分類技術(shù)進(jìn)行面向XML文檔數(shù)據(jù)的數(shù)據(jù)挖掘效率更高,數(shù)據(jù)質(zhì)量更好.
[1]何慧.Web文本挖掘中關(guān)鍵問題的研究[D].北京:北京郵電大學(xué),2009.
[2]王禮剛.基于XML的Web文本數(shù)據(jù)挖掘研究[D].重慶:西南大學(xué),2007.
[3]梅東霞.面向XML文檔的數(shù)據(jù)挖掘技術(shù)研究[D].北京:北京化工大學(xué),2007.
[4]孫琳琳,霍泓.二次挖掘:新聞報(bào)道的一種嘗試[J].沈陽大學(xué)學(xué)報(bào),2004,16(5):104-106.
[5]何波,李建國.基于XML的Web數(shù)據(jù)挖掘系統(tǒng)框架的設(shè)計(jì)與實(shí)現(xiàn)[J].西南師范大學(xué)學(xué)報(bào),2002(6):34-36.
[6]王勇.WEB數(shù)據(jù)挖掘研究[D].西安:西北工業(yè)大學(xué),2006.
[7]陸宜梅.Web搜索技術(shù)現(xiàn)狀分析[J].沈陽大學(xué)學(xué)報(bào),2006,18(2):34-36.
Method of Web Content Mining based on XML
ZHENG Xia1,CHEN Jianguo2
(1.Department of Computer Science,Minjiang University,F(xiàn)uzhou 340001,China;2.Software College,F(xiàn)ujian University of Technology,F(xiàn)uzhou 350003,China)
The characteristics of Web content mining were analyzed and a model of Web content mining was proposed base on XML.The HITS algorithm was used to determine the authority of Web pages,the HTML Tidy tool was used for non-XML documents through the data cleansing and transform XML documents into well-formed,and text clustering techniques were used for XML document classification data in data mining.Combining with the examples of traditional scientific papers of automated extraction system from Internet,the model is proved to work well,and it can automatically and effectively extract web page content.
Web Mining;data mining;text clustering;non-XML documents
TP 311.13
A
1008-9225(2012)03-0052-04
2011-12-14
鄭 霞(1978-),女,福建南平人,閩江學(xué)院助教.
李 艷】