□文/鄧林玲
(江西理工大學(xué)江西·贛州)
隨著互聯(lián)網(wǎng)的普及,基于互聯(lián)網(wǎng)的新知識經(jīng)濟(jì)迅速發(fā)展,互聯(lián)網(wǎng)知識經(jīng)濟(jì)的是否發(fā)達(dá)或者說全民對互聯(lián)網(wǎng)的普及應(yīng)用率已經(jīng)成為衡量一個國家文明程度和現(xiàn)代化水平高低的新指標(biāo)之一。同時,互聯(lián)網(wǎng)的作用已從最初的簡單應(yīng)用發(fā)展成為各種信息流的主要傳輸渠道。尤其重要的是,傳統(tǒng)產(chǎn)業(yè)正在或已經(jīng)開始與互聯(lián)網(wǎng)結(jié)緣,并利用它鞏固和擴(kuò)大自己的市場份額?;ヂ?lián)網(wǎng)最大的優(yōu)點(diǎn)是能夠迅速、自由、準(zhǔn)確地在全球范圍廣泛傳播任何信息。對有色金屬產(chǎn)業(yè)的科學(xué)創(chuàng)新而言,如何從海量的冶金礦業(yè)網(wǎng)站數(shù)據(jù)中提取有關(guān)市場行情的資料,以及從各大有色金屬網(wǎng)站中得到有關(guān)最新資訊、行業(yè)動態(tài)、發(fā)展趨勢等信息,更加顯示出其深遠(yuǎn)的意義性。
Web數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘方法的一種,最大不同于其他傳統(tǒng)方法的是Web數(shù)據(jù)挖掘是在對海量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行收集并進(jìn)行闡明的基礎(chǔ)之上,通過采取一種最適合其數(shù)據(jù)類型的數(shù)據(jù)挖掘算法,最終做出分析與評價,預(yù)測出所需要的有價信息,為決策者降低決策風(fēng)險(xiǎn)及為其做出正確的決策提供參考。
一般來說,一次典型的Web數(shù)據(jù)挖掘具體做法如下:
(一)問題定義:操作者通過和需求者的協(xié)調(diào)溝通,初步了解需求者的目的,并進(jìn)一步對該需求提出清晰定義,為后期工作制定總體方向。
(二)準(zhǔn)備Web數(shù)據(jù)源:定義了問題之后,第二步就是在了解Web相關(guān)知識的基礎(chǔ)上從互聯(lián)網(wǎng)上各類網(wǎng)站找出所需的數(shù)據(jù)信息網(wǎng)站。
(三)分析Web數(shù)據(jù)特征:互聯(lián)網(wǎng)上來源不同的數(shù)據(jù)具有完全不同的數(shù)據(jù)特征,甚至對于相同來源的數(shù)據(jù),其數(shù)據(jù)特征也不盡相同。因此,對數(shù)據(jù)信息網(wǎng)站中各類數(shù)據(jù)的特征進(jìn)行分析是非常有必要的。
(四)選擇抽取技術(shù):對于具有不同數(shù)據(jù)特征的數(shù)據(jù),其相對應(yīng)的算法也是不一樣的,這一步就是要根據(jù)其不同數(shù)據(jù)特征,選取一種或多種合適的算法。
(五)設(shè)計(jì)程序:確定了一種或者多種合適的算法之后,還需要把這一算法以計(jì)算機(jī)程序語言的方式加以實(shí)現(xiàn)。
(六)Web數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)的一致完整性、去除數(shù)據(jù)中的噪聲、刪除無效的數(shù)據(jù)、填補(bǔ)因各種原因丟失的域、規(guī)范數(shù)據(jù)的格式,最后對獲得的數(shù)據(jù)進(jìn)行再加工。
(七)綜合評價與知識運(yùn)用:對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析和評價,首先需要選取最合適的模型并將其構(gòu)建出來,最終把通過該模型分析評價獲得結(jié)果,并應(yīng)用到需求系統(tǒng)中去。
有關(guān)鎢信息網(wǎng)站的Web數(shù)據(jù)挖掘具體流程如圖1所示。(圖1)
圖1Web數(shù)據(jù)挖掘流程
由于包含有鎢信息的網(wǎng)站中的Web數(shù)據(jù)并非都如專業(yè)數(shù)據(jù)庫中的數(shù)據(jù)一樣具有很完善的結(jié)構(gòu)性,相比之下Web數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)非常少。一些有色金屬的網(wǎng)站中的Web數(shù)據(jù)看似具有結(jié)構(gòu)化數(shù)據(jù)具備的一些特征,但其實(shí)只是形式上的表現(xiàn),而非真正內(nèi)容上的結(jié)構(gòu)化。由于有關(guān)鎢信息的網(wǎng)站涉及面非常廣泛,所以其數(shù)據(jù)的結(jié)構(gòu)特征互不相同且非常復(fù)雜。
網(wǎng)頁文件本身其實(shí)是一種特殊的文本文件,要想通過瀏覽器讓其顯示網(wǎng)站中的內(nèi)容,就需要在這種特殊的文本文件中加入標(biāo)記符。目前大部分網(wǎng)站的編程語言都是采用超文本標(biāo)記語言(HTML)來標(biāo)記網(wǎng)頁中的各個部分以顯示內(nèi)容的,這種HTML中特有的標(biāo)記符通常被人們稱為HTML標(biāo)簽,即把關(guān)鍵詞用尖括號包圍起來表示,比如〈html〉。由于元素內(nèi)容是要通過被放在兩個標(biāo)簽之間來實(shí)現(xiàn)的,所以HTML標(biāo)簽通常以成對的形式出現(xiàn),例如把元素內(nèi)容加在開始標(biāo)簽〈b〉和結(jié)束標(biāo)簽〈/b〉之間形成整體。但在一些特殊情況下,HTML標(biāo)簽有時也會單獨(dú)出現(xiàn),例如〈p〉、〈br〉等,還有如〈font〉之類用于顯示效果的標(biāo)記符。正是由于這些屬性的存在,HTML語言不能成為完全的結(jié)構(gòu)化語言。通過對Web中數(shù)據(jù)的分析,可以發(fā)現(xiàn)其數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)為樹狀結(jié)構(gòu),一般稱其為文檔對象化模型樹(DOMtree),如圖2所示。(圖2)
圖2DOM樹模型
鎢的網(wǎng)站網(wǎng)頁數(shù)據(jù)抽取算法步驟如下:
(一)對Web頁面進(jìn)行聚類處理。通常情況下,一個網(wǎng)站發(fā)布后,其中往往會含有很多個網(wǎng)頁。這些頁面數(shù)據(jù)的內(nèi)容雖然不盡相同,但其數(shù)據(jù)結(jié)構(gòu)是非常相似甚至相同的。因此,可以試著以其中的某一個頁面為基礎(chǔ)新建一個模板,其他的頁面都以這個模板中數(shù)據(jù)的結(jié)構(gòu)作為參考進(jìn)行比較,最終將具有相同或者相似數(shù)據(jù)結(jié)構(gòu)的頁面給按類別聚集到一起。
(二)構(gòu)造包裝器進(jìn)行數(shù)據(jù)抽取。分析HTML標(biāo)記并以HTML語言半結(jié)構(gòu)化的特征為出發(fā)點(diǎn)預(yù)先制定一個映射規(guī)則,然后在此基礎(chǔ)上構(gòu)造一個映射包裝器對數(shù)據(jù)進(jìn)行抽取。包裝器按照事先預(yù)先制定的映射規(guī)則,從來自于Web的數(shù)據(jù)源中抽取需要的數(shù)據(jù)信息,并進(jìn)一步對其形式進(jìn)行轉(zhuǎn)化處理,使之成為一種能被進(jìn)一步處理的數(shù)據(jù),最后以某種數(shù)據(jù)結(jié)構(gòu)存儲方式將其儲存起來。
(三)獲取Web頁文本代碼。在經(jīng)常使用的眾多代碼獲取方法中選擇出一種或幾種方法來獲取Web頁動態(tài)文本。本文擬采用和WebClient類和XMLHTTP類對URL中的文本代碼進(jìn)行讀取。
(四)對經(jīng)過再處理的文本代碼進(jìn)行數(shù)據(jù)抽取。在遵守包裝器的抽取法則的前提下,本文擬采用反序索引的方法對數(shù)據(jù)進(jìn)行排序,抽取出其中有價值的數(shù)據(jù)。
(五)對抽取的數(shù)據(jù)進(jìn)行再處理。將其中的亂碼和不必要的空格去除,并且將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,為下一步將其保存到數(shù)據(jù)庫中做好準(zhǔn)備工作。
(六)將數(shù)據(jù)信息儲存到數(shù)據(jù)庫中。以上工作全部完成后,即可以把所獲得的最終數(shù)據(jù)儲存到一個新建的專門數(shù)據(jù)庫之中。
(七)對結(jié)果進(jìn)行分析與評價。最后用Web數(shù)據(jù)挖掘工具對獲得信息進(jìn)行分析與評價是必不可少的過程,此部分工作提高了最終信息的質(zhì)量且使所獲得的信息具有可用性,從而滿足最終的需求。
(一)通過對有關(guān)鎢礦的網(wǎng)站數(shù)據(jù)分析,發(fā)現(xiàn)我們要尋找的有用數(shù)據(jù)信息通常存在于〈table〉〈/table〉、〈td〉〈/td〉標(biāo)簽中,且在這些標(biāo)簽中的表格同時是數(shù)據(jù)列表和網(wǎng)頁布局。通過對HTML中表格數(shù)據(jù)的研究不難發(fā)現(xiàn),一個網(wǎng)頁中的數(shù)據(jù)區(qū)域通常都是由相類似的數(shù)據(jù)表格所組成的。因此,可以尋求一種遍歷和通過計(jì)算DOM樹模型中各相鄰節(jié)點(diǎn)之間的相似度來挖掘網(wǎng)頁數(shù)據(jù)區(qū)域的算法。
(二)用數(shù)據(jù)挖掘工具獲得信息與知識始終是為了滿足需求者的需求,因此對挖掘出來的信息與知識進(jìn)行解釋是必不可少的過程,尤其是針對非專業(yè)的需求者,如何以一種易于理解的方式將挖掘出來的數(shù)據(jù)匯總成可以獨(dú)立使用的結(jié)果并加以闡明,是關(guān)鍵的一步。利用合適的工具和技術(shù)對挖掘出來的信息進(jìn)行分析與評價,最終使得到的信息具有直接可用性。
[1]邢平平,施鵬飛.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)數(shù)據(jù)中的有效應(yīng)用.計(jì)算機(jī)工程與應(yīng)用,2001.2.
[2]楊杰,葉晨洲,陳念貽.數(shù)據(jù)挖掘平臺及其應(yīng)用.系統(tǒng)仿真學(xué)報(bào),2001.13.6.
[3]蘇衛(wèi).數(shù)據(jù)挖掘工具的應(yīng)用與標(biāo)準(zhǔn)化[J].計(jì)算機(jī)工程(增刊),2008.30.
[4]王闖舟.PMML實(shí)現(xiàn)高速便捷的數(shù)據(jù)挖掘[J].金融電子化,2007.4.