摘 要:隨著科學技術的不斷發(fā)展,互聯(lián)網(wǎng)中包含的信息越來越多,人們可以隨心所欲的在互聯(lián)網(wǎng)上尋找自己需要的學習或者技術資料,但同時,由于互聯(lián)網(wǎng)上所包含的內(nèi)容特別的多,涉及的方面也特別的廣泛,當我們在搜索引擎中輸入我們所需信息的關鍵詞時,會有很多的超鏈接供我們選擇,如何在眾多的詞條中找到我們所需要的關鍵信息,已經(jīng)成為了靈活應用互聯(lián)網(wǎng)進行學習和工作的一個重要難題。本文結合自己多年的工作經(jīng)驗,著重對web網(wǎng)絡數(shù)據(jù)挖掘技術與實現(xiàn)進行簡要分析。
關鍵詞:web網(wǎng)絡數(shù)據(jù);挖掘技術;實現(xiàn)
中圖分類號:TP393.09
時間就是金錢,效率就是生命。在當今這個競爭日趨激烈的社會中,誰能快速有效的找到并掌握信息誰就能夠在激烈的環(huán)境中占據(jù)強大優(yōu)勢?;ヂ?lián)網(wǎng)作為一個我們?nèi)魏螣岖@取知識和有效信息的重要工具,在我們?nèi)粘5纳詈凸ぷ髦芯哂蟹浅V匾淖饔?。我們在日常的生活和工作中,利用互?lián)網(wǎng)挖掘對我們有效的數(shù)據(jù)的時候,必須掌握一定的技術和技巧,這樣我們既可以得到我們所需要的資料和信息,又能在激烈的競爭環(huán)境中占得先機。
1 網(wǎng)絡數(shù)據(jù)挖掘技術簡介
當今社會是一個網(wǎng)絡蔓延的社會,我們的日常生活和工作學習都離不開網(wǎng)絡的大力支持,在網(wǎng)上我們可以找到我們所需的相關信息,網(wǎng)絡數(shù)據(jù)挖掘技術是一門在網(wǎng)上快速的提取我們所需的有效信息的一種技術手段,通過網(wǎng)絡數(shù)據(jù)挖掘技術我們可以節(jié)約我們獲取信息的時間,提高我們的日常工作效率。對于我們的日常生活來講,利用網(wǎng)絡數(shù)據(jù)挖掘技術在網(wǎng)上獲取我們所需的有效信息,可以為我們節(jié)約非常多的生活時間,讓我們有更多的時間和精力去處理個人生活問題,有效的幫助提高我們的生活質量。在工作中,我們利用網(wǎng)絡數(shù)據(jù)挖掘技術可以為我們節(jié)約大量的時間,有效的提高我們的工作效率,對于一些特殊的行業(yè)來說,獲取信息的準確與否會直接影響企業(yè)的未來發(fā)展甚至是命運,對于這些行業(yè)來講,他們必須保證自己在第一時間獲取信息,提前進行準備或者直接下手,為以后面對激烈的行業(yè)競爭打下堅實的基礎。
Web數(shù)據(jù)挖掘技術是一項非常綜合性的技術,我們可以把它認為是一項計算機技術,也可以把它理解為一項數(shù)據(jù)處理技術,之所以這樣是因為這項技術在應用的過程中,既要有一定的計算機應用技術作為基礎,又要熟練掌握一些相關的數(shù)據(jù)處理技術。在web數(shù)據(jù)挖掘技術應用的過程中,人們需要對一些挖掘算法進行反反復復的利用,建立一定的數(shù)據(jù)模型,最終按照建立的數(shù)據(jù)模型在網(wǎng)絡上準確獲取我們所需要的有效信息。Web數(shù)據(jù)挖掘技術是一項在互聯(lián)網(wǎng)中獲取自己需要的有效信息的一種技術手段,我們可以從數(shù)學的角度來理解這項技術,我們把我們現(xiàn)在掌握的有效信息作為一個信息集合P,把我們想要得到的有效信息作為另一個集合C,這樣我們就得到一個映射:P--C,而從P-C的這個過程就需要我們利用web挖掘技術進行信息的挖掘和篩選。Web數(shù)據(jù)挖掘技術從本質上講是一門數(shù)據(jù)獲取技術,是由我們在日常生活和工作中的數(shù)據(jù)挖掘技術發(fā)展而來的,以前我們在獲取數(shù)據(jù)進行有效數(shù)據(jù)挖掘的時候是建立在紙質的文件上的,而web數(shù)據(jù)挖掘技術是建立在網(wǎng)絡技術和計算機技術的基礎之上,是計算機技術和網(wǎng)絡技術高度發(fā)展形成的一個產(chǎn)物。我們在利用web數(shù)據(jù)挖掘技術進行數(shù)據(jù)挖掘時,首先要對現(xiàn)有的信息進行總結歸納,得出其中所蘊含的關鍵信息,然后利用數(shù)據(jù)挖掘這種技術手段對我們所需信息進行深度挖掘的一個過程。利用web數(shù)據(jù)挖掘技術可以很好的解決我們?nèi)粘9ぷ髦兴枰母鞣N數(shù)據(jù)問題,幫助我們提高工作效率。
2 web數(shù)據(jù)挖掘技術的基本原理
我們把要得到的有效數(shù)據(jù)看做是一個集合,把我們目前掌握的已知數(shù)據(jù)也看作是一個集合,WEB數(shù)據(jù)挖掘技術的作用就是將這兩個信息有機的聯(lián)系在一起,我們首先在WEB網(wǎng)站中輸入我們所需信息的關鍵詞,首次輸入的時候力求做到全方位輸入,也就是說我們輸入的關鍵詞要盡可能的囊括我們所需信息的各個方面,如果在搜索后我們發(fā)現(xiàn),在WEB網(wǎng)站中沒有與我們所需信息完全吻合的數(shù)據(jù)信息,我們就將我們所要得到的信息進行簡化,所謂簡化不是一味的刪除關鍵詞,而是對各個關鍵詞進行逐字分析,弄懂其包含的意義,然后結合我們實際的工作需要,將關鍵詞進行有效的排序,排在前面的將作為我們首先要輸入的關鍵詞,直至出現(xiàn)與我們所需信息一致的信息為止,對于我們在首次的搜索過程中沒有體現(xiàn)出來的關鍵詞,我們要進行單獨的處理,然后將他們有機的融合在一起即可。在數(shù)據(jù)挖掘完成后,我們還需要進行數(shù)據(jù)整理,將得到的信息進行有機的整理也是數(shù)據(jù)挖掘技術的一個重要組成部分,根據(jù)我們工作的性質和目的,結合我們的實際工作過程,將我們挖掘到的信息整理成我們所需的那種形式表達出來,這就是整個WEB數(shù)據(jù)挖掘技術的過程。
3 web數(shù)據(jù)挖掘的分類
每個概念每項技術都有其歸屬,網(wǎng)絡數(shù)據(jù)挖掘技術也有不同的分類標準,按照挖掘對象進行分類我們可以將web數(shù)據(jù)挖掘分為web內(nèi)容的挖掘、web結構的挖掘、wab使用記錄的挖掘三類,下面對這三類web數(shù)據(jù)挖掘技術進行簡要介紹。
3.1 web數(shù)據(jù)內(nèi)容挖掘
Web數(shù)據(jù)內(nèi)容挖掘我們從其字面意思上就可以對這種挖掘有個大致的了解。所謂web數(shù)據(jù)內(nèi)容挖掘的針對對象就是對web網(wǎng)站中實際數(shù)據(jù)內(nèi)容進行深度挖掘,我們可以進行網(wǎng)頁信息的深度挖掘,也可以根據(jù)我們的需要進行網(wǎng)頁數(shù)據(jù)格式的挖掘,從網(wǎng)頁信息的角度考慮,我們可以在網(wǎng)頁上實際的選擇我們真正需要的數(shù)據(jù)內(nèi)容,或者將幾個網(wǎng)頁的數(shù)據(jù)內(nèi)容進行有機的結合;從網(wǎng)頁數(shù)據(jù)格式的角度考慮,我們可以挖掘我們需要的那種數(shù)據(jù)格式,網(wǎng)頁格式包括音頻、視頻、文本、圖片等等,以提高我們工作效率和工作質量為原則,我們可以根據(jù)我們的實際需要選擇最理想的web數(shù)據(jù)挖掘內(nèi)容。
3.2 web數(shù)據(jù)結構挖掘
Web結構挖掘是另一種web數(shù)據(jù)挖掘的分類,所謂web結構挖掘實際上是一種鏈接數(shù)據(jù)挖掘,我們可以利用鏈接分析來達到我們數(shù)據(jù)挖掘的目的,也就是說我們在web中輸入我們所需要的信息的關鍵詞,在網(wǎng)頁上就會自動的彈出很多的鏈接供我們進行自由選擇,我們根據(jù)我們的世界需要進行鏈接的點擊和數(shù)據(jù)的獲取。我們對所得到的網(wǎng)頁進行有效的分類通過分類來達到網(wǎng)頁之間數(shù)據(jù)對比和相似度分析的目的。在我們的日常工作中利用web結構挖掘進行工作的地方有很多。例如無論我們是大學畢業(yè)還是在評職稱的過程中,發(fā)表論文都是我們每個人的必經(jīng)之路,我們所寫的論文在發(fā)表之前都要進行論文檢測,以達到檢測相似度的目的,這個論文檢測就是對web數(shù)據(jù)結構挖掘的一個很好的利用。
3.3 web使用記錄挖掘
Web使用記錄挖掘是除了web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結構挖掘以外的另一種非常重要的數(shù)據(jù)挖掘形式。Web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結構挖掘都是對web網(wǎng)頁進行挖掘的一個形式,web使用記錄挖掘與他們不同,web使用記錄挖掘是建立在web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結構挖掘基礎上的一種挖掘形式,是用戶與網(wǎng)路服務器在進行交互的過程中形成的一種數(shù)據(jù)挖掘形式,web使用記錄挖掘的對象包括很多,它包括計算機注冊的信息、服務器的登錄次數(shù)和日志等等。Web使用記錄挖掘從本質上講是對wab數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結構挖掘的二次挖掘,是對它們所蘊含的數(shù)據(jù)的又一次過濾,幫助我們過去更加有效的數(shù)據(jù)信息。
Web數(shù)據(jù)內(nèi)容挖掘、web數(shù)據(jù)結構挖掘、web使用記錄挖掘是我們在日常的數(shù)據(jù)挖掘中經(jīng)常用到的三種挖掘形式,在它們之間也有一定的聯(lián)系,他們?nèi)呦噍o相成,我們可以根據(jù)自己的實際工作需要選擇合適的方法進行數(shù)據(jù)挖掘,也可以綜合利用三種挖掘形式進行數(shù)據(jù)挖掘。
4 web數(shù)據(jù)挖掘技術的實現(xiàn)
在我們的互聯(lián)網(wǎng)上蘊藏著大量的信息供我們選擇,在互聯(lián)網(wǎng)上找到真正適合我們的有效信息目前已經(jīng)成為了一個難題,通過網(wǎng)絡開發(fā)人員的不斷努力,目前XML是我們解決這個問題的一個重要的技術。XML可以將不同位置、不同結構形式、不同內(nèi)容的數(shù)據(jù)有機的結合在一起,幫助我們進行web數(shù)據(jù)挖掘的實現(xiàn)。Web數(shù)據(jù)難以整理主要是有web數(shù)據(jù)的特點造成的,其中異構數(shù)據(jù)庫環(huán)境、半結構化的數(shù)據(jù)結構、是web數(shù)據(jù)兩個最重要的特點,web數(shù)據(jù)的這兩個特點,導致在不同位置、不同結構的數(shù)據(jù)很難有機的集合在一起,而XML很好的為我們解決了這一點,XML形象的被我們稱作是數(shù)據(jù)的中介機構,它的出現(xiàn)可以有機的將不同形式、不同格式的數(shù)據(jù)內(nèi)容建立一一對應的關系,幫助我們把不同的數(shù)據(jù)有機的柔和在一起,供我們方便使用。隨著web數(shù)據(jù)挖掘的應用日趨廣泛,這種XML技術被逐漸完善,通過軟件開發(fā)人員的不斷努力,目前,XML技術已經(jīng)具有操作簡單、高效率、通用率高等諸多優(yōu)點,而且,XML還實現(xiàn)了國際化,我們可以在世界網(wǎng)絡范圍內(nèi)進行web數(shù)據(jù)的挖掘,擴大了我們的知識范圍,為方便我們?nèi)粘9ぷ?,提高我們獲取有效信息的效率做出了巨大的貢獻。下面對web數(shù)據(jù)挖掘技術的實現(xiàn)步驟進行簡要描述:第一,用戶輸入已知的樣本,作為獲取數(shù)據(jù)的已知條件;第二,根據(jù)數(shù)據(jù)內(nèi)容,歸納數(shù)據(jù)特征,并利用一定的數(shù)據(jù)統(tǒng)計方法準確的計算他們的權值。第三,獲取大量的網(wǎng)絡信息,也就是在搜索引擎中輸入我們要查找信息的關鍵詞,在網(wǎng)頁中顯示出很多的信息供我們選擇,這些信息包含不同的數(shù)據(jù)特點,數(shù)據(jù)格式;最后,利用事先計算好的數(shù)據(jù)特征,對現(xiàn)在獲取的大量信息進行匹配,并要求計算機將最吻合的信息反饋給用戶。這就是web數(shù)據(jù)挖掘技術的實現(xiàn)過程。
5 結語
Web數(shù)據(jù)挖掘技術是目前數(shù)據(jù)處理行業(yè)的一個重要的技術,我國任何行業(yè)的發(fā)展與進步都需要大量的數(shù)據(jù),我們在日常生活和工作中也都需要從web中獲取大量的有價值數(shù)據(jù),web數(shù)據(jù)挖掘技術可以有效的幫助我們進行數(shù)據(jù)獲取,在為我們節(jié)約時間的同時獲取大量有價值的數(shù)據(jù)供我們?nèi)粘I詈凸ぷ魉?。Web數(shù)據(jù)挖掘技術是一項由計算機技術和數(shù)據(jù)挖掘技術共同組成的復雜技術,這項技術的出現(xiàn)和不斷完善,對我們的日常生活起到了非常重要的作用,為提高我們的生活質量和工作效率做出了巨大的貢獻。
參考文獻:
[1]高燕,胡景濤.web數(shù)據(jù)挖掘原理、方法及應用[J].現(xiàn)代圖書情報技術,2012(03):51-53.
[2]王玉珍.web數(shù)據(jù)挖掘分析與探索[J].計算機發(fā)展與應用,2009(6):73-76.
[3]范亞芹,劉穎.web數(shù)據(jù)挖掘的原理與實現(xiàn)技術[J].吉林大學學報,2006(8):370-373.
[4]高月,梁本亮.淺談網(wǎng)絡信息挖掘[J].通信電源技術,2005(2):30-33.
作者簡介:劉珊珊(1982.06-),女,河北唐山人,計算機技術碩士,講師,從事計算機相關問題研究。
作者單位:甘肅中醫(yī)學院信息工程學院,蘭州 730000