摘 要:隨著經(jīng)濟(jì)的不斷發(fā)展,WEB使用挖掘已經(jīng)是實(shí)現(xiàn)個性化推薦系統(tǒng)的有效途徑。通過對網(wǎng)站日志數(shù)據(jù)進(jìn)行挖掘發(fā)現(xiàn)頻繁訪問模式,再結(jié)合活動用戶的訪問頁面序列來實(shí)現(xiàn)個性化的在線推薦。本文將就基于WEB的數(shù)據(jù)挖掘技術(shù)進(jìn)行相關(guān)探討。
關(guān)鍵詞:WEB使用挖掘;在線;網(wǎng)站;應(yīng)用
0 引言
隨著經(jīng)濟(jì)和科技的快速發(fā)展,互聯(lián)網(wǎng)技術(shù)的應(yīng)用也越來越廣泛,但是由于互聯(lián)網(wǎng)內(nèi)容的日益擴(kuò)增,信息的過載現(xiàn)象越來越明顯,信息的迷失對于人們的互聯(lián)網(wǎng)利用來說有所制約,互聯(lián)網(wǎng)中廣闊的空間和信息如何得到有效和充分的利用,如何對個人興趣或者需求快速的定位并實(shí)現(xiàn)是一個非常重要的問題,WEB數(shù)據(jù)挖掘是這種大環(huán)境下推出的一項(xiàng)綜合性技術(shù),主要就是指WEB 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么WEB 挖掘過程就可以看做是從輸入到輸出的一個映射過程?;赪EB的數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。
1 基于WEB的數(shù)據(jù)挖掘技術(shù)的概況
數(shù)據(jù)的挖掘顧名思義就是從大量的、模糊的、隨機(jī)的、不確定性的信息數(shù)據(jù)庫中選擇有價值的數(shù)據(jù)信息和知識,這是一個尋找的過程,也是一個決策支持的過程,數(shù)據(jù)挖掘的實(shí)現(xiàn)依賴于人工智能、機(jī)器學(xué)習(xí)、模式學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù)。數(shù)據(jù)挖掘的基本原理就是通過對大量數(shù)據(jù)的分析進(jìn)行推理和預(yù)測,這種分析是自動化的,大大減輕了人工的負(fù)擔(dān)提高了工作的效率,從分析中對潛在模式和有用信息進(jìn)行有效的挖掘,對于企業(yè)、商家以及各方面的用戶來說都具有非常重要的意義,是決策的一個科學(xué)基礎(chǔ),很多領(lǐng)域都已經(jīng)應(yīng)用到了WEB數(shù)據(jù)挖掘技術(shù),解決了相當(dāng)多的相關(guān)難題,常用的數(shù)據(jù)挖掘技術(shù)有回歸分析、神經(jīng)網(wǎng)絡(luò)、聚類等,這些方法能夠?qū)?shù)據(jù)進(jìn)行不同角度的全方位挖掘,實(shí)現(xiàn)數(shù)據(jù)的可視化和精確。
WEB在數(shù)據(jù)的挖掘過程中通常是三個階段,包括數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的模式發(fā)現(xiàn)、模式的應(yīng)用分析。
1.1 數(shù)據(jù)預(yù)處理 該服務(wù)器的應(yīng)用并不是針對數(shù)據(jù)挖掘而設(shè)定的,這就需要在WEB使用的過程中首先要進(jìn)行過濾處理,對于數(shù)據(jù)的不完整以及模糊、不一致等問題進(jìn)行一個初步的篩選,從而生成一個新的數(shù)據(jù)庫,這就是數(shù)據(jù)的預(yù)處理工作,預(yù)處理的工作對于后續(xù)工作來說是一個重要的基礎(chǔ),能夠?qū)ν诰蛩惴ǖ漠a(chǎn)生模式和規(guī)則直接影響。
1.2 模式發(fā)現(xiàn) 挖掘算法的重要過程之一就是模式發(fā)現(xiàn),這是挖掘算法的實(shí)施內(nèi)容,對于預(yù)處理之后的數(shù)據(jù)進(jìn)行相關(guān)的科學(xué)算法處理,通過關(guān)聯(lián)形式的分析技術(shù)對數(shù)據(jù)進(jìn)行進(jìn)一步的處理和分析,從而得出相應(yīng)的規(guī)則和模式。
1.3 模式分析與應(yīng)用 WBE挖掘過程的最后一步就是模式的分析與應(yīng)用,該過程主要是對模式發(fā)現(xiàn)過程中的一些規(guī)則模式進(jìn)行進(jìn)一步的篩選,刪除上階段的一些無價值內(nèi)容,從而提供更為精確的數(shù)據(jù),在該過程中整個系統(tǒng)框架包括離線和在線推薦引擎兩部分。在線部分主要是對推薦、融合等內(nèi)容的分析,離線部分則是對數(shù)據(jù)準(zhǔn)備和知識挖掘的相關(guān)處理,由于挖掘處理需要較長時間,因此被設(shè)計(jì)為離線部分,以避免對實(shí)時性要求的影響;針對不同用戶快速生成各種推薦服務(wù)。
2 基于WEB的數(shù)據(jù)挖掘技術(shù)的應(yīng)用
與傳統(tǒng)的數(shù)據(jù)分析相比較,大數(shù)據(jù)分析的一個重要目標(biāo)就是從海量、數(shù)據(jù)繁多的數(shù)據(jù)庫中找出隱藏的規(guī)律,使數(shù)據(jù)庫發(fā)揮最大的價值。數(shù)據(jù)的價值遠(yuǎn)不止于數(shù)據(jù)本身,而是隱藏在數(shù)據(jù)之間的關(guān)系隱含的知識。比如,現(xiàn)在企業(yè)與客戶之間的接觸途徑和界面越來越豐富,而這些途徑承載了客戶與企業(yè)之間、客戶與產(chǎn)品之間、客戶與品牌之間的大量互動信息與數(shù)據(jù)。如果可將這些數(shù)據(jù)整合,企業(yè)便有更多的機(jī)會準(zhǔn)確了解現(xiàn)有的用戶及挖掘潛在的用戶群體。以用戶需求為中心包含兩層含義:第一是通過對用戶需求的了解從而設(shè)計(jì)相關(guān)服務(wù)措施和安排,第二是對信息環(huán)境的設(shè)計(jì)要根據(jù)不同的客戶需求而建立,組織信息資源,提供多樣化服務(wù)。
2.1 信息資源多元化 這種方式主要是根據(jù)館藏資源的合理配置和管理而建立的,該資源組織體系的建立能夠?yàn)橄嚓P(guān)人員提供一個巨大的數(shù)據(jù)庫,查詢變得方便快速,并且個性化的服務(wù)方式能夠包含指向豐富信息內(nèi)容的鏈接,力爭達(dá)到讓用戶即需即得的效果。
2.2 具有智能化分析和挖掘用戶需求的功能 信息的技術(shù)發(fā)展實(shí)現(xiàn)了智能化分析的方式,智能化的分析能夠?qū)τ脩舻臑g覽信息進(jìn)行主動的采集,大大減輕了人工負(fù)擔(dān),主動對用戶的日常檢索以及興趣需求進(jìn)行總結(jié)分析,并且推理出用戶的相關(guān)需求,從而可以對相關(guān)用戶或者類似用戶進(jìn)行信息推薦,提高工作效率,使需求相同的用戶之間共享查詢結(jié)果。
2.3 推薦信息的準(zhǔn)確性、高效性 推薦信息的準(zhǔn)確化是數(shù)據(jù)挖掘的主要追求方向,個性化的服務(wù)目標(biāo)就是為用戶推薦的信息高效、準(zhǔn)確。數(shù)據(jù)挖掘工作中主要是通過信息過濾、信息處理、信息分析等技術(shù)排出一些無意義信息,精確推薦可用信息,從而將大量信息智能的轉(zhuǎn)化為用戶真正的需求內(nèi)容,從而提高服務(wù)效率,為用戶減輕數(shù)據(jù)搜索的負(fù)擔(dān)。
2.4 各子模塊功能 ①數(shù)據(jù)準(zhǔn)備模塊。數(shù)據(jù)準(zhǔn)備模塊的作用主要是通過對原始用戶的日志和訪問進(jìn)行數(shù)據(jù)的采集和清洗等,該準(zhǔn)備工作對于挖掘階段來說能夠?qū)τ谟脩舻奈募约笆挛飻?shù)據(jù)等生成相關(guān)數(shù)據(jù)文件從而為后續(xù)工作提供數(shù)據(jù)基礎(chǔ)。②建立用戶興趣模型庫模塊。用戶興趣模型庫模塊主要是通過WEB挖掘技術(shù)對用戶的相關(guān)信息以及用戶的訪問情況進(jìn)行綜合分析,對于用戶的興趣進(jìn)行了解并且能夠根據(jù)信息資源的相關(guān)做出矢量描述,從而對用戶的要求更科學(xué)的匹配,及時根據(jù)用戶的要求對用戶模型進(jìn)行更新和完善。③建立推薦池模塊。推薦池模塊主要是通過用戶的訪問記錄以及用戶評價對用戶的訪問頁面進(jìn)行綜合分析和集合,從而更好的滿足用戶需求。
3 結(jié)語
綜上所述,數(shù)據(jù)的快速增長提高了數(shù)據(jù)的可利用性但同時也對數(shù)據(jù)的搜索增加了難度,如何正確高效的利用有關(guān)數(shù)據(jù)是我們的一個重要方向,傳統(tǒng)的數(shù)據(jù)利用方式很難做到數(shù)據(jù)的精確利用,數(shù)據(jù)挖掘技術(shù)有效的改善了這種狀況,通過可視化技術(shù)、挖掘技術(shù)等對數(shù)據(jù)進(jìn)行一個科學(xué)的分析和預(yù)測,從而提高了數(shù)據(jù)的可利用率和效率。
參考文獻(xiàn):
[1]喻瑤瑤.基于web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)研究[J].電腦迷,2014(7):39.
[2]龔林峰.基于WEB的數(shù)據(jù)挖掘系統(tǒng)在醫(yī)院管理中的應(yīng)用[J].電腦知識與技術(shù),2015(8):1-2.
[3]徐旭,姜飛.基于Web數(shù)據(jù)挖掘簡述[J].福建電腦,2008,24(6):39,18.