謝怡雯
摘要:隨著現(xiàn)代化技術(shù)發(fā)展速度的加快,互聯(lián)網(wǎng)技術(shù)廣泛應(yīng)用普及,人們對互聯(lián)網(wǎng)訪問速度提出更高要求,Web預(yù)取優(yōu)化已成為滿足用戶使用需求的主要渠道。基于此,Web預(yù)取作為可以有效提高網(wǎng)絡(luò)服務(wù)質(zhì)量的重要技術(shù),為進(jìn)一步優(yōu)化其技術(shù)效果,該文結(jié)合數(shù)據(jù)挖掘技術(shù)及其應(yīng)用優(yōu)勢,重點(diǎn)探究Web預(yù)取中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,并分析其發(fā)展趨勢,以期為相關(guān)工作提供有效參考建議。
關(guān)鍵詞:Web預(yù)取??數(shù)據(jù)挖掘技術(shù)??網(wǎng)絡(luò)服務(wù)??網(wǎng)頁內(nèi)容
中圖分類號:TP311.1;TP393.0文獻(xiàn)標(biāo)識碼:A???文章編號:1672-3791(2022)07(b)-0000-00
Application?of?Data?Mining?Technology?in?Web?Prefetching
XIE?Yiwen
(Guiyang?University,Guiyang,Guizhou??Province,550001??China)
Abstract:?With?the?acceleration?of?the?development?speed?of?modern?technology?and?the?widespread?application?of?Internet?technology,?people?have?put?forward?higher?requirements?for?the?Internet?access?time.Based?on?this,?Web?pre-acquisition?serves?as?an?important?technology?that?can?effectively?improve?the?network?service?quality.?In?order?to?further?optimize?its?technical?effect,?this?paper?combines?the?data?mining?technology?and?its?application?advantages,?focuses?on?exploring?the?application?of?data?mining?technology?in?Web?prefetch,?and?analyzes?its?development?trend,?in?order?to?provide?effective?reference?and?suggestions?for?relevant?work.
Key?Words:Web?Prefetching;Data?mining?technology;Network?services;Web?content
人們生活質(zhì)量的提高使網(wǎng)絡(luò)使用者數(shù)量呈明顯且高速的上升趨勢,在獲取相關(guān)信息或是交互時,受數(shù)據(jù)傳輸遲緩等方面的影響導(dǎo)致網(wǎng)絡(luò)服務(wù)質(zhì)量降低,無法滿足當(dāng)前人們?nèi)找鏀U(kuò)大的網(wǎng)絡(luò)使用需求。而數(shù)據(jù)挖掘技術(shù)作為深層次數(shù)據(jù)挖掘技術(shù),能夠有效優(yōu)化Web預(yù)取,因此,掌握其應(yīng)用要點(diǎn)是必要的。
1數(shù)據(jù)挖掘技術(shù)及應(yīng)用優(yōu)勢
所謂數(shù)據(jù)挖掘技術(shù),主要是指面向數(shù)據(jù)所開展的清理、變換、挖掘、模式評估和知識表示等數(shù)據(jù)處理技術(shù),是一種仿生全局優(yōu)化方法[1]。通過將其應(yīng)用于Web預(yù)取,能夠依托于自身優(yōu)化性能提高Web預(yù)取數(shù)據(jù)準(zhǔn)確性,幫助Web預(yù)取技術(shù)在海量信息中采用最高效搜索引擎查找自身所需信息?;ヂ?lián)網(wǎng)具有共享、開放、交互等特性,用戶在傳輸信息時,每分每秒都在產(chǎn)生著信息數(shù)據(jù),傳統(tǒng)的篩選和搜索技術(shù)只面對一部分?jǐn)?shù)據(jù),數(shù)據(jù)篩選效果相對較差。但是通過在Web預(yù)取中落實(shí)數(shù)據(jù)挖掘技術(shù),能夠利用其多種多樣的挖掘方式在短時間內(nèi)處理海量數(shù)據(jù),挖掘形式包括結(jié)構(gòu)挖掘、內(nèi)容挖掘和使用記錄數(shù)據(jù)挖掘。其中,內(nèi)容挖掘應(yīng)用最為廣泛。若是與人工智能技術(shù)模塊相結(jié)合,還能夠更為全面且準(zhǔn)確地檢索信息,具有極強(qiáng)的直接利用性,無需篩選,節(jié)約時間成本的同時也保證了數(shù)據(jù)篩選質(zhì)量。
2探究Web預(yù)取中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
2.1基于Agent的智能數(shù)據(jù)挖掘系統(tǒng)
由于互聯(lián)網(wǎng)的廣泛應(yīng)用使得人們生活趨近于多樣性,網(wǎng)絡(luò)速度也在各類技術(shù)不斷發(fā)展下提高,但是由于使用人數(shù)越來越多,網(wǎng)絡(luò)質(zhì)量仍不可避免的受到影響。比如:WWW運(yùn)行使用的數(shù)據(jù)服務(wù)和請求方式,其中并沒有固定狀態(tài)的協(xié)議,所以網(wǎng)絡(luò)服務(wù)器發(fā)揮的作用有限。從當(dāng)前Web預(yù)取技術(shù)來看,其采用的數(shù)據(jù)挖掘系統(tǒng)智能性不夠完善。因此,在應(yīng)用數(shù)據(jù)挖掘技術(shù)時,可以在Agent技術(shù)的基礎(chǔ)上開展數(shù)據(jù)挖掘工作,結(jié)合系統(tǒng)特點(diǎn)賦予數(shù)據(jù)挖掘自動反應(yīng)性、自治性和適應(yīng)性,從而搭建出包含數(shù)據(jù)源、預(yù)處理、數(shù)據(jù)挖掘、決策和人機(jī)界面的數(shù)據(jù)挖掘結(jié)構(gòu),以此優(yōu)化Web預(yù)取效果。其中,以Agent技術(shù)為基礎(chǔ)能夠在Web預(yù)取和數(shù)據(jù)處理過程中自動確定執(zhí)行任務(wù),并根據(jù)該任務(wù)進(jìn)行相應(yīng)模型的建立,以此應(yīng)對海量數(shù)據(jù)檢索、處理和數(shù)據(jù)變換。在其實(shí)際應(yīng)用過程中,能夠有效消除Web預(yù)取中的不安全數(shù)據(jù)、推導(dǎo)缺失數(shù)據(jù)、消除重復(fù)性記錄數(shù)據(jù),并按照數(shù)據(jù)特征進(jìn)行選擇以及轉(zhuǎn)換數(shù)據(jù)格式[2]。
除此之外,以Agent為基礎(chǔ)的智能數(shù)據(jù)挖掘還可以識別出完整的數(shù)據(jù)模式,確定新模式和新規(guī)則,給出數(shù)據(jù)挖掘解釋,協(xié)調(diào)數(shù)據(jù)挖掘、人機(jī)界面和數(shù)據(jù)預(yù)處理等方面,及時刪除冗余數(shù)據(jù)。其中,以Agent為基礎(chǔ)的智能數(shù)據(jù)挖掘在Web預(yù)取中的應(yīng)用,還能夠調(diào)節(jié)數(shù)據(jù)處理過程、提高數(shù)據(jù)處理速度,這是因?yàn)樵撓到y(tǒng)主要采用人工挖掘數(shù)據(jù)方式,促進(jìn)了人機(jī)質(zhì)量的良好交互。該系統(tǒng)還可以結(jié)合語法和語義功能模塊,在發(fā)現(xiàn)新數(shù)據(jù)時可以及時通知用戶,將查詢到的數(shù)據(jù)和挖掘結(jié)果及時傳遞給用戶。
2.2基于Agent的Web預(yù)取系統(tǒng)
在現(xiàn)有的一些瀏覽器中仍在使用緩沖機(jī)制,一方面控制遠(yuǎn)程服務(wù)器發(fā)送頻率,另一方面控制用戶請求發(fā)送頻率,這對用戶網(wǎng)絡(luò)使用體驗(yàn)造成極大影響。但是通過應(yīng)用以Agent為基礎(chǔ)的Web預(yù)取系統(tǒng),即圍繞智能數(shù)據(jù)挖掘系統(tǒng)進(jìn)行Web預(yù)取系統(tǒng)的重塑,能夠?qū)⑼诰駻gent、數(shù)據(jù)預(yù)處理Agent、知識庫、Cache、決策Agent等整合在結(jié)構(gòu)中,從而利用數(shù)據(jù)挖掘技術(shù)分析和歸類不同用戶,預(yù)讀Web數(shù)據(jù),以此提高網(wǎng)絡(luò)使用速度,優(yōu)化用戶網(wǎng)絡(luò)使用體驗(yàn)。在該系統(tǒng)實(shí)際應(yīng)用過程中,主要處理WWW數(shù)據(jù)模型相關(guān)數(shù)據(jù),抽取詞干,分類詞條。在數(shù)據(jù)挖掘模塊具體運(yùn)作時,定期更新搜索的知識庫,同時為提高數(shù)據(jù)處理效率和效果,用戶可以更新時間設(shè)定,以此保證Web預(yù)取數(shù)據(jù)質(zhì)量。另外,該系統(tǒng)的決策模塊還能夠?qū)崟r監(jiān)測用戶行為,根據(jù)瀏覽器數(shù)據(jù)痕跡分析用戶行為預(yù)測用戶動向,并將Web頁面存放至本地高速緩存中,供后續(xù)相關(guān)工作使用。而決策模塊主要是根據(jù)知識庫更新狀況調(diào)整增量算法,靈活調(diào)動數(shù)據(jù)挖掘時間,一方面增強(qiáng)了用戶行為和知識庫信息數(shù)據(jù)之間的同步性,另一方面也提高了系統(tǒng)運(yùn)行效率,優(yōu)化了Web預(yù)取效果[3]。
2.3瀏覽器模型改進(jìn)和機(jī)器學(xué)習(xí)
對于在Web預(yù)取中應(yīng)用數(shù)據(jù)挖掘技術(shù)而言,其核心是利用該技術(shù)算法改進(jìn)原有系統(tǒng)的使用基礎(chǔ),比如歷史數(shù)據(jù)訪問保存方式等。當(dāng)用戶在Web上瀏覽時,改進(jìn)后的瀏覽器模型可以使用預(yù)測模型保存用戶將要產(chǎn)生的訪問數(shù)據(jù),同時于客戶端存儲網(wǎng)頁內(nèi)容。在該情況下,若是用戶在瀏覽器后續(xù)使用過程中想要訪問相關(guān)頁面,可以直接提取本地緩存數(shù)據(jù),從而保證服務(wù)器時刻處于較高的使用效率,優(yōu)化用戶網(wǎng)絡(luò)使用體驗(yàn)。從數(shù)據(jù)挖掘技術(shù)起源來看,其主要產(chǎn)生于智能學(xué)習(xí)和機(jī)器的不斷深入和改進(jìn)。在個體差異性的影響下,不同用戶的網(wǎng)絡(luò)使用過程存在差異,而且,相較于其他網(wǎng)絡(luò)使用版塊,網(wǎng)頁瀏覽往往具有較強(qiáng)的隨意性,這種情況直接影響關(guān)聯(lián)規(guī)則計(jì)算結(jié)果的準(zhǔn)確性,最終無法使用緩存數(shù)據(jù),影響用戶網(wǎng)絡(luò)使用體驗(yàn)。因此,在數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程中,仍要注重瀏覽器模型改進(jìn)的持續(xù)性和機(jī)器學(xué)習(xí)的深入性,根據(jù)數(shù)據(jù)變化等對預(yù)測模型進(jìn)行調(diào)整,進(jìn)而保證預(yù)測結(jié)果的精準(zhǔn)性,提高上網(wǎng)速度,滿足用戶網(wǎng)絡(luò)使用需求[4]。
另外,在以往Web預(yù)取沒有數(shù)據(jù)建模的情況,無法直接處理日志等數(shù)據(jù),需要先將其轉(zhuǎn)化為可操作格式,之后方可對數(shù)據(jù)進(jìn)行挑選,獲得所需數(shù)據(jù)。但是在數(shù)據(jù)挖掘技術(shù)的應(yīng)用下,利用該技術(shù)的關(guān)聯(lián)算法能夠精準(zhǔn)運(yùn)算預(yù)處理后的數(shù)據(jù),最終獲得數(shù)據(jù)模式集合。作為以計(jì)算機(jī)技術(shù)為基礎(chǔ)的現(xiàn)代化技術(shù),能夠挖掘出Web海量數(shù)據(jù)中的隱藏信息,進(jìn)而為相關(guān)決策和工作提供極具參考性的支持。一般情況下,關(guān)系規(guī)則算法應(yīng)用于數(shù)據(jù)建模過程中,在該算法作用的發(fā)揮下,用戶興趣關(guān)聯(lián)規(guī)則將更為清晰的呈現(xiàn)出來,使相關(guān)工作人員掌握用戶網(wǎng)絡(luò)使用過程中的興趣偏好,進(jìn)而將無用數(shù)據(jù)及時刪除,避免浪費(fèi)資源的同時提高網(wǎng)絡(luò)服務(wù)質(zhì)量。此外,為提高算法簡單程度,還可以在數(shù)據(jù)模型創(chuàng)建過程中省去用戶興趣關(guān)聯(lián)性這一步驟,直接使用關(guān)聯(lián)分析法,但是該方法無法準(zhǔn)確地挖掘數(shù)據(jù)信息,所以主要應(yīng)用于事先預(yù)測環(huán)節(jié)。要想保證用戶行為預(yù)測結(jié)果具有較高精準(zhǔn)性,那么要做好模型參數(shù)和算法的實(shí)時調(diào)試工作,并及時存儲預(yù)測結(jié)果,以此更好地掌握用戶行為。
2.4電子商務(wù)領(lǐng)域的應(yīng)用
由于用戶所需數(shù)據(jù)存在差異,所以Web預(yù)取在使用數(shù)據(jù)挖掘技術(shù)時需要充分考慮用戶對數(shù)據(jù)的實(shí)際需求,根據(jù)數(shù)據(jù)類別添加和篩選相關(guān)數(shù)據(jù)元素。近年來,在新零售行業(yè)的轉(zhuǎn)型發(fā)展下,以互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)購物已經(jīng)成為人們主要的消費(fèi)購物方式,這一新型的購物模式促使電子商務(wù)進(jìn)入高速發(fā)展階段,由于該行業(yè)門檻相對較低,因而該領(lǐng)域市場競爭程度較為激烈[5]。在該情況下,相關(guān)企業(yè)為提升自身核心競爭力,采用Web預(yù)取技術(shù)檢索相關(guān)數(shù)據(jù)以期擴(kuò)大客戶資源,但是由于數(shù)據(jù)量龐大,檢索效果相對較差,因此,數(shù)據(jù)挖掘技術(shù)被應(yīng)用于Web預(yù)取中。由于用戶在網(wǎng)絡(luò)購物前會使用搜索引擎檢索商品信息,在數(shù)據(jù)挖掘技術(shù)的應(yīng)用下,企業(yè)可以獲得此類數(shù)據(jù),并通過優(yōu)化和處理掌握用戶需求,一方面增強(qiáng)信息推送的精準(zhǔn)性,另一方面提高用戶挖掘質(zhì)量和效率。在該領(lǐng)域,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于兩個方面:一是用戶點(diǎn)擊量,二是用戶歷史消費(fèi)記錄和瀏覽記錄。通過從海量數(shù)據(jù)中挖掘此類數(shù)據(jù),能夠幫助企業(yè)掌握用戶行為并預(yù)測,在實(shí)際處理過程中,先是從服務(wù)器中獲取數(shù)據(jù),之后合并、提取和集合數(shù)據(jù),并對其進(jìn)行相關(guān)度的清洗和有效性的過濾,以此保證數(shù)據(jù)處理結(jié)果符合要求,清除不必要信息,最后轉(zhuǎn)換數(shù)據(jù),優(yōu)化Web預(yù)取方式效率[6]。
除電子商務(wù)領(lǐng)域外,以數(shù)據(jù)挖掘技術(shù)為核心的Web預(yù)取系統(tǒng)還可以廣泛應(yīng)用于其他與Web有關(guān)的領(lǐng)域,比如組織單位日常運(yùn)營,將互聯(lián)網(wǎng)和局域網(wǎng)相連接,不僅能夠拓展數(shù)據(jù)來源,還能夠使內(nèi)外部信息傳輸?shù)陌踩?、流暢?/p>
3?分析Web預(yù)取中數(shù)據(jù)挖掘技術(shù)的應(yīng)用發(fā)展趨勢
從當(dāng)前搜索引擎公司發(fā)展現(xiàn)狀來看,針對人們?nèi)找嫣岣叩木W(wǎng)絡(luò)使用要求和需求,有關(guān)生活中搜索引擎的重視程度不斷提高。對于互聯(lián)網(wǎng)的使用而言,搜索引擎是重要構(gòu)成,是人們獲取相關(guān)資訊、知識和信息的主要方法,但是搜索引擎眾多,不同引擎的內(nèi)在機(jī)制存在差異,最終會帶來搜索結(jié)果的差別,因此,人們在實(shí)際使用過程中,往往會根據(jù)自身習(xí)慣和信息數(shù)據(jù)種類選擇不同搜索引擎。就目前Web預(yù)取中數(shù)據(jù)挖掘發(fā)展現(xiàn)狀來看,用戶更加關(guān)注數(shù)據(jù)的相關(guān)性,“關(guān)鍵詞”已成為搜索關(guān)鍵,與其有關(guān)的信息和數(shù)據(jù)會排至最前面,當(dāng)用戶訪問其中一個頁面時,Web會預(yù)測相關(guān)訪問信息,并將其預(yù)下載于服務(wù)器中,若是用戶點(diǎn)擊瀏覽,將無需緩沖直接跳轉(zhuǎn),用戶網(wǎng)絡(luò)使用速度得到極大提高[7]。
但是,在Web實(shí)際運(yùn)作過程中,并不會對所有相關(guān)信息進(jìn)行緩存,因此,在今后應(yīng)用發(fā)展過程中,應(yīng)更為深入地研究算法計(jì)算,優(yōu)化數(shù)據(jù)模型,利用高技術(shù)彌補(bǔ)空間布局性的缺陷。另外,數(shù)據(jù)挖掘技術(shù)還具有較大上升、發(fā)展空間,相關(guān)人員應(yīng)根據(jù)互聯(lián)網(wǎng)技術(shù)發(fā)展趨勢不斷研究數(shù)據(jù)挖掘技術(shù),進(jìn)而在規(guī)范的互聯(lián)網(wǎng)行業(yè)下,實(shí)現(xiàn)互聯(lián)網(wǎng)制度和數(shù)據(jù)挖掘技術(shù)發(fā)展的聯(lián)動,一方面給予其充分的制度保障,另一方面利用不斷提高的應(yīng)用水平提高互聯(lián)網(wǎng)使用效果,進(jìn)一步優(yōu)化用戶體驗(yàn)。
4結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)處理的關(guān)鍵技術(shù),通過將其應(yīng)用于Web預(yù)取中能夠提高數(shù)據(jù)處理質(zhì)量和效率,為用戶提供更好的網(wǎng)絡(luò)使用服務(wù)。在其實(shí)際應(yīng)用過程中,要以Agent為基礎(chǔ)構(gòu)建智能化數(shù)據(jù)挖掘系統(tǒng),并不斷更新數(shù)據(jù)庫等,以此提高挖掘深度。
參考文獻(xiàn)
[1] 劉張榕.基于E-OEM模型的Web數(shù)據(jù)精準(zhǔn)挖掘研究[J].微型電腦應(yīng)用,2021,37(10):146-149,164.
[2] 蒲道北.基于Web的數(shù)據(jù)挖掘模型研究[J].中國新通信,2021,23(19):64-65.
[3] 王志俊.試論數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用[J].科技資訊,2019,17(21):19-20.
[4] 邢雅菲.基于CP-ABE加密數(shù)據(jù)的緩存策略與預(yù)取模型研究[D].上海:華東師范大學(xué),2019.
[5] 王順平.數(shù)據(jù)挖掘技術(shù)與應(yīng)用探討[J].?電腦知識與技術(shù),2017,13(19):6-7.
[6] 高垣,佀潔.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)探析[J].?電子測試,2018(4):125-126.
[7] 劉振鵬,董姝慧,李澤園,等.?面向社交網(wǎng)絡(luò)數(shù)據(jù)的等差數(shù)列聚類匿名算法[J].?鄭州大學(xué)學(xué)報(bào):理學(xué)版,2022,54(1):41-47.