胡素娟
(江西旅游商貿(mào)職業(yè)學(xué)院,江西 南昌330100)
從相關(guān)部門公布的數(shù)據(jù)來(lái)看,2020年中國(guó)互聯(lián)網(wǎng)用戶數(shù)量已達(dá)到10.8億,龐大的互聯(lián)網(wǎng)用戶群體產(chǎn)生了巨大的市場(chǎng)潛力,以網(wǎng)絡(luò)購(gòu)物為例,2020年網(wǎng)絡(luò)購(gòu)物的交易金額達(dá)到6.66萬(wàn)億人民幣[1]。為更好地發(fā)揮網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)優(yōu)勢(shì),有針對(duì)地實(shí)現(xiàn)技術(shù)創(chuàng)新、服務(wù)創(chuàng)新,需要對(duì)網(wǎng)絡(luò)運(yùn)行過(guò)程中產(chǎn)生的數(shù)據(jù)進(jìn)行必要的發(fā)掘、歸集和應(yīng)用,逐步實(shí)現(xiàn)數(shù)據(jù)的資源化。為達(dá)到這一目標(biāo),可以嘗試將云計(jì)算技術(shù)與分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理結(jié)合起來(lái),逐步打造成熟、穩(wěn)定、高效的數(shù)據(jù)處理系統(tǒng),根據(jù)用戶的需求,定向完成數(shù)據(jù)的處理任務(wù)。
分布式網(wǎng)絡(luò)由不同終端設(shè)備互聯(lián)形成,與其他網(wǎng)絡(luò)架構(gòu)相比,分布式網(wǎng)絡(luò)可靠性較強(qiáng),當(dāng)網(wǎng)絡(luò)出現(xiàn)故障后,故障區(qū)域的終端設(shè)備仍舊可以借助其他線路完成對(duì)外的信息交互,并且延展性較強(qiáng),擴(kuò)充難度較小,網(wǎng)絡(luò)運(yùn)營(yíng)商根據(jù)用戶分布特點(diǎn)、網(wǎng)絡(luò)使用需求,靈活擴(kuò)充網(wǎng)絡(luò)的范圍[2]。這種技術(shù)優(yōu)勢(shì)使得分布式網(wǎng)絡(luò)逐步成熟,成為一種主流的網(wǎng)絡(luò)構(gòu)架方案,例如IEEE802.16h網(wǎng)絡(luò)、CogNet網(wǎng)絡(luò)作為典型的分布式網(wǎng)絡(luò),廣泛應(yīng)用于不同的領(lǐng)域之中。分布式網(wǎng)絡(luò)用戶數(shù)量較大,運(yùn)行過(guò)程中產(chǎn)生了大量的數(shù)據(jù)信息,這些數(shù)據(jù)體量龐大、類型復(fù)雜、密度較高,給后續(xù)的數(shù)據(jù)挖掘、處理等工作帶來(lái)了極大的不便。
為實(shí)現(xiàn)分布式網(wǎng)絡(luò)數(shù)據(jù)的有效處理,部分研發(fā)團(tuán)隊(duì)采用分析算法與模糊聚類算法,對(duì)數(shù)據(jù)開展集中式處理,但是從實(shí)際情況來(lái)看,這種數(shù)據(jù)處理系統(tǒng)難以在短時(shí)間內(nèi)完成數(shù)據(jù)處理任務(wù),并且對(duì)于數(shù)據(jù)挖掘、處理的效果不佳,影響了實(shí)際的用戶體驗(yàn)。在這種情況下,部分研發(fā)人員有計(jì)劃地將云計(jì)算技術(shù)引入到分布式網(wǎng)絡(luò)數(shù)據(jù)處理之中,旨在借助云計(jì)算技術(shù)的特性,解決過(guò)往數(shù)據(jù)處理過(guò)程中出現(xiàn)的各類技術(shù)問(wèn)題。經(jīng)過(guò)多年發(fā)展,云計(jì)算技術(shù)逐步成熟,形成了涵蓋軟件服務(wù)、平臺(tái)服務(wù)和基礎(chǔ)服務(wù)的多種技術(shù)服務(wù)模式,用戶可以根據(jù)自身的工作需求,向服務(wù)器發(fā)送指令信息,服務(wù)器接收指令后,及時(shí)作出反饋,根據(jù)需求完成相關(guān)任務(wù)[3]。云計(jì)算技術(shù)具備較強(qiáng)的實(shí)用性,用戶在不需要投入資金、更新軟件和硬件的情況下,就可以獲取各類資源。這種特性無(wú)形之中增加了云計(jì)算技術(shù)在實(shí)踐過(guò)程中的實(shí)用屬性。云計(jì)算技術(shù)在分布式網(wǎng)絡(luò)數(shù)據(jù)處理過(guò)程中的應(yīng)用,可以在不影響網(wǎng)絡(luò)自身運(yùn)行狀態(tài)的情況下,實(shí)現(xiàn)數(shù)據(jù)的快速發(fā)掘和準(zhǔn)確表達(dá),根據(jù)不同的數(shù)據(jù)處理要求,將人工智能、模糊計(jì)算、統(tǒng)計(jì)學(xué)等不同的技術(shù)領(lǐng)域,有針對(duì)性地應(yīng)用于分布式網(wǎng)絡(luò)數(shù)據(jù)的日常處理之中,在提升用戶使用體驗(yàn)的基礎(chǔ)上,保證了分布式網(wǎng)絡(luò)運(yùn)行的質(zhì)效。
云計(jì)算技術(shù)與分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)的結(jié)合,要求研發(fā)人員從實(shí)際出發(fā),以數(shù)據(jù)特點(diǎn)、處理需求為導(dǎo)向,明確分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)思路,增強(qiáng)系統(tǒng)設(shè)計(jì)的指向性,滿足不同場(chǎng)景下分布式網(wǎng)絡(luò)數(shù)據(jù)處理需求。
為確保云計(jì)算技術(shù)在分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)中的有效應(yīng)用,保證系統(tǒng)設(shè)計(jì)的針對(duì)性,研發(fā)人員在系統(tǒng)設(shè)計(jì)環(huán)節(jié),需要結(jié)合分布式網(wǎng)絡(luò)數(shù)據(jù)特性和云計(jì)算技術(shù)的優(yōu)勢(shì),快速調(diào)整思路,確保數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)的有效性。從過(guò)往經(jīng)驗(yàn)來(lái)看,分布式網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生能力較強(qiáng),以某分布式網(wǎng)絡(luò)為例,其每天產(chǎn)生的數(shù)據(jù)達(dá)到400萬(wàn)條,為實(shí)現(xiàn)數(shù)據(jù)的有效處理,需要對(duì)待處理的數(shù)據(jù)開展查詢、分析、對(duì)比等操作,避免數(shù)據(jù)遺漏或者丟失的情況發(fā)生,因而整個(gè)數(shù)據(jù)處理的周期相對(duì)較長(zhǎng),影響了實(shí)際的使用效能。為應(yīng)對(duì)這種局面,在分布式網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)過(guò)程中,可以從熱點(diǎn)數(shù)據(jù)標(biāo)識(shí)、數(shù)據(jù)分類存儲(chǔ)、數(shù)據(jù)分解等角度出發(fā)進(jìn)行系統(tǒng)框架的構(gòu)設(shè)[4]。
具體來(lái)看,在熱點(diǎn)數(shù)據(jù)識(shí)別的過(guò)程中,可以設(shè)立熱點(diǎn)數(shù)據(jù)對(duì)照表,將數(shù)據(jù)發(fā)掘過(guò)程中出現(xiàn)頻率較高的數(shù)據(jù)單獨(dú)進(jìn)行獲取,并復(fù)制到對(duì)照表中,同時(shí)利用同步機(jī)制進(jìn)行熱點(diǎn)數(shù)據(jù)的同步更新。這種設(shè)計(jì)方式可以在滿足熱點(diǎn)數(shù)據(jù)獲取需求的前提下,減少對(duì)全部數(shù)據(jù)的檢索頻次,合理控制數(shù)據(jù)處理系統(tǒng)的負(fù)載。考慮到分布式網(wǎng)絡(luò)數(shù)據(jù)體量較大,在數(shù)據(jù)挖掘、提取的過(guò)程中,可以采取分區(qū)的方式,將網(wǎng)絡(luò)服務(wù)器以及磁盤等存儲(chǔ)設(shè)備進(jìn)行分區(qū)處理,這種分區(qū)存儲(chǔ)的方式,可以保證數(shù)據(jù)查詢、檢索或者提取的過(guò)程中,能夠最大程度地控制工作體量,減少等待時(shí)長(zhǎng)。通過(guò)系統(tǒng)分析可知,該系統(tǒng)在很大程度激活了數(shù)據(jù)庫(kù)在數(shù)據(jù)處理方面的技術(shù)優(yōu)勢(shì),對(duì)于云計(jì)算技術(shù)的應(yīng)用提供了便利條件。對(duì)于某些數(shù)據(jù)體量過(guò)大的處理任務(wù),在數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)的過(guò)程中,可以根據(jù)云計(jì)算技術(shù)的特點(diǎn)和數(shù)據(jù)處理的要求,對(duì)任務(wù)開展分解,將同一個(gè)任務(wù)劃分為若干部分,這種分配方式不僅可以保證確保數(shù)據(jù)處理任務(wù)的快速完成,還可以有效降低整個(gè)數(shù)據(jù)處理系統(tǒng)承受的壓力,保證了數(shù)據(jù)處理的穩(wěn)定性和有效性。
云計(jì)算技術(shù)在分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)中的應(yīng)用,要求研發(fā)人員在科學(xué)性原則、實(shí)用性原則的基礎(chǔ)上,在系統(tǒng)設(shè)計(jì)思路的框架下,結(jié)合云計(jì)算技術(shù)特性,采取系統(tǒng)化、完備化的技術(shù)手段,扎實(shí)做好分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)工作。
為保證云計(jì)算技術(shù)在分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)中的順利實(shí)現(xiàn),研發(fā)人員需要在明確分布式網(wǎng)絡(luò)海量數(shù)據(jù)系統(tǒng)設(shè)計(jì)思路的基礎(chǔ)上,進(jìn)一步做好設(shè)計(jì)思路、研發(fā)理念的有效轉(zhuǎn)變,通過(guò)觀念的提升,確保云計(jì)算技術(shù)與分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)的有機(jī)結(jié)合,以更好地增強(qiáng)數(shù)據(jù)信息的處理能力,切實(shí)滿足現(xiàn)階段的數(shù)據(jù)系統(tǒng)處理要求。具體來(lái)看,研發(fā)人員需要明確分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理的定位,明確熱點(diǎn)數(shù)據(jù)標(biāo)記、數(shù)據(jù)分類存儲(chǔ)等工作要求,在此基礎(chǔ)上,梳理云計(jì)算技術(shù)的應(yīng)用思路,以保證海量數(shù)據(jù)處理的有效性,避免出現(xiàn)數(shù)據(jù)處理漏洞,影響后續(xù)的相關(guān)技術(shù)活動(dòng)。
云計(jì)算在分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)中的應(yīng)用,需要借助于數(shù)據(jù)挖掘技術(shù)等模型,對(duì)龐雜的數(shù)據(jù)進(jìn)行分類別的明確,以保證數(shù)據(jù)處理的有效性與合理性。為保證這一技術(shù)活動(dòng)的有序開展,研發(fā)人員應(yīng)當(dāng)有針對(duì)性地開展好數(shù)據(jù)挖掘工作,并根據(jù)相關(guān)技術(shù)要求,設(shè)立數(shù)據(jù)挖掘模型,以保證數(shù)據(jù)挖掘的有效性與合理性,如圖1所示。
圖1 數(shù)據(jù)挖掘模型示意圖
在數(shù)據(jù)挖掘模型設(shè)置環(huán)節(jié),研發(fā)人員可以從用戶層、運(yùn)算層、服務(wù)層等相關(guān)角度出發(fā),進(jìn)行合理的功能性劃分,以保證數(shù)據(jù)挖掘的有效性,確保用戶可以在短時(shí)間內(nèi),快速完成數(shù)據(jù)的收取、轉(zhuǎn)化、清洗、歸集和加載等相關(guān)任務(wù),保證數(shù)據(jù)處理的高效性。
在進(jìn)行算法設(shè)計(jì)的過(guò)程中,研發(fā)人員可以采用SPRINT算法,根據(jù)系統(tǒng)設(shè)計(jì)的基本思路,率先完成決策樹的創(chuàng)建,決策樹創(chuàng)建完成后,需要進(jìn)行多次數(shù)據(jù)處理的嘗試,根據(jù)嘗試結(jié)果,對(duì)決策樹進(jìn)行優(yōu)化調(diào)整,以保證決策樹運(yùn)轉(zhuǎn)的高效性。同時(shí)為便于查詢,可以在算法中設(shè)置索引、類別等查詢端口,以確保數(shù)據(jù)的有效歸集,工作人員根據(jù)數(shù)據(jù)處理的任務(wù)要求,快速完成各類數(shù)據(jù)處理任務(wù),以保證數(shù)據(jù)處理的有效性。
云計(jì)算技術(shù)與分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)的有機(jī)結(jié)合,實(shí)現(xiàn)了數(shù)據(jù)提取速度、分析質(zhì)量的顯著提升,壓縮了數(shù)據(jù)處理的時(shí)間周期,對(duì)于經(jīng)濟(jì)發(fā)展、社會(huì)生活有著極大的裨益。本文通過(guò)細(xì)化分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理思路,掌握技術(shù)處理要點(diǎn),逐步構(gòu)建起完備的數(shù)據(jù)系統(tǒng)運(yùn)行框架,強(qiáng)化了系統(tǒng)對(duì)分布式網(wǎng)絡(luò)數(shù)據(jù)的挖掘、歸集能力,對(duì)于龐雜數(shù)據(jù)的資源化有著技術(shù)支撐,滿足了現(xiàn)階段數(shù)據(jù)的使用需求。