盧鵬 蘆立華
摘? 要: 傳統(tǒng)的數(shù)據(jù)集中處理系統(tǒng)數(shù)據(jù)處理頻率較低,導(dǎo)致對(duì)海量數(shù)據(jù)的反饋效果不佳,為此基于云計(jì)算技術(shù),設(shè)計(jì)網(wǎng)絡(luò)海量數(shù)據(jù)的分布式處理系統(tǒng)。該系統(tǒng)在原有系統(tǒng)硬件基礎(chǔ)上,替換其中的數(shù)據(jù)處理器,并增加該處理器的總使用數(shù)量,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分布式同步處理。在軟件設(shè)計(jì)方面,通過(guò)協(xié)議使系統(tǒng)單元、模塊之間形成交互,改進(jìn)系統(tǒng)的數(shù)據(jù)通信方式;計(jì)算歐氏距離,設(shè)置系統(tǒng)的分布式處理方式;根據(jù)云計(jì)算定義,使用分類(lèi)函數(shù)確定約束條件,建立處理頻率方程,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速處理。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)系統(tǒng)相比,所設(shè)計(jì)系統(tǒng)對(duì)海量數(shù)據(jù)的處理頻率更快,反饋給用戶(hù)的效果更好。由此可見(jiàn),該系統(tǒng)的應(yīng)用可以增強(qiáng)用戶(hù)的體驗(yàn)感受。
關(guān)鍵詞: 分布式網(wǎng)絡(luò); 數(shù)據(jù)處理; 系統(tǒng)設(shè)計(jì); 云計(jì)算技術(shù); 處理方程建立; 對(duì)比驗(yàn)證
中圖分類(lèi)號(hào): TN915?34; TP311? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)18?0036?04
Abstract: As the traditional centralized data processing system has a low frequency of data processing, which results in poor feedback effect on mass data, a distributed processing system of mass data of network is designed based on cloud computing technology, in which the original system hardware is reserved, but the data processor is replaced and the total quantity in use of the processor is added, so that the distributed synchronous processing of mass data is realized. In terms of the software design, the interaction between system units and modules is formed by means of the protocol, which improves the data communication mode of the system. In this paper, the Euclidean distance is calculated, and the distributed processing mode of the system is set. The classification function is used to determine the constraint conditions according to the definition of cloud computing, and the processing frequency equation is established to realize the rapid processing of mass data. The experimental results show that, in comparison with the traditional system, the designed system can process mass data more quickly and give better feedback to users. Thus it can be seen that the application of the system can enhance the users′ experience.
Keywords: distributed network; data processing; system design; cloud computing technology; processing equation building; contrast validation
0? 引? 言
目前網(wǎng)絡(luò)技術(shù)發(fā)展迅速,越來(lái)越多的數(shù)據(jù)均可以在一個(gè)網(wǎng)絡(luò)平臺(tái)中體現(xiàn),因此形成一個(gè)具有龐大數(shù)據(jù)體量、復(fù)雜數(shù)據(jù)類(lèi)型、極高數(shù)據(jù)密度的網(wǎng)絡(luò)環(huán)境。為了讓用戶(hù)擁有更好的使用體驗(yàn),傳統(tǒng)的海量數(shù)據(jù)處理系統(tǒng),將集中分析算法與模糊聚類(lèi)方法相結(jié)合,形成對(duì)復(fù)雜海量數(shù)據(jù)的集中處理模式。此系統(tǒng)的運(yùn)行,在短時(shí)間內(nèi)解決了數(shù)據(jù)量過(guò)大,導(dǎo)致用戶(hù)體驗(yàn)不佳的問(wèn)題,但隨著行業(yè)的優(yōu)化升級(jí)、技術(shù)水平的優(yōu)化創(chuàng)新,大量類(lèi)型不同的數(shù)據(jù)涌入網(wǎng)絡(luò)環(huán)境中,給數(shù)據(jù)處理系統(tǒng)帶來(lái)了巨大的處理壓力[1]。
為了加快系統(tǒng)響應(yīng)速度,提升系統(tǒng)對(duì)海量數(shù)據(jù)的處理頻率,在傳統(tǒng)數(shù)據(jù)系統(tǒng)設(shè)計(jì)的基礎(chǔ)上,基于云計(jì)算技術(shù),設(shè)計(jì)分布式的海量數(shù)據(jù)處理系統(tǒng)。云計(jì)算利用網(wǎng)絡(luò),將其中的數(shù)據(jù)處理程序分解成無(wú)數(shù)個(gè)子程序,通過(guò)添加多個(gè)處理器,加快分析速度,并將反饋結(jié)果迅速返回給用戶(hù)。這項(xiàng)技術(shù)在極短的時(shí)間內(nèi)完成了對(duì)數(shù)以萬(wàn)計(jì)數(shù)據(jù)的分布式處理,從而實(shí)現(xiàn)該系統(tǒng)的強(qiáng)大處理功能。該系統(tǒng)的出現(xiàn),緩解了海量數(shù)據(jù)對(duì)網(wǎng)絡(luò)環(huán)境造成的壓力,解決了現(xiàn)階段海量數(shù)據(jù)與處理系統(tǒng)之間的矛盾,為網(wǎng)絡(luò)及其他領(lǐng)域的數(shù)據(jù)處理,提供強(qiáng)有力的技術(shù)支持[2]。
1? 設(shè)計(jì)分布式網(wǎng)絡(luò)海量數(shù)據(jù)處理系統(tǒng)硬件
在原有系統(tǒng)硬件的基礎(chǔ)上,將原有數(shù)據(jù)處理器替換成多個(gè)功能強(qiáng)大的數(shù)據(jù)處理器,保證子程序協(xié)同運(yùn)行,根據(jù)海量數(shù)據(jù)的類(lèi)型不同,實(shí)現(xiàn)同步的分布式處理。該設(shè)計(jì)的硬件結(jié)構(gòu)框圖如圖1所示[3]。
由系統(tǒng)硬件結(jié)構(gòu)可知,此次設(shè)計(jì)調(diào)整原有系統(tǒng)的硬件集中連接形式,海量數(shù)據(jù)經(jīng)傳感器迅速調(diào)配,由中央處理單元發(fā)送,將多個(gè)處理器與傳感器相連接,保證數(shù)據(jù)被實(shí)時(shí)同步接收,并協(xié)同運(yùn)行處理。該處理器的型號(hào)為KR?i59400F,運(yùn)行頻率在5.0 GHz以上,總線速度在8 GT/s DMI3。該處理器可以快速對(duì)海量數(shù)據(jù)進(jìn)行同步分析,直接獲取數(shù)據(jù)的特征量,且耐熱性好、效率高、可長(zhǎng)時(shí)間工作,從系統(tǒng)硬件上提升了系統(tǒng)的運(yùn)行速度和處理強(qiáng)度[4?5]。
2? 基于云計(jì)算技術(shù)設(shè)計(jì)處理系統(tǒng)軟件
在系統(tǒng)硬件設(shè)計(jì)基礎(chǔ)上,對(duì)該系統(tǒng)軟件優(yōu)化,以提升系統(tǒng)處理海量數(shù)據(jù)的頻率。
2.1? 改進(jìn)處理系統(tǒng)的通信方式
為提高系統(tǒng)對(duì)海量數(shù)據(jù)的處理頻率,將該系統(tǒng)的通信方式重新設(shè)計(jì)。將主控單元的通信與子處理單元的通信重新連接,確保數(shù)據(jù)的接收以及同步處理[6]。在處理單元數(shù)據(jù)處理完成后,通過(guò)數(shù)據(jù)傳送單元,將該信息反饋給用戶(hù),保證系統(tǒng)中的數(shù)據(jù)通信之間形成一個(gè)完整的通信閉環(huán)[7?8]。同時(shí),為了保證主控通信進(jìn)程與數(shù)據(jù)處理進(jìn)程之間的同步性,還需要在二者之間進(jìn)行協(xié)議交互,如圖2所示。
通過(guò)該協(xié)議,確保該系統(tǒng)在數(shù)據(jù)接收、數(shù)據(jù)處理以及數(shù)據(jù)反饋上的同步性[9]。
2.2? 基于云計(jì)算技術(shù)設(shè)置系統(tǒng)分布式處理方式
云計(jì)算技術(shù)將海量數(shù)據(jù)的計(jì)算處理轉(zhuǎn)換成無(wú)數(shù)個(gè)子處理程序,在相同處理時(shí)間內(nèi),加快了數(shù)據(jù)處理頻率[10]。該技術(shù)預(yù)先設(shè)置子程序之間的歐氏距離:
式中:[duv]表示任意2個(gè)相鄰子程序[u]和[v]之間的歐氏距離;[Rus],[Rvs]表示對(duì)程序[u],[v]的第[s]個(gè)變量。設(shè)置此時(shí)的距離矩陣為[K],確定最小距離元素[dmin],當(dāng)子程序中的數(shù)據(jù)對(duì)應(yīng)的位置為[a],[b],且其數(shù)值小于閾值[Y]時(shí),則合并該距離矩陣實(shí)現(xiàn)降維。設(shè)置程序中距離最近的兩個(gè)數(shù)據(jù)類(lèi)簇為[Csa],[Csb],合并后的新類(lèi)簇為[Csab=Csa,Csb],因此新分類(lèi)為[Cs1,Cs2,…,Csm]。該處理系統(tǒng)根據(jù)新的類(lèi)簇設(shè)置分布式的數(shù)據(jù)處理子程序[11]。
2.3? 實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速處理
在分布式處理方式設(shè)置完畢的基礎(chǔ)上,對(duì)海量數(shù)據(jù)線性分類(lèi),令每一處理單元中的數(shù)據(jù)同屬一個(gè)類(lèi)型,或具有同一目的,或具有相似價(jià)值。隨機(jī)選則兩個(gè)樣本數(shù)據(jù),將其分為2個(gè)大類(lèi),通過(guò)[k]維向量[x]表示相應(yīng)的數(shù)據(jù)特征,[y]表示相應(yīng)的分類(lèi)標(biāo)志,該線性分類(lèi)超平面與分類(lèi)函數(shù)的計(jì)算表達(dá)式為:
式中:[wT]表示針對(duì)數(shù)據(jù)類(lèi)型建立的轉(zhuǎn)置矩陣;[b]表示一個(gè)固定常數(shù);[fx]表示分類(lèi)函數(shù)。當(dāng)[fx>0]時(shí),對(duì)應(yīng)的分類(lèi)標(biāo)志[y=1];當(dāng)[fx<0]時(shí),[y=-1];當(dāng)[fx=0]時(shí),則該數(shù)據(jù)的支持向量在超平面之上[12]。根據(jù)式(2)可知,該線性分類(lèi)如圖3所示。
圖中,三角形與圓圈代表隨機(jī)選取的兩類(lèi)樣本向量。設(shè)置約束條件,根據(jù)云計(jì)算技術(shù)建立極速處理函數(shù)[μ],實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的瞬時(shí)處理。
式中:[c]為數(shù)據(jù)總體量;[ω]為誤差修正系數(shù);[fy]為處理約束條件;[ki]為處理頻率在[i]數(shù)據(jù)段的極限值;[q]為控制調(diào)和系數(shù);[t]為瞬時(shí)反應(yīng)時(shí)間;[n]為處理路徑。依據(jù)上述式(3),設(shè)置海量數(shù)據(jù)處理程序,控制子程序的處理進(jìn)程。至此基于云計(jì)算技術(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)海量數(shù)據(jù)的分布式處理系統(tǒng)設(shè)計(jì)。
3? 仿真實(shí)驗(yàn)
利用仿真實(shí)驗(yàn)檢測(cè)所設(shè)計(jì)系統(tǒng)的可行性,并將本系統(tǒng)與傳統(tǒng)的數(shù)據(jù)集中處理系統(tǒng)進(jìn)行對(duì)比。
3.1? 實(shí)驗(yàn)準(zhǔn)備
實(shí)驗(yàn)將系統(tǒng)運(yùn)行分為3部分:Hadoop云處理平臺(tái);HBase分布式海量信息數(shù)據(jù)庫(kù);Web管理控制系統(tǒng),利用上述系統(tǒng)搭建實(shí)驗(yàn)測(cè)試環(huán)境。Web系統(tǒng)在開(kāi)發(fā)包JDK、服務(wù)器Tomcat的支持下正常運(yùn)行,配置每臺(tái)測(cè)試機(jī)器的IP地址和主機(jī)名,保證系統(tǒng)程序正常運(yùn)行。構(gòu)建Hadoop平臺(tái)的運(yùn)行環(huán)境,安裝并配置HBase數(shù)據(jù)庫(kù),并將其分發(fā)到集群中的所有階段上實(shí)施解壓程序,如圖4所示。
實(shí)驗(yàn)時(shí)隨機(jī)選取某年度、某平臺(tái)的海量交易數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,該平臺(tái)具體數(shù)據(jù)信息如表1所示。分別利用2種數(shù)據(jù)處理系統(tǒng),處理上述表格中的數(shù)據(jù)。
3.2? 結(jié)果分析
2個(gè)系統(tǒng)的數(shù)據(jù)處理結(jié)果如圖5所示。
由圖5可知,當(dāng)所處理的數(shù)據(jù)量為564.33 GB時(shí),所設(shè)計(jì)系統(tǒng)在第0.1 s迅速做出反應(yīng),瞬間將系統(tǒng)處理頻率提升到7 GHz以上;而傳統(tǒng)系統(tǒng)在0.4 s時(shí)才做出處理,處理頻率在3.073 5 GHz左右,比所設(shè)計(jì)系統(tǒng)的處理頻率慢了50.05%。為保證實(shí)驗(yàn)結(jié)果真實(shí),利用2個(gè)系統(tǒng)處理11月份數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如圖6所示。
圖6曲線是對(duì)數(shù)據(jù)量為1 022.59 GB的11月份數(shù)據(jù)的測(cè)試結(jié)果。根據(jù)曲線走勢(shì)可以看出,面對(duì)體量更大的平臺(tái)數(shù)據(jù),所設(shè)計(jì)系統(tǒng)還是在第0.1 s做出處理反應(yīng),處理頻率在7 GHz以上;而傳統(tǒng)系統(tǒng)在0.47 s做出反應(yīng),處理頻率降至3 GHz以下,比設(shè)計(jì)的處理系統(tǒng)慢了61.12%。綜上,基于云計(jì)算技術(shù)設(shè)計(jì)的海量數(shù)據(jù)處理系統(tǒng)的處理數(shù)據(jù)頻率更快,響應(yīng)更迅速。
4? 結(jié)? 語(yǔ)
此次設(shè)計(jì)的海量數(shù)據(jù)處理系統(tǒng),從數(shù)據(jù)處理頻率入手,通過(guò)云計(jì)算技術(shù),將體量龐大的網(wǎng)絡(luò)海量數(shù)據(jù)分解成若干個(gè)小程序,通過(guò)多部服務(wù)器組成的系統(tǒng)軟件,加快了系統(tǒng)的分析能力和響應(yīng)速度。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)系統(tǒng)比傳統(tǒng)系統(tǒng)的處理頻率提高了50%以上,解決了傳統(tǒng)系統(tǒng)中受分析能力較弱、響應(yīng)速度偏慢導(dǎo)致處理頻率偏低的問(wèn)題。
參考文獻(xiàn)
[1] 班婭萌,趙月鵬,平金珍.基于云計(jì)算的分布式電源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電源技術(shù),2017,41(2):310?311.
[2] 竇金鳳,于文華,曹家寶,等.基于云計(jì)算平臺(tái)的工程材料詢(xún)價(jià)系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2018,38(S1):158?161.
[3] 余昌發(fā),程學(xué)林,楊小虎.基于Kubernetes的分布式TensorFlow平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2018,45(z2):527?531.
[4] 徐一鳳,豐大軍,張瀚文,等.基于跨平臺(tái)的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2017,43(9):98?100.
[5] 王佳玉,張振宇,褚征,等.一種基于軌跡數(shù)據(jù)密度分區(qū)的分布式并行聚類(lèi)方法[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2018,48(1):47?56.
[6] 林靜懷.基于云計(jì)算的電網(wǎng)調(diào)度控制培訓(xùn)仿真系統(tǒng)設(shè)計(jì)[J].電力系統(tǒng)自動(dòng)化,2017,41(14):164?170.
[7] 覃偉榮.云計(jì)算網(wǎng)絡(luò)環(huán)境和大數(shù)據(jù)結(jié)合的物聯(lián)網(wǎng)信息化建設(shè)[J].激光雜志,2018,39(5):120?123.
[8] 王傳連,張宗朔.基于私有云的大規(guī)模交通視頻處理框架設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(21):254?257.
[9] 張海闊,陸忠華,劉芳,等.面向海量告警數(shù)據(jù)的并行處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):407?413.
[10] 陳濤,喬佩利,孫廣路,等.實(shí)時(shí)網(wǎng)絡(luò)流特征提取系統(tǒng)設(shè)計(jì)[J].哈爾濱理工大學(xué)學(xué)報(bào),2017,22(2):99?104.
[11] 顧東曉,李童童,梁昌勇,等.基于云計(jì)算的管理信息系統(tǒng)遷移模式與策略研究[J].情報(bào)科學(xué),2018,36(12):71?76.
[12] 莫勇,張海燕.基于云計(jì)算的電力數(shù)據(jù)在線安全分析并行化[J].控制工程,2017,24(4):823?828.