合肥工業(yè)大學(xué) 王勝利
基于大數(shù)據(jù)的認(rèn)識與分析
合肥工業(yè)大學(xué) 王勝利
在前些年里,由于云計(jì)算等新型技術(shù)的出現(xiàn),使得人類的生產(chǎn)生活方式發(fā)生了根本性轉(zhuǎn)變,同時(shí)這些技術(shù)的發(fā)展使得人們匯聚、存儲和處理數(shù)據(jù)的能力超過以往,因此提取有價(jià)值信息的能力也在日益提高,開啟了大數(shù)據(jù)的大門。電子商務(wù)、互聯(lián)網(wǎng)、社交媒體、數(shù)碼設(shè)備、物聯(lián)網(wǎng)的快速發(fā)展推動了數(shù)據(jù)的增長,人類已經(jīng)真正進(jìn)入到大數(shù)據(jù)時(shí)代,“大數(shù)據(jù)”概念的出現(xiàn)逐漸成為了一種發(fā)展趨勢,必將帶動人類朝著一個(gè)更加有利的方向發(fā)展。
SEMANMR架構(gòu);代價(jià)估計(jì);數(shù)據(jù)挖掘
自從出現(xiàn)“云”的概念進(jìn)入云的時(shí)代以來,全世界的各個(gè)國家各個(gè)領(lǐng)域保存了大量的數(shù)據(jù),這些海量的數(shù)據(jù)使得三個(gè)方面發(fā)生了巨大的變化。其一是大數(shù)據(jù)的硬件由原來的單機(jī)系統(tǒng)變成現(xiàn)在多機(jī)系統(tǒng)即分布式處理系統(tǒng),所以并行編程及其模型將是研究的重點(diǎn);其二就是數(shù)據(jù)的表示即大數(shù)據(jù)流處理規(guī)則和語義描述;其三,就是大大的促進(jìn)數(shù)據(jù)挖掘技術(shù)的改善。因此我將從上述三個(gè)方面做出討論。
大數(shù)據(jù)的整個(gè)處理過程是基于分析模型SEMANMR而產(chǎn)生的。一般處理流程為用戶提交SEMANMR作業(yè),分配到線程池,通過基于語義的作業(yè)調(diào)度完成調(diào)度,形成線程池,存放到SLAVES里面,通過SEMANMR控制器實(shí)現(xiàn)控制,最后將計(jì)算結(jié)果放入緩存器,存入本地文件,返回給用戶即可,這個(gè)處理流程是大數(shù)據(jù)處理的核心過程,具體流程如圖1所示。
在整個(gè)系統(tǒng)實(shí)現(xiàn)過程中,包含了幾大關(guān)鍵技術(shù):
1.1 S E MA N MR交互方法
該交互方法主要相對于傳統(tǒng)交互方法而言具有極大的優(yōu)越性,傳統(tǒng)交互方法即HADOOP與其框架MAPREDUCE交互規(guī)則為每發(fā)送一個(gè)信息就產(chǎn)生一個(gè)響應(yīng)應(yīng)答信息(TRACKER到TOBTRACKER PING),這樣產(chǎn)生的直接后果就是JOBTRACKER一直在處理發(fā)過來的信息且忙于應(yīng)答,交互效率及其低下。而SEMANMR采用一種交換角色的方法,將發(fā)送更換為JOBTRACKER(只需要發(fā)送一條PING消息),正常的TRACKER接收者不產(chǎn)生應(yīng)答消息,只有當(dāng)該接收者出現(xiàn)錯(cuò)誤時(shí)才產(chǎn)生應(yīng)答消息,具體流程圖如圖2所示。
圖1 具體流程圖
圖2 具體流程圖
1.2 S E MA N MR中基于語義的調(diào)度算法
在這個(gè)架構(gòu)實(shí)現(xiàn)過程中,作業(yè)調(diào)度是實(shí)現(xiàn)有序操作的關(guān)鍵,主要將MASTER集群的M臺節(jié)點(diǎn)里面的很多作業(yè)分配到相應(yīng)的作業(yè)緩存池,現(xiàn)在一般采用二維數(shù)組的方式存儲,當(dāng)然也可以采用一維數(shù)組存儲,只是訪問方式比較繁瑣,采用二維數(shù)組結(jié)構(gòu)設(shè)定如下:
線程池一:{M[1][1],M[1][2],M[1][3]…………M[1][n]}
線程池二:{M[2][1],M[2][2],M[2][3]…………M[2][n]}
…………………
上述線程池里面的每個(gè)任務(wù)只要滿足優(yōu)先排序語義規(guī)則、負(fù)載均衡、故障調(diào)度、語義調(diào)度四個(gè)規(guī)則即可完成SEMANMR調(diào)度。
對于數(shù)據(jù)流語義規(guī)則的描述。在SEMANMR里面一般采用規(guī)則節(jié)點(diǎn)圖形化模型表示,而描述對于數(shù)學(xué)而言一般采用計(jì)算的方法,所以計(jì)算規(guī)則節(jié)點(diǎn)相關(guān)參數(shù)成為了該部分的關(guān)鍵。相對于離散數(shù)學(xué)而言,規(guī)則節(jié)點(diǎn)計(jì)算基本保持了離散數(shù)學(xué)對于笛卡爾積等關(guān)系運(yùn)算的實(shí)用性。主要包括流量計(jì)算和代價(jià)分析。
流量計(jì)算:主要以規(guī)則交點(diǎn)集為計(jì)算目標(biāo),設(shè)有N個(gè)入度,稱為L1,L2…..LN,同時(shí)設(shè)出度流量為M,則:
其中規(guī)則交集流量節(jié)點(diǎn)入度一般大于三,即L1,L2,L3……..,一般對于最小流量而言,只要其中條件有一個(gè)不滿足,則M=0;對于最大流量而言,若均滿足條件,則:
對于規(guī)則聯(lián)合節(jié)點(diǎn)而言,出度流量的計(jì)算一般是入度與聯(lián)合操作參數(shù)的乘積,設(shè)規(guī)則聯(lián)合入度有二個(gè)即X1、X2,聯(lián)合條件一般為關(guān)系運(yùn)算“或”,根據(jù)最小最大流量分析,可得到聯(lián)合操作參數(shù)的取值集和為:
所以只要滿足上述取值,則可以得到C=(X1+X2)*V。
代價(jià)分析主要是基于上述規(guī)則交點(diǎn)集流量計(jì)算而推導(dǎo)的代價(jià)的分析。計(jì)算規(guī)則節(jié)點(diǎn)代價(jià)雖然有多種模式,但是其一般模型為Cost(A)=Cost(B)+Cost(C),其中A為各種節(jié)點(diǎn)或者節(jié)點(diǎn)集,B一般是搜索手段采用遍歷,C一般為比較選擇判斷,從而計(jì)算出各種節(jié)點(diǎn)的代價(jià)。
其中重要的是規(guī)則聯(lián)合節(jié)點(diǎn)計(jì)算,仍然設(shè)N個(gè)入度,稱為L1,L2…..LN,V為節(jié)點(diǎn)的可聯(lián)合性,P設(shè)為遍歷一次的時(shí)間(也可以設(shè)為多次遍歷的時(shí)間,因?yàn)橐淮螘r(shí)間太小,不利于統(tǒng)計(jì)),I為一次的總時(shí)間,則可以得到:
代價(jià)相對而言還是容易估計(jì)的這對于我們選擇合適的節(jié)點(diǎn)度量其代價(jià),設(shè)計(jì)出代價(jià)相對較小的數(shù)據(jù)處理而言具有重要的意義。
由于數(shù)據(jù)復(fù)雜程度增加,因此必須發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)系,使得數(shù)據(jù)大致滿足一定的規(guī)律,因此數(shù)據(jù)分析將變得尤其重要。一個(gè)極好的算法可以大大優(yōu)化代碼,提高數(shù)據(jù)關(guān)聯(lián)度。目前國際上主要使用:分類算法、聚類算法、關(guān)聯(lián)算法等等。其中比較有難度的就是關(guān)聯(lián)規(guī)則算法,該算法是用兩個(gè)概率公式衡量的:
這兩個(gè)公式目前對于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘具有特別重大的意義。
通過對大數(shù)據(jù)的具體任務(wù)的分析,必須了解處理海量數(shù)據(jù)的方式方法。大數(shù)據(jù)云計(jì)算目前展現(xiàn)出了計(jì)算機(jī)前所未有的活力,各個(gè)行業(yè)數(shù)據(jù)云集,促進(jìn)了計(jì)算機(jī)產(chǎn)業(yè)、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)的出現(xiàn),在將來大數(shù)據(jù)必將以海量化、多樣化、速度化、價(jià)值化面向世界。
[1]毛國君.?dāng)?shù)據(jù)挖掘原理與算法[M].清華大學(xué)出版社,2017.
[2]賈雙成,王奇.?dāng)?shù)據(jù)挖掘技術(shù)核心揭秘[M].機(jī)械工業(yè)大學(xué)出版社,2016.