張文燚,項(xiàng)連志,王小芳
(1.哈爾濱工程大學(xué)電子政務(wù)建模仿真國(guó)家工程實(shí)驗(yàn)室,北京100037;2.哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001)
海量的大數(shù)據(jù)[1]資源的組織結(jié)構(gòu),不可避免地呈現(xiàn)出大規(guī)模網(wǎng)絡(luò)化分布的基本特征,從而導(dǎo)致了大數(shù)據(jù)分析應(yīng)用的物理模型自然呈現(xiàn)出大規(guī)模網(wǎng)絡(luò)化分布的特征。大規(guī)模分布式網(wǎng)絡(luò)應(yīng)用主要是以多組件分工協(xié)作的形式存在的,因此,研究支持網(wǎng)絡(luò)分布式多組件協(xié)作應(yīng)用建模的模型理論,完善面向大規(guī)模分布式網(wǎng)絡(luò)應(yīng)用的模型架構(gòu),對(duì)于推動(dòng)大數(shù)據(jù)分析應(yīng)用的快速發(fā)展具有重要意義。1991年,ROGER S.CHIN發(fā)表了以構(gòu)建基于分布對(duì)象的編程系統(tǒng)(DOBPS)[2]為目的,支持網(wǎng)絡(luò)分布式多組件協(xié)作應(yīng)用建模的物理參考模型。由于DOBPS沒(méi)有把支持分布式對(duì)象交互的協(xié)議實(shí)體納入資源管理,這使得分布式組件協(xié)作只能被表達(dá)為一種動(dòng)態(tài)機(jī)制而不是靜態(tài)模型;同時(shí),DOBPS和許多面向?qū)ο蟮姆治鲈O(shè)計(jì)方法(OOA、OOD)一樣,在對(duì)象交互方面的研究較少,既沒(méi)能較好地借助對(duì)象交互表達(dá)業(yè)務(wù)規(guī)則,又沒(méi)能較好地刻畫復(fù)雜對(duì)象交互過(guò)程的動(dòng)態(tài)全景[3],也沒(méi)能給出可操作的對(duì)象交互形式框架[4]。PVM[5]、OGSA[6]、Cougaar[7]等均未能給出普遍適用的分布式應(yīng)用模型架構(gòu)。Peter Wegner于1993年指出,面向?qū)ο蟮能浖こ谭妒脚c圖靈算法的邏輯編程范式是不相容的[8],1997年進(jìn)一步指出,無(wú)法借助一階邏輯形式化交互系統(tǒng)[4]。1998年,Peter Wegner正式給出了支持對(duì)象交互建模的經(jīng)驗(yàn)主義計(jì)算模型[9],但是,該模型仍試圖兼容一階邏輯的形式化模型,導(dǎo)致該模型定義的語(yǔ)用只可解釋、不能操作,從而嚴(yán)重影響了該模型的實(shí)用價(jià)值。2003年,文獻(xiàn)[10]給出了一種支持刻畫業(yè)務(wù)規(guī)則和動(dòng)態(tài)全景的目標(biāo)操作化對(duì)象交互模型,但是該模型的一般性是借助自然同態(tài)映射表達(dá)的,沒(méi)有給出嚴(yán)格的形式證明,很大程度上限制了模型的推廣應(yīng)用。由此可見(jiàn),在大數(shù)據(jù)應(yīng)用需求驅(qū)動(dòng)著大規(guī)模分布網(wǎng)絡(luò)應(yīng)用快速發(fā)展的新時(shí)代,建立一種面向分布式大數(shù)據(jù)應(yīng)用、支持多組件協(xié)作應(yīng)用建模的、一般實(shí)用的模型理論,具有重要的現(xiàn)實(shí)意義。
本文首先定義分布式大數(shù)據(jù)組織上的應(yīng)用問(wèn)題,并給出問(wèn)題求解過(guò)程的算子復(fù)合表達(dá)式,進(jìn)而基于交互式計(jì)算范疇的定義,建立研究交互式計(jì)算的模型理論,最后借助一個(gè)標(biāo)準(zhǔn)差計(jì)算應(yīng)用樣例,展示該模型理論在分布式大數(shù)據(jù)應(yīng)用建模中的實(shí)際應(yīng)用。
在文獻(xiàn)[11]中,大數(shù)據(jù)是以原始痕跡記錄的形式存在的,痕跡記錄形式是借助痕跡代數(shù)S=<sT,opp,opr,opl,opb>表達(dá)的,其中:
sT={st1,st2,…|t1,t2,…∈T}為場(chǎng)景,其中sti為每個(gè)時(shí)刻的活動(dòng)痕跡,sti=sTi-sTi-1且Ti=Ti-1∪{ti}。文獻(xiàn)[12]中記為sT的子場(chǎng)景。
st=(t,Me(O))為活動(dòng)痕跡,其中t是實(shí)體實(shí)例消息的產(chǎn)生時(shí)刻,Me(O)={(o)|i=1,2,..,o∈O,·m·id∈IDj,IDj?ID}是t時(shí)刻所有宿主產(chǎn)生的實(shí)體實(shí)例消息集合,O代表宿主集合,IDj代表消息編號(hào)集合,ID為消息編號(hào)全集。
me(o)=({(ai,xi)},m(o))為實(shí)體實(shí)例的消息,其中{(ai,xi)}=xi1⊕xi2⊕…代表實(shí)體實(shí)例標(biāo)識(shí),其中I=<i1,i2,…>為名稱項(xiàng)腳標(biāo)序列,m(o)為消息。
可見(jiàn),文獻(xiàn)[11-12]只把表示大數(shù)據(jù)的某個(gè)時(shí)刻的痕跡視為該時(shí)刻場(chǎng)景內(nèi)所有實(shí)體實(shí)例消息的集合,但是不考慮痕跡的內(nèi)在結(jié)構(gòu)。為了展開(kāi)對(duì)分布式大數(shù)據(jù)應(yīng)用建模的討論,本文把分布式大數(shù)據(jù)組織視為多個(gè)子場(chǎng)景的復(fù)合結(jié)構(gòu),子場(chǎng)景為多個(gè)實(shí)體的復(fù)合結(jié)構(gòu),實(shí)體為多個(gè)實(shí)體實(shí)例消息的復(fù)合結(jié)構(gòu),從而定義分布式大數(shù)據(jù)組織如下:
定義1 分布式大數(shù)據(jù)組織:稱場(chǎng)景sT的結(jié)構(gòu)化表達(dá)sT=(ns,ξ({(,),j=1,2,…}))為分布式大數(shù)據(jù)組織。其中,ns為場(chǎng)景名,ξ為場(chǎng)景復(fù)合函數(shù),為子場(chǎng)景名,=w({(,ep),p=1,2,..}為子場(chǎng)景,w為子場(chǎng)景復(fù)合函數(shù),為實(shí)體名,p為子場(chǎng)景中包含的實(shí)體ep的編號(hào),ep=v({(,)})為實(shí)體,v為實(shí)體復(fù)合函數(shù),為實(shí)體實(shí)例消息標(biāo)識(shí),k為實(shí)體ep中包含的實(shí)體實(shí)例消息的編號(hào),=u({(αi,xi(t)),i=1,2,..})為實(shí)體實(shí)例消息,u為實(shí)體實(shí)例消息復(fù)合函數(shù),αi為屬性名,xi(t)為t時(shí)刻屬性值,i為實(shí)體實(shí)例消息中包含的屬性值編號(hào)。稱{()}為子場(chǎng)景組織集合,記為d。
分布式大數(shù)據(jù)組織的結(jié)構(gòu)展開(kāi)形式為:sT=(ns,(t))}))}))}))}))。不失一般性,本文將分布式大數(shù)據(jù)組織表達(dá)為(Z0)))})),其中:
1)Z0={(t),i=1,2,…,n0}為屬性值的集合,其中(t)=(αi,xi(t)),n0為屬性值個(gè)數(shù)。
2)zs=(nK+1,δ)=(nK+1,fK+1(ZK))為第K+1 層上的屬性復(fù)合結(jié)構(gòu),其中nK+1為屬性復(fù)合結(jié)構(gòu)名,δ為結(jié)構(gòu)項(xiàng),fK+1為結(jié)構(gòu)復(fù)合函數(shù),ZK={(,),p=1,2,…,nk}為第K層屬性復(fù)合結(jié)構(gòu)集合。
分布式大數(shù)據(jù)應(yīng)用問(wèn)題(problem of distrubted application on big data,PDABD):已知分布式大數(shù)據(jù)組織zs上的約束條件,求符合約束條件CON的問(wèn)題域DOM=D(zs,CON)=并在該問(wèn)題域上尋找滿足Z*=Ψ(DOM)的問(wèn)題解。其中:CONl=表示屬性復(fù)合結(jié)構(gòu)的條件,為屬性復(fù)合結(jié)構(gòu)的一個(gè)結(jié)構(gòu)實(shí)例,并且:
1)為第0層的第p個(gè)域?yàn)榘牡?層屬性復(fù)合結(jié)構(gòu)集合在條件約束下形成的第u個(gè)域;為包含的第2層屬性復(fù)合結(jié)構(gòu)集合在條件約束下形成的第q個(gè)域;為包含的第K層的屬性復(fù)合結(jié)構(gòu)集合在條件約束下形成的第w個(gè)域。
2)稱D為定域算子,且D(zs,CON)=DOM。
3)稱 Ψ=h({μk,k=1,2,…,M},{ψk,k=1,2,…,N})為計(jì)算算子,其中μk為線性算子,ψk為非線性算子,h為算子組合運(yùn)算。
引理1 對(duì)于PDABD,必存在分域算子D',使得D'(DOM)={DOM1,DOM2,…DOMM},M≤L成立,其中DOMj=D(zs,CONl)≠?為計(jì)算子域。
證明 由分布式大數(shù)據(jù)組織zs上的約束條件,且,其中L為子條件數(shù),K為層數(shù)。問(wèn)題域DOM按如下過(guò)程展開(kāi)形成:對(duì)任意子條件集CONl,,i=0,1,…K為CONl的第i層上的約束條件,由以及第i-1層屬性復(fù)合結(jié)構(gòu)和第i層屬性復(fù)合結(jié)構(gòu)間的包含關(guān)系,可產(chǎn)生第i層上的層內(nèi)子域Domi(l),通過(guò)層內(nèi)子域Domi(l)內(nèi)屬性復(fù)合結(jié)構(gòu)的交叉包含關(guān)系,形成子域DOMl。對(duì)所有的子條件CONl,l=1,2,…L,均有DOMl,這里DOMl允許為空,而問(wèn)題域DOMl。將DOMl=?的進(jìn)行排除,得到DOMj,其中M≤L。因此,必存在分域算子D',使得D'(DOM)={DOM1,DOM2,…,DOMM}={DOMj,j=1,2,…M}成立。
引理2 在PDABD中,對(duì)于Ψ中的線性算子組合h{μk,k=1,2,…},記為hμ,必存在算子f和 Υ,使得hμ(DOM,Z)= Υ({f(DOMj,Z)})成立,其中,Z為屬性復(fù)合結(jié)構(gòu)的實(shí)例集合,DOMj∈D'(DOM)。這里,稱算子f為子域計(jì)算算子,算子 Υ為聚解算子。
證明 由引理1可知,問(wèn)題域DOM是以子域集合{DOMj,j=1,2,…,M}的形式存在的,則必存在算子f作用于子域,即f(DOMj,Z)存在。同時(shí),假設(shè)不存在聚解算子 Υ,使得hμ(DOM,Z)= Υ({f(DOMj,Z)})成立,即f(DOMj,Z),j=1,2,…無(wú)法形成hμ(DOM,Z),即無(wú)法找到 Ψ,使得Z*=Ψ(DOM)成立,故必存在聚解算子Υ,使得hμ(DOM,Z)=Υ({f(DOMj,Z)})成立。
引理3 在PDABD中,對(duì)于Ψ中的非線性算子組合h{ψk,k=1,2,…},記為hψ,必存在算子g,使得hψ(DOM,Z)=g(F,Z)成立,其中,F(xiàn)={Υp{fp(DOMj)},p=1,2,…},Z為屬性復(fù)合結(jié)構(gòu)的實(shí)例集合,DOMj∈D'(DOM)。這里,稱算子g為復(fù)合子域計(jì)算算子。
證明 由引理1可知,問(wèn)題域DOM是以子域集合 {DOMj,j=1,2,…,M}的形式存在的。假設(shè)不存在g,使得hψ(DOM,Z)=g(F,Z)成立,則hψ無(wú)法在子域集合 {DOMj,j=1,2,…,M}上展開(kāi)計(jì)算,即無(wú)法找到Ψ,使得Z*=Ψ(DOM)成立,故必存在復(fù)合子域計(jì)算算子g,使得hψ(DOM,Z)=g(F,Z)成立。
引理4 PDABD求解的一般表達(dá)形式為Ψ=gy,其中和Zy為由復(fù)合子域計(jì)算算子產(chǎn)生的屬性復(fù)合結(jié)構(gòu)集合,可表達(dá)為如此,可展開(kāi)求解的一般表達(dá)形式為
證明略。
通過(guò)引入范疇對(duì)象的屬性復(fù)合結(jié)構(gòu)和平凡態(tài)射,擴(kuò)展范疇為有向平凡范疇,完成建立交互式計(jì)算模型的數(shù)學(xué)基礎(chǔ)準(zhǔn)備。
定義2 屬性復(fù)合結(jié)構(gòu)匹配?:設(shè)和為屬性復(fù)合結(jié)構(gòu),稱匹配,即?,如果滿足以下條件:
1)當(dāng)k=0時(shí),即和為屬性單元=(αi,xi(t))和=(αj,xj(t)),有 αi=αj。
2)當(dāng)k≥1時(shí),即(t)=(,fk())和(t)=(,fk()),有||=||,且對(duì)于任意∈,均存在,使得,即屬性復(fù)合結(jié)構(gòu)集合匹配,記為
在不混淆含義的情況下,?可表達(dá)為=。
定義3 有向平凡范疇G:一個(gè)有向平凡范疇G是由以下組成:
1)一族對(duì)象obG:A,B,C,…;
2)一族態(tài)射MorG:f,g,h,…;
3)對(duì)于每一個(gè)對(duì)象A,都存在一個(gè)由A生成的屬性復(fù)合結(jié)構(gòu)集合ZA;
4)對(duì)于每一個(gè)態(tài)射f,有給定的對(duì)象A,B和屬性復(fù)合結(jié)構(gòu)集合ZA,ZB,使得f:(A,ZA)→(B,ZB)成立,其中(A,ZA)=dom(f),(B,ZB)=cod(f);
5)任意兩個(gè)對(duì)象A和B,都有一個(gè)平凡態(tài)射0AB:(A,ZA)→(B,ZB);
6)對(duì)于給定的態(tài)射f:(A,ZA)→(B,ZB)和g:(B,ZB')→(C,ZC),稱g°f為f和g的復(fù)合,如果
①當(dāng)f≠0AB,g≠0BC時(shí),若cod(f)=dom(g),則存在態(tài)射:g°f:(A,ZA)→(C,ZC),否則g°f=0AC。
②當(dāng)f=0AB或g=0BC時(shí),有g(shù)°f=0AC。
7)對(duì)于每一個(gè)對(duì)象A,存在一個(gè)態(tài)射1A:(A,ZA)→(A,ZA),稱為A的單元態(tài)射,且滿足以下條件:
對(duì)于任意f:(A,ZA)→(B,ZB),有f°1A=f=1B°f成立。
交互式計(jì)算范疇G由多結(jié)構(gòu)化狀態(tài)關(guān)系代數(shù)、協(xié)議代數(shù)P、交互計(jì)算總線格代數(shù)Π3個(gè)對(duì)象以及對(duì)象之間的態(tài)射構(gòu)成。
2.2.1 多結(jié)構(gòu)化狀態(tài)關(guān)系代數(shù)
在文獻(xiàn)[11]中,給出了一個(gè)由平凡表模型(ordinary table model)構(gòu)成,支持大數(shù)據(jù)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等信息資源形式化表達(dá)的多結(jié)構(gòu)化狀態(tài)關(guān)系代數(shù)其中為多結(jié)構(gòu)化狀態(tài)關(guān)系的集合,為上的一元著色約束運(yùn)算。
定義Ⅰ 多結(jié)構(gòu)化狀態(tài)關(guān)系:稱形如=的集合為多結(jié)構(gòu)化狀態(tài)關(guān)系,其中為多結(jié)構(gòu)化狀態(tài)關(guān)系元組標(biāo)識(shí),為多結(jié)構(gòu)化狀態(tài)關(guān)系元組的誕生時(shí)刻,為多結(jié)構(gòu)化狀態(tài)關(guān)系元組的記錄時(shí)刻,={(αi,xki),i=1,2,…}是多結(jié)構(gòu)化狀態(tài)關(guān)系元組,αi為名稱項(xiàng),xki為由符號(hào)序列組成的值項(xiàng)。記attr()={αi}為屬性集合。
定理Ⅰ 多結(jié)構(gòu)化狀態(tài)關(guān)系代數(shù):設(shè)Ωt為多結(jié)構(gòu)化狀態(tài)關(guān)系的集合,則為多結(jié)構(gòu)化狀態(tài)關(guān)系代數(shù)。。
2.2.2 協(xié)議代數(shù)
定義 4 協(xié)議 ρ:稱形如 ρ=(b,idρ,dI,dO,γ,con,idρi)的六元組為協(xié)議,其中b為協(xié)議節(jié)拍,idρ為協(xié)議編號(hào),dI為資源子場(chǎng)景組織集合,dO為目標(biāo)子場(chǎng)景組織集合,γ為目標(biāo)函數(shù),con為約束條件,idρi為流向。若dI=dO=?,則稱 ρ為空協(xié)議,記為 ρ0。
定義5 判識(shí)ι:設(shè)P為協(xié)議ρ的集合,ι為P上的一元運(yùn)算,為判識(shí)條件,判識(shí)運(yùn)算定義如下:對(duì)于任意 ρ∈P,有
定義6 連接ω:設(shè)P為協(xié)議ρ的集合,稱二元運(yùn)算ω為P上的連接運(yùn)算,如果滿足:對(duì)于任意ρ1=
1)當(dāng) ρ1≠ρ0,ρ2≠ρ0時(shí),如果滿足con1()=,則 ω(ρ1,ρ2)=成立;
否則,ω(ρ1,ρ2)= ρ0;
2)當(dāng) ρ1=ρ0,ρ2≠ρ0時(shí),ω(ρ1,ρ2)= ρ2;
3)當(dāng) ρ1≠ρ0,ρ2=ρ0時(shí),ω(ρ1,ρ2)= ρ1;
4)當(dāng) ρ1=ρ0,ρ2=ρ0時(shí),ω(ρ1,ρ2)= ρ0。
定義7 激活η:設(shè)P為協(xié)議ρ的集合,η為P上的一元運(yùn)算,激活運(yùn)算定義如下:
對(duì)于任意 ρ∈P,有 η(ρ)=(bη,idρ,dIη,dOη,γ,con,idρi)成立,其中bη=η(b)為激活后產(chǎn)生的下一個(gè)協(xié)議節(jié)拍,dIη=η(dI)為激活后產(chǎn)生的下一拍協(xié)議的資源子場(chǎng)景組織集合,dOη=η(dO)為激活后產(chǎn)生的下一拍協(xié)議的目標(biāo)子場(chǎng)景組織集合。
定理1 協(xié)議代數(shù)P:設(shè)P為協(xié)議ρ的集合,則<P,ι,ω,η>是一個(gè)代數(shù),稱之為協(xié)議代數(shù),記為P。
證明 顯然ι、ω、η為P上的運(yùn)算,則P是協(xié)議代數(shù)。
2.2.3 交互計(jì)算總線格代數(shù)
此處用符號(hào)()表示序列,即(Xk)=X1X2…XK,其中Xk為ak,f1j和f2i。
顯然,泊位β是屬性復(fù)合結(jié)構(gòu)。
定義 9 計(jì)算節(jié)點(diǎn) π:稱形如 π=(b,cn,Iβ,Oβ,φ)的五元組為計(jì)算節(jié)點(diǎn),其中b為計(jì)算節(jié)拍,cn為計(jì)算單元號(hào)(具有唯一性),Iβ為輸入泊位集,Oβ為輸出泊位集,φ為計(jì)算。若Iβ=Oβ=?,則稱π為空節(jié)點(diǎn),記為π0。
定理2 計(jì)算格:設(shè)Π為計(jì)算節(jié)點(diǎn)π的集合,≤為集合Π上的一個(gè)二元關(guān)系,≤定義為:{(π1,π2)|π1,π2∈Π,π1·cn≤π2·cn},則(Π,≤)為一個(gè)格。
證明略。
定義10 匹配λp:設(shè)Π為計(jì)算節(jié)點(diǎn)π的集合,λp為Π上的一元運(yùn)算,為匹配條件,匹配運(yùn)算定義如下:對(duì)于任意π∈Π,有
定義11 連接λr:設(shè)Π為計(jì)算節(jié)點(diǎn)π的集合,λr為Π上的二元運(yùn)算,連接運(yùn)算定義如下:對(duì)于任意 π1=(b1,cn1,,,φ1),π2=(b2,cn2,,,φ2)∈Π,
1)當(dāng) π1≠π0,π2≠π0時(shí),若 π1≤π2,?,則φ2°φ1),其中cn1<fcn(cn1,cn2)<cn2,否則,λr(π1,π2)=π0;
2)若 π1=π0,π2≠π0,則 λr(π1,π2)= π2;
3)若 π1≠π0,π2=π0,則 λr(π1,π2)= π1;
4)若 π1=π0,π2=π0,則 λr(π1,π2)= π0。
定義12 落實(shí)λl:設(shè)Π為計(jì)算節(jié)點(diǎn)π的集合,λl為Π上的一元運(yùn)算,落實(shí)運(yùn)算定義如下:對(duì)于任意 π∈Π,有 λl(π)=(bl,cn,Iβl,Oβl,φ)成立,其中bl為下一個(gè)計(jì)算節(jié)拍,Iβl為下一個(gè)計(jì)算節(jié)拍的輸入泊位集,Oβl為下一個(gè)計(jì)算節(jié)拍的輸出泊位集。
定理3 交互計(jì)算總線格代數(shù)Π:設(shè)Π為計(jì)算節(jié)點(diǎn) π 的集合,則<Π,∧,∨,λp,λr,λl>是一個(gè)格代數(shù),我們稱之為交互計(jì)算總線格代數(shù),記為Π。
證明 顯然 λp、λr、λl是 Π 上的運(yùn)算,又(Π,≤)為格,則 Π=<Π,∧,∨,λp,λr,λl>為交互計(jì)算總線格代數(shù)。
2.2.4 交互式計(jì)算范疇構(gòu)成
定理4 交互式計(jì)算范疇G:G由以下內(nèi)容組成:
1)obG:P,Π,,及其屬性復(fù)合結(jié)構(gòu)集合ZP,ZΠ,。
2)MorG:G((P,ZP),(Π,ZΠ))={φPΠ,0PΠ}G,定義見(jiàn)圖 1;G((Π,ZΠ),(P,,定義見(jiàn)圖2;G((Π,ZΠ),(Π,ZΠ))={1Π},定義見(jiàn)圖3。
那么G為有向平凡范疇,稱之為交互式計(jì)算范疇。
證明略。
圖1 交互式計(jì)算范疇?wèi)B(tài)射圖Fig.1 Interactive computing category’s morphism
定理5 運(yùn)算保持性:設(shè)G為交互式計(jì)算范疇,對(duì)于對(duì)象P和 Π,態(tài)射 φPΠ:P→Π,對(duì)于任意給定的,有:
1)φPΠ(ι(ρ1))= λp(φPΠ(ρ1));
2)φPΠ(ω(ρ1,ρ2))= λr(φPΠ(ρ1),φPΠ(ρ2));
3)φPΠ(η(ρ1))= λl(φPΠ(ρ1))。
證明略。
定理6 運(yùn)算保持性:設(shè)G為交互式計(jì)算范疇,對(duì)于對(duì)象Π 和P,態(tài)射 φΠP:Π→P,對(duì)于任意給定的∈Π有:
1)φΠP(λp(π1))= ι(φΠP(π1));
2)φΠP(λr(π1,π2))= ω(φΠP(π1),φΠP(π2));
3)φΠP(λ?(π1))= η(φΠP(π1))。
證明略。
在交互式計(jì)算范疇G中,令態(tài)射集合 {φPΠ}和組成協(xié)議-內(nèi)存勾連構(gòu)件和組成內(nèi)存-外存勾連構(gòu)件,{1Π}組成內(nèi)存-計(jì)算勾連構(gòu)件,從而形成建立在協(xié)議-內(nèi)存勾連構(gòu)件、內(nèi)存-外存勾連構(gòu)件、內(nèi)存-計(jì)算勾連構(gòu)件之間,以交互計(jì)算總線格Π為交互載體展開(kāi)交互計(jì)算的交互式計(jì)算模型(model of interactive computing,MIC)。本文稱應(yīng)用交互式計(jì)算模型MIC求解分布式大數(shù)據(jù)應(yīng)用問(wèn)題相關(guān)的研究,為支持分布式大數(shù)據(jù)應(yīng)用建模的模型理論研究。
本節(jié)以面向分布式大數(shù)據(jù)組織的標(biāo)準(zhǔn)差計(jì)算應(yīng)用為實(shí)例,展示交互式計(jì)算模型MIC在分布式大數(shù)據(jù)應(yīng)用建模中的應(yīng)用。
對(duì)于大數(shù)據(jù)組織結(jié)構(gòu)sT,X0={(αi,xi(t)),i=1,2,…}為第0層屬性單元層1,2,…}為第1層實(shí)體實(shí)例消息層p=1,2,…}為第 2 層實(shí)體層2,…}為第3層子場(chǎng)景層。當(dāng)不需強(qiáng)調(diào)層次時(shí),X0,Me1,E2和 ?3可簡(jiǎn)寫為X,Me,E和 ?。
分布式大數(shù)據(jù)標(biāo)準(zhǔn)差計(jì)算應(yīng)用問(wèn)題(PDADBsdev):已知大數(shù)據(jù)組織sT上的約束條件,求符合約束條件CONsdev的問(wèn)題域并在該問(wèn)題域上尋找滿足(αsdev,xsdev)= Ψsdev(DOM)的問(wèn)題解。其中:CONl=,其中為屬性值為實(shí)體實(shí)例消息結(jié)構(gòu)實(shí)例為實(shí)體結(jié)構(gòu)實(shí)例為子場(chǎng)景結(jié)構(gòu)實(shí)例,并且:
1)為第0層的第p個(gè)域?yàn)榘牡?層實(shí)體實(shí)例消息集合在條件約束下形成的第u個(gè)域;為包含的第2層實(shí)體集合在條件約束下形成的第q個(gè)域?yàn)榘牡?層的子場(chǎng)景集合在條件Γ3=約束下形成的第w個(gè)域。
2)稱D為定域算子,且D(sT,CONsdev)=DOM。
3)稱 Ψsdev=h({μfet,μsum,μcnt,μdisp},{ψavg,ψsdev})為計(jì)算算子,其中,屬性提取算子μfet,匯總算子μsum,計(jì)數(shù)算子μcnt和離散度計(jì)算算子μdisp為線性算子,均值算子ψavg和標(biāo)準(zhǔn)差算子ψsdev為非線性算子。
下面展開(kāi)線性算子和非線性算子的定義,并由此給出子域計(jì)算算子和復(fù)合子域計(jì)算算子。
定義13 屬性提取算子 μfet:設(shè)子域Domj=,屬 性α,則屬性提取算子 μfet定義如下:μfet(Domj,α)={(αi,xi),i=1,2,…},其中這里符號(hào)A·X表示A中的X。
定義14 匯總算子μsum:對(duì)于給定的屬性值集合X={(αi,xi(t)),i=1,2,…,n},匯總算子 μsum定義如下:,其中 αsum為匯總屬性。
定義15 計(jì)數(shù)算子μcnt:對(duì)于給定的屬性值集合X={(αi,xi(t)),i=1,2,…,n},稱算子 μcnt為計(jì)數(shù)算子,如果 μcnt(X)=(αcnt,|X|)成立,其中 αcnt為計(jì)數(shù)屬性。
定義16 離散度計(jì)算算子μdisp:對(duì)于給定的屬性值集合X={(αi,xi(t)),i=1,2,…,n}和樣本均值(αc,xc),離散度計(jì)算算子 μdisp定義如下:,其中 αdisp為離散度屬性。
由以上線性計(jì)算算子,可形成子域?qū)傩詤R總算子fsum=μsum°μfet,子域?qū)傩杂?jì)數(shù)算子fcnt=μcnt°μfet,子域離散度計(jì)算算子fsum=μsum°μfet,且fsum,fcnt和fsum對(duì)應(yīng)的聚解算子都為匯總算子Υsum=μsum。此外,還有一類特殊的子域計(jì)算算子是自賦算子,即fasg(Z)=Z,其中Z為任意屬性復(fù)合結(jié)構(gòu)集合;當(dāng)|Z|=1時(shí),即Z={z},可簡(jiǎn)寫為fasg(z)=z。
定義17 均值算子ψavg:對(duì)于給定的屬性值集合X={(αi,xi(t)),i=1,2,…,n},其匯總值為(αsum,xsum),總數(shù)為(αcnt,xcnt),則均值算子定義如下:ψavg((αsum,xsum),(αcnt,xcnt))=(αavg,xsum/xcnt),其中αavg為均值屬性。
定義18 標(biāo)準(zhǔn)差算子ψsdev:對(duì)于給定的屬性值集合X={(αi,xi(t)),i=1,2,…,n},其總數(shù)為(αcnt,xcnt),離散度為(αsum,xsum),則標(biāo)準(zhǔn)差算子定義如下:ψsdev((αcnt,xcnt),(αsum,xsum))=(αsdev,,其中αsdev為標(biāo)準(zhǔn)差屬性。
由此可形成復(fù)合子域均值算子gavg=ψavg(Υsum,和復(fù)合子域標(biāo)準(zhǔn)差算子
那么PDADBsdev求解形式的一般表達(dá)為Ψsdev=gsdev(Υsum{fcnt(Domj)}),Υsum({fsum(Domj,gavg(Υsum{fsum(Domj)},Υsum{fcnt(Domj)}))})),其中Domj∈D'(D(sT,CONsdev))為問(wèn)題域D'(D(sT,CONsdev))分域后的第j個(gè)計(jì)算子域。
注意到D'(D(sT,CONsdev))等價(jià)于定域算子D以相同約束條件CONsdev作用于子場(chǎng)景上的集合,即D'(D(sT,CONsdev))={D(,CONsdev)}。
本節(jié)將基于交互式計(jì)算模型構(gòu)建求解標(biāo)準(zhǔn)差計(jì)算問(wèn)題的交互式計(jì)算模型,刻畫標(biāo)準(zhǔn)差計(jì)算應(yīng)用問(wèn)題的求解過(guò)程,即按算子或復(fù)合算子,及其交互構(gòu)建態(tài)射,將同類態(tài)射凝聚為構(gòu)件,并給出以態(tài)射和構(gòu)件表達(dá)的標(biāo)準(zhǔn)差計(jì)算應(yīng)用問(wèn)題求解的交互計(jì)算過(guò)程圖。
對(duì)于大數(shù)據(jù)組織sT,分布式大數(shù)據(jù)應(yīng)用問(wèn)題的求解過(guò)程是在子場(chǎng)景,j=1,2,…,m上展開(kāi)。同時(shí),在PDADBsdev的求解一般表達(dá)形式中引入賦值算子,用于映射賦值態(tài)射(即刻畫在P,Π和Ω間傳遞信息的態(tài)射),則PDADBsdev的求解形式的一般表達(dá)可 轉(zhuǎn) 換 為:(Domj))})))))))}))),其中,子域計(jì)算算子和中的j表示算子作用于子場(chǎng)景上 。由此可按算子或復(fù)合算子構(gòu)建以下態(tài)射。
1)對(duì)于賦值算子fasg,顯然可映射為賦值態(tài)射
那么,由態(tài)射表達(dá)的分布式大數(shù)據(jù)標(biāo)準(zhǔn)差計(jì)算應(yīng)用問(wèn)題求解過(guò)程為,其中,交互態(tài)射在表達(dá)形式中已被省略中的j表示發(fā)生在第j個(gè)子場(chǎng)景上的態(tài)射實(shí)例,Υsum為聚解算子,不屬于交互式計(jì)算模型的刻畫范圍。由態(tài)射表達(dá)的標(biāo)準(zhǔn)差計(jì)算問(wèn)題求解的交互計(jì)算過(guò)程如圖4所示(圖中序號(hào)為計(jì)算序號(hào)),其中1Π:((i),(k))表示序號(hào)為(i)和(k)態(tài)射間的交互。
圖2 標(biāo)準(zhǔn)差計(jì)算問(wèn)題求解的交互計(jì)算過(guò)程Fig.2 Interactive computing process of standard deviation computational problem solving
1)借助分布式大數(shù)據(jù)組織的定義,本文形式化地定義了分布式大數(shù)據(jù)應(yīng)用問(wèn)題PDABD,并且給出了由定域算子、分域算子、子域計(jì)算算子、聚解算子和復(fù)合子域計(jì)算算子構(gòu)成的PDABD求解形式的一般表達(dá)。
3)以面向分布式大數(shù)據(jù)組織的標(biāo)準(zhǔn)差計(jì)算應(yīng)用為實(shí)例,展示了MIC在分布式大數(shù)據(jù)應(yīng)用建模中的實(shí)用性及其應(yīng)用價(jià)值。
[1]DUMBILLE.Planning for big data[M].Sebastopol,CA:O’Reilly Media,Inc.,2012:9-16.
[2]CHIN R S,CHANSON S T.Distributed,object-based programming systems[J].ACM Computing Surveys(CSUR),1991,23(1):91-124.
[3]H?YDALSVIK G M,SINDRE G.On the purpose of objectoriented analysis[J].ACM Sigplan Notices,1993,28(10):240-255.
[4]WEGNER P.Frameworks for active compound documents[EB/OL].Providence,RI:Brown University Department of Computer Science[2014-3-11].http://www.cs.brown.edu/people/pw:1-15.
[5]SUNDERAM V S.PVM:A frameworkforparallel distributed computing[J].Concurrency:practice and experience,1990,2(4):315-339.
[6]TREADWELLJ.The open grid services architecture(OGSA)glossary of terms version 1.5[S].Muncie IN:OGF,2006.
[7]HELSINGER A,THOME M,WRIGHT T.Cougaar:a scalable,distributed multi-agent architecture[C]//2004 IEEE International Conference on Systems,Man and Cybernetics.Holland,Netherlands,2004:1910-1917.
[8]WEGNER P,AGHA G.Research directions in concurrent object-oriented programming[M].Cambridge:MIT Press,1993:22-41.
[9]WEGNER P.Towards empirical computer science[J].Monist,1999,82:58-108.
[10]張文燚.面向領(lǐng)域的軟件生產(chǎn)研究與實(shí)踐[D].北京:北京航空航天大學(xué),2003:1-106.ZHANG Wenyi.Domain-oriented software product line and its applications[D].Beijing:Beihang University,2003:1-106.
[11]張文燚,項(xiàng)連志,王小芳.大數(shù)據(jù)分區(qū)管理模型及其應(yīng)用研究[J].哈爾濱工程大學(xué)學(xué)報(bào),2014,35(3):353-360.ZHANG Wenyi,XIANG Lianzhi,WANG Xiaofang.Big data partition managementmodeland itsapplication research[J].Journal of Harbin Engineering University,2014,35(3):353-360.
[12]張文燚,項(xiàng)連志,王小芳.支持高效查詢檢索的大數(shù)據(jù)資源描述模型[J].哈爾濱工程大學(xué)學(xué)報(bào),2014,35(5):594-601.ZHANG Wenyi,XIANG Lianzhi,WANG Xiaofang.A big data resource description model for efficient retrieval[J].Journal of Harbin Engineering University,2014,35(5):594-601.