徐 麗
(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430070)
互聯(lián)網(wǎng)大數(shù)據(jù)、云計(jì)算時(shí)代快速發(fā)展的今天,圖片、視頻等信息數(shù)據(jù)存儲(chǔ)量需求不斷增加,傳統(tǒng)單一的存儲(chǔ)方法已經(jīng)無(wú)法滿足存儲(chǔ)需求,而分布式大數(shù)據(jù)云存儲(chǔ)技術(shù)具有快速讀取、海量處理數(shù)據(jù)等特點(diǎn),能夠快速有效的存儲(chǔ)數(shù)據(jù),被廣泛應(yīng)用于云計(jì)算中,同時(shí)研究學(xué)者們發(fā)現(xiàn),在云存儲(chǔ)數(shù)據(jù)的過(guò)程中,會(huì)產(chǎn)生部分冗余信息,影響大數(shù)據(jù)云存儲(chǔ)的效率[1]。
針對(duì)大數(shù)據(jù)云存儲(chǔ)問(wèn)題,研究相關(guān)文獻(xiàn)較多,其中丁穗娟[2]首先對(duì)待處理數(shù)據(jù)進(jìn)行并行特征劃分,并使用低負(fù)荷傳輸處理方式,降低存儲(chǔ)消耗能量,以此完成海量數(shù)據(jù)云存儲(chǔ)節(jié)能存儲(chǔ)方法,但是冗余數(shù)據(jù)問(wèn)題還能沒(méi)有能到有效解決,并且該手段對(duì)設(shè)備要求較高,無(wú)法廣泛應(yīng)用在現(xiàn)實(shí)生活中。高晨[3]設(shè)計(jì)一種混合云架構(gòu)作為云媒資的分布式存儲(chǔ)平臺(tái),同時(shí)為了提高可用性,利用個(gè)人私有云和第三方提供商為用戶(hù)提供能夠使的用云數(shù)據(jù)交換,加強(qiáng)存儲(chǔ)數(shù)據(jù)可挖掘功能使用資源交換戰(zhàn)略,完成多方面數(shù)據(jù)加密方式,有效提高存儲(chǔ)方法的安全性。可這樣卻提高了后續(xù)管理難度,并存在存儲(chǔ)效果較差等問(wèn)題。
基于此,本文使用密度演化方式來(lái)數(shù)據(jù)數(shù)據(jù)存儲(chǔ),密度演化是個(gè)體密度隨時(shí)間變化的過(guò)程,將密度演化方法應(yīng)用在大數(shù)據(jù)云存儲(chǔ)中可有效減少分布式儲(chǔ)存中冗余數(shù)據(jù),有效增強(qiáng)分布式大數(shù)據(jù)云存儲(chǔ)的準(zhǔn)確率與存儲(chǔ)效率[4.5]。
研究分布式大數(shù)據(jù)云存儲(chǔ)方法,首先要分析隨機(jī)系統(tǒng)密度演化理論。通過(guò)獲取隨機(jī)系統(tǒng)狀態(tài)概率來(lái)確定函數(shù)的密度演化進(jìn)展。常見(jiàn)性的隨機(jī)系統(tǒng)可以表示為
X=Gn(Xn,Θ,t)
(1)
式中:Xn表示為n維狀態(tài)向量;Gn表示為n維算子向量;Θ表示為聯(lián)合概率密度隨機(jī)向量;t表示為狀態(tài)響應(yīng)時(shí)間。從而獲得此方程的解析或數(shù)值解答。如果存在唯一解,式(1)應(yīng)轉(zhuǎn)換成式(2)
XI=HI(Θ,t),X=H(Θ,t)
(2)
式中:XI,HI分別表示為X,H的第I(I=1,2,…,n)個(gè)分量;H表示系統(tǒng)狀態(tài)為聯(lián)合概率密度隨機(jī)向量Θ的函數(shù)。
在{Θ=θ}時(shí)的條件概率密度函數(shù)表示為px|Θ(x,t|θ),θ表示為聯(lián)合概率密度閾值,x表示為隨機(jī)系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)。依據(jù)概率相容條件得出
(3)
由式(3)可知,在{Θ=θ}條件下,必有X=H(θ,t),換言之,在{Θ=θ}條件下,X=H(θ,t)以概率1成立,因而其互斥時(shí)間X≠H(θ,t)的概率(及其密度)必為0,可知
px|Θ(x,t|θ)=δ(px(x,t))
(4)
式中:δ表示為Dirac函數(shù),px(x,t)表示為狀態(tài)概率密度函數(shù)。根據(jù)條件概率公式,(X(t),Θ)的聯(lián)合概率密度函數(shù)見(jiàn)式(5)
pXΘ(x,θ,t)
=px|Θ(x,t|θ)pΘ(θ)δ(px(x,t)-H)pΘ(θ)X(t)
(5)
式中,X(t)表示概率密度為pXΘ的邊緣概率度函數(shù),pΘ(θ)表示為聯(lián)合概率密度函數(shù),由此可以得出狀態(tài)概率密度函數(shù)為
(6)
式中:ΩΘ表示為Θ的分布區(qū)域。
若將式(2)表示為一個(gè)由Θ到X的隨機(jī)向量變化,就可以由Θ的概率密度函數(shù)獲得X的概率密度函數(shù)。應(yīng)用復(fù)合函數(shù)的求導(dǎo)法對(duì)式(6)兩邊關(guān)于t求導(dǎo)。如式(7)所示
pXΘ(x,θ,t)=pΘ(θ)·[δ(x-H(θ,t))]
(7)
在復(fù)合函數(shù)微分法中,可用pXΘ(x,θ,t)表示在{Θ=θ}條件下復(fù)合函數(shù)的演化規(guī)律。據(jù)此,獲得廣義密度演化方程,即
pXΘ(x,θ,t)·δ+x-H(θ,t)=0
(8)
由式(5)得到演化初始條件為
pXΘ(x,θ,t)|t=0=δ(x-t)pΘ(θ)
(9)
演化邊界條件可定義為
pXΘ(x,θ,t)|x→±∞=0
(10)
將具有隨機(jī)參數(shù)的隨機(jī)系統(tǒng)為具有UI及初始條件的動(dòng)力系統(tǒng),隨機(jī)參數(shù)引入狀態(tài)向量,構(gòu)造增廣隨機(jī)系統(tǒng),獲得聯(lián)合概率密度的偏微方程。在通常情況下,此方程求解相對(duì)較難,為使得一般隨機(jī)系統(tǒng)可以求解,建立一維廣義密度演化方程。從而得出隨機(jī)系統(tǒng)的狀態(tài)概率[6]。
獲取隨機(jī)系統(tǒng)狀態(tài)概率后,分析分布式大數(shù)據(jù)云儲(chǔ)存方法[7]。分布式系統(tǒng)采用連通的無(wú)向圖G=(V,E)描述,其中V表示為頂點(diǎn)集,E表示為邊集,所有節(jié)點(diǎn)都有同樣的傳輸半徑r,WSN網(wǎng)絡(luò)的變化量φ∈E。分布式大數(shù)據(jù)的云存儲(chǔ)過(guò)程會(huì)根據(jù)分碼的結(jié)構(gòu)形成一個(gè)包含m個(gè)向量組A={A1A2…Am},A∈V。且每個(gè)傳輸集Si滿足以下條件
(11)
為保證數(shù)據(jù)在任何一次傳輸過(guò)程中都不發(fā)生沖突干擾,需要對(duì)數(shù)據(jù)進(jìn)行完整度檢測(cè),其中,AJ描述包含J個(gè)已調(diào)節(jié)數(shù)據(jù)向量。構(gòu)建云動(dòng)態(tài)數(shù)據(jù)采集模型,運(yùn)用聯(lián)合特征信息增益提取方法。引入了一個(gè)云存儲(chǔ)管理因子Ts?(0,0.5),假設(shè)被處理云采集數(shù)據(jù)是可分類(lèi)的。那么在采集數(shù)據(jù)集合S。當(dāng)Ts?S,AJ?A條件成立時(shí),大數(shù)據(jù)信息系統(tǒng)狀態(tài)相應(yīng)函數(shù)表達(dá)式見(jiàn)式(12)
(12)
式中:ai表示為大數(shù)據(jù)信息系統(tǒng)的個(gè)數(shù)。
根據(jù)通信理論中頻分復(fù)用理論,得到大數(shù)據(jù)頻率與行為關(guān)系,常用多普勒效用表示,多普勒頻移用公式描述為[8]
(13)
式中,yb表示通信接收端檢測(cè)到的發(fā)射頻率變化量;y0表示通信站發(fā)射端的載波頻率;z表示通信基站發(fā)射端的載波頻率;w表示傳輸功率[9]。
在此基礎(chǔ)上,構(gòu)建分布式云存儲(chǔ)基礎(chǔ)模型表示為
(14)
通過(guò)上述設(shè)計(jì),得到分布式云存儲(chǔ)基礎(chǔ)模型,確保大數(shù)據(jù)傳輸存儲(chǔ)過(guò)程中每條數(shù)據(jù)能夠獨(dú)立存在。為提高分布式大數(shù)據(jù)存儲(chǔ)效率對(duì)冗余數(shù)據(jù)進(jìn)行分類(lèi)。
冗余數(shù)據(jù)會(huì)嚴(yán)重影響正常數(shù)據(jù)的存儲(chǔ),因此需要對(duì)冗余數(shù)據(jù)分類(lèi)處理。數(shù)據(jù)在搜集時(shí)會(huì)出現(xiàn)網(wǎng)絡(luò)遲延,因此采用局部特性分析方法,依據(jù)冗余數(shù)據(jù)的特性以及相鄰領(lǐng)域的數(shù)據(jù)特征值進(jìn)行對(duì)比,以體現(xiàn)冗余數(shù)據(jù)的特征。密度演化的分布式大數(shù)據(jù)云存儲(chǔ)冗余數(shù)據(jù)分配流程圖見(jiàn)圖1。
圖1 冗余數(shù)據(jù)分配流程圖
采用最優(yōu)分類(lèi)操作,把冗余數(shù)據(jù)分類(lèi)問(wèn)題轉(zhuǎn)變成最優(yōu)平面求解的問(wèn)題
(15)
式中:R(β)表示第二次判別函數(shù),Z表示分類(lèi)閾值,Zj以及Zk分別表示yj和yk兩個(gè)向量的分類(lèi)閾值β描述為權(quán)重向量,p表示最大向量,yj·yk為兩個(gè)向量的標(biāo)量積,βj描述的是yj向量的權(quán)重,βk描述的是yk向量的權(quán)重,最優(yōu)分類(lèi)平面求解須滿足以下要求
(16)
假設(shè)分布式大數(shù)據(jù)云存儲(chǔ)中的冗余數(shù)據(jù)內(nèi)的特征產(chǎn)生為非線性轉(zhuǎn)換,那就要使用內(nèi)積L(yj,yk)替換最優(yōu)分類(lèi)函數(shù)內(nèi)的標(biāo)量積。最優(yōu)分類(lèi)平面求解問(wèn)題可以得出
(17)
式中,c′表示為分類(lèi)別屬性;g(y)表示為最優(yōu)分類(lèi)函數(shù)。該函數(shù)可以獲取密度演化分布式大數(shù)據(jù)云存儲(chǔ)中冗余數(shù)據(jù)片段,分類(lèi)出冗余數(shù)據(jù)并將其濾除[10]。
在上述得出分布式云存儲(chǔ)基礎(chǔ)框架、實(shí)現(xiàn)冗余數(shù)據(jù)分配的基礎(chǔ)上,完成密度演化下大數(shù)據(jù)云存儲(chǔ)方法的實(shí)現(xiàn),傳統(tǒng)數(shù)據(jù)存儲(chǔ)算法采用能量譜密度函數(shù),但是該方法造成存儲(chǔ)系統(tǒng)中存在較多干擾數(shù)據(jù),存儲(chǔ)效率地下。對(duì)此本文構(gòu)建以數(shù)據(jù)特征壓縮與密度演化相結(jié)合的云存儲(chǔ)方法[11]。利用匹配濾波器檢測(cè)方法對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,以特征預(yù)處理結(jié)果作為為輸出向量,減少冗余信息,同時(shí)為降低存儲(chǔ)成本,利用數(shù)據(jù)特征壓縮對(duì)數(shù)據(jù)進(jìn)行信息降維融合,進(jìn)行壓縮頻率普的聯(lián)合特征識(shí)別,讓其檢驗(yàn)統(tǒng)計(jì)量見(jiàn)式(18)
(18)
式中,M表示為云存儲(chǔ)節(jié)點(diǎn)的采樣點(diǎn)數(shù)。其中局部性交叉項(xiàng)信息鏈描述為
(19)
式中,Cb為傳輸調(diào)度中產(chǎn)生的異常數(shù)據(jù)個(gè)數(shù);T為傳輸調(diào)度產(chǎn)生異常數(shù)據(jù)的時(shí)間。f(x)為大數(shù)據(jù)分布式頻譜感知的聚類(lèi)中心,其公式可以表示為
f(x)=ωe-ωx
(20)
式中:ω表示為頻譜感知系數(shù),e表示為功率譜密度,頻譜感知節(jié)點(diǎn)u的競(jìng)爭(zhēng)集的定義見(jiàn)式(21)
(21)
通過(guò)式(21)產(chǎn)生出的云滴分區(qū)區(qū)域,構(gòu)建模糊隸屬函數(shù),多源節(jié)點(diǎn)中形成新的映射
(22)
把文件塊和文件塊的標(biāo)簽信息關(guān)聯(lián)到S-Table上。設(shè)計(jì)密度演化特這壓縮能量檢測(cè)器,如圖2所示。此時(shí),節(jié)點(diǎn)發(fā)送數(shù)據(jù)融合中心的概率為
圖2 大數(shù)據(jù)特征壓縮能量檢測(cè)器
(23)
式中,?表示為中心數(shù)據(jù)集。
基于上訴二元假設(shè)模型,構(gòu)建的檢驗(yàn)統(tǒng)計(jì)量且服從漸進(jìn)的正態(tài)分布,通過(guò)能量檢測(cè)和判決,實(shí)現(xiàn)大數(shù)據(jù)的云存儲(chǔ)數(shù)據(jù)壓縮[12]。
與此同時(shí)通過(guò)構(gòu)建分布式數(shù)據(jù)集數(shù)實(shí)現(xiàn)大數(shù)據(jù)聚集,減少云存儲(chǔ)冗余數(shù)據(jù)。通過(guò)特征壓縮,得到大數(shù)據(jù)的分布式云存儲(chǔ)壓縮特征識(shí)別的虛警概率和檢測(cè)概率分別表示
(24)
(25)
式中,N表示大數(shù)據(jù)虛警的統(tǒng)計(jì)總合;Pfi表示接受信號(hào)的時(shí)段數(shù),Pdi表示大數(shù)據(jù)的配置參數(shù)。
將云存儲(chǔ)中的大數(shù)據(jù)特征核函數(shù)描述為
(26)
式中,z表示為云存儲(chǔ)中的數(shù)據(jù)集;τ表示為云存儲(chǔ)所需的時(shí)間。以動(dòng)態(tài)頻譜接入的認(rèn)知技術(shù)為基礎(chǔ),得到大數(shù)據(jù)的變化特征識(shí)別數(shù)學(xué)模型表示為
(27)
對(duì)于兩個(gè)標(biāo)量時(shí)間序列y1和y2,其聯(lián)合概率函數(shù)為f(y1,y2),計(jì)算大數(shù)據(jù)簇內(nèi)的灰度相關(guān)特征,中心節(jié)點(diǎn)點(diǎn)增加功率來(lái)發(fā)送信標(biāo)信息,將大數(shù)據(jù)庫(kù)的灰度相關(guān)特征切分為若干數(shù)據(jù)塊Chunk,由此實(shí)現(xiàn)了大數(shù)據(jù)分布式云存儲(chǔ)。
為驗(yàn)證提出的大數(shù)據(jù)分布式云存儲(chǔ)方法的有效性,設(shè)計(jì)仿真。實(shí)驗(yàn)采用MATLAB2011a版本作為仿真平臺(tái),在該軟件中接入Hadoop云平臺(tái),并在Hadoop云平臺(tái)上搭建分布式數(shù)據(jù)庫(kù)系統(tǒng)。在oracle數(shù)據(jù)庫(kù)內(nèi)選取100組數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,每組數(shù)據(jù)包含25個(gè)數(shù)據(jù)節(jié)點(diǎn),每個(gè)數(shù)據(jù)節(jié)點(diǎn)占據(jù)4個(gè)字節(jié),平均分布在200*200MB的分布式網(wǎng)絡(luò)中。
采用文獻(xiàn)[2]、文獻(xiàn)[3]方法作為實(shí)驗(yàn)對(duì)照方法,使用相同實(shí)驗(yàn)環(huán)境進(jìn)行仿真。分別采用三種方法對(duì)冗余數(shù)據(jù)分類(lèi),得到冗余數(shù)據(jù)分類(lèi)準(zhǔn)確率對(duì)比結(jié)果如圖3所示。
圖3 冗余數(shù)據(jù)分配準(zhǔn)確率對(duì)比圖
根據(jù)圖3可以看出中,采用文獻(xiàn)[2]方法對(duì)分布式大數(shù)據(jù)中的冗余數(shù)據(jù)分類(lèi),得到分類(lèi)準(zhǔn)確率平均值為78%,采用文獻(xiàn)[3]方法得到的分類(lèi)準(zhǔn)確率平均值為83%,準(zhǔn)確率均較低。而采用本文方法得到的分類(lèi)準(zhǔn)確率平均值達(dá)到了98%,通過(guò)上述分析可知,本文方法能夠有效分類(lèi)分布式大數(shù)據(jù)中存在的冗余數(shù)據(jù),節(jié)省存儲(chǔ)空間。
在此基礎(chǔ)上,驗(yàn)證三種方法的耗能及耗時(shí)情況,對(duì)比結(jié)果如圖4、圖5所示:
圖4 分布式大數(shù)據(jù)云存儲(chǔ)耗時(shí)對(duì)比圖
圖5 分布式大數(shù)據(jù)云存儲(chǔ)耗能對(duì)比圖
通過(guò)圖4可知,在相同數(shù)量的分布式大數(shù)據(jù)中,采用文獻(xiàn)[2]方法存儲(chǔ)大數(shù)據(jù)的時(shí)間最長(zhǎng),其次為文獻(xiàn)[3]方法,本文方法耗時(shí)最小,在15s內(nèi)就能夠完成100組數(shù)據(jù)的存儲(chǔ)過(guò)程。
通過(guò)圖5可以看出,在同樣的實(shí)驗(yàn)環(huán)境下,文獻(xiàn)[2]方法耗能為80Byte,文獻(xiàn)[3]方法耗能為85Byte,本文方法則耗能最低,為30Byte。綜合圖4、圖5能夠得出,采用本文方法存儲(chǔ)分布式大數(shù)據(jù)的耗時(shí)短、耗能低,有著較高的存儲(chǔ)效率。
日益增長(zhǎng)的云存儲(chǔ)需求是現(xiàn)階段較難解決的問(wèn)題,同時(shí)這也給社會(huì)提供了突破創(chuàng)新的路徑,通過(guò)密度演化能夠確定數(shù)據(jù)在存儲(chǔ)過(guò)程中存在的冗余信息,通過(guò)合理的分配手段,減低冗余部分對(duì)云存儲(chǔ)的印象,提升整體存儲(chǔ)效率。分布式存儲(chǔ)結(jié)果又可以幫助大數(shù)據(jù)完成冗余數(shù)據(jù)分配,最大程度的提升云存儲(chǔ)整體效率和精準(zhǔn)度。在仿真中得出,本文所提方法能夠優(yōu)秀完成大數(shù)據(jù)存儲(chǔ)任務(wù),并且減低的冗余數(shù)據(jù)和提升數(shù)據(jù)分配精準(zhǔn)度,為社會(huì)日益增長(zhǎng)的大數(shù)據(jù)提供的長(zhǎng)遠(yuǎn)的存儲(chǔ)方法,適用于各個(gè)領(lǐng)域中,可廣泛運(yùn)用在現(xiàn)實(shí)生活中。
同時(shí),實(shí)驗(yàn)證明本文方法雖然能夠減少冗余信息,提升了方法效率,但是卻不能夠完全的杜絕冗余數(shù)據(jù)的產(chǎn)生,那么接下來(lái)的研究方法就是如何通過(guò)使冗余降低至最小,甚至是可以忽略不計(jì)的程度,使得可以不計(jì)算冗余分配,由此減少方法步驟,在最大程度上提升方法的運(yùn)行效率,以便更好的運(yùn)行在現(xiàn)實(shí)環(huán)境中。