陳 虹,趙有俊
(景德鎮(zhèn)陶瓷大學(xué),江西 景德鎮(zhèn) 333001)
小樣本數(shù)據(jù)庫是目前常見的數(shù)據(jù)儲存形式之一[1]。數(shù)據(jù)質(zhì)量將直接影響小樣本數(shù)據(jù)庫的工作效率[2]。特別是小樣本數(shù)據(jù)庫中的差異數(shù)據(jù),會在很大程度上降低小空間存儲信息的質(zhì)量。
王桌芳等人提出一種基于興趣度度量的多類差異數(shù)據(jù)挖掘消除方法[3],利用興趣度度量方法檢測大規(guī)模差分數(shù)據(jù)庫,計算數(shù)據(jù)簇之間距離后獲取隱藏文本數(shù)據(jù)特征,然后根據(jù)數(shù)據(jù)過濾算法流程對數(shù)據(jù)進行處理,從而檢測并剔除數(shù)據(jù)庫內(nèi)的差異數(shù)據(jù)。朱贊生等人提出一種基于B樣條曲線的異常數(shù)據(jù)剔除方法[4],在構(gòu)造初始擬合數(shù)據(jù)的基礎(chǔ)上,然后利用B樣條曲線構(gòu)造遞推模型,并基于樣條平滑方法判斷門限,從而判定數(shù)據(jù)是否異常,并對于異常數(shù)據(jù)及時剔除。
但上述兩種方法對差異數(shù)據(jù)的消除率還有待提高。為此,本文基于云計算技術(shù)設(shè)計了小樣本數(shù)據(jù)庫間差異消除方法。根據(jù)差異數(shù)據(jù)相關(guān)特征確定異常數(shù)據(jù)的偏差函數(shù),再在時間序列內(nèi)去掉差異數(shù)據(jù)點,最終實現(xiàn)對小樣本數(shù)據(jù)庫中差異數(shù)據(jù)的消除。與傳統(tǒng)方法相比,本文方法對差異數(shù)據(jù)的消除率更高,從而提升了小樣本數(shù)據(jù)庫的信息儲存質(zhì)量。
云計算數(shù)據(jù)庫是現(xiàn)階段較常使用的數(shù)據(jù)庫之一,其中涵蓋大量不同種類的數(shù)據(jù)信息,能夠根據(jù)要求構(gòu)建多種多樣的小樣本數(shù)據(jù)庫,具有很高的實時性、有效性和快速性。云計算數(shù)據(jù)庫通過集群應(yīng)用網(wǎng)格技術(shù)或分布式文件系統(tǒng)的功能,將網(wǎng)絡(luò)中大量不同類型的存儲設(shè)備通過應(yīng)用軟件組合在一起,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能。
云計算數(shù)據(jù)庫體系結(jié)構(gòu)如圖1所示。頂層為應(yīng)用層,主要為用戶提供對接服務(wù);中間層為服務(wù)層,分為應(yīng)用服務(wù)層和分布式服務(wù)層,由中間件相連,主要為應(yīng)用層提供服務(wù);底層為節(jié)點存儲層,主要為節(jié)點數(shù)據(jù)提供物理存儲,從而形成完整的數(shù)據(jù)信息庫。
利用云計算平臺將數(shù)據(jù)存儲在如圖1所示的數(shù)據(jù)庫中,結(jié)合差異數(shù)據(jù)消除方法,可以有效保證不同類型的云數(shù)據(jù)庫不存在重復(fù)數(shù)據(jù),避免數(shù)據(jù)異構(gòu)性等差異,有效降低構(gòu)建的小樣本數(shù)據(jù)庫間差異性,從根本上提升數(shù)據(jù)庫儲存的實時性、快速性和可靠性。
一般來說,為了增強實驗的有效性,需要利用不同樣本對象進行多次迭代操作,幫助所設(shè)計的方法在最真實環(huán)境下獲得最優(yōu)結(jié)果,以便更好地進行改進或優(yōu)化。同時,在本文方法設(shè)計過程中,為了提高運算速度,目標(biāo)數(shù)據(jù)節(jié)點不僅要將源數(shù)據(jù)節(jié)點上的數(shù)據(jù)集成到目標(biāo)節(jié)點上,還要能夠在一定時間內(nèi)與源數(shù)據(jù)節(jié)點上的集成數(shù)據(jù)保持同步。當(dāng)目標(biāo)數(shù)據(jù)節(jié)點和源數(shù)據(jù)節(jié)點同步數(shù)據(jù)時,數(shù)據(jù)長度要盡可能短,盡可能少地使用傳輸帶寬來完成對不同性質(zhì)差異數(shù)據(jù)消除。
假設(shè)當(dāng)局部空間為線性時,每個小樣本數(shù)據(jù)庫中的數(shù)據(jù)采樣點總是處于高維空間映射的低維空間中的相應(yīng)位置。因此,在分析差異數(shù)據(jù)特征時,需以性質(zhì)相同的數(shù)據(jù)為基礎(chǔ),提取相關(guān)特征量。假設(shè)初始差分樣本集為f(x,y),其中,x=0,1…,p-1,y=0,1…q-1,可得出空間相關(guān)函數(shù)表達式為
(1)
式(1)中,a和b均為正整數(shù)。充分結(jié)合空間保護的特點,可獲得差異數(shù)據(jù)庫中數(shù)據(jù)的自適應(yīng)分布函數(shù),其表達公式為
(2)
式(2)中:N代表差異數(shù)據(jù)庫中的數(shù)據(jù)對象數(shù)量,rn代表距數(shù)據(jù)的有效距離,C(xn)代表數(shù)據(jù)特征量,k代表數(shù)據(jù)調(diào)整因子[5]。
(3)
式(3)中,ζ代表樣本數(shù)據(jù)特征提取誤差個數(shù),σ代表懲罰因子,P(X)代表數(shù)據(jù)分布函數(shù),l代表任意兩數(shù)據(jù)見的平均間距[6]。通過上述處理,完成了差異數(shù)據(jù)特征的有效提取。
檢測不同小樣本數(shù)據(jù)庫中存在的差異數(shù)據(jù),是保證有效消除差異數(shù)據(jù)的重要基礎(chǔ)。本研究在設(shè)定閾值的基礎(chǔ)上,以模式識別的方式完成對差異數(shù)據(jù)的檢測[7]。具體過程如下所示:
如果使用不同類型的數(shù)據(jù)庫進行屬性匹配操作,數(shù)據(jù)中存在的性質(zhì)差異將會嚴重影響結(jié)果的準確性。因此,可通過判斷數(shù)據(jù)庫間可能為相同屬性數(shù)據(jù)間的相似程度,用以去除差異數(shù)據(jù),從而保證檢測和消除結(jié)果的質(zhì)量。
在非線性檢測理論的基礎(chǔ)上,通過Duffing混沌振子判斷小樣本數(shù)據(jù)庫間差異數(shù)據(jù),其混沌模型可以描述為下式
(4)
式(4)中,αd+β代表數(shù)據(jù)庫的非線性恢復(fù)力。當(dāng)αd+β的數(shù)值不變時,那么相關(guān)振子系統(tǒng)變化趨勢取決于策動力。當(dāng)γ=0時,所對應(yīng)點必須在(0,0)或(+1,0)上。若γ值持續(xù)增大時,混沌狀態(tài)將轉(zhuǎn)變?yōu)榇蟪叨戎芷跔顟B(tài)。在此過程中,平臺將展現(xiàn)較強的抗干擾能力。
在檢測過程中,需要獲得合適的參數(shù)和策略動態(tài)系數(shù),使系統(tǒng)始終處于由混沌狀態(tài)到大尺度周期過渡的臨界狀態(tài)。如果設(shè)置擾動力φ,且使其與驅(qū)動力之間存在小的頻率差Δω,那么總驅(qū)動力的表達式為
A(φ)=(γcos(x′+y′)+cos(Δω))×t
(5)
式(5)中,t代表時間窗口。由此可知,小頻差會嚴重影響系統(tǒng)的總策略功率,需令系統(tǒng)始終保持混沌與最大尺度周期間的過渡。經(jīng)過運算得出過度過程的狀態(tài)為
(6)
(7)
在此基礎(chǔ)上,設(shè)置B代表集合X的分段數(shù),HB代表分段集,可得出整個時間序列的誤差集,其表達式如下
(8)
若時間序列中的第i段由bi代表,g?bi可代表偏差集,則從上述分析來看,如果bi時間序列中的偏差點數(shù)為z,那么其均方偏差表達式如下
(9)
(10)
式(10)中,u表示偏差點數(shù)。
在小樣本數(shù)據(jù)庫中,選擇一些數(shù)據(jù)樣本并對這些數(shù)據(jù)的屬性展開分類,將每個數(shù)據(jù)屬性的屬性特征作為一維數(shù)據(jù),對數(shù)據(jù)屬性特征實施聚類。確定數(shù)據(jù)差異點集的主要原因是運算出偏差函數(shù)的最小值[9-10]。
根據(jù)相關(guān)原理,上文構(gòu)造了偏差函數(shù)W,在此基礎(chǔ)上,構(gòu)造偏差函數(shù)W的遞推表達式VW如下
(11)
分段數(shù)為r的時間序列是x1…xr計算了最小均方差的最優(yōu)策略,獲得其均方偏差計算過程為E(i,j,r)??梢钥闯?,用E(i,j-1,r)代表時間序列j-1的最優(yōu)策略x1…xr。當(dāng)分段數(shù)為j-1時,此時存在r個偏差[11]。
結(jié)合上述過程,若e代表差異數(shù)據(jù)點,那么需要在時間序列內(nèi)去掉它,并且偏差函數(shù)W的參數(shù)需要實時更新。如果e是正常數(shù)據(jù)點,那么需要添加新的λ變量以更新偏差函數(shù)W。因此,需要將e和λ分別進行更新,過程如下
(12)
(13)
通過式(12)和式(13)可知,可通過下式完成對偏差函數(shù)W的更新
(14)
通過確定云計算下小樣本數(shù)據(jù)庫間差異數(shù)據(jù)點以及偏差函數(shù),可實現(xiàn)對差異數(shù)據(jù)的檢測,在此基礎(chǔ)上,可實現(xiàn)對小樣本數(shù)據(jù)庫間差異的消除。同時為了最大程度減少樣本自身信息干擾,需要利用種群算法對不同樣本對象進行多次迭代操作,幫助所設(shè)計的方法在最真實環(huán)境下獲得最優(yōu)結(jié)果,因此,需要進行個體選擇。當(dāng)子代中大多數(shù)個體的適應(yīng)度不如父代時,用父代中最好的個體代替子代中最差的個體,這樣可以保證消除結(jié)果的收斂性[12]。
為了建立一個穩(wěn)定的差異數(shù)據(jù)選擇、消除過程,防止超級個體在種群中過大,需根據(jù)個體適應(yīng)度的順序確定選擇概率,使個體選擇在個體間適應(yīng)度差距較小時也能夠順利完成。具體過程如下:
第一步:計算組內(nèi)所有個體的適應(yīng)度值ηn,同時按降序排列,數(shù)n代表個體;
(15)
結(jié)合式(15),利用差異備份來對差異數(shù)據(jù)備份文件和差異指示文件進行保存,并完成消除。
差異數(shù)據(jù)備份文件用G
為驗證本研究設(shè)計的云計算下小樣本數(shù)據(jù)庫間差異消除方法的有效性,設(shè)計如下仿真加以驗證。
實驗通過2000行以上的C++代碼構(gòu)建差異數(shù)據(jù)消除引擎模塊,并為單機服務(wù)器配置2.53GHz英特爾酷睿2雙核處理器,存儲池采用4TB內(nèi)存容量,250GB SAS硬盤,通過千兆以太網(wǎng)(西部數(shù)字160gbwd1600 aajsata)和1個固態(tài)硬盤(金斯敦64gbssd-nov100series 2.5〃sataii)RAID 0磁盤陣列系統(tǒng)連接一個硬盤和兩個硬盤。為了避免本次實驗結(jié)果過于單一、缺乏對比性,將文獻[3]中的基于興趣度度量的多類差異數(shù)據(jù)挖掘提出方法和文獻[4]中的基于B樣條曲線的異常數(shù)據(jù)剔除方法作為對比方法,使用本文方法、文獻[3]方法和文獻[4]方法對實驗環(huán)境中的差異數(shù)據(jù)進行消除。繼而檢驗不同方法的應(yīng)用性能。
為了增強實驗的有效性,根據(jù)數(shù)據(jù)的不同性質(zhì)將其劃分為DOC數(shù)據(jù)、TXT數(shù)據(jù)、PPT數(shù)據(jù)、VMDK數(shù)據(jù)、EXE數(shù)據(jù)、PDF數(shù)據(jù)六種,在此基礎(chǔ)上,測試本文方法的消除效果,結(jié)果如圖2所示。圖2中,左縱坐標(biāo)代表不同性質(zhì)文件數(shù)據(jù)的大小,水平橫坐標(biāo)代表六種不同屬性的數(shù)據(jù),右縱坐標(biāo)代表差異數(shù)據(jù)消除率的大小。
圖2 差異消除效果對比圖
分析圖2可知,僅僅在處理DOC文件時,本文方法對差異數(shù)據(jù)的去除率略小于90%,在處理其余5種類型數(shù)據(jù)時,本文方法對差異數(shù)據(jù)的去除率均在90%以上。證明本文方法能夠有效去除差異數(shù)據(jù),縮小數(shù)據(jù)量,具有較高的差異去除率。
為了進一步突出本文算法的應(yīng)用優(yōu)勢,將本文方法與文獻[3]方法和文獻[4]方法對差異數(shù)據(jù)的消除效果進行比較分析,具體對比結(jié)果如圖3所示。圖3中,縱坐標(biāo)為對差異復(fù)數(shù)據(jù)消除率,橫坐標(biāo)為六種不同的數(shù)據(jù)屬性。
圖3 不同方法的消除效果對比
通過圖3能清晰地反映出三種不同方法對差異數(shù)據(jù)的消除效果。其中,本文方法對差異數(shù)據(jù)的消除率相對最高。文獻[3]方法對差異數(shù)據(jù)的消除率整體呈上升態(tài)勢,但總體消除率小于本文方法。文獻[4]方法對差異數(shù)據(jù)的消除率相對最小,始終處于85%以下。由此可知,相比于兩種對比方法,本文方法的消除效果更高,能夠有效去除小樣本數(shù)據(jù)庫中的差異數(shù)據(jù),具有高效性和廣泛應(yīng)用性。
本文提出了一種云計算下小樣本數(shù)據(jù)庫間差異消除方法,并利用六種不同屬性的數(shù)據(jù)設(shè)計對比實驗,檢測小樣本數(shù)據(jù)庫間差異數(shù)據(jù)消除率,從而驗證了本文方法的高效性。
在研究中,為提高對差異數(shù)據(jù)的消除速度,需將源數(shù)據(jù)節(jié)點上的數(shù)據(jù)集成到同一個目標(biāo)節(jié)點上,不同來源的集成數(shù)據(jù)需保持同步,且數(shù)據(jù)長度要盡可能短,從而減少傳輸帶寬的影響。
在接下來的研究中,將著重于去除數(shù)據(jù)庫內(nèi)的冗余數(shù)據(jù),進一步提高云計算數(shù)據(jù)庫數(shù)據(jù)質(zhì)量。