衛(wèi)朝霞,徐 艷
(四川大學(xué)錦城學(xué)院,四川 成都 611731)
大型的分布式存儲(chǔ)系統(tǒng)中,通常將同一數(shù)據(jù)的不同副本存儲(chǔ)在多個(gè)異地?cái)?shù)據(jù)庫(kù)上,由于部分副本數(shù)據(jù)庫(kù)是可移動(dòng)的,很難保證可以實(shí)時(shí)更新最新數(shù)據(jù)信息,如何保證異地?cái)?shù)據(jù)庫(kù)中不同副本的數(shù)據(jù)一致性已成為開發(fā)高效分布式信息存儲(chǔ)機(jī)制必不可少的關(guān)鍵技術(shù)。
針對(duì)這一問題,相關(guān)科研人員提出了幾種分布式存儲(chǔ)信息一致性控制方法:文獻(xiàn)[1]運(yùn)用值計(jì)算的方法控制分布式存儲(chǔ)機(jī)制傳輸數(shù)據(jù)一致性,通過構(gòu)建大規(guī)模異地?cái)?shù)據(jù)傳輸架構(gòu),對(duì)數(shù)據(jù)包中的數(shù)據(jù)進(jìn)行分塊處理和值計(jì)算,得到值和序列號(hào),對(duì)數(shù)據(jù)包是否連續(xù)進(jìn)行判斷。文獻(xiàn)[2]重新定義了條件函數(shù)依賴和微函數(shù)依賴,應(yīng)用依賴控制數(shù)據(jù)一致性,確定了依賴集合,發(fā)現(xiàn)違反依賴的錯(cuò)誤數(shù)據(jù)和修復(fù)錯(cuò)誤,并對(duì)其中兩個(gè)步驟展開了深入的研究。
但是以上兩種方法還存在一些問題,主要有兩個(gè)方面:?jiǎn)栴}1:數(shù)據(jù)存儲(chǔ):傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式,需要設(shè)立1個(gè)或者多個(gè)字段用于記錄數(shù)據(jù)的更新記錄,大大增加了存儲(chǔ)的開銷;問題2:數(shù)據(jù)傳輸:傳統(tǒng)的數(shù)據(jù)一致性控制方法對(duì)網(wǎng)絡(luò)通信開銷的需求比較大,一般的互聯(lián)網(wǎng)環(huán)境很難滿足。
基于此,本文提出了一種基于模式識(shí)別的分布式存儲(chǔ)信息一致性控制方法。模式識(shí)別相對(duì)于其它控制方法特征分類更精準(zhǔn),安全性更高,開銷成本更低,同時(shí)結(jié)合數(shù)據(jù)全相關(guān)的一致性更新技術(shù),可以有效并且在節(jié)約存儲(chǔ)開銷的前提下完成對(duì)分布式信息存儲(chǔ)機(jī)制的一致性控制。
分布式信息存儲(chǔ)機(jī)制由主副本兩部分組成:
1)副本移動(dòng)端
如PDA、手機(jī)、筆記本電腦等是可進(jìn)行移動(dòng)的便攜電子設(shè)備,其數(shù)據(jù)庫(kù)為副本數(shù)據(jù)庫(kù)[3-4]。
2)主本固定端
有固定的數(shù)據(jù)存儲(chǔ)設(shè)備,安全性、可靠性極高。具有可用來傳輸數(shù)據(jù)的通信接口,可以和副本數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)傳輸,其數(shù)據(jù)庫(kù)為主本數(shù)據(jù)庫(kù)。
分布式信息存儲(chǔ)機(jī)制如圖1所示。
圖1 分布式信息存儲(chǔ)機(jī)制
該分布式信息存儲(chǔ)機(jī)制分為3層結(jié)構(gòu):
結(jié)構(gòu)1:中心控制端
中心控制端是主本數(shù)據(jù)庫(kù)所在的固定端。采集分布式信息存儲(chǔ)機(jī)制所有的數(shù)據(jù)集,可以操控整個(gè)系統(tǒng),以及對(duì)副本的權(quán)限進(jìn)行設(shè)置。
結(jié)構(gòu)2:傳輸控制端
傳輸控制端對(duì)主副本各節(jié)點(diǎn)之間的數(shù)據(jù)信息進(jìn)行傳輸,并判斷其使用的廣域網(wǎng)還是企業(yè)內(nèi)部的局域網(wǎng)或者企業(yè)網(wǎng)。
結(jié)構(gòu)3:移動(dòng)端
移動(dòng)端中的各個(gè)副本由于是可移動(dòng)的,工作環(huán)境復(fù)雜多變,而且是不可預(yù)測(cè)的,很難具備實(shí)時(shí)更新數(shù)據(jù)的條件,但分布式信息存儲(chǔ)機(jī)制中的主本數(shù)據(jù)處在動(dòng)態(tài)變化之中,而且每個(gè)數(shù)據(jù)的副本數(shù)量多。
為了提高分布式信息存儲(chǔ)機(jī)制的存儲(chǔ)效率、時(shí)效性、可用性以及可靠性,需要采用主副本的方式來存儲(chǔ)信息。建立副本存儲(chǔ)機(jī)制不但可以提高數(shù)據(jù)的可靠性、安全性,而且還可以大大提高整個(gè)系統(tǒng)的存儲(chǔ)效率。但是副本也需要占用一部分的存儲(chǔ)空間,增加了整個(gè)分布式信息存儲(chǔ)機(jī)制的復(fù)雜性。對(duì)副本的實(shí)時(shí)更新成為控制分布式信息存儲(chǔ)機(jī)制一致性的重要研究?jī)?nèi)容。圖2為產(chǎn)品數(shù)據(jù)規(guī)劃圖,以某企業(yè)B為例,達(dá)到分布式存儲(chǔ)產(chǎn)品數(shù)據(jù)一致性更新的目的。
圖2 產(chǎn)品數(shù)據(jù)規(guī)劃圖
在圖2產(chǎn)品數(shù)據(jù)規(guī)劃圖中,企業(yè)B擁有零件Pi的生產(chǎn)權(quán)限,下屬部門有B1和B2,B2部門擁有零件Pi的數(shù)據(jù)主本數(shù)據(jù)以及研發(fā)設(shè)計(jì)權(quán)限。有關(guān)零件Pi的主本信息如結(jié)構(gòu)化數(shù)據(jù)、有關(guān)零件Pi的全部文檔信息存儲(chǔ)在企業(yè)B的數(shù)據(jù)庫(kù)中;一些副本信息如非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在企業(yè)B與其它企業(yè)A、C、F的分布式存儲(chǔ)系統(tǒng)中。為了更好的實(shí)現(xiàn)信息一致性控制,可以借助文件指針功能把企業(yè)B數(shù)據(jù)庫(kù)中的主副本信息聯(lián)系在一起,實(shí)時(shí)更新主副本數(shù)據(jù)以達(dá)到主副本信息一致性控制的目的。為了防止數(shù)據(jù)丟失或損壞,將數(shù)據(jù)分布式存儲(chǔ)在企業(yè)A的數(shù)據(jù)庫(kù)中,當(dāng)做零件Pi的備份數(shù)據(jù)。則企業(yè)B對(duì)零件Pi的數(shù)據(jù)進(jìn)行更新的同時(shí)也要對(duì)企業(yè)A的數(shù)據(jù)庫(kù)中有關(guān)零件Pi的數(shù)據(jù)進(jìn)行一致性更新。企業(yè)C和企業(yè)F是零件Pi的相關(guān)配件企業(yè),如子裝配件、套用件、裝配基準(zhǔn)件等可能來自企業(yè)C或者企業(yè)F。所以當(dāng)企業(yè)B有關(guān)零件Pi的數(shù)據(jù)發(fā)生變化時(shí),相應(yīng)的也要及時(shí)更新企業(yè)C和企業(yè)F的次級(jí)庫(kù)的產(chǎn)品數(shù)據(jù)。
由于零件Pi由企業(yè)B生產(chǎn)研發(fā),那么企業(yè)B所擁有的有關(guān)零件Pi的所有產(chǎn)品數(shù)據(jù)都是主本數(shù)據(jù),而企業(yè)A是該數(shù)據(jù)的備份存儲(chǔ)部門,企業(yè)C和企業(yè)F是相關(guān)配件企業(yè),所以企業(yè)A、C、F中有關(guān)零件Pi的數(shù)據(jù)是零件Pi數(shù)據(jù)的副本。
如圖2中的部門B2是零件Pi的設(shè)計(jì)研發(fā)部門,B1是零件Pi數(shù)據(jù)備份部門,對(duì)于企業(yè)B內(nèi)部的多個(gè)設(shè)計(jì)或者制造部門,由于這些部門使用的是企業(yè)內(nèi)部的局域網(wǎng)或者是企業(yè)網(wǎng),使用的是同一個(gè)網(wǎng)絡(luò)地址,所以企業(yè)B的所有部門都擁有零件Pi的主本數(shù)據(jù)信息,并且各部門之間不存在數(shù)據(jù)一致性要求。
在企業(yè)B有關(guān)零件Pi的主副本數(shù)據(jù)存儲(chǔ)方式中,對(duì)于零件Pi的數(shù)據(jù)需要在中心庫(kù)、次級(jí)庫(kù)和數(shù)據(jù)相關(guān)性的其它次級(jí)庫(kù)重復(fù)更新設(shè)置,這種分布式存儲(chǔ)信息的方法較為復(fù)雜,但是安全性極高。每個(gè)企業(yè)節(jié)點(diǎn)都有零件Pi的副本數(shù)據(jù),當(dāng)其中某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),不會(huì)影響其它企業(yè)繼續(xù)使用這些數(shù)據(jù),而且每個(gè)節(jié)點(diǎn)使用的都是企業(yè)內(nèi)部的局域網(wǎng)或者企業(yè)網(wǎng),不使用廣域網(wǎng),相對(duì)成本也較低。因此采用數(shù)據(jù)全相關(guān)的一致性更新技術(shù),可以滿足異地企業(yè)之間動(dòng)態(tài)聯(lián)盟的數(shù)據(jù)管理要求。
在這種分布式信息存儲(chǔ)機(jī)制中,擁有產(chǎn)品數(shù)據(jù)主本的企業(yè)對(duì)數(shù)據(jù)進(jìn)行更新和維護(hù),以保證實(shí)時(shí)更新其它相關(guān)企業(yè)的數(shù)據(jù)。當(dāng)數(shù)據(jù)主本發(fā)生改變時(shí),數(shù)據(jù)全相關(guān)的一致性更新機(jī)制將所有有關(guān)產(chǎn)品數(shù)據(jù)的企業(yè)節(jié)點(diǎn)庫(kù)中的數(shù)據(jù)副本進(jìn)行更新。
模式識(shí)別技術(shù)在數(shù)據(jù)的處理、特征的提取等方面有一定的優(yōu)越性,且在各行業(yè)中應(yīng)用廣泛,因此本文利用該方法提取數(shù)據(jù)特征信息。
特征選擇方法一般有篩選和復(fù)選兩種。篩選與復(fù)選的方式有所不同,篩選中判別函數(shù)J(X)所得到的最優(yōu)特征子集只依賴于訓(xùn)練樣本,而復(fù)選主要是依據(jù)分類器的學(xué)習(xí)算法在不同特征子集上的正確識(shí)別率,來判斷所選子集是否為最優(yōu)特征子集。那么可知訓(xùn)練樣本的統(tǒng)計(jì)特性同時(shí)影響篩選和復(fù)選的結(jié)果,并且測(cè)試樣本的學(xué)習(xí)算法復(fù)選的結(jié)果也有一定的影響,復(fù)選在實(shí)際的應(yīng)用中會(huì)比篩選難的多,所以應(yīng)用的也比篩選少。
無論用篩選或者復(fù)選哪一種方法,在d中選取r的最優(yōu)特征子集最簡(jiǎn)單也是最常用的方法就是衡量每一個(gè)特征子集,從中找出使J(X)可以達(dá)到最大值的那個(gè)特征子集。
為了解決這個(gè)問題,通過模式識(shí)別法來獲取最優(yōu)特征子集,找出可以構(gòu)成最優(yōu)特征子集所需的單個(gè)特征。雖然這種方法不能保證找出的就是最優(yōu)特征子集,或者說找到的就是次優(yōu)特征子集,但是由于這種方法計(jì)算量非常的小,在實(shí)際應(yīng)用中也是比較常見的。本文通過大量分析得出,在所有d沒有任何關(guān)系時(shí),單個(gè)最優(yōu)特征所構(gòu)成的子集未必是最優(yōu)特征子集,但是自動(dòng)文本分類的諸多實(shí)驗(yàn)數(shù)據(jù)說明,由單個(gè)最優(yōu)特征構(gòu)成最優(yōu)特征子集依然是應(yīng)用最多的一種方法。在大量提取單個(gè)最優(yōu)特征的算法中,模式識(shí)別最為有效。
在從d中選取r個(gè)特征的計(jì)算如下:
d中的每個(gè)特征f與類別標(biāo)號(hào)的互信息用式(1)表示為
(1)
其中,f的觀測(cè)值用x表示,x的類別標(biāo)號(hào)用?表示。
將互信息最大的r個(gè)特征選取出來,構(gòu)成所需的最優(yōu)特征子集,以便接下來對(duì)分布式存儲(chǔ)信息進(jìn)行一致性控制。
將數(shù)據(jù)模型定義比較常見的二元組(ID,DataSet)。ID可以表示其中某一個(gè)數(shù)據(jù)項(xiàng),也可以表示多個(gè)數(shù)據(jù)項(xiàng)結(jié)合起來所構(gòu)建的,是數(shù)據(jù)庫(kù)中每組數(shù)據(jù)獨(dú)有的標(biāo)識(shí);DataSet表示與ID相對(duì)應(yīng)的某一個(gè)數(shù)據(jù)集合。
對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行操作主要有添加、修改、刪除三種。對(duì)數(shù)據(jù)進(jìn)行這三種操作所產(chǎn)生的數(shù)據(jù)集就是結(jié)構(gòu)序列,為了實(shí)現(xiàn)計(jì)算機(jī)編程計(jì)算,將這三種操作用形式化表達(dá)為:
1)ADD(ID,DataSet),對(duì)ID所對(duì)應(yīng)的數(shù)據(jù)項(xiàng)中增加一個(gè)DataSet
2)DELETE(ID,DataSet),對(duì)ID所對(duì)應(yīng)的數(shù)據(jù)項(xiàng)中刪除DataSet;
3)MODIFY(ID,DataSet),修改ID所對(duì)應(yīng)的數(shù)據(jù)項(xiàng)DataSet。
對(duì)同一個(gè)DataSet執(zhí)行多次重復(fù)的添加、刪除和修改,只有第一次操作對(duì)數(shù)據(jù)產(chǎn)生實(shí)際改變。
當(dāng)對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行添加、刪除或者修改時(shí),操作記錄會(huì)被記錄在分布式信息存儲(chǔ)機(jī)制的結(jié)構(gòu)序列[5]中。結(jié)構(gòu)序列由以下三種格式構(gòu)成:
1)(“+”,ID,DataSet):對(duì)ID添加了一個(gè)DataSet;
2)(“-”,ID,DataSet):對(duì)ID刪除了一個(gè)DataSet;
3)(“`”,ID,DataSet):對(duì)ID修改了數(shù)據(jù)DataSet。
結(jié)構(gòu)序列僅記錄對(duì)數(shù)據(jù)產(chǎn)生實(shí)際改變的操作,并且只有提交對(duì)數(shù)據(jù)的操作,使數(shù)據(jù)發(fā)生改變,操作記錄[6]才會(huì)被記錄在結(jié)構(gòu)序列中。如果對(duì)一個(gè)數(shù)據(jù)項(xiàng)添加或者刪除一個(gè)已經(jīng)存在的數(shù)據(jù)時(shí),數(shù)據(jù)項(xiàng)不會(huì)發(fā)生任何的改變,也不會(huì)有操作記錄,更不會(huì)被記錄在結(jié)構(gòu)序列中。這樣不僅減少了存儲(chǔ)機(jī)制的存儲(chǔ)開銷,而且減少了對(duì)系統(tǒng)數(shù)據(jù)的誤操作,保證了系統(tǒng)數(shù)據(jù)的安全性。如果要修改其中某一個(gè)數(shù)據(jù)項(xiàng),可以通過先在系統(tǒng)中刪除這個(gè)數(shù)據(jù)項(xiàng),再添加新的數(shù)據(jù)項(xiàng)來實(shí)現(xiàn)。
在對(duì)系統(tǒng)中數(shù)據(jù)進(jìn)行一致性控制時(shí),整個(gè)結(jié)構(gòu)序列會(huì)被分為n個(gè)序列域。在同一數(shù)據(jù)庫(kù)中,一個(gè)序列域可以包含數(shù)據(jù)一致性控制間隔中對(duì)數(shù)據(jù)操作產(chǎn)生的所有結(jié)構(gòu)序列條目[7]。序列域只有在本地節(jié)點(diǎn)中創(chuàng)建,如果要與其它節(jié)點(diǎn)進(jìn)行數(shù)據(jù)一致性控制,一定要在發(fā)送到其它節(jié)點(diǎn)數(shù)據(jù)庫(kù)之前關(guān)閉。在數(shù)據(jù)一致性控制完成后,會(huì)有新的序列域產(chǎn)生,因此,結(jié)構(gòu)序列也可以說是本地節(jié)點(diǎn)的序列域與其它節(jié)點(diǎn)的序列域的集合。
在整個(gè)分布式存儲(chǔ)機(jī)制中,已知所有主副本數(shù)據(jù)庫(kù),也就是所有節(jié)點(diǎn)數(shù)據(jù)庫(kù)的版本狀態(tài),所有的版本狀態(tài)可以通過狀態(tài)向量[8]體現(xiàn)并記錄,記錄格式如表1。
表1 狀態(tài)向量的記錄
狀態(tài)向量可以用來表示和記錄整個(gè)分布式信息存儲(chǔ)機(jī)制中所有的主副本數(shù)據(jù)庫(kù),也就是已知節(jié)點(diǎn)數(shù)據(jù)庫(kù)所處的版本集合,在分布式存儲(chǔ)信息一致性控制中是數(shù)據(jù)庫(kù)狀態(tài)的主要參考,有著不可或缺的作用。
在對(duì)分布式信息存儲(chǔ)系統(tǒng)的兩個(gè)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)一致性控制時(shí),可以通過對(duì)比分析兩個(gè)節(jié)點(diǎn)數(shù)據(jù)庫(kù)的狀態(tài)向量,盡可能選擇少的信息進(jìn)行傳輸,以減少系統(tǒng)的工作量。
企業(yè)B的狀態(tài)向量中包含了其副本數(shù)據(jù)企業(yè)A、C、F的狀態(tài),并同時(shí)體現(xiàn)在企業(yè)B的數(shù)據(jù)集中。在完整的分布式信息存儲(chǔ)機(jī)制中,每個(gè)節(jié)點(diǎn)數(shù)據(jù)庫(kù)的狀態(tài)向量是遞增的,如果企業(yè)A的狀態(tài)向量值大于企業(yè)B的狀態(tài)向量值,說明企業(yè)A擁有的數(shù)據(jù)信息要比企業(yè)B的新,所以,要把相應(yīng)的數(shù)據(jù)集發(fā)送給企業(yè)B,例如企業(yè)A的狀態(tài)向量是3,企業(yè)B是2,那么企業(yè)B會(huì)接收到來自企業(yè)A狀態(tài)向量為3所對(duì)應(yīng)的所有數(shù)據(jù)集。當(dāng)企業(yè)A、B中所有數(shù)據(jù)集的狀態(tài)向量完成對(duì)比后,企業(yè)A就可以得到所有狀態(tài)向量值大于企業(yè)B的數(shù)據(jù)集清單[9],并通過網(wǎng)絡(luò)傳輸給企業(yè)B。
企業(yè)A利用模式識(shí)別技術(shù)掃描整個(gè)數(shù)據(jù)庫(kù),將所有需要發(fā)送的數(shù)據(jù)集按r分類,否則可能導(dǎo)致數(shù)據(jù)無法被正確同步,然后將完成分類的數(shù)據(jù)集發(fā)送給企業(yè)B,企業(yè)B在接收到這些數(shù)據(jù)集后,后臺(tái)程序?qū)φ麄€(gè)數(shù)據(jù)庫(kù)進(jìn)行掃描對(duì)照,并將相應(yīng)的數(shù)據(jù)操作對(duì)企業(yè)B的主本數(shù)據(jù)庫(kù)進(jìn)行更新,同時(shí)把數(shù)據(jù)集添加到本地?cái)?shù)據(jù)庫(kù)中,使接收到的數(shù)據(jù)集只有對(duì)本地?cái)?shù)據(jù)產(chǎn)生實(shí)際的改變才會(huì)被寫入,否則將不會(huì)被寫入。
不同企業(yè)之間數(shù)據(jù)集順序[10]的不同不會(huì)影響到分布式信息存儲(chǔ)機(jī)制中主副本數(shù)據(jù)之間的一致性控制。因?yàn)閷?duì)于每一個(gè)數(shù)據(jù)項(xiàng)來說,在本地?cái)?shù)據(jù)集進(jìn)行更新時(shí),與該數(shù)據(jù)項(xiàng)有關(guān)的信息是否可以被添加到本地?cái)?shù)據(jù)庫(kù)中,與其它數(shù)據(jù)項(xiàng)無關(guān),即使該數(shù)據(jù)項(xiàng)的內(nèi)容在兩個(gè)數(shù)據(jù)庫(kù)中的順序是完全不同的,最終也能實(shí)現(xiàn)一致性控制的目的。
為了驗(yàn)證本文方法對(duì)分布式存儲(chǔ)信息一致性控制的綜合有效性,進(jìn)行仿真。將本文方法與文獻(xiàn)[1]方法和文獻(xiàn)[2]方法對(duì)比,以分布式存儲(chǔ)信息一致性控制的準(zhǔn)確性和耗時(shí)為實(shí)驗(yàn)指標(biāo)進(jìn)行測(cè)試。
首先對(duì)準(zhǔn)確度進(jìn)行測(cè)試,依次向系統(tǒng)寫入300M、500M、1G、2G、3G、5G的數(shù)據(jù),結(jié)果如表1所示,其中,J代表數(shù)據(jù)文件大小,D表示主本數(shù)據(jù),R表示副本數(shù)據(jù),A表示實(shí)際一致情況,Z表示本文方法測(cè)試結(jié)果,F(xiàn)表示文獻(xiàn)[1]測(cè)試結(jié)果,X表示文獻(xiàn)[2]測(cè)試結(jié)果,而表中的Y代表測(cè)試結(jié)果一致,N代表測(cè)試結(jié)果不一致。
表2 三種方法對(duì)分布式存儲(chǔ)信息一致性控制測(cè)試結(jié)果
分析表1可知,本文方法測(cè)試結(jié)果與實(shí)際結(jié)果一致,而文獻(xiàn)[1]和文獻(xiàn)[2]方法都存在數(shù)據(jù)錯(cuò)誤的情況,說明本文方法在控制分布式存儲(chǔ)信息上準(zhǔn)確度更高。
其次,使用三種方法對(duì)綜合數(shù)據(jù)庫(kù)和企業(yè)數(shù)據(jù)庫(kù)再次進(jìn)行一致性控制準(zhǔn)確度測(cè)試。綜合數(shù)據(jù)庫(kù)通過信息檢索和機(jī)器學(xué)習(xí)所得,二者均為大規(guī)模數(shù)據(jù)庫(kù)。結(jié)果如圖3所示。
圖3 綜合數(shù)據(jù)庫(kù)和企業(yè)數(shù)據(jù)庫(kù)準(zhǔn)確度測(cè)試結(jié)果
分析圖3可知,不管是綜合數(shù)據(jù)庫(kù)還是企業(yè)數(shù)據(jù)庫(kù),本文方法在控制分布式存儲(chǔ)信息一致性上準(zhǔn)確度一直最高,而文獻(xiàn)[1]方法和文獻(xiàn)[2]方法對(duì)綜合數(shù)據(jù)庫(kù)的一致性控制準(zhǔn)確度相對(duì)較低,對(duì)企業(yè)數(shù)據(jù)庫(kù)的一致性控制準(zhǔn)確度明顯降低,這是因?yàn)楸疚氖褂昧四J阶R(shí)別提取出最優(yōu)特征子集,使得一致性控制結(jié)果更優(yōu),同時(shí)適用性更強(qiáng)。
在上述實(shí)驗(yàn)的基礎(chǔ)上,給出本文方法、文獻(xiàn)[1]方法和文獻(xiàn)[2]方法對(duì)不同數(shù)據(jù)庫(kù)進(jìn)行一致性控制的耗時(shí),結(jié)果如圖4所述。
圖4 對(duì)綜合數(shù)據(jù)庫(kù)和企業(yè)數(shù)據(jù)庫(kù)一致性控制耗時(shí)
分析圖4可知,不管是綜合數(shù)據(jù)庫(kù)還是企業(yè)數(shù)據(jù)庫(kù),本文方法耗時(shí)明顯比其它兩種方法少,說明本文將模式識(shí)別與數(shù)據(jù)全相關(guān)的一致性更新技術(shù)相結(jié)合的方法不僅對(duì)控制分布式存儲(chǔ)信息一致性的準(zhǔn)確度高,而且可有效解決分布式存儲(chǔ)信息實(shí)時(shí)更新的問題。
本文采用的基于模式識(shí)別的分布式存儲(chǔ)信息一致性控制方法,與現(xiàn)有的數(shù)據(jù)一致性控制方法相比具有計(jì)算簡(jiǎn)單、數(shù)據(jù)更新及時(shí)、節(jié)省存儲(chǔ)開銷等優(yōu)勢(shì)。采用模式識(shí)別技術(shù)對(duì)數(shù)據(jù)集進(jìn)行甄別和預(yù)處理,篩選出某些特征相似的信息與數(shù)據(jù)全相關(guān)的一致性更新技術(shù)相結(jié)合,二者協(xié)同對(duì)分布式存儲(chǔ)信息一致性控制有很大的幫助,可以在一定程度上節(jié)省系統(tǒng)存儲(chǔ)開銷,更有效的支持移動(dòng)設(shè)備在移動(dòng)條件下的數(shù)據(jù)一致性控制,為繼續(xù)研究分布式信息存儲(chǔ)一致性控制提供了參考依據(jù)。