張璜
摘 要: 為了降低公共云存儲(chǔ)系統(tǒng)的空間開(kāi)銷(xiāo),對(duì)公共云存儲(chǔ)中私密數(shù)據(jù)的重復(fù)數(shù)據(jù)進(jìn)行歸并和刪除處理,提高云存儲(chǔ)容量,提出一種基于語(yǔ)義本體特征匹配檢測(cè)的公共云存儲(chǔ)中私密數(shù)據(jù)的去重刪除技術(shù)。采用交叉分布方法進(jìn)行公共云存儲(chǔ)中私密數(shù)據(jù)的特征分解,根據(jù)數(shù)據(jù)的屬性類(lèi)別進(jìn)行存儲(chǔ)空間區(qū)域劃分,提取私密數(shù)據(jù)的語(yǔ)義本體結(jié)構(gòu)信息特征量,根據(jù)提取的特征量進(jìn)行匹配檢測(cè),根據(jù)語(yǔ)義屬性實(shí)現(xiàn)對(duì)重復(fù)數(shù)據(jù)的自適應(yīng)篩選,對(duì)篩選出來(lái)的重復(fù)數(shù)據(jù)采用矩陣分解方法進(jìn)行特征壓縮和刪減,實(shí)現(xiàn)去重刪除。仿真結(jié)果表明,采用該算法進(jìn)行公共云存儲(chǔ)中私密數(shù)據(jù)的去重刪除處理,提高了存儲(chǔ)空間的容量,降低了數(shù)據(jù)存儲(chǔ)的維數(shù),實(shí)現(xiàn)了私密數(shù)據(jù)的優(yōu)化存儲(chǔ)。
關(guān)鍵詞: 公共云存儲(chǔ); 私密數(shù)據(jù); 去重刪除; 語(yǔ)義
中圖分類(lèi)號(hào): TN915?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)23?0073?04
Abstract: In order to reduce the space overhead of the public cloud storage system, merge and delete the duplicate data among private data in public cloud storage, and improve the cloud storage capacity, a de?duplication deletion technology of private data in public cloud storage is proposed, which is based on the semanteme ontology feature matching. The cross?distribution method is used to perform the feature decomposition of the private data in public cloud storage, with which the storage space region is divided according to the data attribute category, and the characteristic quantity of the semantic ontology structure information of the private data is extracted to carry out the matching detection. The duplicated data is adaptively screened according to the semantic property, and performed with feature compression and deletion with matrix decomposition method to realize the de?duplication deletion. The simulation results show that the algorithm used to realize the de?duplication deletion of the private data in public cloud storage can improve the capacity of storage space, reduce the dimension of data storage, and realize the optimization storage of private data.
Keywords: public cloud storage; private data; de?duplication deletion; semanteme
0 引 言
公共云存儲(chǔ)系統(tǒng)為計(jì)算機(jī)用戶(hù)提供了海量的存儲(chǔ)空間,在公共云存儲(chǔ)環(huán)境中,大量的個(gè)人用戶(hù)數(shù)據(jù)通過(guò)分布式網(wǎng)格存儲(chǔ)的形式保存在云端,在公共云存儲(chǔ)空間中分布有大量的云數(shù)據(jù),云數(shù)據(jù)包含商業(yè)信息、個(gè)人隱私信息以及各種網(wǎng)絡(luò)信息,并通過(guò)一個(gè)超級(jí)虛擬存儲(chǔ)空間進(jìn)行儲(chǔ)存空間分配,方便網(wǎng)絡(luò)用戶(hù)進(jìn)行信息查詢(xún)和調(diào)閱。公共云存儲(chǔ)系統(tǒng)通過(guò)SCSI或SAS等DAS存儲(chǔ)設(shè)備實(shí)現(xiàn)信息的管理和調(diào)度,在存儲(chǔ)設(shè)備上進(jìn)行邏輯虛擬化管理[1]。公共云存儲(chǔ)由于網(wǎng)絡(luò)的開(kāi)放性,在將數(shù)據(jù)上傳到系統(tǒng)中時(shí)大量的私密數(shù)據(jù)由于重傳和類(lèi)似等因素,導(dǎo)致數(shù)據(jù)重復(fù),占據(jù)了大量的存儲(chǔ)空間,導(dǎo)致資源浪費(fèi),需要對(duì)公共云存儲(chǔ)中的私密數(shù)據(jù)進(jìn)行去重刪除處理,提高存儲(chǔ)效能,研究去重刪除方法在優(yōu)化云存儲(chǔ)設(shè)計(jì)中具有重要意義。
云存儲(chǔ)廣泛應(yīng)用到監(jiān)控應(yīng)用平臺(tái)、網(wǎng)絡(luò)硬盤(pán)、遠(yuǎn)程數(shù)據(jù)備份等領(lǐng)域,大量的隱私數(shù)據(jù)上傳到公共云存儲(chǔ)空間中,通過(guò)廣域網(wǎng)、互聯(lián)網(wǎng)保存在網(wǎng)絡(luò)中,通過(guò)對(duì)存儲(chǔ)系統(tǒng)中的私密數(shù)據(jù)進(jìn)行去重刪除,降低存儲(chǔ)開(kāi)銷(xiāo)。傳統(tǒng)對(duì)云存儲(chǔ)的重復(fù)數(shù)據(jù)刪除方法主要有冗余濾波方法、匹配檢測(cè)方法、自相關(guān)特征分割方法等[2?3],通過(guò)相關(guān)的濾波檢測(cè)方法進(jìn)行私密數(shù)據(jù)的重復(fù)數(shù)據(jù)檢測(cè)和濾波處理,進(jìn)行數(shù)據(jù)刪除,取得了一定的效果。其中,文獻(xiàn)[4]提出一種基于對(duì)象的OpenXML復(fù)合文件去重方法,采用空間權(quán)向量約束方法進(jìn)行冗余檢測(cè),實(shí)現(xiàn)云存儲(chǔ)中復(fù)合文件去重,提高了存儲(chǔ)容量,但該計(jì)算方法的開(kāi)銷(xiāo)較大,數(shù)據(jù)去重的實(shí)時(shí)性不好。文獻(xiàn)[5]提出一種基于布隆過(guò)濾器所有權(quán)證明的高效安全可去重云存儲(chǔ)方案,針對(duì)大規(guī)模的云存儲(chǔ)數(shù)據(jù)進(jìn)行子域劃分及二值分割,結(jié)合布隆過(guò)濾器進(jìn)行冗余數(shù)據(jù)和重復(fù)數(shù)據(jù)刪減,但該方法往往需要數(shù)量龐大的布隆過(guò)濾器,導(dǎo)致系統(tǒng)的設(shè)計(jì)較為復(fù)雜,穩(wěn)定性不好。對(duì)此,本文提出一種基于語(yǔ)義本體特征匹配檢測(cè)的公共云存儲(chǔ)中私密數(shù)據(jù)的去重刪除技術(shù),根據(jù)語(yǔ)義屬性實(shí)現(xiàn)對(duì)重復(fù)數(shù)據(jù)的自適應(yīng)篩選,實(shí)現(xiàn)去重刪除,通過(guò)仿真實(shí)驗(yàn)進(jìn)行了去重性能測(cè)試,得出有效性結(jié)論。endprint
1 公共云存儲(chǔ)空間區(qū)域劃分優(yōu)化
1.1 公共云存儲(chǔ)私密數(shù)據(jù)結(jié)構(gòu)分析
3 仿真實(shí)驗(yàn)分析
通過(guò)仿真實(shí)驗(yàn)測(cè)試本文方法在實(shí)現(xiàn)公共云存儲(chǔ)中私密數(shù)據(jù)去重刪除,提高存儲(chǔ)效能方面的應(yīng)用性能,實(shí)驗(yàn)采用Matlab 7 仿真工具設(shè)計(jì),首先對(duì)公共云存儲(chǔ)空間中的私密數(shù)據(jù)進(jìn)行原始信息采樣,數(shù)據(jù)采樣的時(shí)間間隔為12 s,私密數(shù)據(jù)的信息采樣頻率[fs=4f0=20 kHz,]數(shù)據(jù)規(guī)模為120 Gb,最大迭代次數(shù)為[N=50,]根據(jù)上述仿真環(huán)境設(shè)定,采用本文方法進(jìn)行云存儲(chǔ)系統(tǒng)中的私密數(shù)據(jù)去重刪除仿真,采集的原始私密數(shù)據(jù)如圖2所示。
采用本文方法進(jìn)行去重刪除,得到刪除后的有用數(shù)據(jù)如圖3所示。
分析圖2和圖3結(jié)果得知,原始數(shù)據(jù)中具有大量的重復(fù)數(shù)據(jù),浪費(fèi)了大量的公共云存儲(chǔ)空間,采用本文方法進(jìn)行去重刪除,重復(fù)數(shù)據(jù)得到有效濾除,提高了存儲(chǔ)效能。圖4給出了采用本文方法和傳統(tǒng)方法進(jìn)行數(shù)據(jù)處理后的存儲(chǔ)開(kāi)銷(xiāo)對(duì)比,分析得知,采用本文方法進(jìn)行去重刪除,有效降低了存儲(chǔ)開(kāi)銷(xiāo),提高了公共云存儲(chǔ)空間容量。
4 結(jié) 語(yǔ)
本文提出一種基于語(yǔ)義本體特征匹配檢測(cè)的公共云存儲(chǔ)中私密數(shù)據(jù)的去重刪除技術(shù)。采用交叉分布方法進(jìn)行公共云存儲(chǔ)中私密數(shù)據(jù)的特征分解,根據(jù)數(shù)據(jù)的屬性類(lèi)別進(jìn)行存儲(chǔ)空間區(qū)域劃分,提取私密數(shù)據(jù)的語(yǔ)義本體結(jié)構(gòu)信息特征量,根據(jù)提取的特征量進(jìn)行匹配檢測(cè),根據(jù)語(yǔ)義屬性實(shí)現(xiàn)對(duì)重復(fù)數(shù)據(jù)的自適應(yīng)篩選,對(duì)篩選出來(lái)的重復(fù)數(shù)據(jù)采用矩陣分解方法進(jìn)行特征壓縮和刪減,實(shí)現(xiàn)去重刪除。研究得出,本文方法能有效降低公共云存儲(chǔ)中私密數(shù)據(jù)的存儲(chǔ)開(kāi)銷(xiāo),提高存儲(chǔ)空間容量,具有很好的應(yīng)用性。
參考文獻(xiàn)
[1] 梁聰剛,王鴻章.微分進(jìn)化算法的優(yōu)化研究及其在聚類(lèi)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(13):103?107.
[2] ZHANG Ming, CHEN Wen, CHEN Liuwei, et al. Photorefractive long period waveguide grating filter in lithium niobate strip waveguide [J]. Optical and quantum electronics, 2014, 46: 1529?1538.
[3] HESS R A. Aircraft and rotorcraft system identification?enginee?ring methods with flight test examples [J]. Journal of guidance, control, and dynamics, 2013, 36(4): 1249?1250.
[4] 閻芳,李元章,張全新,等.基于對(duì)象的OpenXML復(fù)合文件去重方法研究[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1546?1557.
[5] 劉竹松,楊張杰.基于布隆過(guò)濾器所有權(quán)證明的高效安全可去重云存儲(chǔ)方案[J].計(jì)算機(jī)應(yīng)用,2017,37(3):766?770.
[6] 鄧志剛,曾國(guó)蓀,譚云蘭,等.云存儲(chǔ)內(nèi)容分發(fā)網(wǎng)絡(luò)中的能耗優(yōu)化方法[J].計(jì)算機(jī)應(yīng)用,2016,36(6):1515?1519.
[7] 李保利.基于類(lèi)別層次結(jié)構(gòu)的多層文本分類(lèi)樣本擴(kuò)展策略[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):357?366.
[8] 何力,丁兆云,賈焰,等.大規(guī)模層次分類(lèi)中的候選類(lèi)別搜索[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):41?49.
[9] 張嘯劍,孟小峰.面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):927?949.endprint