張之明,羅 杰
(武警工程大學(xué) 信息工程系,陜西 西安 710086)
?
·信息科學(xué)·
基于元數(shù)據(jù)屬性的數(shù)據(jù)價(jià)值分級(jí)及加密機(jī)制
張之明,羅杰
(武警工程大學(xué) 信息工程系,陜西 西安710086)
針對(duì)云存儲(chǔ)中對(duì)所有數(shù)據(jù)采用統(tǒng)一的加密算法造成數(shù)據(jù)加密高復(fù)雜度的問(wèn)題,提出了一種基于元數(shù)據(jù)屬性的數(shù)據(jù)價(jià)值分級(jí)及加密機(jī)制。首先,利用數(shù)據(jù)對(duì)象元數(shù)據(jù)的屬性評(píng)定數(shù)據(jù)對(duì)象的數(shù)據(jù)價(jià)值,并對(duì)數(shù)據(jù)進(jìn)行分級(jí),而后,根據(jù)數(shù)據(jù)的價(jià)值級(jí)別選擇相應(yīng)的加密算法,給出數(shù)據(jù)加密的解決方案。通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析與比較,驗(yàn)證了該機(jī)制能夠獲得更好的加密效果,大大減少了數(shù)據(jù)加密的時(shí)間復(fù)雜度。
元數(shù)據(jù)屬性;數(shù)據(jù)價(jià)值;數(shù)據(jù)分級(jí);數(shù)據(jù)加密
數(shù)據(jù)存儲(chǔ)到云端之后,容易受到兩方面的威脅:其一,云存儲(chǔ)平臺(tái)作為不可信的第三方,一旦服務(wù)器出現(xiàn)故障,可能會(huì)泄露數(shù)據(jù);其二,云平臺(tái)被非法侵入后,數(shù)據(jù)存在被竊取、篡改和偽造的風(fēng)險(xiǎn)。因此,存放在云端的數(shù)據(jù)要經(jīng)過(guò)數(shù)據(jù)加密,用戶(hù)下載后經(jīng)過(guò)解密方可使用。目前主流的加密策略有基于屬性加密[1-2]和基于代理加密[3-4]兩大類(lèi)型。
在數(shù)據(jù)加密安全方面,由于大數(shù)據(jù)本身龐大的數(shù)據(jù)量,若對(duì)每個(gè)數(shù)據(jù)塊都采用諸如對(duì)稱(chēng)加密、代理重加密等方法,雖然可以保證安全性,但無(wú)疑會(huì)增加數(shù)據(jù)加密的復(fù)雜度,加重了主機(jī)和網(wǎng)絡(luò)的工作負(fù)載,容易造成擁塞。因此,給大數(shù)據(jù)中不同重要程度的數(shù)據(jù)進(jìn)行分類(lèi)并采用相應(yīng)復(fù)雜度的加密算法是十分必要的。
1.1數(shù)據(jù)價(jià)值
數(shù)據(jù)價(jià)值用來(lái)衡量數(shù)據(jù)傾向于存儲(chǔ)在高級(jí)設(shè)備的程度,是數(shù)據(jù)分類(lèi)和分級(jí)的重要指標(biāo)。通常由數(shù)據(jù)的商業(yè)重要性、訪問(wèn)頻率、數(shù)據(jù)大小等因素決定。數(shù)據(jù)價(jià)值的評(píng)價(jià)方法主要分為原始的方法、基于策略和基于非策略的評(píng)價(jià)。原始的評(píng)定方法考慮因素單一、簡(jiǎn)單、準(zhǔn)確性差,沒(méi)有把適應(yīng)度考慮進(jìn)去。一些方法大量依靠外部人為因素,如文獻(xiàn)[5];基于策略的評(píng)價(jià)方法由用戶(hù)制定一個(gè)或多個(gè)策略,依據(jù)策略來(lái)評(píng)價(jià)數(shù)據(jù)價(jià)值。該方法在評(píng)值的準(zhǔn)確度方面考慮了更多因素,通過(guò)反饋調(diào)節(jié)提高價(jià)值評(píng)定的準(zhǔn)確度。但是,這種策略對(duì)外部信息的依賴(lài)過(guò)大,如文獻(xiàn)[6]給出的一種ACE數(shù)據(jù)價(jià)值的評(píng)定結(jié)構(gòu)?;诜遣呗缘姆椒ㄍㄟ^(guò)特定公式來(lái)計(jì)算數(shù)據(jù)價(jià)值,將數(shù)據(jù)屬性和訪問(wèn)形態(tài)作為公式的輸入。這類(lèi)方法不需要人為制定策略,更廣泛地考慮了數(shù)據(jù)屬性和訪問(wèn)形態(tài)[7]。
1.2數(shù)據(jù)分類(lèi)
數(shù)據(jù)分類(lèi)[8]是定義數(shù)據(jù)集的訪問(wèn)、恢復(fù)等特征,并依據(jù)不同的業(yè)務(wù)目標(biāo)劃分?jǐn)?shù)據(jù),實(shí)現(xiàn)基于數(shù)據(jù)的重要程度對(duì)數(shù)據(jù)進(jìn)行分級(jí)的管理和服務(wù)。數(shù)據(jù)分類(lèi)是定義數(shù)據(jù)分級(jí)加密的前提和基礎(chǔ),是分層存儲(chǔ)管理(hierarchical storage management, HSM)和信息生命周期管理(information lifecycle management, ILM)研究中的重要問(wèn)題。
分類(lèi)的依據(jù)通常是既定的策略,一般有knowledge-based型、expert-based型和example-based型等。分類(lèi)的實(shí)現(xiàn)可分為憑經(jīng)驗(yàn)手工分類(lèi)、靜態(tài)分類(lèi)和動(dòng)態(tài)分類(lèi)等幾種方法。憑經(jīng)驗(yàn)分類(lèi)的方法由數(shù)據(jù)中心管理員根據(jù)經(jīng)驗(yàn)劃分?jǐn)?shù)據(jù)的類(lèi)型;靜態(tài)分類(lèi)是在系統(tǒng)構(gòu)建后業(yè)務(wù)服務(wù)開(kāi)始之前預(yù)先設(shè)定好分類(lèi)規(guī)則;動(dòng)態(tài)分類(lèi)能夠按照數(shù)據(jù)生命周期的變化來(lái)調(diào)整分類(lèi)規(guī)則。
1.3ACE結(jié)構(gòu)
ACE數(shù)據(jù)價(jià)值評(píng)定結(jié)構(gòu)[6],采用基于策略的方法對(duì)數(shù)據(jù)評(píng)值和分類(lèi)。用戶(hù)基于經(jīng)驗(yàn)設(shè)定一系列策略,每個(gè)策略可對(duì)數(shù)據(jù)的多個(gè)不同屬性設(shè)定不同的權(quán)值,再對(duì)每項(xiàng)屬性上的可能取值設(shè)定分?jǐn)?shù)。評(píng)值時(shí),根據(jù)每個(gè)數(shù)據(jù)在所有策略的所有屬性上的值的得分,結(jié)合各屬性的權(quán)值,綜合得到數(shù)據(jù)的價(jià)值。
針對(duì)大數(shù)據(jù)下不同重要程度的數(shù)據(jù)均采用復(fù)雜加密算法帶來(lái)的主機(jī)和網(wǎng)絡(luò)負(fù)載擁塞的問(wèn)題[9],提出了一種基于ACE結(jié)構(gòu)的數(shù)據(jù)分級(jí)加密機(jī)制ACEE。ACEE的關(guān)鍵特征如下:
1)提供分類(lèi)方法和數(shù)據(jù)加密方案,ACEE能夠半自動(dòng)化地確定數(shù)據(jù)的價(jià)值,定義數(shù)據(jù)的級(jí)別,根據(jù)數(shù)據(jù)自身的價(jià)值,為數(shù)據(jù)選擇合適的加密算法。
2)采用基于策略的價(jià)值評(píng)定方法,為了幫助管理者確定數(shù)據(jù)的價(jià)值,ACEE采用了一種基于策略的價(jià)值評(píng)定機(jī)制。這些策略決定了數(shù)據(jù)如何被映射為不同的價(jià)值層次,決定了加密算法怎么被映射為不同的等級(jí),從而使性能最優(yōu)化。ACEE使用了一系列的優(yōu)化算法,通過(guò)減少需要處理的數(shù)據(jù)的領(lǐng)域空間和用于分類(lèi)的策略來(lái)提升分類(lèi)的性能。
ACEE提供了模塊化的結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行處理并給出了對(duì)數(shù)據(jù)加密的解決方案來(lái)最大程度地減少加密的復(fù)雜度。圖1給出了ACEE的結(jié)構(gòu)圖。
圖1 ACEE結(jié)構(gòu)圖Fig.1 ACEE architecture
ACEE結(jié)構(gòu)主要由3部分構(gòu)成:數(shù)據(jù)分類(lèi)引擎、加密分類(lèi)引擎和數(shù)據(jù)加密引擎。
數(shù)據(jù)分類(lèi)引擎:該組件負(fù)責(zé)挖掘數(shù)據(jù)元數(shù)據(jù)的屬性,基于所用的策略確定數(shù)據(jù)的價(jià)值,為數(shù)據(jù)評(píng)定的價(jià)值和根據(jù)這些價(jià)值完成的數(shù)據(jù)分類(lèi)的等級(jí)是一對(duì)一的映射關(guān)系。這里,我們把數(shù)據(jù)的價(jià)值分為1~9這9個(gè)不同的級(jí)別[10],9代表的數(shù)據(jù)價(jià)值最高。
加密分類(lèi)引擎:這部分組件負(fù)責(zé)挖掘可用的加密算法的性能,并根據(jù)算法自身的復(fù)雜度、安全性、穩(wěn)定性等屬性把加密算法分為不同的級(jí)別。
數(shù)據(jù)加密引擎:該組件把兩種分類(lèi)引擎融合在一起,協(xié)調(diào)數(shù)據(jù)級(jí)別和加密算法的級(jí)別,形成數(shù)據(jù)加密的解決方案。它建議哪一級(jí)的數(shù)據(jù)使用哪一級(jí)的加密算法來(lái)滿(mǎn)足用戶(hù)對(duì)數(shù)據(jù)整體安全性的要求,實(shí)現(xiàn)了使用最小的加密復(fù)雜度最大限度地確保數(shù)據(jù)的加密安全。
2.1輸入
圖1給出了ACEE結(jié)構(gòu)輸入的3種來(lái)源:知識(shí)庫(kù)、數(shù)據(jù)和加密算法顯著的屬性和用戶(hù)自輸入。
知識(shí)庫(kù):這里的知識(shí)庫(kù)是分類(lèi)策略的集合,這些策略封裝了用于數(shù)據(jù)(加密算法)分類(lèi)的領(lǐng)域知識(shí)。每一個(gè)策略由一系列的顯著的數(shù)據(jù)屬性、相應(yīng)的屬性?xún)r(jià)值以及符合這些屬性?xún)r(jià)值的數(shù)據(jù)價(jià)值構(gòu)成。
顯著的數(shù)據(jù)或者加密算法屬性:這部分的輸入來(lái)自挖掘目標(biāo)數(shù)據(jù)的屬性和加密算法的性能。比如,我們可以監(jiān)測(cè)數(shù)據(jù)的不同屬性如文件類(lèi)型、大小、最近更新時(shí)間等。
自定義輸入:管理者可以提供關(guān)于如何進(jìn)行數(shù)據(jù)分級(jí)的輸入或者提示,也可以創(chuàng)建自定義的分級(jí)策略,這些策略也可以被添加進(jìn)知識(shí)庫(kù)。
2.2數(shù)據(jù)分級(jí)機(jī)制
ACEE對(duì)所有的數(shù)據(jù)對(duì)象采用一種簡(jiǎn)單的分組方式,通過(guò)把具有相同價(jià)值的數(shù)據(jù)分到同一個(gè)級(jí)別中實(shí)現(xiàn)數(shù)據(jù)分級(jí)。分級(jí)引擎挖掘數(shù)據(jù)或者加密算法的屬性,然后與所有的策略相比較找出能用于此對(duì)象分級(jí)的策略。在ACEE中有3種分級(jí)的方式:
1)基于知識(shí)的策略:知識(shí)型的策略預(yù)封裝在ACEE結(jié)構(gòu)中。通過(guò)與專(zhuān)家進(jìn)行一定時(shí)間的咨詢(xún)后收集信息,這些信息都是基于經(jīng)驗(yàn)的。管理者可以即時(shí)創(chuàng)建新的知識(shí)策略在數(shù)據(jù)分類(lèi)完成前。實(shí)際應(yīng)用中可能存在一種數(shù)據(jù)對(duì)象不滿(mǎn)足所有知識(shí)策略中給出的屬性值,因此該數(shù)據(jù)對(duì)象無(wú)法使用基于知識(shí)的策略進(jìn)行分類(lèi),此時(shí),ACEE可以進(jìn)行以下策略:
b)設(shè)置一些默認(rèn)的數(shù)據(jù)價(jià)值,如果沒(méi)有一種策略滿(mǎn)足在上述策略中匹配率超過(guò)50%。
2)基于專(zhuān)家的策略:這種策略允許管理者對(duì)相關(guān)的屬性進(jìn)行排序,規(guī)劃一個(gè)新的策略。管理者選擇一系列的屬性集并給這些屬性分配排名。也可以給不同的屬性?xún)r(jià)值賦值,這些值經(jīng)過(guò)整合和規(guī)范后,用來(lái)形成一個(gè)策略函數(shù)。假設(shè)管理者選定了“A1=所有者,A2=訪問(wèn)時(shí)間”這兩種屬性,并把前一種屬性“A1=所有者”的重要程度高于后者。ACEE會(huì)內(nèi)在把兩種屬性映射為相關(guān)的兩種等級(jí)R1和R2。進(jìn)一步,假設(shè)為第一種屬性分配了3種不同重要程度的屬性a11,a12,a13,分別對(duì)應(yīng)的價(jià)值為s11,s12,s13;同樣地,訪問(wèn)時(shí)間的兩種屬性a21,a22分別對(duì)應(yīng)s21,s22,ACEE計(jì)算數(shù)據(jù)價(jià)值的公式定義為
BV(d)=R1·((s11·v(a11)+s12·v(a12)+s13·v(a13))+R2·(s21·v(a21)+s22·v(a22)))。
其中,BV(d)代表數(shù)據(jù)對(duì)象d的數(shù)據(jù)價(jià)值。如果Ai=aij,則v(a11)=1,否則v(a11)為0。
3)基于實(shí)例的策略:在這種策略中,管理者可以給出樣本文件及其對(duì)應(yīng)的數(shù)據(jù)價(jià)值的集合。ACEE從樣本數(shù)據(jù)集中挖掘?qū)傩院完P(guān)聯(lián)的數(shù)據(jù)的價(jià)值進(jìn)而形成一種符合具體數(shù)據(jù)價(jià)值的策略。這些實(shí)例文件被用作訓(xùn)練數(shù)據(jù)集來(lái)規(guī)范機(jī)器學(xué)習(xí)技術(shù)如回歸和決策樹(shù)技術(shù)[11],形成分級(jí)的策略函數(shù)。
2.3數(shù)據(jù)分級(jí)策略
通過(guò)挖掘數(shù)據(jù)對(duì)象的元數(shù)據(jù)的屬性,進(jìn)行數(shù)據(jù)分級(jí),我們考慮的數(shù)據(jù)對(duì)象是文件的形式。表1給出了ACEE在數(shù)據(jù)分級(jí)時(shí)使用的部分元數(shù)據(jù)的屬性。
表1用于數(shù)據(jù)分級(jí)的元數(shù)據(jù)的屬性列表
Tab.1List of attributes that can be mined for data classification
屬性LinuxWindows所有者DD訪問(wèn)權(quán)限D(zhuǎn)D應(yīng)用II大小DD文件類(lèi)型DD上次讀操作時(shí)間DD上次寫(xiě)操作時(shí)間DD創(chuàng)建時(shí)間-D擴(kuò)展性DD
注:D表示操作系統(tǒng)可以直接可用;I表示需要使用內(nèi)部的ACEE機(jī)制或者本地系統(tǒng)的APIs整合。
ACEE通過(guò)掃描文件系統(tǒng)或者分析文件系統(tǒng)的追蹤文件獲取元數(shù)據(jù)的屬性,表1中的大多數(shù)的屬性可以?xún)H通過(guò)掃描系統(tǒng)文件獲得。然而,一些屬性如訪問(wèn)頻率需要監(jiān)視系統(tǒng)一段時(shí)間才能得到。
數(shù)據(jù)分級(jí)的策略取決于選擇的全局目標(biāo)函數(shù)和數(shù)據(jù)對(duì)象的領(lǐng)域兩部分,用于用戶(hù)類(lèi)數(shù)據(jù)和代碼類(lèi)數(shù)據(jù)的分類(lèi)策略不同于系統(tǒng)應(yīng)用日志類(lèi)的數(shù)據(jù)。表2給出了在實(shí)驗(yàn)中使用的不同領(lǐng)域數(shù)據(jù)分級(jí)的策略實(shí)例的部分樣例,數(shù)據(jù)價(jià)值分為1~9這9個(gè)級(jí)別。
表2 不同領(lǐng)域的樣本數(shù)據(jù)部分分級(jí)策略
注:CTIME 表示創(chuàng)建時(shí)間,ATIME表示上次訪問(wèn)時(shí)間,.CODE和.OFFICE表示一組數(shù)值。
2.4加密方法分級(jí)策略
ACEE通過(guò)挖掘可用加密算法的性能作為加密分級(jí)的依據(jù)。算法的加密性能可以通過(guò)加密技術(shù)本身獲取,ACEE還具有良好的兼容性,可以把ACEE和其他的軟件或者組件連接起來(lái),通過(guò)這些軟件或組件獲取加密技術(shù)的性能。
2.5數(shù)據(jù)加密
數(shù)據(jù)加密負(fù)責(zé)匹配數(shù)據(jù)的級(jí)別和相應(yīng)的加密算法。ACEE的目的在于讓最重要的數(shù)據(jù)采用最佳性能的加密算法,讓無(wú)關(guān)重要的數(shù)據(jù)采用級(jí)別最低的加密算法。ACEE在實(shí)際數(shù)據(jù)加密時(shí),采用一種簡(jiǎn)單的匹配策略:具有最高級(jí)別的數(shù)據(jù)采用最高級(jí)別的加密算法,中等級(jí)別的數(shù)據(jù)采用中等級(jí)別的加密算法,最低級(jí)別的數(shù)據(jù)采用最低級(jí)別的加密算法。
2.6輸出
ACEE的輸出主要包括3個(gè)部分:數(shù)據(jù)分級(jí)引擎的輸出是基于自身數(shù)據(jù)價(jià)值的數(shù)據(jù)級(jí)別;加密算法分級(jí)引擎的輸出是基于加密算法性能的加密級(jí)別;數(shù)據(jù)加密引擎的輸出是把數(shù)據(jù)級(jí)別和加密級(jí)別相結(jié)合的數(shù)據(jù)加密的解決方案。
2.7性能優(yōu)化
ACEE瀏覽每個(gè)數(shù)據(jù)對(duì)象來(lái)挖掘數(shù)據(jù)的元數(shù)據(jù)屬性,然后把這些屬性與每一個(gè)策略比較確定數(shù)據(jù)的價(jià)值。假設(shè)有m種策略和n個(gè)數(shù)據(jù)對(duì)象,那么最壞的情形下,時(shí)間的復(fù)雜度為O(mn)。為此我們提出了兩類(lèi)優(yōu)化算法提高系統(tǒng)的整體性能。
2.7.1策略領(lǐng)域的優(yōu)化算法使用回歸函數(shù)表示所有用于分級(jí)的策略來(lái)減少策略領(lǐng)域的規(guī)模是一種提升系統(tǒng)性能的方法。我們使用給定的策略表為給定的樣本文件分級(jí),或者管理者給定樣本文件具體的數(shù)據(jù)價(jià)值,然后用文件的元數(shù)據(jù)的屬性和計(jì)算得到或者給定的數(shù)據(jù)價(jià)值生成一個(gè)回歸函數(shù)。ACEE使用這個(gè)簡(jiǎn)單的回歸函數(shù)對(duì)輸入數(shù)據(jù)進(jìn)行分級(jí),而不用將每一個(gè)數(shù)據(jù)對(duì)象與每一種策略相比較,因此,我們把最壞情形下的時(shí)間復(fù)雜度降低到了O(n)。
2.7.2數(shù)據(jù)領(lǐng)域的優(yōu)化算法另一種提升性能的方法是減少數(shù)據(jù)對(duì)象領(lǐng)域的規(guī)模。采用文件抽樣和預(yù)處理策略這兩種方法實(shí)現(xiàn)這個(gè)目標(biāo)。
1)文件抽樣:在掃描數(shù)據(jù)集時(shí),對(duì)每一個(gè)目錄我們采樣其中的一部分文件集而不是掃描整個(gè)數(shù)據(jù)集。ACEE選擇全部文件中一些固定的部分,并且只挖掘這部分?jǐn)?shù)據(jù)的元數(shù)據(jù)的屬性。根據(jù)每個(gè)目錄中樣本數(shù)據(jù)的元數(shù)據(jù)屬性的價(jià)值,ACEE有3種方式進(jìn)行數(shù)據(jù)分級(jí):
a)選擇一個(gè)適合大部分抽樣數(shù)據(jù)的分級(jí)策略,并把該策略對(duì)應(yīng)的數(shù)據(jù)價(jià)值用于整個(gè)數(shù)據(jù)集。
b)在所有的匹配的策略中,選擇使數(shù)據(jù)具有最高價(jià)值的分級(jí)策略,并把該策略對(duì)應(yīng)的數(shù)據(jù)價(jià)值用于其他的數(shù)據(jù)。
c)取所有匹配策略的數(shù)據(jù)價(jià)值的平均值,使用該價(jià)值用于整個(gè)數(shù)據(jù)集。
2)預(yù)處理策略:ACEE可以通過(guò)預(yù)處理策略預(yù)測(cè)數(shù)據(jù)對(duì)象的哪些屬性需要掃描。對(duì)于沒(méi)有用于定義任何策略的屬性不必進(jìn)行掃描,這種方法提高了掃描數(shù)據(jù)的性能。
為了驗(yàn)證ACEE結(jié)構(gòu)的性能,我們選擇了3種不同領(lǐng)域的數(shù)據(jù)集對(duì)ACEE結(jié)構(gòu)的分級(jí)功能、數(shù)據(jù)加密以及性能優(yōu)化的算法進(jìn)行了測(cè)試。
3.1實(shí)驗(yàn)數(shù)據(jù)環(huán)境
我們對(duì)3類(lèi)數(shù)據(jù)集在Inter P4 3GHz,2GB RAM運(yùn)行Windows 2003高級(jí)服務(wù)器系統(tǒng)的機(jī)器上進(jìn)行了實(shí)驗(yàn),同時(shí)使用Windows API通過(guò)JAVA Native Interface(JNI)來(lái)挖掘系統(tǒng)的元數(shù)據(jù)的屬性。3類(lèi)數(shù)據(jù)如表3所示。
表3 實(shí)驗(yàn)數(shù)據(jù)列表
其中,代碼類(lèi)數(shù)據(jù)集來(lái)自于本地實(shí)驗(yàn)室的一個(gè)CVS存儲(chǔ)庫(kù),該庫(kù)中存儲(chǔ)了近3年來(lái)30多名用戶(hù)的項(xiàng)目設(shè)計(jì)代碼;用戶(hù)類(lèi)數(shù)據(jù)集是單一用戶(hù)的5年來(lái)個(gè)人文件的集合,包括個(gè)人文件、媒體文件、代碼文件、網(wǎng)頁(yè)文件等;應(yīng)用日志類(lèi)數(shù)據(jù)集來(lái)自于匿名服務(wù)器,包含有1.28 million很少改動(dòng)或者刪除的文件。
3.2開(kāi)銷(xiāo)節(jié)省
這部分,我們給出了使用ACEE加密數(shù)據(jù)與傳統(tǒng)的統(tǒng)一使用最高級(jí)別加密算法的數(shù)據(jù)加密相比帶來(lái)的效益。這里,我們使用基于知識(shí)的策略進(jìn)行分級(jí),對(duì)數(shù)據(jù)價(jià)值級(jí)別為8~9的數(shù)據(jù)采用3DES算法進(jìn)行加密,6~7采用AES算法進(jìn)行加密,4~5采用DES算法進(jìn)行加密,1~3采用Blowfish算法進(jìn)行加密。
圖2(a)給出了每類(lèi)數(shù)據(jù)集中根據(jù)數(shù)據(jù)價(jià)值的級(jí)別可分別采用不同加密算法的數(shù)據(jù)比例??梢钥闯?代碼類(lèi)數(shù)據(jù)中約70%、用戶(hù)數(shù)據(jù)中約65%的數(shù)據(jù)可以采用最低級(jí)別的加密算法。大約70%的應(yīng)用日志類(lèi)數(shù)據(jù)應(yīng)該采用DES類(lèi)級(jí)別的加密算法。這幅圖說(shuō)明ACEE可以確定數(shù)據(jù)的價(jià)值并給出一個(gè)合理的數(shù)據(jù)加密算法。
圖2(b)給出了采用ACEE分級(jí)加密算法和采用統(tǒng)一最高性能加密算法所耗時(shí)間的對(duì)比。我們使用平均標(biāo)準(zhǔn)衡量[12]各部分的開(kāi)銷(xiāo):3DES算法2 663B/s,AES算法5 326B/s,DES算法7 988B/s,BF算法10 167B/s??梢钥闯?代碼類(lèi)數(shù)據(jù)集大約可以節(jié)約50%的加密時(shí)間,應(yīng)用日志類(lèi)數(shù)據(jù)可以減少約65%的加密復(fù)雜度。
圖2 使用ACEE不同加密算法的開(kāi)銷(xiāo)節(jié)省Fig.2 Usage of different encryption and effective cost savings using ACEE
3.3策略領(lǐng)域優(yōu)化
這里使用一般線性模型學(xué)習(xí)回歸函數(shù),因?yàn)樗试S使用無(wú)條件和數(shù)值型的變量[13]。為了驗(yàn)證策略領(lǐng)域優(yōu)化的效果,我們以用戶(hù)類(lèi)數(shù)據(jù)和代碼類(lèi)數(shù)據(jù)為例,使用基于知識(shí)的策略從數(shù)據(jù)集中生成一個(gè)訓(xùn)練和測(cè)試集。準(zhǔn)確度的標(biāo)準(zhǔn)用訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的預(yù)測(cè)錯(cuò)誤的比例來(lái)表示。不同訓(xùn)練集大小下回歸函數(shù)的準(zhǔn)確度實(shí)驗(yàn)結(jié)果如圖3所示。
從圖中可以看出,使用回歸分析的優(yōu)化策略對(duì)代碼類(lèi)文件起到了很好的優(yōu)化作用,誤分類(lèi)的比例在15%以下;對(duì)于用戶(hù)數(shù)據(jù)集來(lái)說(shuō),當(dāng)訓(xùn)練數(shù)據(jù)較小時(shí)誤分類(lèi)的比例高,當(dāng)訓(xùn)練數(shù)據(jù)增大時(shí),誤分類(lèi)的比例減少,因此該方法適用于訓(xùn)練數(shù)據(jù)量大的用戶(hù)數(shù)據(jù)集。
3.4數(shù)據(jù)領(lǐng)域優(yōu)化
這部分我們以數(shù)據(jù)抽樣的方法為例對(duì)數(shù)據(jù)領(lǐng)域的優(yōu)化算法進(jìn)行驗(yàn)證。圖4給出了對(duì)用戶(hù)數(shù)據(jù)集采用數(shù)據(jù)抽樣進(jìn)行數(shù)據(jù)分級(jí)的結(jié)果,我們用式(1)和式(2)這兩種方式[6]衡量分級(jí)的準(zhǔn)確性,
(1)
這種衡量的方法簡(jiǎn)單的給出了錯(cuò)誤分級(jí)的比例,
(2)
其中I(Fi)和C(Fi)分別表示每個(gè)文件Fi的理想數(shù)據(jù)價(jià)值和計(jì)算得到的數(shù)據(jù)價(jià)值。這種方法從錯(cuò)誤分級(jí)與理想數(shù)據(jù)分級(jí)之間的距離來(lái)衡量錯(cuò)誤分級(jí)的大小。
圖3 使用回歸分析和基于實(shí)例型策略的分級(jí)Fig.3 The classification done using regression function analysis and example-based policy
圖4 采用抽樣法得到分類(lèi)準(zhǔn)確度與時(shí)間性能之間的權(quán)衡關(guān)Fig.4 The trade-off of classification accuracy and time performance by sampling
圖4分別給出了采用抽樣數(shù)據(jù)的平均數(shù)據(jù)價(jià)值、最大數(shù)據(jù)價(jià)值和最匹配策略時(shí)使用兩種衡量分級(jí)準(zhǔn)確率方法的花費(fèi)時(shí)間和準(zhǔn)確率的百分比。100%抽樣時(shí)3種方式的花費(fèi)時(shí)間分別是379s,374s和554s,對(duì)于總大小18.4GB,包含32 800個(gè)文件的數(shù)據(jù)集,10%抽樣時(shí)的準(zhǔn)確度達(dá)到90%。我們不采用優(yōu)化算法時(shí),當(dāng)把時(shí)間降為15%時(shí),準(zhǔn)確率為85%。實(shí)驗(yàn)數(shù)據(jù)顯示,如果文件被很好地按目錄組織,文件抽樣的算法將大大提升ACEE的性能。
在大數(shù)據(jù)與云存儲(chǔ)的背景下,需要滿(mǎn)足數(shù)據(jù)存儲(chǔ)的安全性與時(shí)效性的需求。本文基于數(shù)據(jù)分級(jí)存儲(chǔ)的結(jié)構(gòu)ACE,提出了一種基于數(shù)據(jù)價(jià)值的數(shù)據(jù)分級(jí)加密機(jī)制ACEE,實(shí)現(xiàn)數(shù)據(jù)的分級(jí)加密存儲(chǔ)。該機(jī)制通過(guò)使用元數(shù)據(jù)的屬性,評(píng)價(jià)數(shù)據(jù)對(duì)象的數(shù)據(jù)價(jià)值,指導(dǎo)數(shù)據(jù)分級(jí)并給出一種與數(shù)據(jù)價(jià)值相適應(yīng)的加密算法對(duì)數(shù)據(jù)對(duì)象進(jìn)行加密。文中以3類(lèi)大容量數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),模擬大數(shù)據(jù)環(huán)境,實(shí)驗(yàn)證明,ACEE在確定數(shù)據(jù)價(jià)值和提供加密方案上充分利用了數(shù)據(jù)的信息,尤其是在處理大容量數(shù)據(jù)集上,與傳統(tǒng)的加密方式相比,ACEE給出的數(shù)據(jù)分級(jí)加密解決方案大大降低了加密的時(shí)間復(fù)雜度。
[1]XIONG A P, GAN Q X, HE X X, et al. A searchable encryption of CP-ABE scheme[C]∥Proc of Media Technology and Information Processing,2013:345-349.
[2]BETHENCOURT J, SAHAI A, WATERS B. Ciphertext-policy attribute-based encryption[C]∥IEEE Symposium on Security & Privacy,2007:321-334.
[3]JUNG T H,LI X Y,WAN Z G,et al. Privacy preserving cloud data access with multi-authorities[C]∥IEEE International Conference on Computer Communication,2013:2625-2633.
[4]BLAZE G,BLEUMER G,STRAUSS M. Divertible protocols and automic proxy-cryptography [C]∥Advances in Cryptology-Euro-crypt,1998:127-144.
[5]PIERRE E. Introduction to ILM: A tutorial [EB/OL].[2011-07-11] http:∥www.snia.org/tech-activities/dmf/ILM-Solutions-Conference/2004/Agenda/IntroductionILM,2004.
[6]SHAH G,VORUGANITI K,SHIVAM P, et al. ACE:Classification for information lifecycle management[R].Almaden:IBM Research Division,2006.
[7]LU S, LIU G M, XU K, et al. Research on the data migration strategy of hierarchical mass storage system[J].Computer Engineering & Science,2009,31(1):163-167.
[8]趙曉南, 李戰(zhàn)懷,曾雷杰,等.分級(jí)存儲(chǔ)管理技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展,2011, 48(增): 105-111.
[9] 洪漢舒, 孫知信. 基于云計(jì)算的大數(shù)據(jù)存儲(chǔ)安全的研究[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 34(4): 26-32.
[10] CLOKE P S,CORDERY L.The value of streamflow data for storage design[J].Water Resources Research, 1993,29(7):2371-2376.
[11] GLASS C, LEV B. Data analysis, regression and forecasting[J].Interfaces, 1996, 26(5):87-88.
[12] NADEEM A, JAVED M Y. A Performance Comparison of Data Encryption Algorithms[C]∥Information and Communication Technologies,2005.ICICT 2005.First International Conference on. IEEE,2005:84-89.
[13] BUKH P N D, JAIN R. The art of computer systems performance analysis, techniques for experimental design, measurement, simulation and modeling[J]. Wiley-Interscience, 1992,35(3):113-115.
(編輯李靜)
A data value classification and encryption mechanism based on metadata attributes
ZHANG Zhi-ming, LUO Jie
(Department of Information Engineering, Engineering University of CAPF, Xi′an 710086, China)
In view of the situation that data encryption techniques take the same way to all different data in the field of cloud storage, which may increase the complexity of data encryption in the environment of Big Data. A new data hierarchical encryption architecture is proposed. The architecture uses a policy-based approach to classify data based on the metadata attributes, then provides a suitable data encryption solution to ensure informed use of the encryption algorithm. Some useful conclusions are obtained through the analysis and comparison of the experimental data, which shows the architecture benefits a lot in reducing the time costs and complexity of data encryption.
metadata attributes; data value; data classification; data encryption
2015-10-11
國(guó)家自然科學(xué)基金資助項(xiàng)目(61402529);陜西省自然科學(xué)基金研究計(jì)劃基金資助項(xiàng)目(2015JQ6266)
張之明,男,山東濰坊人,武警工程大學(xué)副教授,從事大數(shù)據(jù)與云計(jì)算研究。
TP391
A
10.16152/j.cnki.xdxbzr.2016-02-007