高麗杰,薛麗香,馬照瑞,李振峰
(1. 鄭州科技學(xué)院信息工程學(xué)院,河南 鄭州 450064;2. 鄭州輕工業(yè)大學(xué),河南 鄭州 450001;3. 鄭州科技學(xué)院,河南 鄭州 450064)
互聯(lián)網(wǎng)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,導(dǎo)致網(wǎng)絡(luò)安全隱患問題層出不窮。如何確保大數(shù)據(jù)的安全性成為當(dāng)前研究的熱點話題[1,2]。國內(nèi)相關(guān)專家針對上述內(nèi)容展開大量研究,例如劉文芬等人[3]將高維數(shù)據(jù)劃分到多個不同的低維子空間內(nèi),對密集網(wǎng)格劃分處理,經(jīng)過處理得到各個網(wǎng)格尺度下的局部異常因子,同時輸出全部異常數(shù)值,將其按照從大到小的順序排列,獲取異常數(shù)據(jù),得到最終的檢測結(jié)果??猴w等人[4]在正常數(shù)據(jù)集的基礎(chǔ)上,通過梯度上升策略對全部正常樣本實行自我投毒處理,分析投毒數(shù)據(jù)對正常數(shù)據(jù)產(chǎn)生的負(fù)面影響,將分析結(jié)果作為判定依據(jù)最終實現(xiàn)數(shù)據(jù)檢測。周伯陽等人[5]優(yōu)先構(gòu)建多尺度低秩模型,對安全特征歸一化和維度縮減處理,同時將改進(jìn)的遞歸特征選擇算法和聚焦分類算法兩者有效結(jié)合,最終達(dá)到檢測的目的。以上已有方法雖已取得較高的應(yīng)用效果,但是不適用于動態(tài)大數(shù)據(jù)的雙向安全性檢測,導(dǎo)致其應(yīng)用受到限制。
在對大數(shù)據(jù)進(jìn)行采集和挖掘時,大數(shù)據(jù)中心的數(shù)據(jù)泄露風(fēng)險問題時有發(fā)生,考慮在分布式存儲方式下確保大數(shù)據(jù)傳輸和交換不被非法泄露和使用是當(dāng)前大數(shù)據(jù)安全檢測的主要問題。以及以上幾種典型大數(shù)據(jù)安全性檢測方法,本研究提出一種基于RSA公鑰加密的大數(shù)據(jù)安全性雙向檢測方法。經(jīng)實驗測試證明,所提方法能夠獲取更加滿意的大數(shù)據(jù)安全性雙向檢測結(jié)果。
RSA公鑰密碼機(jī)制的安全性是以單向函數(shù)為基礎(chǔ)實現(xiàn)的。分析密鑰的特點,將密碼系統(tǒng)劃分為對稱密碼機(jī)制和非對稱密鑰機(jī)制。通常情況下,需要借助公鑰完成大數(shù)據(jù)安全通信處理,詳細(xì)的操作步驟如下所示:
1)通過1查找2的公鑰,公開RSA公鑰并不會影響數(shù)據(jù)的安全傳輸,可以確保數(shù)據(jù)的隱私性,同時密鑰的公開還可以有效促進(jìn)信息共享以及其他人的使用。
2)將2的RSA公鑰加密處理,作為1的密鑰,完成初始大數(shù)據(jù)的加密處理工作。
3)1需要采用非安全信道將密文傳輸至2。
4)當(dāng)2在接收到密文之后,需要結(jié)合自身特性完成解密處理,同時將明文還原處理。
其中,公開RSA密鑰算法[6,7]的詳細(xì)操作步驟如圖1所示。
圖1 公開密鑰算法的操作流程圖
橢圓曲線并非橢圓,通常情況下,密碼學(xué)主要使用有限域上的橢圓曲線,設(shè)定D(GF(p))代表GF(p)的橢圓曲線,D(GF(p))上的兩個點均坐落在域GF(p)范圍內(nèi)。
橢圓曲線中已經(jīng)存在的公鑰密鑰機(jī)制是得到對應(yīng)橢圓曲線離散對數(shù)的核心,通過分析先驗知識可知,需要將滿足條件的橢圓曲線應(yīng)用于公鑰機(jī)制中。為了有效確保大數(shù)據(jù)的安全性,通過式(1)求解所需要的時間復(fù)雜度
(1)
式中,T(i,j)代表時間復(fù)雜度;O代表亞指數(shù)。
安全復(fù)雜度是由四個不同參數(shù)的加權(quán)值構(gòu)建,具體的計算式如下
(2)
式中,B(t)代表安全復(fù)雜度;α代表環(huán)境權(quán)值;a(i)代表網(wǎng)絡(luò)終端速度權(quán)值;β代表信息安全需求度;χ代表系統(tǒng)設(shè)定的安全度;φ代表安全度的權(quán)值系數(shù)。
當(dāng)確保系統(tǒng)安全度不變的情況下,分別分析各個系統(tǒng)的具體請求,以此為依據(jù)選擇對應(yīng)的安全滿足度。安全滿足度是主要描述用戶對系統(tǒng)安全性能的需求,由于不同用戶需要傳輸?shù)臄?shù)據(jù)不同,所以保密等級也存在十分明顯的差異,所以采取的傳輸方式也存在十分明顯的差異。如果傳輸?shù)燃壉容^低的數(shù)據(jù),則采用系統(tǒng)自帶的傳輸機(jī)制即可;如果是保密等級比較高的數(shù)據(jù),則需要引入安全需求度,以此為依據(jù)制定對應(yīng)的數(shù)據(jù)傳輸方案。
在密碼學(xué)中,需要多處使用數(shù)學(xué)理論,以下主要通過RSA公鑰加密算法對大數(shù)據(jù)加密處理。RSA屬于分組密碼,其中明文和密文都是有明確數(shù)量的整數(shù)。針對隨機(jī)一組明文而言,加密和解密可以表示為式(3)的形式
(3)
式中,C代表加密形式;M代表解密形式;d代表密文分組數(shù)量;e代表常數(shù);modn代表明文分組數(shù)量。
在加密的過程中[8,9],若沒有將需要加密的數(shù)據(jù)設(shè)定為一個整數(shù),則需要設(shè)定對應(yīng)的假設(shè)條件,假設(shè)滿足假設(shè)條件,則可以采用上述方式完成加密解密處理。
RSA需要使用大量的質(zhì)數(shù)建立密鑰對,同時需要設(shè)定質(zhì)數(shù)的數(shù)量。在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中,由于不同類型數(shù)據(jù)的保密級別不同,所以對應(yīng)的信息安全需求也存在十分明顯的差異。分別計算不同類型數(shù)據(jù)的保密級別,選擇與之對應(yīng)的安全需求度,確保數(shù)據(jù)的安全傳輸。同時還可以將其數(shù)據(jù)劃分為普通保密級別和高級保密級別兩種形式,假設(shè)數(shù)據(jù)為普通保密級別,利用系統(tǒng)自帶的安全度即可完成數(shù)據(jù)安全傳輸;反之,如果數(shù)據(jù)為高級保密級別,需要選擇符合需求的安全傳輸參數(shù),確保數(shù)據(jù)可以準(zhǔn)確傳輸,同時完成大數(shù)據(jù)的RSA公鑰加密[10,11]。
在大數(shù)據(jù)時代,數(shù)據(jù)的表現(xiàn)形式是多種多樣的,大數(shù)據(jù)安全問題受到了廣泛的關(guān)注。在2.1小節(jié)加密的基礎(chǔ)上,需要檢測經(jīng)過加密處理后大數(shù)據(jù)的安全性。
利用圖2給出大數(shù)據(jù)安全性雙向檢測流程圖。
圖2 大數(shù)據(jù)安全性檢測流程圖
首先,需要對加密處理后的數(shù)據(jù)預(yù)處理,清除不可以使用的數(shù)據(jù)項和重復(fù)項。由于數(shù)據(jù)集中包含數(shù)值特征和字符特征,為了讓大數(shù)據(jù)得到十分廣泛的應(yīng)用,需要對全部數(shù)據(jù)展開格式化以及標(biāo)準(zhǔn)化處理,詳細(xì)的操作步驟為:
1)數(shù)據(jù)清洗是展開數(shù)據(jù)預(yù)處理的首要步驟[12],同時需要將全部重復(fù)樣本數(shù)據(jù)刪除,最終達(dá)到重復(fù)數(shù)據(jù)刪除的目的。
2)對數(shù)據(jù)中字符特征數(shù)值化處理,將字符特征映射為數(shù)值數(shù)據(jù)。
3)為了避免不同特征之間量綱產(chǎn)生的負(fù)面影響,需要對采集到的全部大數(shù)據(jù)實行標(biāo)準(zhǔn)化處理,具體的計算式為
(4)
上式中,n代表大數(shù)據(jù)標(biāo)準(zhǔn)化處理結(jié)果;θ代表標(biāo)簽編碼。
當(dāng)數(shù)據(jù)完成預(yù)處理之后,各個數(shù)據(jù)集中仍然包含大量不確定的特征屬性,同時它們?nèi)渴欠稚⑶也还潭ǖ腫13,14]。所以,需要借助主成分分析方法對大數(shù)據(jù)降維處理,詳細(xì)的操作步驟如下所示:
1)通過列將原始數(shù)據(jù)劃分為不同規(guī)格的矩陣;
2)計算矩陣的平均取值,通過采用行數(shù)減去計算所得平均值。
3)計算協(xié)方差矩陣特征值以及相關(guān)向量,以此為依據(jù)構(gòu)建矩陣。
4)將各個矩陣相乘,即可需要所需要的需求數(shù)據(jù)。
然后,在動態(tài)選擇部分則采用基礎(chǔ)分類算法實行分類處理,進(jìn)而計算得到不同的測試指標(biāo),以此為依據(jù)衡量分類算法的優(yōu)劣。所以,根據(jù)混淆矩陣中各個評價指標(biāo)的計算結(jié)果完成精確度動態(tài)選擇[15]。
將聚類算法設(shè)定為無監(jiān)督學(xué)習(xí)的代表算法,可以更好完成無標(biāo)簽大數(shù)據(jù)分類處理。所以,在大數(shù)據(jù)安全性檢測過程中,需要引入層次聚類算法,通過聚類結(jié)果中各個簇內(nèi)的基礎(chǔ)集成算法中的不同評價指標(biāo)完成聚類處理,在層次聚類中簇間相似度是通過舉例指標(biāo)來衡量的,詳細(xì)的計算式為
(5)
式中,dist(x,y)代表距離函數(shù);xi和yi分別代表x和y的第i個坐標(biāo)。
利用動態(tài)選擇算法,從本質(zhì)上選擇不同類型的數(shù)據(jù)集,為了描述大數(shù)據(jù)本身的特性,需要在檢測過程中加入組合權(quán)值部分。將主觀因子權(quán)值和客觀因子權(quán)值有效結(jié)合處理,進(jìn)而獲取有效的組合權(quán)值。
將組合權(quán)值中取值最小值設(shè)定為基礎(chǔ)評價等級,剩下部分則需要結(jié)束計算比值展開詳細(xì)的分析和計算。
組合權(quán)值可以劃分為兩個部分,分別為:
1)客觀權(quán)值:
主要代表基礎(chǔ)分類算法自身的性能,將F1-Measure作為各項指標(biāo)評價的標(biāo)準(zhǔn),詳細(xì)的計算式為
(6)
式中,TP代表數(shù)據(jù)自身標(biāo)簽為陽性,得到的結(jié)果也為陽性;FP代表數(shù)據(jù)自身標(biāo)簽為陰性,得到的結(jié)果為陽性;FN代表數(shù)據(jù)自身標(biāo)簽為陽性,得到的結(jié)果為陰性。
2)主觀權(quán)值:
通過主觀權(quán)值評價分類算法和數(shù)據(jù)集的適應(yīng)性程度,針對不同的分類算法,由于自身結(jié)構(gòu)不同,所以不同數(shù)據(jù)對應(yīng)的數(shù)據(jù)集也存在十分明顯的差異。
引入距離函數(shù),將主觀權(quán)值和客觀權(quán)值有效結(jié)合,形成組合權(quán)值。其中,不同權(quán)值之間的對應(yīng)的分配系數(shù)可以表示為式(7)的形式
(7)
式中,h(ci,mi)代表分配系數(shù);ci代表主觀權(quán)值對應(yīng)的分配系數(shù);mi代表客觀權(quán)值對應(yīng)的分配系數(shù)。
將組合權(quán)值代入到加權(quán)投票算法中展開集成處理,其中加權(quán)投票算法的詳細(xì)操作步驟為:
1)計算不同分類算法的準(zhǔn)確性;
2)通過數(shù)據(jù)特征計算多個分類算法對應(yīng)的組合權(quán)值,進(jìn)而獲取權(quán)值等級;
3)將分類算法準(zhǔn)確度和權(quán)值等級兩者相乘,得到對應(yīng)的加權(quán)準(zhǔn)確度;
4)對分配算法采用加權(quán)投票的方式集成處理。
基于上述步驟完成大數(shù)據(jù)安全性雙向檢測結(jié)果。
為了驗證所提基于RSA公鑰加密的大數(shù)據(jù)安全性雙向檢測方法的有效性,需要展開仿真測試。實驗調(diào)整訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)占總數(shù)的比例,利用多種類大數(shù)據(jù)為實驗提供多變數(shù)據(jù)環(huán)境,全面綜合測試大數(shù)據(jù)安全性雙向檢測效果,實驗設(shè)置的各個種類的數(shù)據(jù)集如表1所示:
表1 多種數(shù)據(jù)集類型
從實驗設(shè)定的12種數(shù)據(jù)集中,隨機(jī)抽取4個數(shù)據(jù)集完成實驗,并將這4個數(shù)據(jù)集編號為1#、2#、3#、4#。利用圖3給出文獻(xiàn)[3]提出的基于多分辨率網(wǎng)格的數(shù)據(jù)異常檢測方法、文獻(xiàn)[4]提出的基于數(shù)據(jù)復(fù)雜度的投毒數(shù)據(jù)檢測方法以及研究方法的大數(shù)據(jù)安全性雙向檢測率對比結(jié)果如圖3所示。
圖3 不同方法的檢測率對比
分析圖3所得實驗結(jié)果數(shù)據(jù)可知,由于測試類別不同,導(dǎo)致各個方法獲取的大數(shù)據(jù)安全性雙向檢測率存在較為明顯的差異。相比另外兩種文獻(xiàn)方法,研究方法可以的大數(shù)據(jù)安全檢測率更高,對不同類別數(shù)據(jù)集的檢測率均可達(dá)98%。
為了進(jìn)一步檢驗所提方法的優(yōu)越性,實驗將誤報率、約登指數(shù)作為測試指標(biāo)。誤報率是大數(shù)據(jù)安全檢測的錯誤幾率。誤報率越低,說明該方法的應(yīng)用準(zhǔn)確率越高。約登指數(shù)(Youden index):也稱正確指數(shù),是評價篩查實驗真實性的方法,指數(shù)越大說明篩查實驗的效果越好,真實性越大。對比文獻(xiàn)[3]提出的基于多分辨率網(wǎng)格的數(shù)據(jù)異常檢測方法、文獻(xiàn)[4]提出的基于數(shù)據(jù)復(fù)雜度的投毒數(shù)據(jù)檢測方法以及研究方法的測試結(jié)果,所得數(shù)據(jù)如圖4和圖5所示。
圖4 不同方法的誤報率對比
圖5 不同方法的約登指數(shù)對比
分析圖4和圖5的實驗結(jié)果可知,由于測試類別的不同各個測試指標(biāo)之間存在明顯的差異。其中,基于多分辨率網(wǎng)格的數(shù)據(jù)異常檢測方法和基于數(shù)據(jù)復(fù)雜度的投毒數(shù)據(jù)檢測方法的誤報率更高,在檢測3#大數(shù)據(jù)集時最高誤報率已經(jīng)達(dá)到1.4%,且約登指數(shù)也更低,大數(shù)據(jù)的安全性檢測性能明顯不如所提方法。研究方法誤報率低于0.4%,約登指數(shù)接近0.9。本次實驗有效驗證了所研究方法的優(yōu)越性。
為解決當(dāng)前大數(shù)據(jù)安全檢測方法方法存在的應(yīng)用性能的不足,設(shè)計并提出一種基于RSA公鑰加密的大數(shù)據(jù)安全性雙向檢測方法。實驗測試結(jié)果表明,所提方法可以有效大數(shù)據(jù)安全性檢測的誤判率,大幅度提升大數(shù)據(jù)安全管理效率,該研究方法的實用價值較高,應(yīng)用前景良好。