李金
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)進(jìn)入了大數(shù)據(jù)時(shí)代。未來(lái)發(fā)展日益趨近信息化,人們的生活也因此發(fā)生了巨大改變。作為一項(xiàng)新興計(jì)算機(jī)技術(shù),云計(jì)算技術(shù)可以給大數(shù)據(jù)的計(jì)算提供非常大的便利,云存儲(chǔ)系統(tǒng)也得以普及。熱熔膠粘接芯片是一種較為優(yōu)異的存儲(chǔ)芯片,可以為大數(shù)據(jù)的存儲(chǔ)提供硬件載體。但是,在實(shí)際應(yīng)用的過(guò)程中,大數(shù)據(jù)分析帶來(lái)便利的同時(shí)也存在很多問題。其中,大數(shù)據(jù)的存儲(chǔ)安全是一個(gè)重點(diǎn)的問題。文章針對(duì)大數(shù)據(jù)分析背景下的熱熔膠粘接芯片存儲(chǔ)如何做好安全保障進(jìn)行探究,希望通過(guò)研究對(duì)后期工作有所參考。
關(guān)鍵詞:大數(shù)據(jù)分析;熱熔膠粘接芯片;存儲(chǔ)安全
中圖分類號(hào):TQ430.7+72
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-5922(2019)08-0112-06
近年來(lái),隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)分析的使用廣泛,隨之而來(lái)的安全問題也逐漸顯現(xiàn)。存儲(chǔ)系統(tǒng)是保障數(shù)據(jù)信息安全的第一道防線,通過(guò)身份認(rèn)證可以檢查用戶身份是否有效。用戶在進(jìn)行數(shù)據(jù)存儲(chǔ)時(shí)被爆出經(jīng)常出現(xiàn)信息丟失或被竊取的問題,致使大數(shù)據(jù)的存儲(chǔ)備安全受質(zhì)疑,為此社會(huì)各界對(duì)信息的存儲(chǔ)安全也給予了廣泛的關(guān)注。保障大數(shù)據(jù)存儲(chǔ)安全,作為存儲(chǔ)載體的芯片有很多種,其中熱熔膠粘接芯片具有明顯優(yōu)勢(shì)。因此,如何更好地保證基于大數(shù)據(jù)分析存儲(chǔ)的安全性與完整性是當(dāng)下保障大數(shù)據(jù)安全的熱點(diǎn)課題。
1 大數(shù)據(jù)分析
隨著數(shù)據(jù)的數(shù)量不斷增長(zhǎng),大數(shù)據(jù)的重要性日益突出,得到了研究者們的廣泛關(guān)注。但是,目前人們對(duì)大數(shù)據(jù)的概念理解仍然存在不同的看法,并且大部分人還是認(rèn)為大數(shù)據(jù)是個(gè)抽象概念。從大數(shù)據(jù)的本質(zhì)出發(fā),才能更加深刻地理解大數(shù)據(jù)在社會(huì)經(jīng)濟(jì)、網(wǎng)絡(luò)效應(yīng)等各方面的內(nèi)涵,這對(duì)于探究大數(shù)據(jù)分析下的安全風(fēng)險(xiǎn)控制具有重要意義。
1.1 大數(shù)據(jù)的基本定義及主要特征
大數(shù)據(jù)是超出傳統(tǒng)數(shù)據(jù)庫(kù)范疇的具有創(chuàng)造性思維的,用來(lái)收集、存儲(chǔ)、管理和分析大量數(shù)據(jù)信息的方式[1]。首先,大數(shù)據(jù)與時(shí)間相關(guān),隨著時(shí)間的增長(zhǎng),大數(shù)據(jù)的數(shù)量也不斷增長(zhǎng)。其次,不同層級(jí)的機(jī)構(gòu),對(duì)數(shù)據(jù)集的需求也不同,目前大數(shù)據(jù)通用的計(jì)算單位是TB。最后,對(duì)于大數(shù)據(jù)描述和控制,我們一般從種類、數(shù)量和速度這3個(gè)維度進(jìn)行。因此,大數(shù)據(jù)擁有時(shí)效性,數(shù)據(jù)存在形式也具有多樣性,這些使大數(shù)據(jù)理論與傳統(tǒng)的數(shù)據(jù)庫(kù)理論有明顯差異。
大數(shù)據(jù)的主要特征[2]為:①大數(shù)據(jù)的數(shù)據(jù)量非常大,通常以幾何級(jí)數(shù)形式增長(zhǎng)。②數(shù)據(jù)類型多樣化,包括原始類數(shù)據(jù)、多元型數(shù)據(jù)、函數(shù)數(shù)據(jù)多種形式。③對(duì)數(shù)據(jù)的運(yùn)算和處理速度加快,大數(shù)據(jù)分析可以為用戶提供大量有價(jià)值信息。研究表明,利用大數(shù)據(jù)可以推測(cè)趨勢(shì),可以剔除對(duì)個(gè)體數(shù)據(jù),可以預(yù)測(cè)社會(huì)現(xiàn)象,也可以做個(gè)性化的預(yù)測(cè)。大數(shù)據(jù)分析的應(yīng)用范圍相當(dāng)廣泛,數(shù)據(jù)處理能力不斷增強(qiáng),可以為用戶提供更多更廣泛的信息依據(jù)。
1.2 大數(shù)據(jù)應(yīng)用模式
通過(guò)云計(jì)算技術(shù)通??梢詫?shí)現(xiàn)大數(shù)據(jù)的應(yīng)用模式。云計(jì)算是一種應(yīng)用技術(shù),其計(jì)算通常以分布計(jì)算和網(wǎng)絡(luò)計(jì)算作為基礎(chǔ),并融合了網(wǎng)絡(luò)存儲(chǔ)和虛擬化等技術(shù),把個(gè)人計(jì)算機(jī)和私有數(shù)據(jù)中心需要執(zhí)行的命令及任務(wù)轉(zhuǎn)交給有存儲(chǔ)功能的計(jì)算機(jī)中心完成[3]。這種數(shù)據(jù)應(yīng)用模式不僅節(jié)約了基礎(chǔ)設(shè)施購(gòu)買的成本,個(gè)人或企業(yè)也可以按照計(jì)量的方式來(lái)支付租賃計(jì)算資源。由于大數(shù)據(jù)的數(shù)據(jù)來(lái)源眾多,其應(yīng)用模式分析也呈現(xiàn)多樣化。根據(jù)不同的數(shù)據(jù)特性,可以將大數(shù)據(jù)應(yīng)用模式進(jìn)行分類。由于數(shù)據(jù)的規(guī)模不同,可將大數(shù)據(jù)應(yīng)用模式分成內(nèi)存級(jí)和海量級(jí)兩種。內(nèi)存級(jí)是指數(shù)據(jù)的總量不超過(guò)集群內(nèi)存的最大值。當(dāng)前內(nèi)存量較大的服務(wù)器,可以將熱點(diǎn)數(shù)據(jù)內(nèi)存常駐,從而達(dá)到數(shù)據(jù)分析效率提高的目的。海量級(jí)是指數(shù)據(jù)量大,可能達(dá)到PB級(jí)別,不能一次性載人內(nèi)存或者沒有辦法在短時(shí)間內(nèi)處理完成。最簡(jiǎn)單的海量數(shù)據(jù)處理方法是分治法,通過(guò)將龐大的數(shù)據(jù)分開處理,由大化小,從小治之。除此之外,海量數(shù)據(jù)也可以通過(guò)集群分布式進(jìn)行處理。
1.3 大數(shù)據(jù)安全風(fēng)險(xiǎn)分析
當(dāng)前大數(shù)據(jù)的應(yīng)用逐漸普遍化,因此,用戶對(duì)數(shù)據(jù)安全的要求也越來(lái)越高。如果沒有妥善地處理大數(shù)據(jù)信息,大數(shù)據(jù)的存儲(chǔ)不夠安全,那么用戶的隱私安全將存在較大風(fēng)險(xiǎn)。對(duì)人們的狀態(tài)及行為預(yù)測(cè)是個(gè)人隱私的泄漏的主要形成原因,收集并分析用戶的上網(wǎng)信息,用戶的消費(fèi)習(xí)慣以及喜好因而被推理和發(fā)現(xiàn)。通過(guò)大數(shù)據(jù)提供的這些信息,從而對(duì)每個(gè)用戶提供針對(duì)性的服務(wù),這對(duì)用戶隱私信息的泄露埋下了巨大的隱患。縱觀實(shí)際發(fā)展,由于對(duì)用戶數(shù)據(jù)收集、存儲(chǔ)以及管理等過(guò)程不夠規(guī)范,導(dǎo)致用戶個(gè)人隱私信息泄露的監(jiān)管力度也不夠強(qiáng)。除此之外,大數(shù)據(jù)的可信度也存在問題,人們無(wú)法分辨信息的真?zhèn)?。從大?shù)據(jù)的實(shí)際信息情況來(lái)看,有些數(shù)據(jù)可能是偽造的,給用戶帶來(lái)錯(cuò)誤的認(rèn)識(shí),從而得到錯(cuò)誤的結(jié)論。
2 熱熔膠粘接芯片
熱熔膠的基底材料通常是熱塑性樹脂或彈性體,然后,在基底上添加增黏劑、增塑劑、抗氧化劑、阻燃劑及填料,再經(jīng)過(guò)熔融混合等步驟形成固態(tài)粘合劑[4]。與其他形態(tài)的膠粘劑,例如:熱固型、溶劑型和水基型膠粘劑等相比,熱熔膠具有很多優(yōu)越的性能。因此,熱熔膠在許多領(lǐng)域得到快速發(fā)展及應(yīng)用,在芯片制造過(guò)程中也是不可少的粘接材料。
用于粘接芯片的熱熔膠具有以下幾方面的優(yōu)異性能:①具有良好的防潮,絕緣性能;②固化后膠體收縮率低,柔韌性佳,物理性能穩(wěn)定;③與芯片,基板材料之間的粘接力強(qiáng);④耐高低溫,耐化學(xué)品腐蝕性能優(yōu)良;⑤對(duì)芯片及基材無(wú)腐蝕。但是,正是由于熱熔膠這些特殊的化學(xué)結(jié)構(gòu)與特性,不能使其不能被環(huán)境降解,會(huì)長(zhǎng)期滯留在環(huán)境中,可能會(huì)對(duì)環(huán)境造成威脅。不過(guò)為了降低熱熔膠的負(fù)面影響,近年來(lái)研究者們已經(jīng)在開發(fā)綠色熱熔膠,有望在不久的將來(lái)研制出不僅性能優(yōu)異,而且可生物降解的綠色熱熔膠。
3 存儲(chǔ)安全檢測(cè)流程
安全檢測(cè)系統(tǒng)工作流程見圖1,首先對(duì)合法訪問請(qǐng)求數(shù)據(jù)進(jìn)行收集,然后對(duì)數(shù)據(jù)進(jìn)行二進(jìn)制建模,再通過(guò)陰性選擇算法得到生成檢測(cè)器,此檢測(cè)器可用于區(qū)分合法請(qǐng)求和非法請(qǐng)求。與此同時(shí),收集真實(shí)運(yùn)行系統(tǒng)的訪問讀或?qū)懻?qǐng)求數(shù)據(jù),以此數(shù)據(jù)進(jìn)行二進(jìn)制建模,然后,根據(jù)陰性選擇算法確定二進(jìn)制建模的字符串長(zhǎng)度和與之相匹配的字符位數(shù),這樣通過(guò)二進(jìn)制建模得到的自我集合有效性和科學(xué)性比較高,同時(shí)檢測(cè)系統(tǒng)根據(jù)不斷變化的訪問請(qǐng)求,周期性地更新自我集合和生成的有效檢測(cè)器,達(dá)到不斷加強(qiáng)自我集合的完備性的效果。
陰性選擇算法包含兩個(gè)階段:審查和檢測(cè)。首先是審查階段,在此階段會(huì)根據(jù)請(qǐng)求數(shù)據(jù)隨機(jī)產(chǎn)生大量的候選個(gè)體,隨后計(jì)入自我耐受過(guò)程,在此過(guò)程中不斷地將候選個(gè)體跟自體元素相匹配,如果匹配成功就會(huì)將這個(gè)候選個(gè)體舍棄,否則將其保留進(jìn)入下一階段;第二階段為檢測(cè)階段,通過(guò)上一階段保留的候選個(gè)體與未知個(gè)體進(jìn)行匹配,如果此過(guò)程中匹配成功,則說(shuō)明該個(gè)體為非法請(qǐng)求,反之則為合法請(qǐng)求。
3.1 元數(shù)據(jù)的二進(jìn)制建模過(guò)程
從大量數(shù)據(jù)中發(fā)現(xiàn)并檢測(cè)出數(shù)據(jù)的變化或者異常是相當(dāng)困難的,有時(shí)候甚至不可能實(shí)現(xiàn)這種檢測(cè),但是,已經(jīng)出現(xiàn)的元數(shù)據(jù)技術(shù)可以很好地解決這個(gè)棘手的問題。元數(shù)據(jù)是用來(lái)描述其他數(shù)據(jù)信息的數(shù)據(jù),即數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)的定義也能夠應(yīng)用到存儲(chǔ)系統(tǒng)安全的檢測(cè)中:訪問系統(tǒng)調(diào)用中的元數(shù)據(jù)被抽取出來(lái),被抽取的元數(shù)據(jù)包括訪問文件的有效信息等。通過(guò)二進(jìn)制建模將元數(shù)據(jù)轉(zhuǎn)變?yōu)闄z測(cè)系統(tǒng)能識(shí)別的二進(jìn)制字符串,再通過(guò)模擬生物免疫系統(tǒng)中的抗原與抗體的識(shí)別過(guò)程來(lái)實(shí)現(xiàn)二進(jìn)制匹配技術(shù),最終將根據(jù)識(shí)別的結(jié)果進(jìn)行相應(yīng)的讀、寫、刪除或者修改等處理。對(duì)上述內(nèi)容進(jìn)行二進(jìn)制建模,那么存儲(chǔ)安全的檢測(cè)過(guò)程也就能夠通過(guò)獲取文件的訪問控制模式、文件ID、用戶ID、組ID等信息,進(jìn)一步將這些信息建模轉(zhuǎn)換為二進(jìn)制字符串序列,通過(guò)區(qū)分合法操作和非法操作,從而保障存儲(chǔ)系統(tǒng)的安全。元數(shù)據(jù)的二進(jìn)制建模方式,如圖2所示:
3.2 陰性選擇算法
陰性選擇算法是由Forrest在1994年提出算法,其原理是基于生物體的陰性選擇,因此陰性選擇算法具有一些特殊的性質(zhì):①由該算法產(chǎn)生的檢測(cè)器并沒有完全覆蓋非我集合,在檢測(cè)器內(nèi)部并不一定非得進(jìn)行交流與協(xié)調(diào)。②檢測(cè)器的檢測(cè)之所以能夠?qū)z測(cè)異?;顒?dòng)進(jìn)行有效地檢測(cè),是因?yàn)闄z測(cè)過(guò)程是通過(guò)概率性地檢測(cè)非我集來(lái)進(jìn)行匹配,而不是與已知模式庫(kù)進(jìn)行匹配。③對(duì)于某一特定長(zhǎng)度的字符串,只能產(chǎn)生有限種可能的情況,所有當(dāng)自我集合相當(dāng)完整時(shí)誤報(bào)情況不會(huì)出現(xiàn)。從上面所述陰性選擇算法特性可知,其檢測(cè)過(guò)程具有一定的概率性,因此,需要對(duì)選取字符串識(shí)別算法的過(guò)程以及決策不同的匹配精度生成的檢測(cè)器數(shù)量等過(guò)程進(jìn)行比較精確的估算。與陰性選擇算法相關(guān)的參數(shù),如表1所示。
由表1中所述的定義可知,隨機(jī)產(chǎn)生的兩個(gè)字符串在某種匹配算法下匹配成功的概率是PM,因此一個(gè)隨機(jī)串與一個(gè)自體元素匹配的失敗的概率為(1-PM),假設(shè)含有Ns個(gè)元素的自我集中的各個(gè)元素之間彼此獨(dú)立,那么一個(gè)隨機(jī)串和所有自體元素均匹配失敗的概率為:
上述公式(4)是有效檢測(cè)器數(shù)量在數(shù)學(xué)上的描述,當(dāng)Pf的取值固定時(shí),通過(guò)這個(gè)公式能夠得到有效檢測(cè)器數(shù)量NR與成功匹配概率PM之間的關(guān)系折線圖(如圖3所示)。從圖3的折線圖可知,當(dāng)有效檢測(cè)器匹配失敗率Pf的取值固定時(shí),隨機(jī)產(chǎn)生的兩個(gè)字符串與某種算法匹配成功的概率PM越大,所需要的有效檢測(cè)器數(shù)量NR越少。而根據(jù)不同取值的Pf對(duì)應(yīng)的折線可知,當(dāng)系統(tǒng)的安全要求越高時(shí),對(duì)應(yīng)所需要的有效檢測(cè)器數(shù)量NR也越多。除此之外,由公式(4)可以得到,當(dāng)Pf的取定值時(shí),有效檢測(cè)器的數(shù)量NR僅與PM有關(guān),而跟自我集中元素的數(shù)量Ns沒有關(guān)系。
公式(5)是對(duì)候選檢測(cè)器數(shù)量在數(shù)學(xué)上的描述。當(dāng)Ns和Pf的取值一定時(shí),由公式(5)能夠繪制出NRO和隨機(jī)字符串匹配成功概率PM的折線圖,如圖4所示。圖4是在Pf=0.0001的條件下繪制得到的折線圖,由圖中折現(xiàn)變化關(guān)系可知,當(dāng)匹配失敗率Pf的取值固定時(shí),隨著隨機(jī)產(chǎn)生的兩個(gè)字符串與某種算法匹配成功的概率PM的增大,對(duì)應(yīng)需要的候選檢測(cè)器數(shù)量NRO越大。通過(guò)自我集中數(shù)量Ns不同時(shí)對(duì)應(yīng)的曲線可以得到,自我集合中元素?cái)?shù)量Ns越大,所需要的候選檢測(cè)器數(shù)量NRO也越大。
上述所采用的與字符序列匹配的算法為r連續(xù)位匹配規(guī)則(R-contiguous Bits Matching Rule)。這種規(guī)則屬于模糊匹配規(guī)則中的一種,經(jīng)常應(yīng)用在對(duì)親和力免疫系統(tǒng)模型建立中。如果兩個(gè)隨機(jī)字符序列在對(duì)應(yīng)位置上至少有r個(gè)連續(xù)位置字符相同時(shí),則稱這二者符合r連續(xù)位匹配規(guī)則。若令l表示隨機(jī)字符串?dāng)?shù),那么當(dāng)字符串為二進(jìn)制字符串時(shí),會(huì)存在以下關(guān)系:
公式(6)是對(duì)隨機(jī)產(chǎn)生的兩個(gè)字符串與某種算法匹配成功的概率PM在數(shù)學(xué)上的表述。當(dāng)字符串長(zhǎng)度1的取值大小一定時(shí),由這個(gè)公式(6)可以得到隨機(jī)串匹配概率PM和r連續(xù)位匹配之間的折現(xiàn)關(guān)系圖像,如圖5所示。從圖5可以看出,當(dāng)字符串長(zhǎng)度l為一定時(shí),隨機(jī)產(chǎn)生的兩個(gè)字符串與r連續(xù)位匹配成功的概率PM隨著匹配位數(shù)r的增大而減少。而當(dāng)匹配位數(shù)r為定值時(shí),隨機(jī)產(chǎn)生的兩個(gè)字符串相匹配的概率PM隨著字符序列長(zhǎng)度l的增大而增大。
4 存儲(chǔ)安全檢測(cè)實(shí)驗(yàn)
4.1 安全檢測(cè)實(shí)驗(yàn)測(cè)試內(nèi)容
檢測(cè)系統(tǒng)主要對(duì)大數(shù)據(jù)分析下的膠粘劑粘接芯片的存儲(chǔ)安全進(jìn)行功能測(cè)試,關(guān)注的重點(diǎn)在于檢出率和誤報(bào)率這兩個(gè)方面。檢出率是用來(lái)衡量檢測(cè)非法訪問信息的能力,誤報(bào)率是用來(lái)描述將合法訪問請(qǐng)求誤判為非法訪問的概率。當(dāng)需要對(duì)系統(tǒng)的一些動(dòng)態(tài)參數(shù)進(jìn)行確定時(shí),檢出率和誤報(bào)率將會(huì)作為重要參考依據(jù)。
4.2 檢測(cè)系統(tǒng)的實(shí)驗(yàn)環(huán)境
(1)硬件環(huán)境:內(nèi)存:4G,處理器:2.7GHz IntelCore i5,硬盤:2T硬盤
(2)軟件環(huán)境:操作系統(tǒng):Ubuntu Server 14.1064bit,Linux內(nèi)核版本:3.16.1,集群環(huán)境:OpenStackHavana
4.3 安全檢測(cè)系統(tǒng)功能測(cè)試
用于測(cè)試的數(shù)據(jù)集合應(yīng)當(dāng)具備如下條件:①數(shù)據(jù)的數(shù)量足夠多;②數(shù)據(jù)足夠全面;③數(shù)據(jù)能夠真實(shí)地反映系統(tǒng)安全狀態(tài)。以此為原則,采用的數(shù)據(jù)是從MIT LL實(shí)驗(yàn)室收集得到的DARPA 1999IDS離線評(píng)估數(shù)據(jù)集[6]。此離線評(píng)估數(shù)據(jù)集不僅包括收集的模擬網(wǎng)絡(luò)中的網(wǎng)絡(luò)流量,還包括審計(jì)日志。我們首先從原始文件中提取了文件的ID、所屬的用戶,所屬的用戶組以及訪問模式等信息,然后將其建模為10000條合法的20位二進(jìn)制數(shù)據(jù),再在這個(gè)基礎(chǔ)上,變異得到10000條異常數(shù)據(jù)。從合法數(shù)據(jù)中選取4000條記錄作為自我集進(jìn)行測(cè)試。當(dāng)測(cè)試的算法采用r連續(xù)位匹配算法時(shí),我們對(duì)r的長(zhǎng)度取不同的值,結(jié)果表明當(dāng)r取9時(shí)能得到較好結(jié)果,因此,文中所述的測(cè)試條件為r=9。