田沛霖
(復(fù)旦大學(xué)文獻(xiàn)信息中心,上海 200433)
隨著大數(shù)據(jù)技術(shù)的發(fā)展,各行各業(yè)都積累并存儲(chǔ)了海量的相關(guān)數(shù)據(jù),其附屬的分析機(jī)構(gòu)可以利用數(shù)據(jù)挖掘技術(shù)從中獲取更有價(jià)值的信息[1]。但在面臨海量數(shù)據(jù)的收集、傳輸、存儲(chǔ)和分析挖掘時(shí),鑒于大數(shù)據(jù)特別的“4V+1C”新特征,傳統(tǒng)的數(shù)據(jù)安全技術(shù)并不能滿足新形勢(shì)下的數(shù)據(jù)安全需求[2],而企事業(yè)單位中承載極大數(shù)據(jù)量的信息系統(tǒng)一旦發(fā)生安全問(wèn)題,造成泄密事件,勢(shì)必會(huì)導(dǎo)致企事業(yè)單位的公信力、經(jīng)濟(jì)效益大幅降低,同時(shí)伴有經(jīng)濟(jì)活動(dòng)參與單位或個(gè)人信息泄露等次生災(zāi)害,產(chǎn)生連帶效應(yīng)造成巨大損失,甚至危害國(guó)家安全:如2015年5月美國(guó)國(guó)稅局系統(tǒng)遭到攻擊導(dǎo)致10 萬(wàn)納稅人永久信息遭到泄露事件,造成國(guó)稅局的退稅服務(wù)系統(tǒng)被迫關(guān)閉,納稅人的退稅資金的安全受到威脅。所以如何利用大數(shù)據(jù)技術(shù)保護(hù)大數(shù)據(jù)環(huán)境下數(shù)據(jù)的安全性的問(wèn)題應(yīng)運(yùn)而生。
在大數(shù)據(jù)環(huán)境下,“大數(shù)據(jù)”與數(shù)據(jù)安全問(wèn)題的關(guān)系有兩方面:大數(shù)據(jù)既是“保護(hù)對(duì)象”,又是“保護(hù)手段”。一方面,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全主體是大數(shù)據(jù)的安全;另一方面,大數(shù)據(jù)分析等安全技術(shù)也是信息系統(tǒng)防范外界攻擊的重要手段。
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲(chǔ)單位往往具有強(qiáng)大的數(shù)據(jù)體系,但也很容易存在網(wǎng)絡(luò)問(wèn)題,如出現(xiàn)漏洞,用戶的相關(guān)數(shù)據(jù)很容易被不法分子利用或者進(jìn)行售賣(mài),對(duì)個(gè)人數(shù)據(jù)安全造成嚴(yán)重威脅[3]。同時(shí),為實(shí)現(xiàn)大數(shù)據(jù)的有效處理,相關(guān)工作也引入了分布式的計(jì)算與存儲(chǔ)框架,這些新型框架也帶來(lái)了新的安全風(fēng)險(xiǎn)。在這樣的安全環(huán)境下,信息泄露的風(fēng)險(xiǎn)時(shí)刻存在,不法分子利用大數(shù)據(jù)的技術(shù)便利進(jìn)行大規(guī)模的犯罪活動(dòng),會(huì)阻礙社會(huì)和諧穩(wěn)定發(fā)展。大數(shù)據(jù)面臨的數(shù)據(jù)安全問(wèn)題主要集中在隱私泄露、外界攻擊和數(shù)據(jù)存儲(chǔ)3個(gè)方面。
1.2.1 隱私泄露
數(shù)據(jù)隱私即數(shù)據(jù)收集與數(shù)據(jù)傳播間的關(guān)系,涉及公共隱私預(yù)期、技術(shù)、法律與政治等多領(lǐng)域要素。企業(yè)本身對(duì)數(shù)據(jù)的保護(hù)程度不夠造成了用戶隱私在系統(tǒng)未被攻擊的情況下的可能泄露。如在匿名問(wèn)題中,企業(yè)僅關(guān)注了對(duì)用戶標(biāo)識(shí)符的消除,而忽略了對(duì)IP 地址、HASH值等亦能反映用戶特征的數(shù)據(jù),導(dǎo)致某些用戶在系統(tǒng)中的行為日志記錄項(xiàng)即使被匿名化處理,仍能精確地定為于特定用戶;或者匿名信息在與其他未匿名化處理的數(shù)據(jù)源結(jié)合時(shí),通過(guò)行為匹配,匿名信息的用戶就有被識(shí)別的可能。
1.2.2 外界攻擊
大數(shù)據(jù)由于其體量大,多樣性豐富的特點(diǎn),更容易成為黑客攻擊的目標(biāo):攻擊規(guī)模大的數(shù)據(jù)集合使黑客在所獲數(shù)據(jù)量與努力值相比的“收益率”大大提高,這驅(qū)動(dòng)黑客傾向于攻擊大數(shù)據(jù)信息系統(tǒng)。
黑客的攻擊通常具有很強(qiáng)的目的性,在編輯攻擊大數(shù)據(jù)信息系統(tǒng)的程序時(shí),會(huì)針對(duì)系統(tǒng)的防御架構(gòu),因此更容易破壞系統(tǒng)數(shù)據(jù)安全體系,造成數(shù)據(jù)泄露與損失。此外,隨著數(shù)據(jù)安全技術(shù)的不斷提升,大數(shù)據(jù)信息系統(tǒng)的安全性也顯著提升,近年來(lái)雖然沒(méi)有發(fā)生大規(guī)模的黑客攻擊事件,但黑客仍會(huì)進(jìn)行較小規(guī)模的入侵,在用戶未察覺(jué)的情況下盜取用戶信息,這種攻擊方式對(duì)數(shù)據(jù)安全造成了很大影響,不僅會(huì)導(dǎo)致信息系統(tǒng)崩潰,而且會(huì)使大量數(shù)據(jù)泄露。
1.2.3 數(shù)據(jù)存儲(chǔ)
傳統(tǒng)數(shù)據(jù)安全體系傾向于將數(shù)據(jù)虛擬化統(tǒng)一存儲(chǔ),這會(huì)帶來(lái)兩方面的問(wèn)題:(1)存儲(chǔ)設(shè)備經(jīng)常會(huì)是異構(gòu)的,其虛擬化存儲(chǔ)功能難于統(tǒng)一部署和管理;(2)虛擬化存儲(chǔ)的實(shí)現(xiàn)過(guò)程是在相同物理介質(zhì)上混合存儲(chǔ)不同密級(jí)數(shù)據(jù),加之用戶并不清晰自己的數(shù)據(jù)以何種存儲(chǔ)方式存儲(chǔ)在何種地方的何種介質(zhì)中,容易造成數(shù)據(jù)的越權(quán)訪問(wèn),進(jìn)而可能導(dǎo)致數(shù)據(jù)泄露。
通過(guò)分析與傳統(tǒng)數(shù)據(jù)安全體系特點(diǎn)的比對(duì),發(fā)現(xiàn)實(shí)現(xiàn)大數(shù)據(jù)安全的捷徑是在傳統(tǒng)數(shù)據(jù)安全體系框架中,補(bǔ)充對(duì)于由大數(shù)據(jù)帶來(lái)的數(shù)據(jù)安全風(fēng)險(xiǎn)的防護(hù)功能。
外界攻擊是使數(shù)據(jù)安全發(fā)生問(wèn)題的最高頻原因,因此也是研究探討技術(shù)的主要涉及領(lǐng)域。
Hadoop是一個(gè)使用Java編寫(xiě)的開(kāi)源分布式軟件框架,其以可靠、高效、可伸縮的方式對(duì)大數(shù)據(jù)進(jìn)行分布式處理,在存儲(chǔ)和計(jì)算方面與普通的現(xiàn)有的單節(jié)點(diǎn)計(jì)算相比具有顯著優(yōu)勢(shì),在全球范圍內(nèi)應(yīng)用廣泛。汪來(lái)富等[4]研究了基于Hadoop 的大數(shù)據(jù)安全架構(gòu),主要設(shè)計(jì)了一種Hadoop的技術(shù)架構(gòu),以分層、分功能模塊的形式對(duì)可能存在的威脅情報(bào)進(jìn)行滾動(dòng)分析和動(dòng)態(tài)更新。
但大數(shù)據(jù)分布式計(jì)算天生的缺點(diǎn)是難于保證異構(gòu)平臺(tái)、各數(shù)據(jù)結(jié)點(diǎn)間的一致性和安全性,較大的數(shù)據(jù)冗余、難以及時(shí)準(zhǔn)確地定位、沒(méi)有嵌入安全傳輸層協(xié)議TSL都使其安全機(jī)制非常薄弱。
威脅情報(bào)是通過(guò)大數(shù)據(jù)、分布式系統(tǒng)等方式獲取的漏洞、威脅、特征、行為等的知識(shí)集合及可操作性建議[5],其基于攻擊者的視角,依靠廣泛的可見(jiàn)性及對(duì)互聯(lián)網(wǎng)威脅的全方位理解,對(duì)傳統(tǒng)防御方式進(jìn)行了邏輯上的補(bǔ)充,從而幫助管理者全方位地了解可能的威脅,并采取準(zhǔn)確的行動(dòng)以消弭損失。宋曉峰等[5]研究了私有威脅情報(bào)系統(tǒng)的構(gòu)建,設(shè)計(jì)通過(guò)爬取、流量分析等方式采集威脅情報(bào)數(shù)據(jù),利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)構(gòu)建私有威脅情報(bào)系統(tǒng),以獲取可疑IP、域名或HASH值的詳細(xì)威脅報(bào)告。
APT(Advanced Persisted Threat)攻擊是針對(duì)重要數(shù)據(jù)進(jìn)行的一系列多方位多方法的持續(xù)攻擊行為,在發(fā)動(dòng)攻擊前收集被攻擊對(duì)象的業(yè)務(wù)流程和目標(biāo)系統(tǒng)等相關(guān)信息。在收集過(guò)程中,APT 攻擊會(huì)主動(dòng)挖掘目標(biāo)受信系統(tǒng)和應(yīng)用程序的漏洞,利用其組建攻擊者所需的網(wǎng)絡(luò),并利用漏洞進(jìn)行精確攻擊。周濤[6]研究了5種APT 攻擊檢測(cè)方案,其研究的主要思想是借助大數(shù)據(jù)分析技術(shù),綜合以深度學(xué)習(xí)為基礎(chǔ)的網(wǎng)絡(luò)異常行為和異常流量檢測(cè)、未知行為沙箱行為檢測(cè)、攻擊溯源等檢測(cè)技術(shù),對(duì)APT 攻擊鏈的7個(gè)階段進(jìn)行全面關(guān)聯(lián)檢測(cè)。文獻(xiàn)同時(shí)為不同檢測(cè)技術(shù)和APT攻擊鏈不同階段間建立了邏輯關(guān)系模型。
網(wǎng)絡(luò)隔離技術(shù)是指把兩個(gè)或兩個(gè)以上可以路由的網(wǎng)絡(luò)通過(guò)不可路由的協(xié)議進(jìn)行數(shù)據(jù)交換,從而達(dá)到隔離的目的。范浩[7]提出了采用內(nèi)墻和外墻兩種模式隔離網(wǎng)絡(luò)的方法:內(nèi)墻防護(hù)數(shù)據(jù)系統(tǒng),只與特定的業(yè)務(wù)系統(tǒng)交互;外墻防護(hù)業(yè)務(wù)系統(tǒng),避免攻擊滲透到內(nèi)網(wǎng)。
但2018年11月初發(fā)生的伊朗核設(shè)施遭到以色列“震網(wǎng)”病毒攻擊導(dǎo)致癱瘓的事件向我們證明了即使是與外界物理、通信都隔離的系統(tǒng)也有被攻擊的可能,這說(shuō)明網(wǎng)絡(luò)隔離的方法從邏輯上仍需改變。
身份認(rèn)證技術(shù)是當(dāng)前應(yīng)用最廣泛的數(shù)據(jù)安全防護(hù)策略,即系統(tǒng)在對(duì)操作者身份加以識(shí)別時(shí),以特定數(shù)據(jù)為依據(jù),對(duì)用戶進(jìn)行認(rèn)定并授權(quán)。因此,可利用身份認(rèn)證技術(shù),借助個(gè)性化指令、個(gè)性化認(rèn)證密鑰的應(yīng)用,判斷當(dāng)前操作者是否合法,以此推動(dòng)數(shù)據(jù)安全防線的構(gòu)建。高陽(yáng)等[8]提出通過(guò)數(shù)字證書(shū)、虹膜識(shí)別等身份認(rèn)證方式來(lái)授予用戶接觸數(shù)據(jù)的權(quán)限。但這種單一的身份認(rèn)證方式在用戶、硬件上均有其局限性:用戶的專屬標(biāo)識(shí)可能會(huì)被盜取、木馬截獲或因經(jīng)濟(jì)利益出賣(mài);忘記攜帶或認(rèn)證過(guò)程過(guò)于繁瑣也會(huì)對(duì)日常工作造成很多負(fù)擔(dān)。
數(shù)據(jù)安全技術(shù)可以通過(guò)數(shù)據(jù)挖掘來(lái)建立安全規(guī)則,保證數(shù)據(jù)信息的安全,其主要手段是聚類分析,按照數(shù)據(jù)中所發(fā)現(xiàn)對(duì)象的描述信息和關(guān)系信息對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組。譚正云[9]提出運(yùn)用K-means 的聚類型數(shù)據(jù)挖掘算法探索并求證數(shù)據(jù)安全規(guī)則,從而實(shí)現(xiàn)防火墻或入侵檢測(cè)的功能,研究也對(duì)K-means 算法做了相關(guān)改進(jìn):突破了其數(shù)據(jù)項(xiàng)僅適用于數(shù)字的情況的限制、采用了基于密度的自動(dòng)聚類,在很大程度上克服了算法的初始條件敏感性和可能的聚類失效問(wèn)題。
經(jīng)過(guò)對(duì)大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全技術(shù)研究現(xiàn)狀的探索,研究發(fā)現(xiàn)在這些主流技術(shù)中,基于Hadoop 的安全架構(gòu)、網(wǎng)絡(luò)隔離與身份認(rèn)證技術(shù)存在較明顯的問(wèn)題,是下面研究探索解決方案的對(duì)象。
根據(jù)問(wèn)題的難易程度與現(xiàn)實(shí)狀況,研究采取文獻(xiàn)研究法、功能分析法、個(gè)案分析法與描述性研究法解決問(wèn)題:針對(duì)Hadoop 平臺(tái)架構(gòu)的安全機(jī)制問(wèn)題,通過(guò)查閱相關(guān)文獻(xiàn)資料并嘗試總結(jié)歸納以得出解決方案;針對(duì)網(wǎng)絡(luò)隔離與身份認(rèn)證技術(shù),由其實(shí)現(xiàn)的機(jī)制及反映缺陷的案例入手,從整個(gè)業(yè)務(wù)流程角度探索技術(shù)路線的優(yōu)化方案。
3.2.1 Hadoop平臺(tái)架構(gòu)的安全機(jī)制
(1)針對(duì)其數(shù)據(jù)結(jié)點(diǎn)難于準(zhǔn)確定位與平臺(tái)安全性的問(wèn)題,可以采用基于密鑰-證書(shū)系統(tǒng)的結(jié)點(diǎn)認(rèn)證措施以識(shí)別并及時(shí)阻斷惡意結(jié)點(diǎn),保護(hù)數(shù)據(jù)通道;并依據(jù)不同密級(jí)與權(quán)限,為不同應(yīng)用程序與用戶分發(fā)不同級(jí)別的密鑰。相關(guān)認(rèn)證與密鑰授權(quán)服務(wù)可基于Kerberos 身份認(rèn)證機(jī)制實(shí)現(xiàn)[10]:即在安全性不確定的網(wǎng)絡(luò)通信環(huán)境下,實(shí)體使用Kerberos 機(jī)制以安全的方式向另一個(gè)實(shí)體證明其身份,其核心是密鑰分發(fā)中心,基于系統(tǒng)-單一用戶間記載每個(gè)Kerberos 用戶的密鑰數(shù)據(jù)庫(kù),密鑰分發(fā)中心為需要進(jìn)行通信的兩實(shí)體間建立臨時(shí)會(huì)話密鑰,從而加密其交互信息。該機(jī)制的實(shí)現(xiàn)首先要在Hadoop集群的每個(gè)節(jié)點(diǎn)上配置Kerberos認(rèn)證并安裝密鑰分發(fā)中心,建立對(duì)應(yīng)的數(shù)據(jù)庫(kù),最后配置Hadoop 集群使用Kerberos認(rèn)證。
(2)針對(duì)其沒(méi)有嵌入安全傳輸層協(xié)議TLS的問(wèn)題,可以在Hadoop的各數(shù)據(jù)結(jié)點(diǎn)間、數(shù)據(jù)結(jié)點(diǎn)與應(yīng)用程序間嵌入TLS組件,保障服務(wù)器與代理間的交互,并對(duì)用戶的訪問(wèn)進(jìn)行加密保護(hù),以設(shè)計(jì)出可靠的安全通信機(jī)制。
3.2.2 網(wǎng)絡(luò)隔離的脆弱性
從伊朗核設(shè)施遭“震網(wǎng)”病毒攻擊一事來(lái)看,只注重物理上的防御機(jī)制是不夠的:(1)要從管理層面,嚴(yán)控供應(yīng)鏈管理,從源頭保障設(shè)備的安全性;加強(qiáng)從業(yè)人員的保密意識(shí),防止系統(tǒng)漏洞信息外泄或被盜;同時(shí),要做好移動(dòng)存儲(chǔ)介質(zhì)的管控,減少惡意代碼和病毒的傳播;(2)要從技術(shù)層面,做好網(wǎng)絡(luò)流量監(jiān)測(cè)審計(jì)、設(shè)置安全設(shè)備進(jìn)行網(wǎng)絡(luò)邊界防護(hù)、安全域劃分和控制系統(tǒng)主機(jī)防護(hù)等措施,廣泛采用各種安全技術(shù),從技術(shù)層面加強(qiáng)系統(tǒng)安全防護(hù)能力。
只有實(shí)現(xiàn)保密單位“人防”、“物防”和“技防”三位一體,才能切實(shí)增強(qiáng)系統(tǒng)抵御如APT攻擊等破壞、竊取數(shù)據(jù)行為的能力,通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)安全防護(hù)。
3.2.3 身份認(rèn)證的局限性與不便性
(1)增強(qiáng)對(duì)涉密人員關(guān)于涉密數(shù)據(jù)的保密意識(shí)的培訓(xùn),加強(qiáng)對(duì)間諜及危險(xiǎn)行為的甄別、抵制能力,嚴(yán)防特異性數(shù)據(jù)的泄露。
(2)從立法角度對(duì)針對(duì)涉密數(shù)據(jù)的違規(guī)行為進(jìn)行限制,違者嚴(yán)懲。
(3)運(yùn)用大數(shù)據(jù)綜合分析手段,結(jié)合用戶生物特征及行為特征的特異性,進(jìn)行多維度身份識(shí)別,如可以結(jié)合指紋控制系統(tǒng)和視網(wǎng)膜控制系統(tǒng)共同參與身份認(rèn)證;也可以采取動(dòng)態(tài)電子口令認(rèn)證的形式來(lái)進(jìn)一步強(qiáng)化數(shù)據(jù)的安全性。
(4)在加強(qiáng)對(duì)合法用戶獲取數(shù)據(jù)時(shí)的安全性的控制的同時(shí),也需要加強(qiáng)對(duì)非法用戶入侵的管理和防范,可以通過(guò)建立黑名單系統(tǒng),在云端加強(qiáng)數(shù)據(jù)安全防護(hù)能力。這一來(lái)防止敵對(duì)分子僅使用某一項(xiàng)授權(quán)特征即獲得數(shù)據(jù)權(quán)限,二來(lái)多維度身份識(shí)別使用戶不再為缺失某一項(xiàng)特征而煩惱,提高了系統(tǒng)的友好程度。
(1)研究針對(duì)Hadoop 平臺(tái)架構(gòu)安全機(jī)制提出的解決方案未能從實(shí)際操作的角度開(kāi)展實(shí)驗(yàn),完成并演示Kerberos認(rèn)證機(jī)制和嵌入TLS組件的具體實(shí)現(xiàn)流程,后續(xù)有條件可以對(duì)相關(guān)操作進(jìn)行詳細(xì)論述。
(2)在探索網(wǎng)絡(luò)隔離的解決方案時(shí),未找到“震網(wǎng)”病毒所涉及技術(shù)的細(xì)節(jié),因此在“技防”領(lǐng)域不能列舉出采用的針對(duì)性技術(shù),后續(xù)可以嘗試深入了解“震網(wǎng)”病毒及其攻擊原理與應(yīng)對(duì)技術(shù),從而更具體、更針對(duì)性探討相應(yīng)的數(shù)據(jù)安全問(wèn)題。
伴隨著大數(shù)據(jù)的快速發(fā)展與廣泛應(yīng)用,相關(guān)的數(shù)據(jù)安全問(wèn)題也日益凸顯。大數(shù)據(jù)作為一種技術(shù),可以與其他各種技術(shù)相結(jié)合,為作為數(shù)據(jù)源的自身提供安全防護(hù)。通過(guò)對(duì)流行技術(shù)的分析與對(duì)其缺陷的調(diào)查,不難發(fā)現(xiàn)只有全面完整的安全技術(shù)體系才能為大數(shù)據(jù)產(chǎn)業(yè)鏈的各階段提供可靠的數(shù)據(jù)安全保障。通過(guò)技術(shù)調(diào)研,研究發(fā)現(xiàn)在當(dāng)前主流的數(shù)據(jù)安全技術(shù)中,基于Hadoop 的安全架構(gòu)、網(wǎng)絡(luò)隔離與身份認(rèn)證技術(shù)有較大改進(jìn)空間,所以相關(guān)研究人員需要從整體和細(xì)節(jié)兩方面入手,積極創(chuàng)新現(xiàn)有的數(shù)據(jù)安全技術(shù)研究方法和研究?jī)?nèi)容,從而更加有效地保障大數(shù)據(jù)的安全和可靠,提高大數(shù)據(jù)所參與行業(yè)的信息安全水平,進(jìn)而促進(jìn)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展。