于樂,馮運(yùn)波,江為強(qiáng),任蘭芳
(1 中國移動(dòng)通信集團(tuán)信息安全管理與運(yùn)行中心,北京 100053; 2 中國移動(dòng)通信有限公司研究院,北京 100053)
大數(shù)據(jù)平臺(tái)安全防護(hù)研究
于樂1,馮運(yùn)波1,江為強(qiáng)1,任蘭芳2
(1 中國移動(dòng)通信集團(tuán)信息安全管理與運(yùn)行中心,北京 100053; 2 中國移動(dòng)通信有限公司研究院,北京 100053)
本文首先明確大數(shù)據(jù)平臺(tái)的風(fēng)險(xiǎn),提出大數(shù)據(jù)平臺(tái)安全防護(hù)目的及防護(hù)體系,提供大數(shù)據(jù)基礎(chǔ)設(shè)施、大數(shù)據(jù)接口、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算處理和平臺(tái)管理等方面的安全防護(hù)措施。
大數(shù)據(jù)安全;大數(shù)據(jù)平臺(tái)安全;大數(shù)據(jù)參考架構(gòu)
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模的不斷增加,大數(shù)據(jù)已進(jìn)入大眾的生活。企業(yè)組織開發(fā)大數(shù)據(jù)平臺(tái)來運(yùn)營和管理其大數(shù)據(jù)業(yè)務(wù)并深度地挖掘大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)具有5V的特點(diǎn):體量大、多樣性、時(shí)效性、高價(jià)值和準(zhǔn)確性,這些特點(diǎn)都驅(qū)動(dòng)著開發(fā)新的數(shù)據(jù)處理方法和管理方式?!吨袊髷?shù)據(jù)發(fā)展調(diào)查報(bào)告(2017年)》[1-2]顯示2016年大數(shù)據(jù)市場168億,大數(shù)據(jù)平臺(tái)軟件市場規(guī)模占50%左右,達(dá)到72.6 億元。約有50%左右的企業(yè)自建大數(shù)據(jù)平臺(tái),大數(shù)據(jù)平臺(tái)將成為企業(yè)重要的關(guān)鍵基礎(chǔ)設(shè)施如圖1所示。
大數(shù)據(jù)在各應(yīng)用領(lǐng)域發(fā)展迅速,為社會(huì)帶來巨大的價(jià)值。同時(shí),安全問題已成為制約大數(shù)據(jù)平臺(tái)建設(shè)部署及業(yè)務(wù)發(fā)展的重要阻礙。比如:(1)大數(shù)據(jù)平臺(tái)使用開源軟件來構(gòu)建大數(shù)據(jù)平臺(tái),這些軟件設(shè)計(jì)初衷是為了高效的數(shù)據(jù)處理,但在安全功能方面缺乏嚴(yán)謹(jǐn)?shù)脑O(shè)計(jì),存在安全漏洞,安全防護(hù)能力較差;(2)大數(shù)據(jù)需要匯集多源數(shù)據(jù)進(jìn)行集中管理,包括用戶敏感隱私數(shù)據(jù),數(shù)據(jù)集中管理也帶來風(fēng)險(xiǎn)的積聚效應(yīng);(3)數(shù)據(jù)開放是大數(shù)據(jù)業(yè)務(wù)發(fā)展的重要方向,同時(shí)也必然存在用戶隱私泄露等關(guān)鍵問題。
圖1 大數(shù)據(jù)平臺(tái)系統(tǒng)市場規(guī)模
運(yùn)營商大數(shù)據(jù)安全保障體系研究[3-4],是從大數(shù)據(jù)平臺(tái)的安全需求出發(fā),探索大數(shù)據(jù)平臺(tái)安全防護(hù)技術(shù),提出了大數(shù)據(jù)平臺(tái)安全防護(hù)體系,推動(dòng)公司大數(shù)據(jù)業(yè)務(wù)持續(xù)健康發(fā)展。
大數(shù)據(jù)傳輸交換是整個(gè)大數(shù)據(jù)平臺(tái)的入口,其安全性直接影響到大數(shù)據(jù)平臺(tái)的整體安全。傳輸交換環(huán)節(jié)面臨的安全風(fēng)險(xiǎn)包括以下幾方面:(1) 身份認(rèn)證鑒權(quán):未對(duì)操作人員進(jìn)行身份認(rèn)證,導(dǎo)致任何人都可以對(duì)數(shù)據(jù)進(jìn)行采集;用戶名和密碼采用明文傳輸或者存儲(chǔ),使得密碼等敏感信息被截獲,引起密碼泄露。(2) 軟件自身缺陷或者漏洞,被攻擊者所利用引發(fā)安全問題;對(duì)數(shù)據(jù)分光復(fù)用、流量鏡像等設(shè)備進(jìn)行違規(guī)配置,將流量鏡像到非法設(shè)備,導(dǎo)致數(shù)據(jù)被非法竊取。(3) 敏感數(shù)據(jù)泄漏:臨時(shí)數(shù)據(jù)存儲(chǔ)到不可控區(qū)域(如FTP服務(wù)器某目錄下),引起數(shù)據(jù)泄露;未對(duì)不同類別、不同級(jí)別的數(shù)據(jù)進(jìn)行分類分級(jí)處理,出現(xiàn)敏感信息泄漏的風(fēng)險(xiǎn);存儲(chǔ)數(shù)據(jù)的訪問控制不當(dāng),導(dǎo)致任何用戶都可以對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行訪問或修改。(4)傳輸機(jī)制不健全:不可靠的傳輸機(jī)制,導(dǎo)致在傳輸交換過程中出現(xiàn)數(shù)據(jù)丟失問題;傳輸交換軟件節(jié)點(diǎn)之間缺乏相互認(rèn)證,導(dǎo)致惡意節(jié)點(diǎn)加入傳輸交換軟件集群。(5)缺乏對(duì)采集賬號(hào)、采集人員、采集行為、采集操作等的審計(jì)手段,造成采集環(huán)節(jié)違規(guī)操作及非法鏡像等非法操作行為未及時(shí)發(fā)現(xiàn)并追責(zé)。
采集到的大數(shù)據(jù)在計(jì)算處理之前,需要通過大數(shù)據(jù)平臺(tái)中存儲(chǔ)管理相關(guān)軟件進(jìn)行存儲(chǔ),數(shù)據(jù)存儲(chǔ)安全是大數(shù)據(jù)平臺(tái)安全的重要一環(huán),其安全風(fēng)險(xiǎn)包括以下幾個(gè)方面:(1)存儲(chǔ)管理軟件自身安全配置(操作系統(tǒng)、中間件)不符合安全配置要求,開啟或啟用了不必要的端口或服務(wù),導(dǎo)致存儲(chǔ)系統(tǒng)被為攻擊者所利用,引發(fā)數(shù)據(jù)泄露;存儲(chǔ)管理軟件自身未啟用身份認(rèn)證,或只是提供簡單的身份認(rèn)證功能,導(dǎo)致軟件被非法訪問。(2)HDFS、MPP存儲(chǔ)系統(tǒng)缺乏細(xì)粒度訪問控制措施,甚至有些關(guān)鍵組件缺乏權(quán)限控制功能,任何實(shí)體都可以直接訪問或調(diào)用存儲(chǔ)資源。(3)敏感數(shù)據(jù)未加密存儲(chǔ),容易引發(fā)數(shù)據(jù)泄露;數(shù)據(jù)加密存儲(chǔ)以及訪問控制機(jī)制不完善造成數(shù)據(jù)泄露;不同安全級(jí)別的數(shù)據(jù)進(jìn)行混合存儲(chǔ),未按照高級(jí)別的數(shù)據(jù)部署和實(shí)施防護(hù)手段,導(dǎo)致數(shù)據(jù)泄露。(4)大量非結(jié)構(gòu)化數(shù)據(jù)分散存儲(chǔ)在不同的存儲(chǔ)、處理節(jié)點(diǎn)中,難以進(jìn)行安全一致性管理,造成部分節(jié)點(diǎn)安全短板,導(dǎo)致敏感數(shù)據(jù)泄漏;數(shù)據(jù)存儲(chǔ)沒有完整性保護(hù)機(jī)制,被攻擊者篡改后會(huì)導(dǎo)致分析結(jié)果出現(xiàn)偏差。(5)在數(shù)據(jù)生命周期結(jié)束后,數(shù)據(jù)未被徹底刪除,或存有敏感數(shù)據(jù)的介質(zhì)未被銷毀,一旦數(shù)據(jù)被恢復(fù)就會(huì)引發(fā)數(shù)據(jù)泄露的風(fēng)險(xiǎn);不完善的容災(zāi)備份機(jī)制會(huì)使得發(fā)生意外情況時(shí),數(shù)據(jù)無法及時(shí)恢復(fù),從而影響業(yè)務(wù)的正常開展。(6)安裝到系統(tǒng)上的軟件沒有經(jīng)過數(shù)字簽名校驗(yàn),引發(fā)安裝惡意程序風(fēng)險(xiǎn)。
計(jì)算框架表現(xiàn)為一組抽象構(gòu)件及構(gòu)件實(shí)例間交互的方法,計(jì)算框架相關(guān)軟件是完成上層應(yīng)用所需的計(jì)算,向上層提供服務(wù)。該環(huán)節(jié)面臨的安全風(fēng)險(xiǎn)包括:(1)各節(jié)點(diǎn)間認(rèn)證機(jī)制不完善,有可能出現(xiàn)惡意節(jié)點(diǎn)加入集群,引發(fā)數(shù)據(jù)泄露或業(yè)務(wù)不可用等安全問題;對(duì)上層應(yīng)用認(rèn)證及權(quán)限管理不當(dāng),引發(fā)非法用戶非授權(quán)訪問。(2)各節(jié)點(diǎn)間傳輸不安全,會(huì)造成中間人攻擊引發(fā)數(shù)據(jù)泄漏或數(shù)據(jù)被篡改;對(duì)敏感數(shù)據(jù)未經(jīng)加密或脫敏,容易造成敏感數(shù)據(jù)泄露;缺乏對(duì)敏感數(shù)據(jù)識(shí)別及發(fā)現(xiàn)機(jī)制,使得上層應(yīng)用有可能獲取用戶敏感數(shù)據(jù),引發(fā)敏感數(shù)據(jù)泄露。(3)計(jì)算框架軟件在安全設(shè)計(jì)、開發(fā)過程中存在缺陷或漏洞,引發(fā)繞過認(rèn)證或數(shù)據(jù)泄露、業(yè)務(wù)不可用等安全問題。
協(xié)調(diào)管理安全風(fēng)險(xiǎn)主要包括:(1)軟件運(yùn)維風(fēng)險(xiǎn):人員管理職責(zé)分配不當(dāng)導(dǎo)致權(quán)限過于集中,容易引發(fā)敏感數(shù)據(jù)泄露風(fēng)險(xiǎn);在運(yùn)維過程中關(guān)鍵操作,缺少多人授權(quán)管控機(jī)制,容易引發(fā)數(shù)據(jù)泄露;運(yùn)維過程中數(shù)據(jù)管理風(fēng)險(xiǎn):重要業(yè)務(wù)系統(tǒng)的第三方廠商開發(fā)人員利用開發(fā)源代碼、上線調(diào)試等機(jī)會(huì),遺留系統(tǒng)漏洞,內(nèi)置軟件后門,非法竊取敏感信息。(2) 日志審計(jì):安全評(píng)估及日志審計(jì)手段欠缺,導(dǎo)致大數(shù)據(jù)基礎(chǔ)軟件無法對(duì)用戶的操作行為進(jìn)行有效監(jiān)控,當(dāng)數(shù)據(jù)泄露等情況發(fā)生時(shí)也無法進(jìn)行追責(zé)。(3)配置安全:大數(shù)據(jù)平臺(tái)各層的軟件廣泛采用開源組件構(gòu)成,各個(gè)組件獨(dú)立設(shè)計(jì)、開發(fā),根據(jù)不同的業(yè)務(wù)需求進(jìn)行組合搭建,其中的安全組件均以插件的方式通過正確的配置為各組件提供安全管控服務(wù),若是針對(duì)各個(gè)組件、插件的配置不當(dāng),極易造成安全風(fēng)險(xiǎn)。(4) 敏感數(shù)據(jù)沉淀:第三方通過積少成多,積部分成整體,關(guān)聯(lián)局部數(shù)據(jù)進(jìn)而獲得全量數(shù)據(jù),通過持續(xù)沉淀敏感數(shù)據(jù),實(shí)現(xiàn)隱性的敏感數(shù)據(jù)積累。(5) 逆向還原破解:第三方利用敏感數(shù)據(jù)加密或脫敏不當(dāng)?shù)陌踩┒矗ㄟ^逆向窮舉攻擊,關(guān)聯(lián)其它數(shù)據(jù),推算演繹等手段還原原始敏感數(shù)據(jù)。(6)缺乏數(shù)據(jù)追蹤溯源手段,一旦出現(xiàn)安全事件,無法及時(shí)定位數(shù)據(jù)的責(zé)任方以及泄漏點(diǎn)。
圖2是NIST、ISO/IEC標(biāo)準(zhǔn)化組織提出的大數(shù)據(jù)參考架構(gòu)[5-6],該參考框架圍繞著數(shù)據(jù)價(jià)值鏈的兩個(gè)軸線組織展開:信息價(jià)值軸(水平軸)和IT集成軸(垂直軸)。信息流軸的核心價(jià)值由數(shù)據(jù)收集、數(shù)據(jù)集成、數(shù)據(jù)分析及其應(yīng)用長生。IT集成軸的核心價(jià)值由網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具和其他IT服務(wù)產(chǎn)生,這為大數(shù)據(jù)處理應(yīng)用程序提供了支持。大數(shù)據(jù)參考框架主要包含5部分。
(1) 系統(tǒng)協(xié)調(diào)者:定義和集成所需的數(shù)據(jù)應(yīng)用活動(dòng)到垂直操作系統(tǒng)中來;
(2) 數(shù)據(jù)提供者:將數(shù)據(jù)和信息引入到大數(shù)據(jù)系統(tǒng)中;
(3) 大數(shù)據(jù)應(yīng)用提供者:執(zhí)行一個(gè)生命周期,以滿足安全性和隱私需求,也包括系統(tǒng)協(xié)調(diào)者定義的需求;
(4) 大數(shù)據(jù)框架提供者:建立一個(gè)計(jì)算結(jié)構(gòu),在其中執(zhí)行某些應(yīng)用程序轉(zhuǎn)換,同時(shí)保護(hù)隱私和數(shù)據(jù)的完整性;
(5) 數(shù)據(jù)消費(fèi)者:包括最終用戶或其他系統(tǒng)利用。
按照中國移動(dòng)大數(shù)據(jù)業(yè)務(wù)服務(wù)的特點(diǎn),參考NIST、ISO/IEC等標(biāo)準(zhǔn)化組織的概念模型,設(shè)計(jì)了中國移動(dòng)大數(shù)據(jù)平臺(tái)架構(gòu),如圖3所示。大數(shù)據(jù)平臺(tái)包括基礎(chǔ)設(shè)施、大數(shù)據(jù)接口、大數(shù)據(jù)存儲(chǔ)以及計(jì)算處理邏輯、平臺(tái)管理等組件。
圖2 大數(shù)據(jù)參考架構(gòu)
圖3 大數(shù)據(jù)平臺(tái)架構(gòu)
基于大數(shù)據(jù)平臺(tái)的架構(gòu),大數(shù)據(jù)平臺(tái)安全防護(hù)從基礎(chǔ)設(shè)施、大數(shù)據(jù)接口、大數(shù)據(jù)存儲(chǔ)、計(jì)算分析和平臺(tái)管理五個(gè)方面開展安全防護(hù)措施,圖4展示了大數(shù)據(jù)平臺(tái)安全防護(hù)體。
基礎(chǔ)設(shè)施是承載大數(shù)據(jù)的虛擬、物理資源及網(wǎng)絡(luò)資源等;在傳統(tǒng)的網(wǎng)絡(luò)安全的基礎(chǔ)上,重點(diǎn)考慮符合大數(shù)據(jù)安全特性的防護(hù)措施。對(duì)承載大數(shù)據(jù)平臺(tái)的云與虛擬化資源進(jìn)行防惡意軟件、Web應(yīng)用防護(hù)、防火墻、入侵檢測、完整性監(jiān)控和日志審計(jì)等,要實(shí)現(xiàn)跨物理、虛擬和云環(huán)境的一體化安全管理。
主流的大數(shù)據(jù)接口組件有Sqoop、Flume和Kafka等,Sqoop是用于在Hadoop與關(guān)系型數(shù)據(jù)庫間有效地進(jìn)行批量數(shù)據(jù)傳輸?shù)墓ぞ?,F(xiàn)lume是一種分布式的、可靠的,適用于高效地收集、聚合和移動(dòng)大量日志數(shù)據(jù)的服務(wù),Kafka用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道應(yīng)用和流處理應(yīng)用。大數(shù)據(jù)接口安全包括接口鑒權(quán)、傳輸安全、數(shù)據(jù)采集安全以及流量管控,主要從如下方面開展安全防護(hù)。
(1) 認(rèn)證鑒權(quán):對(duì)采集終端和采集人員開展接入鑒權(quán),并對(duì)采集行為進(jìn)行監(jiān)控,一旦發(fā)現(xiàn)異常采集行為需及時(shí)告警;限制采集系統(tǒng)的IP地址、端口號(hào)等,同時(shí)對(duì)采集人員進(jìn)行基于賬號(hào)密碼或其他方式的認(rèn)證鑒權(quán);對(duì)采集數(shù)據(jù)的傳輸過程實(shí)施基于設(shè)備的身份認(rèn)證。
(2) 核心數(shù)據(jù)區(qū)域監(jiān)控:嚴(yán)格限制在重要鏈路接入流量采集設(shè)備,同時(shí)限制對(duì)核心設(shè)備執(zhí)行端口鏡像類操作;嚴(yán)格限制采集過程中臨時(shí)數(shù)據(jù)存儲(chǔ)區(qū)域,不得任意修改存儲(chǔ)區(qū)域地址。
(3) 日志與審計(jì):對(duì)采集行為進(jìn)行日志記錄,并對(duì)重復(fù)采集和傳輸量超過設(shè)定閥值、采集傳送過程中傳輸中斷、傳送過程中對(duì)目標(biāo)文件庫的存儲(chǔ)量超過設(shè)定閥值的情況等異常采集行為及時(shí)告警。
大數(shù)據(jù)存儲(chǔ)包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫等,主流的組件有Hive、HBase、HDFS、Redis和 MangoDB 等[7],大數(shù)據(jù)存儲(chǔ)安全包括數(shù)據(jù)的訪問控制、加密存儲(chǔ)、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)銷毀安全,主要從如下幾方面開展安全防護(hù)措施。
(1) 數(shù)據(jù)訪問控制:對(duì)應(yīng)用程序的訪問應(yīng)做好訪問認(rèn)證和授權(quán)控制;對(duì)數(shù)據(jù)的關(guān)鍵性敏感操作進(jìn)行多人分權(quán)授權(quán)管控,確保單人無法擁有重要數(shù)據(jù)的完整操作權(quán)限,如對(duì)關(guān)鍵敏感數(shù)據(jù)的批量導(dǎo)出、復(fù)制、銷毀、公布和使用等。
(2) 數(shù)據(jù)加密存儲(chǔ):支持文件系統(tǒng)加密,利用加密技術(shù)保證了平臺(tái)數(shù)據(jù)不被破壞和竊??;可根據(jù)數(shù)據(jù)敏感度等,支持分級(jí)的加密方法,可分別進(jìn)行不加密、部分加密(脫敏)、完全加密等不同存儲(chǔ);應(yīng)支持分等級(jí)的數(shù)據(jù)加密方法,根據(jù)數(shù)據(jù)密級(jí)采用不同的安全存儲(chǔ)機(jī)制。
(3) 數(shù)據(jù)完整性:對(duì)關(guān)鍵數(shù)據(jù)具有完整性檢測機(jī)制,能夠發(fā)現(xiàn)數(shù)據(jù)存儲(chǔ)階段造成的關(guān)鍵數(shù)據(jù)損壞和丟失。
(4) 數(shù)據(jù)備份和恢復(fù):提供針對(duì)關(guān)鍵數(shù)據(jù)的備份和恢復(fù)機(jī)制,確保關(guān)鍵數(shù)據(jù)的可用性和完整性。一旦發(fā)生關(guān)鍵數(shù)據(jù)丟失或破壞,可以利用備份來恢復(fù)數(shù)據(jù),從而保證在故障發(fā)生后數(shù)據(jù)不丟失。
(5) 數(shù)據(jù)殘留與銷毀:數(shù)據(jù)刪除后應(yīng)保證系統(tǒng)內(nèi)的文件、目錄和數(shù)據(jù)庫記錄等資源所在的存儲(chǔ)空間被釋放或重新分配前得到完全清除,不可恢復(fù)。
大數(shù)據(jù)計(jì)算處理是針對(duì)海量數(shù)據(jù)提出的高效的計(jì)算框架,主流的計(jì)算框架有MapReduce、Spark、Storm等[8-10],大數(shù)據(jù)計(jì)算處理安全包括統(tǒng)一認(rèn)證、細(xì)粒度授權(quán)、數(shù)據(jù)脫敏支撐以及數(shù)據(jù)關(guān)聯(lián)性隔離,主要從如下幾方面開展安全防護(hù)措施。
(1) 認(rèn)證授權(quán):具備安全認(rèn)證鑒權(quán)機(jī)制,確保只有合法的用戶或應(yīng)用程序才能發(fā)起數(shù)據(jù)處理請(qǐng)求;支持對(duì)敏感數(shù)據(jù)的屏蔽、隱藏,使管理員能夠靈活控制返回給用戶的敏感信息,從而達(dá)到敏感數(shù)據(jù)保護(hù)的目的;通過統(tǒng)一的入口控制點(diǎn)對(duì)訪問大數(shù)據(jù)平臺(tái)的所有應(yīng)用提供統(tǒng)一認(rèn)證;對(duì)所有上層應(yīng)用的訪問進(jìn)行細(xì)粒度授權(quán)控制,防止越權(quán)訪問;認(rèn)證方式可采用Kerberos或與系統(tǒng)兼容的其他認(rèn)證方式。
(2) 數(shù)據(jù)脫敏:數(shù)據(jù)脫敏是指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感數(shù)據(jù)的可靠保護(hù),實(shí)現(xiàn)在不泄露用戶隱私的前提下保障業(yè)務(wù)系統(tǒng)的正常運(yùn)行;支持針對(duì)不同用戶和不同敏感數(shù)據(jù)根據(jù)需求設(shè)置不同的脫敏算法;支持管理員可以配置用戶查詢特定數(shù)據(jù)庫的特定表的特定列的脫敏算法;所選擇脫敏算法具有一定的安全性、健壯性,不能被輕易破解或還原;數(shù)據(jù)脫敏之后不應(yīng)影響業(yè)務(wù)連續(xù)性,不應(yīng)對(duì)系統(tǒng)性能造成較大影響;應(yīng)能支持動(dòng)態(tài)添加或刪除脫敏算法,同時(shí)確保系統(tǒng)平滑升級(jí),應(yīng)用無需中斷。
(3) 數(shù)據(jù)封裝:數(shù)據(jù)封裝能夠盡可能屏蔽內(nèi)部的具體細(xì)節(jié),避免受到外界的干擾和誤用,從而確保了安全。
(4) 數(shù)據(jù)關(guān)聯(lián)性隔離:支持針對(duì)不同應(yīng)用進(jìn)行數(shù)據(jù)關(guān)聯(lián)性隔離,防止不同應(yīng)用之間的數(shù)據(jù)關(guān)聯(lián)分析,產(chǎn)生數(shù)據(jù)泄露;在響應(yīng)同一應(yīng)用或同一用戶的多個(gè)數(shù)據(jù)訪問請(qǐng)求時(shí),也需要做好數(shù)據(jù)關(guān)聯(lián)性隔離,防止不同的數(shù)據(jù)訪問請(qǐng)求關(guān)聯(lián)分析產(chǎn)生敏感數(shù)據(jù)。
(5) 數(shù)據(jù)轉(zhuǎn)移控制:對(duì)于系統(tǒng)間和后臺(tái)數(shù)據(jù)的導(dǎo)出行為,支持基于操作權(quán)限控制、頻次控制、流量控制、源服務(wù)器限制等方式進(jìn)行安全控制;支持對(duì)數(shù)據(jù)的特定輸出進(jìn)行標(biāo)記信息安全嵌入,所嵌入的標(biāo)記信息具體魯棒性,信息不易剔除,以備在發(fā)生數(shù)據(jù)安全問題時(shí),可以還原標(biāo)記信息進(jìn)行數(shù)據(jù)追蹤;具備對(duì)數(shù)據(jù)轉(zhuǎn)移輸出等環(huán)節(jié)的日志安全記錄、安全存儲(chǔ)的功能,支撐數(shù)據(jù)流轉(zhuǎn)的安全審計(jì)及責(zé)任定位。
平臺(tái)管理是對(duì)分布式存儲(chǔ)、處理和應(yīng)用提供協(xié)調(diào)服務(wù),主流的組件有ZooKeeper、Ambari、Oozie等。平臺(tái)管理安全包括對(duì)平臺(tái)中的資源調(diào)用、補(bǔ)丁管理、元數(shù)據(jù)管理、日志審計(jì)以及數(shù)據(jù)分類分級(jí)管理等,主要從如下幾方面開展安全防護(hù)措施。
(1) 補(bǔ)丁管理:對(duì)大數(shù)據(jù)平臺(tái)組件提供版本檢測和依賴性管理,對(duì)出現(xiàn)的版本沖突事件進(jìn)行報(bào)警;提供完善的補(bǔ)丁管理,可獲取并展示補(bǔ)丁的詳細(xì)信息,包括補(bǔ)丁的發(fā)布時(shí)間、嚴(yán)重級(jí)別、內(nèi)容描述等;提供補(bǔ)丁統(tǒng)一分發(fā)功能,可由管理員手動(dòng)或自動(dòng)在線獲得補(bǔ)丁,并統(tǒng)一分發(fā)給大數(shù)據(jù)平臺(tái)中的各個(gè)節(jié)點(diǎn)。
(2) 元數(shù)據(jù)管理:對(duì)元數(shù)據(jù)的訪問、修改及刪除等操作設(shè)置權(quán)限管理;對(duì)涉及元數(shù)據(jù)的所有操作進(jìn)行日志記錄。
(3) 日志管理:對(duì)大數(shù)據(jù)平臺(tái)各組件所產(chǎn)生的日志進(jìn)行記錄;應(yīng)用相關(guān)的日志應(yīng)包括用戶對(duì)應(yīng)用的訪問日志及系統(tǒng)對(duì)應(yīng)用的訪問日志;日志記錄的具體內(nèi)容應(yīng)包括,操作時(shí)間、操作賬號(hào)、客戶端IP、服務(wù)器IP、操作類型、操作名稱、操作內(nèi)容、操作結(jié)果等信息;能夠?qū)崿F(xiàn)日志的自動(dòng)分析,及時(shí)檢測異常行為并告警。
(4) 配置管理:對(duì)大數(shù)據(jù)平臺(tái)內(nèi)各組件的安全配置進(jìn)行管理。包括管理員權(quán)限控制、脫敏機(jī)制的開啟、遠(yuǎn)程調(diào)用的開啟等。
(5) 數(shù)據(jù)分類分級(jí)支撐管理:平臺(tái)支持對(duì)數(shù)據(jù)按照重要性及敏感度進(jìn)行分類別、分級(jí)別的差異化管理。
本文提出了大數(shù)據(jù)平臺(tái)安全防護(hù)體系,從基礎(chǔ)設(shè)施、大數(shù)據(jù)接口、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算處理和平臺(tái)管理等方面提出了安全防護(hù)措施,從而保障大數(shù)據(jù)業(yè)務(wù)的健康有序發(fā)展。本研究為省公司在開展大數(shù)據(jù)平臺(tái)安全防護(hù)能力研發(fā)、安全部署實(shí)現(xiàn)、安全評(píng)測等提供支持。
[1] 中國大數(shù)據(jù)發(fā)展調(diào)查報(bào)告[R]. 北京:中國信息通信研究院.2017.
[2] 中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì). 中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展報(bào)告[M]. 北京:機(jī)械工業(yè)出版社, 2016.
[3] 張濱. 運(yùn)營商大數(shù)據(jù)安全保障體系研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2016,29(12):1-7.
[4] 張濱. 大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的應(yīng)用[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2015,28(12):1-5.
[5] NIST Special Publication 1500-6-2015, Big Data Interoperability Framework: Reference Architecture[S].
[6] ISO/IEC 20547-3-2016, Big Data Reference Architecture[S].
[7] 郭遠(yuǎn)威. 大數(shù)據(jù)存儲(chǔ)[M]. 北京:人民郵電出版社, 2015.
[8] 趙晟, 姜進(jìn)磊. 典型大數(shù)據(jù)計(jì)算框架分析[J]. 中興通訊技術(shù),2016, 22(2):14-18.
[9] 董西成. Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M]. 北京:機(jī)械工業(yè)出版社, 2013.
[10] 董西成. Hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[J].中國科技信息, 2014(1):158-158.
Research on the security protection of big data platform
YU Le1, FENG Yun-bo1, JIANG Wei-qiang1, REN Lan-fang2
(1 China Mobile Information Security Center, Beijing 100053, China; 2 China Mobile Research Institute, Beijing 100053, China)
This paper was developed in response to security demand for big data platform which includes big data infrastructure, big data interface, big data storage, computing process and platform management, since the big data platform is the most important and emerging technology that facing serious security threats.The current researches do not propose solutions specially for big data platform security protecting.
big data security; big data platform security; big data reference architecture
TN918
A
1008-5599(2017)11-0006-06
2017-10-11