陳 湉 中國信息通信研究院信息通信安全研究所高級工程師
當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)正值活躍發(fā)展期,大數(shù)據(jù)存儲、計算和分析等關(guān)鍵技術(shù)快速演進,在各行業(yè)、各領(lǐng)域的創(chuàng)新應(yīng)用也不斷推進,為經(jīng)濟社會發(fā)展帶來巨大價值與無限活力。與此同時,大數(shù)據(jù)安全問題逐漸暴露并日益突出。2017年1月,大數(shù)據(jù)基礎(chǔ)軟件陷入一場全球范圍的大規(guī)模勒索攻擊,Hadoop集群被黑客鎖定為攻擊對象。據(jù)Shodan互聯(lián)網(wǎng)設(shè)備搜索引擎的分析顯示,因Hadoop服務(wù)器配置不當(dāng)導(dǎo)致5120TB數(shù)據(jù)暴露在公網(wǎng)上,涉及近4500臺HDFS服務(wù)器。同時,近年來全球數(shù)據(jù)安全事件層出不窮,如何在大數(shù)據(jù)時代處理好數(shù)據(jù)安全問題成為全球普遍關(guān)注的熱點。本文擬研究大數(shù)據(jù)技術(shù)應(yīng)用面臨的安全挑戰(zhàn),并提出我國強化大數(shù)據(jù)安全保障的應(yīng)對策略。
大數(shù)據(jù)的概念起源于2000年前后,伴隨著互聯(lián)網(wǎng)應(yīng)用發(fā)展而誕生。當(dāng)時,互聯(lián)網(wǎng)網(wǎng)頁爆發(fā)式增長,產(chǎn)生的數(shù)據(jù)量激增,為了提高用戶檢索信息效率,谷歌等公司開始建立索引庫以提供搜索服務(wù),成為大數(shù)據(jù)應(yīng)用的起點。2012年之后,大數(shù)據(jù)技術(shù)方興未艾,經(jīng)過數(shù)年蓬勃發(fā)展,如今業(yè)界對大數(shù)據(jù)的認(rèn)識已經(jīng)基本趨于一致。Gartner提出,大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。麥肯錫提出,大數(shù)據(jù)是指大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。
同樣,業(yè)界對于大數(shù)據(jù)的基本特性已達成共識,普遍認(rèn)為大數(shù)據(jù)具有“5V”特性,即體量大(Volume)、結(jié)構(gòu)多樣(Variety)、產(chǎn)生和處理速度快(Velocity)、時效性強(Variability)、價值大(Value)等特征。中國信息通信研究院早前發(fā)布的《大數(shù)據(jù)白皮書》中提到,認(rèn)識大數(shù)據(jù),除了大數(shù)據(jù)自身特征外,還應(yīng)了解大數(shù)據(jù)分析處理需采用新型計算架構(gòu)和智能算法等新技術(shù),大數(shù)據(jù)應(yīng)用則強調(diào)以新理念應(yīng)用于輔助決策、發(fā)現(xiàn)新知識和在線閉環(huán)的業(yè)務(wù)流程優(yōu)化。因此,大數(shù)據(jù)不僅“大”,而且“新”,是新資源、新工具和新應(yīng)用的綜合體。
大數(shù)據(jù)時代,隨著數(shù)據(jù)產(chǎn)生速度越來越快,數(shù)據(jù)量越來越多,對數(shù)據(jù)的處理速度和水平提出了更高的要求,對數(shù)據(jù)潛在價值的挖掘和利用需求更大,而傳統(tǒng)的計算機技術(shù)已無法滿足大數(shù)據(jù)時代的實際業(yè)務(wù)需求,這勢必帶來存儲、計算和分析等關(guān)鍵技術(shù)的創(chuàng)新和變革。數(shù)據(jù)存儲技術(shù)由傳統(tǒng)關(guān)系型數(shù)據(jù)庫向非關(guān)系型數(shù)據(jù)庫(NoSQL)、新型關(guān)系數(shù)據(jù)庫(NewSQL)和分布式文件系統(tǒng)演變,存儲容量更大;數(shù)據(jù)分析技術(shù)由簡單數(shù)據(jù)方法向機器學(xué)習(xí)、深度挖掘方向發(fā)展,分析功能更加強大;數(shù)據(jù)計算技術(shù)則由單機并行處理向分布式批處理、分布實時處理方向演進,計算速度更快,計算結(jié)果更準(zhǔn)確。大數(shù)據(jù)技術(shù)的創(chuàng)新演進對網(wǎng)絡(luò)安全技術(shù)的同步發(fā)展提出了更高的要求。
不斷演進的大數(shù)據(jù)技術(shù)催生出新的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)。如圖1中NIST大數(shù)據(jù)技術(shù)參考架構(gòu)所示,大數(shù)據(jù)產(chǎn)業(yè)鏈包含系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和數(shù)據(jù)使用者等角色。系統(tǒng)協(xié)調(diào)者負(fù)責(zé)配置和管理大數(shù)據(jù)平臺與應(yīng)用的各類安全功能組件及安全策略;數(shù)據(jù)提供者負(fù)責(zé)將各種數(shù)據(jù)或信息資源通過數(shù)據(jù)采集服務(wù)引入到大數(shù)據(jù)平臺或應(yīng)用中;大數(shù)據(jù)應(yīng)用提供者負(fù)責(zé)開發(fā)和部署大數(shù)據(jù)應(yīng)用,提供數(shù)據(jù)生命周期管理相關(guān)的數(shù)據(jù)服務(wù);大數(shù)據(jù)框架提供者負(fù)責(zé)建立和運營大數(shù)據(jù)平臺相關(guān)的基礎(chǔ)設(shè)施、計算框架、存儲框架和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)并執(zhí)行大數(shù)據(jù)應(yīng)用;數(shù)據(jù)使用者則使用大數(shù)據(jù)平臺或應(yīng)用的數(shù)據(jù)。
目前,大數(shù)據(jù)已進入應(yīng)用發(fā)展階段,技術(shù)創(chuàng)新和商業(yè)模式創(chuàng)新推動各行業(yè)應(yīng)用逐步成熟,應(yīng)用創(chuàng)造的價值占市場規(guī)模的比重日益增大,成為新的經(jīng)濟增長動力。中國信息通信研究院發(fā)布的《中國大數(shù)據(jù)發(fā)展調(diào)查報告(2017)》數(shù)據(jù)顯示,2016年中國大數(shù)據(jù)核心產(chǎn)業(yè)的市場規(guī)模約為168億元,較2015年增速達45%。伴隨著國家政策激勵以及大數(shù)據(jù)應(yīng)用模式逐步成熟,未來幾年中國大數(shù)據(jù)市場仍將保持快速增長,預(yù)計到2020年中國大數(shù)據(jù)市場規(guī)模將達到578億元。
隨著大數(shù)據(jù)產(chǎn)業(yè)規(guī)模不斷壯大,大數(shù)據(jù)技術(shù)在改善社會生產(chǎn)生活的同時,其安全問題也逐漸顯現(xiàn)出來。大數(shù)據(jù)安全將對國家安全、經(jīng)濟運行及社會穩(wěn)定等方面產(chǎn)生重大影響,應(yīng)當(dāng)?shù)玫饺鐣淖銐蛑匾暸c積極應(yīng)對。
圖1 NIST大數(shù)據(jù)技術(shù)參考架構(gòu)
大數(shù)據(jù)技術(shù)的創(chuàng)新發(fā)展賦予了大數(shù)據(jù)安全區(qū)別于傳統(tǒng)數(shù)據(jù)安全的特殊性。在大數(shù)據(jù)新形勢下,數(shù)據(jù)安全、隱私安全乃至大數(shù)據(jù)平臺安全等均面臨新威脅與新風(fēng)險,做好大數(shù)據(jù)安全保障工作面臨嚴(yán)峻挑戰(zhàn)。
大數(shù)據(jù)時代下數(shù)據(jù)安全保護需求外延擴展,數(shù)據(jù)保護面臨全新挑戰(zhàn)。
(1)大數(shù)據(jù)時代,數(shù)據(jù)被眾多聯(lián)網(wǎng)設(shè)備、應(yīng)用軟件所采集,數(shù)據(jù)來源廣泛,數(shù)據(jù)種類多樣,如何保證所采集的數(shù)據(jù)真實可信以及對輸入數(shù)據(jù)進行完整性校驗,變得至關(guān)重要。若利用虛假數(shù)據(jù)進行分析處理,將影響結(jié)果的正確性,甚至造成重大決策失誤。
(2)海量多源數(shù)據(jù)在大數(shù)據(jù)平臺匯聚,來自多個用戶的數(shù)據(jù)可能存儲在同一個數(shù)據(jù)池中,并分別被不同用戶使用,要在看不見他人數(shù)據(jù)內(nèi)容的前提下對數(shù)據(jù)進行加工利用,即實現(xiàn)數(shù)據(jù)“可用不可見”,必須強化數(shù)據(jù)隔離和訪問控制,否則將引發(fā)數(shù)據(jù)泄露風(fēng)險。
(3)大數(shù)據(jù)技術(shù)促使數(shù)據(jù)生命周期由傳統(tǒng)的單鏈條逐漸演變成為復(fù)雜多鏈條形態(tài),增加了共享、交易等環(huán)節(jié),同時數(shù)據(jù)的加工處理需求增加,產(chǎn)生數(shù)據(jù)血緣追蹤等新的數(shù)據(jù)保護需求。數(shù)據(jù)應(yīng)用場景和參與角色愈加多樣化,也使得數(shù)據(jù)安全需求外延擴展。
(4)利用大數(shù)據(jù)技術(shù)對海量數(shù)據(jù)進行挖掘分析所得結(jié)果可能包含涉及國家安全、經(jīng)濟運行、社會治理等敏感信息,需要對分析結(jié)果的共享和披露加強安全管理,一旦泄露,將威脅國家安全與社會穩(wěn)定。
大數(shù)據(jù)技術(shù)應(yīng)用使隱私保護和公民權(quán)益面臨嚴(yán)重威脅。
(1)大數(shù)據(jù)場景下無所不在的數(shù)據(jù)收集技術(shù)、專業(yè)多樣的數(shù)據(jù)處理技術(shù),使用戶很難確保自己的個人信息被合理收集、使用與清除,進而削弱了用戶對其個人信息的自決權(quán)利,使用戶個人信息面臨安全風(fēng)險。
(2)大數(shù)據(jù)資源開放和共享的訴求與個人隱私保護存在天然矛盾,為追求最大化數(shù)據(jù)價值,濫用個人信息幾乎是不可避免的,使個人隱私處于危險境地。企業(yè)非法披露、共享、提供個人信息,導(dǎo)致個人信息非法交易買賣,使數(shù)據(jù)流轉(zhuǎn)、交易形成鏈條,信息處理主體多元化,流轉(zhuǎn)方式復(fù)雜,造成用戶個人信息被濫用。
(3)利用大數(shù)據(jù)技術(shù)進行深度關(guān)聯(lián)分析、挖掘,可能實現(xiàn)“去匿名化”,可以從看似與個人信息不相關(guān)的數(shù)據(jù)中獲得個人身份信息和有價值的敏感信息,個人信息的概念就此泛化,保護難度直線上升。同時,多源數(shù)據(jù)匯聚使得惡意利用用戶隱私的門檻降低,加劇了安全風(fēng)險。
(4)大數(shù)據(jù)技術(shù)可能引發(fā)自動化決策帶來的“數(shù)字歧視”等社會公平性問題,給個人帶來負(fù)面影響,如生活干擾、精神壓力、名譽或財產(chǎn)損害、不公平或歧視待遇,以及其他侵害個人權(quán)益的情況。例如,針對特定個人施加標(biāo)簽以劃分等級或進行價格歧視等差別化待遇,侵害公民合法權(quán)益。
大數(shù)據(jù)技術(shù)創(chuàng)新演進使傳統(tǒng)網(wǎng)絡(luò)安全技術(shù)面臨嚴(yán)峻挑戰(zhàn)。
(1)大數(shù)據(jù)存儲、計算和分析等關(guān)鍵技術(shù)的創(chuàng)新演進帶動信息系統(tǒng)軟硬件架構(gòu)的全新變革,可能在軟件、硬件、協(xié)議等多方面引入未知的漏洞隱患,而現(xiàn)有的安全防護技術(shù)無法抵御未知漏洞帶來的安全風(fēng)險。
(2)現(xiàn)有大數(shù)據(jù)平臺大多基于Hadoop開源框架進行二次開發(fā),缺乏有效的安全機制,在身份認(rèn)證、權(quán)限控制、安全審計等方面不健全,即使有些做了改進,其安全保障能力仍然比較薄弱。
(3)傳統(tǒng)網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)安全邊界相對清晰,而由于大數(shù)據(jù)技術(shù)采用底層復(fù)雜、開放的分布式存儲和計算架構(gòu),使得大數(shù)據(jù)環(huán)境下安全邊界變模糊,傳統(tǒng)基于邊界的安全防護技術(shù)不再適用。
(4)大數(shù)據(jù)技術(shù)發(fā)展催生出新型高級的網(wǎng)絡(luò)攻擊手段,例如針對大數(shù)據(jù)平臺的高級持續(xù)性威脅(APT)攻擊和大規(guī)模分布式拒絕服務(wù)(DDoS)攻擊時有發(fā)生,導(dǎo)致傳統(tǒng)檢測、防御技術(shù)無法有效抵御外界攻擊。
面對大數(shù)據(jù)時代嚴(yán)峻復(fù)雜的安全問題,亟需采取有針對性的手段措施,構(gòu)建大數(shù)據(jù)安全保障體系,為大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展保駕護航。基于以上大數(shù)據(jù)安全挑戰(zhàn)分析,提出以下應(yīng)對策略:
(1)加快大數(shù)據(jù)安全立法進程,落實數(shù)據(jù)安全主體責(zé)任
立足大數(shù)據(jù)技術(shù)和業(yè)務(wù)發(fā)展現(xiàn)狀,強化數(shù)據(jù)安全管理頂層設(shè)計,加緊制定出臺相關(guān)政策文件,嚴(yán)格規(guī)范網(wǎng)絡(luò)數(shù)據(jù)的收集、存儲、使用和銷毀等行為,針對數(shù)據(jù)生命周期各環(huán)節(jié),明確并落實數(shù)據(jù)安全主體責(zé)任。結(jié)合大數(shù)據(jù)時代用戶個人信息保護面臨的安全風(fēng)險,進一步細化完善用戶個人信息保護規(guī)定,并加緊制定相關(guān)規(guī)范性文件,為開展大數(shù)據(jù)時代用戶個人信息保護工作提供政策支撐。
(2)圍繞數(shù)據(jù)利用和共享等關(guān)鍵環(huán)節(jié),加強數(shù)據(jù)安全監(jiān)管執(zhí)法
定期開展數(shù)據(jù)安全監(jiān)督檢查,督促企業(yè)加強數(shù)據(jù)安全風(fēng)險評估,對發(fā)現(xiàn)的問題及時整改,有效防范大數(shù)據(jù)時代數(shù)據(jù)安全風(fēng)險。加強對大數(shù)據(jù)環(huán)境下企業(yè)利用和共享數(shù)據(jù)的安全監(jiān)管,包括個人信息開發(fā)利用、數(shù)據(jù)外包服務(wù)的使用、數(shù)據(jù)共享合作等行為,推行合同范本明確相關(guān)主體安全義務(wù)和責(zé)任。加大對數(shù)據(jù)安全事件行政執(zhí)法力度,依法依規(guī)對相關(guān)涉事企業(yè)進行嚴(yán)厲處罰。
(3)強化技術(shù)手段建設(shè),構(gòu)建大數(shù)據(jù)安全保障技術(shù)體系
基于大數(shù)據(jù)時代形勢特點,加強數(shù)據(jù)防攻擊、防泄露、防竊密等安全防護技術(shù)手段建設(shè),強化數(shù)據(jù)安全監(jiān)測、預(yù)警、控制和應(yīng)急處置能力,構(gòu)建大數(shù)據(jù)安全保障技術(shù)體系。鼓勵企業(yè)、機構(gòu)研發(fā)同態(tài)加密、多方安全計算等前沿大數(shù)據(jù)安全保護技術(shù),推動數(shù)據(jù)脫敏、數(shù)據(jù)審計等技術(shù)手段在大數(shù)據(jù)環(huán)境下的增強應(yīng)用,提升大數(shù)據(jù)安全保護水平。
本文闡述了大數(shù)據(jù)的概念和技術(shù)與產(chǎn)業(yè)發(fā)展現(xiàn)狀,重點梳理分析了大數(shù)據(jù)時代數(shù)據(jù)安全、隱私安全和大數(shù)據(jù)自身平臺安全面臨的全新挑戰(zhàn);從大數(shù)據(jù)安全立法、監(jiān)管執(zhí)法和技術(shù)手段建設(shè)等方面,提出我國強化大數(shù)據(jù)安全保障的對策建議,為大數(shù)據(jù)產(chǎn)業(yè)健康、安全發(fā)展提供解決思路。