李善青 鄭彥寧 邢曉昭 支鳳穩(wěn)
(中國科學技術信息研究所,北京 100038)
國務院于2018年3月發(fā)布的《科學數(shù)據(jù)管理辦法》明確指出,由政府預算資金資助形成的科學數(shù)據(jù)應當按照“開放為常態(tài)、不開放為例外”的原則,面向社會和相關部門開放共享??茖W數(shù)據(jù)的開放共享,一方面將極大地推動科學技術的快速發(fā)展,提升科技競爭力;另一方面也會帶來一系列的數(shù)據(jù)安全問題,而且面臨極其復雜和嚴峻的形勢??茖W數(shù)據(jù)作為一種基礎性、戰(zhàn)略性的科技資源,具有極其重要的科學價值。數(shù)據(jù)一旦被竊取或破壞,造成的危害和損失是不可估量的。另外,國家依托科學數(shù)據(jù)中心實現(xiàn)科學數(shù)據(jù)的開放共享,具有集中存放、統(tǒng)一共享的特點。該特點進一步加劇了科學數(shù)據(jù)安全的嚴峻性,因為平臺一旦遭受入侵,危及的可能是整個學科領域的全部數(shù)據(jù)。因此,科學數(shù)據(jù)共享的安全管理是一個不容忽視的關鍵問題,必須給予足夠的重視。
目前,專門針對科學數(shù)據(jù)安全管理的研究還很不成熟,發(fā)表的論文數(shù)量有限。隨著大數(shù)據(jù)技術的發(fā)展和普及,大數(shù)據(jù)的安全與隱私保護已逐漸成為新的研究熱點。這些研究工作對大數(shù)據(jù)背景下加強科學數(shù)據(jù)的安全管理具有重要的參考意義。在標準制定方面,國際標準化組織正在開展《信息技術大數(shù)據(jù)參考架構》的編制,美國國家標準與技術研究院于2015年9月發(fā)布了《NIST大數(shù)據(jù)互操作性框架》(NIST SP 1500系列標準)。這些標準中都有專門的章節(jié)對大數(shù)據(jù)的安全和隱私保護進行闡述和規(guī)定。我國信息安全標準化技術委員會在2016年4月成立了大數(shù)據(jù)安全標準特別工作組,主要負責制定和完善中國大數(shù)據(jù)安全領域標準體系,包括《信息安全技術個人信息安全規(guī)范》《信息安全技術大數(shù)據(jù)安全管理指南》等國家標準。在大數(shù)據(jù)安全和隱私保護的研究方面,形成了一系列的綜述性的研究成果[1-9]。這些文獻分析了大數(shù)據(jù)背景下數(shù)據(jù)安全和隱私保護的特點及面臨的挑戰(zhàn),對相關技術的發(fā)展現(xiàn)狀進行了綜述,但其研究角度不盡相同。如曹珍富等[2]側重于數(shù)據(jù)加密的角度;陳興蜀等[5]對法律法規(guī)、標準、數(shù)據(jù)生命周期和大數(shù)據(jù)平臺等進行了全面的綜述;呂欣等[6]建立了大數(shù)據(jù)安全和隱私保護技術體系的參考模型,從數(shù)據(jù)層、應用層、接口層以及系統(tǒng)層等維度進行分析和綜述。
在上述大數(shù)據(jù)安全和隱私保護的研究工作的基礎上,本文將結合科學數(shù)據(jù)共享的特點,對大數(shù)據(jù)背景下科學數(shù)據(jù)安全的定義、數(shù)據(jù)共享的安全需求和相關技術現(xiàn)狀進行梳理和討論,為相關研究和政策制定提供有益參考。
目前已有的研究工作尚未對科學數(shù)據(jù)的安全進行明確的定義和描述。本文在借鑒數(shù)據(jù)安全[10]、信息安全[11]和網(wǎng)絡安全[12]等相關定義的基礎上,結合科學數(shù)據(jù)本身的特點,對科學數(shù)據(jù)安全進行如下定義:通過必要的技術和管理措施,保護科學數(shù)據(jù)在其全生命周期中免受破壞性外力和非授權操作的侵害,保持科學數(shù)據(jù)的機密性、完整性和可用性??茖W數(shù)據(jù)的生命周期大致可以劃分為以下幾個階段:采集生產(chǎn)、匯交整合、加工整理、共享使用、長期保存和退出銷毀等。本文將重點研究科學數(shù)據(jù)在共享使用過程中的安全問題。
科學數(shù)據(jù)共享使用的過程如圖1所示??茖W數(shù)據(jù)在進入共享服務平臺之前需要進行涉密審查,對于涉及保密的數(shù)據(jù)不納入共享服務的范圍,對于非涉密數(shù)據(jù)則根據(jù)相關政策和服務要求將其轉化為不同權限的可共享數(shù)據(jù)。有些科學數(shù)據(jù)本身不屬于保密數(shù)據(jù),但通過與其他數(shù)據(jù)進行關聯(lián)分析和挖掘可能得出涉密的信息,這類問題是涉密審查需要解決的難點問題。存儲管理是科學數(shù)據(jù)共享的基礎,需采用科學、規(guī)范的措施對科學數(shù)據(jù)進行存儲和管理,以保證數(shù)據(jù)的完整性和可用性。當用戶發(fā)出使用數(shù)據(jù)的請求后,平臺的訪問控制模塊會首先驗證用戶的身份,然后判斷用戶的請求是否在授權范圍內(nèi)。如果通過認證,則調(diào)用相應的服務將數(shù)據(jù)提供給用戶,否則拒絕用戶的請求。數(shù)據(jù)傳輸可以根據(jù)數(shù)據(jù)的權限和安全需求選擇直接傳輸、加密傳輸和離線傳輸?shù)取T诖髷?shù)據(jù)時代,科學數(shù)據(jù)共享面臨復雜和嚴峻的安全形勢,需應對不斷出現(xiàn)的新的安全威脅,因此科學數(shù)據(jù)的所有操作歷史和用戶的所有訪問記錄對數(shù)據(jù)共享服務平臺的安全分析至關重要,需要進行完整的記錄和保存,以便進行后續(xù)的安全審計和行為預測等。
圖1 科學數(shù)據(jù)共享使用過程的框圖
科學數(shù)據(jù)的機密性保護是指只有授權用戶才能獲取和使用數(shù)據(jù),非授權用戶則無法獲取數(shù)據(jù)。機密性保護是科學數(shù)據(jù)開放共享的重要前提之一。在科學數(shù)據(jù)共享過程中,涉及機密性的環(huán)節(jié)包括涉密審查、訪問控制和數(shù)據(jù)傳輸?shù)?。涉密審查的目的在于提前發(fā)現(xiàn)涉及公共安全或個人隱私的科學數(shù)據(jù),防止這些涉密數(shù)據(jù)進入數(shù)據(jù)共享服務平臺。大數(shù)據(jù)挖掘技術的發(fā)展對涉密審查提出了更高的要求,因為某些不涉密的科學數(shù)據(jù)在與其他數(shù)據(jù)進行整合和關聯(lián)分析后,也可能從中挖掘出隱藏的有價值的情報。訪問控制的本質(zhì)在于準確匹配用戶的權限和數(shù)據(jù)的權限,使得授權的用戶可以訪問恰當?shù)臄?shù)據(jù)。基于角色的方法較好地解決了靜態(tài)環(huán)境下小型系統(tǒng)的訪問控制問題。大數(shù)據(jù)時代的來臨產(chǎn)生了新的問題:(1)用戶角色和數(shù)據(jù)種類的數(shù)量都在不斷地快速增長;(2)角色的權限和數(shù)據(jù)的權限均處于動態(tài)變化的過程中。因此,需要一種靈活的、支持細粒度的訪問控制技術,能夠滿足動態(tài)、實時控制數(shù)據(jù)的安全訪問。另外一種思路是,通過研發(fā)一種新的加密共享技術,既能滿足科學數(shù)據(jù)在不同用戶之間協(xié)同計算的要求,又能有效保護數(shù)據(jù)內(nèi)容的私密性。數(shù)據(jù)在傳輸過程中容易被攔截和竊取而導致數(shù)據(jù)泄漏,通常采用加密的方法予以保護。大體量的科學數(shù)據(jù)進行加密和解密需要消耗大量的時間和計算資源,還涉及密鑰的管理,因此需要一種簡單、高效的加密技術以滿足大數(shù)據(jù)加密的要求。
科學數(shù)據(jù)的完整性是指數(shù)據(jù)在存儲和共享的過程中,不被非法授權修改和破壞,保證數(shù)據(jù)的一致性。完整性是實現(xiàn)科學數(shù)據(jù)價值的重要保證。在科學數(shù)據(jù)共享過程中,涉及完整性的環(huán)節(jié)包括存儲管理和數(shù)據(jù)傳輸?shù)?。如何保證科學數(shù)據(jù)的完整性是科學數(shù)據(jù)存儲管理需要解決的重要問題之一。科學數(shù)據(jù)通常采用數(shù)字化的格式存儲,其存儲介質(zhì)比較脆弱,可能因斷電等因素遭受損壞。科學數(shù)據(jù)本身具有易被改變且改變后不易察覺的特點,硬件故障、人為的誤操作、程序缺陷、病毒或黑客攻擊等事件都可能造成數(shù)據(jù)的損壞或丟失,從而損害數(shù)據(jù)的完整性。此外,信息技術的快速發(fā)展使數(shù)據(jù)的軟硬件載體和技術框架等都處于快速的動態(tài)變化之中,因此技術的更新?lián)Q代可能造成舊技術的淘汰,導致數(shù)據(jù)的無法使用。體量巨大和種類繁多的科學數(shù)據(jù)極大地加劇了完整性保護的復雜度,不僅需要額外的大量的存儲空間和計算資源,而且需要一套完善的完整性驗證機制。顯然,對所有的科學數(shù)據(jù)都進行完整性校驗是不切實際的,需要根據(jù)數(shù)據(jù)的重要程度采取不同的方法。數(shù)據(jù)傳輸?shù)倪^程也存在被篡改和破壞的風險,需要在接收數(shù)據(jù)后對其完整性進行校驗,同樣也存在上述的問題和要求。
科學數(shù)據(jù)的可用性是保證授權用戶對科學數(shù)據(jù)的訪問和使用,不因偶然或人為因素而影響數(shù)據(jù)的使用??茖W數(shù)據(jù)在共享過程中面臨外界不可抗力和人為惡意破壞的威脅,其可用性體現(xiàn)在系統(tǒng)和數(shù)據(jù)遭到破壞后持續(xù)提供數(shù)據(jù)服務的能力,是影響數(shù)據(jù)共享服務效能的重要因素。大數(shù)據(jù)時代對系統(tǒng)的持續(xù)服務能力和數(shù)據(jù)的快速恢復能力提出了更高的要求。系統(tǒng)平臺所提供服務的數(shù)量和類型都很多,在遭到攻擊和破壞時,需要保持當前未完成的會話狀態(tài),自動切換到備份系統(tǒng)繼續(xù)提供服務。數(shù)據(jù)備份是保證數(shù)據(jù)可用性的重要方法之一,當原始數(shù)據(jù)被破壞后,可利用備份對原始數(shù)據(jù)進行恢復,提升科學數(shù)據(jù)的可用性。大體量的科學數(shù)據(jù)進行備份對原本就不富余的存儲空間提出了很大的挑戰(zhàn)??紤]到不同類型的科學數(shù)據(jù)對安全性的要求是不同的,可以據(jù)此制定靈活的數(shù)據(jù)備份策略,如重要性較低的數(shù)據(jù)可采用本地備份,重要性較高的可采用異地備份,最重要的數(shù)據(jù)需要在上述備份的基礎上增加物理備份等。
數(shù)據(jù)的完整性校驗技術可以大致劃分為兩類:數(shù)據(jù)持有性證明機制(PDP)和數(shù)據(jù)可恢復性證明機制(POR)。前者的計算代價小,只能用于驗證數(shù)據(jù)的完整性;后者在驗證數(shù)據(jù)完整性的基礎上可以恢復被破壞的數(shù)據(jù),需要處理校驗信息,計算代價很大,不適應于大體量的科學數(shù)據(jù),本文對此不進行深入的探討。數(shù)據(jù)持有性證明機制常用的驗證信息包括MAC認證碼、RSA簽名、BLS簽名等。基于MAC認證碼的方法采用的是對稱加密體系,而基于數(shù)字簽名的方法通常采用非對稱加密體系。上述完整性校驗技術只適應于靜態(tài)的數(shù)據(jù)環(huán)境,而當數(shù)據(jù)發(fā)生變化時,會導致其他數(shù)據(jù)塊的索引會發(fā)生變化,原先生成的校驗證據(jù)信息就會失效。為適應數(shù)據(jù)的動態(tài)更新,支持動態(tài)操作的PDP機制逐漸受到關注和發(fā)展,其中常用的是基于跳表的PDP機制[13]和基于MerkleTree的PDP機制[14]。這些方法雖然在一定程度上解決了動態(tài)環(huán)境下的數(shù)據(jù)完整性校驗問題,但需要較復雜的控制機制和算法,具有較高的計算復雜度。大數(shù)據(jù)時代,一方面數(shù)據(jù)的體量非常大,另一方面數(shù)據(jù)的更新頻率不斷升高,因此能夠適應未來需求的完整性校驗技術需要兼顧以上兩個新的要求,在支持數(shù)據(jù)動態(tài)變化環(huán)境的基礎上降低驗證算法的計算復雜度,這也將是未來發(fā)展的趨勢。
傳統(tǒng)的訪問控制技術,如自主訪問控制和基于角色的訪問控制等,是從系統(tǒng)的角度保護資源的安全,訪問權限的控制是靜態(tài)的,主體獲得訪問權限后可以長期訪問數(shù)據(jù)資源,主要適應于靜態(tài)環(huán)境下小體量的數(shù)據(jù)系統(tǒng)。為解決訪問權限的動態(tài)管理問題,基于任務的訪問控制技術從任務管理的角度建立控制策略,主體只有在執(zhí)行任務的過程中才能獲得所需的權限,任務終止后將失去相應的權限。該方法的不足是通用性較差,無法將好的控制策略或規(guī)則進行繼承和復用?;趯ο蟮脑L問控制技術通過構建受控對象描述主體和客體之間的訪問權限關聯(lián),支持復用、繼承和派生等操作。該方法能實現(xiàn)較為復雜的控制邏輯,而且具有較好的靈活性。高級持續(xù)性威脅是一種基于系統(tǒng)漏洞的新型的網(wǎng)絡攻擊技術,具有潛伏周期長和高度的隱蔽性等特點,很難被傳統(tǒng)的訪問控制技術發(fā)現(xiàn)和攔截?;谛袨槟P偷耐{發(fā)現(xiàn)技術通過對正常的訪問行為進行學習和建模,借助異常行為的挖掘和比對方法發(fā)現(xiàn)潛在的威脅。該方法在前期需要大量的標注樣本用于訓練行為模型。在大數(shù)據(jù)背景下,系統(tǒng)的訪問控制一方面需要一種支持細粒度的可動態(tài)管理權限的訪問控制技術;另一方面也需要具備一定的學習能力,從海量的系統(tǒng)日志數(shù)據(jù)中挖掘和學習相關知識用于提升訪問控制的安全性。
傳統(tǒng)的數(shù)據(jù)加密技術主要有兩種:對稱加密和非對稱加密。對稱加密采用相同的密鑰進行加密和解密,具有計算量小和加密效率高的特點,但密鑰管理復雜度較高,共享前需要進行密鑰同步;非對稱加密采用不同的密鑰進行加密和解密,具有安全性高和密鑰管理簡單的特點,但其也有計算量大和加密效率低的缺點,只適合對少量數(shù)據(jù)進行加密。在科學數(shù)據(jù)共享時,數(shù)據(jù)發(fā)送方需要根據(jù)不同的接收方進行密鑰和密文的單獨管理,造成了大量時間和精力的消耗。代理重加密技術[15]是一種密文之間的密鑰轉換機制,允許第三方(代理)將使用發(fā)送方公鑰加密的密文轉換為使用接收方公鑰加密的密文。該方法在保證不泄漏數(shù)據(jù)給第三方的同時,不僅提高了數(shù)據(jù)共享的靈活性,而且減輕了數(shù)據(jù)發(fā)送方密鑰管理的負擔。上述的方法都是解決端到端的數(shù)據(jù)加密共享問題,無法適應一對多的加密共享情況?;趯傩缘募用芊椒ㄍㄟ^對用戶私鑰設置屬性集(或訪問結構),為數(shù)據(jù)密文設置訪問結構(或屬性集),由屬性集和訪問結構之間的匹配關系確定其解密能力。常用的兩種方法為基于密鑰策略的屬性加密[16]和基于密文策略的屬性加密[17]。前者的數(shù)據(jù)密文依賴于用戶的屬性集,適應于靜態(tài)數(shù)據(jù)的訪問控制。后者的數(shù)據(jù)密文依賴于訪問結構,可靈活控制授權用戶的范圍。這些加密算法的時間復雜度較高,只有后續(xù)對加密算法進行改進和優(yōu)化以大幅降低其時間復雜度,才能適應大數(shù)據(jù)時代的要求。
隱私內(nèi)容的發(fā)現(xiàn)和預警技術是隱私保護的前提,是一種主動的保護數(shù)據(jù)私密性的機制,能提前發(fā)現(xiàn)隱私泄露的風險并防患于未然。同時它也是一項復雜的技術,需要整合很多方面的知識,如法律政策、數(shù)據(jù)挖掘技術等,可目前相關的研究工作還非常少,未來需要加強在該領域的政策引導和研發(fā)投入。數(shù)據(jù)匿名化技術是通過對數(shù)據(jù)中涉及隱私的屬性值進行匿名化處理,從而達到保護隱私的目的。Dwork等[18]提出了一種差分隱私保護技術,通過向查詢結果或者分析結果中添加適當?shù)脑肼晹?shù)據(jù)來達到隱私保護的目的。該方法需要解決的關鍵問題是設計恰當?shù)乃惴ūWC引入的噪聲既能保護數(shù)據(jù)的隱私,又不影響數(shù)據(jù)的可用性。另外一種解決思路是通過數(shù)據(jù)加密的方法,它采用特定的算法對數(shù)據(jù)進行加密,使加密前后的數(shù)據(jù)對指定的運算具有結果一致性。近年來,同態(tài)加密技術[19]和安全多方計算技術[20]引起了較多的關注,這些方法兼顧了數(shù)據(jù)的保密性和可用性,但需要進行大量復雜的指數(shù)運算,計算效率不高。在大數(shù)據(jù)背景下,整合多來源數(shù)據(jù)的關聯(lián)分析技術是隱私保護面臨的重大挑戰(zhàn)??尚械膽獙Σ呗允且环矫嬉l(fā)展隱私內(nèi)容的發(fā)現(xiàn)和預警技術,做好前端的隱私保護;另一方面對重點保護的數(shù)據(jù)可采用加密的方法,在數(shù)據(jù)的共享和使用過程中保護數(shù)據(jù)的隱私。
安全審計技術的重要作用體現(xiàn)在兩個方面,一是用于提前發(fā)現(xiàn)系統(tǒng)存在的安全風險,及時采取相應的防護措施,避免安全事故的發(fā)生;二是在安全事故發(fā)生后,對事故的全過程進行回溯分析,發(fā)現(xiàn)導致事故的原因,并對相關責任方進行追責。傳統(tǒng)的面向中小系統(tǒng)的安全審計技術取得了一定的進展。但是大數(shù)據(jù)背景下,大型數(shù)據(jù)管理系統(tǒng)的業(yè)務邏輯更加復雜,系統(tǒng)操作和用戶訪問量呈指數(shù)增長趨勢,而且網(wǎng)絡攻擊更具隱蔽性,如高級持續(xù)性威脅程序可對目標進行長期性和有計劃性的攻擊等。為應對這些新變化,需要一種細粒度的安全審計技術。一方面要對所有的系統(tǒng)操作和用戶訪問進行記錄和保存;另一方面要從海量、瑣細的系統(tǒng)日志里篩選出與安全相關的線索,分析和發(fā)現(xiàn)系統(tǒng)存在的安全問題。這既需要借助大數(shù)據(jù)強大的分析挖掘能力,也需要專業(yè)審計人員的綜合判斷能力。此外,系統(tǒng)需要具備學習的能力,及時將安全審計獲取的結果等知識等轉化為規(guī)則或者模型,從而能夠更好地適應快速變化的大數(shù)據(jù)環(huán)境。
本文在梳理科學數(shù)據(jù)安全定義的基礎上,分析了在保障科學數(shù)據(jù)的機密性、完整性和可用性等方面所面臨的新挑戰(zhàn)和新要求,探討了相關的安全關鍵技術的發(fā)展現(xiàn)狀和未來趨勢,包括完整性校驗、訪問控制、數(shù)據(jù)加密、隱私保護和安全審計等。這些技術在大數(shù)據(jù)時代到來之前就已經(jīng)存在,并在保護科學數(shù)據(jù)安全方面取得了較好的效果。但是,面對大數(shù)據(jù)所帶來的新的安全要求,這些技術還存在一定的局限性,只有對其進行擴展或者發(fā)展新的技術才能適應新的安全形勢。科學數(shù)據(jù)共享的安全不僅是一個技術問題,更是一個管理的問題。我國已經(jīng)發(fā)布了《科學數(shù)據(jù)管理辦法》,它從全局的高度對科學數(shù)據(jù)的管理提出了總體要求,需要進一步完善與之配套的可落地執(zhí)行的相關政策和標準。科學數(shù)據(jù)中心要制定嚴格的安全管理機制,通過嚴格的管理發(fā)揮安全保護技術的最大效能。
大數(shù)據(jù)技術的發(fā)展雖然給科學數(shù)據(jù)的安全帶來新的挑戰(zhàn),但也為應對復雜的安全問題提供了新的思路和方法。建議未來可重點關注的研究方向包括:(1)研究基于大數(shù)據(jù)的涉密審查技術,能夠敏銳的發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中,借助關聯(lián)分析與發(fā)掘可導致泄密的科學數(shù)據(jù)。(2)研發(fā)智能化的安全審計技術,通過對海量系統(tǒng)日志信息的分析和挖掘,在盡量減少人工干預的基礎上能夠提前、準確地發(fā)現(xiàn)系統(tǒng)存在的安全威脅。(3)大力發(fā)展機器學習技術,讓計算機學習大量已有的知識和規(guī)則,可以完全或部分替代專家對安全事件進行智能化的判斷和處理。