蘇禮
【關鍵詞】大數據;數據安全;數據隱私;危機;數據加密
隨著大數據時代的到來,當下社會的各行各業(yè)都發(fā)生了巨大的轉變,人們的工作和生活實現(xiàn)了信息化與智能化的轉變,利用計算機網絡為基礎的通信、網絡服務等信息基礎設施在人們的生活中也扮演著越來越重要的角色。近年來,隨著傳感器等研究領域的不斷創(chuàng)新,移動設備、云計算系統(tǒng)、社交媒體、物聯(lián)網等計算機及網絡技術的蓬勃發(fā)展,面對互聯(lián)網海量的數據業(yè)務、數據迭代更新等特點,各類數據所存在的安全問題凸顯,因此研究新形勢下大數據的信息安全及安全預防技術具有非常重要的意義。世界各地也在積極探索大數據背景下的信息安全等相關技術,在保障大數據穩(wěn)步發(fā)展的前提下,通過大數據的應用,為我國的經濟提升和社會穩(wěn)定提供充分的保障,同時維護大數據信息的使用安全,達到數據技術的可持續(xù)發(fā)展。
(一)大數據的概念及發(fā)展
大數據一般是指以計算機和網絡為基礎的,通過數據的分類、挖掘等方法,獲取數據潛在的內部規(guī)律,從而實現(xiàn)對數據分析,得出新信息,找出有價值有意義的數據,通常與云計算有著緊密地聯(lián)系。同時要求對數據信息處理更加的高效、并且智能地從海量信息中找到可以進行利用的數據。大數據不單單是指數據規(guī)模大、數據數量多,尤其是數據的類型較為復雜多變,例如包括視頻音頻、文字圖片等等。當今聊天工具、直播平臺和微博博客以及購物平臺等信息傳播方式的轉變,產生了越來越多的數據,因此對數據的處理質量也有著較高的要求,尤其對這些海量數據的分類及安全性的研究,一直是許多科研工作者廣泛研究的課題之一[1]。
大數據按四個V對數據進行了分類,即速度、種類、真實性、體積。這些特征性為大數據的識別提供了獨特的功能,同時,這些特點也導致了數據隱私技術和數據安全問題的產生[2]。在本文中,筆者針對這些問題和挑戰(zhàn),提出了一種在工具和技術方面的補救方法。
(二)大數據面臨的主要挑戰(zhàn)
大數據面臨的主要挑戰(zhàn)主要分為以下幾部分,即不安全的計算能力、輸入和驗證過濾、精細訪問控制、不安全的存儲數據、隱私問題等。大數據背景下的信息安全涉及范圍較廣,一般可分為:系統(tǒng)安全、環(huán)境安全、程序安全、數據安全四個方面。當下進入大數據時代下,網絡信息已滲透到每一個人的工作和生活中,因為在互聯(lián)網中充斥著大量流動的信息,因此大數據的信息安全即成為網絡應用中最突出的問題之一??紤]到以上場景中的這些挑戰(zhàn),我們可以使用一些大數據工具和技術加以優(yōu)化[3]。
大數據的體系結構包含許多技能,例如開發(fā)可靠的自動化數據管道。實際上,大數據沒有特定的標準化體系架構,這也是一項新的研究領域,例如速度、體積、延遲、真實性、可擴展性等特征,容錯也剛剛成為大數據架構的關鍵和重要特征。大數據還有許多其他的內在屬性,如自動分層、容易轉移等[4]。除了傳統(tǒng)的數據源之外,還可以使用許多其他在線資源來完成數據源整合。Map-Reduce提供了更靈活、更強大的執(zhí)行編程范式框架,程序分為多個數據節(jié)點執(zhí)行各自的數據節(jié)點,最后將其縮減為單個集合的結果。
(一)大數據安全面臨的挑戰(zhàn)
大數據的安全機制并非普遍薄弱,點對點的安全機制是大數據處理方面最好的機制之一。通過使用并行性、自動分層等特性,可獲得更加有效的安全機制[5]。
1、數據挖掘中的隱私問題:數據挖掘概念在隱私方面存在許多問題,而且給分析結果賦予了很多挑戰(zhàn),比如信息披露、公私密鑰的披露等。
2、不安全的數據存儲:數據的身份驗證和授權是最主要的問題,從數據的存儲到交付至數據管理節(jié)點,可能經歷不安全的數據計算、身份驗證、授權、數據加密和不安全的介質等。
3、不安全的計算:不受信任的計算編程范式。攻擊者使用不安全的數據計算來獲取數據中的敏感和機密信息等資源,不僅會造成信息的泄露,還會破壞數據,導致分析和預測的結果不準確或無效。
4、在DOS輸入驗證和過濾中:拒絕服務(DOS)也將影響在輸入驗證中和訪問大規(guī)模并行編程語言的禁用。由于大數據需要收集各種輸入信息,因此,它需要一個更嚴謹和更可靠的驗證輸入,以及一個過濾惡意數據的過濾器。
考慮到上述這些挑戰(zhàn),可以通過某些方案加以解決,如密碼學、安全計算數據存儲、實施綜合輸入驗證等。處理大數據需要更快計算響應時間,并加入安全含義。本文將在下面的章節(jié)中,討論上述兩個解決方案[6]。
(二)大數據安全的密碼解決方案
在Hadoop中,沒有算法來加密或解密機載數據,即本地數據和HDFS文件系統(tǒng)。Hadoop工作在Linux平臺,所以它使用Linux本地系統(tǒng)作為臨時存儲系統(tǒng)。在Map-Reduce任務處理后,Map-Reduce的輸入進入本地以及HDFS(在用戶的幫助下)。Hadoop只有一個端到端的安全系統(tǒng)Kerberos。Kerberos是一種基于跟蹤用戶對特定服務的訪問和系統(tǒng)限制決策的服務。僅提供安全網關來限制訪問Hadoop環(huán)境中不需要的或未經授權的用戶和服務,基本可以認為是Hadoop的策略管理器。首先假設,如果未經授權的用戶獲得了Hadoop環(huán)境的許可,那么整個Hadoop系統(tǒng)就會受到損害,它將導致數據失竊或數據丟失,為了確保這個循環(huán)漏洞,我們可以創(chuàng)建一個RSA+AES加密和解密算法的系統(tǒng),這樣,即使Hadoop系統(tǒng)受到威脅,HDFS或本地中的數據也不會受到影響。數據在加密和解密時,只提供一次寫入和多次讀取的機會,并被保存在文件系統(tǒng)中,用戶使用密鑰組合以及一些支持的文件來打開(解密)該文件以供使用。這是一個自動化的過程,如果用戶在讀取文件后關閉此文件,并要求再次讀取該數據文件時,則需要提供密鑰和使用文件組合來再次讀取[7]。
MapReduce框架能夠使用分布式計算來處理數據。這是一個編程模型和一個處理大數據的分布式計算框架??捎糜诰帉懽詣涌蓴U展云環(huán)境中的分布式應用程序。此框架可自動擴展和并行化算法,負責對數據的數據新型分區(qū)、調度、同步和處理故障,讓程序員更專注于開發(fā)算法并盡可能的減少后臺任務。MapReduce被認為是最可持續(xù)和最強大的大數據下的編程范式。
在大數據隱私范式中,對敏感和機密數據的隔離非常重要。幾乎所有內部和外部數據來源的過濾都必須是強制性的。需要對大數據源和解決方案進行關鍵性輸入驗證和過濾特性的評估,從而證實數據源能否進行擴大數據需求和安全問題處理。通常有兩種預防的方法,攻擊,當存在不安全的隱患時映射器保護數據,同時完整地保護映射;為敏感數據啟用數據節(jié)點加密,驗證所有相關組件的API安全的正確配置等。這些算法用于數據的分析和預測,必須及時驗證分類和回歸,以便敏感數據得到及時敏感化。當然,這也會降低敏感和機密數據的泄露率,但這是為大數據中使用的預防措施而建立的測試和分析,這點很重要,而且必須經過滲透測試。
隨著大數據技術的發(fā)展,與之相關的安全問題也在發(fā)展,數據安全問題必須成為人類一直研發(fā)和發(fā)展的重要課題之一。只有新創(chuàng)建的海量數據形式,要配有新的應用程序和驅動算法來進行數據分析,并開發(fā)實時監(jiān)控數據安全技術,也相應研發(fā)維護數據安全和隱私策略的特殊方法,才能不斷的應對和解決不斷變化的數據安全問題。