劉林林
(山東質(zhì)量認(rèn)證中心 山東 250014)
“大數(shù)據(jù)”在物理學(xué)、生物學(xué)等自然科學(xué)領(lǐng)域以及軍事、金融、通訊等行業(yè)存在多年,卻因為近年來互聯(lián)網(wǎng)與信息行業(yè)的發(fā)展而引起人們關(guān)注。大數(shù)據(jù)在以Google、IBM、Amazon等為代表的互聯(lián)網(wǎng)與信息公司快速應(yīng)用發(fā)展,逐步蔓延到越來越多的金融、電力、通訊等傳統(tǒng)行業(yè),這些公司和行業(yè)從不同的維度進(jìn)行數(shù)據(jù)挖掘和分析,創(chuàng)造出更多的商業(yè)模式和經(jīng)濟(jì)增長點。
大數(shù)據(jù)的價值不僅僅局限于它的初始收集目的,而在于收集后可以用于其他用途并可重復(fù)使用。目前,包括美國在內(nèi)的許多國家,都將大數(shù)據(jù)分析管理上升到國家戰(zhàn)略層面,從國家層面通盤考慮其發(fā)展戰(zhàn)略。
目前,可以依據(jù)不同的需求,從以下三個角度將大數(shù)據(jù)分析進(jìn)行分類。
以數(shù)據(jù)分析的實時性分類,可分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析。
“即時處理”是實時數(shù)據(jù)分析的主要特點。實時數(shù)據(jù)分析一般用于金融、移動和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設(shè)計的傳統(tǒng)關(guān)系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計算平臺,或者采用 HDD的架構(gòu),這些無疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實時分析工具有EMC的Greenplum、SAP的HANA等。
“先收集,后分析”是離線數(shù)據(jù)分析的主要特點。對于大多數(shù)反饋時間要求不是那么苛刻的應(yīng)用,比如離線統(tǒng)計分析、搜索引擎的反向索引計算、推薦引擎的計算等,應(yīng)采用離線分析的方式,通過數(shù)據(jù)采集工具將日志數(shù)據(jù)導(dǎo)入專用的分析平臺。但面對海量數(shù)據(jù),傳統(tǒng)的ETL工具往往徹底失效,主要原因是數(shù)據(jù)格式轉(zhuǎn)換的開銷太大,在性能上無法滿足海量數(shù)據(jù)的采集需求。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有 Facebook開源的Scribe、LinkedIn開源的Kafka、Hadoop的Chukwa等,均可以滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。
在實際應(yīng)用中由于業(yè)務(wù)需求的不同,數(shù)據(jù)分析的算法也差異巨大,而數(shù)據(jù)分析的算法復(fù)雜度和架構(gòu)是緊密關(guān)聯(lián)的。舉個例子,Redis是一個性能非常高的內(nèi)存Key-Value NoSQL,它支持List和Set、SortedSet等簡單集合,如果你的數(shù)據(jù)分析需求簡單地通過排序,鏈表就可以解決,同時總的數(shù)據(jù)量不大于內(nèi)存(準(zhǔn)確地說是內(nèi)存加上虛擬內(nèi)存再除以 2),那么無疑使用Redis會達(dá)到非常驚人的分析性能。
對于大多數(shù)統(tǒng)計分析,機(jī)器學(xué)習(xí)問題可以用 MapReduce算法改寫。MapReduce目前最擅長的計算領(lǐng)域有流量統(tǒng)計、推薦引擎、趨勢分析、用戶行為分析、數(shù)據(jù)挖掘分類器、分布式索引等。
以數(shù)據(jù)量大小分類,分為內(nèi)存級別、BI級別、海量級別三種。這里的內(nèi)存級別指的是數(shù)據(jù)量不超過集群的內(nèi)存最大值。目前內(nèi)存的容量,如Facebook緩存在內(nèi)存的Memcached中的數(shù)據(jù)高達(dá)320TB,即使PC服務(wù)器,內(nèi)存也可以超過百GB。因此可以采用一些內(nèi)存數(shù)據(jù)庫,將熱點數(shù)據(jù)常駐內(nèi)存之中,從而取得非常快速的分析能力,非常適合實時分析業(yè)務(wù)。
BI級別指的是那些對于內(nèi)存來說太大的數(shù)據(jù)量,但一般可以將其放入傳統(tǒng)的BI產(chǎn)品和專門設(shè)計的BI數(shù)據(jù)庫之中進(jìn)行分析。目前主流的BI產(chǎn)品都有支持TB級以上的數(shù)據(jù)分析方案。海量級別指的是對于數(shù)據(jù)庫和BI產(chǎn)品已經(jīng)完全失效或者成本過高的數(shù)據(jù)量。海量數(shù)據(jù)級別的優(yōu)秀企業(yè)級產(chǎn)品也有很多,但基于軟硬件的成本原因,目前大多數(shù)互聯(lián)網(wǎng)企業(yè)采用Hadoop的HDFS分布式文件系統(tǒng)來存儲數(shù)據(jù),并使用MapReduce進(jìn)行分析。
今年年初,在美國召開的RSA2013大會結(jié)束以來,大數(shù)據(jù)安全已經(jīng)成了今年業(yè)界關(guān)注的熱點。眾多安全廠商都發(fā)布了大數(shù)據(jù)安全戰(zhàn)略,將大數(shù)據(jù)安全作為未來研發(fā)的重點。目前,從信息安全的角度看,大數(shù)據(jù)安全主要體現(xiàn)在以下五個方面:
大量的數(shù)據(jù)產(chǎn)生、存儲和分析,數(shù)據(jù)保密問題將在未來幾年內(nèi)成為一個更大的問題。對一個企業(yè)在數(shù)據(jù)存儲和部署的時候,有些時候容易交叉存儲,把敏感信息一不小心部署到公開的或者不應(yīng)該部署到服務(wù)器上,更容易加大隱私的泄漏。企業(yè)必須盡快開始規(guī)劃新的數(shù)據(jù)保護(hù),同時監(jiān)測進(jìn)一步的立法和監(jiān)管的發(fā)展。
隨著越來越多的交易、對話、互動和數(shù)據(jù)在網(wǎng)上進(jìn)行,這種刺激使得網(wǎng)絡(luò)犯罪分子比以往任何時候都要猖獗。今天的網(wǎng)絡(luò)犯罪分子都組織得更好、更專業(yè),并具備有力的工具和能力,以針對確定的目標(biāo)進(jìn)行攻擊。這種攻擊產(chǎn)生的后果,對企業(yè)可能意味著聲譽受損,法律責(zé)任,甚至財政破產(chǎn)。從近兩年所發(fā)生的一些互聯(lián)網(wǎng)公司的用戶帳號的信息失竊情況來看,大家可以發(fā)現(xiàn),一般失竊的量都是非常龐大的。大數(shù)據(jù)當(dāng)中數(shù)據(jù)量比較大,它的信息量也比較大,攻擊成本低,所以黑客更加樂意去攻擊。
攜手大數(shù)據(jù)的增長的是新的移動設(shè)備使用范圍的擴(kuò)大,用于收集、存儲、訪問和數(shù)據(jù)傳輸。企業(yè)現(xiàn)在面臨的企業(yè)員工在工作場所使用個人設(shè)備的安全管理挑戰(zhàn),必須平衡安全與生產(chǎn)力的需要。對員工習(xí)慣、使用痕跡的收集是企業(yè)信息安全重大威脅,尤其是當(dāng)這些混合了家庭和工作數(shù)據(jù)。企業(yè)應(yīng)當(dāng)確保其雇員接受相關(guān)的個人設(shè)備使用政策,并繼續(xù)在符合其既定的安全政策下管理移動設(shè)備。
企業(yè)必須迅速采用和實施新技術(shù)的壓力,比如云服務(wù)。經(jīng)常面臨大數(shù)據(jù)的具有挑戰(zhàn)性的存儲和處理的需求。而這其中包含了不可預(yù)見的風(fēng)險和意想不到的后果。在云中的大數(shù)據(jù)對于網(wǎng)絡(luò)犯罪分子來說,是一個極具吸引力的攻擊目標(biāo)。這對企業(yè)來說提出了更多的需求,他們必須采購戰(zhàn)略正確的安全的云。
隨著安全風(fēng)險的越來越復(fù)雜,企業(yè)在應(yīng)對這些安全風(fēng)險時越發(fā)感到吃力。大數(shù)據(jù)安全既包括對大數(shù)據(jù)本身的安全保護(hù),也包括通過對大數(shù)據(jù)的搜集、整合和分析,提供更多更好的安全情報。用戶將數(shù)據(jù)上傳到云,或從云中下載數(shù)據(jù)時,都需要掃描和屏蔽惡意數(shù)據(jù);在云中,也需要通過定時掃描,檢查和屏蔽惡意數(shù)據(jù)。企業(yè)或個人應(yīng)樹立良好的大數(shù)據(jù)信息安全觀念,降低風(fēng)險,減少損失。
[1]覃雄派;王會舉;杜小勇;王珊.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生. 軟件學(xué)報.2012年01期.