國(guó)網(wǎng)甘肅省電力公司信息通信公司 袁 昊
甘肅同興智能科技發(fā)展有限責(zé)任公司 張文斌
國(guó)網(wǎng)甘肅省電力公司信息通信公司 陳 麗
大數(shù)據(jù)是計(jì)算機(jī)和互聯(lián)網(wǎng)發(fā)展到一定階段的必然產(chǎn)物,隨著社會(huì)資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造,人們對(duì)于過(guò)往生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)的價(jià)值興趣更高,且有足夠的能力挖掘海量數(shù)據(jù)背后的價(jià)值,自然而然就有了“大數(shù)據(jù)”的產(chǎn)生,依靠“大數(shù)據(jù)”,相關(guān)企業(yè)能夠獲得用戶海量的行為數(shù)據(jù),根據(jù)數(shù)據(jù)進(jìn)行更為合理的資源調(diào)控,將更有利于企業(yè)的發(fā)展,也能為用戶帶來(lái)更有效的建議,可以說(shuō)大數(shù)據(jù)時(shí)代已經(jīng)逐步到來(lái),必將給社會(huì)帶來(lái)翻天覆地的變化。
隨著社會(huì)的發(fā)展,同時(shí)社會(huì)資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造,隨之而來(lái)的,多元的、海量的數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),這些數(shù)據(jù)可能來(lái)自社交網(wǎng)絡(luò)、訪客記錄、購(gòu)物瀏覽等等,是一個(gè)用戶過(guò)往行為的反映,人們也開(kāi)始對(duì)“大數(shù)據(jù)”背后隱藏的價(jià)值感興趣,運(yùn)用先進(jìn)的算法從“大數(shù)據(jù)”中挖掘價(jià)值,隨之創(chuàng)造更大的價(jià)值,當(dāng)然,這一切都離不開(kāi)計(jì)算機(jī)信息處理技術(shù)(云計(jì)算)的發(fā)展,對(duì)于大數(shù)據(jù)和云計(jì)算來(lái)說(shuō),就像是一枚硬幣的正反面,不可分割,相互促進(jìn)。本文即分析大數(shù)據(jù)時(shí)代下的云計(jì)算處理方式,以供參考。
“大數(shù)據(jù)”這個(gè)概念已經(jīng)社會(huì)上流傳很久了,人們對(duì)大數(shù)據(jù)也越來(lái)越熟悉,它是隨著社會(huì)的發(fā)展,社會(huì)資源被網(wǎng)絡(luò)化和數(shù)據(jù)化改造后,隨之形成的海量行為數(shù)據(jù),大數(shù)據(jù)的本質(zhì)是人的行為,對(duì)象多種多樣,包含人的人口信息、出行信息、購(gòu)物信息、搜索信息、瀏覽信息等,大數(shù)據(jù)就是人的眾多行為的反映,其具有價(jià)值,能夠創(chuàng)造更多的價(jià)值,利用云計(jì)算對(duì)海量的數(shù)據(jù)進(jìn)行分析、存儲(chǔ)、處理,深度挖掘大數(shù)據(jù)價(jià)值,企業(yè)組織利用相關(guān)數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開(kāi)發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策,居民能受到合理推送的信息,試想一下,當(dāng)你需要趕飛機(jī)時(shí),手機(jī)為你推送專(zhuān)車(chē)服務(wù),能第一時(shí)間最優(yōu)化路線趕到機(jī)場(chǎng),當(dāng)下飛機(jī)后,收到合適的賓館推送,出去吃飯為你推送飲食券等等,大數(shù)據(jù)及其應(yīng)用正在改變?nèi)藗兊纳睿@就是大數(shù)據(jù)自身的價(jià)值和創(chuàng)造的價(jià)值。很多人知道“大數(shù)據(jù)”的概念,卻不知道“大數(shù)據(jù)”的量級(jí),早在數(shù)年前,大數(shù)據(jù)的量級(jí)就已經(jīng)從TB升級(jí)到了PB(1024GB=1TB),未來(lái)必然會(huì)躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級(jí)別。
(1)Volume(容量):大數(shù)據(jù)的容量非常大,已經(jīng)從TB升級(jí)到了PB(1024GB=1TB),未來(lái)必然會(huì)躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級(jí)別。
(2)Variety(多樣):大數(shù)據(jù)的形式是多樣的,包括結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)、源數(shù)據(jù)和處理數(shù)據(jù)等,種類(lèi)也是多樣的,包括網(wǎng)絡(luò)、音頻、視頻、位置、文本等數(shù)據(jù)。
(3)Value(價(jià)值):大數(shù)據(jù)在經(jīng)過(guò)深度的挖掘處理后,能夠創(chuàng)造較大的價(jià)值,利用大數(shù)據(jù)的價(jià)值,能夠讓企業(yè)或用戶在功率、覆蓋范圍、傳輸速率和成本之間找到那個(gè)微妙的平衡點(diǎn),不過(guò)同時(shí)也要看到,因?yàn)閿?shù)據(jù)是海量的,數(shù)據(jù)的價(jià)值密度卻非常低,但鑒于大數(shù)據(jù)的價(jià)值是由一個(gè)個(gè)微小數(shù)據(jù)共同提煉出來(lái)的,缺一不可,海量的工作量不可能減少,因此需要大量的機(jī)器學(xué)習(xí)來(lái)代替人力作業(yè)。
(4)Velocity(速度):大數(shù)據(jù)對(duì)處理速度也有要求,要求實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分析,要為用戶推送更好的服務(wù),當(dāng)你瀏覽商品時(shí),等關(guān)掉手機(jī),系統(tǒng)才采集并計(jì)算出你的喜歡,當(dāng)你喝一杯咖啡后,相關(guān)軟件才為你推送優(yōu)惠券,無(wú)疑是不稱(chēng)職的,要想給用戶更好的服務(wù),必須要求較快的數(shù)據(jù)處理速度。
首先,大數(shù)據(jù)的增長(zhǎng)是無(wú)止境的,大數(shù)據(jù)還會(huì)呈現(xiàn)爆炸式的增長(zhǎng),對(duì)于海量的數(shù)據(jù),必須借助機(jī)器學(xué)習(xí)來(lái)代替人力,在這個(gè)過(guò)程中不斷優(yōu)化大數(shù)據(jù)算法,包括大數(shù)據(jù)的存儲(chǔ)、索引、查詢算法,流數(shù)據(jù)分析算法;大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)挖掘算法;多媒體大數(shù)據(jù)分析算法;大規(guī)模機(jī)器學(xué)習(xí)算法等,隨著5G通訊技術(shù)的研發(fā),對(duì)大數(shù)據(jù)的處理能力會(huì)更上一層樓。
其次,隨著大數(shù)據(jù)的增長(zhǎng),企業(yè)對(duì)大數(shù)據(jù)的依賴也逐步加強(qiáng),來(lái)自黑客的侵?jǐn)_也會(huì)逐漸增強(qiáng),如何做好對(duì)大數(shù)據(jù)的保護(hù)也尤為重要。
再次,隨著大數(shù)據(jù)價(jià)值的體現(xiàn),也隨著5G通訊技術(shù)的大規(guī)模商用,大數(shù)據(jù)的應(yīng)用領(lǐng)域也會(huì)更多,各行各業(yè)都會(huì)逐步和大數(shù)據(jù)接駁、融入,如下圖2所示,回歸那句話:“大數(shù)據(jù)時(shí)代才剛剛到來(lái)”。
數(shù)據(jù)的采集(ETL理念)指的是將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端,數(shù)據(jù)采集的工具包括ETL工具或Sqoop等,將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如MySQL,Oracle,Postgres等)采集,然后傳輸?shù)侥繕?biāo)端(各家企業(yè)的云,Hadoop框架等)因?yàn)閿?shù)據(jù)是海量的,數(shù)據(jù)的采集也至關(guān)重要。以往數(shù)據(jù)的采集是企業(yè)對(duì)自己行業(yè)的用戶數(shù)據(jù),隨著數(shù)據(jù)共享理念的興起,數(shù)據(jù)采集對(duì)象也變得多種多樣,朝著集體化發(fā)展。
對(duì)于數(shù)據(jù)的收集,要明確的是,數(shù)據(jù)本身不會(huì)說(shuō)謊,但數(shù)據(jù)收集的過(guò)程、覆蓋的范圍、問(wèn)題的設(shè)置、選項(xiàng)的描述、采訪的背景等各種細(xì)節(jié)都會(huì)給分析結(jié)論本身帶來(lái)一定的主觀偏向,也是為什么一些研究者對(duì)大數(shù)據(jù)分析存在質(zhì)疑的根本原因:你無(wú)法保證你的數(shù)據(jù)來(lái)源是否可靠。
對(duì)于數(shù)據(jù)的存儲(chǔ),企業(yè)一般都會(huì)存在企業(yè)的“云端”,比如阿里云、AWS(亞馬遜)、AZURE(微軟)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等,又或是存儲(chǔ)在Hadoop等框架結(jié)構(gòu)中。需要明確的是,數(shù)據(jù)的存儲(chǔ)是為了立刻為數(shù)據(jù)處理做準(zhǔn)備,因此云計(jì)算或各式計(jì)算框架等,一般將數(shù)據(jù)存儲(chǔ)和處理放在一起說(shuō)。
高端互聯(lián)網(wǎng)企業(yè)都在致力于開(kāi)發(fā)自己的云計(jì)算,云計(jì)算是對(duì)大數(shù)據(jù)的轉(zhuǎn)移、存儲(chǔ)、計(jì)算的協(xié)同體,常采用分布式數(shù)據(jù)庫(kù)進(jìn)行分布式處理,隨后慢慢形成了分布式計(jì)算、效用計(jì)算、負(fù)載均衡、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、熱備份冗雜和虛擬化等計(jì)算機(jī)的混合技術(shù),這些都屬于“云計(jì)算”的范疇,利用云計(jì)算,能夠?qū)⒑A康摹按髷?shù)據(jù)”實(shí)時(shí)處理,因此,要正確看待云計(jì)算和大數(shù)據(jù)的關(guān)系,它們就像一枚硬幣的正反面,密不可分。完成這一步,大數(shù)據(jù)的價(jià)值已經(jīng)被深度挖掘了出來(lái),之后更有目的、更準(zhǔn)確的做出系統(tǒng)判斷,給用戶推送關(guān)鍵信息,就能夠創(chuàng)造出更大的價(jià)值。
對(duì)于資源有效,無(wú)法開(kāi)發(fā)“云計(jì)算”的企業(yè)來(lái)說(shuō),和高端企業(yè)合作,利用高端企業(yè)的云計(jì)算系統(tǒng)進(jìn)行數(shù)據(jù)處理,又或是利用Hadoop、Mapreduce、Tensorflow(深度學(xué)習(xí)框架)、Spark、Pentaho BI等開(kāi)源框架進(jìn)行大數(shù)據(jù)處理,都是不錯(cuò)的方法,這里重點(diǎn)提一下Hadoop開(kāi)源框架,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,并進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理,如何正確看待云計(jì)算和開(kāi)源框架的區(qū)別?前者是大型的,后者體量較小,功能也較為單一,就好像修建一棟房子,云計(jì)算是總設(shè)計(jì)圖,內(nèi)容是多樣的,功能強(qiáng)大,而眾多開(kāi)源框架則是水泥、錘子一樣的修建工具或臥室、陽(yáng)臺(tái)設(shè)計(jì)圖,功能較為單一,但也能使用,其中Hadoop開(kāi)源框架非常優(yōu)秀,被高端互聯(lián)網(wǎng)企業(yè)收錄進(jìn)自家的云計(jì)算環(huán)境中,云計(jì)算和大數(shù)據(jù)的關(guān)系如圖1所示。
隨著“大數(shù)據(jù)”的日益發(fā)展,大數(shù)據(jù)的安全性又成為人們熱議的話題,這里包含兩方面內(nèi)容,第一方面為作為用戶的你,是否愿意自己的大數(shù)據(jù)被收集,當(dāng)你瀏覽商品時(shí),你的喜好已經(jīng)被收錄,當(dāng)你發(fā)送郵件時(shí),聯(lián)系方式已泄密,當(dāng)你使用地圖時(shí),位置信息已經(jīng)泄密,作為用戶的你要想保護(hù)數(shù)據(jù)安全性,就需要慎重對(duì)待手機(jī)軟件中的權(quán)屬限制,謹(jǐn)慎處理。
另一方面是企業(yè)如何保護(hù)大數(shù)據(jù)?企業(yè)的大數(shù)據(jù)有流通性和共享性,本身就容易暴露,且容易受到黑客勒索攻擊,國(guó)家在2019年5月13日發(fā)布等保2.0,要求企業(yè)構(gòu)建安全防護(hù)架構(gòu),保護(hù)數(shù)據(jù)安全,如圖2所示。
圖1 云計(jì)算和大數(shù)據(jù)的關(guān)系
圖2 等保2.0
在大數(shù)據(jù)時(shí)代,計(jì)算機(jī)信息處理技術(shù),可以簡(jiǎn)單看作“云計(jì)算”,主要處理技術(shù)包括數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、安全管理、運(yùn)營(yíng)等方面,針對(duì)這些內(nèi)容上文做了簡(jiǎn)單說(shuō)明,以供參考。