董學(xué)潤(rùn)
【摘要】? ? 如今,數(shù)據(jù)越來(lái)越成為全球科技競(jìng)爭(zhēng)的制高點(diǎn),擁有了海量數(shù)據(jù)就擁有了重要的戰(zhàn)略資源。大數(shù)據(jù)技術(shù)在許多領(lǐng)域都發(fā)揮了重要作用,大數(shù)據(jù)技術(shù)一般是以大數(shù)據(jù)分析及處理為核心,掌握大數(shù)據(jù)分析及處理技術(shù),能獲取豐富的數(shù)據(jù)資源,也能夠最大限度的開(kāi)發(fā)數(shù)據(jù)價(jià)值。本文重點(diǎn)介紹大數(shù)據(jù)分析與處理技術(shù)。
【關(guān)鍵詞】? ? 大數(shù)據(jù)? ? 大數(shù)據(jù)分析處理? ? 大數(shù)據(jù)發(fā)展情況
引言
在當(dāng)今的大數(shù)據(jù)時(shí)代背景之下,數(shù)據(jù)發(fā)展的腳步會(huì)越來(lái)越快,數(shù)據(jù)中包含的信息也會(huì)越來(lái)越豐富。而要獲取數(shù)據(jù)中的價(jià)值,掌握大數(shù)據(jù)分析與處理方法是關(guān)鍵,本文的目的就是讓人們了解大數(shù)據(jù)處理的關(guān)鍵技術(shù)以及大數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì)。
一、大數(shù)據(jù)的含義
大數(shù)據(jù)是當(dāng)前社會(huì)科技當(dāng)中的一個(gè)熱點(diǎn)概念,各行各業(yè)中我們都會(huì)聽(tīng)到大數(shù)據(jù)這個(gè)詞,但是大數(shù)據(jù)到底是什么,大部分人卻不是很了解。我們當(dāng)前所說(shuō)的大數(shù)據(jù)包含兩層含義。一是從表意上來(lái)看,人們的各種社會(huì)行為會(huì)產(chǎn)生相應(yīng)數(shù)據(jù),這些數(shù)據(jù)匯集在一起,成為表意上的“大”數(shù)據(jù),我們也把這樣的數(shù)據(jù)稱為基礎(chǔ)數(shù)據(jù)。二是從技術(shù)層面來(lái)看,大數(shù)據(jù)是指大數(shù)據(jù)技術(shù),也就是本文的大數(shù)據(jù)分析與處理技術(shù)。數(shù)據(jù)資源之所以寶貴,究其原因在于其可以價(jià)值化,大數(shù)據(jù)分析與處理技術(shù)正是將數(shù)據(jù)價(jià)值化的途徑。[1]從釋義上來(lái)說(shuō),大數(shù)據(jù),它的英文名字是big data,是信息技術(shù)領(lǐng)域當(dāng)中的一個(gè)行業(yè)術(shù)語(yǔ),它是一種信息資產(chǎn),具有量大、增長(zhǎng)率高等特點(diǎn)。大數(shù)據(jù)的采集和處理沒(méi)有辦法使用普通的分析軟件和工具,而需要一個(gè)與時(shí)俱進(jìn)的模式才能夠挖掘出它的最大價(jià)值。
通俗來(lái)說(shuō),大數(shù)據(jù)的解釋就是大量的數(shù)據(jù),顧名思義,就是數(shù)量多、范圍廣的意思,而數(shù)據(jù)是信息等各方面的數(shù)據(jù)資料,結(jié)合起來(lái)就是量多、范圍廣的信息數(shù)據(jù)資料。
《大數(shù)據(jù)時(shí)代》中提出了大數(shù)據(jù)的四個(gè)特性:volume、velocity、variety、value,簡(jiǎn)稱4V,中文意為海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流動(dòng)和動(dòng)態(tài)的數(shù)據(jù)體系、多樣的數(shù)據(jù)類型和巨大的數(shù)據(jù)價(jià)值,這正是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的最大特點(diǎn)。[2]
二、大數(shù)據(jù)分析及處理過(guò)程
在現(xiàn)在這樣一種任何網(wǎng)絡(luò)行為都能被記錄,隨時(shí)隨地都能產(chǎn)生數(shù)據(jù)的時(shí)代之中,幾乎不存在無(wú)意義的數(shù)據(jù)。大數(shù)據(jù)分析與處理包括數(shù)據(jù)的采集、存儲(chǔ)、管理、分析挖掘以及數(shù)據(jù)可視化幾個(gè)階段,通過(guò)這幾個(gè)環(huán)節(jié)我們可以發(fā)現(xiàn)很多有用的信息以及一些有趣的結(jié)論,甚至可能通過(guò)數(shù)據(jù)挖掘出極大的商業(yè)價(jià)值。
2.1數(shù)據(jù)采集
大數(shù)據(jù)開(kāi)啟了一個(gè)全新的時(shí)代,在這個(gè)新時(shí)代下,大規(guī)模生產(chǎn)、分享應(yīng)用數(shù)據(jù)隨處可見(jiàn),大數(shù)據(jù)給技術(shù)和商業(yè)帶來(lái)了一個(gè)巨大的變化。據(jù)麥肯錫的一份數(shù)據(jù)顯示,大數(shù)據(jù)可以使得勞動(dòng)生產(chǎn)率每年升高0.5-1個(gè)百分點(diǎn),大數(shù)據(jù)的價(jià)值不言而喻。然而,調(diào)查顯示,沒(méi)有被挖掘、利用的信息比例高達(dá)99.4%,這一窘境很大程度上是因?yàn)檫@些含有高價(jià)值的數(shù)據(jù)無(wú)法采集。如何對(duì)有價(jià)值的信息數(shù)據(jù)進(jìn)行采集成為了大數(shù)據(jù)發(fā)展的關(guān)鍵一步。
1、含義
數(shù)據(jù)采集的另外一個(gè)名字叫做數(shù)據(jù)獲取,是指從傳感器和其他待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過(guò)程。數(shù)據(jù)采集是進(jìn)行大數(shù)據(jù)分析的先決條件,在整個(gè)分析與處理過(guò)程中占有十分重要的位置。大數(shù)據(jù)的采集主要有以下三種方式:系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法以及其他數(shù)據(jù)采集法。
2、方法
(1)系統(tǒng)日志采集法。系統(tǒng)日志可以記錄下系統(tǒng)中的硬件、軟件等的信息,同時(shí)也可以監(jiān)測(cè)系統(tǒng)里的行為。用戶可以通過(guò)這一過(guò)程來(lái)檢查錯(cuò)誤出現(xiàn)的原因,或者時(shí)尋找受到侵入時(shí)攻擊者留下的痕跡。系統(tǒng)日志包括系統(tǒng)日志、應(yīng)用程序日志和安全日志。(百度百科)大數(shù)據(jù)平臺(tái)或者說(shuō)類似于開(kāi)源Hadoop平臺(tái)會(huì)產(chǎn)生大量高價(jià)值系統(tǒng)日志信息,如何采集成為研究者研究熱點(diǎn)。目前基于Hadoop平臺(tái)開(kāi)發(fā)的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯(lián)寧,2016)均可成為是系統(tǒng)日志采集法的典范。目前此類的采集技術(shù)大約可以每秒傳輸數(shù)百M(fèi)B的日志數(shù)據(jù)信息,滿足了目前人們對(duì)信息速度的需求。一般而言與我們相關(guān)的并不是此類采集法,而是網(wǎng)絡(luò)數(shù)據(jù)采集法。
(2)網(wǎng)絡(luò)數(shù)據(jù)采集法。除了目前已經(jīng)存在的公開(kāi)數(shù)據(jù)集,用于日常的算法研究外,有時(shí)為了滿足項(xiàng)目的實(shí)際需求,需要對(duì)現(xiàn)實(shí)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行采集,預(yù)處理和保存,這種方法就叫做網(wǎng)絡(luò)數(shù)據(jù)采集法,目前網(wǎng)絡(luò)數(shù)據(jù)采集主要是通過(guò)API和網(wǎng)絡(luò)爬蟲(chóng)。
(3)其他數(shù)據(jù)采集法。其他采集法是指對(duì)于科研院所,企業(yè)政府等擁有機(jī)密信息,如何保證數(shù)據(jù)的安全傳遞?可以采用系統(tǒng)特定端口,進(jìn)行數(shù)據(jù)傳輸任務(wù),從而減少數(shù)據(jù)被泄露的風(fēng)險(xiǎn)。
2.2數(shù)據(jù)存儲(chǔ)
1、概念
大數(shù)據(jù)存儲(chǔ)技術(shù)是大數(shù)據(jù)領(lǐng)域的另一個(gè)關(guān)鍵數(shù)據(jù),人們利用分布式存儲(chǔ)代替集中式存儲(chǔ),用更廉價(jià)的機(jī)器代替之前昂貴的機(jī)器,讓海量存儲(chǔ)的成本大大降低。大數(shù)據(jù)存儲(chǔ)主要利用各式各樣的存儲(chǔ)引擎,以下就是幾個(gè)極具代表性的大數(shù)據(jù)存儲(chǔ)引擎。
2、存儲(chǔ)引擎
HDFS:大規(guī)模分布式數(shù)據(jù)存儲(chǔ), 對(duì)小文件讀寫(xiě)相對(duì)比較困難。HDFS的特點(diǎn)是比較適合對(duì)延時(shí)不敏感, 吞吐量比較大的業(yè)務(wù), 另外小文件不能太多。
HBASE:HBASE適用于大規(guī)模分布式OLTP, 可以無(wú)感知平行擴(kuò)展, 沒(méi)有固定的概要, 讓HBASE增刪列非常靈活。既可以通過(guò)主鍵查詢, 也可以通過(guò)關(guān)鍵字范圍掃描, 由于寫(xiě)是順序?qū)懀?非常適合寫(xiě)多讀少的場(chǎng)景。類似于IM的數(shù)據(jù)場(chǎng)景,而且HBASE的數(shù)據(jù)會(huì)按照ID聚合放置,非常適合消息上拉和下拉的場(chǎng)景。
2.3數(shù)據(jù)清洗
1、概念
數(shù)據(jù)清洗是一種清除錯(cuò)誤數(shù)據(jù)、去掉重復(fù)數(shù)據(jù)的技術(shù)。數(shù)據(jù)經(jīng)過(guò)清洗之后,可以還保存到原來(lái)的數(shù)據(jù)庫(kù)中,也可以和數(shù)據(jù)集成聯(lián)系在一起,最終保存到集成后的數(shù)據(jù)庫(kù)里。
2、步驟
預(yù)處理:第一是從分析處理工具中導(dǎo)入所需數(shù)據(jù)。一般是用數(shù)據(jù)庫(kù)來(lái)進(jìn)行處理,具有SQL環(huán)境為益。如果說(shuō)數(shù)據(jù)量非常大,可以使用文本文件存儲(chǔ)+Python操作的方式;第二是查看數(shù)據(jù)。這一步又包含兩個(gè)部分:一個(gè)是查看對(duì)數(shù)據(jù)進(jìn)行描述的信息,比如說(shuō)字段的解釋以及數(shù)據(jù)來(lái)源等。二是抽取樣本數(shù)據(jù),人為觀察,大致了解數(shù)據(jù)的表象,從中發(fā)現(xiàn)一些初步的問(wèn)題,為以后的工作做準(zhǔn)備。
缺失值清洗:數(shù)據(jù)中最常見(jiàn)的問(wèn)題之一就是數(shù)據(jù)缺失,處理缺失值由四個(gè)步驟組成,一是確定數(shù)據(jù)缺失的位置和范圍,計(jì)算出每個(gè)字段當(dāng)中數(shù)據(jù)缺失的比例,然后按照缺失比例和字段重要性,分別制定策略;二是去除不需要的字段,直接刪掉不需要字段即可;三是填充缺失內(nèi)容,某些缺失值可以根據(jù)以往的經(jīng)驗(yàn)或者知識(shí)來(lái)進(jìn)行推測(cè)、按照同一個(gè)指標(biāo)來(lái)進(jìn)行計(jì)算(中位數(shù)、均值等等)或按照不同的指標(biāo)來(lái)進(jìn)行計(jì)算著三種方式來(lái)填補(bǔ);四是重新抓取數(shù)據(jù),如果說(shuō)一些數(shù)據(jù)對(duì)分析來(lái)說(shuō)非常重要,但缺失現(xiàn)象嚴(yán)重,就有必要考慮重新制定科學(xué)的策略去進(jìn)行數(shù)據(jù)的重取。
格式內(nèi)容清洗:分析的數(shù)據(jù)如果說(shuō)是經(jīng)過(guò)系統(tǒng)日志得來(lái)的,一般情況下格式以及內(nèi)容就會(huì)跟元數(shù)據(jù)所表現(xiàn)的一樣。但如果說(shuō)數(shù)據(jù)是人工采集的,那么就可能需要進(jìn)行格式內(nèi)容清晰,因?yàn)榇藭r(shí)數(shù)據(jù)的格式、內(nèi)容極有可能出現(xiàn)很多的問(wèn)題。? ? 邏輯錯(cuò)誤清洗:這部分的工作是去掉一些使用簡(jiǎn)單邏輯推理就可以直接發(fā)現(xiàn)問(wèn)題的數(shù)據(jù),防止分析結(jié)果走偏。主要包括去重、去除不合理值。
修正矛盾內(nèi)容:字段相矛盾時(shí),我們有必要考究其數(shù)據(jù)來(lái)源,人為的判斷哪個(gè)字段中的信息更有意義,刪除重復(fù)的、無(wú)意義的字段。
非需求數(shù)據(jù)清洗:刪除不需要的字段。
2.4數(shù)據(jù)分析與挖掘
數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理環(huán)節(jié)中的一個(gè)核心環(huán)節(jié),要得到數(shù)據(jù)的巨大價(jià)值,必須要經(jīng)過(guò)專業(yè)的數(shù)據(jù)分析與挖掘過(guò)程,這其中涉及到的知識(shí)面較廣,需要用到統(tǒng)計(jì)學(xué)、計(jì)算機(jī)、數(shù)學(xué)模型等知識(shí),對(duì)分析人員的專業(yè)性要求較高。數(shù)據(jù)分析與挖掘的統(tǒng)計(jì)學(xué)方法:描述性分析是最基本的分析統(tǒng)計(jì)方法,在實(shí)際工作中也是應(yīng)用最廣的分析方法。描述統(tǒng)計(jì)又分為兩大部分:數(shù)據(jù)描述和指標(biāo)統(tǒng)計(jì)。[3]數(shù)據(jù)描述:所謂數(shù)據(jù)描述,是指能夠表現(xiàn)數(shù)據(jù)特點(diǎn)的一些指標(biāo),比如數(shù)據(jù)的時(shí)間范圍、數(shù)據(jù)的總量、數(shù)據(jù)來(lái)源等。倘若我們需要對(duì)數(shù)據(jù)進(jìn)行建模,則所選數(shù)據(jù)的分布情況和離散程度等指標(biāo)都得囊括在其中。指標(biāo)統(tǒng)計(jì):對(duì)指標(biāo)進(jìn)行統(tǒng)計(jì),主要是為了寫(xiě)分析報(bào)告,統(tǒng)計(jì)指標(biāo)可以簡(jiǎn)單的劃分為四個(gè)類型。第一類是變化,可以參考數(shù)學(xué)中的時(shí)間序列,指標(biāo)隨時(shí)間的變動(dòng)而變動(dòng),具體表現(xiàn)為增幅或降幅;第二類是分布,比如在空間上的分布:不同的國(guó)家,不同城市,由如不同群體的分布:不同的年齡、不同的職業(yè)、不同的性別等等;第三類是對(duì)比,比如說(shuō)內(nèi)部對(duì)比;第四類是預(yù)測(cè),根據(jù)現(xiàn)有情況,估計(jì)下個(gè)分析時(shí)段的指標(biāo)值。數(shù)據(jù)分析與挖掘的常用工具:R語(yǔ)言、SQL、Python等。
2.5數(shù)據(jù)可視化
數(shù)據(jù)可視化,就是將分析完的數(shù)據(jù)以直觀的方式呈現(xiàn)出來(lái)。數(shù)據(jù)之中盡管隱藏著再高的價(jià)值,若是不能以一個(gè)直觀易懂的方式呈現(xiàn),也就失去了挖掘的意義。數(shù)據(jù)可視化將數(shù)據(jù)轉(zhuǎn)換成圖或表等,以一種更直觀的方式展現(xiàn)和呈現(xiàn)數(shù)據(jù)。通過(guò)“可視化”的方式,我們看不懂的數(shù)據(jù)通過(guò)圖形化的手段進(jìn)行有效地表達(dá),準(zhǔn)確高效、簡(jiǎn)潔全面地傳遞某種信息,甚至我們幫助發(fā)現(xiàn)某種規(guī)律和特征,挖掘數(shù)據(jù)背后的價(jià)值。
三、大數(shù)據(jù)分析及處理發(fā)展情況
我國(guó)目前的大數(shù)據(jù)應(yīng)用環(huán)境和技術(shù)相對(duì)于美國(guó)而言,在整體技術(shù)水平、應(yīng)用環(huán)境、國(guó)民意識(shí)、商業(yè)環(huán)境、技術(shù)廠商、技術(shù)平臺(tái)上面有一定差距,在大數(shù)據(jù)應(yīng)用的國(guó)家戰(zhàn)略層面也較為落后。2014年,我國(guó)召開(kāi)了兩會(huì),會(huì)上提案中,不少人提出建議,將大數(shù)據(jù)業(yè)務(wù)作為國(guó)際級(jí)別的戰(zhàn)略來(lái)進(jìn)行推進(jìn)。一些知名企業(yè)的創(chuàng)始人紛紛響應(yīng),小米創(chuàng)始人雷軍對(duì)此大力支持,科大訊飛劉慶峰則創(chuàng)新性的提出了利用聲紋數(shù)據(jù)庫(kù)來(lái)進(jìn)行反恐。在國(guó)家對(duì)大數(shù)據(jù)行業(yè)產(chǎn)業(yè)的重視和推動(dòng)之下,如今,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)行業(yè)發(fā)展態(tài)勢(shì)勇猛,向前的勢(shì)頭熱烈,以大數(shù)據(jù)為核心的多種新興行業(yè)異軍突起,技術(shù)創(chuàng)新的步伐不斷前進(jìn),在各級(jí)政府和部門(mén)的支持和推動(dòng)之下,大數(shù)據(jù)相關(guān)行業(yè)的發(fā)展不僅極大促進(jìn)了我國(guó)的經(jīng)濟(jì)增長(zhǎng),還有力地帶動(dòng)了就業(yè),其支撐能力肉眼可見(jiàn)地逐漸增強(qiáng)。
參? 考? 文? 獻(xiàn)
[1] 蔡江輝,大數(shù)據(jù)分析與處理綜[J],太原科技大學(xué)學(xué)報(bào).2020.05.30
[2]維克多.邁爾-舍恩伯格,肯尼思.庫(kù)克耶.大數(shù)據(jù)時(shí)代[M],浙江人民出版社.2019.01.01
[3]威廉.M.門(mén)登霍爾,統(tǒng)計(jì)學(xué)[M],機(jī)械工業(yè)出版社,2018.06.08