何 輝
(福州大學空間中心,福建 福州 350000)
大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn)與機遇隨著網(wǎng)絡信息化時代的日益普遍,移動互聯(lián)、社交網(wǎng)絡、電子商務大大拓展了互聯(lián)網(wǎng)的疆界和應用領域。大數(shù)據(jù)(Big Data)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結構不適合原本的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值,我們必須選擇另一種方式來處理它。對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分析使用和二次開發(fā)。對大數(shù)據(jù)進行分析能揭示隱藏其中的信息。例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數(shù)據(jù)的二次開發(fā)則是那些成功的網(wǎng)絡公司的長項。當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性:
(1)數(shù)據(jù)規(guī)模大(Volume)。企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如,IDC最近的報告預測稱,到2020年,全球數(shù)據(jù)量將擴大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。
(2)數(shù)據(jù)種類多(Variety)。一個普遍觀點認為,人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正確。然而,數(shù)據(jù)多樣性的增加主要是由于新型多結構數(shù)據(jù),以及包括網(wǎng)絡日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)絡等數(shù)據(jù)類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數(shù)據(jù)的多樣性。
(3)處理速度快(Velocity)。高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務器,創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據(jù)IMS Research關于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預測,到2020年全球?qū)碛?20億部互聯(lián)網(wǎng)連接設備。
(4)數(shù)據(jù)價值密度低(Value)。大數(shù)據(jù)具有多層結構,這意味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性,造成很難甚至無法使用傳統(tǒng)的應用軟件進行分析。傳統(tǒng)業(yè)務數(shù)據(jù)隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。
目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復雜數(shù)據(jù)中挖掘價值大數(shù)據(jù)的關鍵技術。眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。那么越來越多的應用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基于如此的認識,大數(shù)據(jù)分析的方法理論有3個方面。
(1)可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
(2)數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個算法得花上好幾年才能得出結論,那大數(shù)據(jù)的價值也就無從說起了。
(3)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學術研究還是在商業(yè)應用領域,都能夠保證分析結果的真實和有價值。
雖然大數(shù)據(jù)目前在國內(nèi)還處于初級階段,但是商業(yè)價值已經(jīng)顯現(xiàn)出來。未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標準化數(shù)據(jù)的價值最大化。因此,大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、交叉復用后獲取最大的數(shù)據(jù)價值。未來大數(shù)據(jù)將會如基礎設施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。大數(shù)據(jù)與學術、大數(shù)據(jù)與人類的活動,大數(shù)據(jù)的安全隱私、關鍵應用、系統(tǒng)處理和整個產(chǎn)業(yè)的影響。大數(shù)據(jù)整體態(tài)勢上,數(shù)據(jù)的規(guī)模將變得更大,數(shù)據(jù)資源化、數(shù)據(jù)的價值凸顯、數(shù)據(jù)私有化出現(xiàn)和聯(lián)盟共享。?大數(shù)據(jù)的發(fā)展會催生許多新興新職業(yè),會產(chǎn)生數(shù)據(jù)分析師、數(shù)據(jù)科學家、數(shù)據(jù)工程師,有非常豐富的數(shù)據(jù)經(jīng)驗的人才會成為稀缺人才。隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)共享聯(lián)盟將逐漸壯大成為產(chǎn)業(yè)的核心一環(huán)。一個好的企業(yè)應該未雨綢繆,應該現(xiàn)在開始從五個方面著手,為企業(yè)的后期數(shù)據(jù)收集和分析做好準備。
(1)以企業(yè)的數(shù)據(jù)為目標。幾乎每個組織都可能有源源不斷的數(shù)據(jù)需要收集,無論是社交網(wǎng)絡還是車間傳感器設備,而且每個組織都有大量的數(shù)據(jù)需要處理,IT人員需要了解自己企業(yè)運營過程中都產(chǎn)生了什么數(shù)據(jù),以自己的數(shù)據(jù)為基準,確定數(shù)據(jù)的范圍。
(2)以業(yè)務需求為準則。雖然每個企業(yè)都會產(chǎn)生大量數(shù)據(jù),而且互不相同、多種多樣的,這就需要企業(yè)IT人員在現(xiàn)在開始收集確認什么數(shù)據(jù)是企業(yè)業(yè)務需要的,找到最能反映企業(yè)業(yè)務情況的數(shù)據(jù)。
(3)重新評估企業(yè)基礎設施。大數(shù)據(jù)需要在服務器和存儲設施中進行收集,并且大多數(shù)的企業(yè)信息管理體系結構將會發(fā)生重要大變化,IT經(jīng)理則需要準備擴大他們的系統(tǒng),以解決數(shù)據(jù)的不斷擴大,IT經(jīng)理要了解公司現(xiàn)有IT設施的情況,以組建處理大數(shù)據(jù)的設施為導向,避免一些不必要的設備的購買。
(4)重視大數(shù)據(jù)技術。大數(shù)據(jù)是最近幾年才興起的詞語,而并不是所有的IT人員對大數(shù)據(jù)都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技術都是近年剛興起的技術,企業(yè)IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數(shù)據(jù)的時候做出正確的決定。
(5)培訓企業(yè)的員工。大多數(shù)企業(yè)最缺乏的是人才,而當大數(shù)據(jù)到臨的時候,企業(yè)將會缺少這方面的采集收集分析方面的人才,對于一些公司,特別是那種人比較少的公司,工作人員面臨大數(shù)據(jù)將是一種挑戰(zhàn),企業(yè)要在平時的時候多對員工進行這方面的培訓,以確保在大數(shù)據(jù)到來時,員工也能適應相關的工作。