呂躍超
摘要:認(rèn)識當(dāng)今的大數(shù)據(jù)環(huán)境、新型分析方法的基本原理和商機(jī)、所需的角色,以及垂直行業(yè)中具有代表性的大數(shù)據(jù)分析示例。明確大數(shù)據(jù),高級分析的四大業(yè)務(wù)驅(qū)動因素,區(qū)分用于業(yè)務(wù)智能與用于數(shù)據(jù)科學(xué)的方法,描述數(shù)據(jù)科學(xué)家在新型大數(shù)據(jù)生態(tài)系統(tǒng)內(nèi)的角色。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu);數(shù)據(jù)存儲庫
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)18-0001-02
人類已經(jīng)進(jìn)入了信息時代,大數(shù)據(jù)將要融入人們的生活,那么什么是大數(shù)據(jù)?數(shù)據(jù)何以成為“大”數(shù)據(jù)?“大數(shù)據(jù)”是指數(shù)據(jù)的規(guī)模、分布、多樣性或時效性要求必須使用新型技術(shù)體系結(jié)構(gòu)和分析,以發(fā)掘新的業(yè)務(wù)價值源。
1 大數(shù)據(jù)的特征
大數(shù)據(jù)具有多項特征,其中3項較為突出,可作為界定特征:
1)巨大的數(shù)據(jù)量。
2)數(shù)據(jù)類型和結(jié)構(gòu)的復(fù)雜性,非結(jié)構(gòu)化數(shù)據(jù)量與日俱增(現(xiàn)存數(shù)據(jù)中的 80%-90% 為非結(jié)構(gòu)化數(shù)據(jù))。
3)生成新數(shù)據(jù)的速度快。
此外,由于這類數(shù)據(jù)規(guī)模過大或結(jié)構(gòu)層次過于復(fù)雜,因此僅采用傳統(tǒng)的數(shù)據(jù)庫或方法無法高效地對其進(jìn)行分析。
新興的大數(shù)據(jù)商機(jī)和解決方案數(shù)不勝數(shù)。這里列舉其中幾個:Netflix 為您的下一次影碟租賃提供建議,通過動態(tài)監(jiān)視橋體內(nèi)嵌的傳感器來檢測實時應(yīng)力和長期腐蝕,零售商通過分析數(shù)字視頻流來優(yōu)化產(chǎn)品布局和顯示布局及各個商店的促銷空間,以上是大數(shù)據(jù)如何滲透到我們當(dāng)今生活的一些真實示例。
這些種類的大數(shù)據(jù)問題需要采用新的工具或技術(shù)來進(jìn)行存儲、管理以及實現(xiàn)業(yè)務(wù)優(yōu)化。此類數(shù)據(jù)所需的新體系結(jié)構(gòu)由新工具、流程和規(guī)程提供支持,從而幫助組織創(chuàng)建、操作和管理這些極為龐大的數(shù)據(jù)集以及用于承載這些數(shù)據(jù)集的存儲環(huán)境。
2 大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)
大數(shù)據(jù)表現(xiàn)為多種形式。從高度結(jié)構(gòu)化的金融數(shù)據(jù)到文本文件,再到多媒體文件和遺傳作圖,大數(shù)據(jù)幾乎無所不包。巨大的數(shù)據(jù)量是大數(shù)據(jù)一貫的特征。鑒于數(shù)據(jù)本身的復(fù)雜性,由此得出的必然結(jié)果是,首選的大數(shù)據(jù)處理方法是在并行計算環(huán)境中使用大規(guī)模并行處理(MPP),從而實現(xiàn)同時進(jìn)行并行接收以及數(shù)據(jù)加載和分析。大多數(shù)大數(shù)據(jù)在本質(zhì)上是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此要求采用不同的方法和工具進(jìn)行處理和分析。
讓我們來詳細(xì)了解一下最顯著的特征大數(shù)據(jù)的結(jié)構(gòu),如圖1所示。
圖1顯示了不同類型的數(shù)據(jù)結(jié)構(gòu),未來 80%-90% 的數(shù)據(jù)增長將來自非結(jié)構(gòu)化數(shù)據(jù)類型(半結(jié)構(gòu)化、準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化)。
盡管圖1中顯示了四種不同的單獨(dú)數(shù)據(jù)類型,但事實上,它們有時可能會混雜在一起。例如,您可能有一個用于存儲某軟件支持呼叫中心的呼叫日志的典型 RDBMS。這種情況下,您可能具有日期/時間戳、機(jī)器類型、問題類型、操作系統(tǒng)等典型的結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)可能由支持服務(wù)臺人員通過下拉菜單 GUI 完成輸入。
此外,您還可能具有非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),例如取自問題的電子郵件票據(jù)或技術(shù)問題和解決方案的實際電話呼叫描述的自由格式呼叫日志數(shù)據(jù)。最重要的信息往往隱藏在這些數(shù)據(jù)中。另一種可能性是可能與結(jié)構(gòu)化數(shù)據(jù)相關(guān)聯(lián)的實際呼叫的語音記錄或音頻文稿。直到最近,大多數(shù)分析師還無法對此呼叫日志歷史記錄 RDBMS 中最常見和高度結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,因為文本信息的挖掘需要耗費(fèi)大量勞力,而且難以實現(xiàn)自動運(yùn)行。
3 大數(shù)據(jù)四種主要的數(shù)據(jù)結(jié)構(gòu)類型
人們最熟悉的往往是分析結(jié)構(gòu)化數(shù)據(jù),而半結(jié)構(gòu)化數(shù)據(jù)(在此處顯示為 XML)、準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)(顯示為點擊流字符串)和非結(jié)構(gòu)化數(shù)據(jù)則帶來不同的挑戰(zhàn),并且需要使用不同的方法進(jìn)行分析。
對每種數(shù)據(jù)類型,回答下列問題:
1)對這些數(shù)據(jù)執(zhí)行哪些類型的分析?
2)誰將分析此類數(shù)據(jù)?
3)它們分別適合什么類型的數(shù)據(jù)存儲庫,或者,存儲這類數(shù)據(jù)以及對其執(zhí)行編錄可能有哪些要求?
4)誰將使用這些數(shù)據(jù)?
5)誰將管理并擁有這些數(shù)據(jù)?
4 分析師眼中的數(shù)據(jù)存儲庫
人們對電子表格往往愛恨交加。隨著電子表格的引入,業(yè)務(wù)用戶能夠?qū)Σ捎眯泻土薪Y(jié)構(gòu)的數(shù)據(jù)創(chuàng)建簡單的邏輯,并針對業(yè)務(wù)問題創(chuàng)建自己的分析。用戶無須進(jìn)行大量數(shù)據(jù)庫管理員方面的培訓(xùn)即可創(chuàng)建電子表格,這意味著業(yè)務(wù)用戶不必依賴 IT 團(tuán)隊即可快速建立電子表格。電子表格的兩項主要好處是:它們可輕松進(jìn)行共享,并且終端用戶對涉及的邏輯擁有控制權(quán)。但是,電子表格的激增導(dǎo)致組織不得不面臨“多個事實版本”的困境,也就是說,無法確定您所擁有的電子表格是否是包含了最新數(shù)據(jù)和邏輯的正確版本。而且,一旦用戶丟失了筆記本電腦或電子表格出現(xiàn)損壞,這些數(shù)據(jù)及其邏輯就煙消云散了。許多組織至今仍在面臨這一挑戰(zhàn)(Excel 依然遍布在全球成百上千萬臺 PC 上),這也增加了集中管理數(shù)據(jù)的必要性。
隨著數(shù)據(jù)需求的不斷增長,Oracle、Teradata 和 Microsoft(通過 SQL Server)等公司提供了可擴(kuò)展性更強(qiáng)的數(shù)據(jù)倉庫解決方案。這些技術(shù)實現(xiàn)了數(shù)據(jù)的集中管理,從而提供了安全性、故障切換,以及依靠單一存儲庫即可讓用戶獲得用于財務(wù)報告或其他關(guān)鍵型任務(wù)的“官方”數(shù)據(jù)源等好處。這一結(jié)構(gòu)還能支持創(chuàng)建 OLAP 多維數(shù)據(jù)集和業(yè)務(wù)智能分析工具,從而為用戶提供快速訪問此 RDBMS 內(nèi)的多維數(shù)據(jù),以及查找答案以簡化報告需求的能力。一些供應(yīng)商還打包了更先進(jìn)的邏輯以及執(zhí)行更深入的分析方法(例如回歸和神經(jīng)網(wǎng)絡(luò)等)的功能。
企業(yè)數(shù)據(jù)倉庫(EDW)對于報告任務(wù)和業(yè)務(wù)智能(BI)任務(wù)而言至關(guān)重要,盡管從分析師的角度而言,它們往往會限制數(shù)據(jù)分析師在執(zhí)行穩(wěn)健分析或數(shù)據(jù)探究時的靈活性。在此模型中,數(shù)據(jù)由 IT 團(tuán)隊和數(shù)據(jù)庫管理員管理和控制,分析師必須依賴 IT 部門提供訪問權(quán)并進(jìn)行數(shù)據(jù)架構(gòu)的更改。這種更嚴(yán)格的控制和監(jiān)督也意味著分析師獲取數(shù)據(jù)(通常必須從多個源獲取數(shù)據(jù))的周期時間更長。另一項影響是,EDW 規(guī)則會限制分析師構(gòu)建數(shù)據(jù)集,這將導(dǎo)致組織內(nèi)出現(xiàn)影子系統(tǒng),這些影子系統(tǒng)包含用于構(gòu)建分析數(shù)據(jù)集的關(guān)鍵數(shù)據(jù),并由超級用戶在本地進(jìn)行管理。
分析沙盒可使用數(shù)據(jù)庫內(nèi)處理實現(xiàn)高性能計算。此方法將與組織內(nèi)的多個數(shù)據(jù)源建立關(guān)系,并可為分析師節(jié)省以單獨(dú)方式創(chuàng)建這些數(shù)據(jù)饋送的時間。用于深入分析的數(shù)據(jù)庫內(nèi)處理可縮短開發(fā)和執(zhí)行新分析模型所需的周轉(zhuǎn)時間,同時降低(盡管無法完全消除)與在本地“影子”文件系統(tǒng)中存儲的數(shù)據(jù)相關(guān)的成本。此外,與 EDW 中典型的結(jié)構(gòu)化數(shù)據(jù)不同,分析沙盒可容納更多數(shù)據(jù)種類,例如,網(wǎng)絡(luò)大規(guī)模(Webscale)數(shù)據(jù)、原始數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
參考文獻(xiàn):
[1] EMC. 網(wǎng)絡(luò)存儲培訓(xùn)課件PPT[R]. 美國:EMC公司, 2012.