毫無疑問,數(shù)據分析將在大數(shù)據時代變得至關重要,這是實現(xiàn)大數(shù)據商業(yè)價值的關鍵所在。只有能透過大數(shù)據分析,預先把控行業(yè)發(fā)展脈搏的玩家才能掌握市場和競爭的主動權。
信息時代,數(shù)據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業(yè)的應用。各行各業(yè)的公司都在收集并利用大量的數(shù)據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創(chuàng)造新的產品。大數(shù)據無處不在
“大數(shù)據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據正在改變我們的生活以及理解世界的方法,成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā)……”互聯(lián)網專家維克托·邁爾一舍恩伯格在《大數(shù)據時代》一書中這樣描述大數(shù)據。在這個時代大數(shù)據無處不在。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數(shù)字宇宙(DigitalUniverse)研究估計,到2020年世界上的數(shù)據存儲總額將達到35 ZB(zettabytes)(lzettabyte等于一萬億GB字節(jié))。
信息爆炸讓數(shù)據像空氣那樣無處不在。和朋友一起吃飯,對新上桌的美味進行拍照,上傳到自己SNS賬號與更多的人分享。這個過程在產生大數(shù)據;在淘寶上購物,選擇中意的物品,填寫送貨地址,點擊確定,進入付款頁面,選擇付款銀行付款,這個過程也在產生大數(shù)據。工廠機器的GPS數(shù)據、維修記錄等也是大數(shù)據,產品銷售記錄、客戶行為習慣資料等也是大數(shù)據;礦山、氣象等資料也是大數(shù)據;平安城市計劃中的物聯(lián)網更是大數(shù)據。
大數(shù)據來自無所不在的IT設施,人人成為了數(shù)據制造者:短信、微博、照片、錄像、可穿戴設備產生的信息都是數(shù)據;數(shù)據來自無數(shù)自動化傳感器、自動記錄設施,生產監(jiān)測、環(huán)境監(jiān)測、交通監(jiān)測、安防監(jiān)測等等;來自自動流程記錄:刷卡機、收款機、ETC、互聯(lián)網點擊、電話撥號等設施以及各種辦事流程登記等。大量自動或人工產生的數(shù)據通過互聯(lián)網聚集到特定地點,如電信運營商、互聯(lián)網運營商、政府、銀行、商場、企業(yè)、交通樞紐等機構,形成了大數(shù)據之海??傊阈呕虿恍?,大數(shù)據就在我們身邊。
數(shù)據分析才是關鍵所在
擁有大數(shù)據并不是我們的目的,我們的目的是從這些數(shù)據中了解真實信息,使數(shù)據能夠真正在管理、決策、監(jiān)測、評價,以及人們的生活中產生價值。大數(shù)據分析上可影響國家政治,沒有大數(shù)據分析奧巴馬就不會贏得美國總統(tǒng)大選;下可改變我們的日常生活,就連追女孩子都可以使用大數(shù)據分析的方法來制定策略。
“面對海量數(shù)據,誰能更好地處理、分析數(shù)據,誰就能真正搶得大數(shù)據時代的先機?!边@幾乎是業(yè)界所有人的共識。對海量數(shù)據的分析已經成為了企業(yè)、政府非常重要且迫切的需求。在數(shù)據分析方面的能力將決定企業(yè)市場份額的得失、政府決策能力的高低。大數(shù)據分析讓IT有機會增加價值,增進業(yè)務部門間的關系,增加收入和提高利潤。
大數(shù)據分析對醫(yī)療行業(yè)的發(fā)展非常重要。醫(yī)療行業(yè)早就遇到了海量數(shù)據和非結構化數(shù)據的挑戰(zhàn),大數(shù)據分析技術的發(fā)展讓這些數(shù)據的價值得以充分發(fā)揮,其中,基因組學是大數(shù)據在醫(yī)療行業(yè)的經典應用。以云計算為基礎的大數(shù)據分析技術不僅加速了基因序列分析的速度,也讓其成本不斷減低。
經濟的快速發(fā)展促使城市機動車輛大幅度增加,傳統(tǒng)的交通系統(tǒng)已難以滿足當前復雜的交通需求,交通堵塞成為城市的通病。隨著交通信息化與交通規(guī)劃的融合程度越來越高,大數(shù)據發(fā)揮的功能和信息獲取渠道都將更加廣泛。中國城市交通研究中心吳洪洋博士表示,公交刷卡數(shù)據挖掘、出租車軌跡挖掘、手機數(shù)據挖掘、社會化網絡數(shù)據挖掘將成為未來大數(shù)據應用的主要方向。
大數(shù)據分析技術加速制造業(yè)從傳統(tǒng)的以生產為核心向客戶需求為核心轉型。在大數(shù)據分析技術的驅動下,一些制造業(yè)的企業(yè)開始轉向與訂單用戶或者最終消費客戶群進行直接的互動。通過更透明、更可用的數(shù)據,企業(yè)可以釋放更多蘊含在數(shù)據中的價值。實時、有效的數(shù)據可以更好的幫助企業(yè)提高產品品質、降低生產成本。企業(yè)領導者也可根據真實可靠的數(shù)據制訂正確戰(zhàn)略經營決策,實現(xiàn)企業(yè)效益最大化。
破解密碼——Hadoop
數(shù)據的非結構化已經成為企業(yè)的重大挑戰(zhàn)。由于這些數(shù)據的結構問題及大數(shù)據類型的復雜關聯(lián),導致無法應用現(xiàn)有的傳統(tǒng)技巧進行大數(shù)據分析。這為企業(yè)帶來了新的任務,需要開發(fā)一套全新方法,不僅能夠處理傳統(tǒng)數(shù)據,而且可以便捷地分析和應用這些新興數(shù)據。Hadoop恰恰可以滿足大數(shù)據分析這種需求。
Hadoop已成為公認的新一代大數(shù)據處理平臺。Hadoop是一個能夠對大量數(shù)據進行分布式處理的軟件框架。它以谷歌發(fā)布的MapReduce及谷歌文件系統(tǒng)技術研究論文為基礎。Hadoop充當著眾多“大數(shù)據”分析工具的底層技術,旨在對由web訪問、服務器日志及其它各類數(shù)據流所產生的海量數(shù)據進行篩選,在分布式環(huán)境下提供海量數(shù)據的處理能力。
Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。它以計算元素和存儲會失敗為前提,維護多個工作數(shù)據副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop以并行的方式工作,通過并行處理加快處理速度,能夠處理PB級數(shù)據。此外,Hadoop依賴于社區(qū)服務器,所以它又具有低成本的優(yōu)點。
目前,幾乎所有的主流廠商都提供了基于Hadoop的大數(shù)據分析工具。如IBM、EMc、英特爾、甲骨文等都紛紛投入到Hadoop懷抱。
IBM很早就開始在實驗室嘗試使用Hadoop,但是,直到2012年才推出了首款大數(shù)據分析產品:IBM InFoSphereBigInsights。該產品既可以分析數(shù)據庫中的傳統(tǒng)結構化數(shù)據,也可以分析例如文本、視頻、音頻、圖像、社交媒體、點擊流、日志文件、天氣數(shù)據等非結構化數(shù)據,幫助決策者根據數(shù)據迅速采取行動。
EMC基于Hadodp的發(fā)行版PivotalHDs可以讓數(shù)據團隊和分析團隊在該平臺上無縫共享信息、協(xié)作分析。其最大的優(yōu)勢是能夠與Greenplum數(shù)據庫進行整合,而不僅僅是在Hadoop中運行SQL這么簡單。
英特爾推出的Hadoop發(fā)行版不但改寫了Hadoop框架的核心功能,強化對處理器指令集的支持來提高效能,可直接支持Xeon進階運算加密指令集AES-NI.并在數(shù)據儲存到HBase的過程。用芯片原生的加密功能保護,這是英特爾進軍大數(shù)據的殺手锏軟件。
作為老牌數(shù)據庫廠商,甲骨文在大數(shù)據領域更是不甘人后,推出了Oracle大數(shù)據平臺解決方案,該方案為Exadata+大數(shù)據機+Exalytics的組合,利用這“三駕馬車”分別應對數(shù)據捕獲、組織、分析和決策。利用大數(shù)據機來捕獲所有可用數(shù)據,通過Hadoop來將不同類型的數(shù)據組織為易分析的數(shù)據;然后再利用Exadata進行分析,其中Exalytics將起到加速BI分析過程的作用。
讓業(yè)務乘著大數(shù)據技術的東風提升企業(yè)價值,這幾乎是所有企業(yè)用戶的心聲。數(shù)據的海量增加,尤其是非結構化數(shù)據的無序增加,給諸多企業(yè)的數(shù)據信息處理帶來了極大的挑戰(zhàn),諸多公司IT主管都面臨著大數(shù)據處理分析這一挑戰(zhàn),一旦大數(shù)據難以分析這個問題得以解決,數(shù)據將給公司帶來無限的價值,并將指引公司走向更輝煌的成功。