特約通訊員 周琪
近年來,互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)和物聯(lián)網(wǎng)的迅猛發(fā)展。無所不在的移動(dòng)設(shè)備、RFID、無線傳感器每時(shí)每刻都在產(chǎn)生數(shù)據(jù),數(shù)以億計(jì)用戶的互聯(lián)網(wǎng)服務(wù)每分每秒都在產(chǎn)生海量的交互。2011年5月,全球知名的麥肯錫全球研究院發(fā)布了一份題為《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》的報(bào)告。報(bào)告指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對(duì)于大數(shù)據(jù)的運(yùn)用預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。2012年3月29日,美國(guó)政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,表示將投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,增強(qiáng)從大數(shù)據(jù)中分析萃取信息的能力。
“大數(shù)據(jù)”是繼“物聯(lián)網(wǎng)”和“云計(jì)算”后IT業(yè)界最炙手可熱的新名詞。大家都在談?wù)摯髷?shù)據(jù),大家都想用好大數(shù)據(jù)。但你真的了解大數(shù)據(jù)嗎?當(dāng)前的行業(yè)狀況又是怎樣?
當(dāng)你開著車對(duì)著“語(yǔ)音助手”說:“我要在附近找一家最羅曼蒂克的餐廳?!敝?,短短一兩秒就能得到您滿意的答案時(shí)。其背后向您提供服務(wù)所涉及到的定位、資料檢索、存取、數(shù)據(jù)交換等一系列動(dòng)作是何等的復(fù)雜。而這一系列動(dòng)作正是由“大數(shù)據(jù)”所支撐。
大數(shù)據(jù)目前仍未有統(tǒng)一的定義,通常被認(rèn)為是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣化的非結(jié)構(gòu)化數(shù)據(jù)。
這里有幾個(gè)名詞需要解釋一下,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)可以在關(guān)系數(shù)據(jù)庫(kù)中找到,多年來一直主導(dǎo)著IT應(yīng)用;半結(jié)構(gòu)化數(shù)據(jù)包括電子郵件、文字處理文件以及大量發(fā)布在網(wǎng)絡(luò)上的新聞等,以內(nèi)容為基礎(chǔ),這也是谷歌和百度存在的理由;而非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中。伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新技術(shù)不斷產(chǎn)生,有報(bào)告稱,超過85%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)技術(shù)則可以理解為從各種各樣類型的海量數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。掌握大數(shù)據(jù)技術(shù),應(yīng)用大數(shù)據(jù)技術(shù)會(huì)帶來巨大的商業(yè)成功。這也就是Facebook、谷歌、蘋果、亞馬遜等巨頭正在成為大數(shù)據(jù)的擁有者和使用者的原因。
大數(shù)據(jù)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)容量大,現(xiàn)在數(shù)據(jù)單位已經(jīng)躍升至ZB級(jí)別;第二,數(shù)據(jù)種類多,主要來自業(yè)務(wù)系統(tǒng),例如社交網(wǎng)絡(luò)、電子商務(wù)和物聯(lián)網(wǎng)應(yīng)用等;第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅為一兩秒。第四,處理速度快,時(shí)效性要求高,從傳統(tǒng)的事務(wù)性數(shù)據(jù)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)數(shù)據(jù),這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
從下面一組數(shù)據(jù)可以說明大數(shù)據(jù)到底有多大?
◆每1秒鐘,會(huì)有60張Instagram照片被上傳
◆每1分鐘,會(huì)有60小時(shí)視頻被上傳到Y(jié)outube
◆每1天里,搜索引擎產(chǎn)生的日志數(shù)量是35T
◆每1天里,在Twitter上會(huì)產(chǎn)生1.9億條微博
◆每1天里,在Twitter上會(huì)產(chǎn)生3.4億的消息
◆每1天里,在Facebook有40億的信息擴(kuò)散
◆自人類有史以來我們所產(chǎn)生的信息量為5艾字節(jié)(50億GB)
◆過去3年產(chǎn)生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)還多
◆2010年,全球數(shù)據(jù)量已達(dá)1.2ZB,到 2020年將暴增 30倍達(dá)35ZB
◆2011年,中國(guó)互聯(lián)網(wǎng)行業(yè)持有數(shù)據(jù)總量達(dá)到1.9EB(1EB艾字節(jié)相當(dāng)于10億GB)
◆2011年,全球被創(chuàng)建和復(fù)制數(shù)據(jù)總量為1.8ZB(1.8萬億GB)
◆2015年,全球被創(chuàng)建和復(fù)制數(shù)據(jù)總量增長(zhǎng)到8.2EB以上;
◆2020年,全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB或以上。
“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事物型數(shù)據(jù)庫(kù)僅實(shí)現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計(jì)等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進(jìn)一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價(jià)值。如果能夠?qū)@些數(shù)據(jù)進(jìn)行分析,探尋其數(shù)據(jù)模式及特征,進(jìn)而發(fā)現(xiàn)某個(gè)客戶、群體或組織的興趣和行為規(guī)律,專業(yè)人員就可以預(yù)測(cè)到未來可能發(fā)生的變化趨勢(shì)。這樣的數(shù)據(jù)挖掘過程,將極大拓展企業(yè)核心競(jìng)爭(zhēng)力。例如,在網(wǎng)上購(gòu)物時(shí)遇到的提示“瀏覽了該商品的人還瀏覽了如下商品”,這就是在對(duì)大量的購(gòu)買者“行為軌跡”數(shù)據(jù)進(jìn)行記錄和挖掘分析的基礎(chǔ)上,捕捉總結(jié)購(gòu)買者共性習(xí)慣行為,并針對(duì)性地利用每一次購(gòu)買機(jī)會(huì)而推出的銷售策略。通過掌握大量企業(yè)本身和外部的數(shù)據(jù),來揭示企業(yè)未來的發(fā)展方向,預(yù)測(cè)統(tǒng)計(jì)數(shù)據(jù)和采集其他具有可行性的信息,以便幫助企業(yè)做出下一步行動(dòng)的決策。這就是大數(shù)據(jù)蘊(yùn)含的商業(yè)價(jià)值。
大數(shù)據(jù)興起的原因有以下三點(diǎn):一是計(jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。二是內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。三是把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡(jiǎn)單。
也有人懷疑大數(shù)據(jù)存在炒作成份,但不能忽視越來越多的企業(yè)因?yàn)閼?yīng)用大數(shù)據(jù)技術(shù)而獲得收益。
當(dāng)你仍然在把微博等社交平臺(tái)當(dāng)作抒情或者發(fā)議論的工具時(shí),華爾街的斂財(cái)高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財(cái)富”,先人一步用其預(yù)判市場(chǎng)走勢(shì),而且取得了不俗的收益。數(shù)據(jù)在他們手上變成一種全新的致富手段,它的價(jià)值堪比石油和黃金。
例如:
◆華爾街根據(jù)民眾情緒拋售股票;
◆對(duì)沖基金依據(jù)購(gòu)物網(wǎng)站的顧客評(píng)論,分析企業(yè)產(chǎn)品銷售狀況;
◆銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;
◆投資機(jī)構(gòu)搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;
◆美國(guó)疾病控制和預(yù)防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;
◆美國(guó)總統(tǒng)奧巴馬的競(jìng)選團(tuán)隊(duì)依據(jù)選民的微博,實(shí)時(shí)分析選民對(duì)總統(tǒng)競(jìng)選人的喜好。
2010年時(shí),大數(shù)據(jù)技術(shù)的一些主要用戶是大型Web企業(yè),例如Facebook和雅虎,它們需要分析點(diǎn)擊流數(shù)據(jù)。但是今天,大數(shù)據(jù)技術(shù)已經(jīng)超出了Web,要是有大量數(shù)據(jù)需要處理的企業(yè)都有可能用到它。例如銀行、公用事業(yè)機(jī)構(gòu)、情報(bào)部門等都在搭乘大數(shù)據(jù)這輛車。還有就是受社交媒體推動(dòng)而需要?jiǎng)?chuàng)建相應(yīng)Web服務(wù)的企業(yè)。它們對(duì)于大數(shù)據(jù)項(xiàng)目的貢獻(xiàn)非常重要。
而在其他垂直行業(yè)中,有些企業(yè)正在意識(shí)到,它們基于信息服務(wù)的價(jià)值定位要比它們先前想象的要大得多,所以大數(shù)據(jù)技術(shù)很快就吸引了這些企業(yè)的注意。再加上硬件和軟件成本的下降,這些企業(yè)發(fā)現(xiàn)它們已經(jīng)處在了一場(chǎng)企業(yè)大轉(zhuǎn)型機(jī)遇的完美風(fēng)暴中。
紐約的TRA公司是專門幫助電視廣告主們?cè)u(píng)測(cè)其所投放的電視廣告的效果的,它會(huì)把某個(gè)家庭通過電視與DVR(數(shù)字錄像機(jī))所接收到的廣告與其在零售商店的賬單相比對(duì)。該公司從有線電視公司的DVR以及一些日用品商店的會(huì)員卡計(jì)劃中搜集數(shù)據(jù),來進(jìn)行這種比對(duì)。TRA的大數(shù)據(jù)系統(tǒng)所處理的數(shù)據(jù)量代表著170萬個(gè)家庭以秒計(jì)的觀看習(xí)慣,如此龐大的任務(wù)量如果沒有大數(shù)據(jù)技術(shù)幾乎無法完成。該公司部署了Kognitia的WX2數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)允許它快速地裝載、描述和分析數(shù)據(jù),從DVR上收集細(xì)粒度的廣告觀看信息,繼而與銷售點(diǎn)的詳細(xì)數(shù)據(jù)進(jìn)行比對(duì),再生成定制報(bào)告。Kognitia有一個(gè)內(nèi)存運(yùn)行的解決方案,TRA公司現(xiàn)有整個(gè)數(shù)據(jù)庫(kù)的一半都可以放在內(nèi)存里。當(dāng)需要運(yùn)行一個(gè)查詢時(shí),響應(yīng)時(shí)間是秒級(jí)而非小時(shí)級(jí)或日級(jí)的。對(duì)TRA公司而言,大數(shù)據(jù)技術(shù)可能會(huì)給全美700億美元的電視廣告市場(chǎng)帶來革命性的變化。傳統(tǒng)的廣告評(píng)測(cè)方法頂多只能在全國(guó)2萬個(gè)樣本家庭中安裝特制的機(jī)頂盒來分析抽樣數(shù)據(jù)。而今天,大數(shù)據(jù)技術(shù)則可以分析來自250萬臺(tái)DVR和機(jī)頂盒的實(shí)際數(shù)據(jù)。
公用事業(yè)行業(yè)也在剛剛開始了解到大數(shù)據(jù)所帶來的應(yīng)用及其價(jià)值。美國(guó)中西部的一家電力公司利用Hadoop分析來自智能電表的數(shù)據(jù),這些智能電表可以自動(dòng)完成計(jì)費(fèi)功能,但是該公司還收集輸電線路上任意的電流波動(dòng)信息。如果收集到這些信息并且能夠描繪出電流變化圖,那么電力公司就可以在某個(gè)地方的變壓器可能出現(xiàn)故障之前找到它,或者當(dāng)發(fā)生停電事故時(shí),會(huì)引起電流的波動(dòng),公司就可以探測(cè)到波動(dòng)之處,在用戶打電話求助之前就采取行動(dòng)。
新創(chuàng)于2009年的BloomReach公司,擁有世界上第一個(gè)網(wǎng)頁(yè)關(guān)聯(lián)引擎,此項(xiàng)技術(shù)可利用海量數(shù)據(jù),機(jī)器學(xué)習(xí),和大規(guī)模系統(tǒng)科學(xué)去匹配相關(guān)產(chǎn)品和服務(wù)給合適的消費(fèi)者,為用戶獲得更大的訪問流量,帶來更多的盈利空間。
凡事有利必有弊,“大數(shù)據(jù)”本身也存在一些風(fēng)險(xiǎn)。統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家指出,大數(shù)據(jù)的集合和高密度的測(cè)量將令“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增長(zhǎng)。斯坦福大學(xué)的統(tǒng)計(jì)學(xué)教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數(shù)據(jù)“干草垛”中找到一根有意義的“針”,那么所將面臨的問題就是“那么多的稻草看起來就像是針一樣”。
數(shù)據(jù)聚合和大數(shù)據(jù)分析,是保證企業(yè)的營(yíng)銷情報(bào)的寶庫(kù),潛在的商業(yè)活動(dòng)和機(jī)會(huì)。但大數(shù)據(jù)的使用者應(yīng)該更多地關(guān)注所涉及的國(guó)家和地區(qū)在這信息安全領(lǐng)域的法律規(guī)定。企業(yè)還應(yīng)該實(shí)現(xiàn)數(shù)據(jù)隱私最佳實(shí)踐和設(shè)計(jì)分析程序,建立相關(guān)透明度和問責(zé)制,對(duì)數(shù)據(jù)的利用應(yīng)該保持靈活和理想的預(yù)期變化的調(diào)節(jié),而不是陷入困境時(shí),才臨時(shí)尋求解決方案。
話雖這么說,在初期,我們還沒有看到大量的外部需求,強(qiáng)制要求企業(yè)確保信息的完整性。然而,隨著企業(yè)規(guī)模擴(kuò)大,業(yè)務(wù)處理的信息仍然會(huì)增加,需要業(yè)務(wù)決策密切聯(lián)系原始數(shù)據(jù)的大數(shù)據(jù)分析,信息的質(zhì)量變得越來越重要。如果同樣復(fù)雜的分析可以應(yīng)用到相關(guān)的安全數(shù)據(jù),大數(shù)據(jù)甚至可能被用于提高信息安全。