大數(shù)據(jù)的未來
大數(shù)據(jù)應(yīng)用所帶來的價(jià)值已經(jīng)讓我們?yōu)橹d奮,不過,這并不是大數(shù)據(jù)應(yīng)用所爆發(fā)出來的最大能量。
事實(shí)上,目前我們所看到的大數(shù)據(jù)應(yīng)用,更多的是對(duì)歷史數(shù)據(jù)和一些消費(fèi)者行為數(shù)據(jù)進(jìn)行分析,這樣固然能夠幫助企業(yè)在管理、運(yùn)營以及營銷方面得到提升,但大數(shù)據(jù)應(yīng)用的更大價(jià)值,并沒有得到完全的體現(xiàn)。
“大數(shù)據(jù)應(yīng)用的最大價(jià)值有兩個(gè)方向,一是機(jī)器學(xué)習(xí);二是實(shí)時(shí)洞察?!蔽乃己]x技術(shù)有限公司CIO龔培元說。
在龔培元看來,通過機(jī)器學(xué)習(xí),利用大數(shù)據(jù)分析,可以幫助人類做更多的預(yù)測(cè)。事實(shí)上,在很多時(shí)候,機(jī)器學(xué)習(xí)和人工智能是緊密相連的。對(duì)于人工智能,多年來科學(xué)家一直在進(jìn)行這方面的研究,而如今,海量的數(shù)據(jù)和計(jì)算能力,有可能會(huì)驅(qū)使機(jī)器學(xué)習(xí)和人工智能得到突破。
在這方面,IBM沃森計(jì)算機(jī)是一個(gè)典型的例子。沃森之所以能夠在智力競賽中擊敗兩名人類選手,機(jī)器學(xué)習(xí)技術(shù)在其中起到了很大的作用。
對(duì)于沃森的學(xué)習(xí)能力,IBM專家介紹說,在沃森參賽之前,它會(huì)從歷史數(shù)據(jù)中進(jìn)行學(xué)習(xí)。比如,如果它回答錯(cuò)了一個(gè)往期節(jié)目上的問題,它會(huì)從中學(xué)習(xí)到一些信息。而在參賽之時(shí),它主要依賴以前學(xué)習(xí)的結(jié)果,但也進(jìn)行一些簡單的在線學(xué)習(xí)。例如,它可以從已經(jīng)被其它選手回答的同一類型問題中歸納出一些特點(diǎn),指導(dǎo)其回答這類問題。因此可以說,沃森具備了初步的自我學(xué)習(xí)和完善的能力。不過,IBM專家也表示,目前沃森的學(xué)習(xí)還是有指導(dǎo)的,完全的自學(xué)習(xí)能力還有待進(jìn)一步研究和開發(fā)。
即便如此,沃森所展示出的機(jī)器學(xué)習(xí)技術(shù),已經(jīng)令我們有了更大的想象空間:如果將其和傳統(tǒng)行業(yè)的海量數(shù)據(jù)相結(jié)合,會(huì)給企業(yè)的業(yè)務(wù)帶來怎樣的改變?
無獨(dú)有偶,最近幾年,微軟公司也一直致力于機(jī)器學(xué)習(xí)技術(shù)的研究,并在2014年9月,推出了機(jī)器學(xué)習(xí)服務(wù)平臺(tái)Azure ML。事實(shí)上,目前微軟公司已經(jīng)利用機(jī)器學(xué)習(xí)技術(shù),和大數(shù)據(jù)相結(jié)合,來解決一些實(shí)際問題。例如,如何更準(zhǔn)確地了解我們生活環(huán)境的空氣質(zhì)量。實(shí)際上,不同地點(diǎn)的空氣質(zhì)量差異很大,而且其成因也十分復(fù)雜—交通流量及土地使用情況等都會(huì)對(duì)其產(chǎn)生影響。目前人們只能借助監(jiān)測(cè)站才能準(zhǔn)確判斷某個(gè)地點(diǎn)的空氣質(zhì)量,然而監(jiān)測(cè)站卻并非隨處可見。為了應(yīng)對(duì)這一挑戰(zhàn),微軟根據(jù)現(xiàn)有監(jiān)測(cè)站所提供的空氣質(zhì)量數(shù)據(jù)以及城市里的其他多種數(shù)據(jù)來源,運(yùn)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),對(duì)大數(shù)據(jù)加以充分利用,并在監(jiān)測(cè)信息和對(duì)應(yīng)結(jié)果之間建立一個(gè)隱式映射,從而可以實(shí)時(shí)推斷出包含細(xì)顆粒物信息的城市空氣質(zhì)量數(shù)據(jù)。這樣,就能根據(jù)預(yù)測(cè)結(jié)果做出更明智且更有利于健康的決策,例如何時(shí)何地最適合戶外運(yùn)動(dòng),或者何時(shí)應(yīng)戴上口罩或關(guān)上窗戶等。
當(dāng)前的大數(shù)據(jù)分析模式分為“離線處理”和“實(shí)時(shí)處理”兩種類型。離線分析可以對(duì)業(yè)務(wù)數(shù)據(jù)和想要分析的數(shù)據(jù)樣本進(jìn)行恰當(dāng)?shù)姆蛛x,只針對(duì)分離后的數(shù)據(jù)樣本進(jìn)行建模分析,這種分析模式的優(yōu)勢(shì)在于,可以對(duì)數(shù)據(jù)做較復(fù)雜的業(yè)務(wù)處理,但顯然無法第一時(shí)間把握到市場(chǎng)的發(fā)展趨勢(shì)。實(shí)時(shí)分析則顧名思義,就是針對(duì)正在進(jìn)行的業(yè)務(wù)數(shù)據(jù)進(jìn)行即時(shí)的處理與分析,顯然,這種分析模式能夠最大限度地隨時(shí)了解業(yè)務(wù)狀況的變化趨勢(shì)。事實(shí)上,對(duì)于希望從大數(shù)據(jù)中發(fā)掘商業(yè)機(jī)會(huì)的企業(yè)來說,數(shù)據(jù)的價(jià)值有著明顯的時(shí)效性,針對(duì)業(yè)務(wù)數(shù)據(jù)的分析越及時(shí)越充分,分析結(jié)果就能夠更靈敏和更直接地反饋問題。這也是龔培元為什么認(rèn)為“實(shí)時(shí)洞察”是大數(shù)據(jù)未來發(fā)展方向的重要原因。
實(shí)際上,對(duì)于實(shí)時(shí)洞察,目前包括SAP、IBM等國際IT廠商都十分關(guān)注,并且推出了相關(guān)的平臺(tái)和技術(shù)。
IBM全球高級(jí)副總裁、軟件信息與分析部全球總經(jīng)理Bob Picciano最近還提出了“快數(shù)據(jù)”的概念?!拔覀儗?shí)時(shí)收集各處傳感器中正在移動(dòng)的數(shù)據(jù),它可能來自于醫(yī)療器械、飛機(jī)的引擎,或者是開采頁巖氣或石化產(chǎn)品的鉆頭。關(guān)鍵是我們能夠?qū)ζ溥M(jìn)行實(shí)時(shí)分析,獲取實(shí)時(shí)洞察,以此助力于實(shí)時(shí)決策?!鞌?shù)據(jù)’意味著我們需要進(jìn)行實(shí)時(shí)分析,及時(shí)了解正在發(fā)生的情況,通過相關(guān)性分析占據(jù)先機(jī)或是規(guī)避風(fēng)險(xiǎn)。”Bob Picciano說。