楊學(xué)山
大數(shù)據(jù)在中國(guó)經(jīng)歷了五年的發(fā)展。這五年來(lái),我一直在關(guān)注著大數(shù)據(jù)、觀測(cè)著大數(shù)據(jù)、研究著大數(shù)據(jù),我認(rèn)為有三個(gè)問題值得我們研究、思考和解決。
這三個(gè)問題總結(jié)為六個(gè)字—“價(jià)值”、“工具”、“理論”。
先講價(jià)值。針對(duì)這一點(diǎn),我們大體上可以從三方面分析:
第一方面,我們擁有一些稱之為“大數(shù)據(jù)”的數(shù)據(jù),那么,如何將其中的價(jià)值充分地挖掘出來(lái)?
第二方面,我們要解決一個(gè)與數(shù)據(jù)相關(guān)或信息相關(guān)的問題,需要將能夠解決這一問題所需要的數(shù)據(jù)或信息的價(jià)值挖掘出來(lái);
第三方面,我們需要有一些工具和服務(wù),利用工具和服務(wù)挖掘?qū)崿F(xiàn)數(shù)據(jù)的價(jià)值。
關(guān)于數(shù)據(jù)的兩個(gè)價(jià)值觀:現(xiàn)在很多大數(shù)據(jù)企業(yè)以及學(xué)會(huì)和科研單位,都把眼光放在實(shí)現(xiàn)數(shù)據(jù)間的結(jié)合,最充分地挖掘數(shù)據(jù)結(jié)合中的價(jià)值。這也是我們研究的主要方向。我們回過(guò)頭來(lái)想一想,當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行價(jià)值挖掘時(shí),這個(gè)價(jià)值都是針對(duì)特定的經(jīng)濟(jì)、社會(huì)、生活或是相關(guān)領(lǐng)域問題的解決。
之所以要挖掘、分析出有價(jià)值的數(shù)據(jù),是因?yàn)檫@些數(shù)據(jù)對(duì)于問題的解決有價(jià)值。所以說(shuō)數(shù)據(jù)的價(jià)值就是問題本身。
大家都知道手機(jī)上的地圖,我們通過(guò)使用地圖相關(guān)的各種應(yīng)用和數(shù)據(jù)來(lái)解決出行問題。但出行問題是不是有一個(gè)地圖就夠了,是不是有一個(gè)相關(guān)的數(shù)據(jù)結(jié)合就夠了?要圍繞出行問題,圍繞結(jié)合去發(fā)揮作用,這是一個(gè)問題的兩面。
如今,無(wú)論是經(jīng)濟(jì)新常態(tài)的“三個(gè)轉(zhuǎn)變”,還是社會(huì)服務(wù)、公共服務(wù)的社會(huì)管理,以及老百姓生活要解決的問題,都需要足夠的數(shù)據(jù)作支撐。從這個(gè)角度看,我們今天為解決這個(gè)問題是不是有了足夠的數(shù)據(jù)或信息,是不是能夠和解決問題的相應(yīng)系統(tǒng),很好地、及時(shí)地對(duì)接。
大數(shù)據(jù)的第一個(gè)價(jià)值鏈,應(yīng)該是圍繞著“解決問題”—交通問題的解決、信用問題的解決、宏觀問題態(tài)勢(shì)分析的解決,即數(shù)據(jù)圍繞問題形成數(shù)據(jù)價(jià)值鏈。
過(guò)去,在第一個(gè)價(jià)值鏈,我們?cè)诤芏嚓P(guān)注點(diǎn)上取得了大量的成績(jī),但我們對(duì)第二個(gè)價(jià)值鏈的關(guān)注、分析還不夠。
未來(lái),大數(shù)據(jù)在經(jīng)濟(jì)社會(huì)發(fā)展中的作用將愈加明顯。但兩個(gè)價(jià)值鏈采取的分析文件和方法不一樣,所以我希望我們能把握住大數(shù)據(jù)三個(gè)方向的價(jià)值。
在已經(jīng)取得進(jìn)展的基礎(chǔ)之上,我們還要考慮另外一個(gè)問題,這個(gè)問題對(duì)于利用大數(shù)據(jù)促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展,對(duì)于我們利用大數(shù)據(jù)來(lái)解決今天社會(huì)面臨的問題更加重要。
這個(gè)問題就是工具,工具十分重要,可以說(shuō),大數(shù)據(jù)產(chǎn)品的價(jià)值是工具。
現(xiàn)在成千上萬(wàn)的工具被使用,大數(shù)據(jù)發(fā)展究竟需要哪些工具,這些工具是不是把問題解決了?
我的答案很清楚:我們的大數(shù)據(jù)需要工具,但現(xiàn)有的成千上萬(wàn)的工具,離真正能解決大數(shù)據(jù)問題的工具還有非常大的差距。為什么這樣說(shuō)?
30年以前,數(shù)字型數(shù)據(jù)庫(kù)正值發(fā)展期。今天,數(shù)字型數(shù)據(jù)庫(kù)管理系統(tǒng)工具已十分完善,基于該系統(tǒng)的應(yīng)用也已十分完美。那么,我們今天的工具,是不是能達(dá)到數(shù)字型數(shù)據(jù)庫(kù)管理系統(tǒng)工具的水平?
大家的回答是“相差甚遠(yuǎn)”。差在什么地方?在數(shù)字型數(shù)據(jù)庫(kù)中,每一個(gè)數(shù)據(jù)單元,每一個(gè)值都是在控制體系之下,在這個(gè)之上可以形成不同算法和函數(shù),可以在此基礎(chǔ)之上構(gòu)建應(yīng)用系統(tǒng)。
要達(dá)到這樣的程度,核心的問題是非結(jié)構(gòu)數(shù)據(jù)的結(jié)構(gòu)化的顆粒度和它融解的完美性和應(yīng)用。即使在數(shù)字型數(shù)據(jù)庫(kù)中,我們也要對(duì)數(shù)據(jù)進(jìn)行質(zhì)量管理,按照我們確定的數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)到該到的地方。今天,這樣的工具不能說(shuō)沒有,但是還沒有形成體系,所以第一類工具就是解決我們對(duì)大數(shù)據(jù)的組織和管理。
第二類工具,要真正充分利用大數(shù)據(jù),核心的問題是結(jié)構(gòu)數(shù)據(jù)的結(jié)構(gòu)化。關(guān)于結(jié)構(gòu)化,我們通常有兩條路徑:一條路徑是根據(jù)數(shù)據(jù)本身內(nèi)涵的結(jié)合意義來(lái)做,第二條路徑是根據(jù)應(yīng)用來(lái)做。不管是按照語(yǔ)意來(lái)做,還是意義來(lái)做,我們都要確定單元和標(biāo)識(shí),讓數(shù)據(jù)按照定義的單元和標(biāo)識(shí)進(jìn)行結(jié)構(gòu)化。對(duì)此,我們需要一系列模型、算法和函數(shù),以構(gòu)造一個(gè)好的工具序列。
第三類工具,我們要與解決問題的系統(tǒng)連接起來(lái)。而我們和解決問題的系統(tǒng)之間,有一座很好的橋,這個(gè)橋就是工具。
第四類工具,從理論角度看,到今天為止,我們做的最好的、用的最好的還是數(shù)字型的數(shù)據(jù)庫(kù)。
當(dāng)我們需要數(shù)字型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)庫(kù)支持時(shí),當(dāng)我們將數(shù)字型的系統(tǒng)和其他數(shù)據(jù)庫(kù)連接起來(lái),為同一個(gè)問題的決策或服務(wù)時(shí),這個(gè)工具適不適用。
從產(chǎn)業(yè)生態(tài)鏈的角度看,要為使用者提供工具,要為解決問題的客戶系統(tǒng)提供服務(wù),我們需要更加商業(yè)化的管理。在工具這個(gè)問題上,需要回到問題的本源,也需要系統(tǒng)地思考:我們到底需要什么樣的工具?這些工具如何形成?這些工具如何改造和使用?而不是把目光盯在已經(jīng)有的工具上。
這就隱含著另一個(gè)問題:已有的工具所形成的思維方法、演進(jìn)路徑,與解決大數(shù)據(jù)問題需要的工具的路徑不對(duì)時(shí),怎么辦?所以我們需要又回歸到本源—我們?nèi)绾蝸?lái)利用和創(chuàng)新工具?
第三個(gè)問題是理論,也就是說(shuō)大數(shù)據(jù)在整個(gè)信息技術(shù)、信息經(jīng)濟(jì)、信息社會(huì)中的位置和屬性究竟是什么?
我們對(duì)大數(shù)據(jù)有很多定義,也有很多關(guān)于特征的討論,但有一個(gè)結(jié)論是清晰的,沒有一個(gè)大數(shù)據(jù)不是信息,當(dāng)然,信息不一定都是大數(shù)據(jù)。
所以當(dāng)我們從IT時(shí)代到新的IT時(shí)代,從IT時(shí)代到DT時(shí)代,從工業(yè)社會(huì)到信息社會(huì)、從工業(yè)經(jīng)濟(jì)到信息經(jīng)濟(jì)的發(fā)展和整個(gè)形態(tài)中,不變的東西是信息。
所以說(shuō),大數(shù)據(jù)是對(duì)“信息”這個(gè)詞的一個(gè)代表性的稱謂,因?yàn)樵谶@個(gè)階段,信息有它的特殊性。
所以,我們?cè)谘芯看髷?shù)據(jù)的整個(gè)技術(shù)系列,和社會(huì)演進(jìn)過(guò)程中的定位和屬性時(shí),應(yīng)該把它看作是信息在當(dāng)前階段的一種稱呼和標(biāo)簽,不能將它和信息相關(guān)的研究區(qū)分開來(lái)。
在理論上,大數(shù)據(jù)具有兩個(gè)屬性—經(jīng)濟(jì)屬性和社會(huì)屬性。
首先,大數(shù)據(jù)具有經(jīng)濟(jì)屬性。今天經(jīng)濟(jì)社會(huì)發(fā)展面臨著一個(gè)重要的變革—信息成為整個(gè)生產(chǎn)過(guò)程中的要素,信息提供了產(chǎn)品。這樣的要素和產(chǎn)品,和它原來(lái)的材料、能源在整個(gè)經(jīng)濟(jì)運(yùn)行過(guò)程中的性質(zhì)不同:它不遵循材料能源的基本規(guī)律,這才有了我們今天的零邊際經(jīng)濟(jì)、共享經(jīng)濟(jì)等一系列的經(jīng)濟(jì)模式。所以,在理論上,大數(shù)據(jù)擁有一種經(jīng)濟(jì)屬性。
我們還要研究信息的社會(huì)屬性。信息的獲取、處理和利用模式的改變,也改變著社會(huì)發(fā)展中的每個(gè)成員和每個(gè)功能系統(tǒng)的發(fā)展軌跡。在這一點(diǎn)上,我們雖然已有很多的研究,但仍需要認(rèn)真研究。
我剛才講了價(jià)值、工具和理論,與其說(shuō)提出了一些看法,不如說(shuō)是想引起大家對(duì)這三個(gè)方面的重視。其實(shí)我們講價(jià)值時(shí),是在講商業(yè)模式的價(jià)值。商業(yè)模式是什么東西?你發(fā)現(xiàn)價(jià)值,并讓這個(gè)價(jià)值實(shí)現(xiàn),讓獲取價(jià)值的人和你本人在其中獲利。而商業(yè)模式創(chuàng)新不一定建立在價(jià)值鏈方向。
我講工具其實(shí)是在講技術(shù)創(chuàng)新。中國(guó)人多、經(jīng)濟(jì)發(fā)展規(guī)模大。因此,當(dāng)萬(wàn)物互聯(lián)或互聯(lián)網(wǎng)與人互聯(lián)時(shí),我們天然擁有數(shù)據(jù)的優(yōu)勢(shì),而這種優(yōu)勢(shì)為什么不能轉(zhuǎn)變?yōu)槲覀兛萍紕?chuàng)新的優(yōu)勢(shì),成為工具創(chuàng)新的優(yōu)勢(shì)呢?
我們?cè)倩仡欉^(guò)去的歷史:我們一直強(qiáng)調(diào)高端市場(chǎng)、先進(jìn)市場(chǎng),要培育高端和先進(jìn)的技術(shù)。在這一輪變革中,中國(guó)有什么理由不產(chǎn)生新一代大數(shù)據(jù)的供應(yīng)體系呢。
我們一直在講理論創(chuàng)新。當(dāng)中國(guó)從跟隨者走向并肩者、領(lǐng)先者時(shí),當(dāng)中國(guó)真正進(jìn)入發(fā)達(dá)國(guó)家的第一陣營(yíng)時(shí),如果沒有理論創(chuàng)新那是說(shuō)不過(guò)去的。
所以我們需要加強(qiáng)理論創(chuàng)新。當(dāng)我們的理論創(chuàng)新真正取得成果時(shí),我相信中國(guó)民族的偉大創(chuàng)新就為之不遠(yuǎn)了?。ǜ鶕?jù)演講內(nèi)容整理,未經(jīng)本人審核)