牛祿青
關(guān)于大數(shù)據(jù)的發(fā)展背景、重大意義、最新動(dòng)向、未來趨勢(shì)以及中國(guó)的機(jī)遇與挑戰(zhàn)等相關(guān)問題,中國(guó)工程院院士、中科院計(jì)算所首席科學(xué)家李國(guó)杰接受了《新經(jīng)濟(jì)導(dǎo)刊》專訪。
李國(guó)杰表示,大數(shù)據(jù)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展和科學(xué)研究具有革命性的意義,其興起有著內(nèi)在的需求和利益驅(qū)動(dòng),因?yàn)閿?shù)據(jù)里蘊(yùn)藏著巨大的價(jià)值。未來將形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性新興產(chǎn)業(yè)。
他認(rèn)為,數(shù)據(jù)安全主要不是技術(shù)問題,因?yàn)閿?shù)據(jù)放在哪里都有泄露的風(fēng)險(xiǎn),它與商業(yè)模式有很大關(guān)系。中國(guó)當(dāng)務(wù)之急是建立上下游相互協(xié)作、相互支撐的大數(shù)據(jù)產(chǎn)業(yè)環(huán)境,特別是構(gòu)建有技術(shù)自主權(quán)的大數(shù)據(jù)產(chǎn)業(yè)鏈。
商業(yè)價(jià)值驅(qū)動(dòng)
《新經(jīng)濟(jì)導(dǎo)刊》:繼物聯(lián)網(wǎng)、云計(jì)算、3D打印等新技術(shù)之后,大數(shù)據(jù)已成為投資者、IT人士以及政府部門、科研人員關(guān)注的熱點(diǎn),請(qǐng)問大數(shù)據(jù)是在什么背景下發(fā)展起來的?
李國(guó)杰:今年三月份,奧巴馬宣布美國(guó)政府投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這個(gè)計(jì)劃可以同美國(guó)上世紀(jì)90年代初的“信息高速公路”相比擬。美國(guó)政府認(rèn)為,大數(shù)據(jù)是“未來的新石油”,并將大數(shù)據(jù)的研究上升為國(guó)家意志。
表面上看“大數(shù)據(jù)熱”受到美國(guó)計(jì)劃的影響,但不完全是這樣。過去美國(guó)副總統(tǒng)戈?duì)柡粲醯臄?shù)字地球,中國(guó)也在跟進(jìn),但經(jīng)濟(jì)上并未成氣候;有些是美國(guó)不太熱,中國(guó)反而進(jìn)行得有聲有色,比如物聯(lián)網(wǎng),這可能與中國(guó)政府對(duì)物聯(lián)網(wǎng)的大力扶持有關(guān)。所以層出不窮的新技術(shù),有時(shí)候是真熱,有時(shí)候是虛熱。
我認(rèn)為,大數(shù)據(jù)不是因?yàn)閵W巴馬的宣布而熱起來的,它的興起有著內(nèi)在的原因?,F(xiàn)在的大數(shù)據(jù)與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的蓬勃發(fā)展有很大關(guān)系,特別是美國(guó)幾家大型企業(yè)的大力推動(dòng),像IBM、Amazon、Google、Facebook等。
科研人員研究大數(shù)據(jù),習(xí)慣于從數(shù)據(jù)到信息到知識(shí)再到智慧,若按照這個(gè)鏈條,時(shí)間太漫長(zhǎng),產(chǎn)生的經(jīng)濟(jì)效益也有限,大數(shù)據(jù)不會(huì)形成這么大勢(shì)頭?,F(xiàn)在企業(yè)走了一條捷徑,直接從數(shù)據(jù)里開發(fā)出商業(yè)價(jià)值,而不管數(shù)據(jù)中的科學(xué)規(guī)律和知識(shí),這可以大大激發(fā)企業(yè)的興趣。比如電子商務(wù)eBay,它用大數(shù)據(jù)分析網(wǎng)絡(luò)廣告,發(fā)現(xiàn)廣告里的每一個(gè)單詞都與經(jīng)濟(jì)效益有關(guān)聯(lián),通過優(yōu)化,使廣告收益提高80%以上。所以,大數(shù)據(jù)興起的根本原因是里面蘊(yùn)藏著巨大的價(jià)值,有實(shí)實(shí)在在的經(jīng)濟(jì)利益驅(qū)動(dòng)。
《新經(jīng)濟(jì)導(dǎo)刊》:人們對(duì)大數(shù)據(jù)的理解,見仁見智,如何界定大數(shù)據(jù)?大數(shù)據(jù)有哪些基本特征?
李國(guó)杰:一般意義上,大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)主要表現(xiàn)為四個(gè)“V”:一是體量浩大(Volume),數(shù)據(jù)集合的規(guī)模已從GB到TB再到PB級(jí),甚至已經(jīng)開始以EB和ZB來計(jì)算。著名咨詢公司IDC的研究報(bào)告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器的數(shù)量將增加10倍。二是類型復(fù)雜(Variety),大數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長(zhǎng)的特點(diǎn),到2012年末非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到整個(gè)數(shù)據(jù)量的75%以上。三是生成迅速(Velocity),大數(shù)據(jù)通常以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性。數(shù)據(jù)自身的狀態(tài)與價(jià)值也隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。四是價(jià)值巨大但利用密度低(Value),基于傳統(tǒng)思維與技術(shù)讓人們?cè)趯?shí)際環(huán)境中面臨信息泛濫而知識(shí)匱乏的窘態(tài)。
開啟數(shù)據(jù)革命
《新經(jīng)濟(jì)導(dǎo)刊》:大數(shù)據(jù)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展和科學(xué)研究有哪些重要作用?
李國(guó)杰:根據(jù)數(shù)據(jù)的來源,大數(shù)據(jù)可以分為兩類:一類來自與人類社會(huì)有關(guān)的數(shù)據(jù),特別是互聯(lián)網(wǎng)和經(jīng)濟(jì)活動(dòng)產(chǎn)生的數(shù)據(jù),企業(yè)最感興趣。這一塊增長(zhǎng)也最快,互聯(lián)網(wǎng)實(shí)際上反映的是人的活動(dòng)。另一類來自物理世界,通過傳感器、科學(xué)觀測(cè)獲取。比如生物數(shù)據(jù)、腦科學(xué)數(shù)據(jù)、氣象數(shù)據(jù)、野外環(huán)境保護(hù)數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等,這類數(shù)據(jù)首先推動(dòng)科學(xué)的進(jìn)步,繼而推動(dòng)經(jīng)濟(jì)的發(fā)展。
大數(shù)據(jù)具有革命性的意義,作為一種重要的戰(zhàn)略資源,不僅事關(guān)國(guó)家的數(shù)字主權(quán)和戰(zhàn)略安全,而且可以促進(jìn)我國(guó)的經(jīng)濟(jì)結(jié)構(gòu)調(diào)整和產(chǎn)業(yè)升級(jí)。大數(shù)據(jù)時(shí)代,企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),計(jì)算機(jī)行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計(jì)算速度轉(zhuǎn)變?yōu)榇髷?shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計(jì)算的發(fā)展方向,使其進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的Cloud2.0時(shí)代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會(huì)發(fā)生革命性的變化,大大提高科研和生產(chǎn)效率,使整個(gè)行業(yè)邁入數(shù)字化與信息化的新階段。未來將形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性新興產(chǎn)業(yè)。數(shù)據(jù)服務(wù)是許多企業(yè)瞄準(zhǔn)的重要領(lǐng)域,華為本來是一家通信企業(yè),現(xiàn)在也開拓?cái)?shù)字醫(yī)療市場(chǎng),打通社區(qū)醫(yī)院和三甲醫(yī)院,這是一個(gè)潛在的巨大市場(chǎng)。
此外,大數(shù)據(jù)正在引發(fā)科學(xué)研究思維與方法的一場(chǎng)革命。最早的科學(xué)研究只有實(shí)驗(yàn)科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué)。由于理論分析方法在許多問題上太過復(fù)雜,難以解決實(shí)際問題,人們開始尋求模擬的方法,導(dǎo)致計(jì)算科學(xué)的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識(shí)和智慧,甚至無需直接接觸所研究的對(duì)象。2007年,已故圖靈獎(jiǎng)得主吉姆·格雷在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”,把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)區(qū)分開來。第四范式不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。現(xiàn)實(shí)中,許多復(fù)雜的經(jīng)濟(jì)社會(huì)問題無法用傳統(tǒng)的方法進(jìn)行研究。比如股市,沒有大量的數(shù)據(jù)無法找到其中的規(guī)律,僅靠模型是不行的。
《新經(jīng)濟(jì)導(dǎo)刊》:大數(shù)據(jù)對(duì)地理信息和位置服務(wù)有何影響?
李國(guó)杰:地理信息和位置信息是人在物理世界的活動(dòng),是社會(huì)活動(dòng)和物理世界兩類數(shù)據(jù)的融合。這種數(shù)據(jù)的規(guī)模是相當(dāng)大的,是未來一個(gè)新的經(jīng)濟(jì)增長(zhǎng)點(diǎn),而且能帶動(dòng)物理空間和社會(huì)網(wǎng)絡(luò)領(lǐng)域的數(shù)據(jù)產(chǎn)業(yè)的飛速發(fā)展。
地理信息是國(guó)家信息基礎(chǔ)設(shè)施的一部分,電子政務(wù)、電子商務(wù)、智能交通、智能物流等行業(yè)應(yīng)用,都離不開地理信息。政府對(duì)地理信息這種公共資源應(yīng)該分層管理,除了涉及國(guó)防和國(guó)家安全的信息需要保密外,其他基礎(chǔ)信息都要免費(fèi)或以較低成本提供給企業(yè)和民眾,防止信息采集單位據(jù)為己有?;诨A(chǔ)信息上的各種應(yīng)用服務(wù),應(yīng)該大量放開,讓企業(yè)去做。我國(guó)的地理信息產(chǎn)業(yè)之所以發(fā)展不快,就是沒有解決好信息的分層管理,收集地理信息的單位,理所當(dāng)然地認(rèn)為這些信息就是本部門的,而且互相之間也不交流和共享,導(dǎo)致重復(fù)建設(shè)和資源浪費(fèi)。
顛覆IOE模式
《新經(jīng)濟(jì)導(dǎo)刊》:大數(shù)據(jù)時(shí)代,傳統(tǒng)的數(shù)據(jù)庫(kù)軟件將難以滿足處理海量數(shù)據(jù)的需要。您認(rèn)為大數(shù)據(jù)對(duì)信息技術(shù)提出哪些新的要求?
李國(guó)杰:過去,中國(guó)對(duì)信息系統(tǒng)有所謂“金三角”的說法,即“IOE”,I指IBM的服務(wù)器,O指Oracle的數(shù)據(jù)庫(kù),E指EMC的存儲(chǔ)。這三家公司基本壟斷了國(guó)內(nèi)銀行、證券等對(duì)計(jì)算機(jī)處理數(shù)據(jù)要求很高的行業(yè)?,F(xiàn)在業(yè)內(nèi)認(rèn)為,如果某家技術(shù)公司還沿用“IOE”,那這家公司就不是大數(shù)據(jù)公司。因?yàn)槟愕募夹g(shù)建立在IOE基礎(chǔ)上,決定了你無法處理大量數(shù)據(jù),因?yàn)槟愕幕A(chǔ)設(shè)施就不適合做大數(shù)據(jù)處理。
數(shù)據(jù)在基礎(chǔ)設(shè)施層面有三類技術(shù):存儲(chǔ)、管理和計(jì)算。IOE模式從上世紀(jì)70年代就逐步成型了,即關(guān)系數(shù)據(jù),當(dāng)時(shí)對(duì)數(shù)據(jù)的認(rèn)識(shí)是線性維度。到了大數(shù)據(jù)時(shí)代,數(shù)據(jù)的巨大規(guī)模和快速變化超過了硬件能力的增長(zhǎng),而且數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)使得線性思維無能為力。另外還有社會(huì)因素,數(shù)據(jù)與人在不斷地互動(dòng),甚至人就是動(dòng)態(tài)的數(shù)據(jù)集。在這種情況下,采用原有的IOE模式來處理大數(shù)據(jù)就難以應(yīng)對(duì)了,數(shù)據(jù)中的價(jià)值也無法有效挖掘出來?,F(xiàn)在大數(shù)據(jù)有許多應(yīng)用,例如通過查詢Google,可以知道流行病在某區(qū)域的分布;通過輿情的分析,可以預(yù)測(cè)選舉的結(jié)果。
大數(shù)據(jù)存儲(chǔ)不同于傳統(tǒng)的EMC,它是一種高效率、低成本、多層次柔性的存儲(chǔ)架構(gòu),不是集中到一起存儲(chǔ),而是把數(shù)據(jù)放在云和端。實(shí)際上,數(shù)據(jù)存儲(chǔ)的分布很關(guān)鍵,哪些在主服務(wù)器,哪些在客戶端,這要比提高單個(gè)存儲(chǔ)的性能更重要。雖然許多企業(yè)都在做,但還處于探索中。目前,Hadoop開源分布式系統(tǒng),已成為大數(shù)據(jù)處理的主流技術(shù),包括資源調(diào)度、存儲(chǔ)管理等各種數(shù)據(jù)工具。這是一種發(fā)展趨勢(shì),但也存在不少問題。
在大數(shù)據(jù)管理方面,過去的關(guān)系數(shù)據(jù)管理在冗余、一致性、復(fù)雜查詢優(yōu)化上解決得非常好。在Hadoop體系下,數(shù)據(jù)規(guī)模、增量速度和靈活性上遠(yuǎn)遠(yuǎn)超過Oracle,但在數(shù)據(jù)價(jià)值挖掘和分析方面還不能提供較好的技術(shù)支持。所以大數(shù)據(jù)管理是打碎了舊的模式,新的模式還沒有規(guī)范化和體系化。
《新經(jīng)濟(jì)導(dǎo)刊》:中國(guó)與國(guó)外大數(shù)據(jù)產(chǎn)業(yè)相比,有哪些優(yōu)勢(shì)和劣勢(shì)?國(guó)外互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)處理方面有哪些經(jīng)驗(yàn)可供我們借鑒?
李國(guó)杰:不管是Google、Amazon還是Facebook、Twitter,肯定不是用IOE這種模式,都是重新設(shè)計(jì)和建立新的系統(tǒng)。比較領(lǐng)先的應(yīng)該是Google,但Google把自己的技術(shù)包裹起來,不告訴別人,所以,后來形成了以Hadoop為代表的一系列開源技術(shù)。雖然Hadoop借鑒了Google的一套大數(shù)據(jù)處理思路:GFS存儲(chǔ)、MapReduce計(jì)算、BigTable管理,但由于是全球人的貢獻(xiàn),所以全球60%~70%的大型互聯(lián)網(wǎng)企業(yè)都在使用Hadoop開源技術(shù)。
國(guó)內(nèi)的大數(shù)據(jù)代表性企業(yè)是百度、騰訊、阿里巴巴。由于大數(shù)據(jù)原創(chuàng)體系和基礎(chǔ)技術(shù)的話語權(quán)在國(guó)外(開源組織和大企業(yè)),所以國(guó)內(nèi)企業(yè)在這方面有一定差距,但應(yīng)用上不比國(guó)外企業(yè)差。需要注意,國(guó)內(nèi)大型互聯(lián)網(wǎng)企業(yè)是自己確實(shí)有需求和價(jià)值驅(qū)動(dòng)才改進(jìn)原來的技術(shù)架構(gòu),而不是一味地跟風(fēng)。比如淘寶網(wǎng),每天的日志按照傳統(tǒng)方法只能存儲(chǔ)一周,數(shù)據(jù)量太大,不可能為了存儲(chǔ)數(shù)據(jù)再蓋大樓和機(jī)房,這就逼迫它必須優(yōu)化存儲(chǔ)、提高效率和節(jié)約成本。
由于中國(guó)人口多、市場(chǎng)大、數(shù)據(jù)量大,所以中國(guó)大數(shù)據(jù)發(fā)展的動(dòng)力非常強(qiáng)勁,大數(shù)據(jù)的應(yīng)用需求絲毫不亞于國(guó)外。同時(shí),我們也要看到,中國(guó)發(fā)展新興產(chǎn)業(yè)是一個(gè)后來者,以前經(jīng)常講,我們有后發(fā)優(yōu)勢(shì),能夠避免走彎路。實(shí)際上,前面所走過的二十年,更多暴露出后發(fā)的劣勢(shì)和壁壘。比如桌面計(jì)算機(jī)(PC),技術(shù)掌握在英特爾和微軟手里,這就形成了它們的事實(shí)標(biāo)準(zhǔn),必須用它們的平臺(tái)來做,而我們創(chuàng)新的空間很小,聯(lián)想在奮起直追,毛利率也是15%以下,凈利率只有2%。通信也是這樣,2G和3G的無線通信專利掌握在高通公司手里,雖然我們可以做4G等新技術(shù),但必須與2G和3G兼容,只要兼容就無法擺脫高通的控制。這兩個(gè)大產(chǎn)業(yè),雖然我國(guó)花了很大力氣,但在平臺(tái)上受制于人,創(chuàng)新空間一直很小。
大數(shù)據(jù)也不是沒有限制,但大數(shù)據(jù)是在比較開放的環(huán)境下發(fā)展的,盡管Google不很開放,但相比PC和無線通信領(lǐng)域還是有利的。中國(guó)科研機(jī)構(gòu)和企業(yè)研發(fā)的大數(shù)據(jù)開源軟件,也可以加入到國(guó)際標(biāo)準(zhǔn)中去,成為世界開源組織大家庭的一部分。比如中科院計(jì)算所牽頭的Hadoop in China大會(huì),現(xiàn)在轉(zhuǎn)移給中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)承辦,就一直得到世界開源組織的支持。大數(shù)據(jù)時(shí)代,不是國(guó)際大數(shù)據(jù)企業(yè)愿意主動(dòng)貢獻(xiàn)Hadoop等數(shù)據(jù)處理技術(shù),而是大數(shù)據(jù)產(chǎn)業(yè)特征決定了必須協(xié)作共享。大數(shù)據(jù)無所不在,不是幾個(gè)大企業(yè)就能壟斷得了的。
《新經(jīng)濟(jì)導(dǎo)刊》:在IT領(lǐng)域,包括大數(shù)據(jù)在內(nèi),為什么新的技術(shù)都是國(guó)外先有,然后再引入到國(guó)內(nèi)?什么時(shí)候“中國(guó)創(chuàng)新”能引領(lǐng)世界呢?
李國(guó)杰:總體來講,中國(guó)的信息技術(shù)水平處于世界第二軍團(tuán)的前沿,與美國(guó)、日本等發(fā)達(dá)國(guó)家相比還有一定差距。如果中國(guó)的信息技術(shù)水平已經(jīng)與發(fā)達(dá)國(guó)家并駕齊驅(qū),那中國(guó)還是一個(gè)發(fā)展中國(guó)家嗎?信息技術(shù)是當(dāng)代的一個(gè)特征技術(shù),一個(gè)國(guó)家是不是經(jīng)濟(jì)強(qiáng)國(guó),不能僅拿制造業(yè)來衡量,關(guān)鍵看信息技術(shù)和生物技術(shù)。中國(guó)到2020年才能全面建成小康社會(huì),到2050年才能實(shí)現(xiàn)現(xiàn)代化??萍疾豢赡茉趪?guó)家綜合實(shí)力還落后的情況下一枝獨(dú)秀,當(dāng)然不排除個(gè)別技術(shù)脫穎而出,但整體上還是受制于經(jīng)濟(jì)和社會(huì)發(fā)展。
我國(guó)在發(fā)表論文方面,個(gè)別領(lǐng)域已經(jīng)位居前列,國(guó)外的引用也較多,最典型的是材料科學(xué)。世界前十位材料科學(xué)論文引用率最高的作者,60%~70%都來自于中國(guó)大陸。按說中國(guó)應(yīng)該是一個(gè)材料強(qiáng)國(guó)了,但實(shí)際情況并非如此,80%~90%的尖端材料全部是進(jìn)口。所以我們不能對(duì)中國(guó)的科技水平期望太高,畢竟中國(guó)還是一個(gè)發(fā)展中國(guó)家,科技與經(jīng)濟(jì)是相輔相成的,必須有市場(chǎng)需求,才有科技創(chuàng)新,信息技術(shù)同樣如此。
建立數(shù)據(jù)市場(chǎng)
《新經(jīng)濟(jì)導(dǎo)刊》:面對(duì)紛繁復(fù)雜、無處不在的數(shù)據(jù),中國(guó)在大數(shù)據(jù)管理和應(yīng)用過程中如何確保數(shù)據(jù)安全呢?
李國(guó)杰:大數(shù)據(jù)時(shí)代,安全是一個(gè)基礎(chǔ)保障,但如果建立一個(gè)競(jìng)爭(zhēng)有序的大數(shù)據(jù)交易市場(chǎng),將大數(shù)據(jù)打包成產(chǎn)品依法進(jìn)行交易,那所謂的數(shù)據(jù)隱私問題就可以規(guī)范化了?,F(xiàn)在數(shù)據(jù)市場(chǎng)還未成型的情況下,那從頂層設(shè)計(jì)上要注意保障數(shù)據(jù)安全,包括隱私權(quán)、執(zhí)行權(quán)、防范數(shù)據(jù)篡改和崩潰、可信度等一系列問題。
但數(shù)據(jù)安全主要不是技術(shù)問題,因?yàn)閿?shù)據(jù)放在哪里都有泄露的風(fēng)險(xiǎn),它與商業(yè)模式有很大關(guān)系。中國(guó)迫切需要把數(shù)據(jù)市場(chǎng)、數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)產(chǎn)品的形態(tài)和交易模式清晰化。這些問題解決了,數(shù)據(jù)安全也就迎刃而解?,F(xiàn)在最大的問題是,擁有原始數(shù)據(jù)的機(jī)構(gòu)和企業(yè),不知道如何把這些數(shù)據(jù)變成產(chǎn)品。
中國(guó)數(shù)據(jù)市場(chǎng)的建立可以借鑒金融衍生品市場(chǎng)的模式,一是政府出臺(tái)優(yōu)惠措施加以扶持;二是建立透明公開的交易平臺(tái);三是加強(qiáng)創(chuàng)新,突破關(guān)鍵技術(shù);四是發(fā)揮資本市場(chǎng)的作用。這樣就可以把各個(gè)載體的數(shù)據(jù)開發(fā)出一系列數(shù)據(jù)產(chǎn)品。目前產(chǎn)業(yè)界和投資界走在前面,科技界緊跟其后,政府還沒有認(rèn)識(shí)清楚。
實(shí)際上,大數(shù)據(jù)現(xiàn)在僅僅是冰山一角,它的巨大價(jià)值還遠(yuǎn)遠(yuǎn)沒有挖掘出來,人們也確實(shí)不知道它的價(jià)值到底有多大。國(guó)家要?jiǎng)?chuàng)造一個(gè)支持新興業(yè)態(tài)的環(huán)境,讓新產(chǎn)品和新服務(wù)能夠噴薄而出。有些東西應(yīng)該冒出來而未能冒出來的原因就是,被負(fù)面的東西和可能產(chǎn)生的負(fù)作用嚇怕了,比如安全和隱私。任何事物都是一把雙刃劍,關(guān)鍵看你的著眼點(diǎn)和出發(fā)點(diǎn),如果只是除弊而不興利,那就越除越小,最終抑制它的成長(zhǎng)。所以要正確看待新興事物,并在發(fā)展中解決存在的問題,而不是一棒子打死。例如,互聯(lián)網(wǎng)和手機(jī),十年前誰也無法預(yù)料到能發(fā)展成現(xiàn)在這樣,都是在市場(chǎng)競(jìng)爭(zhēng)中不斷優(yōu)勝劣汰發(fā)展起來的。當(dāng)然,新技術(shù)和新興產(chǎn)業(yè)剛開始都有一個(gè)炒作過程,然后逐漸擠掉泡沫,沉淀下來,從而步入正常發(fā)展軌道。
《新經(jīng)濟(jì)導(dǎo)刊》:請(qǐng)介紹一下中國(guó)的大數(shù)據(jù)產(chǎn)業(yè)鏈建設(shè)情況?
李國(guó)杰:IT產(chǎn)業(yè)在發(fā)展過程中已經(jīng)形成了一些層次分布,有做服務(wù)器和底層系統(tǒng)的,有做軟件的,有做應(yīng)用的,大數(shù)據(jù)也需要在原有的架構(gòu)上加以發(fā)展。原來做基礎(chǔ)設(shè)施的企業(yè),如聯(lián)想、華為,也要向大數(shù)據(jù)轉(zhuǎn)型,提供低成本、低能耗的大型存儲(chǔ)器,這是大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)。中間層是類似Hadoop、MapReduce的數(shù)據(jù)分析軟件,原有的軟件產(chǎn)業(yè)也要轉(zhuǎn)型,由賣軟件轉(zhuǎn)為以數(shù)據(jù)為中心。再往上就是百度、騰訊、阿里巴巴等大數(shù)據(jù)應(yīng)用服務(wù)公司。
中國(guó)大數(shù)據(jù)產(chǎn)業(yè)的整體實(shí)力與國(guó)外相比有很大差距。應(yīng)用企業(yè)由于服務(wù)中國(guó)市場(chǎng),具有民族和語言等方面的優(yōu)勢(shì),所以市場(chǎng)占有率較高,但需要走向國(guó)外,提高國(guó)際競(jìng)爭(zhēng)力。軟件實(shí)力較弱,基礎(chǔ)設(shè)施更弱,芯片和操作系統(tǒng)還在成長(zhǎng)中。所以,國(guó)家要針對(duì)大數(shù)據(jù)的需求,盡快出臺(tái)政策措施,全面提高大數(shù)據(jù)產(chǎn)業(yè)的競(jìng)爭(zhēng)實(shí)力。企業(yè)要抓住機(jī)遇,加大自主創(chuàng)新力度,實(shí)現(xiàn)轉(zhuǎn)型發(fā)展,扭轉(zhuǎn)國(guó)際競(jìng)爭(zhēng)中的不利地位??蒲袡C(jī)構(gòu)要瞄準(zhǔn)國(guó)際前沿,大膽嘗試,積極探索。中科院計(jì)算所已經(jīng)在研發(fā)五年以后的服務(wù)器和計(jì)算機(jī)了,我們?nèi)绻邪l(fā)成功,將會(huì)縮小國(guó)際差距。
《新經(jīng)濟(jì)導(dǎo)刊》:您認(rèn)為中國(guó)大數(shù)據(jù)產(chǎn)業(yè)的難點(diǎn)和瓶頸是什么?
李國(guó)杰:當(dāng)務(wù)之急是建立上下游相互協(xié)作、相互支撐的大數(shù)據(jù)產(chǎn)業(yè)環(huán)境,特別是構(gòu)建有技術(shù)自主權(quán)的大數(shù)據(jù)產(chǎn)業(yè)鏈,避免核心技術(shù)受制于人,重蹈PC和通信產(chǎn)業(yè)的老路。發(fā)展大數(shù)據(jù)產(chǎn)業(yè),還需要突破一個(gè)瓶頸,那就是寬帶網(wǎng)絡(luò)的滯后。沒有高速的寬帶網(wǎng)絡(luò)做支撐,大數(shù)據(jù)將成為“空中樓閣”,所以,信息產(chǎn)業(yè)的“短腿”要趕緊補(bǔ)上。
新的應(yīng)用需求呼吁新的人才,但我們的教育落后于經(jīng)濟(jì)和社會(huì)的發(fā)展。大數(shù)據(jù)時(shí)代,需要從學(xué)校和實(shí)踐中培養(yǎng)各類數(shù)據(jù)人才,如數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官、數(shù)據(jù)咨詢師、數(shù)據(jù)分析師、數(shù)據(jù)工程師等。特別是數(shù)據(jù)咨詢?nèi)瞬?,要大力培養(yǎng),加快數(shù)據(jù)咨詢產(chǎn)業(yè)發(fā)展。另外,培養(yǎng)大數(shù)據(jù)人才,要打破專業(yè)限制,取長(zhǎng)補(bǔ)短,除了傳統(tǒng)的計(jì)算機(jī)、電子信息專業(yè),還應(yīng)該更多從各行業(yè)中培養(yǎng)熟悉本行業(yè)的數(shù)據(jù)人才,教會(huì)他們從行業(yè)數(shù)據(jù)中挖掘價(jià)值。學(xué)計(jì)算機(jī)的人要放下身段,甘當(dāng)配角,主角由行業(yè)人才來擔(dān)當(dāng),避免懂?dāng)?shù)據(jù)分析的沒有數(shù)據(jù),不懂?dāng)?shù)據(jù)分析的卻擁有大量數(shù)據(jù)。(中科院計(jì)算所副總工程師、網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)實(shí)驗(yàn)室主任程學(xué)旗研究員對(duì)本文亦有貢獻(xiàn))