許 曄
(中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院,北京 100038)
大數(shù)據(jù)時(shí)代中國面臨的挑戰(zhàn)與對(duì)策
許 曄
(中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院,北京 100038)
本文通過研究大數(shù)據(jù)及其特征,分析全球大數(shù)據(jù)增長對(duì)世界的影響,指出在大數(shù)據(jù)時(shí)代中國所面臨的安全管理能力、存儲(chǔ)及處理能力、應(yīng)用能力以及人才培養(yǎng)能力等方面的挑戰(zhàn),并提出對(duì)策建議。
大數(shù)據(jù);戰(zhàn)略資源;數(shù)據(jù)安全;數(shù)據(jù)人才
2012年3月,美國奧巴馬政府發(fā)起了《大數(shù)據(jù)研究和發(fā)展倡議》,將大數(shù)據(jù)定義為“未來的新石油”,稱將斥資2億美元用于大數(shù)據(jù)研究,以應(yīng)對(duì)大數(shù)據(jù)革命正在帶來的大機(jī)遇。據(jù)美國咨詢機(jī)構(gòu)Gartner預(yù)測(cè),到2015年,大數(shù)據(jù)將會(huì)在世界范圍內(nèi)創(chuàng)造440萬個(gè)工作崗位。
1.1 大數(shù)據(jù)及其特征
關(guān)于大數(shù)據(jù)(Big Data),麥肯錫全球研究所在報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭和生產(chǎn)力的下一個(gè)前沿》中定義:所謂大數(shù)據(jù),是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)群。也有專家認(rèn)為,大數(shù)據(jù)的“大”是指大型數(shù)據(jù)集,即數(shù)據(jù)量一般在10TB規(guī)模左右;多個(gè)用戶把多個(gè)數(shù)據(jù)集放在一起,形成PB級(jí)的數(shù)據(jù)量;同時(shí),這些數(shù)據(jù)又來自多種數(shù)據(jù)源,并以實(shí)時(shí)、迭代的方式來實(shí)現(xiàn),即“大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)”[1]。
大數(shù)據(jù)具有大量化、多樣化、快速化和價(jià)值化的特征[2],也稱“4V”。
(1)大量化(Volume):是指數(shù)據(jù)量非常龐大,即數(shù)據(jù)存儲(chǔ)量大、計(jì)算量大。
(2)多樣化(Variety):是指大數(shù)據(jù)不但包含結(jié)構(gòu)化的數(shù)據(jù)表和半結(jié)構(gòu)化的文本、視頻、圖像等信息,而且數(shù)據(jù)之間的交互也非常頻繁和廣泛。
(3)快速化(Velocity):是指數(shù)據(jù)不斷更新,增長的速度快,同時(shí)數(shù)據(jù)存儲(chǔ)、傳輸?shù)鹊奶幚硭俣纫卜浅?臁?/p>
(4)價(jià)值化(Value):是指數(shù)據(jù)正在成為一種新型資產(chǎn),一種形成競(jìng)爭力的重要基礎(chǔ)?;诖罅繑?shù)據(jù)的分析和計(jì)算,可以產(chǎn)生更大的價(jià)值。
1.2 大數(shù)據(jù)的爆發(fā)增長
據(jù)國際數(shù)據(jù)資訊公司(Global Pulse)估測(cè)[3],數(shù)據(jù)數(shù)量一直在快速增加,每年增長50%,這個(gè)速度不僅是指數(shù)據(jù)流的增長,而且還包括全新的數(shù)據(jù)種類的增多。
有研究統(tǒng)計(jì),從人類文明開始到2003年,人類共創(chuàng)造了5TB(兆億字節(jié))的信息。而現(xiàn)在,這樣的數(shù)據(jù)量卻僅需兩天就能夠被創(chuàng)造出來,且速度仍在加快。據(jù)統(tǒng)計(jì),全球企業(yè)2010年在硬盤上存儲(chǔ)了超過7EB的新數(shù)據(jù),消費(fèi)者在PC和筆記本電腦等設(shè)備上存儲(chǔ)了超過6EB新數(shù)據(jù),而1EB數(shù)據(jù)就相當(dāng)于美國國會(huì)圖書館中存儲(chǔ)數(shù)據(jù)的4000多倍[4]。目前數(shù)據(jù)容量增長的速度已經(jīng)大大超過了硬件技術(shù)的發(fā)展速度,并正在引發(fā)數(shù)據(jù)存儲(chǔ)和處理的危機(jī)。
1.3 全球大數(shù)據(jù)布局
世界上許多國家都已經(jīng)認(rèn)識(shí)到了大數(shù)據(jù)所蘊(yùn)含的重要戰(zhàn)略意義,紛紛開始在國家層面進(jìn)行戰(zhàn)略部署,以迎接大數(shù)據(jù)技術(shù)革命正在帶來的新機(jī)遇和新挑戰(zhàn)。
美國在《大數(shù)據(jù)研究和發(fā)展倡議》中提出,將通過收集龐大而復(fù)雜的數(shù)字資料,從中獲得知識(shí)和洞見,以提升能力,并協(xié)助加速在科學(xué)、工程上發(fā)現(xiàn)的步伐,強(qiáng)化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。根據(jù)這一計(jì)劃,美國希望利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)在多個(gè)領(lǐng)域的突破,包括科研教學(xué)、環(huán)境保護(hù)、工程技術(shù)、國土安全、生物醫(yī)藥等。其中具體的研發(fā)計(jì)劃涉及了美國國家科學(xué)基金會(huì)、國家衛(wèi)生研究院、國防部、能源部、國防部高級(jí)研究局、地質(zhì)勘探局等聯(lián)邦部門和機(jī)構(gòu)。
英國政府2012年計(jì)劃在未來兩年內(nèi),在大數(shù)據(jù)和節(jié)能計(jì)算研究上投資1.89億英鎊,以帶動(dòng)企業(yè)在該領(lǐng)域的投資。大數(shù)據(jù)被英國看作是自己的優(yōu)勢(shì)所在,且英國認(rèn)為已在政府層面為大數(shù)據(jù)做好了準(zhǔn)備。
法國政府宣布在2013年投入1150萬歐元,用于7個(gè)大數(shù)據(jù)市場(chǎng)研發(fā)項(xiàng)目。目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實(shí)踐,來促進(jìn)法國在大數(shù)據(jù)領(lǐng)域的發(fā)展”。法國政府在《數(shù)字化路線圖》中列出了五項(xiàng)將大力支持的戰(zhàn)略性高新技術(shù),大數(shù)據(jù)就是其中一項(xiàng)。
日本于2013年6月公布了新IT戰(zhàn)略,即“創(chuàng)建最尖端IT國家宣言”,全面闡述了2013—2020年,將以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略,并提出要把日本建設(shè)成為一個(gè)具有“世界最高水準(zhǔn)的廣泛運(yùn)用信息產(chǎn)業(yè)技術(shù)的社會(huì)”。
此外,加拿大、新西蘭、德國和印度等國也在大數(shù)據(jù)領(lǐng)域進(jìn)行了研究部署,還紛紛推出本國的公共數(shù)據(jù)開放網(wǎng)站,以使更多的人可以使用大數(shù)據(jù)資源,并從中獲得利益。目前,全球已經(jīng)擁有大大小小的數(shù)據(jù)開放網(wǎng)站50余個(gè)。
2.1 “大數(shù)據(jù)資源”成為重要的戰(zhàn)略資源
互聯(lián)網(wǎng)時(shí)代,“資源”的含義正在發(fā)生極大的變化,它已不再僅僅只是指煤、石油、礦產(chǎn)等一些看得見、摸得著的實(shí)體,大數(shù)據(jù)也正在演變成不可或缺的戰(zhàn)略資源?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù),這些龐大的數(shù)據(jù)資源,為人們依據(jù)數(shù)據(jù)了解世界、了解市場(chǎng)、了解人們的生活提供了可能。大數(shù)據(jù)已經(jīng)被視為一種資產(chǎn)、一種財(cái)富、一種可以被衡量和計(jì)算的價(jià)值。得大數(shù)據(jù)者得天下,是一些推崇大數(shù)據(jù)時(shí)代的變革者所堅(jiān)信不疑的判斷。
很多專家認(rèn)為,在大數(shù)據(jù)時(shí)代,誰能有效地壟斷數(shù)據(jù),誰就有可能成為世界的霸主[5]。2006年,微軟以1.1億美元的價(jià)格,購買了大數(shù)據(jù)公司Farecast。2008年,谷歌則以7億美元的價(jià)格,購買了為Farecast提供數(shù)據(jù)的ITA Software公司。
2.2 “大數(shù)據(jù)安全”上升為國家安全
傳統(tǒng)意義上的國家安全,是指軍隊(duì)對(duì)國家領(lǐng)土安全的保護(hù),是國家之間軍事實(shí)力的較量。但在互聯(lián)網(wǎng)高度發(fā)達(dá)的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)變成了幾乎是透明的虛擬世界,也因此使國家安全的環(huán)境和內(nèi)涵發(fā)生了極大的變化,對(duì)大數(shù)據(jù)的安全保存、防丟失和防破壞等問題,成為我們必須要面對(duì)的安全難題。大數(shù)據(jù)安全,已經(jīng)上升成為國家安全的重要組成部分。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全的威脅隨時(shí)都有可能發(fā)生。各種國家信息基礎(chǔ)設(shè)施和重要機(jī)構(gòu)所承載的龐大數(shù)據(jù)信息,如由信息網(wǎng)絡(luò)系統(tǒng)所控制的石油和天然氣管道、水、電力、交通、銀行、金融、商業(yè)和軍事等,都有可能成為被攻擊的目標(biāo)。此外,大數(shù)據(jù)也為網(wǎng)絡(luò)恐怖分子提供了新的資源支持,有可能使恐怖分子通過網(wǎng)絡(luò)侵入到人們工作生活的方方面面,并通過威脅、攻擊、破壞、癱瘓民用或軍事基礎(chǔ)設(shè)施等手段,達(dá)到其制造心理恐慌和財(cái)產(chǎn)損失、威脅國家安全和社會(huì)安全的目的。
2.3 “大數(shù)據(jù)決策”成為一種新的決策方式
依據(jù)大數(shù)據(jù)進(jìn)行決策,從數(shù)據(jù)中獲取價(jià)值,讓數(shù)據(jù)主導(dǎo)決策,是一種前所未有的決策方式,并正在推動(dòng)著人類信息管理準(zhǔn)則的重新定位。隨著大數(shù)據(jù)分析和預(yù)測(cè)性分析對(duì)管理決策影響力的逐漸加大,依靠直覺做決定的狀況將會(huì)被徹底改變。
2009年爆發(fā)的甲型H1N1流感病毒,谷歌公司就是通過觀察人們?cè)诰W(wǎng)上搜索的大量記錄,在流感爆發(fā)的幾周前,就判斷出流感是從哪里傳播出來的,從而使公共衛(wèi)生機(jī)構(gòu)的官員獲得了極有價(jià)值的數(shù)據(jù)信息,并做出有針對(duì)性的行動(dòng)決策,而這比疾控中心的判斷提前了一兩周[6]。美國的Farecast系統(tǒng)的一個(gè)功能就是飛機(jī)票價(jià)預(yù)測(cè),它通過從旅游網(wǎng)站獲得的大量數(shù)據(jù),分析41天之內(nèi)的12000個(gè)價(jià)格樣本,分析所有特定航線機(jī)票的銷售價(jià)格,并預(yù)測(cè)出當(dāng)前機(jī)票價(jià)格在未來一段時(shí)間內(nèi)的漲降走勢(shì),從而幫助虛擬乘客選擇最佳的購票時(shí)機(jī),并降低可觀的購票成本。
2.4 “大數(shù)據(jù)應(yīng)用”促進(jìn)信息技術(shù)與各行業(yè)的深度融合
有專家指出,大數(shù)據(jù)及其分析將會(huì)在未來10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。從科學(xué)研究到醫(yī)療保險(xiǎn)、從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在遭遇爆發(fā)式增長的數(shù)據(jù)量。在美國的17個(gè)行業(yè)中,已經(jīng)有15個(gè)行業(yè)大公司擁有大量的數(shù)據(jù),其平均擁有的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過了美國國會(huì)圖書館所擁有的數(shù)據(jù)量。
系統(tǒng)共使用580個(gè)采樣點(diǎn)數(shù)據(jù),主要分布在廣西人工林種植集中區(qū),為了得到覆蓋全廣西的主要林地范圍的連續(xù)數(shù)據(jù),采用了高斯格呂克空間插值方法,對(duì)包括pH值在內(nèi)的15種養(yǎng)分含量分布生成土壤養(yǎng)分柵格圖,形成一個(gè)包含15個(gè)圖層的柵格數(shù)據(jù)集。采樣點(diǎn)分布和土壤養(yǎng)分含量(有機(jī)質(zhì))插值結(jié)果如圖3。這個(gè)柵格數(shù)據(jù)集通過ArcGIS Server發(fā)布成影像服務(wù)后,就可以實(shí)現(xiàn)在客戶端查詢土壤養(yǎng)分的功能。
在醫(yī)療與健康行業(yè),根據(jù)麥肯錫預(yù)測(cè),如果具備相關(guān)的IT設(shè)施、數(shù)據(jù)庫投資和分析能力等條件,大數(shù)據(jù)將在未來10年,使美國醫(yī)療市場(chǎng)獲得每年3000億美元的新價(jià)值,并削減2/3的全國醫(yī)療開支。
在制造業(yè)領(lǐng)域,制造企業(yè)為管理產(chǎn)品生命周期將采用IT系統(tǒng),包括電腦輔助設(shè)計(jì)、工程、制造、產(chǎn)品開發(fā)管理工具和數(shù)字制造,制造商可以建立一個(gè)產(chǎn)品生命周期管理平臺(tái)PLM(Product Lifecycle Management),從而將多種系統(tǒng)的數(shù)據(jù)集整合在一起,共同創(chuàng)造出新的產(chǎn)品。
此外,在交通、能源、材料、商業(yè)和服務(wù)等領(lǐng)域,甚至在新聞傳媒領(lǐng)域,也都在以大數(shù)據(jù)為發(fā)展契機(jī),加速這些行業(yè)與信息技術(shù)的深度融合。
2.5 “大數(shù)據(jù)開發(fā)”推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)
大數(shù)據(jù)的應(yīng)用需求,是大數(shù)據(jù)新技術(shù)開發(fā)的源泉。在不久的將來,也許很多原來單純依靠人類自身判斷力的領(lǐng)域應(yīng)用,最終都將被計(jì)算機(jī)系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘功能所普遍改變甚至取代。一小片合適的信息,也許會(huì)促使創(chuàng)新邁進(jìn)一大步;一組數(shù)據(jù),也可能會(huì)得到數(shù)據(jù)收集人難以想象的應(yīng)用,甚至可能在另一個(gè)看起來毫不相關(guān)的領(lǐng)域得到應(yīng)用。借助這些創(chuàng)新型的大數(shù)據(jù)應(yīng)用,數(shù)據(jù)的能量將會(huì)層層被放大[7]。
“語義網(wǎng)(Semantic Web)”也稱為下一代互聯(lián)網(wǎng),實(shí)際上就是“數(shù)據(jù)網(wǎng)(Web of Data)”。語義網(wǎng)是一個(gè)全球的數(shù)據(jù)庫網(wǎng),在這個(gè)數(shù)據(jù)庫網(wǎng)中,計(jì)算機(jī)可自動(dòng)為用戶搜尋、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎。大數(shù)據(jù)時(shí)代正在催生的這個(gè)最大的技術(shù)變革,就是要重新構(gòu)造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng)。
目前,已經(jīng)出現(xiàn)的“大數(shù)據(jù)分析方法”包括:情感分析、關(guān)聯(lián)規(guī)則學(xué)習(xí)、預(yù)測(cè)建模等。已經(jīng)出現(xiàn)的“大數(shù)據(jù)應(yīng)用技術(shù)”包括:數(shù)據(jù)倉庫、“混搭”、云計(jì)算等。已經(jīng)出現(xiàn)的“大數(shù)據(jù)可視化技術(shù)”包括:標(biāo)簽云、聚類分析、歷史流以及空間信息流等。此外,已經(jīng)出現(xiàn)的“大數(shù)據(jù)新應(yīng)用”包括:通過數(shù)據(jù)流量判斷消費(fèi)者喜好、用微博數(shù)據(jù)預(yù)測(cè)股市投資時(shí)機(jī)、用手機(jī)數(shù)據(jù)預(yù)測(cè)疾病傳播和城市繁榮,等等。
3.1 大數(shù)據(jù)的安全管理能力挑戰(zhàn)
數(shù)據(jù)安全管理問題,是中國應(yīng)用大數(shù)據(jù)面臨的最大風(fēng)險(xiǎn)。雖然將海量數(shù)據(jù)集中存儲(chǔ),方便了數(shù)據(jù)分析和處理,但由于安全管理不當(dāng)所造成的大數(shù)據(jù)丟失和損壞,則將引發(fā)毀滅性的災(zāi)難。有專家指出:由于新技術(shù)的產(chǎn)生和發(fā)展,對(duì)隱私權(quán)的侵犯已經(jīng)不再需要物理的、強(qiáng)制性的侵入,而是以更加微妙的方式廣泛衍生,由此所引發(fā)的數(shù)據(jù)風(fēng)險(xiǎn)和隱私風(fēng)險(xiǎn)也將更為嚴(yán)重。
3.2 大數(shù)據(jù)的存儲(chǔ)及處理能力挑戰(zhàn)
當(dāng)前,中國大數(shù)據(jù)存儲(chǔ)、分析和處理的能力還很薄弱,與大數(shù)據(jù)相關(guān)的技術(shù)和工具的運(yùn)用也相當(dāng)不成熟,大部分企業(yè)仍處于IT產(chǎn)業(yè)鏈的低端。中國在數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘以及云計(jì)算等領(lǐng)域的技術(shù),普遍落后于國外先進(jìn)水平。
在大數(shù)據(jù)存儲(chǔ)方面,數(shù)據(jù)的爆炸式增長、數(shù)據(jù)來源的極其豐富和數(shù)據(jù)類型的多種多樣,使數(shù)據(jù)存儲(chǔ)量更龐大、對(duì)數(shù)據(jù)展現(xiàn)的要求更高,而目前中國傳統(tǒng)的數(shù)據(jù)庫還難以存儲(chǔ)如此巨大的數(shù)據(jù)量。在大數(shù)據(jù)的分析處理方面,由于針對(duì)具體的應(yīng)用類型,需要采用不同的處理方式,因此必須通過建立高級(jí)大數(shù)據(jù)的分析模型,來實(shí)現(xiàn)快速抽取大數(shù)據(jù)的核心數(shù)據(jù)、高效分析這些核心數(shù)據(jù)并從中發(fā)現(xiàn)價(jià)值,而這些數(shù)據(jù)分析能力中國還很欠缺。
3.3 大數(shù)據(jù)的應(yīng)用能力挑戰(zhàn)
中國擁有龐大的人口資源和大數(shù)據(jù)應(yīng)用市場(chǎng),市場(chǎng)復(fù)雜度高且變化多端,使中國成為世界上最復(fù)雜的大數(shù)據(jù)國家。中國互聯(lián)網(wǎng)用戶通過利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)來提升自身的商業(yè)和科研價(jià)值,企業(yè)用戶也已積累了大量的數(shù)據(jù)信息資產(chǎn),如產(chǎn)品數(shù)據(jù)、運(yùn)營數(shù)據(jù)和價(jià)值鏈數(shù)據(jù)等。隨著中國企業(yè)信息化系統(tǒng)的深入部署和逐步完善,大數(shù)據(jù)應(yīng)用能力所引發(fā)的商業(yè)模式的改變,將直接影響中國企業(yè)的競(jìng)爭能力。
在政府決策方面,當(dāng)前中國政府部門的數(shù)據(jù)規(guī)模還很小,多數(shù)仍集中在對(duì)結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用上,而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的利用則幾乎為空白。利用數(shù)據(jù)分析來支撐政府決策,中國做得還很不夠。從認(rèn)識(shí)到“大數(shù)據(jù)能產(chǎn)生價(jià)值”,到實(shí)現(xiàn)了“從大數(shù)據(jù)中找到價(jià)值”,再到“有效使用大數(shù)據(jù)產(chǎn)生的價(jià)值”,政府目前也只是剛剛起步[9]。
3.4 大數(shù)據(jù)的人才培養(yǎng)能力挑戰(zhàn)
大數(shù)據(jù)領(lǐng)域技術(shù)人才和商業(yè)人才的缺乏,是一個(gè)全球性的問題。麥肯錫的一項(xiàng)研究顯示,僅美國每年就有14萬~19萬名數(shù)據(jù)科學(xué)家的缺口,預(yù)計(jì)到2018年將達(dá)到44萬~49萬名,而數(shù)據(jù)科學(xué)家則更是嚴(yán)重缺乏。
中國大數(shù)據(jù)分析專業(yè)人才缺口究竟有多大,有專家粗略估算至少需要100萬人。當(dāng)前,具備綜合掌控?cái)?shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等方面知識(shí)的復(fù)合型人才,同時(shí)又可承擔(dān)數(shù)據(jù)分析和數(shù)據(jù)挖掘的數(shù)據(jù)科學(xué)家,在中國尤為奇缺。目前,中國初級(jí)的分析人員只能對(duì)數(shù)據(jù)進(jìn)行簡單的報(bào)表和描述性分析,而隨著未來大數(shù)據(jù)應(yīng)用的不斷增長,中國大數(shù)據(jù)人才儲(chǔ)備不足的問題將更加嚴(yán)重。
發(fā)展中國的大數(shù)據(jù)產(chǎn)業(yè),積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代帶來的諸多挑戰(zhàn),需要我們具有超前的戰(zhàn)略部署思維、完備的數(shù)據(jù)安全保障能力、先進(jìn)的數(shù)據(jù)開發(fā)能力,更要具有一流的數(shù)據(jù)分析人才培養(yǎng)機(jī)制。
4.1 大數(shù)據(jù)的應(yīng)用能力挑戰(zhàn)
大數(shù)據(jù)時(shí)代,國家之間的競(jìng)爭已經(jīng)部分體現(xiàn)為擁有大數(shù)據(jù)規(guī)模的競(jìng)爭,體現(xiàn)為對(duì)大數(shù)據(jù)分析和運(yùn)用能力的競(jìng)爭。有專家指出,大數(shù)據(jù)是國家在網(wǎng)絡(luò)空間數(shù)字主權(quán)的體現(xiàn),也將是繼海、陸、空、天競(jìng)爭之后,大國之間進(jìn)行博弈的另一個(gè)空間。
當(dāng)前,發(fā)達(dá)國家已經(jīng)開始了大數(shù)據(jù)的戰(zhàn)略部署,但中國的大數(shù)據(jù)發(fā)展還只處于起步階段。IDC于2012年下半年發(fā)布的《中國大數(shù)據(jù)技術(shù)與服務(wù)市場(chǎng)2012—2016年預(yù)測(cè)與分析》顯示,中國大數(shù)據(jù)市場(chǎng)規(guī)模將從2011年的7760萬美元,增長到2016年的6.17億美元,未來5年的復(fù)合增長率將達(dá)51.4%。因此,中國亟需在國家層面對(duì)大數(shù)據(jù)發(fā)展給予高度重視,提早開始對(duì)大數(shù)據(jù)的戰(zhàn)略部署,特別需要從政策制定、資源投入、關(guān)鍵技術(shù)研發(fā)和人才培養(yǎng)等方面,從國家宏觀層面給予大力支持。2012年6月,中國計(jì)算機(jī)協(xié)會(huì)決定成立“CCF大數(shù)據(jù)專家委員會(huì)”,積極推動(dòng)大數(shù)據(jù)在中國的發(fā)展。2012年7月,“第二屆大數(shù)據(jù)世界論壇”在北京召開,同月首屆中國大數(shù)據(jù)應(yīng)用論壇在北京大學(xué)召開。
4.2 重視安全防護(hù),保障大數(shù)據(jù)信息安全
從數(shù)據(jù)安全防護(hù)的角度,保障中國大數(shù)據(jù)的信息安全,需要從數(shù)據(jù)的收集、存儲(chǔ)、傳輸、分析和處理以及可視化展示等各個(gè)環(huán)節(jié),注重大數(shù)據(jù)信息的保護(hù)。特別要在提高安全防護(hù)技術(shù)水平、保障網(wǎng)絡(luò)安全以及保障云存儲(chǔ)和云安全等方面加強(qiáng)研究。同時(shí),也要注重在保護(hù)用戶個(gè)人隱私安全方面的研究。
完善中國的數(shù)據(jù)安全保障體系,同樣需要在數(shù)據(jù)安全保護(hù)和數(shù)據(jù)開放利用兩方面尋找平衡,使大眾能夠在享用大數(shù)據(jù)帶來的社會(huì)進(jìn)步的同時(shí),也可保障數(shù)據(jù)的信息安全。此外,適時(shí)出臺(tái)大數(shù)據(jù)相關(guān)政策和法律法規(guī),也對(duì)保障中國大數(shù)據(jù)的信息安全具有重要意義。國外的通常做法是設(shè)置安全機(jī)制,采用第三方信息安全審計(jì),并對(duì)數(shù)據(jù)的使用做出明確規(guī)定。美國的“大數(shù)據(jù)研究發(fā)展倡議”還專門設(shè)立了多項(xiàng)與信息安全相關(guān)的項(xiàng)目,以解決大數(shù)據(jù)應(yīng)用中的安全問題。
4.3 創(chuàng)新培養(yǎng)模式,打造大數(shù)據(jù)一流人才
大數(shù)據(jù)人才包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和首席數(shù)據(jù)執(zhí)行官(CDO)等,通常都需要具備多個(gè)領(lǐng)域的專業(yè)知識(shí)背景,且至少具備四個(gè)方面的專業(yè)技能,即技術(shù)(軟件和系統(tǒng)等)、數(shù)學(xué)(統(tǒng)計(jì)、建模和算法等)、商業(yè)分析(從事領(lǐng)域的相關(guān)知識(shí))和可視化(語言和圖表等)。目前傳統(tǒng)的數(shù)據(jù)分析人員僅僅具備一個(gè)或兩個(gè)這方面的專業(yè)技能,還不具備開發(fā)分析應(yīng)用程序模型等技能[10]。
加強(qiáng)中國大數(shù)據(jù)人才的培養(yǎng),需要?jiǎng)?chuàng)新培養(yǎng)模式,探索企業(yè)依據(jù)發(fā)展需求自主培養(yǎng),或大學(xué)與企業(yè)聯(lián)合培養(yǎng)的新模式。2013年,北京航空航天大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院和百度、淘寶、騰訊等企業(yè)合作,聯(lián)合開辦了國內(nèi)第一個(gè)大數(shù)據(jù)專業(yè)的工程碩士班。這種由企業(yè)和大學(xué)合作來培養(yǎng)所需要的大數(shù)據(jù)人才,主要是考慮大數(shù)據(jù)的解剖對(duì)象是大量的數(shù)據(jù),而學(xué)校并不生產(chǎn)數(shù)據(jù),只有企業(yè)才擁有數(shù)據(jù)。因此,在企業(yè)的支持下,學(xué)校將能夠通過具有針對(duì)性的實(shí)踐訓(xùn)練,培養(yǎng)學(xué)生的數(shù)據(jù)分析能力,打造社會(huì)所需要的大數(shù)據(jù)人才。
4.4 研發(fā)關(guān)鍵技術(shù),促進(jìn)中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展
大數(shù)據(jù)的競(jìng)爭是技術(shù)實(shí)力與創(chuàng)新能力的競(jìng)爭,距離數(shù)據(jù)越近的產(chǎn)業(yè)環(huán)節(jié),其產(chǎn)生的產(chǎn)業(yè)價(jià)值就越大。誰掌控了相關(guān)的關(guān)鍵技術(shù),誰就有可能成為大數(shù)據(jù)產(chǎn)業(yè)的主導(dǎo)者。中科院專家指出,大數(shù)據(jù)的技術(shù)挑戰(zhàn)主要包括7種[11]:大數(shù)據(jù)的去冗降噪技術(shù),大數(shù)據(jù)的新型表示方法,高效率低成本的大數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)的有效融合,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理,適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境,大幅度降低數(shù)據(jù)處理、存儲(chǔ)和通信能耗的新技術(shù)。
目前國外已經(jīng)有一些公司試圖通過數(shù)據(jù)挖掘提取更多的價(jià)值,它們開發(fā)的數(shù)據(jù)挖掘工具也已經(jīng)開始嵌入到需要數(shù)據(jù)分析的企業(yè)內(nèi)部。例如,Hadoop平臺(tái)、SQL Server等都開始深入海量數(shù)據(jù)的挖掘工作。中國的購物網(wǎng)站之一淘寶網(wǎng),也正在利用其掌握的第一手用戶數(shù)據(jù)推出“淘寶魔方”服務(wù),通過后臺(tái)數(shù)據(jù),挖掘用戶評(píng)論、瀏覽量、收藏量等信息,進(jìn)而預(yù)測(cè)商家或商品的銷售趨勢(shì)[12]。
中國應(yīng)在大數(shù)據(jù)的關(guān)鍵技術(shù)領(lǐng)域加強(qiáng)研發(fā),如在大數(shù)據(jù)的分析方法、應(yīng)用技術(shù)及可視化技術(shù)等方面加大研發(fā)力度。尤其是要加大對(duì)大數(shù)據(jù)的實(shí)時(shí)集成、海量信息處理和管理、云存儲(chǔ)、云計(jì)算等關(guān)鍵技術(shù)的研發(fā)力度。
[1]但彬.大數(shù)據(jù)、大挑戰(zhàn)、大機(jī)遇[EB/OL].[2011-11-02].http://www.yesky.com/.
[2]李志剛.大數(shù)據(jù)——大價(jià)值、大機(jī)遇、大變革[M].北京:電子工業(yè)出版社,2012.
[3]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013.
[4]James Manyika,Michael Chui,Brad Brown,Jacques Bughin,Richard Dobbs,Charles Roxburgh,Angela Hung Byers.Big Data:the Next Frontier for Innovation,Competition,and Productivity.McKinsey Global Institute.Annual Report:(6)[EB/OL].http://www.mckinsey/insight/business_technology/.2011.
[5]許曄,郭鐵成.“智慧地球”:從戰(zhàn)略理念到改變生活[N].經(jīng)濟(jì)參考報(bào),2013-03-19(5).
[6][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[7]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].桂林:廣西師范大學(xué)出版社,2012.
[8]惠志斌.大數(shù)據(jù)時(shí)代個(gè)人信息安全保護(hù)[N].社會(huì)科學(xué)報(bào),2013-05-04(3).
[9]朱幼平.大數(shù)據(jù)決策將強(qiáng)力推進(jìn)我國經(jīng)濟(jì)發(fā)展方式轉(zhuǎn)型[EB/OL].[2012-12-21].國家信息中心中經(jīng)網(wǎng)http://m.blog.sina.com.cn/s/blog_5009e20501019ays.html.
[10]譚光柱.大數(shù)據(jù)時(shí)代已來臨 分析成難點(diǎn)[EB/OL].[2012-11-09].中國互聯(lián)網(wǎng)絡(luò)信息中心http://www.cnidp.cn.
[11]趙海娟.掘金大數(shù)據(jù) 亟待國家戰(zhàn)略支持[N].中國經(jīng)濟(jì)時(shí)報(bào),2013-01-22(2).
[12]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013.
(責(zé)任編輯 沈蓉)
Challenges and Countermeasures in the Age of Big Data
Xu Ye
(Chinese Academy of Science and Technology for Development,Beijing 100038,China)
In this paper,we study the concept and features of big data,analyze the pattern of data’s big bang,as well as what it may bring about to the world.At the same time,we point out several challenges China has to face in the age of big data,which contains managing in security,storing and progressing,applying,and experts training.And then,we propose some advices and proposals.
Big data;Strategic resources;Data security;Data talents
國家軟科學(xué)研究計(jì)劃(2011GXS4K077),國家軟科學(xué)研究計(jì)劃(2011GXS5K101)。
2014-06-06
許曄(1966-),女,遼寧大連人,中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院研究員;研究方向:信息通信、技術(shù)預(yù)測(cè)、科技戰(zhàn)略。
G312
A