李國(guó)杰
中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190
對(duì)大數(shù)據(jù)的再認(rèn)識(shí)
李國(guó)杰
中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190
大數(shù)據(jù)已成為媒體與大眾關(guān)注的新技術(shù),大數(shù)據(jù)的應(yīng)用也預(yù)示著信息時(shí)代將進(jìn)入一個(gè)新階段,但人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)有一個(gè)不斷加深的過程。首先從“信息時(shí)代新階段”、數(shù)據(jù)文化和認(rèn)識(shí)論的高度闡述了對(duì)大數(shù)據(jù)的理解;接著通過對(duì)驅(qū)動(dòng)效益和大成智慧的解釋,探討了如何正確認(rèn)識(shí)大數(shù)據(jù)的價(jià)值和效益,并從復(fù)雜性的角度分析了大數(shù)據(jù)研究和應(yīng)用面臨的挑戰(zhàn);最后對(duì)發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)提出幾點(diǎn)看法。
大數(shù)據(jù);認(rèn)識(shí)論;大成智慧;復(fù)雜性
1.1 看待大數(shù)據(jù)要有歷史性的眼光
信息時(shí)代是相對(duì)于農(nóng)業(yè)和工業(yè)時(shí)代而言的一段相當(dāng)長(zhǎng)的時(shí)間。不同時(shí)代的生產(chǎn)要素和社會(huì)發(fā)展驅(qū)動(dòng)力有明顯差別。信息時(shí)代的標(biāo)志性技術(shù)發(fā)明是數(shù)字計(jì)算機(jī)、集成電路、光纖通信和互聯(lián)網(wǎng)(萬(wàn)維網(wǎng))。盡管媒體上大量出現(xiàn)“大數(shù)據(jù)時(shí)代”的說法,但大數(shù)據(jù)、云計(jì)算等新技術(shù)目前還沒有出現(xiàn)與上述劃時(shí)代的技術(shù)發(fā)明可媲美的技術(shù)突破,難以構(gòu)成一個(gè)超越信息時(shí)代的新時(shí)代。信息時(shí)代可以分成若干階段,大數(shù)據(jù)等新技術(shù)的應(yīng)用標(biāo)志著信息社會(huì)將進(jìn)入一個(gè)新階段。
考察分析100年以上的歷史長(zhǎng)河可以發(fā)現(xiàn),信息時(shí)代與工業(yè)時(shí)代的發(fā)展規(guī)律有許多相似之處。電氣化時(shí)代與信息時(shí)代生產(chǎn)率的提高過程驚人地相似。都是經(jīng)過20~30年擴(kuò)散儲(chǔ)備之后才有明顯提高,分界線分別是1915年和1995年[1]。筆者猜想,信息技術(shù)經(jīng)過幾十年的擴(kuò)散儲(chǔ)備后,21世紀(jì)的前30年可能是信息技術(shù)提高生產(chǎn)率的黃金時(shí)期。
1.2 從“信息時(shí)代新階段”的高度認(rèn)識(shí)“大數(shù)據(jù)”
中國(guó)已開始進(jìn)入信息時(shí)代,但許多人的思想還停留在工業(yè)時(shí)代。經(jīng)濟(jì)和科技工作中出現(xiàn)的許多問題,其根源是對(duì)時(shí)代的認(rèn)識(shí)不到位。18-19世紀(jì)中國(guó)落后挨打,根源是滿清政府沒有認(rèn)識(shí)到時(shí)代變了,我們不能重犯歷史性的錯(cuò)誤。
中央提出中國(guó)進(jìn)入經(jīng)濟(jì)“新常態(tài)”以后,媒體上有很多討論,但多數(shù)是為經(jīng)濟(jì)增速降低做解釋,很少有從時(shí)代改變的角度論述“新常態(tài)”的文章。筆者認(rèn)為,經(jīng)濟(jì)新常態(tài)意味著中國(guó)進(jìn)入了以信息化帶動(dòng)新型工業(yè)化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化的新階段,是經(jīng)濟(jì)和社會(huì)管理的躍遷,不是權(quán)宜之計(jì),更不是倒退。
大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計(jì)算、物聯(lián)網(wǎng)等新一代信息技術(shù)構(gòu)成的IT架構(gòu)“第三平臺(tái)”1第一平臺(tái)是指集中式的大型主機(jī),第二平臺(tái)是指服務(wù)器/客戶端應(yīng)用模式的互聯(lián)網(wǎng)平臺(tái),第三平臺(tái)是指移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)、大數(shù)據(jù)、物聯(lián)網(wǎng)等構(gòu)成的新一代IT架構(gòu)。是信息社會(huì)進(jìn)入新階段的標(biāo)志,對(duì)整個(gè)經(jīng)濟(jì)的轉(zhuǎn)型有引領(lǐng)和帶動(dòng)作用。媒體上經(jīng)常出現(xiàn)的互聯(lián)網(wǎng)+、創(chuàng)客、“第二次機(jī)器革命”、“工業(yè)4.0”等都與大數(shù)據(jù)和云計(jì)算有關(guān)。大數(shù)據(jù)和云計(jì)算是新常態(tài)下提高生產(chǎn)率的新杠桿,所謂創(chuàng)新驅(qū)動(dòng)發(fā)展就是主要依靠信息技術(shù)促進(jìn)生產(chǎn)率的提高。
1.3 大數(shù)據(jù)可能是中國(guó)信息產(chǎn)業(yè)從跟蹤走向引領(lǐng)的突破口
中國(guó)的大數(shù)據(jù)企業(yè)已經(jīng)有相當(dāng)好的基礎(chǔ)。全球十大互聯(lián)網(wǎng)服務(wù)企業(yè)中國(guó)占有4席(阿里巴巴、騰訊、百度和京東),其他6個(gè)Top10 互聯(lián)網(wǎng)服務(wù)企業(yè)全部是美國(guó)企業(yè),歐洲和日本沒有互聯(lián)網(wǎng)企業(yè)進(jìn)入Top10。這說明中國(guó)企業(yè)在基于大數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)業(yè)務(wù)上已處于世界前列。在發(fā)展大數(shù)據(jù)技術(shù)上,我國(guó)有可能改變過去30年技術(shù)受制于人的局面,在大數(shù)據(jù)應(yīng)用上中國(guó)有可能在全世界起到引領(lǐng)作用。
但是,企業(yè)的規(guī)模走在世界前列并不表示我國(guó)在大數(shù)據(jù)技術(shù)上領(lǐng)先。實(shí)際上,國(guó)際上目前流行的大數(shù)據(jù)主流技術(shù)沒有一項(xiàng)是我國(guó)開創(chuàng)的。開源社區(qū)和眾包是發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的重要途徑,但我們對(duì)開源社區(qū)的貢獻(xiàn)很小,在全球近萬(wàn)名社區(qū)核心志愿者中,我國(guó)可能不到200名。我們要吸取過去基礎(chǔ)研究為企業(yè)提供核心技術(shù)不夠的教訓(xùn),加強(qiáng)大數(shù)據(jù)基礎(chǔ)研究和前瞻技術(shù)研究,努力攻克大數(shù)據(jù)核心和關(guān)鍵技術(shù)。
2.1 數(shù)據(jù)文化是一種先進(jìn)文化
數(shù)據(jù)文化的本質(zhì)是尊重客觀世界的實(shí)事求是精神,數(shù)據(jù)就是事實(shí)。重視數(shù)據(jù)就是強(qiáng)調(diào)用事實(shí)說話、按理性思維的科學(xué)精神。中國(guó)人的傳統(tǒng)習(xí)慣是定性思維而不是定量思維。目前許多城市在開展政府?dāng)?shù)據(jù)開放共享工作,但是發(fā)現(xiàn)多數(shù)老百姓對(duì)政府要開放的數(shù)據(jù)并不感興趣。要讓大數(shù)據(jù)走上健康的發(fā)展軌道,首先要大力弘揚(yáng)數(shù)據(jù)文化。本文講的數(shù)據(jù)文化不只是大數(shù)據(jù)用于文藝、出版等文化產(chǎn)業(yè),而是指全民的數(shù)據(jù)意識(shí)。全社會(huì)應(yīng)認(rèn)識(shí)到:信息化的核心是數(shù)據(jù),只有政府和大眾都關(guān)注數(shù)據(jù)時(shí),才能真正理解信息化的實(shí)質(zhì);數(shù)據(jù)是一種新的生產(chǎn)要素,大數(shù)據(jù)的利用可以改變資本和土地等傳統(tǒng)要素在經(jīng)濟(jì)中的權(quán)重。
有人將“上帝與數(shù)據(jù)共舞”歸納為美國(guó)文化的特點(diǎn)之一,說的是美國(guó)人既有對(duì)神的誠(chéng)意,又有通過數(shù)據(jù)求真的理性。美國(guó)從鍍金時(shí)代到進(jìn)步主義時(shí)期完成了數(shù)據(jù)文化的思維轉(zhuǎn)變,南北戰(zhàn)爭(zhēng)之后人口普查的方法被應(yīng)用到很多領(lǐng)域,形成了數(shù)據(jù)預(yù)測(cè)分析的思維方式。近百年來美國(guó)和西方各國(guó)的現(xiàn)代化與數(shù)據(jù)文化的傳播滲透有密切關(guān)系,我國(guó)要實(shí)現(xiàn)現(xiàn)代化也必須強(qiáng)調(diào)數(shù)據(jù)文化。
提高數(shù)據(jù)意識(shí)的關(guān)鍵是要理解大數(shù)據(jù)的戰(zhàn)略意義。數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源,數(shù)據(jù)的采集和分析涉及每一個(gè)行業(yè),是帶有全局性和戰(zhàn)略性的技術(shù)。從硬技術(shù)到軟技術(shù)的轉(zhuǎn)變是當(dāng)今全球性的技術(shù)發(fā)展趨勢(shì),而從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的技術(shù)正是最有活力的軟技術(shù),數(shù)據(jù)技術(shù)與數(shù)據(jù)產(chǎn)業(yè)的落后將使我們像錯(cuò)過工業(yè)革命機(jī)會(huì)一樣延誤一個(gè)時(shí)代。
2.2 理解大數(shù)據(jù)需要有正確的認(rèn)識(shí)論
歷史上科學(xué)研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導(dǎo)出來。從伽利略和牛頓開始,科學(xué)研究更加重視自然觀察和實(shí)驗(yàn)觀察,在觀察基礎(chǔ)上通過歸納方法提煉出科學(xué)理論,“科學(xué)始于觀察”成為科學(xué)研究和認(rèn)識(shí)論的主流。經(jīng)驗(yàn)論和唯理論這兩大流派都對(duì)科學(xué)的發(fā)展做出過重大貢獻(xiàn),但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨(dú)斷主義,經(jīng)驗(yàn)主義走入極端就變成懷疑論和不可知論[2]。
20世紀(jì)30年代,德國(guó)哲學(xué)家波普爾提出了被后人稱為“證偽主義”的認(rèn)識(shí)論觀點(diǎn),他認(rèn)為科學(xué)理論不能用歸納法證實(shí),只能被試驗(yàn)發(fā)現(xiàn)的反例“證偽”,因而他否定科學(xué)始于觀察,提出“科學(xué)始于問題”的著名觀點(diǎn)[3]。證偽主義有其局限性,如果嚴(yán)格遵守證偽法則,萬(wàn)有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但“科學(xué)始于問題”的觀點(diǎn)對(duì)當(dāng)前大數(shù)據(jù)技術(shù)的發(fā)展有指導(dǎo)意義。
大數(shù)據(jù)的興起引發(fā)了新的科學(xué)研究模式:“科學(xué)始于數(shù)據(jù)”。從認(rèn)識(shí)論的角度看,大數(shù)據(jù)分析方法與“科學(xué)始于觀察”的經(jīng)驗(yàn)論較為接近,但我們要牢記歷史的教訓(xùn),避免滑入否定理論作用的經(jīng)驗(yàn)主義泥坑。在強(qiáng)調(diào)“相關(guān)性”的時(shí)候不要懷疑“因果性”的存在;在宣稱大數(shù)據(jù)的客觀性、中立性的時(shí)候,不要忘了不管數(shù)據(jù)的規(guī)模如何,大數(shù)據(jù)總會(huì)受制于自身的局限性和人的偏見。不要相信這樣的預(yù)言:“采用大數(shù)據(jù)挖掘,你不需要對(duì)數(shù)據(jù)提出任何問題,數(shù)據(jù)就會(huì)自動(dòng)產(chǎn)生知識(shí)”。面對(duì)像大海一樣的巨量數(shù)據(jù),從事數(shù)據(jù)挖掘的科技人員最大的困惑是,我們想撈的“針”是什么?這海里究竟有沒有“針”?也就是說,我們需要知道要解決的問題是什么。從這個(gè)意義上講,“科學(xué)始于數(shù)據(jù)”與“科學(xué)始于問題”應(yīng)有機(jī)地結(jié)合起來。
對(duì)“原因”的追求是科學(xué)發(fā)展的永恒動(dòng)力。但是,原因是追求不完的,人類在有限的時(shí)間內(nèi)不可能找到“終極真理”。在科學(xué)的探索途中,人們往往用“這是客觀規(guī)律”解釋世界,并不立即追問為什么有這樣的客觀規(guī)律。也就是說,傳統(tǒng)科學(xué)并非只追尋因果性,也可以用客觀規(guī)律作為結(jié)論。大數(shù)據(jù)研究的結(jié)果多半是一些新的知識(shí)或新的模型,這些知識(shí)和模型也可以用來預(yù)測(cè)未來,可以認(rèn)為是一類局部性的客觀規(guī)律??茖W(xué)史上通過小數(shù)據(jù)模型發(fā)現(xiàn)一般性規(guī)律的例子不少,比如開普勒歸納的天體運(yùn)動(dòng)規(guī)律等;而大數(shù)據(jù)模型多半是發(fā)現(xiàn)一些特殊性的規(guī)律。物理學(xué)中的定律一般具有必然性,但大數(shù)據(jù)模型不一定具有必然性,也不一定具有可演繹性。大數(shù)據(jù)研究的對(duì)象往往是人的心理和社會(huì),在知識(shí)階梯上位于較高層,其自然邊界是模糊的,但有更多的實(shí)踐特征。大數(shù)據(jù)研究者更重視知行合一,相信實(shí)踐論。大數(shù)據(jù)認(rèn)識(shí)論有許多與傳統(tǒng)認(rèn)識(shí)論不同的特點(diǎn),我們不能因其特點(diǎn)不同就否定大數(shù)據(jù)方法的科學(xué)性。大數(shù)據(jù)研究挑戰(zhàn)了傳統(tǒng)認(rèn)識(shí)論對(duì)因果性的偏愛,用數(shù)據(jù)規(guī)律補(bǔ)充了單一的因果規(guī)律,實(shí)現(xiàn)了唯理論和經(jīng)驗(yàn)論的數(shù)據(jù)化統(tǒng)一,一種全新的大數(shù)據(jù)認(rèn)識(shí)論正在形成。
3.1 大數(shù)據(jù)的價(jià)值主要體現(xiàn)為它的驅(qū)動(dòng)效應(yīng)
人們總是期望從大數(shù)據(jù)中挖掘出意想不到的“大價(jià)值”。實(shí)際上大數(shù)據(jù)的價(jià)值主要體現(xiàn)在它的驅(qū)動(dòng)效應(yīng),即帶動(dòng)有關(guān)的科研和產(chǎn)業(yè)發(fā)展,提高各行各業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力。大數(shù)據(jù)對(duì)經(jīng)濟(jì)的貢獻(xiàn)并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對(duì)其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)要采用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對(duì)農(nóng)業(yè)的貢獻(xiàn)。
電子計(jì)算機(jī)的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學(xué)中,當(dāng)通過研究那些與終極目標(biāo)相比頗為樸實(shí)的問題,發(fā)展出一些可以不斷加以推廣的方法時(shí),這門學(xué)科就得到了巨大的進(jìn)展。”我們不必天天期盼奇跡出現(xiàn),多做一些“頗為樸實(shí)”的事情,實(shí)際的進(jìn)步就在扎扎實(shí)實(shí)的努力之中。媒體喜歡宣傳一些令人驚奇的大數(shù)據(jù)成功案例,對(duì)這些案例我們應(yīng)保持清醒的頭腦。據(jù)Intel中國(guó)研究院首席工程師吳甘沙在一次報(bào)告中透露,所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例,其實(shí)是Teradata公司一位經(jīng)理編出來的“故事”,歷史上并沒有發(fā)生過[4]。即使有這個(gè)案例,也不說明大數(shù)據(jù)分析本身有什么神奇,大數(shù)據(jù)中看起來毫不相關(guān)的兩件事同時(shí)或相繼出現(xiàn)的現(xiàn)象比比皆是,關(guān)鍵是人的分析推理找出為什么兩件事物同時(shí)或相繼出現(xiàn),找對(duì)了理由才是新知識(shí)或新發(fā)現(xiàn)的規(guī)律,相關(guān)性本身并沒有多大價(jià)值。
有一個(gè)家喻戶曉的寓言可以從一個(gè)角度說明大數(shù)據(jù)的價(jià)值:一位老農(nóng)民臨終前告訴他的3個(gè)兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪里。他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由于深挖了土地,從此莊稼收成特別好。數(shù)據(jù)收集、分析的能力提高了,即使沒有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識(shí),大數(shù)據(jù)的價(jià)值也已逐步體現(xiàn)。
3.2 大數(shù)據(jù)的力量來自“大成智慧”
每一種數(shù)據(jù)來源都有一定的局限性和片面性,只有融合、集成各方面的原始數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。不同的數(shù)據(jù)可能描述同一實(shí)體,但角度不同。對(duì)同一個(gè)問題,不同的數(shù)據(jù)能提供互補(bǔ)信息,可對(duì)問題有更深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來源的數(shù)據(jù)是關(guān)鍵。
數(shù)據(jù)科學(xué)是數(shù)學(xué)(統(tǒng)計(jì)、代數(shù)、拓?fù)涞龋⒂?jì)算機(jī)科學(xué)、基礎(chǔ)科學(xué)和各種應(yīng)用科學(xué)融合的科學(xué),類似錢學(xué)森先生提出的“大成智慧學(xué)”[5]。錢老指出:“必集大成,才能得智慧”。大數(shù)據(jù)能不能出智慧,關(guān)鍵在于對(duì)多種數(shù)據(jù)源的集成和融合。IEEE計(jì)算機(jī)學(xué)會(huì)最近發(fā)布了2014年的計(jì)算機(jī)技術(shù)發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告,重點(diǎn)強(qiáng)調(diào)“無縫智慧(seamless intelligence)”。發(fā)展大數(shù)據(jù)的目標(biāo)就是要獲得協(xié)同融合的“無縫智慧”。單靠一種數(shù)據(jù)源,即使數(shù)據(jù)規(guī)模很大,也可能出現(xiàn)“瞎子摸象”一樣的片面性。數(shù)據(jù)的開放共享不是錦上添花的工作,而是決定大數(shù)據(jù)成敗的必要前提。
大數(shù)據(jù)研究和應(yīng)用要改變過去各部門和各學(xué)科相互分割、獨(dú)立發(fā)展的傳統(tǒng)思路,重點(diǎn)不是支持單項(xiàng)技術(shù)和單個(gè)方法的發(fā)展,而是強(qiáng)調(diào)不同部門、不同學(xué)科的協(xié)作。數(shù)據(jù)科學(xué)不是垂直的“煙囪”,而是像環(huán)境、能源科學(xué)一樣的橫向集成科學(xué)。
3.3 大數(shù)據(jù)遠(yuǎn)景燦爛,但近期不能期望太高
交流電問世時(shí)主要用作照明,根本想象不到今天無處不在的應(yīng)用。大數(shù)據(jù)技術(shù)也一樣,將來一定會(huì)產(chǎn)生許多現(xiàn)在想不到的應(yīng)用。我們不必?fù)?dān)心大數(shù)據(jù)的未來,但近期要非常務(wù)實(shí)地工作。人們往往對(duì)近期的發(fā)展估計(jì)過高,而對(duì)長(zhǎng)期的發(fā)展估計(jì)不足。Gartner公司預(yù)測(cè),大數(shù)據(jù)技術(shù)要在5~10年后才會(huì)成為較普遍采用的主流技術(shù),對(duì)發(fā)展大數(shù)據(jù)技術(shù)要有足夠的耐心。
大數(shù)據(jù)與其他信息技術(shù)一樣,在一段時(shí)間內(nèi)遵循指數(shù)發(fā)展規(guī)律。指數(shù)發(fā)展的特點(diǎn)是,從一段歷史時(shí)期衡量(至少30年),前期發(fā)展比較慢,經(jīng)過相當(dāng)長(zhǎng)時(shí)間(可能需要20年以上)的積累,會(huì)出現(xiàn)一個(gè)拐點(diǎn),過了拐點(diǎn)以后,就會(huì)出現(xiàn)爆炸式的增長(zhǎng)。但任何技術(shù)都不會(huì)永遠(yuǎn)保持“指數(shù)性”增長(zhǎng),一般而言,高技術(shù)發(fā)展遵循Gartner公司描述的技術(shù)成熟度曲線(hype cycle)2技術(shù)成熟度曲線是指新技術(shù)、新概念在媒體上曝光度隨時(shí)間變化的曲線,反映新技術(shù)從炒作到跌入低谷再到正常發(fā)展的規(guī)律,Gartner公司每年發(fā)布一次。,最后可能進(jìn)入良性發(fā)展的穩(wěn)定狀態(tài)或者走向消亡。
需要采用大數(shù)據(jù)技術(shù)來解決的問題往往都是十分復(fù)雜的問題,比如社會(huì)計(jì)算、生命科學(xué)、腦科學(xué)等,這些問題絕不是幾代人的努力就可以解決的。宇宙經(jīng)過百億年的演化,才出現(xiàn)生物和人類,其復(fù)雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數(shù)百萬(wàn)年甚至更長(zhǎng)遠(yuǎn)的未來,大數(shù)據(jù)技術(shù)只是科學(xué)技術(shù)發(fā)展長(zhǎng)河中的一朵浪花,對(duì)10~20年大數(shù)據(jù)研究可能取得的科學(xué)成就不能抱有不切實(shí)際的幻想。
大數(shù)據(jù)技術(shù)和人類探索復(fù)雜性的努力有密切關(guān)系。20世紀(jì)70年代,新三論(耗散結(jié)構(gòu)論、協(xié)同論、突變論)的興起對(duì)幾百年來貫穿科學(xué)技術(shù)研究的還原論發(fā)起了挑戰(zhàn)。1984年蓋爾曼等3位諾貝爾獎(jiǎng)得主成立以研究復(fù)雜性為主的圣菲研究所,提出超越還原論的口號(hào),在科技界掀起了一場(chǎng)復(fù)雜性科學(xué)運(yùn)動(dòng)。雖然雷聲很大,但30年來并未取得預(yù)期的效果,其原因之一可能是當(dāng)時(shí)還沒有出現(xiàn)解決復(fù)雜性的技術(shù)。
集成電路、計(jì)算機(jī)與通信技術(shù)的發(fā)展大大增強(qiáng)了人類研究和處理復(fù)雜問題的能力。大數(shù)據(jù)技術(shù)將復(fù)雜性科學(xué)的新思想發(fā)揚(yáng)光大,可能使復(fù)雜性科學(xué)得以落地。復(fù)雜性科學(xué)是大數(shù)據(jù)技術(shù)的科學(xué)基礎(chǔ),大數(shù)據(jù)方法可以看作復(fù)雜性科學(xué)的技術(shù)實(shí)現(xiàn)。大數(shù)據(jù)方法為還原論與整體論的辯證統(tǒng)一提供了技術(shù)實(shí)現(xiàn)途徑。大數(shù)據(jù)研究要從復(fù)雜性研究中吸取營(yíng)養(yǎng),從事數(shù)據(jù)科學(xué)研究的學(xué)者不但要了解20世紀(jì)的“新三論”,可能還要學(xué)習(xí)與超循環(huán)、混沌、分形和元胞自動(dòng)機(jī)等理論有關(guān)的知識(shí),擴(kuò)大自己的視野,加深對(duì)大數(shù)據(jù)機(jī)理的理解。
大數(shù)據(jù)技術(shù)還不成熟,面對(duì)海量、異構(gòu)、動(dòng)態(tài)變化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理和分析技術(shù)難以應(yīng)對(duì),現(xiàn)有的數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的效率較低,成本和能耗較大,而且難以擴(kuò)展。這些挑戰(zhàn)大多來自數(shù)據(jù)本身的復(fù)雜性、計(jì)算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。
4.1 數(shù)據(jù)復(fù)雜性引起的挑戰(zhàn)
圖文檢索、主題發(fā)現(xiàn)、語(yǔ)義分析、情感分析等數(shù)據(jù)分析工作十分困難,其原因是大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性。目前,人們對(duì)大數(shù)據(jù)背后的物理意義缺乏理解,對(duì)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)律認(rèn)識(shí)不足,對(duì)大數(shù)據(jù)的復(fù)雜性和計(jì)算復(fù)雜性的內(nèi)在聯(lián)系也缺乏深刻理解,領(lǐng)域知識(shí)的缺乏制約了人們對(duì)大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計(jì)算方法的設(shè)計(jì)。形式化或定量化地描述大數(shù)據(jù)復(fù)雜性的本質(zhì)特征及度量指標(biāo),需要深入研究數(shù)據(jù)復(fù)雜性的內(nèi)在機(jī)理。人腦的復(fù)雜性主要體現(xiàn)在千萬(wàn)億級(jí)的樹突和軸突的鏈接,大數(shù)據(jù)的復(fù)雜性主要也體現(xiàn)在數(shù)據(jù)之間的相互關(guān)聯(lián)。理解數(shù)據(jù)之間關(guān)聯(lián)的奧秘可能是揭示微觀到宏觀“涌現(xiàn)”規(guī)律的突破口。大數(shù)據(jù)復(fù)雜性規(guī)律的研究有助于理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機(jī)理,從而簡(jiǎn)化大數(shù)據(jù)的表征,獲取更好的知識(shí)抽象。為此,需要建立多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型,理清數(shù)據(jù)復(fù)雜度和計(jì)算復(fù)雜度之間的內(nèi)在聯(lián)系,奠定大數(shù)據(jù)計(jì)算的理論基礎(chǔ)。
4.2 計(jì)算復(fù)雜性引起的挑戰(zhàn)
大數(shù)據(jù)計(jì)算不能像處理小樣本數(shù)據(jù)集那樣做全局?jǐn)?shù)據(jù)的統(tǒng)計(jì)分析和迭代計(jì)算,在分析大數(shù)據(jù)時(shí),需要重新審視和研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法。大數(shù)據(jù)樣本量巨大,內(nèi)在關(guān)聯(lián)密切而復(fù)雜,價(jià)值密度分布極不均衡,這些特征對(duì)建立大數(shù)據(jù)計(jì)算范式提出了挑戰(zhàn)。對(duì)于PB級(jí)的數(shù)據(jù),即使只有線性復(fù)雜性的計(jì)算也難以實(shí)現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無效計(jì)算。
傳統(tǒng)的計(jì)算復(fù)雜度是指某個(gè)問題求解時(shí)需要的時(shí)間空間與問題規(guī)模的函數(shù)關(guān)系,所謂具有多項(xiàng)式復(fù)雜性的算法是指當(dāng)問題的規(guī)模增大時(shí),計(jì)算時(shí)間和空間的增長(zhǎng)速度在可容忍的范圍內(nèi)。傳統(tǒng)科學(xué)計(jì)算關(guān)注的重點(diǎn)是,針對(duì)給定規(guī)模的問題,如何“算得快”。而在大數(shù)據(jù)應(yīng)用中,尤其是流式計(jì)算中,往往對(duì)數(shù)據(jù)處理和分析的時(shí)間、空間有明確限制,比如網(wǎng)絡(luò)服務(wù)如果回應(yīng)時(shí)間超過幾秒甚至幾毫秒,就會(huì)丟失許多用戶。大數(shù)據(jù)應(yīng)用本質(zhì)上是在給定的時(shí)間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計(jì)算復(fù)雜性的思維邏輯有很大的轉(zhuǎn)變。所謂“算得多”并不是計(jì)算的數(shù)據(jù)量越大越好,需要探索從足夠多的數(shù)據(jù),到剛剛好的數(shù)據(jù),再到有價(jià)值的數(shù)據(jù)的按需約簡(jiǎn)方法。
基于大數(shù)據(jù)求解困難問題的一條思路是放棄通用解,針對(duì)特殊的限制條件求具體問題的解。人類的認(rèn)知問題一般都是NP難問題,但只要數(shù)據(jù)充分多,在限制條件下可以找到十分滿意的解,近幾年自動(dòng)駕駛汽車取得重大進(jìn)展就是很好的案例。為了降低計(jì)算量,需要研究基于自舉和采樣的局部計(jì)算和近似方法,提出不依賴于全量數(shù)據(jù)的新型算法理論,研究適應(yīng)大數(shù)據(jù)的非確定性算法等理論。
4.3 系統(tǒng)復(fù)雜性引起的挑戰(zhàn)
大數(shù)據(jù)對(duì)計(jì)算機(jī)系統(tǒng)的運(yùn)行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評(píng)價(jià)與優(yōu)化問題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計(jì)算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計(jì)算精度、作業(yè)單位能耗等多種效能因素。針對(duì)大數(shù)據(jù)的價(jià)值稀疏性和訪問弱局部性的特點(diǎn),需要研究大數(shù)據(jù)的分布式存儲(chǔ)和處理架構(gòu)。
大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢(shì)是能在長(zhǎng)尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價(jià)值,但一種優(yōu)化的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬(wàn)種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機(jī)一樣的巨大市場(chǎng),這就是所謂“昆蟲綱悖論”[6]。為了化解計(jì)算機(jī)系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計(jì)算系統(tǒng)和可塑計(jì)算技術(shù)。
大數(shù)據(jù)應(yīng)用中,計(jì)算機(jī)系統(tǒng)的負(fù)載發(fā)生了本質(zhì)性變化,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點(diǎn)不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運(yùn);系統(tǒng)結(jié)構(gòu)設(shè)計(jì)的出發(fā)點(diǎn)要從重視單任務(wù)的完成時(shí)間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級(jí)以上。構(gòu)建以數(shù)據(jù)為中心的計(jì)算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動(dòng),必要的數(shù)據(jù)搬運(yùn)也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)椤拔浵伆岽竺住薄?/p>
5.1 不要一味追求“數(shù)據(jù)規(guī)模大”
大數(shù)據(jù)主要難點(diǎn)不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時(shí)回應(yīng)和原始數(shù)據(jù)真假難辨。現(xiàn)有數(shù)據(jù)庫(kù)軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準(zhǔn)化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點(diǎn)之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價(jià)值的結(jié)果。
一味追求數(shù)據(jù)規(guī)模大不僅會(huì)造成浪費(fèi),而且效果未必很好。多個(gè)來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價(jià)值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個(gè)PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
5.2 不要“技術(shù)驅(qū)動(dòng)”,要“應(yīng)用為先”
新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計(jì)繼“大數(shù)據(jù)”以后,“認(rèn)知計(jì)算”、“可穿戴設(shè)備”、“機(jī)器人”等新技術(shù)又會(huì)進(jìn)入炒作高峰。我們習(xí)慣于跟隨國(guó)外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動(dòng)”的道路。實(shí)際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗(yàn)一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。我國(guó)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅(jiān)持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅(jiān)持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計(jì)算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動(dòng)應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
5.3 不能拋棄“小數(shù)據(jù)”方法
流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時(shí)間內(nèi)采集、存儲(chǔ)、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導(dǎo)致認(rèn)識(shí)的誤區(qū)。按照這種定義,人們可能只會(huì)重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實(shí),目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實(shí)際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計(jì)學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會(huì)隨著數(shù)據(jù)量的增大而自動(dòng)填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會(huì)犯小數(shù)據(jù)采集一樣的統(tǒng)計(jì)偏差。Google公司的流感預(yù)測(cè)這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計(jì)誤差。
大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對(duì)化,實(shí)際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
5.4 要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺(tái)的成本
目前全國(guó)各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2 PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲(chǔ)3個(gè)月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價(jià)值是用成本換來的,不能不計(jì)成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時(shí)間,應(yīng)當(dāng)根據(jù)可能的價(jià)值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國(guó)的E級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)要求能耗降低1 000倍,計(jì)劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。
我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實(shí)際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實(shí)現(xiàn)信息化的策略一樣:目標(biāo)要遠(yuǎn)大、起步要精準(zhǔn)、發(fā)展要快速。
[1] Erik B, Andrew M. 第二次機(jī)器革命. 蔣永軍譯. 北京: 中信出版社, 2014 Erik B, Andrew M. The Second Machine Age. Translated by Jiang Y H. Beijing: Citic Press, 2014
[2] 黃欣榮. 大數(shù)據(jù)對(duì)科學(xué)認(rèn)識(shí)論的發(fā)展. 自然辯證法研究, 2014, 30(9): 83~88 Huang X R. The development of traditional epistemology base on big data. Studies in Dialectics of Nature, 2014, 30(9): 83~88
[3] Karl R P. 猜想與反駁: 科學(xué)知識(shí)的增長(zhǎng). 傅季重, 紀(jì)樹立, 周昌忠等譯. 上海: 上海譯文出版社, 2015 Karl R P. Conjectures and Refutations: the Growth Scientific Knowledge. Translated by Fu J Z, Ji S L, Zhou C Z, et al. Shanghai: Shanghai TranslationPublishing House, 2015
[4] 盧明森, 鮑世行. 錢學(xué)森論大成智慧. 北京:清華大學(xué)出版社, 2014 Lu M S, Bao S X. Qian Xuesin’s View on Wisdom in Cyberspase. Beijing: Tsinghua University Press, 2014
[5] 吳甘沙. 漫談大數(shù)據(jù)的思想形成與價(jià)值維度. http://www.chinainfo100.net/document/ 201404/article12793.htm, 2014 Wu G S. Discussion on thought formation and value dimension of big data. http:// www.chinainfo100.net/document/ 201404/ article12793.htm, 2014
[6] 徐志偉, 李國(guó)杰. 普惠計(jì)算之十二要點(diǎn). 集成技術(shù), 2012, 1(1) Xu Z W, Li G J. A dozen essential issues of computing for the masses. Journal of Integration Technology, 2012, 1(1)
Li G J. Futher understanding of big data. Big Data Research, 2015001
Further Understanding of Big Data
Li Guojie
Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Big data has become a new technology, which has drawn much attention of media and public. Widely applications of big data indicated that the information age will enter into a new stage. However, the understanding of big data is a process of deepening. The big data from the height of “new information age stage”, data culture and epistemology was expounded. Then how to correctly understand the value and benefit of big data through the explanation of driving effect and wisdom in cyberspace was discussed. The challenges for the research and application of big data technology from the angle of the complexity were analyzed. Finally, some views on avoiding the pitfalls when developing big data technologies were proposed.
big data, epistemology, wisdom in cyberspace, complexity
李國(guó)杰,男,博士,中國(guó)工程院院士?,F(xiàn)任中國(guó)科學(xué)院計(jì)算技術(shù)所首席科學(xué)家,曙光信息產(chǎn)業(yè)股份有限公司董事長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)名譽(yù)理事長(zhǎng),國(guó)家信息化專家咨詢委員會(huì)信息技術(shù)與新興產(chǎn)業(yè)專委會(huì)副主任,中國(guó)科學(xué)院學(xué)位委員會(huì)副主席,中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院院長(zhǎng),中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院院長(zhǎng)等。主要從事計(jì)算機(jī)體系結(jié)構(gòu)、并行算法、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)等方面的研究,發(fā)表論文100多篇,合著英文專著4本,出版了報(bào)告論文集《創(chuàng)新求索錄》。先后獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)、二等獎(jiǎng),首屆何梁何利基金科學(xué)與技術(shù)進(jìn)步獎(jiǎng)等獎(jiǎng)項(xiàng)。
2015-04-14;
:2015-05-07
李國(guó)杰. 對(duì)大數(shù)據(jù)的再認(rèn)識(shí). 大數(shù)據(jù), 2015001