劉卓軍
數(shù)據(jù)是原料,信息是產(chǎn)品,而真正能體現(xiàn)出價(jià)值的還得是信息?!皵?shù)據(jù)”堪稱為元詞,甚至《辭海》中都沒有關(guān)于它的明確詞條。對于“信息”,《辭?!穭t將其解釋成“泛指消息和信號的具體內(nèi)容和意義”。盡管如此,并不阻礙人們愉快地認(rèn)為,數(shù)據(jù)是用于表示客觀事物的未經(jīng)加工的原始素材,它是對事實(shí)、事物、系統(tǒng)的觀察或觀測到的結(jié)果,形式上具有多樣性。從人們的生活實(shí)踐和社會實(shí)踐來看,數(shù)據(jù)和信息不可分離,數(shù)據(jù)是信息的載體和表達(dá),信息是數(shù)據(jù)的內(nèi)涵,是經(jīng)過加工了的數(shù)據(jù),是數(shù)據(jù)處理的結(jié)果。這種認(rèn)識和理解與信息論奠基人香農(nóng)指出的“信息是用來消除隨機(jī)不確定性”的本質(zhì)并不抵觸。
事實(shí)上,對于感興趣的事實(shí)、事物乃至系統(tǒng),如果獲取的信息多,對其在認(rèn)識上的不確定性或模糊性就會少。不難理解,人們對系統(tǒng)的關(guān)注和興趣,根本的目的是要認(rèn)識它、適應(yīng)它、溶入它、“控制”它,乃至最終利用它并與其和諧相處。這其中當(dāng)然需要智慧。差不多可以這樣認(rèn)為,歷史發(fā)展到今天,人類獲取智能所遵循的就是一條從數(shù)據(jù)(data)到信息(information)到常識(knowledge)到認(rèn)識(insight)到智慧(wisdom)的演變路徑。而人工智能的終極發(fā)展,這個路徑也極具價(jià)值。
處在信息時代、信息技術(shù)高度發(fā)展而且還在快速發(fā)展的歷史節(jié)點(diǎn)上,已經(jīng)容不得不從大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)這三個維度和角度來審視信息社會的發(fā)展進(jìn)程和狀態(tài)了。根據(jù)全球最具權(quán)威的IT研究與咨詢公司高德納(Gartner)建立的IT概念及潛在項(xiàng)目演變的成熟度變化曲線模型,即便到今天,大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)也還沒有進(jìn)入到成熟、穩(wěn)固、全面發(fā)展的狀態(tài)。這從另一個方面也預(yù)示著,信息社會的發(fā)展不久將會進(jìn)入更加激動人心的階段。
正是因?yàn)閿?shù)據(jù)與信息的緊密關(guān)聯(lián),大數(shù)據(jù)才在社會的各個層面受到特別的關(guān)注和更大的重視。數(shù)往知來,獲取數(shù)據(jù)不是目的,提取信息才是所求,甚至這也僅僅是個過渡性的追求,更大的期盼是獲得更多的知識以提升具有更高智能的智慧。
數(shù)據(jù)的大量產(chǎn)出是信息技術(shù)和信息社會快速發(fā)展的必然結(jié)果。筆者在1990年代早期赴美國的大學(xué)從事研究期間就領(lǐng)略到美國教授和IT工程師的一種察覺:“計(jì)算機(jī)磁盤空間永遠(yuǎn)也不夠大。”根據(jù)全球著名的管理咨詢公司麥肯錫(McKinsey)2011發(fā)布的關(guān)于大數(shù)據(jù)的報(bào)告,到2007年的時候,全球一年所生成的全部數(shù)據(jù)第一次超過了全世界全部存儲器所能容納的程度。這意味著一些數(shù)據(jù)如過眼煙云般隨生隨滅了。如今,存儲器集成度在提升價(jià)格在下降,以GB和TB為單位的數(shù)據(jù)盤和存儲器已經(jīng)非常普遍,盡管全球的數(shù)據(jù)存儲能力得到明顯加強(qiáng),但卻要“水漲船高”地面對全球每天生成的高達(dá)2.5EB字節(jié)之巨量的數(shù)據(jù),這大體上相當(dāng)于1萬個美國國會圖書館全部藏書的數(shù)字化之規(guī)模。顯然,數(shù)據(jù)價(jià)值評估與數(shù)據(jù)冗余去除及數(shù)據(jù)噪音去除已經(jīng)成為一個首當(dāng)其沖的問題,因?yàn)閿?shù)據(jù)越多,從中提取出有用的信息就越困難。撇開抽樣而利用全數(shù)據(jù)空間是一個誘人而沒有技術(shù)和方法支撐的想法?!捌【坪湍虿肌钡年P(guān)聯(lián)故事很難在更大范圍更寬領(lǐng)域重現(xiàn),而且即使這個關(guān)聯(lián)關(guān)系本身的發(fā)現(xiàn)也需要數(shù)據(jù)之外的工具和技術(shù)。
數(shù)據(jù)價(jià)值挖掘的好,首先數(shù)據(jù)要存放的好,數(shù)據(jù)的干凈程度要高。不論是大數(shù)據(jù)還是小數(shù)據(jù),從數(shù)據(jù)走向信息才是王道。在紀(jì)念信息論奠基人香農(nóng)誕辰100年的今天,我們更應(yīng)從信息的角度來審視數(shù)據(jù)及相關(guān)的概念延展:0級信息是數(shù)據(jù),1級信息是信息本身,2級信息是常識,3級信息是認(rèn)識,4級信息是智慧。本質(zhì)上,數(shù)據(jù)總是產(chǎn)生自一個系統(tǒng),系統(tǒng)的日益復(fù)雜性自然導(dǎo)致了數(shù)據(jù)呈現(xiàn)出的復(fù)雜性,而攻克復(fù)雜性問題將是科學(xué)、技術(shù)、工程領(lǐng)域必須長期面對的挑戰(zhàn)。為了實(shí)現(xiàn)大數(shù)據(jù)的健康發(fā)展,需要從數(shù)據(jù)采集和存儲的一開始就要尤其關(guān)注數(shù)據(jù)和信息的融合。只有這樣,大數(shù)據(jù)才能發(fā)揮出更大的價(jià)值!
注:2016年4月30日是信息論奠基人香農(nóng)誕辰100周年的紀(jì)念日。