李 琳
(同濟(jì)大學(xué) 人文學(xué)院,上海 200092)
伴隨科學(xué)技術(shù)的更迭和互聯(lián)網(wǎng)的極速創(chuàng)新,數(shù)字化進(jìn)入了人們的日常生活中,全方位地重塑了人們的認(rèn)知方式與經(jīng)驗(yàn)表達(dá)。其代表成果之一的大數(shù)據(jù)也逐漸進(jìn)入到科學(xué)技術(shù)和社會(huì)管理的研究范疇中,用大數(shù)據(jù)來表征世界已經(jīng)成為當(dāng)下認(rèn)識(shí)社會(huì)和研究人類行為的一種重要方式,在政治、經(jīng)濟(jì)、教育、文化、科技等領(lǐng)域接連掀起了研究熱潮。從哲學(xué)方法論來看,大數(shù)據(jù)與歸納實(shí)證主義聯(lián)系緊密,既有沿襲之式又有超越之處,本文通過詳細(xì)解讀大數(shù)據(jù)與歸納實(shí)證主義方法論之異同,將對(duì)大數(shù)據(jù)能否成為嶄新的知識(shí)生產(chǎn)方式運(yùn)用至科學(xué)研究與學(xué)術(shù)研究中進(jìn)行考察。
由于大數(shù)據(jù)所具有的超前性與混沌性,直到現(xiàn)在為止,學(xué)界仍未對(duì)其形成統(tǒng)一的概念與認(rèn)知。目前來看,主要以本體論的界定方式為主。麥肯錫(McKinsey & Company)指出,大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具抓取、存儲(chǔ)、管理和分析能力,超過任何一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)群或數(shù)據(jù)集[1]。在一定的條件下通過計(jì)算機(jī)技術(shù)和統(tǒng)計(jì)方法,有目的地進(jìn)行設(shè)計(jì)、獲取、管理和分析,揭示隱藏在大數(shù)據(jù)中的模式和知識(shí)[2]。高德納(Gartner Group)認(rèn)為,大數(shù)據(jù)是一種高增長(zhǎng)率和多樣化的信息資產(chǎn),借由新的處理模式而體現(xiàn)出更強(qiáng)的決策力、洞察力和發(fā)現(xiàn)力[3]。有學(xué)者認(rèn)為,大數(shù)據(jù)作為處在科學(xué)形態(tài)由簡(jiǎn)單性科學(xué)向復(fù)雜性科學(xué)轉(zhuǎn)型演化的過程中的新興概念,還算不上一個(gè)嚴(yán)格意義上的科學(xué)概念[4]。《大數(shù)據(jù)時(shí)代》一書作者維克托也認(rèn)為大數(shù)據(jù)并非一個(gè)確切的概念[5]。托尼·海伊(Tony Hey)傾向于將大數(shù)據(jù)作為一個(gè)整體來看待,認(rèn)為大數(shù)據(jù)是一種新的范式[6]。不少學(xué)者同意此觀點(diǎn),并將大數(shù)據(jù)詮釋為采用所有數(shù)據(jù)以分析問題和解決問題的方法[7]。吉姆·格雷(Jim Gray)則更進(jìn)一步提出,以大數(shù)據(jù)為主的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)是科學(xué)研究第四范式,可作為知識(shí)發(fā)現(xiàn)的新通道和新范式[6]。
綜上所述,對(duì)大數(shù)據(jù)的界定傾向于一個(gè)相對(duì)概念。無論是從統(tǒng)計(jì)學(xué)與計(jì)算機(jī)學(xué)角度將其認(rèn)定為一種數(shù)據(jù)集,或從經(jīng)濟(jì)角度將其定位為一種信息資產(chǎn)或財(cái)富資源,或定義為一種新的方法論,或定義為一種新的知識(shí)生產(chǎn)方式,各種定義都有其領(lǐng)域的背景特征和研究面向,這彰顯了大數(shù)據(jù)本身的跨領(lǐng)域性與科學(xué)通約性。
普遍而言,大數(shù)據(jù)具有以下三方面特征。其一技術(shù)特征,大數(shù)據(jù)技術(shù)具有量大性和高速性。在大數(shù)據(jù)中,高達(dá)太字節(jié)的海量數(shù)據(jù)可以快速被存儲(chǔ)與處理,并借由互聯(lián)網(wǎng)的傳播,在瞬時(shí)實(shí)現(xiàn)信息的傳遞與共享,突破小數(shù)據(jù)時(shí)代無法企及的技術(shù)瓶頸。其二內(nèi)容特征,大數(shù)據(jù)內(nèi)容具有多樣性和價(jià)值性。豐富多樣、種類繁多的大數(shù)據(jù)信息幾乎涉及人們生活的各個(gè)方面,社會(huì)生活的數(shù)字化已改變?nèi)藗內(nèi)粘?chuàng)造和存儲(chǔ)信息的方式,生產(chǎn)活動(dòng)與消費(fèi)活動(dòng)等極具價(jià)值的信息都隱藏在了大數(shù)據(jù)中,一旦經(jīng)過有效提取,從未展現(xiàn)于人們面前的巨大數(shù)據(jù)價(jià)值將凸顯出來。其三方法特征,大數(shù)據(jù)的實(shí)踐方法已與傳統(tǒng)數(shù)據(jù)方法大不相同。一方面,大數(shù)據(jù)采用全體性抽樣。相比于樣本抽樣的歸納方法,大數(shù)據(jù)得以立足于宏觀、大量、整體的信息分析,將全面地考察問題的本質(zhì)、特征、屬性、規(guī)律和聯(lián)系[8]。另一方面,大數(shù)據(jù)注重相關(guān)性。整體性抽樣將更有利于顯著地展露出海量數(shù)據(jù)中元素的未知相關(guān)性,能提供更為精確的模式定位、數(shù)據(jù)模型與分析預(yù)測(cè)。此外,大數(shù)據(jù)比之傳統(tǒng)時(shí)代小數(shù)據(jù)采集方式,來源更具客觀性。在樣本采集過程中,人們常因各種緣由而有意隱藏或改變自己的行為,而大數(shù)據(jù)從整體渠道采集具有相對(duì)客觀性,可全面、完整、客觀地刻畫研究對(duì)象。
當(dāng)下,大數(shù)據(jù)已全面進(jìn)入人們的日常生活,引入各個(gè)業(yè)務(wù)職能領(lǐng)域,成為社會(huì)重要的生產(chǎn)因素。但對(duì)于大數(shù)據(jù)相關(guān)的理論研究卻相對(duì)滯后,無法跟上現(xiàn)有實(shí)踐應(yīng)用,對(duì)大數(shù)據(jù)方法的深入研究迫在眉睫。
歸納實(shí)證主義始于17世紀(jì)至18世紀(jì)的工業(yè)革命時(shí)期,主要通過觀察、分析與總結(jié)的方式在自然科學(xué)領(lǐng)域獲取知識(shí)并得出結(jié)論。歸納主義的思想源起可追溯到17世紀(jì)的弗朗西斯·培根,他認(rèn)為在經(jīng)驗(yàn)的基礎(chǔ)上可以得出具有普遍性的結(jié)論或公理。以下通過歸納實(shí)證主義方法論和大數(shù)據(jù)的并置研究,來進(jìn)一步探索大數(shù)據(jù)的研究方法。
在基本方法上,歸納實(shí)證主義運(yùn)用歸納方法論,采用實(shí)驗(yàn)、觀察、歸納的推理方法,從特殊個(gè)例到一般定律,認(rèn)為普遍性結(jié)論與公理可以從歸納實(shí)證中產(chǎn)生。相比之下,大數(shù)據(jù)同樣采取分析、觀察、歸納的推理方法,運(yùn)用算法推理從樣本數(shù)據(jù)去推斷總體情況,從已知推出未知,認(rèn)為未來發(fā)展趨勢(shì)可從數(shù)據(jù)算法中推導(dǎo)出來。
在基本原則上,大數(shù)據(jù)作為信息處理的新方式,與歸納實(shí)證主義方法論在諸多方面也有所承接。首先,運(yùn)用大數(shù)據(jù)可推導(dǎo)出觀察命題,并具有被觀察命題所確證或否證的可能性。其次,在積累性原則上,大數(shù)據(jù)采用大量數(shù)據(jù)佐證,將使普遍性結(jié)論與預(yù)測(cè)更為顯著,獨(dú)立數(shù)據(jù)越多,結(jié)論可以累加式增長(zhǎng)。再次,在歸納原則上,大數(shù)據(jù)能夠從特殊數(shù)據(jù)與結(jié)論推導(dǎo)出定理。最后,在合理性上,構(gòu)成歸納基礎(chǔ)的大數(shù)據(jù)具有龐大的數(shù)據(jù)量,可以多次試驗(yàn)以驗(yàn)證在不同條件下均可成立,且不與其他推導(dǎo)出的定律相沖突。
在基本步驟上,傳統(tǒng)歸納實(shí)證主義中主要包含觀察—分類—?dú)w納—結(jié)論四個(gè)主要步驟,而在大數(shù)據(jù)的一般步驟中,在包含了傳統(tǒng)方法論的四個(gè)步驟外,加入收集與預(yù)測(cè)的步驟,并將研究步驟進(jìn)行了整合和簡(jiǎn)化。在大數(shù)據(jù)中,一般具有觀察—收集—分類—?dú)w納—結(jié)論—預(yù)測(cè)六個(gè)步驟,而收集、分類、歸納、結(jié)論四個(gè)步驟即可被收歸于大數(shù)據(jù)的具體算法分析過程中,即研究步驟可簡(jiǎn)化為,觀察—大數(shù)據(jù)—預(yù)測(cè)三個(gè)階段性步驟,即是對(duì)應(yīng)放入大數(shù)據(jù)之前—放入大數(shù)據(jù)之中—放入大數(shù)據(jù)之后的三個(gè)過程節(jié)點(diǎn),其中大數(shù)據(jù)算法推理即可視為黑盒子不透明式推理,意指大數(shù)據(jù)中的算法推理過程在計(jì)算機(jī)之中,除去算法工程師之外,他者一般不可見且無法理解。區(qū)別于傳統(tǒng)經(jīng)驗(yàn)主義,大數(shù)據(jù)因遠(yuǎn)超人類能力且以二進(jìn)制方式運(yùn)作,使得其在本質(zhì)上有別于傳統(tǒng)的數(shù)學(xué)證明和科學(xué)推導(dǎo),保羅·漢弗萊斯(Paul William Humphreys)認(rèn)為這必將導(dǎo)致認(rèn)識(shí)論的不透明性,但他認(rèn)為應(yīng)不以人類為中心的認(rèn)識(shí)論作為固有基礎(chǔ),為大數(shù)據(jù)采用了不透明的認(rèn)識(shí)論立場(chǎng)進(jìn)行了哲學(xué)辯護(hù)[9]。以上可知,大數(shù)據(jù)在基本方法、基本原則、基本步驟中包含了傳統(tǒng)歸納實(shí)證主義方法論的全部意涵,并在此基礎(chǔ)上有所簡(jiǎn)化。
大數(shù)據(jù)是針對(duì)整體性和復(fù)雜性的研究。傳統(tǒng)的歸納實(shí)證方法在面對(duì)復(fù)雜問題時(shí),多依據(jù)還原論將其分解為諸多簡(jiǎn)單問題來逐一完成[10]。但事實(shí)上,在放大簡(jiǎn)單問題和縮小復(fù)雜問題時(shí)通??赡艹霈F(xiàn)相應(yīng)的領(lǐng)域、條件、過程等各項(xiàng)因素的改變,而簡(jiǎn)單問題和復(fù)雜問題間的鏈?zhǔn)疥P(guān)系本不可控,這都在一定程度上造成了傳統(tǒng)經(jīng)驗(yàn)歸納方法的失效。相對(duì)之下,大數(shù)據(jù)歸納直面復(fù)雜性,將復(fù)雜現(xiàn)象作為整體進(jìn)行研究。通過制定線性或非線性的規(guī)則和對(duì)應(yīng)關(guān)系,挖掘數(shù)據(jù)間關(guān)系,使其生成并演化出復(fù)雜的數(shù)據(jù)圖景,并以此建立模型開啟預(yù)測(cè),可見大數(shù)據(jù)在整體性與復(fù)雜性的研究中有所建樹。
大數(shù)據(jù)的全體取樣強(qiáng)化了正確概率,著重于對(duì)相關(guān)性規(guī)律的發(fā)現(xiàn)。傳統(tǒng)歸納實(shí)證方法有重因果關(guān)系輕相關(guān)關(guān)系的研究特征,大數(shù)據(jù)則恰恰相反,以相關(guān)關(guān)系而非因果關(guān)系為主進(jìn)行研究。此外,在傳統(tǒng)歸納實(shí)證方法上,當(dāng)有利的可佐證的數(shù)據(jù)越多,該結(jié)論為真的可信度越高。大數(shù)據(jù)采用全體性抽樣歸納,大量數(shù)據(jù)對(duì)結(jié)論和定律支持程度與概率大大提升,支持大數(shù)據(jù)成為一種有效的歸納推理,在恰當(dāng)?shù)姆秶鷥?nèi)保證從樣本到總體的推理可靠性。當(dāng)數(shù)據(jù)量增大到一定規(guī)模后發(fā)生質(zhì)變,大數(shù)據(jù)可以使得完全不明顯或是隱藏的相關(guān)性、趨勢(shì)和規(guī)律彰顯出來。
大數(shù)據(jù)簡(jiǎn)化了一般研究步驟,能與云計(jì)算、深度學(xué)習(xí)、人工智能等新技術(shù)相得益彰。大數(shù)據(jù)能夠廣泛參與到數(shù)據(jù)收集及數(shù)據(jù)挖掘中,大大簡(jiǎn)化了一般研究步驟。面對(duì)生成和積累的海量數(shù)據(jù),人們不必像以前一樣通過儀器和手工來觀察或計(jì)算,而可以通過各種監(jiān)測(cè)技術(shù)傳遞數(shù)據(jù)到數(shù)據(jù)中心,通過算法計(jì)算直接得到數(shù)據(jù)間的特征與關(guān)系。故研究者可以在一般研究流程中靠后的步驟,在得到數(shù)據(jù)相關(guān)結(jié)論與圖景后才開始進(jìn)行深入研究,且大數(shù)據(jù)與云計(jì)算、深度學(xué)習(xí)、人工智能等技術(shù)一脈相承,本身即具有完美的適配性,可以一同被納入到科學(xué)研究中。
盡管大數(shù)據(jù)較傳統(tǒng)歸納實(shí)證方法已有優(yōu)化,但大數(shù)據(jù)仍然面臨著理論困境,其中既有歸納主義的舊有局限,又有大數(shù)據(jù)自身特征帶來的全新質(zhì)疑。
1.大數(shù)據(jù)仍無法突破的歸納主義方法論的舊有局限
其一,歸納推理不為真。就方法論而言,大數(shù)據(jù)仍是對(duì)大量數(shù)據(jù)進(jìn)行集合歸類后通過歸納分類的方式建構(gòu)起來,最后依據(jù)樣本推導(dǎo)出結(jié)論,其仍然沿襲傳統(tǒng)歸納主義實(shí)證的方法,故大數(shù)據(jù)也自然具有歸納邏輯的舊有問題,即歸納邏輯非演繹邏輯,不具有必然性和保真性,其結(jié)果不一定為真。事實(shí)上在大數(shù)據(jù)的應(yīng)用中也經(jīng)常出現(xiàn)此類錯(cuò)誤,如谷歌在2008年發(fā)明了Google Flu Trends,本意為通過網(wǎng)絡(luò)大數(shù)據(jù)實(shí)時(shí)對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè),但在2013年2月《自然》雜志的發(fā)文中指出GFT流感預(yù)測(cè)失敗,其預(yù)測(cè)結(jié)果超過了實(shí)際監(jiān)測(cè)報(bào)告的兩倍。
其二,全體性抽樣“N=所有”并非是現(xiàn)實(shí)指向,而是理論假設(shè)。盡管大數(shù)據(jù)標(biāo)榜采用全體性抽樣,但從客觀來看,即使是最先進(jìn)的技術(shù),也不可能獲得關(guān)于事物的所有值,大數(shù)據(jù)并非全數(shù)據(jù)。
2.對(duì)于大數(shù)據(jù)自身問題的質(zhì)疑
其一,大數(shù)據(jù)的“白噪聲”問題。大數(shù)據(jù)分析的重要步驟是將數(shù)據(jù)放入算法進(jìn)行計(jì)算,但在計(jì)算之前,通常要經(jīng)歷“清洗”的步驟,讓數(shù)據(jù)符合算法以供使用。大部分?jǐn)?shù)據(jù)要經(jīng)歷一次清洗,而更多數(shù)據(jù)可能要經(jīng)歷二次三次甚至更多次的清洗,而與傳統(tǒng)歸納實(shí)證方法中的人為清洗不同的是,這種數(shù)據(jù)清洗是大數(shù)據(jù)黑盒子算法的一部分,是不可控制的算法模式,故在清洗中,部分?jǐn)?shù)據(jù)被算法當(dāng)成白噪聲,即隨機(jī)誤差而被刪除,是無可避免的樣本偏差和樣本誤差[11]。顯然的是,大數(shù)據(jù)也未能規(guī)避此問題,這使得如何定位和闡釋異常值成為大數(shù)據(jù)的難點(diǎn)所在。有學(xué)者認(rèn)為,大數(shù)據(jù)中的小數(shù)據(jù)問題并不會(huì)隨著數(shù)據(jù)鏈的增大而消失,只會(huì)更加突出[12]。
其二,不可控的算法與虛假的相關(guān)性。待數(shù)據(jù)清洗完畢進(jìn)入流程后,大數(shù)據(jù)算法成為最重要的分析模板,大量數(shù)據(jù)經(jīng)由大數(shù)據(jù)算法來進(jìn)行分類歸納,除去計(jì)算機(jī)專業(yè)人士外,大部分人并不懂得其構(gòu)建原理與執(zhí)行方法,即前文提到的黑盒子般的運(yùn)作模式,人們只能等待算法將結(jié)果呈現(xiàn),這造成了大數(shù)據(jù)算法本身的程序正義,或者是過程正義是否能夠彰顯的問題。如亞馬遜公司基于大數(shù)據(jù)學(xué)習(xí)而開發(fā)的審核求職者簡(jiǎn)歷的算法,并不能基于“性別中立”來為所需崗位的求職者進(jìn)行平等評(píng)級(jí)。因?yàn)橥ㄟ^大數(shù)據(jù)學(xué)習(xí),該系統(tǒng)發(fā)現(xiàn)科技行業(yè)素來以男性為主導(dǎo),故會(huì)給包含“女性”詞語(yǔ)的簡(jiǎn)歷以低星評(píng)級(jí)??梢?,亞馬遜大數(shù)據(jù)系統(tǒng)在符合開發(fā)者和計(jì)算機(jī)算法的框架下依舊產(chǎn)生了“性別歧視”的問題,且這種“性別歧視”毫無疑問反饋和影響了每一位女性求職者,這為大眾對(duì)大數(shù)據(jù)的算法正義信任敲響了警鐘。此外,隨著樣本數(shù)據(jù)越來越多, 統(tǒng)計(jì)上顯著的相關(guān)關(guān)系也越來越多。但事實(shí)上,其中許多數(shù)據(jù)是不具有實(shí)際意義的,他們可能呈現(xiàn)出偽相關(guān)性、虛假相關(guān)性和偶然相關(guān)性,譬如谷歌流感預(yù)測(cè)失敗也源于其中的虛假相關(guān)性,當(dāng)在谷歌上搜索“頭疼”時(shí),搜索算法可能會(huì)將此結(jié)果和流感關(guān)聯(lián)起來,即使人們本身與病情毫無關(guān)系。這種具有欺騙性的相關(guān)關(guān)系會(huì)隨著數(shù)據(jù)的增多而指數(shù)式地增長(zhǎng),把人們真正想要探知的本質(zhì)淹沒在龐大的數(shù)據(jù)中。
其三,主體全面的“大數(shù)據(jù)化”。在走向數(shù)字化時(shí)代的進(jìn)程中,對(duì)于主體的“大數(shù)據(jù)化”也應(yīng)始終保持著警醒態(tài)度。數(shù)據(jù)本質(zhì)上即是符號(hào),在結(jié)構(gòu)主義與符號(hào)學(xué)派的研究中,符號(hào)只具有表征性,其本身并無實(shí)質(zhì)意義與指向。這意味著數(shù)據(jù)的符號(hào)化與人類真實(shí)的樣貌和生活相差甚遠(yuǎn),網(wǎng)絡(luò)上的數(shù)據(jù)也不是真實(shí)生活著的主體自身。在許多科幻小說與科幻想象中,全面數(shù)據(jù)化可能帶來的危害足以侵蝕人類生活。若一味崇尚數(shù)據(jù)化,真實(shí)世界本身將被遮蔽,符號(hào)失去其所指向的實(shí)存根基, 人類難免地滑入虛無主義的深淵[13]。
綜上可知,大數(shù)據(jù)在基本方法、基本原則與基本步驟上承襲傳統(tǒng)歸納實(shí)證主義方法論,但在觀察實(shí)驗(yàn)與技術(shù)發(fā)展上又有所超越。但大數(shù)據(jù)未能彌補(bǔ)歸納主義方法論的先天不足,自身又深陷于數(shù)據(jù)與算法的實(shí)踐構(gòu)架與哲學(xué)意義的探討中。
知識(shí)生產(chǎn)是對(duì)現(xiàn)有信息、科學(xué)技術(shù)、思想文化、倫理原則等知識(shí)的發(fā)明、創(chuàng)造、創(chuàng)新及復(fù)制過程,既是對(duì)原創(chuàng)性知識(shí)的創(chuàng)造,又是對(duì)現(xiàn)有知識(shí)的再挖掘與再創(chuàng)新[14]。在國(guó)外相關(guān)研究中,不少學(xué)者遵循實(shí)證歸納主義的進(jìn)路,維克托和肯尼思認(rèn)為以數(shù)據(jù)為源頭、以數(shù)據(jù)為載體的知識(shí)發(fā)現(xiàn)模式(數(shù)據(jù)—信息—知識(shí)),正在逐步形成[5]。或以沿襲傳統(tǒng)經(jīng)驗(yàn)主義路徑,Rob Kitchin認(rèn)為大數(shù)據(jù)使科學(xué)知識(shí)生產(chǎn)的經(jīng)驗(yàn)主義模型成為可能,“大數(shù)據(jù)經(jīng)驗(yàn)主義”的研究范式已經(jīng)誕生[15]。抑或冠以“科學(xué)發(fā)現(xiàn)的第四研究范式”為名,Jim Gray強(qiáng)調(diào)大數(shù)據(jù)與傳統(tǒng)知識(shí)生產(chǎn)范式相輔相成,以共同構(gòu)成科學(xué)發(fā)現(xiàn)的認(rèn)知和方法體系,大數(shù)據(jù)研究范式是理論、實(shí)驗(yàn)和計(jì)算仿真的整合和統(tǒng)一[6]。在計(jì)算機(jī)發(fā)展導(dǎo)向中,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)能提供一個(gè)自動(dòng)的無須人為干預(yù)的知識(shí)發(fā)現(xiàn)系統(tǒng),Paul Thagar認(rèn)為在理想狀態(tài)下,程序可通過提供結(jié)果來促進(jìn)科學(xué)發(fā)現(xiàn)[16]。
國(guó)內(nèi)現(xiàn)有研究則認(rèn)為大數(shù)據(jù)帶來了一種新的認(rèn)識(shí)論范式的誕生,能挖掘過去時(shí)代所無法洞察的新信息和新知識(shí)。黃欣榮認(rèn)為大數(shù)據(jù)提出了“科學(xué)始于數(shù)據(jù)”的知識(shí)生產(chǎn)新模式,增添了科學(xué)發(fā)現(xiàn)的邏輯新通道,拓寬了科學(xué)規(guī)律的范圍[17]。從經(jīng)驗(yàn)層面與方法層面來看,張曉強(qiáng)、蔡端懿認(rèn)為大數(shù)據(jù)技術(shù)促使了科學(xué)研究與知識(shí)生產(chǎn)在研究對(duì)象、研究層次及研究類型上的轉(zhuǎn)變[18]。一方面,賈向桐認(rèn)為大數(shù)據(jù)強(qiáng)調(diào)了數(shù)據(jù)本身的自足性與獨(dú)立價(jià)值,區(qū)別于傳統(tǒng)科學(xué)研究的“理論—驅(qū)動(dòng)”,將科學(xué)研究的新范式界定為“數(shù)據(jù)—驅(qū)動(dòng)”模型[19]。另一方面,焦桐、肖源認(rèn)為隨著技術(shù)的更迭,傳統(tǒng)知識(shí)產(chǎn)出機(jī)制已難以有效支持新技術(shù)環(huán)境下的研究,及時(shí)調(diào)整和制定新的知識(shí)產(chǎn)出機(jī)制已迫在眉睫[20]。在此語(yǔ)境下,文軍、吳曉凱認(rèn)為大數(shù)據(jù)能夠同抽樣調(diào)查、觀察與訪談、實(shí)驗(yàn)等方法相互融合、相互補(bǔ)充與相互滲透,這種新復(fù)合研究方法對(duì)于認(rèn)知系統(tǒng)的升華具有重要意義[21]。故蘇玉娟認(rèn)為基于大數(shù)據(jù)的知識(shí)表征不僅彰顯大數(shù)據(jù)工具的個(gè)性特征,且具有普遍知識(shí)的本質(zhì)特征,在科學(xué)、公共、經(jīng)濟(jì)、社會(huì)等諸多社會(huì)領(lǐng)域彰顯價(jià)值,在包括政府等主體參與的大數(shù)據(jù)技術(shù)發(fā)展、平臺(tái)建設(shè)、社會(huì)法治進(jìn)程等實(shí)踐中發(fā)揮了重要作用[22]。
就大數(shù)據(jù)知識(shí)生產(chǎn)的實(shí)踐應(yīng)用來看,大數(shù)據(jù)逐漸被各學(xué)科用于知識(shí)生產(chǎn)和模式挖掘。在理工學(xué)科領(lǐng)域,主要與物聯(lián)網(wǎng)技術(shù)相結(jié)合,用于GIS遙感地理信息系統(tǒng),挖掘相關(guān)的環(huán)境變化形式及人類行為模式,可廣泛用于能源供給、城市生態(tài)環(huán)境檢測(cè)、區(qū)域?yàn)?zāi)害應(yīng)急等多個(gè)學(xué)科領(lǐng)域;在生物及基因?qū)W領(lǐng)域主要用于構(gòu)建基因序列數(shù)據(jù)庫(kù),加快基因序列比對(duì)進(jìn)程,以盡快解碼基因并用于醫(yī)療建設(shè);在計(jì)算機(jī)領(lǐng)域,以大數(shù)據(jù)為基礎(chǔ)的云計(jì)算、深度學(xué)習(xí)、人工智能、機(jī)器人建設(shè)正是學(xué)科發(fā)展的最前沿。值得注意的是,大數(shù)據(jù)在社會(huì)科學(xué)中的全新應(yīng)用,經(jīng)由互聯(lián)網(wǎng),數(shù)據(jù)記錄了個(gè)人或組織的真實(shí)行為,為社會(huì)研究提供了可靠信息和有力印證,既避免了研究過程中的偏見、誤差和歧義,又填補(bǔ)了長(zhǎng)久以來社會(huì)科學(xué)中定量研究的缺失。就此來看,大數(shù)據(jù)的廣泛應(yīng)用或許能夠突破長(zhǎng)久以來的自然科學(xué)和社會(huì)科學(xué)的研究界限,使不同學(xué)科的數(shù)據(jù)資源得以共享[23]。當(dāng)下,大數(shù)據(jù)已逐步滲透到各個(gè)學(xué)科的文獻(xiàn)研究領(lǐng)域中,研究者運(yùn)用大數(shù)據(jù)可以便捷地對(duì)學(xué)科現(xiàn)有知識(shí)網(wǎng)絡(luò)進(jìn)行整理歸類與歸納。
目前為止,對(duì)于大數(shù)據(jù)是否能夠成為科學(xué)發(fā)現(xiàn)和知識(shí)生產(chǎn)的新范式,學(xué)界尚議論不休。從大數(shù)據(jù)的基本方法、基本步驟與基本原則來看,目前的大數(shù)據(jù)更類似于一種優(yōu)化版或補(bǔ)充版的歸納實(shí)證主義方法,在歸納合理性和有效性方面有所建樹,但仍未能彌補(bǔ)歸納實(shí)證主義方法論的本質(zhì)缺陷。如果以庫(kù)恩的范式學(xué)說或者是以拉卡托斯的科學(xué)研究綱領(lǐng)來看,大數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不足以成為一個(gè)單獨(dú)的科學(xué)方法論。雖然可以推動(dòng)部分理工科及社會(huì)科學(xué)的研究,但要成為取代應(yīng)用于現(xiàn)有學(xué)科與專業(yè)學(xué)科的歸納方法是不現(xiàn)實(shí)的。第一,大數(shù)據(jù)本身既有傳統(tǒng)歸納主義的缺陷,又存在新的算法問題,故在知識(shí)生產(chǎn)的有效性、合理性、確認(rèn)性上還存在較大的漏洞。第二,大數(shù)據(jù)目前的技術(shù)發(fā)展仍然有限,用于純技術(shù)數(shù)據(jù)分析尚可,但一旦涉及相關(guān)關(guān)系及因果問題,難免需要研究者對(duì)于最后結(jié)論和預(yù)測(cè)的多層把關(guān)??梢?,大數(shù)據(jù)是描述現(xiàn)狀的最好工具,但不是最終解決問題的最佳方式,必須需要專業(yè)科學(xué)與大數(shù)據(jù)的緊密結(jié)合才能發(fā)揮大數(shù)據(jù)的重要功效[24]。第三,數(shù)據(jù)的來源與隱私的保護(hù)目前是不可兼得的問題,對(duì)大數(shù)據(jù)來源的倫理學(xué)質(zhì)疑和對(duì)全面數(shù)據(jù)化的哲學(xué)思考將始終伴隨著大數(shù)據(jù)的發(fā)展。
盡管大數(shù)據(jù)無法取代傳統(tǒng)歸納方法,卻最適宜處理信息時(shí)代所面臨的混雜性狀態(tài),在科學(xué)研究與知識(shí)發(fā)現(xiàn)上是一種有效且可大規(guī)模推廣的嶄新模式,也將成為自然科學(xué)和未來社會(huì)科學(xué)的主流研究范式和不可缺少的技術(shù)工具[25]。為了更加深入地探索世界,急需新的推理模式,尤其是特殊到特殊的推理新模式的演化,大數(shù)據(jù)將擔(dān)此重任,幫助信息時(shí)代的人們來探究未知的新趨勢(shì)[26]。
利用大數(shù)據(jù)佐證并挖掘新的學(xué)科范式與框架。一方面,在科學(xué)理論已經(jīng)較為成熟的學(xué)科中,可以通過大數(shù)據(jù)的挖掘與分析來對(duì)已有理論進(jìn)行全方位佐證,強(qiáng)化樣本概率和可信度,確認(rèn)已有理論的正確度,堅(jiān)實(shí)學(xué)科理論基礎(chǔ)。另一方面,在學(xué)科范式和框架尚不成熟的學(xué)科內(nèi),則可以通過海量數(shù)據(jù)的挖掘,尋找數(shù)據(jù)之間的相關(guān)性以探索因果性,為找尋和創(chuàng)造新的理論和方法提供助益。
增強(qiáng)各學(xué)科大數(shù)據(jù)平臺(tái)和數(shù)據(jù)庫(kù)的建設(shè)。針對(duì)各個(gè)不同學(xué)科,建立科研活動(dòng)的大數(shù)據(jù)整合與收集平臺(tái),通過云存儲(chǔ)與云服務(wù)等方式實(shí)現(xiàn)各學(xué)科數(shù)據(jù)資源的集中管理和分布服務(wù),創(chuàng)建各學(xué)科理論與范式的數(shù)據(jù)庫(kù)[27];聯(lián)合各地各校的科研數(shù)據(jù)系統(tǒng)與文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng),從時(shí)間與空間上打破資源配置限制,通過數(shù)據(jù)平臺(tái)來高效地實(shí)現(xiàn)學(xué)術(shù)信息與科研資源的共享與合作[27];建立各學(xué)科知識(shí)融合與知識(shí)生產(chǎn)模型,通暢便捷地為研究者提供多層次、個(gè)性化、創(chuàng)新型知識(shí)服務(wù)需求[28];建立各學(xué)科數(shù)據(jù)平臺(tái)與數(shù)據(jù)庫(kù)來完善學(xué)科知識(shí)和方法的全數(shù)據(jù)化,并借此以數(shù)據(jù)服務(wù)反饋給所有研究者,推進(jìn)知識(shí)學(xué)習(xí)與知識(shí)生產(chǎn)。
推進(jìn)大數(shù)據(jù)的理論探究及實(shí)踐應(yīng)用的相關(guān)研究。當(dāng)前學(xué)界對(duì)于大數(shù)據(jù)的理論研究和應(yīng)用研究都較少,但大數(shù)據(jù)作為未來科技創(chuàng)新的重要發(fā)展對(duì)象,其各方面理論與實(shí)踐都亟待學(xué)界探索。在理論上,相關(guān)性和因果性之爭(zhēng)將成為大數(shù)據(jù)后續(xù)發(fā)展的重要問題之一。在實(shí)踐上,大數(shù)據(jù)在學(xué)科研究中的建設(shè)才剛剛起步,對(duì)于大數(shù)據(jù)和專業(yè)學(xué)科知識(shí)的融合發(fā)展及大數(shù)據(jù)在知識(shí)生產(chǎn)中的算法建設(shè)都是研究的重點(diǎn)與難點(diǎn),而大數(shù)據(jù)與學(xué)科建設(shè)的協(xié)同發(fā)展也可能成為未來大數(shù)據(jù)知識(shí)生產(chǎn)的重要應(yīng)用之一。
大數(shù)據(jù)掀起了一場(chǎng)技術(shù)革命。一方面,大數(shù)據(jù)帶來了生產(chǎn)、生活、教育、思維方式上的全方位變革,構(gòu)建起規(guī)模巨大、類型多樣、內(nèi)涵豐富的數(shù)據(jù)世界。大數(shù)據(jù)時(shí)代下,經(jīng)驗(yàn)世界、虛擬世界、數(shù)據(jù)世界共同構(gòu)成了全新的生存空間。另一方面,應(yīng)認(rèn)清大數(shù)據(jù)的技術(shù)屬性與局限,以合理使用大數(shù)據(jù)作為發(fā)展要義。大數(shù)據(jù)并非是終極,它尚無法取代傳統(tǒng)的科學(xué)方法與經(jīng)驗(yàn)方式,需要與傳統(tǒng)方式結(jié)合才能最大發(fā)揮效用。但毫無疑問的是,作為一個(gè)經(jīng)由技術(shù)發(fā)展演化而誕生的存在,隨著技術(shù)的進(jìn)一步演化,大數(shù)據(jù)必將具有更大成長(zhǎng)性,其在未來科學(xué)研究與知識(shí)生產(chǎn)中將扮演越來越重要的角色。