劉濤雄 尹德才
特邀主持人:劉濤雄(清華大學(xué)社會(huì)科學(xué)學(xué)院教授、博士生導(dǎo)師)
主持人語(yǔ):毫無(wú)疑問(wèn),大數(shù)據(jù)已經(jīng)掀起一場(chǎng)革命,正在深刻地改造人類社會(huì)、經(jīng)濟(jì)和政治秩序的各個(gè)方面,我國(guó)亦于2016年明確提出“十三五”期間將實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略。無(wú)論大數(shù)據(jù)作為研究對(duì)象抑或是研究方法,均對(duì)社會(huì)科學(xué)研究范式的創(chuàng)新產(chǎn)生了深刻影響。為了加深學(xué)術(shù)界對(duì)于大數(shù)據(jù)與社會(huì)科學(xué)發(fā)展的認(rèn)識(shí),促進(jìn)學(xué)術(shù)對(duì)話與交流,我們組織了兩篇文章集中探討大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究范式的復(fù)雜影響。第一篇文章區(qū)分了大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究范式的直接影響和間接影響。大數(shù)據(jù)時(shí)代通過(guò)為社會(huì)科學(xué)研究提供“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)和數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)產(chǎn)生了巨大的直接影響,還間接地推動(dòng)著社會(huì)科學(xué)研究范式在研究路徑、研究手段和研究功能上的深刻變革。第二篇文章以“計(jì)算社會(huì)科學(xué)”為研究對(duì)象,闡述了這一交叉學(xué)科的緣起、學(xué)科嬗變以及其推動(dòng)社會(huì)科學(xué)研究范式轉(zhuǎn)換的方向。大數(shù)據(jù)為新興學(xué)科發(fā)展與范式突破創(chuàng)造了機(jī)遇,并形成了一系列圍繞著數(shù)據(jù)驅(qū)動(dòng)和算法驅(qū)動(dòng)采取不同融合方式的“問(wèn)題解決性、應(yīng)用導(dǎo)向”多元化研究進(jìn)路。作為技術(shù)進(jìn)步、數(shù)據(jù)爆炸和方法創(chuàng)新的產(chǎn)物,計(jì)算社會(huì)科學(xué)融合了社會(huì)科學(xué)的計(jì)算傳統(tǒng),基于海量數(shù)據(jù)資源和多元化數(shù)據(jù)分析學(xué)推動(dòng)著社會(huì)科學(xué)范式轉(zhuǎn)換。
〔摘要〕 大數(shù)據(jù)時(shí)代的到來(lái)對(duì)社會(huì)科學(xué)研究產(chǎn)生巨大影響。除“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)以及數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)三個(gè)方面的直接影響外,大數(shù)據(jù)還將進(jìn)一步推動(dòng)社會(huì)科學(xué)研究范式三個(gè)層面的變革。一是研究路徑變革:大數(shù)據(jù)“數(shù)據(jù)驅(qū)動(dòng)”模式與當(dāng)前社會(huì)科學(xué)“理論假設(shè)驅(qū)動(dòng)”模式相結(jié)合形成新的研究模式。二是研究手段變革:大數(shù)據(jù)及相關(guān)技術(shù)將成為因果發(fā)現(xiàn)的強(qiáng)大武器。三是功能變革:預(yù)測(cè)問(wèn)題和因果問(wèn)題將得到同等重視,并將有機(jī)統(tǒng)一于有關(guān)研究特別是政策研究中。
〔關(guān)鍵詞〕 大數(shù)據(jù),社會(huì)科學(xué)研究范式,知識(shí)發(fā)現(xiàn),傳統(tǒng)社會(huì)科學(xué)
〔中圖分類號(hào)〕C1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1004-4175(2017)06-0027-06
隨著網(wǎng)絡(luò)的普及和信息技術(shù)的發(fā)展,人類社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。盡管“大數(shù)據(jù)”的定義存在差異,但大數(shù)據(jù)已深刻影響到社會(huì)的各個(gè)方面,引起人類生活、工作與思維的大變革??茖W(xué)研究,特別是社會(huì)科學(xué)研究同樣受到強(qiáng)烈影響。大數(shù)據(jù)的出現(xiàn)不僅提供了“全樣本”數(shù)據(jù),還為社會(huì)科學(xué)研究提供新的研究方法和技術(shù)手段。同時(shí),一些觀點(diǎn)認(rèn)為大數(shù)據(jù)強(qiáng)調(diào)重視“相關(guān)而非因果”也引起諸多爭(zhēng)議,對(duì)以因果探究為核心的傳統(tǒng)社會(huì)科學(xué)研究產(chǎn)生沖擊。在這種情形下,社會(huì)科學(xué)研究者該如何看待大數(shù)據(jù)帶來(lái)的機(jī)遇和挑戰(zhàn)?如何利用大數(shù)據(jù)進(jìn)行社會(huì)科學(xué)研究?大數(shù)據(jù)將如何影響社會(huì)科學(xué)的研究范式?現(xiàn)有文獻(xiàn)對(duì)此類問(wèn)題的研究較少,為此基于對(duì)大數(shù)據(jù)時(shí)代社會(huì)科學(xué)研究面臨機(jī)遇與挑戰(zhàn)的分析,本文探究大數(shù)據(jù)時(shí)代社會(huì)科學(xué)研究范式變革的方向。
一、大數(shù)據(jù)時(shí)代社會(huì)科學(xué)研究范式面臨變革
“大數(shù)據(jù)”一詞正式出現(xiàn)于1998年《科學(xué)》雜志刊登的《大數(shù)據(jù)的處理程序》一文,此后《自然》雜志2008年出版“大數(shù)據(jù)”???,“大數(shù)據(jù)”一詞得到普遍認(rèn)可和使用。關(guān)于大數(shù)據(jù)的定義學(xué)術(shù)界并沒(méi)有達(dá)成共識(shí),由于關(guān)注點(diǎn)不同,科技企業(yè)、研究學(xué)者、數(shù)據(jù)分析人員和技術(shù)實(shí)踐者對(duì)大數(shù)據(jù)有不同的定義。從狹義上講,大數(shù)據(jù)是指數(shù)據(jù)量的大小超過(guò)了傳統(tǒng)意義上的尺度,一般的工具難以進(jìn)行捕捉、存儲(chǔ)、管理和分析?!? 〕該定義僅僅描述了大數(shù)據(jù)的“大”,沒(méi)有涉及大數(shù)據(jù)的其他屬性。當(dāng)前一般認(rèn)為,大數(shù)據(jù)的典型屬性概括為“4V”,即數(shù)據(jù)體量大、數(shù)據(jù)產(chǎn)生速度快、種類多樣和價(jià)值密度低。
就社會(huì)科學(xué)研究而言,大數(shù)據(jù)時(shí)代到底為我們帶來(lái)什么?借鑒Einav & Hendry的概括,至少有四點(diǎn)很重要 〔2 〕。一是數(shù)據(jù)的實(shí)時(shí)可得。如互聯(lián)網(wǎng)上的大量信息是實(shí)時(shí)的,移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展導(dǎo)致每個(gè)人可能隨時(shí)隨地在制造數(shù)據(jù)。社會(huì)科學(xué)應(yīng)充分利用數(shù)據(jù)的實(shí)時(shí)性,大大提高研究的時(shí)效性。二是可得數(shù)據(jù)是海量的。正如Mayer-Sch.nberger 和 Cukier所言,傳統(tǒng)統(tǒng)計(jì)學(xué)處理的主要是樣本,而在大數(shù)據(jù)時(shí)代,你能得到的數(shù)據(jù)可能就是總體本身 〔3 〕17。如就個(gè)人遷徙而言,手機(jī)等隨身設(shè)備可能將每個(gè)個(gè)體的移動(dòng)都記錄在案。大數(shù)據(jù)時(shí)代的到來(lái),許多數(shù)據(jù)貧乏的學(xué)科成為數(shù)據(jù)富集的研究領(lǐng)域,而“社會(huì)科學(xué)是被‘樣本=總體撼動(dòng)得最厲害的學(xué)科” 〔3 〕42。大數(shù)據(jù)提供的“全樣本”數(shù)據(jù)不僅使得許多因數(shù)據(jù)缺乏而無(wú)法開(kāi)展的研究得以開(kāi)展,同時(shí)也帶來(lái)新的挑戰(zhàn)。大數(shù)據(jù)其量之大超出一般傳統(tǒng)統(tǒng)計(jì)軟件所能處理的范圍,而且解釋變量增加會(huì)導(dǎo)致高維數(shù)據(jù)中的“維數(shù)災(zāi)難”,解決這些問(wèn)題需要新的分析方法和工具。三是數(shù)據(jù)的非結(jié)構(gòu)化。大數(shù)據(jù)的來(lái)源和形式都十分多樣化,如互聯(lián)網(wǎng)信息包含文本、圖片以及影音等多種形式。這些信息中到底哪些包含我們所需要的信息?社會(huì)科學(xué)研究如何充分利用數(shù)據(jù)挖掘技術(shù),將這些非結(jié)構(gòu)化信息轉(zhuǎn)化為統(tǒng)計(jì)模型所能利用的形式?這些都是需要解決的問(wèn)題。四是數(shù)據(jù)分析的技術(shù)手段日新月異。伴隨著數(shù)據(jù)規(guī)模的擴(kuò)大,新的大數(shù)據(jù)分析技術(shù)不斷地涌現(xiàn),機(jī)器學(xué)習(xí)、并行計(jì)算等技術(shù)的發(fā)展和改進(jìn)加快了大數(shù)據(jù)的處理速度。社會(huì)科學(xué)研究如何吸收和利用這些強(qiáng)大的技術(shù)手段,使之成為社會(huì)科學(xué)家工具箱中的利器是未來(lái)社會(huì)科學(xué)家們必須面對(duì)的問(wèn)題?!? 〕
但是,相對(duì)于上述直接影響更為重要的是,我們需要思考大數(shù)據(jù)時(shí)代到底給社會(huì)科學(xué)基本的研究范式帶來(lái)哪些影響?社會(huì)科學(xué)的研究對(duì)象為社會(huì),目標(biāo)在于認(rèn)識(shí)各種社會(huì)現(xiàn)象并盡可能地發(fā)現(xiàn)關(guān)聯(lián),而核心在于探究因果關(guān)系。正如哈耶克所言“社會(huì)科學(xué)研究的不是物與物的關(guān)系,而是人與物或人與人的關(guān)系。它研究人的行為,它的目的是解釋許多人的行為所帶來(lái)的無(wú)意的或未經(jīng)設(shè)計(jì)的結(jié)果?!?〔5 〕7各種社會(huì)現(xiàn)象可視為已發(fā)生的不可控試驗(yàn),其背后存在某種潛在的本質(zhì)規(guī)律或因果關(guān)系??紤]到因果聯(lián)系的普遍性和復(fù)雜性,數(shù)據(jù)作為對(duì)不可控試驗(yàn)的特殊描述必須盡可能的豐富,唯此才是更全面、更接近真實(shí)的描述。大數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)已經(jīng)對(duì)傳統(tǒng)社會(huì)科學(xué)認(rèn)識(shí)論和方法論的研究方法產(chǎn)生巨大挑戰(zhàn)。Steve Kelling等認(rèn)為,傳統(tǒng)的認(rèn)識(shí)論“以專家為中心”,傳統(tǒng)科學(xué)方法論的研究依賴于以“專家為中心的參量分析”,其研究中心是理論模型與經(jīng)驗(yàn)證據(jù)的關(guān)系 〔6 〕。該方法論在大數(shù)據(jù)時(shí)代具有局限性,對(duì)單個(gè)專家而言大數(shù)據(jù)分析不可行〔6 〕。而且科學(xué)哲學(xué)經(jīng)驗(yàn)——理論這一單線理解模式也難以應(yīng)對(duì)大數(shù)據(jù)時(shí)代的認(rèn)識(shí)論這種新情況 〔7 〕。另外,流行的觀點(diǎn)認(rèn)為,大數(shù)據(jù)分析關(guān)注的焦點(diǎn)不再是因果關(guān)系,而是相關(guān)關(guān)系。大數(shù)據(jù)的支持者認(rèn)為,“有了足夠的數(shù)據(jù),數(shù)字會(huì)自己說(shuō)話”,因而“相關(guān)關(guān)系足夠了” 〔8 〕,“大數(shù)據(jù)時(shí)代最驚心動(dòng)魄的挑戰(zhàn),就是社會(huì)將需要從對(duì)因果關(guān)系的某種癡迷中蛻出”?!哆B線》雜志主編Anderson甚至認(rèn)為“數(shù)據(jù)爆炸導(dǎo)致科學(xué)的研究方法落伍了” 〔8 〕,大數(shù)據(jù)時(shí)代分析和理解世界,只關(guān)注數(shù)據(jù)就足矣,數(shù)據(jù)分析可揭示一切問(wèn)題,理論變得可有可無(wú)。這一觀點(diǎn)撼動(dòng)了不少社會(huì)科學(xué)研究者,使他們開(kāi)始憧憬“傳統(tǒng)方法的終結(jié)”。此外,不少研究者至今仍然認(rèn)為大數(shù)據(jù)雖然不是絕對(duì)精確,但由于數(shù)據(jù)量極大,所以誤差必然在可以接受的范圍之內(nèi)。endprint
較之于大數(shù)據(jù)而言,傳統(tǒng)社會(huì)科學(xué)研究中使用的數(shù)據(jù)可稱之為“小數(shù)據(jù)”。傳統(tǒng)“小數(shù)據(jù)”方法的缺點(diǎn)是往往采用人工收集數(shù)據(jù)的方法,成本高昂,數(shù)量較小,時(shí)效性較差,滯后性嚴(yán)重。但其優(yōu)點(diǎn)是在嚴(yán)格的統(tǒng)計(jì)抽樣規(guī)范下形成,數(shù)據(jù)質(zhì)量相對(duì)較好;而且“小數(shù)據(jù)”通常是根據(jù)研究需要有目的獲取的,比被動(dòng)收集的“大數(shù)據(jù)”具有更強(qiáng)的針對(duì)性。因此,對(duì)那些具有理論意義和理論突破的研究,小數(shù)據(jù)可能比大數(shù)據(jù)更適合 〔9 〕。另外,很多時(shí)候我們采集到的大數(shù)據(jù)并非真正的全樣本數(shù)據(jù),它可能是總體中某一部分的數(shù)據(jù),比如就互聯(lián)網(wǎng)上的在線數(shù)據(jù)而言,網(wǎng)民并不等同于“公民”的總體。進(jìn)一步而言,實(shí)際上以當(dāng)代計(jì)算機(jī)信息技術(shù)領(lǐng)域的數(shù)據(jù)挖掘?qū)<覟榇淼拇髷?shù)據(jù)分析方法和社會(huì)科學(xué)家們拿手的小數(shù)據(jù)實(shí)證方法代表的是不同的研究范式。前者產(chǎn)生于大數(shù)據(jù)社會(huì),充分利用信息產(chǎn)生和獲取的便捷,基于計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),直接對(duì)海量的大數(shù)據(jù)進(jìn)行分析處理,通過(guò)數(shù)據(jù)量之大和計(jì)算力之強(qiáng)減少對(duì)理論的依賴。后者是在信息收集成本高昂的工業(yè)文明時(shí)代發(fā)展形成的,注重基于已有的理論知識(shí)縮小研究范圍,以先驗(yàn)的理論假設(shè)明確研究方向,依據(jù)嚴(yán)格的統(tǒng)計(jì)抽樣規(guī)范收集數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量降低收集成本。在大數(shù)據(jù)時(shí)代來(lái)臨之際,我們應(yīng)該在洞察兩類不同范式形成的不同機(jī)理,深入分析各自優(yōu)越點(diǎn)和應(yīng)用場(chǎng)景的基礎(chǔ)上,探尋未來(lái)社會(huì)科學(xué)研究的新范式。而本文認(rèn)為,大數(shù)據(jù)時(shí)代社會(huì)科學(xué)研究范式的變革至少包括以下三個(gè)方面。
二、研究路徑變革:“數(shù)據(jù)驅(qū)動(dòng)”的知識(shí)發(fā)現(xiàn)
數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn),是指利用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等方法從掌握的大數(shù)據(jù)中提取隱含在數(shù)據(jù)背后、人們事先不知道,但存在潛在效用、能被人理解的信息和知識(shí)的過(guò)程。其中,精細(xì)的概率模型、統(tǒng)計(jì)推理、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相結(jié)合,成為從大數(shù)據(jù)中提取知識(shí)的有力途徑?;跀?shù)據(jù)的知識(shí)發(fā)現(xiàn)催生了2007年圖靈獎(jiǎng)獲得者吉姆·格雷(Jim Gray)提出的科學(xué)研究“第四范式”。他指出,科學(xué)發(fā)展經(jīng)歷了幾千年前的實(shí)驗(yàn)科學(xué)(主要用于描述自然現(xiàn)象)、幾百年前的理論科學(xué)(用模型或歸納法進(jìn)行科學(xué)研究)、計(jì)算科學(xué)(主要模擬復(fù)雜現(xiàn)象),而當(dāng)今“科學(xué)世界發(fā)生變化,對(duì)此毋庸置疑。新的研究范式將首先基于計(jì)算機(jī)模擬或者儀器捕捉獲取數(shù)據(jù),然后利用軟件處理數(shù)據(jù),并在計(jì)算機(jī)中保存得到的知識(shí)或信息??茖W(xué)家僅在該過(guò)程的最后階段才開(kāi)始審視他們的數(shù)據(jù)。這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方法是如此不同,應(yīng)該將其作為科學(xué)探索的“第四范式”以區(qū)別于計(jì)算科學(xué)”。 〔10 〕
相對(duì)于“數(shù)據(jù)驅(qū)動(dòng)”而言,當(dāng)前社會(huì)科學(xué)的主流研究范式可稱為“理論假設(shè)驅(qū)動(dòng)”。社會(huì)科學(xué)家進(jìn)行一項(xiàng)研究時(shí),強(qiáng)調(diào)首先要通過(guò)廣泛的文獻(xiàn)調(diào)研以了解現(xiàn)有知識(shí)體系的前沿邊界,然后提出本研究可能給現(xiàn)有知識(shí)體系帶來(lái)的貢獻(xiàn),即研究的基本“問(wèn)題”所在;然后從該問(wèn)題出發(fā),在一定的理論框架和必要的理論推演下提出待實(shí)證檢驗(yàn)的“新知識(shí)”,也即“理論假設(shè)”,然后設(shè)計(jì)統(tǒng)計(jì)模型、收集數(shù)據(jù),最后利用所得數(shù)據(jù)驗(yàn)證理論假定并得出結(jié)論。這一過(guò)程深受波普爾證偽主義的影響,實(shí)證研究一般被定位為對(duì)理論假設(shè)的證偽。此外,理論假設(shè)的提出過(guò)于依賴于已有理論體系及研究者的知識(shí)和觀念,致使社會(huì)科學(xué)的知識(shí)發(fā)現(xiàn)具有兩個(gè)明顯的特征,即“路徑依賴”及對(duì)研究者主觀觀念的“個(gè)性依賴”。
可以預(yù)見(jiàn),大數(shù)據(jù)時(shí)代的社會(huì)科學(xué)研究將充分吸收“數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)”模式的優(yōu)勢(shì),形成“數(shù)據(jù)驅(qū)動(dòng)”和“理論假設(shè)驅(qū)動(dòng)”相結(jié)合的新范式?!皵?shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)”對(duì)社會(huì)科學(xué)研究產(chǎn)生挑戰(zhàn)并將重構(gòu)研究過(guò)程,但這并不意味著理論假設(shè)驅(qū)動(dòng)的社會(huì)科學(xué)研究范式的終結(jié),兩者的結(jié)合將更好地認(rèn)識(shí)世界。實(shí)際上理論假設(shè)驅(qū)動(dòng)的研究路徑為廣大社會(huì)科學(xué)研究者所接受的重要原因是,其在信息不足條件下帶來(lái)的高效性。在傳統(tǒng)的技術(shù)條件下,社會(huì)科學(xué)研究者搜集信息、處理數(shù)據(jù)面臨著高昂的成本?;谝延兄R(shí)體系提出理論假設(shè),有助于迅速聚焦研究的問(wèn)題,而基于核心問(wèn)題出發(fā)收集和處理數(shù)據(jù),有利于節(jié)約成本。但這種先給出理論假設(shè)的作法也往往局限了研究的理論創(chuàng)見(jiàn),因?yàn)檫x擇了某一理論假設(shè)就意味著放棄了很多其它的甚至更有價(jià)值的理論假設(shè)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,收集和處理數(shù)據(jù)成本大大下降,研究者可避開(kāi)現(xiàn)有理論和個(gè)人知識(shí)的束縛,在先驗(yàn)假設(shè)盡可能少、甚至沒(méi)有任何假設(shè)的情況下,通過(guò)大范圍的數(shù)據(jù)挖掘發(fā)現(xiàn)一些基本的模式,從中提出更重要的研究問(wèn)題和理論假設(shè),并結(jié)合已有理論知識(shí)凝練理論假設(shè);然后基于理論假設(shè)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的問(wèn)題導(dǎo)向、更集中的深度挖掘來(lái)驗(yàn)證假設(shè)的合理性;如果此時(shí)已有數(shù)據(jù)不能滿足假設(shè)驗(yàn)證的要求,可進(jìn)一步收集數(shù)據(jù),當(dāng)然也可以采用傳統(tǒng)方法收集小樣本數(shù)據(jù),以保證假設(shè)驗(yàn)證的科學(xué)性。因此,大數(shù)據(jù)時(shí)代一項(xiàng)典型社會(huì)科學(xué)研究的實(shí)施過(guò)程將包括初步數(shù)據(jù)挖掘與問(wèn)題發(fā)現(xiàn)、問(wèn)題聚焦與理論假設(shè)確立、深度數(shù)據(jù)挖掘與假設(shè)檢驗(yàn)、知識(shí)形成與研究結(jié)論等環(huán)節(jié),而基于數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模式及大數(shù)據(jù)分析技術(shù)將深度融合于以上各個(gè)環(huán)節(jié)之中。
值得注意的是,在兩類研究路徑結(jié)合的過(guò)程中常會(huì)面臨一個(gè)選擇,即應(yīng)該采用傳統(tǒng)的社會(huì)科學(xué)統(tǒng)計(jì)分析方法還是采用大數(shù)據(jù)方法。我們認(rèn)為這需要理清兩者研究目標(biāo)的異同、對(duì)數(shù)據(jù)特征的側(cè)重以及技術(shù)方法的差別,然后根據(jù)具體研究場(chǎng)景予以取舍。從統(tǒng)計(jì)分析的一般規(guī)律來(lái)講,假設(shè)的強(qiáng)度和結(jié)論的精確性、穩(wěn)健性之間存在此消彼長(zhǎng)的關(guān)系。理論假設(shè)越多,統(tǒng)計(jì)分析的結(jié)論通常越精確,但如果假設(shè)不成立,穩(wěn)健性則越差;反之則反。傳統(tǒng)的社會(huì)科學(xué)統(tǒng)計(jì)分析方法和大數(shù)據(jù)方法反映了不同的統(tǒng)計(jì)哲學(xué)。傳統(tǒng)的統(tǒng)計(jì)分析方法往往從一定的理論假設(shè)出發(fā),構(gòu)建指標(biāo)和模型,其優(yōu)點(diǎn)是理論相對(duì)嚴(yán)謹(jǐn),結(jié)論明確,可證偽度較高;缺點(diǎn)是對(duì)假設(shè)的嚴(yán)密性及數(shù)據(jù)的質(zhì)量均有較高要求,對(duì)研究對(duì)象發(fā)生結(jié)構(gòu)性變化時(shí)的適應(yīng)性較弱。〔11 〕而大數(shù)據(jù)挖掘方法,則以“基于數(shù)據(jù)的知識(shí)發(fā)現(xiàn)”為基本原則,以數(shù)據(jù)的量大彌補(bǔ)理論前提的不足,優(yōu)點(diǎn)是前提假設(shè)少,對(duì)數(shù)據(jù)質(zhì)量要求相對(duì)較低,缺點(diǎn)是對(duì)內(nèi)在理論機(jī)制的揭示不足,數(shù)據(jù)量要求大。
三、研究手段變革:大數(shù)據(jù)成為因果分析的強(qiáng)大手段
在傳統(tǒng)的社會(huì)科學(xué)研究范式中,學(xué)者研究的焦點(diǎn)是探究因果關(guān)系。流行的觀點(diǎn)認(rèn)為大數(shù)據(jù)分析應(yīng)注重相關(guān)關(guān)系而忽略因果關(guān)系 〔12 〕,認(rèn)為“相關(guān)關(guān)系足夠了”,Chris Anderson甚至提出“理論的終結(jié)”。本文并不認(rèn)同上述極端觀點(diǎn),盡管相關(guān)關(guān)系在大數(shù)據(jù)分析中得到凸顯,但“因果關(guān)系是人類理性行為與活動(dòng)的基本依據(jù),人類理性本身不可能否定因果關(guān)系” 〔12 〕?!按髷?shù)據(jù)長(zhǎng)于分析相關(guān)關(guān)系,而非因果關(guān)系。但這可能是一個(gè)偽命題。如何從相關(guān)關(guān)系中推斷出因果關(guān)系,才是大數(shù)據(jù)真正問(wèn)題所在?!?〔13 〕本文認(rèn)為,大數(shù)據(jù)時(shí)代因果關(guān)系將得到更好的解釋,大數(shù)據(jù)不僅可以改進(jìn)傳統(tǒng)方法,而且其著重探究的相關(guān)關(guān)系也有助于探究因果關(guān)系。endprint
探究變量間因果關(guān)系的最佳方法是進(jìn)行可控性試驗(yàn),基于試驗(yàn)不僅可以將試驗(yàn)對(duì)象分為控制組和實(shí)驗(yàn)組,還可以避免外界因素干擾 〔14 〕。然而,社會(huì)科學(xué)研究對(duì)象的特殊性,致使“進(jìn)行實(shí)驗(yàn)的特殊困難” 〔15 〕111,而且“在社會(huì)研究題材上進(jìn)行受控實(shí)驗(yàn)的可能性極為狹小” 〔16 〕503。在社會(huì)科學(xué)的研究中,通?;诟怕式嵌壤斫庖蚬?,采用統(tǒng)計(jì)方法判斷因果。在實(shí)證分析中,因果關(guān)系判斷的準(zhǔn)確度通常受制于三因素 〔14 〕:變量的內(nèi)生性、變量遺漏、樣本代表性。內(nèi)生性問(wèn)題是因果關(guān)系難以判斷的主要原因,它是指“在一些情況下出現(xiàn)反向因果問(wèn)題:解釋變量受到被解釋變量影響,而不是我們假設(shè)的影響被解釋變量” 〔17 〕180。關(guān)于變量遺漏問(wèn)題?,F(xiàn)實(shí)生活中,聯(lián)系是普遍存在的,單因單果的現(xiàn)象很難出現(xiàn)。這意味著,構(gòu)建合理的模型應(yīng)該包括所有可能影響因變量的元素,而不應(yīng)該僅僅涉及兩個(gè)變量。但由于數(shù)據(jù)等原因的限制,常常導(dǎo)致變量遺漏問(wèn)題。關(guān)于樣本代表性問(wèn)題。如前所述,傳統(tǒng)研究范式中的數(shù)據(jù)通常來(lái)自抽樣調(diào)查,然而研究者的主觀選擇、客觀條件限制以及操作過(guò)程失誤等均可導(dǎo)致樣本選擇性偏誤,從而導(dǎo)致樣本代表性問(wèn)題。
大數(shù)據(jù)時(shí)代,大數(shù)據(jù)試圖提供的“全樣本”數(shù)據(jù)將令上述問(wèn)題得到改善。首先,更多的數(shù)據(jù)意味著更多的工具變量備選,研究中可選擇更好的工具變量;其次,“全樣本”將解決抽樣帶來(lái)的樣本代表性問(wèn)題;最后,不僅因數(shù)據(jù)缺失造成的變量遺漏問(wèn)題將得以解決,還可以對(duì)“全樣本”數(shù)據(jù)進(jìn)行篩選,以判斷哪些變量應(yīng)該包含于模型中。關(guān)于變量的選擇,可采用Song 和 Taamouti提出的統(tǒng)計(jì)程序 〔18 〕,此外接下來(lái)提到的因果圖模型也有助于變量的篩選。
因果圖模型由圖靈獎(jiǎng)獲得者Pearl提出,利用有向圖探究變量間因果關(guān)系,分析數(shù)據(jù)的生成機(jī)制?!?9 〕該方法主要利用條件相關(guān)性判斷變量間是否存在因果關(guān)系,其根本機(jī)理在于,潛在的因果關(guān)系會(huì)影響變量間統(tǒng)計(jì)上的各類(條件)獨(dú)立性,因而可以利用數(shù)據(jù)分析得到的各種條件獨(dú)立性進(jìn)而反推可能存在的因果關(guān)系。例如,假設(shè)變量X、Y與Z之間的因果關(guān)系存在如圖1所示四種情況。其中,圖的頂點(diǎn)代表變量,兩點(diǎn)間存在有向邊表明變量間存在因果關(guān)系,比如“XY”表示X是Y的原因。數(shù)據(jù)分析表明,Y和Z的無(wú)條件相關(guān)系數(shù)為0,但給定X時(shí)Y和Z條件相關(guān)系數(shù)不為0,則只有圖(d)所示因果關(guān)系是正確的。這種方法類似于社會(huì)科學(xué)統(tǒng)計(jì)模型中常用的工具變量法,但Pearl的方法更為強(qiáng)大,其強(qiáng)大之處在于,將這種判斷對(duì)應(yīng)到一定的有向無(wú)環(huán)圖的拓?fù)浣Y(jié)構(gòu),利用圖論的相關(guān)知識(shí)設(shè)計(jì)一套算法,當(dāng)變量數(shù)變得龐大時(shí),展現(xiàn)出強(qiáng)大的分析能力。Eichler 和 Dielez進(jìn)一步作出拓展,使得因果圖模型可用于時(shí)間序列的分析。 〔20 〕這些分析方法近期的蓬勃發(fā)展已經(jīng)說(shuō)明,對(duì)條件相關(guān)關(guān)系的判斷可有效地幫助因果關(guān)系判斷。此外大數(shù)據(jù)條件下該方法威力更加強(qiáng)大,因?yàn)榇藭r(shí)有更多的可得變量,更容易獲得變量的聯(lián)合概率分布以判斷變量間是否存在條件相關(guān)。因此,隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)蘊(yùn)含的信息可極大地幫助刻畫(huà)變量間的因果關(guān)系,同時(shí)解決傳統(tǒng)方法遺漏變量的問(wèn)題,進(jìn)而推動(dòng)相關(guān)領(lǐng)域的發(fā)展。
四、研究功能變革:將因果分析與預(yù)測(cè)統(tǒng)一于政策
社會(huì)科學(xué)研究重視因果判斷的根本原因在于,社會(huì)科學(xué)家普遍認(rèn)為對(duì)因果關(guān)系的明確把握是理論運(yùn)用于實(shí)際的前提。就政策問(wèn)題而言,政策制定者需要知道改變某一個(gè)政策工具對(duì)社會(huì)產(chǎn)生何種影響。因?yàn)楦淖冋吖ぞ呤菍?duì)系統(tǒng)的外在干預(yù),如果政策和預(yù)期結(jié)果之間沒(méi)有正向因果關(guān)系,通過(guò)外生政策干預(yù)不能取得預(yù)期結(jié)果。因此,一種流行的看法是,盡管對(duì)變量間相關(guān)關(guān)系的掌握有助于進(jìn)行預(yù)測(cè)分析,但離開(kāi)了因果關(guān)系,相關(guān)關(guān)系(或者預(yù)測(cè)分析)將無(wú)助于政策實(shí)施。然而,在此我們想強(qiáng)調(diào)的是,盡管在過(guò)去社會(huì)科學(xué)研究中預(yù)測(cè)問(wèn)題沒(méi)有得到應(yīng)有的重視,但預(yù)測(cè)問(wèn)題在政策研究中同樣十分重要。用天氣問(wèn)題作為類比,政策問(wèn)題可概括為兩類,即“雨傘”問(wèn)題和“降雨”問(wèn)題?!?1 〕所謂“雨傘”問(wèn)題,即判斷是否會(huì)下雨以決定是否帶雨傘,這類問(wèn)題也稱為預(yù)測(cè)問(wèn)題或者對(duì)策問(wèn)題。所謂“降雨”問(wèn)題,即依據(jù)所需的降雨量決定采取何種措施,如向空中打多少干冰,這類問(wèn)題也稱為干預(yù)問(wèn)題,需要掌握降雨措施和降雨量之間的因果關(guān)系。盡管政策研究涉及上述兩類問(wèn)題,但以往的社會(huì)科學(xué)研究主要關(guān)注后一類問(wèn)題,即因果問(wèn)題,而現(xiàn)有的數(shù)據(jù)挖掘技術(shù)則更關(guān)注前一類問(wèn)題,即預(yù)測(cè)問(wèn)題。
事實(shí)上,現(xiàn)實(shí)中政策問(wèn)題往往是兩類問(wèn)題的結(jié)合。為此,不妨進(jìn)一步分析“降雨”問(wèn)題。在我們向空中撒入干冰前,需要研究清楚干冰對(duì)降雨的影響,這是一個(gè)因果判斷問(wèn)題。假定我們針對(duì)特定區(qū)域?qū)嵤┤斯そ涤?,那么該地區(qū)的實(shí)際降雨量不僅取決于撒入空中的干冰數(shù)量,還取決于風(fēng)向。我們可以控制干冰的數(shù)量,卻無(wú)法控制風(fēng)向。為此,只能選擇在風(fēng)向合適的時(shí)候?qū)嵤┤斯そ涤辏@意味著我們需要預(yù)測(cè)風(fēng)向。事實(shí)上,幾乎所有的政策干預(yù)都需要在時(shí)機(jī)合適時(shí)實(shí)施,因此對(duì)“時(shí)機(jī)”的預(yù)測(cè)是十分必要的。圖2說(shuō)明政策研究中因果問(wèn)題與預(yù)測(cè)問(wèn)題結(jié)合的一般模式。假設(shè)政府為取得某一效果決定進(jìn)行政策干預(yù),效果的好壞受Y和Z影響,X是Z變化的原因但并非Y變化的原因。這樣政府可通過(guò)外生干預(yù)X來(lái)調(diào)節(jié)Z,對(duì)Y卻無(wú)能為力。如何恰當(dāng)?shù)馗深A(yù)X來(lái)改變Z并最終影響政策效果是一個(gè)因果問(wèn)題,但僅僅抓住因果關(guān)系未必能取得理想的政策效果,因?yàn)閅同樣影響政策效果。因此,唯有Y值預(yù)測(cè)基礎(chǔ)上的政策干預(yù),才能取得理想的政策效果。這意味著,就理想政策效果的獲取而言,如何更好地預(yù)測(cè)Y與因果關(guān)系判定同等重要??梢?jiàn),對(duì)于大數(shù)據(jù)時(shí)代的政策研究,因果問(wèn)題和預(yù)測(cè)問(wèn)題同等重要,不可厚此薄彼。通過(guò)結(jié)合大數(shù)據(jù)預(yù)測(cè)方法,對(duì)一些制約政策效果又不可控的因素進(jìn)行預(yù)測(cè),并在此基礎(chǔ)上選擇更合理的政策措施和時(shí)機(jī),可以幫助改進(jìn)政策效果。
圖2 大數(shù)據(jù)在政策實(shí)施中預(yù)測(cè)與因果關(guān)系的統(tǒng)一性
五、結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代的到來(lái)對(duì)社會(huì)科學(xué)研究產(chǎn)生巨大影響。除“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)以及數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)三個(gè)方面的直接影響外,大數(shù)據(jù)還將進(jìn)一步推動(dòng)社會(huì)科學(xué)研究范式三個(gè)層面的變革。但是挑戰(zhàn)也是存在的。比如,大數(shù)據(jù)的可得性不近如人意。一方面數(shù)據(jù)巨頭將數(shù)據(jù)視為核心資產(chǎn),拒絕共享數(shù)據(jù);另一方面大數(shù)據(jù)可能涉及個(gè)人隱私、商業(yè)機(jī)密或者國(guó)家安全,不能共享。再如,大數(shù)據(jù)具有相對(duì)性?!按髷?shù)據(jù)知識(shí)產(chǎn)生的前提要求大數(shù)據(jù)能夠真實(shí)、全面地反映經(jīng)驗(yàn)世界和網(wǎng)絡(luò)世界。” 〔22 〕目前大數(shù)據(jù)尚未覆蓋全世界和所有領(lǐng)域,地區(qū)間網(wǎng)絡(luò)普及與信息技術(shù)的差異,勢(shì)必導(dǎo)致“大數(shù)據(jù)時(shí)代”“小數(shù)據(jù)時(shí)代”“物數(shù)據(jù)時(shí)代”并存。今天的大數(shù)據(jù)可能只是明天的小數(shù)據(jù),今天所得結(jié)論在明天也許會(huì)被否定 〔23 〕。另外,大數(shù)據(jù)分析技術(shù)尚存諸多挑戰(zhàn)。高維、復(fù)雜、多變等特性致使大數(shù)據(jù)較難處理,而如何采用降維和特征選擇技術(shù)降低處理難度存在許多挑戰(zhàn);而且,機(jī)器學(xué)習(xí)與傳統(tǒng)統(tǒng)計(jì)方法如何融合、傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和新興非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)合同樣亟待探索。盡管存在挑戰(zhàn),但我們堅(jiān)信大數(shù)據(jù)這一新的偉大技術(shù)革命必將孕育社會(huì)科學(xué)研究范式的革命,中國(guó)社會(huì)科學(xué)學(xué)人唯有主動(dòng)擁抱變革,迎難而上,才能實(shí)現(xiàn)跨越式發(fā)展,不負(fù)時(shí)代重托。endprint
參考文獻(xiàn):
〔1〕黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)〔J〕.長(zhǎng)沙理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014(2).
〔2〕Einav, L, Hendry, D.F. The Data Revolution and Economic Analysis〔EB/OL〕. http://www.nber.org/papers/w19035. pdf.
〔3〕維克托·邁爾·舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作、思維的大變革〔M〕.盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
〔4〕劉濤雄,徐曉飛.大數(shù)據(jù)與宏觀經(jīng)濟(jì)分析研究綜述〔J〕.國(guó)外理論動(dòng)態(tài),2015(1)
〔5〕哈耶克.科學(xué)的反革命——理性濫用之研究〔M〕.馮克利,譯.南京:譯林出版社,2003.
〔6〕Kelling S, Hochachka W M, Fink D, et al. Data-intensive science: a new paradigm for biodiversity studies〔J〕. BioScience, 2009(7).
〔7〕賈向桐.大數(shù)據(jù)革命與科學(xué)哲學(xué)變革的三重維度〔J〕.人民論壇,2016(5).
〔8〕Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete〔J〕. Wired 16, 2008(7).
〔9〕唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會(huì)科學(xué)研究方法的探討〔J〕.中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015(6).
〔10〕Kristin M, Tolle D, Stenwrart W, et al. The Fourth Paradigm: Data-Intensive Science Scientific Discovery〔J〕. Proceedings of The IEEE, 2011(99).
〔11〕劉濤雄,徐曉飛.互聯(lián)網(wǎng)搜素行為能幫助預(yù)測(cè)宏觀經(jīng)濟(jì)嗎?〔J〕經(jīng)濟(jì)研究,2015(12).
〔12〕王天思.大數(shù)據(jù)中的因果關(guān)系及其哲學(xué)內(nèi)涵〔J〕.中國(guó)社會(huì)科學(xué),2016(5).
〔13〕姜奇平.因果推斷與大數(shù)據(jù)〔J〕.互聯(lián)網(wǎng)周刊,2014(18).
〔14〕劉林平,蔣和超,李瀟曉.規(guī)律與因果:大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究沖擊之反思——以社會(huì)學(xué)為例〔J〕.社會(huì)科學(xué),2016(9).
〔15〕卡爾·波普爾.歷史決定論的貧困〔M〕.上海:上海人民出版社,2009.
〔16〕歐內(nèi)斯特·內(nèi)格爾.科學(xué)的結(jié)構(gòu)〔M〕.徐向東,譯.上海:上海譯文出版社,2005.
〔17〕加里·金,羅伯特·基歐漢,悉尼·維巴.社會(huì)科學(xué)中的研究設(shè)計(jì)〔M〕.陳碩,譯.上海:格致出版社,上海人民出版社,2014.
〔18〕 Song, X, Taamouti, A. A Better Understanding of Granger Causality Analysis: A Big Data Environment〔EB/OL〕. https://ssrn.com/abstract=2914997.
〔19〕Pearl, J. Causal diagrams for empirical research〔J〕. Biometrika,1995(82).
〔20〕Eichler M, Didelez V. On Granger causality and the effect of interventions in time series〔J〕. Lifetime data analysis, 2010, 16(1).
〔21〕Kleinberg J, Ludwig J, Mullainathan S, et al. Prediction policy problems〔J〕. American Economic Review: Papers & Proceedings,2015(5).
〔22〕蘇玉娟,魏屹東.大數(shù)據(jù)知識(shí)表征的機(jī)制及其意義〔J〕.科學(xué)技術(shù)哲學(xué)研究,2017(2).
〔23〕邱 東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)〔J〕.統(tǒng)計(jì)研究,2014(1).
責(zé)任編輯 蘇玉娟endprint