劉濤雄 尹德才
特邀主持人:劉濤雄(清華大學社會科學學院教授、博士生導師)
主持人語:毫無疑問,大數據已經掀起一場革命,正在深刻地改造人類社會、經濟和政治秩序的各個方面,我國亦于2016年明確提出“十三五”期間將實施國家大數據戰(zhàn)略。無論大數據作為研究對象抑或是研究方法,均對社會科學研究范式的創(chuàng)新產生了深刻影響。為了加深學術界對于大數據與社會科學發(fā)展的認識,促進學術對話與交流,我們組織了兩篇文章集中探討大數據對社會科學研究范式的復雜影響。第一篇文章區(qū)分了大數據對社會科學研究范式的直接影響和間接影響。大數據時代通過為社會科學研究提供“全樣本”數據、大數據技術和數據驅動的知識發(fā)現產生了巨大的直接影響,還間接地推動著社會科學研究范式在研究路徑、研究手段和研究功能上的深刻變革。第二篇文章以“計算社會科學”為研究對象,闡述了這一交叉學科的緣起、學科嬗變以及其推動社會科學研究范式轉換的方向。大數據為新興學科發(fā)展與范式突破創(chuàng)造了機遇,并形成了一系列圍繞著數據驅動和算法驅動采取不同融合方式的“問題解決性、應用導向”多元化研究進路。作為技術進步、數據爆炸和方法創(chuàng)新的產物,計算社會科學融合了社會科學的計算傳統(tǒng),基于海量數據資源和多元化數據分析學推動著社會科學范式轉換。
〔摘要〕 大數據時代的到來對社會科學研究產生巨大影響。除“全樣本”數據、大數據技術以及數據驅動的知識發(fā)現三個方面的直接影響外,大數據還將進一步推動社會科學研究范式三個層面的變革。一是研究路徑變革:大數據“數據驅動”模式與當前社會科學“理論假設驅動”模式相結合形成新的研究模式。二是研究手段變革:大數據及相關技術將成為因果發(fā)現的強大武器。三是功能變革:預測問題和因果問題將得到同等重視,并將有機統(tǒng)一于有關研究特別是政策研究中。
〔關鍵詞〕 大數據,社會科學研究范式,知識發(fā)現,傳統(tǒng)社會科學
〔中圖分類號〕C1 〔文獻標識碼〕A 〔文章編號〕1004-4175(2017)06-0027-06
隨著網絡的普及和信息技術的發(fā)展,人類社會進入大數據時代。盡管“大數據”的定義存在差異,但大數據已深刻影響到社會的各個方面,引起人類生活、工作與思維的大變革??茖W研究,特別是社會科學研究同樣受到強烈影響。大數據的出現不僅提供了“全樣本”數據,還為社會科學研究提供新的研究方法和技術手段。同時,一些觀點認為大數據強調重視“相關而非因果”也引起諸多爭議,對以因果探究為核心的傳統(tǒng)社會科學研究產生沖擊。在這種情形下,社會科學研究者該如何看待大數據帶來的機遇和挑戰(zhàn)?如何利用大數據進行社會科學研究?大數據將如何影響社會科學的研究范式?現有文獻對此類問題的研究較少,為此基于對大數據時代社會科學研究面臨機遇與挑戰(zhàn)的分析,本文探究大數據時代社會科學研究范式變革的方向。
一、大數據時代社會科學研究范式面臨變革
“大數據”一詞正式出現于1998年《科學》雜志刊登的《大數據的處理程序》一文,此后《自然》雜志2008年出版“大數據”???,“大數據”一詞得到普遍認可和使用。關于大數據的定義學術界并沒有達成共識,由于關注點不同,科技企業(yè)、研究學者、數據分析人員和技術實踐者對大數據有不同的定義。從狹義上講,大數據是指數據量的大小超過了傳統(tǒng)意義上的尺度,一般的工具難以進行捕捉、存儲、管理和分析。〔1 〕該定義僅僅描述了大數據的“大”,沒有涉及大數據的其他屬性。當前一般認為,大數據的典型屬性概括為“4V”,即數據體量大、數據產生速度快、種類多樣和價值密度低。
就社會科學研究而言,大數據時代到底為我們帶來什么?借鑒Einav & Hendry的概括,至少有四點很重要 〔2 〕。一是數據的實時可得。如互聯網上的大量信息是實時的,移動互聯網和物聯網的發(fā)展導致每個人可能隨時隨地在制造數據。社會科學應充分利用數據的實時性,大大提高研究的時效性。二是可得數據是海量的。正如Mayer-Sch.nberger 和 Cukier所言,傳統(tǒng)統(tǒng)計學處理的主要是樣本,而在大數據時代,你能得到的數據可能就是總體本身 〔3 〕17。如就個人遷徙而言,手機等隨身設備可能將每個個體的移動都記錄在案。大數據時代的到來,許多數據貧乏的學科成為數據富集的研究領域,而“社會科學是被‘樣本=總體撼動得最厲害的學科” 〔3 〕42。大數據提供的“全樣本”數據不僅使得許多因數據缺乏而無法開展的研究得以開展,同時也帶來新的挑戰(zhàn)。大數據其量之大超出一般傳統(tǒng)統(tǒng)計軟件所能處理的范圍,而且解釋變量增加會導致高維數據中的“維數災難”,解決這些問題需要新的分析方法和工具。三是數據的非結構化。大數據的來源和形式都十分多樣化,如互聯網信息包含文本、圖片以及影音等多種形式。這些信息中到底哪些包含我們所需要的信息?社會科學研究如何充分利用數據挖掘技術,將這些非結構化信息轉化為統(tǒng)計模型所能利用的形式?這些都是需要解決的問題。四是數據分析的技術手段日新月異。伴隨著數據規(guī)模的擴大,新的大數據分析技術不斷地涌現,機器學習、并行計算等技術的發(fā)展和改進加快了大數據的處理速度。社會科學研究如何吸收和利用這些強大的技術手段,使之成為社會科學家工具箱中的利器是未來社會科學家們必須面對的問題?!? 〕
但是,相對于上述直接影響更為重要的是,我們需要思考大數據時代到底給社會科學基本的研究范式帶來哪些影響?社會科學的研究對象為社會,目標在于認識各種社會現象并盡可能地發(fā)現關聯,而核心在于探究因果關系。正如哈耶克所言“社會科學研究的不是物與物的關系,而是人與物或人與人的關系。它研究人的行為,它的目的是解釋許多人的行為所帶來的無意的或未經設計的結果?!?〔5 〕7各種社會現象可視為已發(fā)生的不可控試驗,其背后存在某種潛在的本質規(guī)律或因果關系??紤]到因果聯系的普遍性和復雜性,數據作為對不可控試驗的特殊描述必須盡可能的豐富,唯此才是更全面、更接近真實的描述。大數據驅動的知識發(fā)現已經對傳統(tǒng)社會科學認識論和方法論的研究方法產生巨大挑戰(zhàn)。Steve Kelling等認為,傳統(tǒng)的認識論“以專家為中心”,傳統(tǒng)科學方法論的研究依賴于以“專家為中心的參量分析”,其研究中心是理論模型與經驗證據的關系 〔6 〕。該方法論在大數據時代具有局限性,對單個專家而言大數據分析不可行〔6 〕。而且科學哲學經驗——理論這一單線理解模式也難以應對大數據時代的認識論這種新情況 〔7 〕。另外,流行的觀點認為,大數據分析關注的焦點不再是因果關系,而是相關關系。大數據的支持者認為,“有了足夠的數據,數字會自己說話”,因而“相關關系足夠了” 〔8 〕,“大數據時代最驚心動魄的挑戰(zhàn),就是社會將需要從對因果關系的某種癡迷中蛻出”。《連線》雜志主編Anderson甚至認為“數據爆炸導致科學的研究方法落伍了” 〔8 〕,大數據時代分析和理解世界,只關注數據就足矣,數據分析可揭示一切問題,理論變得可有可無。這一觀點撼動了不少社會科學研究者,使他們開始憧憬“傳統(tǒng)方法的終結”。此外,不少研究者至今仍然認為大數據雖然不是絕對精確,但由于數據量極大,所以誤差必然在可以接受的范圍之內。endprint
較之于大數據而言,傳統(tǒng)社會科學研究中使用的數據可稱之為“小數據”。傳統(tǒng)“小數據”方法的缺點是往往采用人工收集數據的方法,成本高昂,數量較小,時效性較差,滯后性嚴重。但其優(yōu)點是在嚴格的統(tǒng)計抽樣規(guī)范下形成,數據質量相對較好;而且“小數據”通常是根據研究需要有目的獲取的,比被動收集的“大數據”具有更強的針對性。因此,對那些具有理論意義和理論突破的研究,小數據可能比大數據更適合 〔9 〕。另外,很多時候我們采集到的大數據并非真正的全樣本數據,它可能是總體中某一部分的數據,比如就互聯網上的在線數據而言,網民并不等同于“公民”的總體。進一步而言,實際上以當代計算機信息技術領域的數據挖掘專家為代表的大數據分析方法和社會科學家們拿手的小數據實證方法代表的是不同的研究范式。前者產生于大數據社會,充分利用信息產生和獲取的便捷,基于計算機計算能力的不斷增強,直接對海量的大數據進行分析處理,通過數據量之大和計算力之強減少對理論的依賴。后者是在信息收集成本高昂的工業(yè)文明時代發(fā)展形成的,注重基于已有的理論知識縮小研究范圍,以先驗的理論假設明確研究方向,依據嚴格的統(tǒng)計抽樣規(guī)范收集數據以提高數據質量降低收集成本。在大數據時代來臨之際,我們應該在洞察兩類不同范式形成的不同機理,深入分析各自優(yōu)越點和應用場景的基礎上,探尋未來社會科學研究的新范式。而本文認為,大數據時代社會科學研究范式的變革至少包括以下三個方面。
二、研究路徑變革:“數據驅動”的知識發(fā)現
數據驅動的知識發(fā)現,是指利用統(tǒng)計學、機器學習等方法從掌握的大數據中提取隱含在數據背后、人們事先不知道,但存在潛在效用、能被人理解的信息和知識的過程。其中,精細的概率模型、統(tǒng)計推理、數據挖掘與機器學習相結合,成為從大數據中提取知識的有力途徑?;跀祿闹R發(fā)現催生了2007年圖靈獎獲得者吉姆·格雷(Jim Gray)提出的科學研究“第四范式”。他指出,科學發(fā)展經歷了幾千年前的實驗科學(主要用于描述自然現象)、幾百年前的理論科學(用模型或歸納法進行科學研究)、計算科學(主要模擬復雜現象),而當今“科學世界發(fā)生變化,對此毋庸置疑。新的研究范式將首先基于計算機模擬或者儀器捕捉獲取數據,然后利用軟件處理數據,并在計算機中保存得到的知識或信息??茖W家僅在該過程的最后階段才開始審視他們的數據。這種數據密集型科學的技術和方法是如此不同,應該將其作為科學探索的“第四范式”以區(qū)別于計算科學”。 〔10 〕
相對于“數據驅動”而言,當前社會科學的主流研究范式可稱為“理論假設驅動”。社會科學家進行一項研究時,強調首先要通過廣泛的文獻調研以了解現有知識體系的前沿邊界,然后提出本研究可能給現有知識體系帶來的貢獻,即研究的基本“問題”所在;然后從該問題出發(fā),在一定的理論框架和必要的理論推演下提出待實證檢驗的“新知識”,也即“理論假設”,然后設計統(tǒng)計模型、收集數據,最后利用所得數據驗證理論假定并得出結論。這一過程深受波普爾證偽主義的影響,實證研究一般被定位為對理論假設的證偽。此外,理論假設的提出過于依賴于已有理論體系及研究者的知識和觀念,致使社會科學的知識發(fā)現具有兩個明顯的特征,即“路徑依賴”及對研究者主觀觀念的“個性依賴”。
可以預見,大數據時代的社會科學研究將充分吸收“數據驅動的知識發(fā)現”模式的優(yōu)勢,形成“數據驅動”和“理論假設驅動”相結合的新范式?!皵祿寗拥闹R發(fā)現”對社會科學研究產生挑戰(zhàn)并將重構研究過程,但這并不意味著理論假設驅動的社會科學研究范式的終結,兩者的結合將更好地認識世界。實際上理論假設驅動的研究路徑為廣大社會科學研究者所接受的重要原因是,其在信息不足條件下帶來的高效性。在傳統(tǒng)的技術條件下,社會科學研究者搜集信息、處理數據面臨著高昂的成本?;谝延兄R體系提出理論假設,有助于迅速聚焦研究的問題,而基于核心問題出發(fā)收集和處理數據,有利于節(jié)約成本。但這種先給出理論假設的作法也往往局限了研究的理論創(chuàng)見,因為選擇了某一理論假設就意味著放棄了很多其它的甚至更有價值的理論假設。隨著大數據技術的發(fā)展,收集和處理數據成本大大下降,研究者可避開現有理論和個人知識的束縛,在先驗假設盡可能少、甚至沒有任何假設的情況下,通過大范圍的數據挖掘發(fā)現一些基本的模式,從中提出更重要的研究問題和理論假設,并結合已有理論知識凝練理論假設;然后基于理論假設對數據進行進一步的問題導向、更集中的深度挖掘來驗證假設的合理性;如果此時已有數據不能滿足假設驗證的要求,可進一步收集數據,當然也可以采用傳統(tǒng)方法收集小樣本數據,以保證假設驗證的科學性。因此,大數據時代一項典型社會科學研究的實施過程將包括初步數據挖掘與問題發(fā)現、問題聚焦與理論假設確立、深度數據挖掘與假設檢驗、知識形成與研究結論等環(huán)節(jié),而基于數據的知識發(fā)現模式及大數據分析技術將深度融合于以上各個環(huán)節(jié)之中。
值得注意的是,在兩類研究路徑結合的過程中常會面臨一個選擇,即應該采用傳統(tǒng)的社會科學統(tǒng)計分析方法還是采用大數據方法。我們認為這需要理清兩者研究目標的異同、對數據特征的側重以及技術方法的差別,然后根據具體研究場景予以取舍。從統(tǒng)計分析的一般規(guī)律來講,假設的強度和結論的精確性、穩(wěn)健性之間存在此消彼長的關系。理論假設越多,統(tǒng)計分析的結論通常越精確,但如果假設不成立,穩(wěn)健性則越差;反之則反。傳統(tǒng)的社會科學統(tǒng)計分析方法和大數據方法反映了不同的統(tǒng)計哲學。傳統(tǒng)的統(tǒng)計分析方法往往從一定的理論假設出發(fā),構建指標和模型,其優(yōu)點是理論相對嚴謹,結論明確,可證偽度較高;缺點是對假設的嚴密性及數據的質量均有較高要求,對研究對象發(fā)生結構性變化時的適應性較弱?!?1 〕而大數據挖掘方法,則以“基于數據的知識發(fā)現”為基本原則,以數據的量大彌補理論前提的不足,優(yōu)點是前提假設少,對數據質量要求相對較低,缺點是對內在理論機制的揭示不足,數據量要求大。
三、研究手段變革:大數據成為因果分析的強大手段
在傳統(tǒng)的社會科學研究范式中,學者研究的焦點是探究因果關系。流行的觀點認為大數據分析應注重相關關系而忽略因果關系 〔12 〕,認為“相關關系足夠了”,Chris Anderson甚至提出“理論的終結”。本文并不認同上述極端觀點,盡管相關關系在大數據分析中得到凸顯,但“因果關系是人類理性行為與活動的基本依據,人類理性本身不可能否定因果關系” 〔12 〕。“大數據長于分析相關關系,而非因果關系。但這可能是一個偽命題。如何從相關關系中推斷出因果關系,才是大數據真正問題所在?!?〔13 〕本文認為,大數據時代因果關系將得到更好的解釋,大數據不僅可以改進傳統(tǒng)方法,而且其著重探究的相關關系也有助于探究因果關系。endprint
探究變量間因果關系的最佳方法是進行可控性試驗,基于試驗不僅可以將試驗對象分為控制組和實驗組,還可以避免外界因素干擾 〔14 〕。然而,社會科學研究對象的特殊性,致使“進行實驗的特殊困難” 〔15 〕111,而且“在社會研究題材上進行受控實驗的可能性極為狹小” 〔16 〕503。在社會科學的研究中,通?;诟怕式嵌壤斫庖蚬捎媒y(tǒng)計方法判斷因果。在實證分析中,因果關系判斷的準確度通常受制于三因素 〔14 〕:變量的內生性、變量遺漏、樣本代表性。內生性問題是因果關系難以判斷的主要原因,它是指“在一些情況下出現反向因果問題:解釋變量受到被解釋變量影響,而不是我們假設的影響被解釋變量” 〔17 〕180。關于變量遺漏問題?,F實生活中,聯系是普遍存在的,單因單果的現象很難出現。這意味著,構建合理的模型應該包括所有可能影響因變量的元素,而不應該僅僅涉及兩個變量。但由于數據等原因的限制,常常導致變量遺漏問題。關于樣本代表性問題。如前所述,傳統(tǒng)研究范式中的數據通常來自抽樣調查,然而研究者的主觀選擇、客觀條件限制以及操作過程失誤等均可導致樣本選擇性偏誤,從而導致樣本代表性問題。
大數據時代,大數據試圖提供的“全樣本”數據將令上述問題得到改善。首先,更多的數據意味著更多的工具變量備選,研究中可選擇更好的工具變量;其次,“全樣本”將解決抽樣帶來的樣本代表性問題;最后,不僅因數據缺失造成的變量遺漏問題將得以解決,還可以對“全樣本”數據進行篩選,以判斷哪些變量應該包含于模型中。關于變量的選擇,可采用Song 和 Taamouti提出的統(tǒng)計程序 〔18 〕,此外接下來提到的因果圖模型也有助于變量的篩選。
因果圖模型由圖靈獎獲得者Pearl提出,利用有向圖探究變量間因果關系,分析數據的生成機制?!?9 〕該方法主要利用條件相關性判斷變量間是否存在因果關系,其根本機理在于,潛在的因果關系會影響變量間統(tǒng)計上的各類(條件)獨立性,因而可以利用數據分析得到的各種條件獨立性進而反推可能存在的因果關系。例如,假設變量X、Y與Z之間的因果關系存在如圖1所示四種情況。其中,圖的頂點代表變量,兩點間存在有向邊表明變量間存在因果關系,比如“XY”表示X是Y的原因。數據分析表明,Y和Z的無條件相關系數為0,但給定X時Y和Z條件相關系數不為0,則只有圖(d)所示因果關系是正確的。這種方法類似于社會科學統(tǒng)計模型中常用的工具變量法,但Pearl的方法更為強大,其強大之處在于,將這種判斷對應到一定的有向無環(huán)圖的拓撲結構,利用圖論的相關知識設計一套算法,當變量數變得龐大時,展現出強大的分析能力。Eichler 和 Dielez進一步作出拓展,使得因果圖模型可用于時間序列的分析。 〔20 〕這些分析方法近期的蓬勃發(fā)展已經說明,對條件相關關系的判斷可有效地幫助因果關系判斷。此外大數據條件下該方法威力更加強大,因為此時有更多的可得變量,更容易獲得變量的聯合概率分布以判斷變量間是否存在條件相關。因此,隨著大數據時代的到來,大數據蘊含的信息可極大地幫助刻畫變量間的因果關系,同時解決傳統(tǒng)方法遺漏變量的問題,進而推動相關領域的發(fā)展。
四、研究功能變革:將因果分析與預測統(tǒng)一于政策
社會科學研究重視因果判斷的根本原因在于,社會科學家普遍認為對因果關系的明確把握是理論運用于實際的前提。就政策問題而言,政策制定者需要知道改變某一個政策工具對社會產生何種影響。因為改變政策工具是對系統(tǒng)的外在干預,如果政策和預期結果之間沒有正向因果關系,通過外生政策干預不能取得預期結果。因此,一種流行的看法是,盡管對變量間相關關系的掌握有助于進行預測分析,但離開了因果關系,相關關系(或者預測分析)將無助于政策實施。然而,在此我們想強調的是,盡管在過去社會科學研究中預測問題沒有得到應有的重視,但預測問題在政策研究中同樣十分重要。用天氣問題作為類比,政策問題可概括為兩類,即“雨傘”問題和“降雨”問題?!?1 〕所謂“雨傘”問題,即判斷是否會下雨以決定是否帶雨傘,這類問題也稱為預測問題或者對策問題。所謂“降雨”問題,即依據所需的降雨量決定采取何種措施,如向空中打多少干冰,這類問題也稱為干預問題,需要掌握降雨措施和降雨量之間的因果關系。盡管政策研究涉及上述兩類問題,但以往的社會科學研究主要關注后一類問題,即因果問題,而現有的數據挖掘技術則更關注前一類問題,即預測問題。
事實上,現實中政策問題往往是兩類問題的結合。為此,不妨進一步分析“降雨”問題。在我們向空中撒入干冰前,需要研究清楚干冰對降雨的影響,這是一個因果判斷問題。假定我們針對特定區(qū)域實施人工降雨,那么該地區(qū)的實際降雨量不僅取決于撒入空中的干冰數量,還取決于風向。我們可以控制干冰的數量,卻無法控制風向。為此,只能選擇在風向合適的時候實施人工降雨,這意味著我們需要預測風向。事實上,幾乎所有的政策干預都需要在時機合適時實施,因此對“時機”的預測是十分必要的。圖2說明政策研究中因果問題與預測問題結合的一般模式。假設政府為取得某一效果決定進行政策干預,效果的好壞受Y和Z影響,X是Z變化的原因但并非Y變化的原因。這樣政府可通過外生干預X來調節(jié)Z,對Y卻無能為力。如何恰當地干預X來改變Z并最終影響政策效果是一個因果問題,但僅僅抓住因果關系未必能取得理想的政策效果,因為Y同樣影響政策效果。因此,唯有Y值預測基礎上的政策干預,才能取得理想的政策效果。這意味著,就理想政策效果的獲取而言,如何更好地預測Y與因果關系判定同等重要。可見,對于大數據時代的政策研究,因果問題和預測問題同等重要,不可厚此薄彼。通過結合大數據預測方法,對一些制約政策效果又不可控的因素進行預測,并在此基礎上選擇更合理的政策措施和時機,可以幫助改進政策效果。
圖2 大數據在政策實施中預測與因果關系的統(tǒng)一性
五、結語
大數據時代的到來對社會科學研究產生巨大影響。除“全樣本”數據、大數據技術以及數據驅動的知識發(fā)現三個方面的直接影響外,大數據還將進一步推動社會科學研究范式三個層面的變革。但是挑戰(zhàn)也是存在的。比如,大數據的可得性不近如人意。一方面數據巨頭將數據視為核心資產,拒絕共享數據;另一方面大數據可能涉及個人隱私、商業(yè)機密或者國家安全,不能共享。再如,大數據具有相對性?!按髷祿R產生的前提要求大數據能夠真實、全面地反映經驗世界和網絡世界?!?〔22 〕目前大數據尚未覆蓋全世界和所有領域,地區(qū)間網絡普及與信息技術的差異,勢必導致“大數據時代”“小數據時代”“物數據時代”并存。今天的大數據可能只是明天的小數據,今天所得結論在明天也許會被否定 〔23 〕。另外,大數據分析技術尚存諸多挑戰(zhàn)。高維、復雜、多變等特性致使大數據較難處理,而如何采用降維和特征選擇技術降低處理難度存在許多挑戰(zhàn);而且,機器學習與傳統(tǒng)統(tǒng)計方法如何融合、傳統(tǒng)結構化數據和新興非結構化數據如何結合同樣亟待探索。盡管存在挑戰(zhàn),但我們堅信大數據這一新的偉大技術革命必將孕育社會科學研究范式的革命,中國社會科學學人唯有主動擁抱變革,迎難而上,才能實現跨越式發(fā)展,不負時代重托。endprint
參考文獻:
〔1〕黃欣榮.從復雜性科學到大數據技術〔J〕.長沙理工大學學報(社會科學版),2014(2).
〔2〕Einav, L, Hendry, D.F. The Data Revolution and Economic Analysis〔EB/OL〕. http://www.nber.org/papers/w19035. pdf.
〔3〕維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作、思維的大變革〔M〕.盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
〔4〕劉濤雄,徐曉飛.大數據與宏觀經濟分析研究綜述〔J〕.國外理論動態(tài),2015(1)
〔5〕哈耶克.科學的反革命——理性濫用之研究〔M〕.馮克利,譯.南京:譯林出版社,2003.
〔6〕Kelling S, Hochachka W M, Fink D, et al. Data-intensive science: a new paradigm for biodiversity studies〔J〕. BioScience, 2009(7).
〔7〕賈向桐.大數據革命與科學哲學變革的三重維度〔J〕.人民論壇,2016(5).
〔8〕Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete〔J〕. Wired 16, 2008(7).
〔9〕唐文方.大數據與小數據:社會科學研究方法的探討〔J〕.中山大學學報(社會科學版),2015(6).
〔10〕Kristin M, Tolle D, Stenwrart W, et al. The Fourth Paradigm: Data-Intensive Science Scientific Discovery〔J〕. Proceedings of The IEEE, 2011(99).
〔11〕劉濤雄,徐曉飛.互聯網搜素行為能幫助預測宏觀經濟嗎?〔J〕經濟研究,2015(12).
〔12〕王天思.大數據中的因果關系及其哲學內涵〔J〕.中國社會科學,2016(5).
〔13〕姜奇平.因果推斷與大數據〔J〕.互聯網周刊,2014(18).
〔14〕劉林平,蔣和超,李瀟曉.規(guī)律與因果:大數據對社會科學研究沖擊之反思——以社會學為例〔J〕.社會科學,2016(9).
〔15〕卡爾·波普爾.歷史決定論的貧困〔M〕.上海:上海人民出版社,2009.
〔16〕歐內斯特·內格爾.科學的結構〔M〕.徐向東,譯.上海:上海譯文出版社,2005.
〔17〕加里·金,羅伯特·基歐漢,悉尼·維巴.社會科學中的研究設計〔M〕.陳碩,譯.上海:格致出版社,上海人民出版社,2014.
〔18〕 Song, X, Taamouti, A. A Better Understanding of Granger Causality Analysis: A Big Data Environment〔EB/OL〕. https://ssrn.com/abstract=2914997.
〔19〕Pearl, J. Causal diagrams for empirical research〔J〕. Biometrika,1995(82).
〔20〕Eichler M, Didelez V. On Granger causality and the effect of interventions in time series〔J〕. Lifetime data analysis, 2010, 16(1).
〔21〕Kleinberg J, Ludwig J, Mullainathan S, et al. Prediction policy problems〔J〕. American Economic Review: Papers & Proceedings,2015(5).
〔22〕蘇玉娟,魏屹東.大數據知識表征的機制及其意義〔J〕.科學技術哲學研究,2017(2).
〔23〕邱 東.大數據時代對統(tǒng)計學的挑戰(zhàn)〔J〕.統(tǒng)計研究,2014(1).
責任編輯 蘇玉娟endprint