郭 嬌,吳寒天
(1.華東師范大學(xué) 高等教育研究所, 上海 200062; 2.浙江大學(xué) 教育學(xué)院, 杭州 310058)
長期以來,研究方法的創(chuàng)新型與適切性一直是中外教育研究者反復(fù)討論的問題,對廣義社會科學(xué)其他領(lǐng)域研究方法的借鑒也一直伴隨著教育學(xué)的發(fā)展。在研究方法與數(shù)據(jù)來源不斷更新迭代的當(dāng)下,對新興路徑與范式的探索業(yè)已成為教育研究者(尤其是宏觀及中觀維度教育政策研究者)亟待開展的工作。數(shù)據(jù)被喻為“21世紀(jì)的石油”,已成為和土地、勞動力、資本、技術(shù)并列的五大生產(chǎn)要素之一。為區(qū)別于數(shù)據(jù)“采集—存儲—分析—應(yīng)用”這一傳統(tǒng)路徑,美國高德納咨詢公司(Gartner)副總裁兼分析師萊尼(Douglas Laney)于2001年提出了具有海量(volume)、多樣(variety)、迅捷(velocity)三大特征的大數(shù)據(jù)概念[1]。不同于工業(yè)界以減少能耗、提高效率、擴大收益等為目標(biāo)的內(nèi)生創(chuàng)新動力,科學(xué)共同體的主要興趣在于揭示事物表面特征下的本質(zhì)規(guī)律,即利用新的數(shù)據(jù)來源與數(shù)據(jù)結(jié)構(gòu)、運用新的數(shù)據(jù)分析方法,探究未知領(lǐng)域和應(yīng)對新的倫理挑戰(zhàn)。圖靈獎得主、著名數(shù)據(jù)庫科學(xué)家格雷(James Gray)于2007年將上述過程歸納為“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)”(data-intensive scientific discovery)。格雷將這一新型研究范式視為科學(xué)方法革命歷程中的“第四范式”(the fourth paradigm),認(rèn)為其意義不亞于前3次科學(xué)方法革命,即分別以伽利略的實驗科學(xué)、牛頓的模型推演和馮·諾伊曼的計算機仿真為代表的顛覆性研究范式革新[2]。2012年,美國《紐約時報》發(fā)表《大數(shù)據(jù)時代》(The Age of Big Data)一文[3],在一定程度上標(biāo)志著對數(shù)據(jù)的關(guān)注進入了更為廣闊的公共視野。本文在使用廣為人知的大數(shù)據(jù)時代一詞時,將其內(nèi)涵狹義化為格雷定義下的“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)”,關(guān)注科學(xué)探究在當(dāng)前研究范式變革背景下的變化。
已有文獻大多聚焦自然科學(xué)或工程技術(shù)領(lǐng)域?qū)Υ髷?shù)據(jù)運用的探索, 國際科技數(shù)據(jù)委員會(CODATA)中國全國委員會于2014年編著出版的《大數(shù)據(jù)時代的科研活動》一書同樣以自然科學(xué)為主要關(guān)注對象,涵蓋物理學(xué)、天文學(xué)、生物學(xué)以及醫(yī)學(xué)等領(lǐng)域,其中僅有一章是關(guān)于社會科學(xué)的,內(nèi)容僅涉及經(jīng)濟、管理、金融等領(lǐng)域。不難發(fā)現(xiàn),國內(nèi)外對于廣義社會科學(xué)領(lǐng)域大數(shù)據(jù)運用的研究相對滯后。因此,探討上述科研范式革新對于社會科學(xué)領(lǐng)域顯性或潛在的影響顯得尤為必要,其中包括教育學(xué)(教育政策研究)領(lǐng)域的大數(shù)據(jù)應(yīng)用。
需要注意的是,本文所討論的應(yīng)用并非指在微觀層面預(yù)測學(xué)習(xí)者的努力程度、對某一個知識點的掌握情況或某一門課程的教學(xué)效果等,而是指在中觀和宏觀層面對某一學(xué)校(機構(gòu))所實施的制度、某一地區(qū)(學(xué)區(qū))所開展的項目或某一個國家/經(jīng)濟體所制定的政策等(在本文中統(tǒng)稱為教育政策)進行量化分析。運用大數(shù)據(jù)對微觀維度教育活動進行預(yù)測的研究者多有計算機、實驗心理學(xué)、腦科學(xué)等學(xué)科背景,業(yè)已形成了教育數(shù)據(jù)挖掘(educational data mining)和學(xué)習(xí)分析(learning analytics)兩個全新的研究領(lǐng)域[4]。這兩個教育研究的細(xì)分領(lǐng)域已經(jīng)形成了較為成熟的學(xué)術(shù)共同體,擁有固定的學(xué)術(shù)年會與期刊,本文在此不作贅述。運用大數(shù)據(jù)進行中觀或宏觀維度教育政策評估的研究者多來自經(jīng)濟學(xué)、管理學(xué)等領(lǐng)域,人數(shù)相對少且較為分散,尚未形成緊密而成熟的共同體。考慮到教育政策的作用范圍、資源配置的力度以及跟蹤調(diào)查的難度,這一類研究/評估尤為需要大數(shù)據(jù)的助力。然而,這一大數(shù)據(jù)時代的新型范式似與教育政策實證研究中既有的因果推斷邏輯存在一定程度的互斥。本文將系統(tǒng)闡述中觀及宏觀維度教育政策評估中的既有因果推斷路徑,繼而分析這一研究路徑在大數(shù)據(jù)時代的挑戰(zhàn)與機遇。
本文重點關(guān)注西方發(fā)達(dá)國家運用隨機實驗、準(zhǔn)實驗設(shè)計以及機器學(xué)習(xí)等科學(xué)研究方法在相關(guān)領(lǐng)域開展的前沿研究,探討如何在因果推斷的基本邏輯之下運用大數(shù)據(jù)為教育政策的制定、實施以及評估提供依據(jù)。高等教育學(xué)這一細(xì)分研究領(lǐng)域里同樣業(yè)已形成較為緊密而成熟的學(xué)術(shù)共同體,關(guān)注特定的研究對象、探究特定的研究問題、運用特定的研究方法、構(gòu)建特定的理論模型、觀測與分析特定的現(xiàn)象與規(guī)律,并形成特定的政策建議。在充分尊重上述特定情境的前提下,大數(shù)據(jù)時代的因果推斷這一新型研究路徑在高等教育領(lǐng)域的運用前景值得期待。
因果推斷(causal inference)的哲學(xué)基礎(chǔ)最初由英國實證主義哲學(xué)家與經(jīng)濟學(xué)家穆勒(John Stuart Mill)于1851年在其所著的《邏輯體系》一書中提出。在該邏輯體系下,判定變量之間的因果關(guān)系需要滿足3個條件,即時序性(假定的“因”要在“果”之前發(fā)生)、共變性(只要“因”改變,“果”即會隨之變化)以及排他性(假定其他變量都不變,“果”仍然會隨著“因”的改變而改變)[5]。若違反上述任一條件,所得出的研究結(jié)論都不能稱為因果推斷,而只能稱為相關(guān)關(guān)系,甚至是一種帶有誤導(dǎo)性的偽相關(guān)(spurious correlation)?!氨苛芘c鯊魚攻擊”的例子就是一種典型的偽相關(guān),即并不是吃冰淇淋引來了鯊魚,而是氣候炎熱時吃冰淇淋的人與下海游泳(繼而遭遇鯊魚攻擊)的人都有所增多,因而兩者的概率才會同時上升。
作為教育經(jīng)濟學(xué)研究基本預(yù)設(shè)之一的人力資本理論(human capital theory)也面臨著類似挑戰(zhàn)。以高等教育階段大學(xué)生就業(yè)相關(guān)的政策研究為例,高學(xué)歷與高收入之間的關(guān)聯(lián)時常被質(zhì)疑究竟是一種因果關(guān)系抑或僅僅只是一種相關(guān)關(guān)系。如要同時滿足因果推斷的三大基本條件,首先,教育經(jīng)歷要發(fā)生在工作之前,因此這一類基于人力資本理論探討教育-收入關(guān)系的實證研究多采用大學(xué)生畢業(yè)之后的起薪而非數(shù)據(jù)采集時段的當(dāng)前年薪評估個體教育投入的經(jīng)濟回報,以此排除在職培訓(xùn)、繼續(xù)教育等干擾因素。其次,只要學(xué)歷發(fā)生變化,收入就要隨之變化。然而,收入變化的方向及大小在不同的實證研究中存在著分歧。求職者的個體偏好(例如傾向于從事公益機構(gòu)工作)或雇主的薪酬結(jié)構(gòu)(例如體制內(nèi)就業(yè)的潛在福利優(yōu)于現(xiàn)金收入)等都會抑制高學(xué)歷帶來的收入回報,甚至出現(xiàn)與“高學(xué)歷-高收入”預(yù)設(shè)相悖的案例,即過度教育(overeducation)[6]。最后,3個條件中最難驗證的一條是排他性。個人動機、毅力等影響收入的潛在因素極為多樣,無法如自然科學(xué)實驗一般加以嚴(yán)格控制。如何引入自然科學(xué)中隨機實驗的設(shè)計思路來檢驗兩個變量之間的因果關(guān)系,一直是廣義社會科學(xué)領(lǐng)域量化研究者致力于回答的核心問題之一。
在梳理科學(xué)研究方法之前,尚有一個不容忽視的問題,即為何(教育)政策評估不能單純依賴相關(guān)分析,而需要依靠邏輯更為嚴(yán)密的因果推斷?西方發(fā)達(dá)國家政策評估的興起可追溯至20世紀(jì)60年代,當(dāng)時的美國約翰遜政府推行一項名為“向貧窮開戰(zhàn)”(War on Poverty)的社會改革。這一改革覆蓋教育、醫(yī)療、社保等眾多公共領(lǐng)域,耗時長且投入大,但取得的成效卻明顯低于預(yù)期。這一失敗引發(fā)了20世紀(jì)70年代西方國家對于公共政策的一系列反思:公共財政經(jīng)費與其他社會資源具有稀缺性,顯然不能滿足上述各領(lǐng)域的所有需求,而政府應(yīng)如何在各種公共資源配置方案中做出合理選擇,以及如何在政策干預(yù)結(jié)束之后評價其結(jié)果并向全社會公示。伴隨著上述反思與追問,基于證據(jù)進行公共政策決策逐漸成為潮流。
20世紀(jì)90年代,英國布萊爾政府聲明要將“以證據(jù)為基礎(chǔ)的公共政策”(evidence-based policy,EBP)奉為圭臬[7]。這里所說的“證據(jù)”指通過實證研究得出的科學(xué)發(fā)現(xiàn),而這里所說的實證研究既包括量化分析,也包括質(zhì)性研究,即廣義的實證研究。就研究問題而言,既可以包括描述性問題(例如:發(fā)生了什么?預(yù)期目標(biāo)達(dá)到了嗎?誰獲益,誰損失?),也可以包括干預(yù)性問題(例如:如果發(fā)生了A,那么結(jié)果是B嗎?)。相關(guān)分析盡管能就上述描述性問題提供描述性證據(jù),但這顯然不足以說服政府(或其他決策部門)投入本已十分稀缺的公共資源。干預(yù)性問題只能通過因果推斷才能建立完整而嚴(yán)密的邏輯鏈條,幫助決策部門找準(zhǔn)實現(xiàn)預(yù)期目標(biāo)的著力點。
“基于證據(jù)的政策”率先出現(xiàn)在醫(yī)療、健康以及公共衛(wèi)生領(lǐng)域,隨后被應(yīng)用于教育、扶貧等其他領(lǐng)域。最具說服力的證據(jù)來自醫(yī)學(xué)臨床實驗中的隨機控制實驗(randomized control treatment,RCT),即病人被隨機分成實驗組(treatment group)和對照組(control group),分別服用含有有效成分的藥物或安慰劑。由于兩種藥劑外觀完全一致,病人、家屬及其主治醫(yī)生的主觀反應(yīng)都不會干擾對服藥后治療過程的觀察,從而不會影響對藥物效果的跟蹤研究。這類隨機對照實驗同樣被應(yīng)用于教育政策評估,尤其是基礎(chǔ)教育階段。其中最具代表性的案例之一是對美國田納西州20世紀(jì)90年代初小班化改革,即該州“師生成就比例計劃”(Student-Teacher Achievement Ratio,STAR)的成效研究。該州11 600名就讀于學(xué)前班至小學(xué)三年級的學(xué)生被隨機分配至小班(實驗組)、傳統(tǒng)班(對照組A),或是增加了一名助教的傳統(tǒng)班(對照組B)。長期跟蹤研究表明,小班化教學(xué)提高了實驗對象參加SAT或ACT考試(即美國高中畢業(yè)生學(xué)術(shù)能力水平考試)的比例和分?jǐn)?shù),而這一效果對于來自少數(shù)族裔家庭的學(xué)生更為顯著[8]。
進入21世紀(jì)后,美國小布什政府在2002年推出的《不讓一個孩子落后》法案(即NCLB法案,或譯為《有教無類》法案)中明確要求,在出臺教育政策施加干預(yù)前需得到“科學(xué)研究”(scientifically-based research)的支持,而這類研究需要滿足兩個條件:其一,教育行為或項目的相關(guān)信息必須通過嚴(yán)格、系統(tǒng)、客觀的程序獲??;其二,研究設(shè)計需采用隨機實驗或準(zhǔn)實驗方法,且在多種評估方法中優(yōu)先承認(rèn)隨機實驗所得出的結(jié)果[7]。顯而易見,上述教育政策評估中的因果推斷依賴隨機實驗或準(zhǔn)實驗方法實現(xiàn),其目的在于提高政府決策過程的科學(xué)化,減少人為干擾,繼而實現(xiàn)公共資源配置的優(yōu)化。
值得注意的是,隨機對照實驗在教育政策評估中的應(yīng)用有其局限性。一方面,出于科研倫理等因素考慮,隨機實驗的參與者通常需自愿報名,然而相當(dāng)比例的學(xué)生和家長不愿意作為“小白鼠”參與實驗。在科研倫理監(jiān)管機制較為完備的國家,學(xué)生或家長在參與此類實驗前享有知情權(quán),同時還需要簽署信息披露文件(否則研究者就不能采集、保存或使用其個人信息),并有權(quán)隨時中止或退出實驗。另一方面,就實施過程而言,即使上文所列舉的經(jīng)典案例也不能完全排除人為影響的干擾。與醫(yī)學(xué)實驗不同,學(xué)生、老師以及家長都清楚地知道自己究竟身處實驗組抑或?qū)φ战M,并會因此改變自身的行為,例如高等教育階段就讀于北京大學(xué)元培學(xué)院、清華大學(xué)“姚班”、浙江大學(xué)竺可楨學(xué)院等各種實驗班的學(xué)生。被分到實驗組(實驗班)的師生通常會產(chǎn)生霍桑效應(yīng)(Hawthorne Effect),即因為有機會參與實驗而受到鼓舞,努力好好表現(xiàn);被分到對照組(傳統(tǒng)班)的師生通常會產(chǎn)生約翰-亨利效應(yīng)(John Henry Effect),即因為無緣參與實驗而加倍努力以證明自己[8]。
當(dāng)標(biāo)準(zhǔn)隨機實驗難以實施時,研究者可采用準(zhǔn)實驗設(shè)計進行因果推斷,具體方法包括斷點回歸(regression discontinuous)、工具變量(instrumental variables)、傾向得分(propensity score)和倍差(difference-in-difference)等,國內(nèi)外文獻均已對上述方法進行過詳盡評述[5,9]。本文在此僅以工具變量為例,介紹采用準(zhǔn)實驗設(shè)計進行教育政策評估的思路。引入工具變量來判定兩個變量之間因果關(guān)系這一策略,其核心在于先識別出原因變量中的隨機成分,繼而檢驗這一隨機成分的改變是否帶來結(jié)果變量的變化,基于上述邏輯建立的兩階段最小二乘(two stage least squares, TSLS)回歸模型即可用來推斷整體的因果關(guān)系。
好的工具變量具有外生性(exogeneity),這是準(zhǔn)實驗性質(zhì)的集中體現(xiàn)。外生性不能通過實證檢驗,只能從邏輯上來論證,這是運用工具變量進行因果推斷的成敗關(guān)鍵。河流、山脈、地震等自然現(xiàn)象都是教育政策研究中常見的選擇,因其難以被人為干擾。以基礎(chǔ)教育階段的學(xué)校布局為例,霍克斯比(Caroline Hoxby)于2000年使用美國不同學(xué)區(qū)內(nèi)河流的分布情況作為工具變量,用以推斷學(xué)校數(shù)量與教育質(zhì)量之間的關(guān)系。這一研究即滿足判定因果的3個條件:就時序性而言,河流存在于學(xué)校建立之前;就共變性而言,河流改變了學(xué)校數(shù)量以及各校之間的競爭關(guān)系;就排他性而言,河流本身顯然不直接影響教學(xué)質(zhì)量,而只能通過學(xué)校數(shù)量發(fā)揮間接作用[10]。生老病死同樣具有自然規(guī)律的不可控性,在教育政策評估中可以巧妙地加以利用。例如,美國在發(fā)動越南戰(zhàn)爭期間采用基于生日的抽簽形式來決定年輕男性是否需要服兵役,這就產(chǎn)生了帶有隨機性的工具變量。在這套機制中,每個出生日期對應(yīng)一個從1到365的隨機序列號。只有當(dāng)該序列號小于美國國防部每年決定的一個特定取值時,這些男性才會被征召入伍。將抽簽結(jié)果與社保局的薪資記錄相結(jié)合進行分析,其結(jié)果表明1970年抽簽入伍的白人男性在1984年的年薪相較于無須入伍的同齡人低1 100美元左右,這意味著在越戰(zhàn)期間服兵役這一隨機事件對收入水平產(chǎn)生了長期的負(fù)面影響[11]。此外,諸如空間距離、社會政策、集聚數(shù)據(jù)等都可用于構(gòu)建類似的工具變量[5]。
總而言之,工具變量被喻為社會科學(xué)中因果推斷的“圣杯”,這充分反映了其尋覓過程不僅需要靈感,而且充滿艱辛[12]。大數(shù)據(jù)時代為這一探索以及其他基于隨機實驗或準(zhǔn)實驗設(shè)計的因果推斷提供了更多的想象力,同時也帶來了全新的挑戰(zhàn)。
廣義社會科學(xué)領(lǐng)域?qū)嵶C研究既有的因果推斷路徑在大數(shù)據(jù)時代顯然面臨著全新的挑戰(zhàn)。就數(shù)據(jù)來源而言,除政府、國際組織、大學(xué)、研究機構(gòu)等遵循傳統(tǒng)路徑收集的行政數(shù)據(jù)或調(diào)查數(shù)據(jù)外,以美國互聯(lián)網(wǎng)三巨頭(谷歌、臉書、亞馬遜)和我國的BAT(百度、阿里、騰訊)為代表的私人企業(yè)掌握了數(shù)量驚人的個人偏好與行為數(shù)據(jù)。高等教育階段的產(chǎn)學(xué)研合作在大數(shù)據(jù)時代具有更大的想象空間與社會價值,集中體現(xiàn)為大學(xué)擁有的專家團隊與企業(yè)擁有的海量數(shù)據(jù)“強強聯(lián)手”,從而把傳統(tǒng)科研項目推進到一個前所未有的層面。以反映通貨膨脹的消費者物價指數(shù)(CPI)為例,美國麻省理工學(xué)院(MIT)的“十億價格項目”(The Billion Prices Project, BPP)從2008年至2016年每天跟蹤60個國家1 000多家網(wǎng)店的1 500萬件商品及服務(wù)的價格,并與各國統(tǒng)計局公布的傳統(tǒng)物價指數(shù)進行對比。BPP的更新速度快于傳統(tǒng)的物價指數(shù),其估算過程中的跨國對比所涵蓋的內(nèi)容更豐富,估算值甚至比部分國家的官方指數(shù)更為可靠。例如2008至2010年,阿根廷官方公布的年均通脹率為11%,而BPP估計的阿根廷年均通脹率則在20%以上[13],后者顯然更接近一般民眾的主觀感受。就數(shù)據(jù)采集而言,新的采集方式更為全面,也更為隱蔽,甚至觸及生日、銀行卡賬號等個人隱私及敏感信息,由此引發(fā)了一系列倫理追問(例如,某種類型的數(shù)據(jù)是否該被采集、保存或公開?數(shù)據(jù)應(yīng)該被誰擁有?如果數(shù)據(jù)丟失或泄露,又應(yīng)該由誰負(fù)責(zé)?)[14]。數(shù)據(jù)特征與數(shù)據(jù)倫理固然重要,但本文論述的重點在于數(shù)據(jù)分析,尤其是服務(wù)于教育政策領(lǐng)域因果推斷的科學(xué)分析。如前所述,因果推斷在教育政策評估中扮演著日益重要的角色,而大數(shù)據(jù)時代則重新形塑了其發(fā)展趨勢。
就某種程度而言,大數(shù)據(jù)給因果推斷帶來了質(zhì)疑與顛覆,即出現(xiàn)了本文開頭所擔(dān)心的專家思維與數(shù)據(jù)邏輯之間的互斥或割裂。牛津大學(xué)教授邁爾-舍恩伯格(Viktor Mayer-Schonberger)在其2013年出版的《大數(shù)據(jù)時代》一書中倡導(dǎo)3種思維,即要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果[15]。隨著機器學(xué)習(xí)在圖像識別、無人駕駛等領(lǐng)域不斷取得突破,強調(diào)相關(guān)分析而非因果推斷的趨勢不斷加強,似乎科學(xué)研究已經(jīng)(或在不久的將來)不再需要人類專家厘清邏輯結(jié)構(gòu)或找出關(guān)鍵變量加以干預(yù)。這種基于機器學(xué)習(xí)的相關(guān)分析又被稱為關(guān)聯(lián)分析(association)、以數(shù)據(jù)為中心(data-centric)的分析、不用建模(model-free or model-blind)的分析或“黑盒子”(black-box)分析。借用圖靈獎得主、美國加州大學(xué)伯克利分校(University of California, Berkeley)教授珀爾(Judea Pearl)的比喻,這種分析的本質(zhì)就像達(dá)爾文所描述的自然選擇,并不能替代人類思維建立因果模型并打造精妙的工具[16]。2017年,斯坦佛大學(xué)經(jīng)濟學(xué)教授阿西(Susan Athey)也在《科學(xué)》(Science)期刊上發(fā)文指出,用大數(shù)據(jù)進行的相關(guān)分析只是一種預(yù)測,并非決策,而只有了解這些行為背后的前提假設(shè),才能基于這些數(shù)據(jù)來優(yōu)化決策[17]。
如何在大數(shù)據(jù)時代通過因果推斷來提供決策依據(jù)?珀爾提出7個要點:(1)與阿西的看法一致,他首先強調(diào)要讓前提假設(shè)變得透明,且可檢驗。作為貝葉斯網(wǎng)絡(luò)(Bayesian network)的奠基者,他建議采用圖模型來讓假設(shè)可視化,指出哪些假設(shè)可用數(shù)據(jù)檢驗,哪些只能從邏輯上論證。(2)混淆變量(confounding variables)需要加以控制。例如父母不僅影響子女的受教育程度,也影響子女的擇業(yè)及其收入,這就是一個典型的混淆變量。珀爾在圖模型里用 “后門”(back-door)來解決這一問題,近似于在回歸模型里加入父母的學(xué)歷、職業(yè)、收入等控制變量。(3)用反事實推理(counterfactuals)來設(shè)計算法。他指出,針對一個具體的研究對象,只能觀察到一個結(jié)果(例如,考研的結(jié)果要么是“錄取”要么是“落選”),因此需要借鑒已有的隨機實驗或準(zhǔn)實驗的思路,估算一組研究對象的均值。(4)通過中介效應(yīng)分析(mediation analysis)來區(qū)分直接與間接影響,分析工具包括圖模型與結(jié)構(gòu)方程模型(structural equation model)等。(5)注意外在效度(external validity)與抽樣偏差。珀爾指出,機器學(xué)習(xí)的研究者已經(jīng)認(rèn)識到了這一點的重要性,但僅憑相關(guān)分析無法保證結(jié)論的穩(wěn)健性,即不受抽樣影響而適用于不同人群。(6)缺失值(missing data)需處理。無論是研究對象退出實驗或拒絕回答調(diào)查問題,都會造成數(shù)據(jù)缺失。他建議了解這些缺失值產(chǎn)生的原因,再有針對性地采取刪除、插補等措施。(7)通過可以驗證的假設(shè),系統(tǒng)地構(gòu)建一系列模型,最后再把這些因果推斷整合成科學(xué)發(fā)現(xiàn)。如果以上7點無法實現(xiàn),珀爾認(rèn)為數(shù)據(jù)規(guī)模再大,分析過程再復(fù)雜,也不能得出因果結(jié)論,因為“數(shù)據(jù)本身并不是科學(xué)”[16]。
目前在廣義社會科學(xué)領(lǐng)域運用機器學(xué)習(xí)來進行因果推斷的研究較少,且集中在計量經(jīng)濟學(xué)領(lǐng)域。2014年,美國加州大學(xué)伯克利分校教授兼谷歌首席經(jīng)濟學(xué)家瓦里安(Hal Varian)出版了《大數(shù)據(jù):計量經(jīng)濟學(xué)的新竅門》(Big Data: New Tricks for Econometrics)一書。他在該書中指出,因果推斷是機器學(xué)習(xí)與計量經(jīng)濟學(xué)最重要的合作領(lǐng)域,并舉例用貝葉斯結(jié)構(gòu)時間序列(Bayesian structural times series)來評估廣告投放對網(wǎng)站訪問量的影響。瓦里安同時指出,目前的機器學(xué)習(xí)還是以預(yù)測為主。顯而易見,與傳統(tǒng)的線性回歸相比,機器學(xué)習(xí)的優(yōu)勢在于海量的數(shù)據(jù)與靈活的模型,更適于擬合非線性相關(guān),可以通過正則(regulation)避免過度擬合,可以把數(shù)據(jù)分成訓(xùn)練集(training set)與測試集(test set)來進行交叉檢驗(cross-validation),還可以通過集成法(ensemble)提高預(yù)測準(zhǔn)確度。機器學(xué)習(xí)的主要不足則在于上文提到的“黑盒子”分析路徑,即沒有假設(shè)檢驗、不提供回歸系數(shù)及標(biāo)準(zhǔn)誤,其中尤以集成法最難以解讀[18]。
2017年,美國芝加哥大學(xué)經(jīng)濟學(xué)教授穆萊納森(Sendhil Mullainathan)及其團隊共同撰寫了《機器學(xué)習(xí):一種計量經(jīng)濟學(xué)的應(yīng)用方法》一書?;趶?011年美國住房調(diào)查中隨機抽取的10 000套房屋信息,穆萊納森及其團隊用150個變量(包括其非線性以及交互作用)來預(yù)測房價,并事先抽出另外41 808套房屋作為測試集來進行檢驗。在比較最小二乘法、回歸樹(regression tree)、LASSO、隨機森林(random forest)以及集成法這5種數(shù)據(jù)分析方法中,無論是訓(xùn)練集(即用于建模的10 000套房屋信息)、測試集,還是按五分位分組對比,隨機森林與集成法的預(yù)測質(zhì)量(用R2衡量)都明顯好于最小二乘法。除了這一具體案例,穆萊納森還梳理了這一全新領(lǐng)域在過去4年的發(fā)展,包括應(yīng)用于政策評估中的因果推斷,以及對隨機實驗/準(zhǔn)實驗設(shè)計的改進[19]。以隨機實驗為例,傳統(tǒng)方法只能比較實驗組與對照組的實驗效果均值(average treatment effect),無法反映個體差異。阿西團隊用決策樹、隨機森林等機器學(xué)習(xí)方法來處理實驗干預(yù)效果的異質(zhì)性(heterogeneity)。2017年,該團隊在《美國經(jīng)濟評論》(American Economic Review)期刊發(fā)文,建議除了回歸系數(shù)及標(biāo)準(zhǔn)誤之外,還需補充4種檢驗結(jié)果,即比較不同的模型、調(diào)整變量的取值范圍、采用不同的抽樣方法以及基于半數(shù)的可重復(fù)取樣交叉驗證[20]。
另一項潛在的改進可能與上文提到的工具變量有關(guān):究竟應(yīng)該使用虛擬變量、連續(xù)變量、平方項、還是自然對數(shù)來識別因變量中的隨機成分?這在本質(zhì)上是一個預(yù)測問題,而這恰恰是機器學(xué)習(xí)所擅長的領(lǐng)域。美國麻省理工學(xué)院經(jīng)濟系與統(tǒng)計學(xué)系教授切諾祖科夫(Victor Chernozhukov)團隊于2018年發(fā)文,提出采用雙重機器學(xué)習(xí)方法(double machine learning)同時解決關(guān)于“因”與“果”的兩個預(yù)測問題。這一路徑適用于基于隨機實驗及工具變量等的因果推斷,用于驗證的3個政策評估案例,分別是美國賓夕法尼亞州失業(yè)保險金實驗,401(K)養(yǎng)老金參與資格對個人財富凈值的影響,以及以早期移民死亡率作為工具變量推斷64個歐洲國家的個人產(chǎn)權(quán)制度對人均GDP的影響[21]。
在此基礎(chǔ)上,阿西團隊仍在繼續(xù)改進基于實驗數(shù)據(jù)或觀察數(shù)據(jù)的因果推斷。以針對美國加州提供就業(yè)培訓(xùn)項目GAIN(the great avenues for independence)的隨機實驗為例,阿西團隊通過控制性別、學(xué)歷、參與實驗之前的收入等28個變量,對4個縣19 170人在參與實驗之后9年里的平均收入進行分析。由于每個縣選擇實驗組與對照組的方法與標(biāo)準(zhǔn)不同,導(dǎo)致該項實驗的分組隨機性受到質(zhì)疑,這也是研究者在社會科學(xué)領(lǐng)域開展隨機實驗所共同面臨的難題之一。阿西團隊的貢獻在于巧妙運用傾向性得分(propensity)構(gòu)建了一個權(quán)重來優(yōu)化實驗組與對照組的分配——既非機械地平均分配(即各占50%),也避免了各縣隨意地進行分配,同時還能達(dá)到實驗整體效果的最大化(讓能從實驗中獲益最多的群體盡可能多地參與進來)。基于深度學(xué)習(xí)的決策樹,GAIN的優(yōu)化分配方案是讓參與實驗前3個月內(nèi)有收入的群體占總參與者的四分之三,然后再根據(jù)學(xué)歷(例如是否高中畢業(yè))或家庭結(jié)構(gòu)(例如是否有子女)來進一步細(xì)分[22]。由此可見,因果推斷路徑在機器學(xué)習(xí)的助力下能得到更為精準(zhǔn)的實施——不僅分組更為客觀,且實驗效果也能惠及更多的潛在受益者。這種通過機器學(xué)習(xí)進行動態(tài)優(yōu)化的實驗設(shè)計或政策執(zhí)行被阿西團隊命名為自適應(yīng)實驗(adaptive experiment)或政策學(xué)習(xí)(policy learning)[23]。
整合上述最新研究進展,教育政策評估的“大數(shù)據(jù)-因果推斷”新路徑的基本架構(gòu)設(shè)計如圖1所示。大數(shù)據(jù)時代的因果推斷范式具有數(shù)據(jù)密集性和場境依賴性兩個本質(zhì)特征,反映為圖中的兩大支柱(即基于數(shù)據(jù)的因果推斷與嵌入真實的教育場境)。教育政策評估的路徑創(chuàng)新體現(xiàn)在數(shù)據(jù)、技術(shù)以及應(yīng)用3個層面。具體而言,在數(shù)據(jù)層面不僅打通了宏觀社會經(jīng)濟結(jié)構(gòu)、中觀院校機構(gòu)以及微觀師生個體數(shù)據(jù),而且通過增設(shè)的大數(shù)據(jù)中心及其數(shù)據(jù)采集、清洗、挖掘、可視化等功能助力決策咨詢、專家分析、管理實施以及公眾問責(zé);在技術(shù)層面則在成熟的量化(如調(diào)查問卷)與質(zhì)性研究工具(包括訪談、案例、課堂觀察等)基礎(chǔ)上加入了隨機控制實驗、準(zhǔn)實驗(如工具變量)、機器學(xué)習(xí)(包括決策樹、隨機森林等)、自適應(yīng)實驗或政策學(xué)習(xí)等最新技術(shù)手段;就應(yīng)用層面而言,除動態(tài)監(jiān)測、過程挖掘等功能創(chuàng)新之外,還可對教育政策評估的原有重要功能(如高等教育階段的學(xué)情調(diào)查、學(xué)科評價等)進行升級或拓展。
圖1 教育政策評估新路徑架構(gòu)圖
科學(xué)研究范式的演進不僅僅作用于科學(xué)共同體對純粹知識的探索,包括教育政策在內(nèi)的公共政策及其制定與實施過程同樣受到深刻而持續(xù)的影響。從古希臘城邦的陶片放逐法(Ostracism),到形成于19世紀(jì)中后葉的“羅伯特議事規(guī)則”(Robert’s Rules of Order),人類社會始終在不斷追求決策過程的合理化與理性化。自20世紀(jì)90年代以來,基于科學(xué)證據(jù)的決策成為趨勢,而因果推斷則在教育等公共領(lǐng)域的政策評估中扮演著日益重要的角色。通過隨機實驗與準(zhǔn)實驗設(shè)計(運用工具變量、斷點回歸、傾向得分、倍差等)取得的研究結(jié)論相較于相關(guān)分析更具有說服力。顯而易見,相關(guān)分析只能回答描述性問題,因果推斷才能對政策干預(yù)的效果進行嚴(yán)謹(jǐn)?shù)脑u估(例如,如果提高大學(xué)教師的工資,他們的教學(xué)質(zhì)量會發(fā)生變化嗎),甚至可以進行反事實的推理(例如,如果大學(xué)沒有擴招,大學(xué)生就業(yè)會出現(xiàn)什么局面)。對問題的探究、對方法的改進以及對決策過程顯性或隱性的影響,多重動因共同推動了廣義社會科學(xué)領(lǐng)域的因果研究,產(chǎn)生了美國田納西州STAR改革成果研究等教育政策評估領(lǐng)域的經(jīng)典案例。珀爾把這種研究范式的快速發(fā)展稱為因果革命(Causal Revolution)[16]。
進入大數(shù)據(jù)時代以來,因果推斷遇到了全新的挑戰(zhàn),以提倡“要相關(guān)不要因果”的邁爾-舍恩伯格為代表,在過往居于領(lǐng)先地位的新銳研究范式似乎未經(jīng)普及就已經(jīng)“過時”。借助海量數(shù)據(jù)、靈活模型、快速調(diào)優(yōu)(tuning)以及交叉檢驗,機器學(xué)習(xí)在預(yù)測上具有顯著的優(yōu)勢。然而,其不足之處同樣十分明顯:無假設(shè)檢驗,不提供回歸系數(shù)及標(biāo)準(zhǔn)誤,尤其是采用隨機森林或集成法的分析結(jié)果就像“黑盒子”一樣難以解讀[17]。因此,因果推斷或許是廣義社會科學(xué)與信息科學(xué)最應(yīng)聯(lián)手實現(xiàn)突破的領(lǐng)域。這類大跨度的跨學(xué)科科研合作也是當(dāng)前各國政府資助的重點。2016年,美國國家科學(xué)基金會(National Science Foundation, NSF)所列出的重點科研前沿即包括在大數(shù)據(jù)支持下“開發(fā)和評價創(chuàng)新型學(xué)習(xí)和教學(xué)機制方式”[14]。同年,瑞士國家科學(xué)基金會(Swiss National Science Foundation, SNSF)資助了“基于大數(shù)據(jù)的因果推斷”(Causal Inference with Big Data)科研項目,該項目通過機器學(xué)習(xí)的方法來評估對失業(yè)工人進行就業(yè)培訓(xùn)的效果[24]。2018年,中國自然科學(xué)基金增設(shè)了“教育信息科學(xué)與技術(shù)”這一申請代碼,其資助領(lǐng)域包括“教育大數(shù)據(jù)分析與應(yīng)用”,聚焦于教育學(xué)與信息學(xué)的深度合作與前沿探索。
目前,廣義社會科學(xué)領(lǐng)域運用大數(shù)據(jù)進行因果推斷的研究數(shù)量較少,且以計量經(jīng)濟學(xué)為主。如前所述,機器學(xué)習(xí)等分析方法可被用于改進隨機實驗以及工具變量等準(zhǔn)實驗設(shè)計。這些改進可以通過不同的模型、不同的變量取值范圍、不同的抽樣方式、不同的實驗分組進行補充檢驗,也可以如同設(shè)立防火墻(firewall)一樣把數(shù)據(jù)分成訓(xùn)練集與測試集進行交叉檢驗[23]。這些前沿研究盡管數(shù)量不多,但已陸續(xù)發(fā)表在《科學(xué)》(Science)、《美國經(jīng)濟評論》(The American Economic Review)和《計量經(jīng)濟學(xué)》(Econometrica)等權(quán)威學(xué)術(shù)期刊上,并在最近十余年中形成了“計算社會科學(xué)”(computational social science)這一交叉學(xué)科,其研究領(lǐng)域可被界定為“開發(fā)和應(yīng)用計算方法分析復(fù)雜的、海量的(包括模擬的)人類行為數(shù)據(jù)”[25]。這一新現(xiàn)象值得我國相關(guān)領(lǐng)域的研究者加以關(guān)注。此外,2015年,阿西在美國國家經(jīng)濟研究局(NBER)暑期培訓(xùn)班主講《機器學(xué)習(xí)與因果推斷》;2016年,機器學(xué)習(xí)國際會議(International Conference on Machine Learning, ICML)開設(shè)了因果推斷工作坊。就我國的教育政策研究者而言,實現(xiàn)大數(shù)據(jù)背景下因果推斷的應(yīng)用,不僅意味著完善自身業(yè)已熟悉的研究方法,還包括勇于邁出進行跨界探索的關(guān)鍵一步。
社會的現(xiàn)實需求、科研經(jīng)費的支持、研究方法提升的路徑以及學(xué)術(shù)發(fā)表的途徑,這些因素共同描繪了因果推斷在大數(shù)據(jù)時代的發(fā)展前景。目前,廣義社會科學(xué)領(lǐng)域中基于機器學(xué)習(xí)的因果推斷尚以經(jīng)濟學(xué)研究為主,近兩年零星出現(xiàn)了若干教育領(lǐng)域的應(yīng)用研究(例如智利全國與美國紐黑文全區(qū)的中小學(xué)智能擇校大數(shù)據(jù)平臺[26]、美國976節(jié)小學(xué)英語課的視頻逐字轉(zhuǎn)錄的海量文字記錄的研究[27],以及以美國7個學(xué)區(qū)84所小學(xué)為實施單位的學(xué)生行為隨機干預(yù)等[28]),但尚未出現(xiàn)高等教育學(xué)領(lǐng)域與政策研究相關(guān)的經(jīng)典文獻——這既是遺憾,更是極大的鞭策。面對這片社會科學(xué)研究的“藍(lán)?!保叩冉逃龑W(xué)的學(xué)術(shù)共同體對教育政策的評估如何在這場大數(shù)據(jù)時代的“因果革命”浪潮中不掉隊,繼而躋身世界知識生產(chǎn)體系的前列,或已成為迫在眉睫的課題。本文以這一核心問題作結(jié),希望上述探討僅僅是拋磚引玉,拉開序幕。因果推斷的邏輯、想象及詮釋,與機器學(xué)習(xí)的海量、靈活及效率,二者相互結(jié)合,必能為教育決策機構(gòu)提供更具有說服力且更能滿足異質(zhì)性需求的科學(xué)依據(jù)。