周瑤 陳星貝
摘要在加強教育問責的背景下,美國田納西州于1992年在全州范圍內啟動增值性評價系統(tǒng),經過二十多年的探索與改進積累了豐富經驗。具體包括以下幾項:注重整體推動,進行系統(tǒng)評價;依托專業(yè)支持,實現高效合作;州與聯邦兩級聯動,保障經費投入;聚焦測驗質量,確保信效度;結果公開,通俗易懂。借鑒國外經驗,我國在推動增值性評價時需注意:基于試點經驗逐步推廣增值性評價,適時引入以數據為基礎的第三方評價,倡導診斷與問責下的結果公開。
關鍵詞 增值性評價;增值評價系統(tǒng);教育問責;第三方評價;管辦評分離
中圖分類號G63
文獻標識碼B
文章編號1002-2384(2020)10-0011-05
注釋:① 本文系北京市教育科學“十三五”規(guī)劃重點課題“中小學學校治理現代化:問題、原因分析與改進”(課題批準號:CCAA2020037)的研究成果之一。
增值性評價(Value-added Assessment)通過測量學生跨時間段的學業(yè)成就增值情況來評估教師、學校乃至地區(qū)在學生培養(yǎng)過程中發(fā)揮的效能,是一種發(fā)展性評價模式。與傳統(tǒng)上以學生單次終結性學業(yè)成就為依據的橫向比較模式不同,它關注學生在學業(yè)成就上的變化,并且在一定程度上控制了其他無關因素的影響,增加了評價結果的可比性與公平性。[1][2]《深化新時代教育評價改革總體方案》提出在教育評價改革實踐中積極“探索增值評價”,這是我國第一次在中央政策文件中倡導與推動增值性評價,因此它很快成為中小學管理領域的研究熱點。但由于我國相關研究起步較晚,實踐上也缺乏成熟經驗,因此,尋找、分析和借鑒他國標桿經驗具有重要的現實意義。美國田納西州是全球最早一批實施增值性評價的區(qū)域之一,經過數十年的發(fā)展和改進積累了大量的實踐經驗,其教育評價發(fā)展歷程可以帶給我們諸多啟示。
20世紀80年代,美國學生在國際學業(yè)成就測驗中成績下滑,引發(fā)社會各界對教育發(fā)展狀況的擔心。1983年,美國高質量教育委員會頒布具有里程碑意義的《國家處在危險之中:教育改革勢在必行》(A Nation at Risk: The Imperative for Educational Reform)。該報告顯示1963年至1980年間,美國學生的SAT成績持續(xù)下滑,語文平均成績下降了50分以上,數學平均成績也下滑了近40分,此外約有13%的青年是半文盲。[3]這些問題對個體發(fā)展和美國未來都構成了威脅。1989年,時任總統(tǒng)布什(George W. Bush)與各州州長召開教育峰會并制定了六項國家教育目標。為實現這些教育目標,美國各州在增加教育財政投入、推動課程與教學改革的同時,逐步建立了基于教育評估結果的教育問責制度。[4]
在田納西州,時任州長麥克沃特(N e d R . McWher ter)于1992年簽署《教育改進法案》(Education Improvement Act,EIA),提出要加強教育問責,教育部每年要公布各學區(qū)和部分公立中小學的質量與績效數據,包括出勤率、升學率、輟學率、測試成績等,以敦促各地方教育機構合理使用經費,切實提高學生學業(yè)成就。但是,許多教育者認為學生成績受家庭社會經濟背景的影響很大,用成績問責教師或學校是不公平的。于是,增值性評價成為教育問責的新依據。[5][6]在此背景下,該州啟用了田納西州增值性評價系統(tǒng)(Tennessee Value-Added Assessment System,TVAAS),在全州實施增值性評價。
TVAAS是桑德斯(William L.Sanders)基于統(tǒng)計分析系統(tǒng)(Statistical Analysis System, SAS)開發(fā)的,因此又被稱為桑德斯模型。[7]它是一種基于標準化測試數據的統(tǒng)計方法,用于衡量一個地區(qū)、學?;蚪處煂€別學生或學生群體學業(yè)進步(增長率)的影響。[8]從概念上來講,“增值=當前的成就/結果-先前成就/結果”。它關注的是學生隨著時間變化所取得的學業(yè)進步,而不是學生的成就水平是否達標。學生可能兩次(或多次)的測驗成績都處在及格線之下,但如果對比發(fā)現他的學業(yè)成就獲得了相對提高,那么這里也存在增值。
為計算出學生成績的增值,探討教師、學校和學區(qū)對學生發(fā)展的凈影響,TVAAS收集了三個方面的基礎數據。第一方面是學生通過標準化測試取得的學科學業(yè)成績。盡管學校課程結構和考試科目會不斷發(fā)展變化,但田納西州增值性評價系統(tǒng)還是盡可能多地將所有具有終結性評價的學科成績都納入數據收集和分析中,比如學生的學年結課成績、ACT(American College Test,美國大學入學考試)成績、部分AP(Advanced Placement,大學先修課程)課程成績等。第二方面是學生的背景信息,包括學生姓名、性別、出生日期、種族、是否是天才學生、是否是移民、是否屬于處境不利學生(是否獲得免費/減價午餐),以及學生參加考試的年級、學期、所在學區(qū)編碼、所在學校編碼、出勤率等。第三部分是教師信息。收集這部分信息的目的是將學生和其授課教師的數據連接起來,主要內容包括教師姓名、教師證編號、該教師名下的學生姓名和學生證編號、所在學校和學區(qū)的信息、教學責任的百分比(教學的時間)、教學的科目及考試等相關信息。[9]
在收集多樣且高質量的學生、教師和學校數據后,TVAAS運用專門的統(tǒng)計模型來計算學生個體學業(yè)成績的增值,以此為基礎計算教師、學校以及學區(qū)帶給其所服務學生的平均增值,將其作為對教師、學校和學區(qū)效能評估與問責的依據。TVAAS使用多變量響應模型(Multivariate Response Model,MRM)來具體計算增值,它就“對一個具體年級的具體學科來說,與州內的其他學生學業(yè)成就相比,被評價學生學業(yè)成就所處的相對位置發(fā)生了怎樣的變化”這一問題進行了回答。在MRM中,學生的相對位置是用正態(tài)曲線等值(Normal Curve Equivalents,NCEs)來表示的,這是一種相對分數,是根據標準正態(tài)分布表將學生的測試成績逐步轉化而來的,分值之間具有相同的測量尺度,可以直接被用來比較。TVAAS的NCEs值取值范圍為1~99,其中州平均值恒定為50,得分低于50代表學生的學業(yè)水平低于州平均水平。MRM是一個多元縱向線性混合模型,它的基本公式為:Y=Xβ+Zν+ε,其中Y表示教師/學校/學區(qū)對應的所有學生的NCEs值,X和Z分別表示所有固定效應和所有隨機效應,β和ν是待估計的固定效應和隨機效應系數,ε是殘差項。[10]在具體使用該模型對教師、學校和學區(qū)進行評估時,MRM會隨著評估對象的不同或測驗機制的不同而進行相應調整。
TVAAS已經在實踐中應用了二十多年,并產生了廣泛影響。目前,這個體系在美國北卡羅來納、俄亥俄和賓夕法尼亞等多個州進行了全州范圍的推廣,其他州(如得克薩斯州、路易斯安那州)也有很多學區(qū)或學校在使用田納西州增值性評價的模型和方法。[11]
TVAAS建立了一個多學科大規(guī)??v向數據庫,運用復雜統(tǒng)計模型計算學生個體學業(yè)成績的增值,以此評估教師、學校和學區(qū)的教育效能。經過多年的發(fā)展與完善,TVAAS積累的豐富經驗值得我們學習和借鑒。
1. 整體推動,系統(tǒng)設計
與單一的教師增值性評價或學校增值性評價系統(tǒng)不同,TVAAS是由田納西州教育部統(tǒng)籌推動的綜合性評價系統(tǒng)。它不局限在單獨的學?;蚰骋粚W區(qū)內,而是一個覆蓋田納西州全州的評價系統(tǒng),學生轉學、教師州內調動等都不會影響增值性評價的實施。TVAAS通過系統(tǒng)設計最大化地利用數據資源,通過追蹤學生的標準化測試成績增值,既可以評估教師、學校和學區(qū)對學生學業(yè)發(fā)展的影響,也可以為每個學生提供自身學業(yè)發(fā)展軌跡。[12]這樣它不僅為教育問責提供了實證依據,而且也能及時確認需要進行學業(yè)干預的學生、需要提升績效的教師及需要改進的學校或學區(qū),[13]從而發(fā)揮診斷作用。
2. 專業(yè)支持,高效合作
在用學生成績進行教師評價或學校評價時,傳統(tǒng)評價方式一般都是統(tǒng)計學生的測驗成績達標率。相對而言,這種統(tǒng)計方法比較簡單,學?;騾^(qū)域教育系統(tǒng)內部就能運算,極易運用和推廣。但增值性評價是通過構建大規(guī)模縱向綜合數據庫,運用高級統(tǒng)計模型來處理數據,它得出的統(tǒng)計結果較為復雜,需要專業(yè)人員進行解釋;此外,隨著測驗類型的增加、新實踐問題的出現及統(tǒng)計方法的不斷進步,增值性評價的模型需要逐步更新,以滿足教育實踐的需求。因此,增值性評價需要專業(yè)的統(tǒng)計人員乃至專業(yè)的統(tǒng)計公司來協助收集或處理數據、闡釋結果,最終為教育實踐者和教育政策制定者提供依據。
因此,田納西州教育部在推動增值性評價過程中,一直與桑德斯及SAS公司保持密切的合作關系。自1993年起,SAS公司的EVAAS模塊就開始為TVAAS提供強大的技術支持。[14]隨著桑德斯從田納西大學轉到SAS公司工作,田納西州教育部開始與SAS公司簽訂合同,由SAS公司進行數據的處理和結果的報告。州教育部在每年6月1日把學生的測驗成績及相關信息提供給SAS公司,SAS公司會在當月15日反饋增值性評價結果。[15]田納西州通過這種服務外包的方式,將復雜的數據處理委托給專業(yè)的統(tǒng)計公司,既能獲得穩(wěn)健精確的評價結果,保證評價結果的科學性,又能充分發(fā)揮第三方評價的優(yōu)勢,保障評價結果的公平性。
3. 兩級聯動,保障經費
作為一種專業(yè)程度較高、需要基于大數據及專業(yè)統(tǒng)計方法來實施的評價方法,增值性評價的推廣和實施不但需要法律法規(guī)的保障、教育行政力量的主導,還需要財政投入的支持。在TVAAS的實施和推廣中,美國聯邦政府和州政府兩級聯動,投入大量的教育經費。從1991年至1999年,田納西州教育部與桑德斯簽訂合同,使用桑德斯模型和方法來進行增值性評價,該合同平均每年的投入經費約26萬美元。[16]自2000年田納西州教育部與SAS公司簽訂新合同后,據統(tǒng)計,2005年至2009年這五年,州教育部付給SAS公司約853萬美元,其中州政府投入約652萬美元,聯邦經費投入約201萬美元;而2010年至2014年的合同總金額為1436萬美元,其中州政府投入約866萬美元,聯邦經費支付570萬美元。[17]已有數據表明,田納西州在推廣增值性評價時,通過聯邦和州兩級政府的財政支出來保障足夠的經費投入到增值性評價中。
4. 聚焦測驗,確保信效度
TVAAS是圍繞學生的標準化測驗成績展開的,標準化測驗的質量決定了增值性評價的準確性和可靠性。為了保證評價的信效度,TVAAS對納入系統(tǒng)的標準化測驗提出了三條標準。首先,測驗有充分伸展性(Stretch)。測驗能夠保證每個參與的學生都具有增值的空間,克服標準化測驗可能存在的天花板效應和地板效應,真實有效地測量不同成就學生的真實學業(yè)水平。其次,測驗內容與已有學業(yè)標準相關(Relevance)。TVAAS通過測量學生在年級/學科/學年上的學業(yè)增值,評估教師、學校和學區(qū)所發(fā)揮的作用,及時進行教育干預,最終讓每一位州內學生都獲得應有的成長,因此測驗內容必須與已有的學業(yè)標準相關,能夠測量學生在每個年級具體學科上預期掌握的知識和能力。最后,測驗結果是可靠的(Reliability)。TVAAS的評價結果是基于學生多學年多學科多次測驗的數據計算而來的,因此測驗結果要能夠經得起時間檢驗,保證跨年比較結果的穩(wěn)定可靠。[18]
5. 結果公開,通俗易懂
TVAAS最初建立的主要目的是對學生成長、教師發(fā)展和學校/學區(qū)改進提供及時診斷,為教育問責提供實證依據。因此,它致力于最大化利用增值性評價結果,將增值性評價結果向各級教育工作者和社會公眾公開。田納西州教育部在官網上建立了專門的TVAAS模塊,通過文字和視頻等多樣形式,詳細介紹了田納西州增值性評價的基本原理、操作過程和年度結果報告,這部分信息對每一位公眾公開。教師及教育行政人員可登錄網站下載側重點不同的報告,獲得增值性評價反饋并進行相應的改進。單就教師來說,他們能從網站上下載教師增值報告、教師診斷報告、教師增值匯總報告和教師診斷總結報告。此外,學生、家長及其他公眾可以登錄增值性評價數據查詢網站,了解每一個學區(qū)、每一所學校的增值性評價結果及診斷報告,并可以自行選擇學區(qū)、學校、學科進行交叉查詢,比較不同學區(qū)、不同學校在各個學科上的表現。
當然,由于TVAAS選擇運用復雜的統(tǒng)計模型來計算學生、教師、學校和學區(qū)的增值表現結果,不僅普通公眾認為這些數據、模型、運算過程和結果晦澀難懂,一般教育工作者也難以理解和運用它們。因此,TVAAS對復雜統(tǒng)計結果還進行了通俗易懂的轉化和闡釋,利用多樣圖表和不同顏色來反饋評價結果。TVAAS報告用彩色編碼來解讀增值數據,就像紅綠燈一樣,綠色代表學區(qū)或學校內學生取得的進展超過了預期,黃色表示等于預期成果,紅色則表示低于預期進展。[19]同樣,在面向公眾開放的增值性評價結果網站上,TVAAS也用不同顏色來表示學校/學區(qū)的表現。通過這種簡單易讀的形式,教育工作者和公眾都可以一目了然地獲得他們查詢的結果,真正實現了信息公開的價值。
沒有十全十美的評價方式。田納西州增值性評價系統(tǒng)在實施過程中也存在些許不足,比如它的具體模型、運算代碼及數據庫都是非公開的,其統(tǒng)計模型類似于“黑匣子”,其評價結果也未能接受同行的審閱。不過,作為最早實施增值性評價的區(qū)域之一,田納西州增值性評價系統(tǒng)還是能給我們帶來很多啟示。
1. 基于試點經驗逐步推廣增值性評價
評價改革作為教育改革的風向標,牽一發(fā)而動全身,因此在推廣增值性評價時,我們要借鑒田納西州增值性評價系統(tǒng)的設計思路,汲取可操作經驗。但在具體實踐中必須穩(wěn)中求變,不能急于求成,要綜合考慮各方利益主體的需求。在實施范圍上,增值性評價可以從小規(guī)模的區(qū)域試點起步,在實踐中積累經驗教訓,逐步推廣到省市層面;在實施內容上,我國增值性評價可以先聚焦學校層面,建立學校增值性評價體系,在可行的基礎上逐步增加教師增值性評價和區(qū)域增值性評價;在結果使用上,教育政策制定者或教育實踐者要審慎使用增值性評價結果,它可以作為教師評價、學校評價的指標,但不能作為唯一評價標準,尤其是在考慮教師晉升、評聘等相關高利害評價時,一定要結合其他評價結果綜合考量。通過由點到線、由線到面的探索,最終逐步建立適合我國實際情況的增值性評價體系。
2. 引入以數據為基礎的第三方評價
建立大規(guī)模追蹤數據庫是實施增值性評價的前提條件。田納西州自上世紀90年代起,就逐步建立包含學生個體信息、教師信息和學生標準化測驗成績的縱向數據庫,在此基礎上展開了全州范圍的增值性評價。數據庫隨著追蹤年限不斷增長而變得越來越龐大,信息也越來越豐富,對數據庫的維護直接決定著增值性評價的效果。[20]因此,我國在實施增值性評價時,首先要加強數據意識,用證據說話,構建區(qū)域教育的大數據。
另外,田納西州增值性評價系統(tǒng)的原理比較簡單,但操作較為復雜,在模型的選擇、使用、更新及數據處理上,田納西州都是由專業(yè)統(tǒng)計人員或統(tǒng)計公司來處理的。我國在2015年出臺的《教育部關于深入推進教育管辦評分離促進政府職能轉變的若干意見》中也提到要“支持專業(yè)機構和社會組織規(guī)范開展教育評價……引入市場機制,將委托專業(yè)機構和社會組織開展教育評價納入政府購買服務范圍”。因此,我國在建立增值性評價體系時,可加強與第三方評價機構的合作,將專業(yè)的工作交給專業(yè)的人員。
3. 倡導診斷與問責下的結果公開
TVAAS通過測量教師、學校和學區(qū)對學生學業(yè)成績增值的作用,一方面為教育問責提供了數據依據,以此保障州內所有學生享有公平的教育機會,獲得基于自身的學業(yè)增長,綜合提高區(qū)域教育質量;另一方面也通過對學生、教師、學校和學區(qū)數據進行追蹤,發(fā)揮了診斷性評價的功能。教育評價改革要注重教育評價目的的轉變,為政府、學校和學生提供多元診斷服務。[21]因此,我國在實施增值性評價時,一定要綜合使用評價結果,既要充分發(fā)揮增值性評價結果的追蹤診斷功能,及時對學生、教師、學校和區(qū)域進行改進干預;又要將評價結果進行有效公開,為各個相關利益群體(教師、校長、教育行政人員、社會公眾等)提供教育問責的證據支持。
教育評價是教育現代化發(fā)展和教育改革的指揮棒。當前,我國正處于教育評價改革的關鍵期,實施增值性評價能創(chuàng)新評價形式、推動評價改革,為建設公平而有質量的教育體系提供支持。
參考文獻:
[1] 辛濤,姜宇,劉文玲.中高考數據鏈接:對學校進行增值性評價—以某市40所高中2132名學生中高考數據的實證分析為例[J].中小學管理,2012(6):4-7.
[2] Koedel C,Mihaly K,Rockoff J E.Value-added modeling:A review[J].Economics of Education Review,2015(47):180-195.
[3] National Commission on Excellence in Education . A Nation at Risk: The Imperative for Educational Reform[J]. Elementary School Journal, 1983(2):112-130.
[4][5][7] Sanders W L,Horn S P.Research Findings from the Tennessee Value-Added Assessment System (TVAAS) Database: Implications for Educational Evaluation and Research[J].Journal of Personnel Evaluation in Education,1998(3):247-256.
[6] Sanders W L,Horn S P.The tennessee value-added assessment system(TVAAS):Mixed-model methodology in educational assessment[J].Journal of Personnel Evaluation in Education,1994(3):299-311.
[8] Justin P.Wilson.Defining Tennessee Education:A Glossary of Education Terms volumeⅠ[R/OL].(2016-01)[2020-09-12].https:// comptroller.tn.gov/content/dam/cot/orea/documents/Tennessee_ Education_Glossary.pdf.
[9][10][12][14][18] Statistical Models and Business Rules of TVAAS Analyses[R/OL].[2020-08-31].https://www.tn.gov/content/dam/tn/ education/data/tvaas/Statistical_Models_and_Business_Rules.pdf.
[11][13][15][17] Tennessee Value-Added Assessment System: A Brief Overview[R/OL].[2020-08-31].https://comptroller.tn.gov/content/dam/ cot/orea/advanced-search/2013/2013_OREA_TVAASBrief.pdf.
[16] John G Morgan.The Education Improvement Act :a progress report[R/OL].(2004-04)[2020-08-31].https://comptroller.tn.gov/ content/dam/cot/orea/advanced-search/orea-reports-2004/2004_OREA_ EdImpAct.pdf.
[19] Misconceptions about Value-Added Reporting in Tennessee[R/OL].[2020-08-31].https://tvaas.sas.com/support/MisconceptionsAboutVA.pdf.[20] 邊玉芳,王燁暉.增值評價:學校辦學質量評估的一種有效途徑[J].教育學報,2013(1):43-48.
[21] 黃曉婷.管辦評分離背景下的教育評價新視野[J].中小學管理,2015(8):4-6.
(編輯 崔若峰)