劉 驥 張 晉
黨的二十大報告明確提出“加快建設(shè)教育強國、辦好人民滿意的教育”,將教育強國建設(shè)事業(yè)放在歷史性的戰(zhàn)略位置。在中共中央政治局第五次集體學習中,習近平總書記聚焦教育強國建設(shè),強調(diào)“要堅持把高質(zhì)量發(fā)展作為各級各類教育的生命線,建設(shè)高質(zhì)量教育體系”,為我國新時代教育事業(yè)改革發(fā)展指明了戰(zhàn)略方向。[1]這一背景下,如何聚焦教育質(zhì)量問題找差距、補短板、強弱項,有效統(tǒng)籌資源推動教育優(yōu)質(zhì)均衡高質(zhì)量發(fā)展,成為新時代新征程教育改革的重要議題。大規(guī)模學業(yè)測評作為教育質(zhì)量監(jiān)測的重要內(nèi)容,一方面能引導社會樹立正確的教育質(zhì)量觀、修正教育發(fā)展方向,發(fā)揮了“指揮棒”的導向作用。另一方面可通過量化評估學生在教育中獲得的知識、技能與能力反映當前教育教學狀況,為國家了解與改進教育質(zhì)量提供依據(jù),發(fā)揮了“體檢儀”的診斷作用。[2]以大規(guī)模學業(yè)測評系統(tǒng)性引導、診斷與改進教育發(fā)展,對于前瞻布局我國教育發(fā)展方向、建設(shè)高質(zhì)量教育體系與建設(shè)教育強國具有重要意義。據(jù)此本文基于大規(guī)模教育測評如何助力教育高質(zhì)量發(fā)展的現(xiàn)實問題,對大規(guī)模學業(yè)測評的國內(nèi)外經(jīng)驗與發(fā)展趨勢進行剖析,以回應(yīng)教育強國背景下加快建設(shè)高質(zhì)量教育發(fā)展體系的現(xiàn)實需求。
大規(guī)模學業(yè)測評產(chǎn)生反映了人力資本時代以人才與科技為代表的綜合國力競爭對教育質(zhì)量提升的需求,是世界各國逐漸重視教育質(zhì)量與追求教育變革共同推動的結(jié)果。第二次世界大戰(zhàn)以后,全球經(jīng)濟在經(jīng)歷了短暫的經(jīng)濟復蘇與快速發(fā)展后再次陷入發(fā)展瓶頸。各國逐漸發(fā)現(xiàn)高額物質(zhì)資本投入面臨著邊際遞減效應(yīng),難以滿足國家綜合國力發(fā)展的需要,而由人力資本投入所推動的人才與科技發(fā)展在國際競爭中的地位和作用愈加突顯,開始呈現(xiàn)以“物”立國向以“人”強國轉(zhuǎn)變的發(fā)展趨勢。由此,教育與人才科技發(fā)展的重要關(guān)聯(lián)得到各國重視,其紛紛將教育視為強國發(fā)展的重要支撐,掀起了以教育質(zhì)量推動綜合國力提升的改革浪潮。這一背景下,大規(guī)模學業(yè)測評作為深入了解教育發(fā)展現(xiàn)狀與支撐教育決策服務(wù)的重要工具應(yīng)運而生。
隨著“二戰(zhàn)”后重建工作的快速推進,世界各國希望以更快發(fā)展速度回應(yīng)民眾對生活質(zhì)量提高與國家實力增長的企盼。而由于基本工業(yè)化推進速度較快,歐洲國家較早發(fā)現(xiàn)由物質(zhì)資本投入邊際收益遞減導致的經(jīng)濟增長乏力問題。這一背景下,教育作為國家發(fā)展重要支撐的功能開始進入到歐洲各國政策革新視野。而面對科研成本的不斷提升,單個國家已很難維系大規(guī)模教育質(zhì)量研究所需的巨額開支,這進一步加快了歐洲各國開展更具系統(tǒng)性與組織性的國際科研合作進程,以實現(xiàn)其利用較低成本提升國家發(fā)展能力的目標。[3]因此,1958 年起英國、法國、比利時、芬蘭等12 個國家聯(lián)合開啟了對大規(guī)模學業(yè)測評的研究。同年在位于德國漢堡市的聯(lián)合國教科文組織教育研究所(UNESCO Institute for Education)內(nèi),由教育心理學家與社會學家組成的各國核心研討小組初步確立了以某一年級畢業(yè)率衡量整體教育質(zhì)量的早期監(jiān)測思路。[4]完成測評設(shè)計的基礎(chǔ)上,1959 年這些國家在國際教育成就評價協(xié)會(IEA)的組織下,發(fā)起了首次大規(guī)模學業(yè)測評。該項研究以參測國家的9918 名13 歲學生為樣本,通過衡量其在數(shù)學、閱讀、地理、科學與非語言能力(non-verbal ability)共五個領(lǐng)域的表現(xiàn)研判教育發(fā)展狀況,其測評結(jié)果由哥倫比亞大學福謝(Foshay)教授編撰成《十二國十三歲兒童的教育成就》(Educational Achievements of Thirteen-year-olds in Twelve Countries)研究報告。[5]1964 年,IEA 進一步就大規(guī)模學業(yè)測評實施方法進行完善,在完整提出測量問卷、態(tài)度量表與研究方案的基礎(chǔ)上,聚焦數(shù)學這一同科學研究與國家發(fā)展息息相關(guān)的基礎(chǔ)科目,開展“首次國際數(shù)學研究”(First International Mathematics Study)項目。這次測評的實施不僅再次證明大規(guī)模學業(yè)測評促進教育發(fā)展的可行性,更標志著以大規(guī)模學業(yè)測評提升教育質(zhì)量、增強國家綜合實力理念的確立。
20 世紀60 年代末,美國在多重因素疊加推動下也加入利用大規(guī)模學業(yè)測評提升綜合國力的模式探索中。具體而言,美國開發(fā)大規(guī)模學業(yè)測評項目主要有三方面原因。一是在可行性驗證方面,歐洲多國的實踐經(jīng)歷證明了大規(guī)模學業(yè)測評促進教育發(fā)展的方案可行,為美國開展測評活動提供了基本經(jīng)驗借鑒。二是在綜合國力提升方面,自1957 年以來美國與前蘇聯(lián)爭霸的愈演愈烈加劇了美國在綜合國力競爭中的焦慮,使其意識到提升人才培養(yǎng)與科技研究的能力迫在眉睫,并將教育提升到國家安全高度,期望通過教育發(fā)展推動國家綜合實力快速提升。[6]因此,美國于1985 年出臺《國防教育法案》(National Defense Education Act),提出加大國家對教育領(lǐng)域的財政投入,并開啟了針對教育質(zhì)量問題的改革。三是在社會向心力凝聚方面,1965 年時任美國總統(tǒng)林登·約翰遜(Lyndon Johnson)發(fā)起“面向貧困的戰(zhàn)爭”(War On Poverty),并將教育作為這場“脫貧攻堅”的支柱性環(huán)節(jié)。在同年頒布的《初等和中等教育法案》(Elementary and Secondary Education Act)中,其核心部分的第一條款便是“改進低收入家庭學生學業(yè)成就項目”,突出強調(diào)了教育質(zhì)量改進對解決深層次貧困問題、緩解社會矛盾、提高社會凝聚力的重要推動作用。[7]這一背景下,美國于1969年經(jīng)由“教育評價之父”拉爾夫·泰勒(Ralph Tyler)的指導,開展了旨在對全美基礎(chǔ)教育階段學生學業(yè)成績進行長期連續(xù)評估的“國家教育進展評估”(NAEP)項目。[8]NAEP 共有主評估、長期趨勢評估、州評估與實驗性城市地區(qū)評估四類模式,以9 歲、13 歲和17 歲學生為測評樣本,著重關(guān)注了全美中小學生閱讀、數(shù)學、科學等學科的學術(shù)表現(xiàn)與發(fā)展趨勢分析,被稱為美國教育發(fā)展的“國家成績單”(The Nation’s Report Card)。而后進入20 世紀80 年代,隨著基于標準的教育改革運動從美國興起并迅速席卷全球,以教育質(zhì)量提高促進國家現(xiàn)代化發(fā)展的模式逐漸拓展到歐洲與東亞地區(qū)的發(fā)達國家中。在歐洲地區(qū),以1988 年英國《教育改革法案》與1989 年法國《教育指導法》為代表,多國相繼通過教育改革法案的方式調(diào)整核心課程結(jié)構(gòu)、完善質(zhì)量測評標準,從制度層面推動了國家測評體系的建立。[9]在東亞地區(qū),日本和韓國以NAEP 為范本,建立了日本全國學力調(diào)查(NAAA)與韓國國家教育成就評估(NAEA),從實踐層面推動了國家測評體系的發(fā)展。[10]由此,大規(guī)模學業(yè)測評從國家綜合實力與凝聚社會向心力兩條路徑促進高質(zhì)量的現(xiàn)代化的模式得以確立。
在20 世紀90 年代冷戰(zhàn)結(jié)束與全球化逐漸推進的背景下,以大規(guī)模學業(yè)測評推動綜合國力發(fā)展的模式在國際組織的推動下向全球范圍拓展。1990 年世界全民教育大會(World Conference for Education for All)提出全民教育思想并動員各國為實現(xiàn)全民教育目標采取行動,成為發(fā)展中國家開展大規(guī)模學業(yè)測評的直接推動力量。受全民教育目標的驅(qū)動,聯(lián)合國教科文組織(UNESCO)與聯(lián)合國兒童基金會(UNICEF)在1992年共同實施了學習成果監(jiān)測項目(Monitoring Learning Achievement Project),其主要目的是協(xié)助發(fā)展中國家建立本國的學業(yè)測評體系,用以監(jiān)測其基礎(chǔ)教育發(fā)展狀況、為教育政策的制定與完善提供循證依據(jù)與技術(shù)支持。為了幫助發(fā)展中國家實現(xiàn)全民教育的目標,1992年聯(lián)合國教科文組織(UNESCO)同聯(lián)合國兒童基金會(UNICEF)共同實施了學習成果監(jiān)測項目(Monitoring Learning Achievement Project),首要目標是幫助發(fā)展中國家建立本國的學業(yè)測評體系,用以監(jiān)測本國基礎(chǔ)教育質(zhì)量、為教育政策的制定與改進提供分析工具與數(shù)據(jù)。該項目通過測評學生受教育四年后的識字、算術(shù)與生活技能等基本學習能力,并結(jié)合學生所處的家庭環(huán)境、社會背景等因素綜合分析國家教育質(zhì)量發(fā)展水平,共覆蓋了非洲、亞洲、拉丁美洲等地共47 個國家,幫助約一半的非洲國家完成了首次大規(guī)模學業(yè)測評。[11]除此之外,1992 年經(jīng)濟合作與發(fā)展組織(OECD,簡稱經(jīng)合組織)建立了跨國教育指標與評價項目,并在該項目的基礎(chǔ)上出版了名為《教育概覽:經(jīng)合組織指標》(Education at a Glance:OECD Indicators)的教育統(tǒng)計報告,提出了一套較為完整的國際教育質(zhì)量指標體系,也加速推動了新一輪具有國際可比性的大規(guī)模學業(yè)測評項目的出現(xiàn)。[12]1995 年,IEA 再次跨國組織大規(guī)模學業(yè)測評活動,重新開展了國際數(shù)學和科學趨勢研究(TIMSS) ,固定以4 年為周期對4 年級和8 年級學生的學習狀況進行測評。1997 年,經(jīng)合組織正式啟動國際學生評估項目(PISA),該項目自2000 年起以3 年為一周期評估15 歲學生在閱讀、數(shù)學和科學等領(lǐng)域?qū)W習結(jié)果,并通過可視化的綜合成績與國際排名展現(xiàn)各國教育發(fā)展現(xiàn)狀與潛力。目前已有全球逾90 余經(jīng)濟體、超過300 余萬學生參與其中。隨著國際大規(guī)模學業(yè)測評項目在全球范圍內(nèi)拓展,各國逐漸對優(yōu)質(zhì)教育促進人類進步的方案達成全球共識,促進教育改革、提升教育質(zhì)量等多項議題進入國際社會的議事日程。
從發(fā)展軌跡上看,我國對教育質(zhì)量的關(guān)注與國家不同階段的戰(zhàn)略進程相伴相生,始終圍繞“為誰培養(yǎng)人、培養(yǎng)什么人、怎樣培養(yǎng)人”的教育根本問題,積極開展教育全過程的質(zhì)量保障模式探索。新中國成立伊始,國家便以人民發(fā)展為根本大力推動教育改革,要求“有計劃地、有步驟地改革舊的教育制度”與“有計劃地、有步驟地實行普及教育”。[13]伴隨著新中國教育體系的不斷完善,以保障教育質(zhì)量為目的的教育督導被列進教育事業(yè)發(fā)展的戰(zhàn)略謀劃中,肩負起推進國家教育制度建設(shè)、促進教育全方位發(fā)展的重要使命。[14]這一時期,教育質(zhì)量觀依托教育督導實踐逐漸萌芽,為我國陸續(xù)探索以教育督導、教育監(jiān)測和全過程質(zhì)量保障助力強國建設(shè)做了鋪墊。自改革開放以來,我國改善教育質(zhì)量的探索歷程可劃分為三階段。
自改革開放到新世紀之初,我國依托于教育督導活動開展輸入型教育質(zhì)量保障的實踐探索。十一屆三中全會以來,以體制改革為特征的社會改革推動了中國社會的現(xiàn)代化進程,教育與國家發(fā)展的關(guān)系也由此進入到嶄新的歷史階段。這一時期,鄧小平指出教育是國家現(xiàn)代化建設(shè)的重要人力基礎(chǔ),著重強調(diào)教育在促進科技發(fā)展與開展社會主義現(xiàn)代化建設(shè)方面的基礎(chǔ)性、長期性作用。[15]為滿足國家培養(yǎng)高質(zhì)量人才的需要,國務(wù)院于1985 年頒布《關(guān)于第七個五年計劃的報告》,指出“要增強教育事業(yè)的管理,逐步建立系統(tǒng)性的教育評估和監(jiān)督制度”,明晰了教育督導在我國教育發(fā)展的重要地位。[16]在20世紀90年代初,國家頒布《教育督導暫行規(guī)定》,首次以出臺法規(guī)性文件的方式明確提出教育督導制,并規(guī)定“教育督導的任務(wù)是:保證國家有關(guān)教育的方針、政策、法規(guī)的貫徹執(zhí)行和教育目標的實現(xiàn)”,標示著教育督導步入法制化軌道。[17]在此基礎(chǔ)上,1992 年《中華人民共和國義務(wù)教育法實施細則》提出“縣級以上政府應(yīng)當建立對實施義務(wù)教育工作進行監(jiān)督、指導、檢查的制度”。[18]隨著教育督導制度的發(fā)展完善,以測評引領(lǐng)教育質(zhì)量發(fā)展的初步實踐也隨之出現(xiàn)。2001 年,國家教育督導團下發(fā)《關(guān)于加強基礎(chǔ)教育督導工作的意見》,規(guī)定“建立適應(yīng)素質(zhì)教育要求的督導評估機制、保證素質(zhì)教育順利實施”,開始在全國范圍內(nèi)選取若干市縣部署學業(yè)測評實踐活動。[19]2002 年教育部正式開始“全國義務(wù)教育監(jiān)測項目”,對我國60個城市義務(wù)教育發(fā)展現(xiàn)狀、教師素質(zhì)、學校環(huán)境等事關(guān)教育質(zhì)量提升的關(guān)鍵因素實施了評估。同年,教育部工作計劃將加強教育監(jiān)測管理獨立成項,提出“建立新的規(guī)劃監(jiān)測指標體系及監(jiān)測軟件系統(tǒng)”,標志我國教育質(zhì)量測評活動的重心開始由教育督導到教育質(zhì)量監(jiān)測的轉(zhuǎn)向。[20]
隨著教育質(zhì)量評價制度的體系化與組織實施的規(guī)范化發(fā)展,我國以教育質(zhì)量監(jiān)測為核心開啟了過程型與結(jié)果型教育質(zhì)量保障的探索。進入新世紀,世界各國都面臨著科技進步日新月異、知識經(jīng)濟初現(xiàn)端倪、國際競爭日趨激烈等重大變化,為回應(yīng)時代發(fā)展對人才質(zhì)量提出的更高要求,我國實施了以課程改革為核心的教育改革。而隨著新課改的施行,加強監(jiān)控教師課程教學及學生學習品質(zhì)的作用也日益突顯,教育質(zhì)量監(jiān)測活動與之相伴而生。2004 年國務(wù)院印發(fā)《2003—2007 年教育振興行動計劃》提出“深化基礎(chǔ)教育課程改革。建立國家和省、市兩級新課程的跟蹤、監(jiān)測、評估、反饋機制,加強對基礎(chǔ)教育質(zhì)量的監(jiān)測”,開啟我國從國內(nèi)與國際兩方面探索完善大規(guī)模學業(yè)測評體系的進程。[21]在國內(nèi)探索方面,2007 年教育部基礎(chǔ)教育質(zhì)量監(jiān)測中心設(shè)立,同期開發(fā)推進了覆蓋31 個省級行政區(qū)域及新疆生產(chǎn)建設(shè)兵團的國家教育質(zhì)量監(jiān)測項目(NAEQ)。[22]NAEQ 以一年為周期開展了八輪學業(yè)測評,主要關(guān)注我國義務(wù)教育階段的學生在數(shù)學、科學、英語、體育、心理健康等方面的表現(xiàn)。在八年的測評實踐中,我國逐漸掌握規(guī)范的數(shù)據(jù)采集技術(shù)和實施流程,形成體系化與全面化的測評方案。例如江蘇省、浙江省臺州市、上海普陀區(qū)等地先后成立教育質(zhì)量監(jiān)測機構(gòu),涵蓋國家、省、市、區(qū)縣的四級學業(yè)測評網(wǎng)絡(luò)逐步建立,成為國家大規(guī)模學業(yè)測評體系化發(fā)展的重要組織保障基礎(chǔ)。[23]在與國際同行的積極交流上,自2009 年上海首次參與PISA 測試以來,我國實現(xiàn)了參測區(qū)域拓展與測評技術(shù)發(fā)展兩方面提升,逐漸實現(xiàn)教育測評工作與國際發(fā)展前沿接軌。其一,我國實現(xiàn)了參測區(qū)域廣度與深度的雙重拓展。一方面,正式參與國際大規(guī)模學業(yè)測試的區(qū)域由上海一地拓展至廣東、浙江、蘇州、濟南等七省市;另一方面,測評范圍從城市深入到鄉(xiāng)村,覆蓋鄉(xiāng)村、小鎮(zhèn)、鎮(zhèn)、城市、特大城市五類樣本群體。[24]其二,我國不斷深化學習對潛在特質(zhì)理論為主的現(xiàn)代心理測評理論,強化基于在地化視野的數(shù)據(jù)分析能力。
黨的十八大以來,以習近平同志為核心的黨中央立足中華民族偉大復興戰(zhàn)略全局和世界百年未有之大變局,加快教育高質(zhì)量發(fā)展、推進教育現(xiàn)代化、邁向教育強國、以舉國之力辦好人民滿意的教育,我國教育發(fā)展的重點也進入到由外延向內(nèi)涵發(fā)展轉(zhuǎn)變、從重視規(guī)模到關(guān)注質(zhì)量發(fā)展的新階段。而教育高質(zhì)量發(fā)展的質(zhì)量意涵是一個逐步拓展、不斷深化的過程性概念,原有強調(diào)外部質(zhì)量保障與資源要素投入的教育質(zhì)量管理顯然已無法適應(yīng)這一發(fā)展要求。[25]由此國家提出將質(zhì)量文化作為持續(xù)提升教育質(zhì)量的內(nèi)生動力,即強調(diào)持續(xù)優(yōu)化全要素全過程全方位的質(zhì)量保障體系,推進以提高人才培養(yǎng)質(zhì)量和能力為核心的質(zhì)量文化建設(shè)。[26]在質(zhì)量文化建設(shè)的影響下,大規(guī)模學業(yè)測評也聚焦于以學生為核心的核心質(zhì)量價值,在組織制度、評價理念與實施方案三方面不斷完善全過程教育質(zhì)量保障方案。在組織制度方面,《國家義務(wù)教育質(zhì)量監(jiān)測方案》(以下簡稱《方案》)的出臺對我國學業(yè)測評活動進行了系統(tǒng)性部署。具體而言,《方案》明確監(jiān)測工作以引導樹立正確教育質(zhì)量觀、扭轉(zhuǎn)升學率作為教育評價的唯一標準為根本目的,將語文、數(shù)學、科學、體育、藝術(shù)、德育等六大學科領(lǐng)域及影響學業(yè)水平的相關(guān)因素作為監(jiān)測的重點,闡明了由國家統(tǒng)籌指導、各地政府督導單位負責實施的基本程序,并對監(jiān)測對象、評價周期與樣本選取等制定詳細的實施章程。[27]在評價理念方面,2020 年10月印發(fā)的《深化新時代教育評價改革總體方案》明確指出要改進結(jié)果評價、強化過程評價、探索增值評價、健全綜合評價,完善教育評價的科學性、專業(yè)性與客觀性,著重強調(diào)了全過程評價對于提升教育質(zhì)量的指導意義。[28]在實施方案方面,2021 年9 月教育部印發(fā)了《國家義務(wù)教育質(zhì)量監(jiān)測方案(2021 年修訂版)》,突出測評實施的過程性與動態(tài)性特征,[29]對于測評過程性而言,規(guī)定學業(yè)測評以三年為周期追蹤教育質(zhì)量的變化過程,強調(diào)對學生發(fā)展全過程的測量、跟蹤和記錄;對于測評動態(tài)性而言,測評周期內(nèi)每年輪換測試科目,動態(tài)關(guān)注學生認知和非認知能力的變化情況,形成綜合素質(zhì)評價體系。
基于國內(nèi)外大規(guī)模學業(yè)測評發(fā)展經(jīng)驗的分析,可以看到大規(guī)模學業(yè)測評與時代、國家發(fā)展的需要緊密結(jié)合。一方面,國際大規(guī)模學業(yè)測評以提高教育質(zhì)量為首要目的,通過增強國家綜合實力與凝聚社會向心力兩個途徑來推動高質(zhì)量的現(xiàn)代化。另一方面,我國大規(guī)模學業(yè)測評聚焦于提高人才培養(yǎng)質(zhì)量,通過教育督導、質(zhì)量監(jiān)測與全過程質(zhì)量保障促進教育強國建設(shè)。通過梳理國際大規(guī)模學業(yè)測評多年來的實踐經(jīng)驗發(fā)現(xiàn),大致呈現(xiàn)三個新興趨勢。
在數(shù)字信息技術(shù)為社會帶來全方位深刻變革的背景下,人們生活方式、學習方式與認知方式的變革都不斷推動著教育領(lǐng)域的革新與轉(zhuǎn)變。教育部等六部門《關(guān)于推進教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導意見》提出,“深化教育督導信息化,實現(xiàn)大數(shù)據(jù)支持下的實時監(jiān)測和精準評估”。[30]因此,大規(guī)模學業(yè)測評的數(shù)字化發(fā)展一方面順應(yīng)了社會發(fā)展的形勢,另一方面也承接了教育數(shù)字變革的需求。目前,國際大規(guī)模測評項目正呈現(xiàn)由紙筆測評(Paper-Based Assessment)形式向數(shù)字化測評(Digitally-Based Assessment)形式的轉(zhuǎn)變,其可從三個方向推動測評活動的高質(zhì)量發(fā)展。[31]第一,數(shù)字化測評支持以文本圖像、音頻視頻等多模態(tài)非結(jié)構(gòu)化測評方式開展,這一功能為部分患有聽力、視力障礙的學生群體參與測試提供便利條件,從而拓展參測群體的廣度。例如巴西的研究者發(fā)現(xiàn),使用數(shù)字化輔助技術(shù)(Assistive Technologies)可有效提升測評的公平性。[32]第二,數(shù)字化測評增強了測試者與試題的互動程度,為多元化測評題目的開發(fā)提供基礎(chǔ)。相較傳統(tǒng)的紙筆測試,數(shù)字化測評可將人的認知思維、情感理解與抽象推理能力同計算機大規(guī)模數(shù)據(jù)處理功能相結(jié)合,不斷拓展測評題目的考察維度與多元開放程度,進而實現(xiàn)對個體高階能力的準確評估。[33]例如拖放(Drag-and-drop)題目需將選擇源拖拽到相應(yīng)目標中做出回答,對學生信息分類、排序、匹配等綜合能力進行考察,對比紙筆測試中的多選題目,其不僅有效減少由隨機猜測帶來的測評結(jié)果偏誤,還進一步通過增強題目趣味性提高了學生應(yīng)答的專注力。[34]第三,計算機測評可動態(tài)采集密集型過程數(shù)據(jù),記錄與分析個體在真實情境中解決問題的思維過程與態(tài)度演變軌跡,使得對學生復雜能力與高階技能的測評成為可能。在NAEP 的寫作測試中,數(shù)字測評設(shè)備可通過實時采集學生測試過程數(shù)據(jù)繪制其狀態(tài)圖譜,直觀反映了學生在寫作過程中的狀態(tài),為分析學生寫作能力、應(yīng)變能力提供數(shù)據(jù)支撐。[35]
教育本身是一項具有高度異質(zhì)性的活動,學生個體差異、教師教學差異與學校管理差異等都是影響教育效果的重要因素。如何在教育測評中觀察到客觀存在的異質(zhì)性,并針對其測評結(jié)果進行針對性分析、為學生提供個性化教育方案,成為提高大規(guī)模學業(yè)測試結(jié)果利用效率、提高教育決策有效性、促進學生全面發(fā)展的重要問題。《教育部關(guān)于加強新時代教育管理信息化工作的通知》明確提出,“充分發(fā)揮數(shù)據(jù)的作用,推動教育科學決策、精準管理和個性服務(wù)”。[36]因此在未來發(fā)展中,對于個體發(fā)展的精準決策反饋成為大規(guī)模學業(yè)測評的重要探索點,其主要可從三個方向推動測評結(jié)果的精準分析。其一,在測評數(shù)據(jù)識別過程中總結(jié)歸納出不同學生群體的共性特征,并以此為基礎(chǔ)對樣本進行分層(Stratify),以便決策者能更好地了解不同學生特征并制定針對性學習方案。例如研究者使用深度信念網(wǎng)絡(luò)(Deep Belief Network)算法構(gòu)建的智慧教育測評方案,根據(jù)學生課程學習情況數(shù)據(jù)生成學生特征數(shù)據(jù),并將學生偏好和課程特征進行匹配,以實現(xiàn)教學內(nèi)容的智能推薦。[37]其二,在測評建模分析過程中應(yīng)用集成方法(Ensemble Method)構(gòu)綜合分析大模型,提高整體預測性能。集成方法的核心思路是將不同算法或同一算法在不同層次的數(shù)據(jù)子集上訓練出的多個模型組合起來,可構(gòu)造涵蓋考察教育學、心理學、社會學、腦科學等多學科知識的綜合分析模型,通過對測評數(shù)據(jù)的多角度理解提高分析準確性。[38]有研究發(fā)現(xiàn),采用集成方法建立的大模型在預測學生學業(yè)表現(xiàn)時,其精確度比最佳單一預測模型高10%。[39]其三,在測評方案生成中增進其動態(tài)調(diào)節(jié)能力,提升決策的時效性。例如增量學習(Incremental Learning)算法可根據(jù)新數(shù)據(jù)和舊數(shù)據(jù)的權(quán)重進行調(diào)整,在不破壞決策系統(tǒng)原有分析結(jié)構(gòu)的基礎(chǔ)上,繼續(xù)學習新數(shù)據(jù)特征以提高測評分析的精準度。在已有測評實踐中,研究者通過基于增量學習模型動態(tài)捕捉學生在課堂中互動行為,并結(jié)合其歷史學習數(shù)據(jù)對其注意力、計算思維等能力進行實時評估,并動態(tài)修正學生成績的預測結(jié)果,為教師及時調(diào)整授課方案提供有效參考。[40]
隨著現(xiàn)代社會對人才的需求日益復雜多樣,追求單一學科的深度知識已經(jīng)難以完全滿足社會發(fā)展對學生提出的現(xiàn)實需求。而超學科(Supra-disciplinary)測評聚焦學生的可遷移能力(Transferability),強調(diào)推動學生思維能力、創(chuàng)新能力、團隊協(xié)作能力等綜合素養(yǎng)的全面發(fā)展,使其能夠靈活應(yīng)對在社會生活中遇到的新情景與新問題。中共中央、國務(wù)院印發(fā)的《關(guān)于深化教育教學改革全面提高義務(wù)教育質(zhì)量的意見》提出,“建立以發(fā)展素質(zhì)教育為導向的科學評價體系”,將綜合素養(yǎng)作為教育評價主要內(nèi)容。[41]因此,超越單一學科而聚焦于學生發(fā)展需要的綜合能力,是未來大規(guī)模學業(yè)測評的重要探索方向。具體而言,該趨勢近年來已在多數(shù)大規(guī)模學業(yè)測評項目的設(shè)計理念與框架開發(fā)兩方面得以突顯。在設(shè)計理念方面,逐漸重視學生整合、運用知識技能應(yīng)對現(xiàn)實挑戰(zhàn)的高階能力,減弱對特定學科內(nèi)容與復雜應(yīng)試技巧的考察。高階發(fā)展能力是以高層次認知水平為核心、應(yīng)對劣構(gòu)問題或繁復問題的心理特征,包含理性判斷、制定策略與創(chuàng)造性思維等諸多要素的綜合能力概念,突出表征為高水平知識習得與遷移能力。[42]以高階能力為重點的測評并非關(guān)注學生能否掌握學校課程知識,而是側(cè)重其是否具備應(yīng)對現(xiàn)實生活挑戰(zhàn)的能力。例如PISA 以素養(yǎng)為核心概念開發(fā)其測評內(nèi)容與框架,評估學生運用所學知識技能理解問題與解決問題的能力發(fā)展情況。[43]在框架開發(fā)方面,針對不同能力考察方向的測評框架以模塊化形式呈現(xiàn),通過增強測評內(nèi)容的時效性,更好發(fā)揮學業(yè)測評對人才培養(yǎng)“指揮棒”的作用。與固定化測評內(nèi)容項目相比,模塊化測評框架可通過添加或去除部分測評框架模塊,實現(xiàn)對測試內(nèi)容與結(jié)構(gòu)的靈活調(diào)整,可增強測評內(nèi)容的拓展性,為更新測評內(nèi)容提供便利條件。例如PISA 近年來相繼以合作問題解決(Collaborative Problem-solving)、全球勝任力(Global Competence)、創(chuàng)造性思維(Creative Thinking)為主題開發(fā)了對應(yīng)的測試框架,并在每輪測試中進行內(nèi)容更新迭代,有效順應(yīng)社會發(fā)展對人才需求的變化。
過去半個多世紀以來,大規(guī)模學業(yè)測評在世界各國教育改革實踐的推動下快速發(fā)展,其衡量各國教育發(fā)展水平、評判各項政策有效性、推進各層各類教育改革、賦能教育強國建設(shè)的作用日益突顯。回溯國際與本土大規(guī)模學業(yè)測評發(fā)展歷程,盡管二者在不同發(fā)展階段對教育質(zhì)量的監(jiān)測理念、關(guān)注重點與測評方式等各方面存在著一定差異,但其測評活動的發(fā)展既承托了政治、經(jīng)濟與社會發(fā)展對教育強國的需求,又順應(yīng)了教育發(fā)展特別是高質(zhì)量人才培養(yǎng)的邏輯。教育評價事關(guān)教育發(fā)展方向,有什么樣的評價指揮棒,就有什么樣的辦學導向。強化教育評價改革的價值性、系統(tǒng)性與創(chuàng)新性是中國式現(xiàn)代化的重要內(nèi)容之一,也是加快構(gòu)建高質(zhì)量教育體系的奠基性工程。[44]中共中央、國務(wù)院印發(fā)的《中國教育現(xiàn)代化2035》提出“構(gòu)建德智體美勞全面培養(yǎng)的教育體系和科學的評價體系,全面落實立德樹人根本任務(wù)”。[45]黨的二十大報告中明確指出要完善學校管理和教育評價體系,深化教育領(lǐng)域綜合改革。由此可見,在國際競爭日益激烈的背景下,如何以教育高質(zhì)量發(fā)展提高人才培養(yǎng)質(zhì)量,特別是發(fā)揮教育評價在改善教育質(zhì)量、提升人才培養(yǎng)效果中發(fā)揮的積極作用,是建設(shè)教育強國歷史新征程上教育工作者面前的必答題。聚焦教育強國背景下教育高質(zhì)量發(fā)展的戰(zhàn)略需求,我國大規(guī)模學業(yè)測評的未來發(fā)展涵蓋三個優(yōu)先路向。
一是要加快全過程質(zhì)量監(jiān)測與保障機制的現(xiàn)代化。教育本身是動態(tài)地激發(fā)人內(nèi)在天賦與潛能的過程,堅持以全過程質(zhì)量監(jiān)測為中心的測評理念,既回應(yīng)了教育的過程屬性與過程價值,又體現(xiàn)了對教育中日益發(fā)展的個體的充分尊重。[46]具體在測評設(shè)計上,要將立德樹人作為根本標準,圍繞德、智、體、美、勞五育并舉開展全過程教育質(zhì)量監(jiān)測,追溯篩選在校學習、校外活動、行為習慣、心理狀況等對學生全面發(fā)展具有重要影響的過程性評價要素,突出不同時期學生成長目標的階段性。在測評實施上,一方面要從縱向上關(guān)注學生發(fā)展全過程,對學生成長背景、教育資源投入、實施過程與學習結(jié)果進行質(zhì)量測評。另一方面則在橫向上重視各教育主體對教育質(zhì)量的影響,將包括學生、教師、學校、家庭、社會等在內(nèi)的多方參與者納入測評體系,通過綜合采集教育發(fā)展信息充分了解教育體系中存在的問題與挑戰(zhàn),為優(yōu)化教育策略、提高教育質(zhì)量提供幫助。在測評保障上,不僅要建立與全過程質(zhì)量監(jiān)測相適配的財政投入制度,保障全過程教育質(zhì)量監(jiān)測的順利實施,而且要進一步完善包括監(jiān)測的時間、步驟、方法等在內(nèi)的全過程教育質(zhì)量監(jiān)測的實施程序,為全過程教育質(zhì)量提供組織保障。
二是要加強有關(guān)大規(guī)模學業(yè)測評的基礎(chǔ)研究力度。目前我國已確立了大規(guī)模學業(yè)測評的體系架構(gòu),并初步摸索出了一套適用于我國國情的測評程序與方法,進一步發(fā)展方向便是基于新時代發(fā)展要求提高監(jiān)測的專業(yè)化程度,具體包括了開發(fā)測量工具、建立測評模型與培養(yǎng)研究隊伍等方面。首先,高效的測量工具是提升教育質(zhì)量監(jiān)測效率的重要支撐。面對未來國家與社會發(fā)展對人才培養(yǎng)要求的快速演變,應(yīng)充分關(guān)注現(xiàn)代測評技術(shù)理論發(fā)展,著力開發(fā)學業(yè)測試、調(diào)查問卷、選用匹配等立體評價工具,不斷豐富教育質(zhì)量測量工具箱以適應(yīng)未來教育變化。其次,構(gòu)建監(jiān)測分析模型是利用測評數(shù)據(jù)發(fā)現(xiàn)與改進教育問題的重要方法?!督逃筷P(guān)于加強新時代教育管理信息化工作的通知》明確提出,“建立教育大數(shù)據(jù)分析模型,推進教育管理精準化和服務(wù)個性化水平全面提升”。[47]由此應(yīng)從模型建立、模型運用與問題分析等各方面精準發(fā)力,充分挖掘測評數(shù)據(jù)所反映的教育問題,為教育高質(zhì)量發(fā)展提供支撐。推動大規(guī)模學業(yè)測評體系的持續(xù)發(fā)展需要教育測評專業(yè)人員的支撐。當前我國教育測量相關(guān)專業(yè)的人才培養(yǎng)存在課程設(shè)置少、師資力量少、培養(yǎng)人數(shù)少的問題,難以滿足各地區(qū)學業(yè)測評的發(fā)展需要。[48]因此加大教育測量人才培養(yǎng)與學科建設(shè)力度,為我國大規(guī)模學業(yè)測評體系的發(fā)展提供人才保障。
三是發(fā)揮數(shù)字技術(shù)應(yīng)用對大規(guī)模學業(yè)測評高質(zhì)量發(fā)展的積極賦能作用。從發(fā)展的角度看,數(shù)字技術(shù)在推動大規(guī)模學業(yè)測評方法創(chuàng)新、提升測評效率方面具有天然優(yōu)勢,是塑造教育質(zhì)量監(jiān)測新優(yōu)勢、構(gòu)造教育發(fā)展新形態(tài)的關(guān)鍵路徑。在教育數(shù)字化轉(zhuǎn)型快速推進的背景下,基于數(shù)字技術(shù)的信息收集、管理與分析創(chuàng)新將成為改進大規(guī)模學業(yè)測評效率的重要內(nèi)容。在信息收集方面,精準、高效的數(shù)據(jù)采集離不開數(shù)字化設(shè)備的底層支持,要加快部署改造物聯(lián)網(wǎng)關(guān)、信息傳感器等教育數(shù)據(jù)采集智能設(shè)備,打造智能化的大規(guī)模學業(yè)測評服務(wù)系統(tǒng),為逐步實現(xiàn)過程性、實時性教育質(zhì)量監(jiān)測提供便利條件。在信息管理方面,通過建設(shè)與完善統(tǒng)一的數(shù)字化管理平臺實現(xiàn)測評數(shù)據(jù)的整合融通,打破各級監(jiān)測平臺間數(shù)據(jù)壁壘的現(xiàn)實難題。盡管我國已推進建設(shè)統(tǒng)一的教育數(shù)據(jù)管理平臺,但目前仍存在數(shù)據(jù)可比性不足、共享程度不夠的問題。[49]因此要完善多來源測評數(shù)據(jù)共享標準與清洗規(guī)則管理,解決不同測評口徑與跨層級數(shù)據(jù)的可比性問題。在信息分析方面,人工智能算法具備多維數(shù)據(jù)挖掘、復雜問題分析、個性化政策制定與決策方案改進功能,可通過深度解析測評數(shù)據(jù)為教育發(fā)展提供詢證支持。[50]應(yīng)利用人工智能算法提升測評數(shù)據(jù)分析的精準化程度,探索以技術(shù)革新為重要驅(qū)動力的高質(zhì)量教育決策與實踐轉(zhuǎn)化路徑。