劉歐
高校學生學習成果測評的歷史、現(xiàn)狀以及前瞻
劉歐
以學生學習成果為導向的高校評估在美國和其他國家已經(jīng)使用了很長一段時間。評估的主要作用包括取得資格認證以及課程設置的提高。本文綜述了學生學習成果評估的背景、發(fā)展過程以及在評估的實際操作中可能遇到的理論和實踐上的挑戰(zhàn),比較了目前高校主要使用的測試工具以及它們的優(yōu)缺點,指出測評者一定要清楚測量的目的以選擇最合適的測量工具,要達到最佳測量效果需要從學校、教師和學生層面注意的問題。
高校評估;學生學習成果測評;HEIghten?
學生學習成果測評(Student Learning Outcomes Assessment)在美國高校的應用可以追溯到大約三、四十年前。高校主要用此類考試成績在大學資格認證(Accreditation)的過程中作為學生學習效能的依據(jù)之一。過去十年里,高校學生學習成果的測量被廣泛應用,其用途已不僅僅是資格認證,而是更多地關注到對于專業(yè)設置的檢測和對學生學習成果的提高。本文對以學習成果為導向的評估做一個綜述,然后介紹最近國際上的應用以及未來的發(fā)展方向。
2005年,時任美國教育部部長的Margaret Spell?ings成立了一個探索美國高等教育未來的委員會,其主要目標是針對美國高教界最棘手的問題進行探索并且提出解決的方案。這個委員會在2006年的總結(jié)報告中指出,美國高教界亟需解決的一個問題就是缺乏明確的衡量高校效能的機制,各高校在教育學生的成果上缺乏透明度,而解決這個問題需要直觀的、校際間能比較的數(shù)據(jù)[1]。這個報告在美國各界引起很大反響。在這個形勢下,美國高校也面臨著出具學生直接學習成果的壓力。美國兩個很大的高校聯(lián)盟組織The American Association of State Colleges and Universities(AASCU)和The Asso?ciation of Public and Land-grant Universities(APLU)立即作出反應,成立了一個公立四年制大學的自愿問責系統(tǒng)(Voluntary System of Accountability,VSA),其核心目的就是讓高校的信息和運作更加公開透明。這個問責系統(tǒng)的主要內(nèi)容之一就是鼓勵參與的高校展示學生在批判思維和寫作能力方面的學習成果。
在具體的運作當中,這個問責系統(tǒng)首先面臨的問題就是用什么樣的手段來測量學生的學習成果。既然結(jié)果需要在校際間進行比較,那么肯定需要一個標準化的測量手段。VSA審閱了很多關于學生成果的測試,最后鎖定了三個測試:美國教育考試服務中心(ETS)研發(fā)的ETS Proficiency Profile(EPP),Council for Aid to Education研發(fā)的Colle?giate Learning Assessment(CLA),美國ACT公司研發(fā)的The Collegiate Assessment of Academic Profi?ciency(CAAP)。VSA要求參加成員學校用這三個考試中的任意一個測量學習成果,并且需要測量學生學習成果的增值(value-added)。雖然這個問責系統(tǒng)是自愿參加的,但是由于Spellings的報告對于高校產(chǎn)生的巨大影響,在短短一年之內(nèi),就有300余所學校加入了VSA。
雖然有了廣泛的參與度,VSA在具體實施當中還是遇到了很多理論和操作上的挑戰(zhàn)。問題之一就是被選中的三個考試雖然都測量批判思維和寫作能力,但是它們可能對于這些變量的定義不一樣,另外它們的題型不同,測試時間長度不等,答題的方式也不一樣。在這種情況下,這三個考試的可比性成了一個亟待解決的問題。2007年,在美國教育部的資助下,這三個考試機構(gòu)成立了一個比較這三個考試的研究項目。結(jié)果證明這三個考試具有很大的可比性,測量同一變量的試題的相關度很高[2]。
VSA在執(zhí)行過程中遇到的另外問題,包括用什么樣的方法合理地計算學生學習成果的增值以及如何解決學生答題的動機。
計算增值最常見的數(shù)據(jù)收集方式就是在學生剛進入大學的時候測量一次,在他們即將畢業(yè)的時候再測量一次。成績的變化就是成績的增值。但是,看似簡單的一個操作原理,在實踐中卻有很多的問題。問題之一是,美國高校的學生流失率很高,因此畢業(yè)時的學生群體也許已經(jīng)不能代表剛?cè)雽W時的學生群體,其分數(shù)差也不能作為剛?cè)雽W時學生群體的增值。問題之二是,選擇什么樣的統(tǒng)計方法來計算增值。雖然增值研究在美國中小學的應用很廣泛,但是在高等教育中用的還不是很多。找到一個合適合理的方法非常重要。研究者實驗證明用不同的方法會對一個學校的學生增值產(chǎn)生不同的結(jié)論[3-6]。問題之三是,人們?nèi)菀装褜W生學習的增值和一個學校的教學效能等同,這種等同是很偏頗的。首先,整個大學的教育成果遠遠不能用一兩個考試來全面概括,考試只能提供部分信息;其次,就算考試成績能體現(xiàn)出來一部分效能,大學也不能負全責。其他許多的因素超越大學能掌控的范圍,比如學生學習的動機、家庭經(jīng)濟以及精神上的支持。因此,VSA在實施增值報告的過程中受到了很多爭議。
另外一個對于VSA有影響的因素是學生在接受此類考試中的答題動機。在美國,類似的大學層面的考試一般對于學生個體來說沒有切實的影響,因此學生很可能沒有用最大的努力在答題。這樣的潛在結(jié)果是學生的考試成績不能真實反映他們的水平。實驗研究表明學生的答題動機對于考試成績有著顯著的影響,動機高的學生的成績遠遠高于動機低的學生[7-8]。
鑒于VSA實施當中的各種潛在問題,VSA在過去幾年也進行了很大的改革。首先,各高校不再被要求提供增值的結(jié)果,只對大學四年級學生進行測量也可以;另外,除了最早被選中的三個考試,學校也可以用其他的測量途徑。
2.1 學生學習成果測量的發(fā)展現(xiàn)狀
美國一家致力于學生學習成果研究的非營利機構(gòu)National Institute for Learning Outcomes Assess?ment(NILOA)在2014年發(fā)表了一個研究報告,其中對于美國1 200多所大學的調(diào)查發(fā)現(xiàn),84%的大學都制定了明確的學生培養(yǎng)目標,對于這些培養(yǎng)目標都使用了多個測量工具進行測量[9]。筆者認為,任何一個測量工具都有其優(yōu)越性和局限性,使用者需清晰地了解測量工具的優(yōu)劣,然后為己所用。另外,測量工具有很強的時效性和情境性,使用者需真正了解測量的最終目的以選擇最恰當?shù)墓ぞ摺1?列出幾種最常用的測量工具的優(yōu)缺點。
2.2 新的測量手段和方式的涌現(xiàn)
隨著以學生成果為導向的測評的廣泛應用,涌現(xiàn)了一些新的測量手段和方式。其中之一是ETS最新研發(fā)和推出的HEIghten?系列測試(www.ets. org/heighten)[10]。HEIghten在研發(fā)過程中征詢了200多所美國高校的意見和建議,對學生學習成果的測試包括認知能力和非認知能力(軟能力),掌握這些能力不僅僅是學習能力的反映,也代表了重要的職場能力,這些能力對于當代大學生成為一名有效的工作者和有責任感的公民有著至關重要的影響。HEIghten包括批判思維、英語寫作、數(shù)學素養(yǎng)、多元文化素養(yǎng)、公民意識和數(shù)位信息素養(yǎng)6個測試。
HEIghten在研發(fā)上十分強調(diào)理論基礎和實際驗證。每一個HEIghten的測試都發(fā)表了相應的理論依據(jù)和實際操作的定義[2,11-14],都經(jīng)過了嚴格的原型測試(prototype)、前期試測(pilot test)和大型測試(field test)。只有符合高標準的試題才會最終被選入實際應用的考試。HEIghten在2015年11月投入應用后,引起了美國國內(nèi)以至國際的廣泛關注。目前,HEIghten的批判思維考試已經(jīng)有了中文版和俄文版,印度語、德語、西班牙語正在研發(fā)當中。在中國已有將近40個高校試用了HEIghten批判思維的考試。
以學生學習成果為導向的測評除了在綜合能力上的應用,也適用于學科能力的測試。在過去幾年中,蓋茨基金贊助了一個測量學科技能的大型項目——Measuring College Learning(MCL)[15]。這個項目主要由美國社會科學研究委員會(Social Science Research Council,SSRC)與合作者承辦,選中生物學、商科、傳媒、經(jīng)濟學、歷史和社會學6個學科進行試點。SSRC邀請美國國內(nèi)這些學科最具權威的教授對于每一個學科的重點內(nèi)容進行劃分和定義,此外還選擇一些重要的通識能力,比如交流能力、批判思維能力、分析能力等作為考查內(nèi)容。
以學生學習成果為導向的測量在國際上已經(jīng)有幾十年的發(fā)展,而在我國還處于萌芽階段。國際上有很多的經(jīng)驗和教訓值得中國高校借鑒。
表1 最常用的測量工具及其優(yōu)缺點
在美國,學生學習成果的測量已經(jīng)慢慢變得不再單一為了滿足外部的要求而進行,很多高校都意識到對于學生學習成效的測量可以為學校的課程設置提供有效的信息,同時對于院系的很多決策也可以起到輔助的作用。高校對于學習成果測量的使用也可以很靈活,如果學校對于畢業(yè)生的某一個方面的能力感興趣,那么就可以只測試畢業(yè)生;如果學校對于新生到畢業(yè)生之間的增值感興趣,那么就可以使用縱向設計(longitudinal)或者截面設計(cross-sectional)對學生進行測量。在縱向設計中,對于新生實施一次考試,等他們到大學四年級,再測試一次。在截面設計中,對于不同組群的新生和大學四年級學生同時進行考量。
在對于學習成果的測量和應用中,最有效的方式是明確定義這個成果以及細分如何能采集到相應的數(shù)據(jù)。比如說“全球勝任力”是目前一個很熱門的成果,在國內(nèi)也有高校把這個作為培養(yǎng)學生的一個目標。但是,這是一個很寬泛和抽象的概念,如何來定義這個概念以及如何對學生進行具體的測量?國際學生能力測試(Programme for Interna?tional Student Assessment,PISA)每三年進行一次,測量各國15歲學生的閱讀、數(shù)學和科學能力。它將在2018年的測試中引進一個新的測試內(nèi)容——Global Competence(http://www.oecd.org/pisa/aboutpi?sa/Global-competency-for-an-inclusive-world.pdf),即全球勝任力。PISA初步定義全球勝任力為分析和批判思維能力、知識和理解能力、態(tài)度三個部分,其中分析和批判思維能力指與不同文化的人有效合理的交往的能力,具有同情心和靈活度;知識和理解能力指對于全球重大問題的理解,以及對于跨文化的理解;態(tài)度指對于其他種群和文化的人的開放性、包容度以及尊重,具有全球意識,有責任心。通過此例可以看到,測量一個抽象的學習成果,需要嚴謹明晰的定義,有了定義,下一步才能進行有意義的測試。
提高學生學習成果測試效果的另一個關鍵就是對教師進行測量知識和實際操作的培訓。很多教師對于為什么要進行此類的測試以及如何應用測試的結(jié)果都存在很多疑惑,這就需要學校的決策者制定明確的教師發(fā)展目標,在學校甚至校際間培養(yǎng)一個重測試重數(shù)據(jù)的氛圍。學校應該用實例讓教師看到利用數(shù)據(jù)提高教學的優(yōu)勢。
在學生學習成果的測量中,除了學校和教師,另外需要普及知識的就是學生。美國的很多高校在新生入學輔導的時候,會明確向新生解釋學校的培養(yǎng)目標。另外一些學校還有規(guī)定的“測量日”,讓新生接受相關的考試,為日后的測評采集第一次數(shù)據(jù)。例如,美國的James Madison大學一年有兩次規(guī)定的測量日,學生被要求參加各項測試,他們中的很多人還會在以后再參加同樣的考試,這兩次考試的差值就可以作為學生知識和能力增長的數(shù)據(jù)之一。在前面的討論中提到,學生參加此類考試的答題動機是學校需要注意的一個重要問題。學生需要清楚地知道考試結(jié)果的用途,除幫助學校教育質(zhì)量提升外,對于個體學生也可以有正面的幫助,例如有些測試可以頒發(fā)合格證或者給優(yōu)秀者頒發(fā)證書。這些認證可以成為學生繼續(xù)申請學業(yè)深造或者就業(yè)的能力證明。
在全球很多國家都致力于發(fā)展高等教育的今天,能有效地測量高等教育的成果是衡量高校效能的重要指標之一,中國的高校以及研究機構(gòu)應該重視這方面的研究。
[1]U.S.Department of Education.A Test of Leadership:Charting the Future of U.S.Higher Education[R].Washington,D.C.,2006.
[2]GRIFFITH R,WOLFELD L,ARMON B,et al.Assessing intercultur?al competence in higher education:Existing research and future re?search[R].Princeton,NJ:ETS,[in press].
[3]LIU O L.Measuring value-added in higher education:Conditions and caveats[J].Assessment and Evaluation in Higher Education, 2011,36(1):81-94.
[4]LIU O L.Value-added assessment in higher education:A compari?son of two methods[J].Higher Education,2011,61(4):445-461.
[5]LIU O L.Outcomes assessment in higher education:Challenges and future research in the context of Voluntary System of Accountability [J].EducationalMeasurement:IssuesandPractice,2011,30(3):2-9.
[6]STEEDLE J T.Selecting value-added models for postsecondary in?stitutional assessment[J].Assessment&Evaluation in Higher Edu?cation,2012,37(6):637-652.
[7]LIU O L,BRIDGEMAN B,ADLER R M.Measuring learning out?comes assessment in higher education:Motivation matters[J].Educa?tional Researcher,2012,41(9):352-362.
[8]LIU O L,RIOS J A,BORDEN V.The effects of motivational instruc?tion on college students’performance on low-stakes assessment[J]. Educational Assessment,2015,20(2):79-94.
[9]KUH G D,JANKOWSKI N,IKENBERRY S O,et al.Knowing what students know and can do:The current state of student learning out?comes assessment in US colleges and universities[R].Urbana,IL: University of Illinois and Indiana University,National Institute for Learning Outcomes Assessment(NILOA),2014.
[10]Educational Testing Service.HEIghten?[EB/OL].[2016-05-10]. http://www.ets.org/heighten.
[11]LIU O L,FRANKEL L,ROOHR K C.Assessing critical thinking in higher education:Current state and directions for next-generation assessment:ETS RR-14-10[R].Princeton,NJ:Educational Test?ing Service,2014.
[11]ROOHR K C,GRAF E A,LIU O L.Assessing quantitative literacy in higher education:An overview of existing research and assess?ments with recommendations for next-generation assessment:ETS RR-14-22[R].Princeton,NJ:Educational Testing Service,2014.
[13]SPARKS J R,SONG Y,BRANTLEY W,et al.Assessing Written Communication in Higher Education:Review and Recommenda?tions for Next-Generation Assessment:ETS Research Report Se?ries[R].Princeton,NJ:Educational Testing Service,2014:1-52. DOI:10.1002/ets2.12035.
[14]SPARKS J R,KATZ I R,BEILE P M.Assessing digital literacy in higher education:A review of existing frameworks and assessments with recommendations for next-generation assessment:ETS RR-16-XX[R].Princeton,NJ:Educational Testing Service(in press).
[15]ARUM R,ROKSA J,COOK A.Improving Quality in American Higher Education[M].[S.l.]:Jossey-Bass,2016.
Student Learning Outcomes Assessment in Higher Education: A Historical Review,Current State,and Future Directions
Ou Lydia Liu
Student learning outcomes assessment has been long used in the United States and other parts of the world.Most of the assessment results are used for accreditation and internal improvement purposes.This paper reviewed the background and development of student learning outcomes assessment,and also discussed the various theoretical and empirical challenges in implementation,and further discussed the popular tools currently used by institutions to assess learning outcomes and their respective advantages and disadvantages.The paper stressed that it is critical that the assessors understand the ultimate goal of the assessment and therefore select the tools that best fit their assessment needs,and concluded by introducing a number of new tools and approaches in assessing learning outcomes and discussing issues involving institutions,faculty,and students in order to maximize the assessment effort.
Evaluation of Higher Education;Student Learning Outcomes Assessment;HEIghten?
G405
A
1005-8427(2016)11-0013-5
(責任編輯:陳睿)
劉 歐,女,博士,美國教育考試服務中心(ETS),高等研究中心主管(美國新澤西州 08628)