廖 梁,王永雄,彭金滿
(香港中文大學(xué)大學(xué)通識(shí)教育部,香港特別行政區(qū)新界沙田)
如何評(píng)定學(xué)生學(xué)業(yè)表現(xiàn)是高等教育質(zhì)量評(píng)估的重要組成部分。西方國家高校通常實(shí)行標(biāo)準(zhǔn)參照評(píng)估,教師進(jìn)行作業(yè)評(píng)定時(shí)需依據(jù)評(píng)分量表,校方則根據(jù)評(píng)分量表中標(biāo)準(zhǔn)的描述對(duì)評(píng)分結(jié)果進(jìn)行檢視以確保評(píng)估質(zhì)量。在我國香港地區(qū),2015年之前各高校實(shí)行常模參照評(píng)估,2015年之后則改為標(biāo)準(zhǔn)參照評(píng)估。香港質(zhì)素保證局指出,標(biāo)準(zhǔn)參照評(píng)估是學(xué)習(xí)成果取向(outcome-based approach)的一部分[1],它為檢視學(xué)生學(xué)業(yè)表現(xiàn)提供證據(jù),從而能更好地實(shí)現(xiàn)高等教育評(píng)估的質(zhì)量監(jiān)督[2]。在我國,大學(xué)生學(xué)業(yè)評(píng)估并不純?nèi)灰勒粘D⒄栈蚴菢?biāo)準(zhǔn)參照的做法:有些學(xué)校教師評(píng)分權(quán)較大,學(xué)校干涉較少;有些學(xué)校則會(huì)偏向常模參照,對(duì)某幾個(gè)分?jǐn)?shù)區(qū)間(如高分區(qū))的百分比做出一定限制。但總體而言,標(biāo)準(zhǔn)參照評(píng)估在我國內(nèi)地高校實(shí)施較少。本文旨在通過介紹標(biāo)準(zhǔn)參照評(píng)估的理念,透視其對(duì)促進(jìn)教與學(xué)的作用,并以香港中文大學(xué)通識(shí)教育基礎(chǔ)課程實(shí)施標(biāo)準(zhǔn)參照評(píng)估的經(jīng)驗(yàn)為案例,剖析這種評(píng)估方式在設(shè)計(jì)、實(shí)施和改進(jìn)方面的具體問題、困難和可能的解決方法,以期與同行一起討論如何在院系開展和實(shí)施這項(xiàng)評(píng)估。
標(biāo)準(zhǔn)參照評(píng)估最早由格拉澤(R.Glaser)于1963年提出。針對(duì)當(dāng)時(shí)學(xué)業(yè)評(píng)估主要采取常模參照的方式,即根據(jù)在正態(tài)分布中的相對(duì)位置確定學(xué)業(yè)成績(jī)高低,格拉澤指出這種評(píng)估方式并不能清楚反映學(xué)生獲得了哪些能力的發(fā)展[3]。格拉澤師從行為主義大師斯金納(B.F.Skinner),倡導(dǎo)程序性教學(xué)(programmed instruction),其核心理念是根據(jù)學(xué)生的學(xué)習(xí)狀況調(diào)整教學(xué)[4]。格拉澤指出,學(xué)生掌握哪些知識(shí)和技能是構(gòu)成有效教學(xué)的必要條件[3]。與常模參照評(píng)估并存的另一種評(píng)估方式是標(biāo)準(zhǔn)參照評(píng)估。它將學(xué)生的學(xué)業(yè)成就具體化為行為表現(xiàn),以此作為教學(xué)目標(biāo)和評(píng)估標(biāo)準(zhǔn),目的在于了解學(xué)生的學(xué)習(xí)狀況。同時(shí)期布魯姆(B.S.Bloom)也提出與程序性教學(xué)理念相似的掌握式學(xué)習(xí)(mastery learning),強(qiáng)調(diào)評(píng)估結(jié)果反饋對(duì)于學(xué)習(xí)的重要作用[5]。標(biāo)準(zhǔn)參照評(píng)估的提出是基于提升學(xué)生學(xué)習(xí)效果之背景,教育者意識(shí)到依靠教學(xué)單方面的改進(jìn)并不足以促進(jìn)學(xué)生學(xué)習(xí),還需要借助評(píng)估為教學(xué)提供有意義的反饋。評(píng)估并不是與教學(xué)活動(dòng)相割裂的獨(dú)立實(shí)踐,而是教與學(xué)的一部分,評(píng)估的最終目的不在于給學(xué)生一個(gè)等級(jí)或者分?jǐn)?shù),而是讓他們清楚自己的能力表現(xiàn),進(jìn)而建立起對(duì)學(xué)習(xí)過程的元認(rèn)知(meta-cognition)和自我調(diào)節(jié)(self-regulating)[6]。
標(biāo)準(zhǔn)參照評(píng)估從20世紀(jì)70年代開始在美國受到關(guān)注和熱議,一開始的焦點(diǎn)放在基礎(chǔ)教育領(lǐng)域,由于其評(píng)估目標(biāo)清晰外顯化更能滿足專業(yè)教育的需求,到了20世紀(jì)80年代這種評(píng)估模式便在西方高校流行并逐漸普及[7]。20世紀(jì)70-80年代它以行為主義為理論基礎(chǔ),通過捕捉和描述學(xué)生外顯化的行為表現(xiàn)并以此作為評(píng)估標(biāo)準(zhǔn)。到了20世紀(jì)90年代,這種以行為表現(xiàn)為基準(zhǔn)衡量學(xué)生學(xué)習(xí)成果的評(píng)估方式受到挑戰(zhàn),例如:評(píng)估標(biāo)準(zhǔn)是否能完整描述學(xué)生學(xué)習(xí)成果[8]?評(píng)估標(biāo)準(zhǔn)是否能被教師準(zhǔn)確理解和使用[9]?這些質(zhì)疑歸根結(jié)底是對(duì)以實(shí)證主義為邏輯的評(píng)估取向的否定,這種評(píng)估取向以目標(biāo)-結(jié)果為本,忽視了評(píng)估本身以及評(píng)估過程的復(fù)雜性[8,10-11]。因此,20世紀(jì)90年代的標(biāo)準(zhǔn)參照評(píng)估在理念上發(fā)生一定的改變,從只關(guān)注評(píng)估結(jié)果轉(zhuǎn)向了對(duì)評(píng)估過程的關(guān)注。雖然仍然根據(jù)標(biāo)準(zhǔn)來判定學(xué)生學(xué)業(yè)表現(xiàn),但此時(shí)則重新審視了評(píng)估標(biāo)準(zhǔn)的權(quán)威性,不一味強(qiáng)調(diào)評(píng)估標(biāo)準(zhǔn)的準(zhǔn)確使用,而是關(guān)注教師在使用標(biāo)準(zhǔn)過程中的默會(huì)知識(shí)(tacit knowledge),及其對(duì)評(píng)估結(jié)果的影響[11-12]。另外一個(gè)強(qiáng)調(diào)重點(diǎn)則是鼓勵(lì)學(xué)生參與評(píng)估,而不是僅僅將評(píng)估視為考核學(xué)生的手段[13-14]。鼓勵(lì)學(xué)生參與評(píng)估的關(guān)鍵在于教師向?qū)W生闡釋評(píng)估標(biāo)準(zhǔn)的內(nèi)涵,并就如何達(dá)至評(píng)估標(biāo)準(zhǔn)的要求與學(xué)生一起溝通交流。除成績(jī)結(jié)果外,教師還需基于評(píng)估標(biāo)準(zhǔn)向?qū)W生提供學(xué)業(yè)表現(xiàn)的質(zhì)化評(píng)語[8],此外也應(yīng)鼓勵(lì)學(xué)生適時(shí)開展自評(píng)(self-assessment)和同儕評(píng)估(peer assessment)[13]。
標(biāo)準(zhǔn)參照評(píng)估于20世紀(jì)90年代初引進(jìn)國內(nèi),除了概念的介紹,討論主要集中于測(cè)試中的技術(shù)設(shè)置問題,例如選題的效度、難度、區(qū)分度、分界線設(shè)置、選擇合適標(biāo)準(zhǔn)等[15-18]。也有學(xué)者討論了高考中常模參照與標(biāo)準(zhǔn)參照的雙重特征,以便將兩者更好地結(jié)合起來[19]。需注意的是,技術(shù)討論大多只適合于單項(xiàng)或者多項(xiàng)選擇題這類考核題型,而大學(xué)生學(xué)業(yè)考核任務(wù)則更多是寫作、項(xiàng)目、實(shí)物、模型展示等開放形式,這就需要將關(guān)注點(diǎn)放在評(píng)估標(biāo)準(zhǔn)的選擇和設(shè)定、如何依據(jù)評(píng)估標(biāo)準(zhǔn)評(píng)分、如何基于評(píng)估標(biāo)準(zhǔn)為學(xué)生提供反饋這些問題上。
1.研究背景
香港中文大學(xué)自2018年秋季學(xué)期開始,全校各院系全部實(shí)施標(biāo)準(zhǔn)參照評(píng)估。在此之前,香港中文大學(xué)采取常模參照評(píng)估方式,學(xué)校對(duì)學(xué)業(yè)成績(jī)等級(jí)(A等、B等、C等……))的比例做出了一定的規(guī)定,例如拿到A等級(jí)的學(xué)生一般不應(yīng)超過該班級(jí)學(xué)生人數(shù)的30%,這種評(píng)估方式又被稱為根據(jù)分?jǐn)?shù)分布曲線而評(píng)分[20-21]。從政策上對(duì)等級(jí)人數(shù)進(jìn)行限制可以防止教師任意評(píng)高分的情況,但由于成績(jī)?cè)u(píng)定是與其他同學(xué)對(duì)照的結(jié)果,學(xué)生成績(jī)有時(shí)并不反映其真實(shí)學(xué)業(yè)表現(xiàn)[22]。
常模參照評(píng)估的另一個(gè)隱憂是評(píng)估標(biāo)準(zhǔn)的缺失和邊緣化。采取常模參照評(píng)估通常無須出示評(píng)估標(biāo)準(zhǔn),盡管一部分教師會(huì)在評(píng)估過程中列出評(píng)估標(biāo)準(zhǔn),但在實(shí)際評(píng)分中,教師通過“比較原則”和“等級(jí)約束”便可評(píng)分,學(xué)校根據(jù)“等級(jí)約束”監(jiān)督評(píng)分結(jié)果,無任何一方需要對(duì)評(píng)估結(jié)果是否真正反映評(píng)估標(biāo)準(zhǔn)追加問責(zé)。如果使用標(biāo)準(zhǔn)參照評(píng)估,一方面問責(zé)學(xué)業(yè)評(píng)估質(zhì)量的“證據(jù)”將清晰公示,另一方面也可實(shí)現(xiàn)以評(píng)促學(xué)——明晰的評(píng)估標(biāo)準(zhǔn)有助于學(xué)生對(duì)自我學(xué)習(xí)能力做出評(píng)估,評(píng)估反饋則能幫助學(xué)生檢視自身學(xué)習(xí)程度。從理念而言,標(biāo)準(zhǔn)參照評(píng)估不失為一種較理想的實(shí)現(xiàn)教評(píng)相互促進(jìn)的方式。然而在現(xiàn)實(shí)中,由一種固定的評(píng)估方式轉(zhuǎn)向一種全新的評(píng)估方式并非易事。對(duì)于如何設(shè)計(jì)和實(shí)施這種新評(píng)估,大學(xué)缺乏具體的指導(dǎo)。香港中文大學(xué)鼓勵(lì)各院系根據(jù)學(xué)科自身特征,自行探索和確立適合課程要求的標(biāo)準(zhǔn)參照評(píng)估,但這無疑增加了一種不確定性——院系缺乏實(shí)施新評(píng)估的經(jīng)驗(yàn),教師則對(duì)評(píng)估結(jié)果是否“合理”表示擔(dān)心。
2.案例選擇
本文選擇香港中文大學(xué)通識(shí)基礎(chǔ)課程的評(píng)估實(shí)踐為研究案例,是基于以下考慮:從標(biāo)準(zhǔn)參照評(píng)估本身的特征來看,由于這種評(píng)估方式是在每門課程的要求和內(nèi)容基礎(chǔ)上發(fā)展出評(píng)估標(biāo)準(zhǔn),評(píng)估的“學(xué)科特質(zhì)”決定評(píng)估標(biāo)準(zhǔn)的研發(fā)主要從學(xué)系層面開展。香港中文大學(xué)通識(shí)教育部承擔(dān)全校本科生兩門必修通識(shí)教育基礎(chǔ)課程①——“與人文對(duì)話”和“與自然對(duì)話”的教學(xué)工作,目前擁有全職教師28名,從教學(xué)規(guī)模而言與學(xué)系相當(dāng)。相對(duì)于專業(yè)學(xué)系更廣泛復(fù)雜的課程設(shè)置,這兩門基礎(chǔ)課程無論從課程設(shè)計(jì)、教學(xué)目標(biāo)還是學(xué)業(yè)考核形式上均很相似——它們都以研習(xí)中外經(jīng)典為主旨,教學(xué)方式以小組討論為主、教師授課為輔,對(duì)學(xué)生學(xué)業(yè)的考核則強(qiáng)調(diào)寫作能力和課堂討論。課程有三種考核任務(wù):寫作,包括反思日記和學(xué)期論文;課堂討論,包括小組討論和個(gè)人論述;課堂小測(cè)。其中,寫作所占比重最大,“與人文對(duì)話”寫作考核占總成績(jī)的60%,“與自然對(duì)話”則為50%。選擇這兩門課程的評(píng)估實(shí)踐為研究對(duì)象,有利于深入了解一種新的評(píng)估方式需經(jīng)過怎樣的設(shè)計(jì)、實(shí)施,最后得以真正落實(shí)。與此同時(shí),兩門課程所涉及的教師較多,這可以更全面反映不同教師在評(píng)估實(shí)施過程中的觀點(diǎn)、決策以及與標(biāo)準(zhǔn)參照評(píng)估的互動(dòng)。
3.研究問題
任何一個(gè)新的教育政策或者教學(xué)理念,將其精神充分付諸實(shí)踐并非簡(jiǎn)單自發(fā)的過程。首先,政策制定和政策實(shí)施屬于不同利益相關(guān)者,從政策理念到行動(dòng)實(shí)施中間存在“真空地帶”[23];其次,教師面臨從已經(jīng)習(xí)慣的評(píng)估方式轉(zhuǎn)變到一種全新的評(píng)估方式,要教師改變?cè)u(píng)估習(xí)慣,這同樣充滿挑戰(zhàn)[24]。研究通過對(duì)標(biāo)準(zhǔn)參照評(píng)估實(shí)施過程的考察,以教師共同體研究、學(xué)習(xí)、實(shí)踐新評(píng)估的整個(gè)行動(dòng)過程為研究對(duì)象,探究令標(biāo)準(zhǔn)參照評(píng)估得以落實(shí)的程序和條件,以填補(bǔ)從評(píng)估理念到評(píng)估實(shí)踐中的“真空地帶”。具體的研究問題包括:
(1)標(biāo)準(zhǔn)參照評(píng)估的實(shí)施包括哪些步驟,每個(gè)步驟的準(zhǔn)備和結(jié)果如何?
(2)這些步驟如何互動(dòng)以促進(jìn)標(biāo)準(zhǔn)參照評(píng)估更好地在實(shí)踐中落實(shí)?
4.研究方法
由于研究以一項(xiàng)新評(píng)估的實(shí)施全過程為研究對(duì)象,研究結(jié)論基于特定的實(shí)踐活動(dòng),故采取行動(dòng)研究的方法。筆者作為通識(shí)教育部標(biāo)準(zhǔn)參照評(píng)估開發(fā)設(shè)計(jì)小組的成員,參與了標(biāo)準(zhǔn)參照評(píng)估從設(shè)計(jì)、實(shí)施到反思與再規(guī)劃的全部環(huán)節(jié)。研究將采取自我審視、觀察、實(shí)證和反思的方法,探究整個(gè)實(shí)施過程中研究者自身和教師的行動(dòng)以及互動(dòng)內(nèi)容。根據(jù)勒溫(K.Lewin)提出的“螺旋式”行動(dòng)研究程序[25-26],研究將實(shí)施過程分為計(jì)劃、行動(dòng)、對(duì)行動(dòng)進(jìn)行實(shí)證調(diào)查、反思與再計(jì)劃這樣四個(gè)步驟,具體而言包括:標(biāo)準(zhǔn)參照評(píng)估設(shè)計(jì),新評(píng)估的“落地”,對(duì)評(píng)估實(shí)施效果收集實(shí)證資料,對(duì)評(píng)估結(jié)果的集體討論和再規(guī)劃。根據(jù)行動(dòng)研究“從實(shí)踐中產(chǎn)生理論”以及“通過慎思的行動(dòng)對(duì)理論加以解釋和補(bǔ)充”的特點(diǎn)[27-28],研究對(duì)每一個(gè)步驟的具體內(nèi)容、背后理據(jù)、行動(dòng)結(jié)果進(jìn)行梳理,以找出行動(dòng)對(duì)實(shí)施的作用,同時(shí)對(duì)行動(dòng)結(jié)果進(jìn)行反思,以探究落實(shí)標(biāo)準(zhǔn)參照評(píng)估的條件。
1.標(biāo)準(zhǔn)參照評(píng)估設(shè)計(jì)
評(píng)估設(shè)計(jì)由工作小組完成,小組成員由通識(shí)基礎(chǔ)課程署理主任和副主任、四名通識(shí)教育基礎(chǔ)課程教師和一名研究員組成。工作小組通過文獻(xiàn)調(diào)研明白,要實(shí)施標(biāo)準(zhǔn)參照評(píng)估,首先需要向教師提供評(píng)分量表(grading rubric)。因此,設(shè)計(jì)和編寫評(píng)分量表成為該步驟的重心。而編寫評(píng)分量表,關(guān)鍵則是確立并描述評(píng)估標(biāo)準(zhǔn)。評(píng)估標(biāo)準(zhǔn)的確立需基于一定的教育價(jià)值理念[29]。工作小組在標(biāo)準(zhǔn)選擇時(shí)采取學(xué)習(xí)成果取向,以預(yù)期學(xué)習(xí)成果③作為產(chǎn)生評(píng)估標(biāo)準(zhǔn)的來源。工作小組將學(xué)習(xí)成果覆蓋的內(nèi)容轉(zhuǎn)化為具體的能力要求,再結(jié)合不同考核任務(wù)的特征和目標(biāo),衡量每項(xiàng)考核需要覆蓋哪些能力要求。以“與自然對(duì)話”寫作考核為例,學(xué)習(xí)成果包括五大能力要求,其中理解能力、評(píng)估能力、知識(shí)應(yīng)用能力和個(gè)人反思能力均可以通過寫作加以考核,因此納入寫作考核的評(píng)估指標(biāo)。又根據(jù)寫作注重語言和修辭的特征,寫作考核就形成了兩個(gè)大的評(píng)估指標(biāo):高階思維能力、語言表達(dá)和文體風(fēng)格,其中高階思維能力發(fā)展出理解、評(píng)估與整合、知識(shí)應(yīng)用、有效結(jié)論、個(gè)人見解與反思這五個(gè)子指標(biāo)。
確立了評(píng)估指標(biāo)之后,另一個(gè)核心任務(wù)便是對(duì)各等級(jí)的具體特征做標(biāo)準(zhǔn)描述。無論是文獻(xiàn)調(diào)研還是具體的設(shè)計(jì)實(shí)踐,均發(fā)現(xiàn)等級(jí)標(biāo)準(zhǔn)描述的“尺度”是最難以把握的。描述過于籠統(tǒng),容易忽略學(xué)生的某些能力表現(xiàn);過于煩瑣,則容易令評(píng)分變得機(jī)械化。正如薩德勒(D.R.Sadler)所言,“有些評(píng)估標(biāo)準(zhǔn)根本無法表達(dá),所有試圖對(duì)其作出解釋的語言怎么組織都顯得不夠準(zhǔn)確,而有些則只可意會(huì)”[30]170。如何呈現(xiàn)出既相對(duì)全面、準(zhǔn)確,又比較簡(jiǎn)潔、易做判斷的標(biāo)準(zhǔn)描述則成為編寫評(píng)分量表最具挑戰(zhàn)性的任務(wù)。工作小組在編寫標(biāo)準(zhǔn)描述的時(shí)候,遵循的原則有二:一是評(píng)估指標(biāo)反映了什么能力?這些能力在具體情境中的表現(xiàn)包括哪些?二是在不同等級(jí)描述時(shí),從學(xué)生展現(xiàn)這些能力的頻率和程度上加以區(qū)分。以下摘選高階思維中兩條子指標(biāo)以及語言表達(dá)其中一條子指標(biāo)的描述加以說明(見表1)。
表1 通識(shí)教育基礎(chǔ)課程“與自然對(duì)話”寫作能力評(píng)分量表(摘選)
標(biāo)準(zhǔn)描述完成之后,接下來是對(duì)各指標(biāo)權(quán)重進(jìn)行賦值以及確定各等級(jí)分?jǐn)?shù)區(qū)間。關(guān)于標(biāo)準(zhǔn)參照評(píng)估中的等級(jí)分?jǐn)?shù)設(shè)定,20世紀(jì)70年代曾經(jīng)展開過較多理論上的討論[31-32],但在實(shí)際的做法中,通常沿用“傳統(tǒng)慣例”,很少從理論層面解釋分?jǐn)?shù)區(qū)間的確定過程。有學(xué)者指出在確定指標(biāo)權(quán)重和等級(jí)分?jǐn)?shù)方面,很多時(shí)候是一種缺乏統(tǒng)計(jì)理論支持的“主觀行為”[33-34]。在確定等級(jí)分?jǐn)?shù)區(qū)間過程中,工作小組歷經(jīng)了幾次修改,最后決定沿用香港中文大學(xué)常模參照時(shí)期的分?jǐn)?shù)分布指引②。權(quán)重賦予同樣難以找到充足的理論解釋。比如,何為“最佳權(quán)重”就值得商榷:是指權(quán)重的分配使得最終的分?jǐn)?shù)分布最接近正態(tài)分布,還是指它最能夠反映學(xué)生真實(shí)水平?最后工作小組采取的是借助教師的專業(yè)經(jīng)驗(yàn)來確定指標(biāo)權(quán)重。例如,“與人文對(duì)話”寫作評(píng)分量表,高階思維能力指標(biāo)占寫作成績(jī)的70%,語言與文體占30%;“與自然對(duì)話”的比例則分別為75%和25%。
2.評(píng)估理念的落地
評(píng)估理念的落地是指教師學(xué)習(xí)和了解標(biāo)準(zhǔn)參照評(píng)估的理念和要求。這一過程對(duì)于教師如何將新的評(píng)估要求內(nèi)化并轉(zhuǎn)化為相應(yīng)的評(píng)估行為十分關(guān)鍵。諸多研究顯示采取由上至下的政策傳導(dǎo)方式,忽視與實(shí)踐者的溝通,將導(dǎo)致政策實(shí)施的失敗[35-37]。因此在這一步驟中,工作小組采取了對(duì)話溝通的方式,邀請(qǐng)所有教師參加關(guān)于標(biāo)準(zhǔn)參照評(píng)估的討論。會(huì)議由一名工作小組成員主持和匯報(bào),所有小組成員均參與提問環(huán)節(jié),另有一名工作小組成員擔(dān)當(dāng)觀察員,觀察和記錄教師之間的互動(dòng)以及現(xiàn)場(chǎng)問題。
討論的第一個(gè)重點(diǎn)是標(biāo)準(zhǔn)參照評(píng)估背后的理念,目的在于讓教師了解評(píng)估標(biāo)準(zhǔn)確立的原則、評(píng)估標(biāo)準(zhǔn)與課程目標(biāo)的關(guān)系,以及通過制定恰當(dāng)?shù)脑u(píng)估標(biāo)準(zhǔn)從而實(shí)現(xiàn)課程、教學(xué)、評(píng)估三者的整合和統(tǒng)一。第二個(gè)重點(diǎn)是評(píng)分量表的使用。這部分的互動(dòng)比較活躍,反映出相較于評(píng)估的概念和理念,教師更為關(guān)心如何在實(shí)踐中運(yùn)用它。互動(dòng)的問題集中在對(duì)等級(jí)描述的把握以及如何評(píng)分兩個(gè)方面。
3.實(shí)證資料收集與評(píng)分量表的完善
通過會(huì)議觀察研究者發(fā)現(xiàn),教師對(duì)于標(biāo)準(zhǔn)參照評(píng)估以及評(píng)分量表的使用有自己個(gè)人的看法,這些看法無法通過會(huì)議互動(dòng)洞悉詳盡,要深入了解教師是否內(nèi)化了標(biāo)準(zhǔn)參照的理念,又會(huì)如何在實(shí)踐中運(yùn)用,則有必要收集教師的個(gè)人意見。個(gè)人意見分為三個(gè)部分:會(huì)議提問、會(huì)后在公眾平臺(tái)的交流以及教師自愿參與的個(gè)人訪談。其中,訪談是了解教師內(nèi)化、理解和應(yīng)用標(biāo)準(zhǔn)參照評(píng)估的主要資料來源,會(huì)議提問以及會(huì)后交流則作為輔助資料。
研究分別對(duì)7名教師進(jìn)行了時(shí)長約為1.5小時(shí)的訪談。訪談結(jié)果與會(huì)議觀察達(dá)到了某種一致:教師對(duì)標(biāo)準(zhǔn)參照評(píng)估的理念均有一定的把握,此部分未顯示出大的差異;但對(duì)于評(píng)分量表的理解、闡釋和運(yùn)用,則體現(xiàn)出較大的個(gè)體差異。不同教師對(duì)每個(gè)等級(jí)標(biāo)準(zhǔn)含義的把握不同,對(duì)評(píng)估標(biāo)準(zhǔn)中能力表現(xiàn)的闡釋也各異:有的教師在評(píng)分時(shí)只會(huì)使用一部分自己認(rèn)為比較重要的評(píng)估標(biāo)準(zhǔn),或者對(duì)各條標(biāo)準(zhǔn)的重要程度做排序,以確定評(píng)分的松緊程度;也有的教師指出反思日記和學(xué)期論文在考核要求上不盡相同,使用同樣標(biāo)準(zhǔn)的評(píng)分量表并不恰當(dāng)。有的教師會(huì)與學(xué)生共同討論評(píng)分量表的內(nèi)容以及評(píng)分細(xì)則,并會(huì)將評(píng)分量表中的表現(xiàn)反饋給學(xué)生;而有的教師則表示無需將評(píng)分量表反饋給學(xué)生或者就評(píng)分量表與學(xué)生共同討論。在如何評(píng)分方面,教師受到了評(píng)分習(xí)慣的影響,例如,沿用舊的量表進(jìn)行評(píng)分,不自覺受到“等級(jí)約束”和“分?jǐn)?shù)分布”等常模評(píng)分習(xí)慣的影響,采取自己熟悉的分?jǐn)?shù)區(qū)間。
訪談中所發(fā)現(xiàn)的問題有些在實(shí)施中及時(shí)進(jìn)行了調(diào)整,例如:修改了量表中的用詞,使之表述更為準(zhǔn)確;和教師一道討論了是否需為反思日記和學(xué)期論文準(zhǔn)備不同的評(píng)估量表。另外一些問題則難以即時(shí)做出調(diào)整,例如教師對(duì)標(biāo)準(zhǔn)的自我闡釋、教師對(duì)不同評(píng)估標(biāo)準(zhǔn)重要程度的認(rèn)知以及評(píng)分習(xí)慣,這些屬于教師的默會(huì)知識(shí)[13],它體現(xiàn)個(gè)人特質(zhì)[38-39]。這些問題本身也是標(biāo)準(zhǔn)參照評(píng)估中的困境——一方面很難對(duì)教師的個(gè)人評(píng)分做強(qiáng)制性的規(guī)定,另一方面這種個(gè)人判斷又常常造成即使面對(duì)相同的評(píng)估標(biāo)準(zhǔn),評(píng)估結(jié)果也會(huì)存在差異[40-41],差異過大則影響評(píng)估信度[42-43]。
4.對(duì)評(píng)估結(jié)果的集體討論和再規(guī)劃
實(shí)施行動(dòng)的最后一步是基于前述實(shí)施行動(dòng)進(jìn)行集體討論。在前三步行動(dòng)實(shí)踐中,實(shí)施評(píng)估的主要問題是:標(biāo)準(zhǔn)參照的初衷在于通過設(shè)立外在標(biāo)準(zhǔn)以約束評(píng)分的“任意性”,但由于教師在評(píng)分過程中不僅只是參照外部評(píng)估標(biāo)準(zhǔn),也會(huì)依據(jù)內(nèi)在的默會(huì)知識(shí)作出判斷,教師在多大程度上運(yùn)用評(píng)估標(biāo)準(zhǔn)是未知的。因此在這一環(huán)節(jié),我們將焦點(diǎn)放在面對(duì)同樣的評(píng)估標(biāo)準(zhǔn),教師之間是否存在判斷差異,以及差異存在的原因。參加討論的教師需要共同評(píng)定四篇范文,結(jié)果顯示有一篇文章的評(píng)分差距在兩個(gè)等級(jí)(A-至B),有兩篇文章的評(píng)分相差三個(gè)等級(jí)(B-至C-、A至B),有一篇文章的評(píng)分相差五個(gè)等級(jí)(A-至C-)。評(píng)分結(jié)果與布勞森的一項(xiàng)研究結(jié)果相似[40],該研究揭示評(píng)分結(jié)果存在較大差異。通過集體討論和教師發(fā)言,研究發(fā)現(xiàn)造成差異的部分原因是有些教師對(duì)于評(píng)估標(biāo)準(zhǔn)的使用并不充分,即他們?cè)趯?shí)際評(píng)分中并不會(huì)采取逐條比對(duì)標(biāo)準(zhǔn)的方式做出判斷,往往是因?yàn)槟骋粭l標(biāo)準(zhǔn)的異常表現(xiàn)而給出高分或者低分。
評(píng)分結(jié)果差異揭示了教師評(píng)分的復(fù)雜性,這種復(fù)雜性在于評(píng)分是基于教師的自身經(jīng)驗(yàn)、資歷、學(xué)科背景、教學(xué)價(jià)值觀、對(duì)學(xué)生的看法等各種背景下所作出的判斷,這些默會(huì)知識(shí)的存在導(dǎo)致不同教師對(duì)評(píng)估標(biāo)準(zhǔn)有不同的使用[30,40]。教師對(duì)評(píng)分結(jié)果的差異則看法不一:有的教師認(rèn)為存在差異很正常,應(yīng)該保留教師的評(píng)分自主權(quán);有的教師則認(rèn)為如果評(píng)分差異過大,意味著評(píng)估標(biāo)準(zhǔn)并沒有發(fā)揮其應(yīng)有的作用。如何看待評(píng)分過程中的判斷差異以及結(jié)果差異,成為實(shí)施行動(dòng)中產(chǎn)生的新問題。
1.設(shè)計(jì)階段的審視與反思
如何設(shè)計(jì)新評(píng)估并令其順利開展可以從兩個(gè)方面進(jìn)行反思:一是由誰來設(shè)計(jì)?通識(shí)教育部的做法是選擇部分教師以及研究員構(gòu)成工作小組,這樣做的益處是保證了設(shè)計(jì)階段的效率。然而工作小組畢竟不能代表所有教師的意見,實(shí)證分析結(jié)果則揭示教師對(duì)于“外在”的評(píng)估標(biāo)準(zhǔn)存在自我闡釋甚至理解偏差,造成偏差的原因之一便是未能保證每一位教師均參與評(píng)估標(biāo)準(zhǔn)的選擇和建構(gòu)。這主要源于對(duì)時(shí)間成本的考慮,但如果在時(shí)間允許的情況下,讓每一位教師均參與評(píng)估標(biāo)準(zhǔn)的選擇和厘定,將能更好地調(diào)動(dòng)教師的參與積極性,教師對(duì)評(píng)分量表的質(zhì)疑和理解偏差也將大大減少。
第二個(gè)方面是關(guān)于編寫評(píng)分量表,如何體現(xiàn)標(biāo)準(zhǔn)參照評(píng)估精神的關(guān)鍵在于評(píng)估指標(biāo)的選擇,難點(diǎn)則是對(duì)評(píng)估標(biāo)準(zhǔn)的具體描述。評(píng)估指標(biāo)選擇并沒有既定的標(biāo)準(zhǔn),但從標(biāo)準(zhǔn)參照理念出發(fā),評(píng)估指標(biāo)應(yīng)與課程目標(biāo)、教學(xué)內(nèi)容一致,即課程目標(biāo)、教學(xué)內(nèi)容以及評(píng)估要求應(yīng)達(dá)到相互印證。指標(biāo)選擇的另一個(gè)要點(diǎn)則是可評(píng)估性,通識(shí)教育部的實(shí)踐經(jīng)驗(yàn)是從預(yù)期學(xué)習(xí)成果(也可理解為課程目標(biāo))中找出相應(yīng)的認(rèn)知能力作為評(píng)估指標(biāo),之所以強(qiáng)調(diào)認(rèn)知能力正在于它的可評(píng)估性。此外,各等級(jí)的分?jǐn)?shù)區(qū)間目前是采取依據(jù)經(jīng)驗(yàn)確定的方法,對(duì)此感興趣的研究者如能結(jié)合統(tǒng)計(jì)理論以確定分?jǐn)?shù)區(qū)間,將令評(píng)分量表的分?jǐn)?shù)設(shè)定更具說服力。
2.對(duì)實(shí)施過程的觀察與反思
縱觀此次行動(dòng)實(shí)施過程,在步驟2(評(píng)分前的集體會(huì)議討論)中,工作小組的焦點(diǎn)之一是評(píng)分量表的使用。但從會(huì)議觀察和實(shí)證分析來看,單向地由工作小組講授評(píng)分量表并不能令每位教師均領(lǐng)會(huì)評(píng)估標(biāo)準(zhǔn)的內(nèi)涵,在實(shí)際評(píng)分中教師往往還是基于其默會(huì)知識(shí)引導(dǎo)下的內(nèi)在標(biāo)準(zhǔn),對(duì)各項(xiàng)指標(biāo)作出評(píng)分判斷。因此在步驟2得到的反思是:除了對(duì)評(píng)估的理論和使用進(jìn)行講解之外,還需要加入具體的案例以及評(píng)分演練,通過集體公開的討論,能夠令教師意識(shí)到自我闡釋與他者闡釋的不同,從而在評(píng)估標(biāo)準(zhǔn)的詮釋和運(yùn)用上,不僅僅只是基于個(gè)人理解,也能夠考慮到其他人的看法,以減少對(duì)評(píng)估標(biāo)準(zhǔn)的理解差異。
在步驟4即評(píng)分后的集體討論中,一個(gè)新產(chǎn)生的問題是關(guān)于評(píng)分差異。如何看待評(píng)分差異標(biāo)志著是否對(duì)標(biāo)準(zhǔn)參照評(píng)估有深刻的認(rèn)識(shí)。評(píng)分差異并不能簡(jiǎn)單理解為錯(cuò)誤地使用了評(píng)估標(biāo)準(zhǔn),并得出評(píng)分不可信這樣的結(jié)論。關(guān)鍵是要看到差異背后不同的判斷依據(jù)以及這些依據(jù)是否基于評(píng)估標(biāo)準(zhǔn)[44-45]。有些評(píng)分差異是由于教師之間使用評(píng)估標(biāo)準(zhǔn)的做法不一致,例如教師過分重視單一標(biāo)準(zhǔn)從而造成評(píng)分差異;有些差異則是因?yàn)閭€(gè)人對(duì)評(píng)估標(biāo)準(zhǔn)的闡釋不同。不同原因?qū)е碌脑u(píng)分差異需用不同的方法加以解決。
由于評(píng)分差異具有一定的普遍性[46-47],總結(jié)討論的焦點(diǎn)應(yīng)放在如何看待評(píng)分差異上?;仡櫜襟E4的做法,一個(gè)反思是:討論在比較分?jǐn)?shù)差異方面消耗了一定時(shí)間,以致后續(xù)讓教師闡釋評(píng)分理據(jù)的時(shí)間較少,使得教師對(duì)彼此的評(píng)分理據(jù)并未完全清晰呈現(xiàn)。這為下一次設(shè)計(jì)集體討論帶來的啟示是:應(yīng)最大限度令每位教師闡釋評(píng)判理據(jù),并實(shí)現(xiàn)有效交流。如果教師能夠彼此清楚打分依據(jù),并在交流的過程中產(chǎn)生兼容包并的態(tài)度,不僅能更清晰地理解評(píng)估標(biāo)準(zhǔn)的要求,也能更開放地看待評(píng)分不一致,接受自己或者他人分?jǐn)?shù)分布的不合理,真正意義上擁抱標(biāo)準(zhǔn)參照評(píng)估。
總體而言,在評(píng)估實(shí)施的初期階段,很容易發(fā)生偏離評(píng)估目的的各種行為,例如對(duì)評(píng)估標(biāo)準(zhǔn)各自闡釋、沿用常模參照評(píng)估的評(píng)分習(xí)慣等。如果教師不能正確而恰當(dāng)?shù)厥褂迷u(píng)估標(biāo)準(zhǔn),所強(qiáng)調(diào)的評(píng)分有所依據(jù)將只是空頭支票。標(biāo)準(zhǔn)參照評(píng)估真正得以落實(shí)的關(guān)鍵在于教師對(duì)標(biāo)準(zhǔn)參照評(píng)估的內(nèi)涵和使用有深刻清晰的認(rèn)識(shí)。只有教師建立了對(duì)新評(píng)估的認(rèn)同感,才會(huì)在實(shí)踐中充分發(fā)揮出這種評(píng)估的內(nèi)在功能,例如注重與學(xué)生就評(píng)估標(biāo)準(zhǔn)進(jìn)行溝通。要讓教師對(duì)評(píng)估建立認(rèn)同并對(duì)評(píng)估使用有深刻認(rèn)識(shí),需要充分調(diào)動(dòng)教師的參與積極性,在教師之間形成實(shí)踐共同體,以便對(duì)標(biāo)準(zhǔn)參照評(píng)估的理念和使用進(jìn)行集體討論;同時(shí)組織教師共同檢視評(píng)分結(jié)果,通過共同評(píng)分去尋找評(píng)估過程中的差異,求同存異,讓每一位教師對(duì)評(píng)估標(biāo)準(zhǔn)的詮釋、使用均是集體“共識(shí)”之后的決策。
本文通過行動(dòng)研究,將標(biāo)準(zhǔn)參照評(píng)估的實(shí)施過程分為計(jì)劃、行動(dòng)、實(shí)證、總結(jié)四個(gè)部分。這四個(gè)部分相互聯(lián)系和促進(jìn),共同保證了評(píng)估理念的落實(shí)。基于此本文提出標(biāo)準(zhǔn)參照評(píng)估的實(shí)施模型(見圖1)。在該模型中,計(jì)劃階段的主要任務(wù)為開發(fā)評(píng)分量表。該階段需最大限度調(diào)動(dòng)教師參與度,盡可能讓更多教師參與評(píng)估標(biāo)準(zhǔn)的選擇、確立和開發(fā)。行動(dòng)階段指教師就標(biāo)準(zhǔn)參照評(píng)估的內(nèi)涵以及評(píng)分量表使用開展學(xué)習(xí)和討論。該階段不能采取技術(shù)理性式的單向宣講方式[10],而需要為評(píng)估理念的落地提供“支架”,即通過集體討論、對(duì)話溝通、案例演練的方式讓教師建立對(duì)評(píng)估的認(rèn)同感和深度認(rèn)識(shí)。實(shí)證階段是對(duì)設(shè)計(jì)和行動(dòng)階段可能產(chǎn)生的問題進(jìn)行探究。該階段的實(shí)證數(shù)據(jù)為了解評(píng)估是否真正落實(shí)提供了豐富的有深度的資料,是研究實(shí)施效果不可或缺的??偨Y(jié)階段是對(duì)實(shí)施行動(dòng)的檢視,檢視內(nèi)容基于前三步行動(dòng)實(shí)踐的問題和結(jié)果。該階段需要教師共同解決評(píng)估實(shí)施中所面臨的深層次問題。研究顯示標(biāo)準(zhǔn)參照評(píng)估的一個(gè)實(shí)施難點(diǎn)在于如何協(xié)調(diào)不同教師對(duì)評(píng)估標(biāo)準(zhǔn)的理解和使用差異。研究建議定期舉辦評(píng)分研討會(huì),以對(duì)話溝通的方式讓教師建立對(duì)評(píng)估標(biāo)準(zhǔn)的共同理解[48]。其目的不是在于統(tǒng)一評(píng)估標(biāo)準(zhǔn),而是將評(píng)估標(biāo)準(zhǔn)的不同闡釋公開化、透明化,讓教師在實(shí)踐共同體中以學(xué)習(xí)和反思的方式慎思不同闡釋的合理性[49-50]。教師對(duì)評(píng)估標(biāo)準(zhǔn)做到既胸有定見又和而不同,便能最大限度減少非關(guān)因素對(duì)評(píng)分的干擾,而這樣的評(píng)分結(jié)果也必然是公平而令人信服的。
圖1 標(biāo)準(zhǔn)參照評(píng)估實(shí)施模型
注釋
①香港中文大學(xué)本科生通識(shí)教育有三大部分:一是通識(shí)教育基礎(chǔ)課程,其概念與核心課程類似,屬于全校必修課程,由通識(shí)教育部教師負(fù)責(zé)授課;二是四類通識(shí)教育課程,其概念與分布課程類似,由各院系教師開設(shè),學(xué)生從四類通識(shí)教育課程中各選擇一至兩門課程學(xué)習(xí);三是書院通識(shí),主要是各書院根據(jù)其歷史和教育理念設(shè)計(jì)并開設(shè)課程,強(qiáng)調(diào)學(xué)生在實(shí)踐中學(xué)習(xí)。
②香港中文大學(xué)常模參照時(shí)期的分?jǐn)?shù)分布指引:在一般情況下,撇除不及格的學(xué)生后,成績(jī)最好的30%獲A等(包括A、A-),其次的50%獲B等(包括B+、B、B-),最后的20%獲C等(包括C+、C、C-、D+、D,為方便討論統(tǒng)稱為C)。
③關(guān)于香港中文大學(xué)通識(shí)基礎(chǔ)課程預(yù)期學(xué)習(xí)成果的網(wǎng)絡(luò)鏈接如下:與人文對(duì)話https://www.oge.cuhk.edu.hk/index.php/tc/2011-06-22-08-12-12/ugfh-1001;與自然對(duì)話https://www.oge.cuhk.edu.hk/in dex.php/tc/2011-06-22-08-12-12/ugfn-1001。