周丐曉 劉恩山 黃 瑄
(1 溫州大學(xué)生命與環(huán)境科學(xué)學(xué)院 浙江溫州 325035 2 北京師范大學(xué)生命科學(xué)學(xué)院 北京 100875)
當(dāng)前世界各國均從國家戰(zhàn)略的高度,將教育質(zhì)量提升作為國家發(fā)展的重要目標(biāo)和推動力。作為教育質(zhì)量的核心指標(biāo),學(xué)生的學(xué)業(yè)質(zhì)量的監(jiān)測和評估,可為教育改革和決策提供重要參考。越來越多的國家將開展學(xué)生學(xué)業(yè)質(zhì)量監(jiān)測,作為教育質(zhì)量提升的重要途徑,為政府教育決策、國家教育管理和學(xué)校教育診斷和改進提供實證支持。通常學(xué)業(yè)質(zhì)量監(jiān)測包括框架設(shè)計、工具研發(fā)、試點實驗、正式測試、結(jié)果反饋等若干環(huán)節(jié),其中最為關(guān)鍵的是開發(fā)高信效度的測評工具,在此基礎(chǔ)之上獲得的診斷信息才有參考價值。而當(dāng)前關(guān)于學(xué)業(yè)質(zhì)量測評工具的開發(fā)仍存在諸多困難,如何科學(xué)評價監(jiān)測工具的質(zhì)量是其中亟待攻克的重點難關(guān),理解開展學(xué)業(yè)質(zhì)量測評研究的重要意義、學(xué)業(yè)質(zhì)量監(jiān)測工具開發(fā)中存在的挑戰(zhàn),以及如何評價監(jiān)測工具的質(zhì)量,將有效提高學(xué)業(yè)質(zhì)量監(jiān)測工具的信效度,為進一步提高學(xué)業(yè)質(zhì)量監(jiān)測結(jié)果的科學(xué)性及有效性奠定良好基礎(chǔ)。
當(dāng)前建設(shè)和完善教育質(zhì)量監(jiān)測評估體系已成為國際教育改革的一大趨勢,開展學(xué)業(yè)質(zhì)量測評研究是完善教育質(zhì)量監(jiān)測評估體系的有效措施。學(xué)業(yè)質(zhì)量測評研究可為國家或區(qū)域教育質(zhì)量的提升和改進提供客觀的坐標(biāo)定位和有效的參考依據(jù),學(xué)業(yè)質(zhì)量的監(jiān)測結(jié)果可在一定程度上反映當(dāng)?shù)亟逃|(zhì)量的水平,客觀評估當(dāng)前教育發(fā)展的優(yōu)勢和不足,為下一步進行教育改進和提升提供有效的反饋建議和努力方向。
1.1 完善教育質(zhì)量監(jiān)測評估體系已成為教育改革的迫切需求和重點議題 長期以來,由于缺乏客觀準(zhǔn)確衡量學(xué)校教育質(zhì)量的標(biāo)準(zhǔn)和數(shù)據(jù)支持,我國以升學(xué)率和考試成績片面評價教育質(zhì)量的做法屢見不鮮,這已成為制約教育質(zhì)量評價發(fā)展的一大瓶頸,也影響了學(xué)校教育質(zhì)量的提高和改進。為此,建立和完善國家義務(wù)教育質(zhì)量監(jiān)測評估體系,有效診斷和客觀評價我國教育質(zhì)量現(xiàn)狀,為教育部門科學(xué)決策和有效管理提供依據(jù)被提到了議事日程。2010年我國頒布了《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》,明確指出“要建立教育質(zhì)量監(jiān)測、評估體系,整合國家教育質(zhì)量監(jiān)測評估機構(gòu)及資源,完善監(jiān)測評估體系,定期發(fā)布監(jiān)測評估報告”[1]。開展教育質(zhì)量監(jiān)測研究,對教育質(zhì)量進行科學(xué)、全面、有效的評價,為教育改革和發(fā)展提供咨詢和論證,提高重大教育決策的科學(xué)性和有效性,已成為實現(xiàn)我國基礎(chǔ)教育科學(xué)發(fā)展、內(nèi)涵發(fā)展的重大舉措和戰(zhàn)略任務(wù)。
1.2 開展學(xué)業(yè)質(zhì)量測評研究是完善教育質(zhì)量監(jiān)測評估體系的有效途徑 學(xué)生學(xué)業(yè)質(zhì)量的水平是衡量一個國家教育質(zhì)量的重要標(biāo)準(zhǔn)之一,同時也是教育改革的核心議題,開展學(xué)業(yè)質(zhì)量測評研究已成為世界各國提升教育質(zhì)量的重要措施??v觀當(dāng)前國際教育改革發(fā)展趨勢,為提升和改進國家和地區(qū)的教育質(zhì)量,眾多教育發(fā)達(dá)國家和組織,嘗試通過開展學(xué)生學(xué)業(yè)質(zhì)量測評項目獲悉學(xué)生的學(xué)業(yè)現(xiàn)狀和影響因素,影響較為廣泛的包括PISA、TIMSS 和NAEP 等,以國際或區(qū)域教育發(fā)展?fàn)顩r為標(biāo)準(zhǔn)坐標(biāo)尺,對比分析本國的優(yōu)勢和不足,從而為教育質(zhì)量提升和政府教育決策提供論據(jù)和支持。我國也認(rèn)識到開展學(xué)業(yè)質(zhì)量測評工作的迫切性和重要性,教育部在2014年的工作要點中明確指出“開展義務(wù)教育階段學(xué)生學(xué)業(yè)質(zhì)量監(jiān)測,研究制定中小學(xué)各學(xué)科學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)”。為落實這一工作,教育部隨后制定了《國家義務(wù)教育質(zhì)量監(jiān)測方案》,從2015年起在全國開展義務(wù)教育質(zhì)量監(jiān)測工作[2]。
開展學(xué)業(yè)質(zhì)量監(jiān)測的研究是改進和提升教育質(zhì)量的重要措施,其中客觀且準(zhǔn)確診斷教育質(zhì)量現(xiàn)狀,才可為教育質(zhì)量的改進提升提供有效的靶向和指導(dǎo)。這一目標(biāo)的實現(xiàn)有賴于研發(fā)科學(xué)有效的測試工具,測試工具的質(zhì)量直接影響診斷的結(jié)果及其教育決策價值。但由于我國教育測量理論和技術(shù)的相關(guān)研究仍處于起步階段,當(dāng)前在工具質(zhì)量分析的過程中存在諸多問題和挑戰(zhàn),主要表現(xiàn)在以下3 個方面。
2.1 統(tǒng)計學(xué)指標(biāo)的濫用和不恰解讀,數(shù)據(jù)分析缺乏連貫一致的頂層設(shè)計 在實際分析中有一誤區(qū),研究者容易盲目追逐統(tǒng)計指標(biāo)的新意和數(shù)量,認(rèn)為用盡可能多的較為高級的數(shù)據(jù)統(tǒng)計指標(biāo),便可為質(zhì)量分析提供更為科學(xué)的論證和論據(jù)。然而統(tǒng)計學(xué)指標(biāo)的應(yīng)用一般需考慮測驗的具體情境,根據(jù)測試的要求選擇適宜的指標(biāo),才可獲得有價值的測試信息和對數(shù)據(jù)的正確解讀。例如在SPSS中做因子分析時,需先做KMO 檢驗和Bartlett 球度檢驗,通過對原有變量間相關(guān)性的檢驗,判斷變量是否適合做因子分析,只有二者均符合要求時,因子分析的統(tǒng)計學(xué)指標(biāo)才具有參考價值。
除了統(tǒng)計學(xué)指標(biāo)的濫用和不恰解讀,另一常見問題是研究者傾向于碎片化的數(shù)據(jù)分析,數(shù)據(jù)分析方案缺乏連貫一致的頂層設(shè)計。連貫一致的頂層設(shè)計要求統(tǒng)籌考慮工具分析的各要素和測驗情境,工具質(zhì)量的分析需要系統(tǒng)性而非碎片化的指標(biāo)解讀。碎片化的分析猶如管中窺豹,不能得其全貌,常導(dǎo)致分析指標(biāo)間功能重疊、缺乏邏輯上的連貫一致,難以獲得全面有效的質(zhì)量分析信息。工具的質(zhì)量分析實質(zhì)為一個論證分析過程,是對工具合適性和科學(xué)性的邏輯分析和實證分析,對質(zhì)量分析方案進行頂層設(shè)計有助于優(yōu)化分析方案,從而提高質(zhì)量分析的效率和科學(xué)性。
2.2 測量理論的單一化,難以整合各種理論的優(yōu)勢進行工具的分析 在測量理論的發(fā)展過程中,經(jīng)典測驗理論(classic test theory,CTT)和項目反應(yīng)理論(item response theory,IRT)在心理學(xué)與教育測量方面發(fā)揮了重要作用。當(dāng)前在學(xué)科測試工具質(zhì)量評估方面,國際主流方向是結(jié)合項目反應(yīng)理論(IRT)和經(jīng)典測試?yán)碚摚–TT)綜合分析試題和問卷數(shù)據(jù),從而提高工具的科學(xué)性和有效性。
然而在實際分析中,我國研究者往往仍選擇CTT 作為工具質(zhì)量分析的優(yōu)先選擇,測量理論的單一化使得研究者難以整合各種理論的優(yōu)勢進行工具的分析。究其原因在于CTT 所涉及的數(shù)學(xué)模型相對簡單,參數(shù)和估算方法易于理解和掌握,對研究者統(tǒng)計學(xué)原理知識的掌握程度要求不高。但是CTT 有其理論和方法體系的弱點,例如:項目難度與被試能力互相依賴,各參數(shù)受樣本質(zhì)量的影響;不區(qū)分問題重要性,項目均是平行的無重要性的差別;統(tǒng)計量(難度、區(qū)分度、誤差等)是籠統(tǒng)的全組被試的平均值,因此CTT 的信度僅能代表平均測量精確度,信度較低等。項目反應(yīng)理論克服了CTT 的缺點,相比CTT 易受樣本影響的特點,IRT 中所用的項目參數(shù)(例如題目難度、區(qū)分度等)是一種不受樣本影響的指標(biāo),被試能力與難度參數(shù)相互獨立,這些參數(shù)的獲得不會因被試樣本的變化而變化,同時對被試能力的估計不會因為試題的不同而不同[3]。其次,它將定序測量轉(zhuǎn)化為等距測量,將項目難度與被試放在同一量尺上進行測量,便于比較操作。最后,基于IRT 的測量能將誤差具體到個人,更為精確也更能反映客觀的被試情況。因此,充分利用CTT 和IRT 的優(yōu)勢共同分析工具質(zhì)量,優(yōu)劣互補協(xié)同并進,可極大提高工具質(zhì)量分析的科學(xué)性和有效性。
2.3 效度的程式化驗證,缺乏實際情境的考量相比信度的檢驗,工具效度的評定更為靈活多變,長期以來一直是教育測評領(lǐng)域的一大難題,研究者對效度的檢驗偏于程式化和單一化,以經(jīng)驗和主觀因素判定工具的效度,忽略樣本、工具和測試本身的屬性,單純從內(nèi)容效度的角度進行專家評估以解釋工具的效度,缺乏實際情境的考量。
效度是指根據(jù)制定用途支持分?jǐn)?shù)解釋的那些事實和理論的有效程度[4]。效度檢驗強調(diào)從多種渠道獲取效度證據(jù),例如基于內(nèi)容、反應(yīng)過程、內(nèi)部結(jié)構(gòu)、與其他變量之間關(guān)系、測驗結(jié)果等的證據(jù),以驗證測驗?zāi)康模ɡ碚摽蚣埽┡c從測驗分?jǐn)?shù)或其他評估中獲得的推論之間的一致程度。因此效度的檢驗較為靈活,沒有程式化的模式。把握效度驗證的核心在于用邏輯或?qū)嵶C的方法證明假設(shè),通??蓮睦碚摽蚣苁欠衲芙忉屧u價者在工具上的作答表現(xiàn),根據(jù)理論框架推演有關(guān)測驗成績的假設(shè)與作答成績的一致程度等方面進行實證檢驗。好的效度論證應(yīng)考慮實際測驗情境,整合多種論據(jù)構(gòu)建對測試目的達(dá)成度的良好論證,而非程式化的效度指標(biāo)報告。
工具分析是以教育測量理論為基礎(chǔ),獲得試題及整個測驗的難度、區(qū)分度等一系列客觀定量指標(biāo),然后再結(jié)合命題目的、框架、藍(lán)圖、內(nèi)容效度等資料,實現(xiàn)對于測驗及其題目進行定量與定性分析的系統(tǒng)過程[5]。根據(jù)測驗?zāi)康募皺z驗指標(biāo)對工具中的試題進行篩選是設(shè)計良好工具的重要保障,這一過程的實現(xiàn)主要依賴于以下3 個核心要素:①對測量學(xué)指標(biāo)和方法的深入理解;②測量理論的綜合運用;③各個指標(biāo)的綜合參考。
3.1 深入理解測量學(xué)指標(biāo)和方法,形成結(jié)構(gòu)良好的頂層設(shè)計方案 對測量學(xué)指標(biāo)和方法的深入理解是靈活運用各種統(tǒng)計指標(biāo)和方法的前提。每種測量學(xué)指標(biāo)和方法有其特殊的內(nèi)涵、使用條件及情境、樣本要求,例如基于CTT 的量表分析與樣本之間有一定的依賴性。實際選擇哪種指標(biāo)和統(tǒng)計方法需參考多方面的信息,例如每個變量的類型,連續(xù)變量、雙歧變量或順序變量;潛在的分布性質(zhì),正態(tài)分布還是非正態(tài)分布;變量分布特征,線性的還是非線性的;樣本的小大等。而且多數(shù)指標(biāo)和統(tǒng)計方法有特定的適用條件,如若依據(jù)試題信息函數(shù)驗證試題質(zhì)量,首先要確定題目特征曲線能與試題相擬合,若擬合度差,則會產(chǎn)生誤導(dǎo)作用[6]。測量方法和指標(biāo)的選擇決定了工具質(zhì)量分析的有效性和科學(xué)性。
深入理解測量學(xué)指標(biāo)和方法的關(guān)鍵在于把握工具質(zhì)量檢驗的核心本質(zhì),其實質(zhì)在于把握3 個關(guān)鍵要素:信度、效度和客觀度。信度的本質(zhì)在于了解測試結(jié)果的一致性和穩(wěn)定性; 而效度則是為了探查測試的正確性和有效性; 客觀性是為了確定測試工具對不同群體有無偏見。工具質(zhì)量的檢驗參數(shù)也可根據(jù)這3 個關(guān)鍵要素進行分類,如表1所示,試題信息量分析、信度分析、誤差、評分者一致性分析本質(zhì)上都是為了提高工具的信度,題總相關(guān)、效度分析、擬合度分析、懷特圖、因子載荷和項目特征曲線則是效度檢驗的證據(jù),項目功能檢驗則為工具客觀度的檢驗提供了參考。在此基礎(chǔ)上形成結(jié)構(gòu)良好的頂層設(shè)計方案可化繁為簡、精簡指標(biāo),有效提高分析的效率和科學(xué)性。
表1 工具質(zhì)量檢驗核心要素的指標(biāo)分類
3.2 測量理論的綜合運用,達(dá)到優(yōu)劣互補的良好效果 經(jīng)典測量理論和項目反應(yīng)理論是當(dāng)前測驗理論的兩大流派,經(jīng)典測量理論操作方便、便于理解,但存在樣本依賴、誤差較大等問題,項目反應(yīng)理論下的指標(biāo)更為精確、參數(shù)之間相互獨立,但不易理解且操作更為復(fù)雜、對樣本和測試條件要求較為苛刻,因此兩者各具優(yōu)勢,可為互補。在工具質(zhì)量的檢驗中可綜合應(yīng)用2 種理論,篩選題目提供更多、更為全面的信息。此外,在分析中還可根據(jù)具體測試類型及測試特點偏重參考某一測量理論分析結(jié)果,例如在做試題質(zhì)量分析時,CTT 和IRT 參數(shù)均能提供較多的有效信息,但若要做跨年度的測試結(jié)果分析,則建議重點選用IRT 理論做試題分析,輔助參考CTT 理論的項目分析參數(shù),因為建立在CTT 理論上的數(shù)據(jù)指標(biāo)與樣本是相互依賴的,由此測試的結(jié)果缺乏穩(wěn)定性,不利于開展跨年度結(jié)果比較的深入研究,而基于IRT 理論分析的量表可通過設(shè)置鏈接題對跨年度的數(shù)據(jù)進行追蹤研究。此外,在做問卷質(zhì)量分析時,基于IRT 理論的數(shù)據(jù)分析在效度的驗證方面可提供更多的方法和參數(shù),為問卷的信效度提供更多客觀有效的信息,因此,問卷分析可更多參考IRT 參數(shù)以提高問卷質(zhì)量。
3.3 各個指標(biāo)的綜合參考,充分考慮測驗本身的特征和情境 在工具質(zhì)量的檢驗中,需注意綜合參考各個指標(biāo)。通常工具質(zhì)量檢驗的指標(biāo)如表2所示,參考時應(yīng)根據(jù)測試目的、試題類型、樣本情況等選取分析指標(biāo)及決定指標(biāo)參照的優(yōu)先次序,例如在選擇信度指標(biāo)時,若涉及主觀題的等級評分情況,則需考慮評分者一致性信度,若只有客觀題則無需參考評分者的一致性。此外,某些指標(biāo)的取值范圍可有一定的浮動,例如項目擬合度(MNSQ)的取值范圍與測試的要求有很大關(guān)系,若是高利害測試,取值范圍較為嚴(yán)格,一般要求在0.7~1.3 之間,若非高利害測試,在0.5~1.5 之間也為可接受水平,工具開發(fā)者需根據(jù)被試情況及測試要求等實際情況選取適當(dāng)?shù)娜≈捣秶?。另一方面,?shù)據(jù)的解讀也需參考具體的測試背景,例如很多指標(biāo)與樣本量有關(guān),擬合度檢驗中近似誤差均方根(RMESA)的大小就與樣本量有關(guān),當(dāng)抽樣較大時RMESA 值可能會偏高,因此,當(dāng)數(shù)據(jù)結(jié)果不夠理想可結(jié)合樣本情況做具體分析,指標(biāo)的解讀不能教條地看數(shù)據(jù),還需綜合各個指標(biāo)才能判斷測試結(jié)果的信效度。
表2 工具質(zhì)量檢驗的常用指標(biāo)
在對工具質(zhì)量的檢驗分析時,深入理解各種測量學(xué)指標(biāo)和方法,是靈活運用各種統(tǒng)計指標(biāo)和方法的前提,在此基礎(chǔ)之上需綜合運用CTT 和IRT 測量理論,根據(jù)實際情況靈活選取分析指標(biāo),采用多種測量學(xué)指標(biāo)和數(shù)據(jù)分析方法,以全面考察工具的質(zhì)量,確保工具的科學(xué)性和有效性,才能為教育研究與實踐提供客觀準(zhǔn)確的數(shù)據(jù)結(jié)果,進一步提高教育研究與實踐的質(zhì)量。與此同時,還需指出的是統(tǒng)計指標(biāo)是試題修改的輔助工具,研究者除了綜合參考各種統(tǒng)計指標(biāo)外,試題的修改及刪除與否還需參考試題設(shè)計的理論框架和測試藍(lán)圖等,結(jié)合測試目的才能最終確定試題的修改方向。工具質(zhì)量評估的過程是一個不斷尋找證據(jù)支持論證工具信效度和客觀性的過程,除了側(cè)重量化分析的測量學(xué)指標(biāo)的運用,還需特別注意參照工具開發(fā)的測試目的及理論框架,這些均能為工具質(zhì)量評估提供重要的證據(jù)支持,因此,要充分重視并綜合運用這些信息,促進高質(zhì)量工具的開發(fā)。