李 斌
(北京師范大學發(fā)展心理研究所,北京 100875)
影響主觀評分一致性的評分者自身特征分析
李 斌
(北京師范大學發(fā)展心理研究所,北京 100875)
文章編制一份調(diào)查問卷對參加某全國統(tǒng)一考試作文題目評閱的評分者進行調(diào)查,來分析影響評分一致性的評分者自身特征。首先,采用探索性因子分析方法對數(shù)據(jù)進行處理后,得出影響主觀評分一致性的評分者自身特征為六因子結(jié)構(gòu),即:責任心、自信心、情緒穩(wěn)定性、評分經(jīng)驗、標準把握能力及執(zhí)裁能力。然后,應用單因素方差分析法研究被調(diào)查者的有關人口學特征與評分者自身特征的關聯(lián),研究表明教齡和評分經(jīng)驗、閱卷次數(shù)和情緒穩(wěn)定性之間存在明顯正相關。
主觀評分一致性;因素結(jié)構(gòu);探索性因子分析
主觀評分是指具有一定專業(yè)知識和經(jīng)驗背景的評分者,按照一定的評分標準對被測對象的作答內(nèi)容或行為表現(xiàn)做出有效和客觀評判的思維過程,其目的是對被測對象進行打分 (判斷其類別)或者以此分數(shù)來決定被測對象的排名順序。主觀評判性是主觀評分的本質(zhì)屬性,[1]每個評分主體即評分者依據(jù)評分標準做出某一種判斷,具有強烈的主觀色彩,帶有許多人為估計的成分。評分者的知識、經(jīng)驗、性格、習慣以及心態(tài)等因素都體現(xiàn)在評分活動過程中并影響評分結(jié)果,造成多個評判主體間的不一致現(xiàn)象。[2]因此在實際應用中評分信度常常較難保障,影響了主觀評分的客觀性、公平性和科學性。
目前國內(nèi)外研究者主要運用不同的理論模型從統(tǒng)計學的角度,針對主觀評分者的信度進行研究:經(jīng)典測量理論將主觀測試的信度理解為評分者所評分數(shù)的一致性,并用相關系數(shù)表示信度系數(shù)用以計算評分者的一致性,如皮爾遜積差相關、斯皮爾曼等級相關、肯德爾等級相關以及 Cronbach’s Alpha系數(shù)等組內(nèi)相關法。[3]概化理論則通過識別各種誤差來源以及他們對于總變異的貢獻大小,來提供一個總體概化系數(shù)以反應測量的水平。該理論全面描述評分的各種誤差來源,特別是評分者效應,不單關注某個評分員,還提供了評分員間信度的信息。[4]項目反應理論更關注于對評分員效應的分析識別,得出評分員的不一致性不僅表現(xiàn)為嚴厲度的差異,還表現(xiàn)在準確度和集中度的差異上。[5,6,7]有的學者針對主觀評分的誤差分析和控制進行研究,關注主觀評分各種誤差來源及其特點研究[8,9],蘇永華博士研究了影響主觀題評分誤差的各種心理效應。[10]有研究評分員隊伍建設、評分資格認證以及評分員培訓在控制主觀評分不一致性現(xiàn)象中的作用。[11,12,13]還有的學者結(jié)合主觀評分的應用背景環(huán)境展開相關研究,如結(jié)合英語口語測試討論評分者效應的各種影響因素;[14,15]研究結(jié)構(gòu)化面試中評分過程中追問方式、首因效應、面試者接收信息的順序等影響因素,[16]有四個影響因素維度,即“評價維度、測評的情景、評價員、受測被試”四個不同側(cè)面影響到了測評的有效性,[17]研究績效考核中寬大效應的成因及其控制方法[18]等等。
總的來說,對主觀評分的研究國外學者注重從統(tǒng)計學角度對主觀評分結(jié)果進行衡量分析與應用,而國內(nèi)則偏重從實踐應用的角度來分析主觀評分不一致的影響因素以及采取的一些可行措施。主觀評分活動是一個復雜的思維過程,受到諸多來自自身和環(huán)境等因素的影響,并且人們對主觀評分不一致產(chǎn)生的機理還不明確,對影響因素較難有全面的認識;主觀評分一致性影響因素的研究分散在信度衡量研究、誤差分析與控制研究以及一些具體背景問題的研究中,同時研究者又從不同側(cè)面對其進行研究,比如:從整個評分系統(tǒng)、評分過程、評分者效應、評分者的個體效應等。本文不涉及主觀試題、評分標準設計以及被試的表現(xiàn)或作答等因素,主要以主觀評分者的自身心理特征為主,通過設計的調(diào)查問卷來研究影響主觀評分一致性的評分者自身特征因素,并進行解釋。
(一)被試選擇
本文選擇參加某全國統(tǒng)一考試英語科目作文和語文作文網(wǎng)上閱卷的教師為被試,評分者對考生的作文在計算機上獨立打分,彼此互不影響。
(二)工具編制
我們檢索了已有評分者一致性研究文獻,沒有找到對評分者自身特征進行研究的調(diào)查問卷。于是通過專家訪談、預試等程序編制了評分者自身特征調(diào)查問卷,來分析評分者自身特征對評分一致性的影響。
首先,采用訪談法搜集影響主觀評分一致性的各種因素。我們選擇了多年從事主觀試卷評閱,具有豐富主觀評分經(jīng)驗的專家共 10人,進行了深度訪談。主要的訪談提綱是:
問題一:您是如何理解“主觀評分一致性”這個概念的?并舉例說明。
問題二:請您列舉出一些“主觀評分不一致”的現(xiàn)象,并用實例說明。
問題三:您以為影響主觀評分一致性的因素有哪些?請列舉說明。
問題四:主觀評分的特點是依靠主觀評分者的主觀判斷,請您談談自身某些特征對評分結(jié)果有哪影響?
問題五:請您就影響主觀評分一致性的不同因素來源,列舉出影響主觀評分一致性的各因素? (每個因素來源至少五個)
問題六:關于影響主觀評分者一致性問題,您的其他想法?
然后,確定調(diào)查問卷的內(nèi)容。將訪談分析中收集到的影響主觀評分一致性的因素進行歸納整理,得出主觀評分一致性的影響因素有 22項,即來自主觀評分環(huán)境的有安靜程度、氣氛等;來自主觀評分者方面的有評分者的自身素質(zhì)、專業(yè)知識水平、業(yè)務水平、評分經(jīng)驗、認真負責態(tài)度、注意力、心理、心情及疲勞度等;來自被試者方面的有被試者書寫的字體清晰度、內(nèi)容要點突出、表達準確、卷面整潔度、字跡工整程度等;來自評分標準的有評分標準中主觀題的分值與平時百分制打分不協(xié)調(diào);來自主觀評分組織管理工作的有評卷任務壓力、評卷方式、專家和組長的意見、評分過程管理的嚴格程度、閱卷報酬計算標準等。因本文主要從評分者自身角度來探索影響主觀評分一致性的因素,因此不考慮評分環(huán)境、評分標準及被測試者表現(xiàn)等因素,從而編制了包含 25個調(diào)查項目的問卷。
經(jīng)隨機選取參加某省統(tǒng)一考試英語作文閱卷的教師進行預試 (發(fā)放問卷 80份,收回 72份,有效問卷 71份)。經(jīng)對問卷預試結(jié)果的分析,剔出 2項無關項,最終得到 20項主觀評分一致性的影響因素調(diào)查問卷。
(三)施測
我們分兩次向參加某全國英語考試作文和語文作文網(wǎng)上閱卷的教師發(fā)放調(diào)查問卷 120份,收回115份,剔除無效問卷 5份,共獲得有效問卷 110份。這 110位評分者的人口學特征為:按性別分,男40人,女 70人;按年齡分,30歲以下 5人,31-40歲 85人,41-50歲 11人,51歲以上 9人;按教齡分,2年以下 26人,3-8年 54人,8年以上 30人;按從參加閱卷的次數(shù)分,第一次參加 8人,第二次 22人,第三次 34人,參加 4次以上 46人。
我們采用 Cronbach’sAlpha系數(shù)法對調(diào)查問卷信度進行分析。一般來說,Cronbach’s Alpha如量表的信度系數(shù)在 0.9以上,表示量表的信度很好;信度系數(shù)在 0.8~0.9之間,表示量表的信度可以接受;信度系數(shù)在 0.7~0.8之間,表示量表有些項目需要修訂;如果量表的信度系數(shù)在 0.7以下,表示量表有些項目需要拋棄[19]。本調(diào)查問卷 20個調(diào)查項的信度Alpha=0.862 0,因此其信度和探索分析結(jié)果是可以接受的。
本調(diào)查問卷 K MO值為 0.685有些偏低,但滿足大于 0.5的條件,還是適合因素分析[20]。
(一)因子結(jié)構(gòu)
本文采用比較常用的主成分析法來進行公共因子的提取,因子旋轉(zhuǎn)采用方差最大化正交旋轉(zhuǎn)方法,得到了影響主觀評分一致性因素結(jié)構(gòu),累計解釋變異數(shù)為 68.029%,能解釋出大部分整體的變異。共抽取出了 6個公因子,各個公因子的解釋指標都在三個或三個以上。其中各項指標在各因子上的載荷達到 0.8以上的占 35%,載荷在 0.7-0.8的占到15%,載荷在 0.6-0.7的占到 20%,載荷在 0.5-0.6之間的占到 30%。解釋命名后,得到影響主觀評分一致性的評分者自身特征六因子結(jié)構(gòu),即責任心因素、情緒穩(wěn)定性因素、自信心因素、評分經(jīng)驗因素和標準把握能力因素。
因素一命名為“責任心”:包含 3.閱卷時我能很好的安排時間,使各項評閱工作按時完成;20.對各種閱卷工作我都能及時正確地完成;5.我能夠高質(zhì)量地完成閱卷工作;16.閱卷中我會盡力把相關問題考慮周全。主要體現(xiàn)評分中評分者主觀上重視、行動上落實、嚴格要求自己、有信心勝任主觀評分工作。
因素二命名為“情緒穩(wěn)定性”:包含 10.情緒激動會使我的評分出現(xiàn)偏差;8.評分工作環(huán)境的偶然變化會引起我情緒的改變;17.我的打分會受到評卷過程中其他無關事件的干擾。情緒和心情都是評分者的心理活動表現(xiàn),這些都影響到評分者的主觀判斷,情緒會影響到對被試的態(tài)度以及對評分標準的把握。
因素三命名為“自信心”:包含 11.我認為專業(yè)知識水平?jīng)Q定了評分的公正性;6.我評分時精力集中思維敏捷;7.評分中我會合理安排評分細則等三項。評分者自信來自于本身的專業(yè)背景和知識水平、評分過程中的判斷思維活動以及自己對主觀評分標準的科學理解和把握,自信因素將影響到主觀評分的整個過程環(huán)節(jié)。
因素四命名為“評分經(jīng)驗”:包含 2.過去的評分經(jīng)驗有利于提高我的評分效率;15.我的第一印象往往是正確的;1.我在評分時是理性的等三項。評分者的經(jīng)驗形成了定勢的評分行為,造成評分者的偏好和盲目自信,只有經(jīng)驗和客觀標準的有機結(jié)合才是理性的評分。
因素五命名為“執(zhí)裁能力”:包含 12.我打分有時猶豫不決;13.缺乏評分經(jīng)驗會使我對題目評分的判斷把握不準確;4.面對繁重的評卷任務我會感到不安等三項。體現(xiàn)評分者對評分問題的應急處理能力以及對評分任務的適應性,和評分者所具有的專業(yè)知識、評分經(jīng)驗及評分標準的熟練掌握程度。
因素六命名為“標準把握能力”:包含 18.評分時過去的某些評分經(jīng)驗可能會與評分標準的要求不符;19.感覺疲勞時我會放松對評分過程的把握;14.通常要花很多時間我才能靜下心來評分;9.我對評分標準把握得不好。評分過程中評分者對評分標準的把握尺度很重要,不能前緊后松、忽高忽低,標準的把握不能受制于先驗的評分經(jīng)驗和評分習慣。
(二)人口學特征與主觀評分一致性自身特征的關聯(lián)分析
對調(diào)查問卷數(shù)據(jù)進行探索性分析得到六因子結(jié)構(gòu)后,以六因子的因子得分數(shù)據(jù)和被調(diào)查教師的人口學特征數(shù)據(jù)為依據(jù),運用方差分析方法 (SPSS15. 0中的One-Way ANOVA)來分析人口學特征與各因素的關系,并通過平均值比較、方差檢驗和組間多重比較的方式進行分析檢定,得到的分析檢定結(jié)果如下表所示。因為在被試中研究生以上學歷占總數(shù)的 86%,其他學歷人數(shù)較少,年齡也是集中在 30到40歲,數(shù)據(jù)沒有代表性,僅分析教齡和閱卷次數(shù)與自身特征的關聯(lián)。
表1 教齡和閱卷次數(shù)對主觀評分一致性影響因素分析檢定結(jié)果(n=110)
平均值比較的結(jié)果說明不同的教齡層次和不同的閱卷次數(shù)在主觀評分一致性影響因素的六個影響維度上都存在一般性差異,但是否在顯著性差異則需要通過方差檢驗的結(jié)果來說明,由表中的 F值可知,三個不同層次的教齡組在評分經(jīng)驗維度上的差異達到了 0.05;四個不同層次的閱卷次數(shù)組在情緒穩(wěn)定維度上的差異達到了 0.05。
教齡的差異分析,在評分經(jīng)驗維度上 8年以上教齡顯著高于 2年以下教齡,其他維度沒有發(fā)現(xiàn)因教齡差異而帶來的顯著差異。不同教齡的教師僅在“評分經(jīng)驗”上差異顯著,而在其他因素上不存在顯著差異。教齡越長,評分經(jīng)驗也就積累越多。
閱卷次數(shù)的差異分析,在情緒穩(wěn)定性維度上閱卷次數(shù) 4次以上的顯著高于只參加過 1次閱卷的,其他維度沒有發(fā)現(xiàn)因閱卷次數(shù)差異而帶來的顯著差異。參加過不同閱卷次數(shù)的人員在“情緒穩(wěn)定性”上表現(xiàn)出差異顯著,可見,參加閱卷的次數(shù)越多,閱卷者的情緒越容易保持穩(wěn)定。
本文通過專家訪談方法,來搜集和整理主觀評分一致性的各影響因素,并通過編制主觀評分一致性評價者自身特征問卷來獲取主觀評分者對各影響因素的評定信息,然后對調(diào)查問卷數(shù)據(jù)進行探索性因子分析,得出主觀評分一致性影響因素的因子結(jié)構(gòu),即責任心、自信心、情緒穩(wěn)定性、評分經(jīng)驗和標準把握能力和執(zhí)裁力六個因素,六因素結(jié)構(gòu)分別從主觀評分過程和主觀評分者方面對主觀評分不一致性的產(chǎn)生進行了解釋。一般來說,評分者的責任心和自信心能夠保證評閱任務的順利完成,其情緒穩(wěn)定性則是不受外界干擾的關鍵因素,過去的經(jīng)驗對一致性影響不能忽視,它使評分者可以盡快適應評分要求,而標準把握能力則是反應評閱工作中標準的重要性,一個評分者具有良好的執(zhí)裁力才能作出客觀的評判。通過單因素方差分析得出主觀評分者的人口統(tǒng)計特征對主觀評分一致性影響因素結(jié)構(gòu)的影響,即教齡和閱卷次數(shù)分別對主觀評分一致性影響因素結(jié)構(gòu)中的自信心、評分經(jīng)驗和情緒穩(wěn)定三個維度影響顯著。
影響主觀評分一致性的評分者自身因素的驗證和應用是今后的兩個研究內(nèi)容。本文經(jīng)探索分析得到的影響因素結(jié)構(gòu)只是在初步分析調(diào)查數(shù)據(jù)的基礎上得到的,還需要在更大樣本的調(diào)查數(shù)據(jù)基礎上來進行驗證性因子分析,來驗證并修正六因子結(jié)構(gòu)模型,以得到模型結(jié)構(gòu)簡單、與大量樣本數(shù)據(jù)擬合度較好的影響因素結(jié)構(gòu)模型。主觀評分一致性的影響因素結(jié)構(gòu)在一定程度上解釋了主觀評分不一致性產(chǎn)生的根源和常見因素,希望把這一結(jié)果應用到對主觀評分信度的控制中去。比如在選擇主觀評分者時,要選拔那些責任心強、自信心高且情緒穩(wěn)定,能夠很好把握標準的人員,這樣能夠減少主觀評分的不一致性;并且優(yōu)先選擇那些具有一定專業(yè)知識背景學歷較高、教齡較長并多次參加過主觀評分閱卷的人員,以便在主觀評分者選擇階段來預先控制主觀評分不一致現(xiàn)象的產(chǎn)生。
[1]劉建立.體育競賽中主觀評分的概念、內(nèi)涵及其評判特征研究[J].體育與科學,2008(3):78-81.
[2]徐曉鋒,劉 勇.評分者內(nèi)部一致性的研究和應用[J].心理科學,2007(5):1175-1178.
[3]孫曉敏,張厚粲.表現(xiàn)性評價中評分者信度估計方法的比較研究——從相關法、百分比法到概化理論[J].心理科學,2005(3):646-649.
[4]魏高峽,李佑發(fā),孫曉敏.概化理論及其在運動成績主觀評定中的應用 [J].北京體育大學學報,2006(1):53-55.
[5]Thomas Eckes.Examining Rater Effects in TestDaF W riting and Speaking Performance Assess ments:A Many-Facet Rasch Analysis[J].Language AssessmentQuarterly,2005, 2(3):197-221.
[6]George Engelhard,Jr.Examining Rater Errors in the Assessment of W ritten Composition W ith a Many-Faceted RaschModel[J].Journal of EducationalMeasurement Summer,1994,31(2):93-112.
[7]George Engelhard,Jr.Evaluating Rater Accuracy in Perfor mance Assess ments[J].Journal of EducationalMeasurement Spring,1996,33(1):56-70.
[8]王文成.筆試主觀性試題評分誤差及其控制研究[D].華中師范大學碩士學位論文,2005.
[9]Okim Kang.Ratings of L2 Oral Performance in English: Relative I mpactof RaterCharacteristics andAcousticMeasures of Accentedness[J].Spaan Fellow Working Papers in Second or Foreign Language Assess ment,2008(6):181-205.
[10]蘇永華.現(xiàn)代人才測評理論與方法研究[D].華東師范大學博士學位論文,2000.
[11]O Loughlin.K.The I mpact of Gender in Oral Proficiency Testing[J].Language Testing,2002(2):169-192.
[12]Bachman,L.F.Some Reflection on Task-Based Language Performance Assess ment[J].Language Testing, 2006(2):452-476.
[13]Steven Barrett.The I mpact of Training on Rater Variability [J].International Education Journal,2001,2(1):49-58.
[14]Wang Haizhen.Rater Perceptions of Factors thatAffect the Rating of TEM-4 oral test[J].Celea Journal(Bimonthly) (30)2:9-15.
[15]Lawrence T.DeCarlo A Model of Rater Behavior in Essay GradingBased on Signal Detection Theory[J].Journal of EducationalMeasurement Spring,2005,42(1):53-76.
[16]孫悅博.結(jié)構(gòu)化面試中評分過程影響因素的實驗研究[D].吉林大學碩士學位論述文,2007.
[17]彭平根.評價中心的測評有效性及其影響因素的實證研究[D].華東師范大學博士學位論文,2003.
[18]周 浩,龍立榮.績效考核中寬大效應的成因及控制方法[J].心理科學進展,2005(6):806-813.
[19]王劍輝,肖 瑋,車文博.軍事飛行員職業(yè)自我效能感量表的探索性分析[J].中華航空航天醫(yī)學雜志,2005, 16(1):34-37.
[20]李永鑫,趙 娜.工作 -家庭支持的結(jié)構(gòu)與測量及其調(diào)節(jié)作用[J].心理學報,2009(9):863-874.
The Analysis of Raters’O wn Characteristics Influencing Subjective Scoring Agreement
L IBin
(Institute of Developm ental Psychology,B eijing Nor m al University,B eijing100875,China)
By surveying many raterswho attended the writing scoring in a National Examination with the questionnaire,this papermakes an analysis of raters’own characteristicswhich influence the subjective scoring agreement. Firstly,after processing the collected data with the method of exploratory factor analysis,it finds that the raters’own characteristicswhich influence subjective scoring agreement are of six-factor structure,namely,responsibility,self-confidence,stabilization of emotion,scoring experiences,and the abilities in grasping criterion and exercising scoring.Then,by the means of single factor analysis of variance this paper explores the relationship between the factor structure and demographic variable,with the result that therewere significantpositive correlations between education and self-confidence,teaching years and scoring experiences,total scoring ti mes and stabilization of emotion respectively.
subjective scoring agreement;factorial structure;exploratory factor analysis
book=75,ebook=296
G449.7
A
1000-5935(2010)03-0075-05
(責任編輯 石 濤)
2009-11-08
李 斌(1974-),男,山東章丘人,教育部基礎教育課程教材發(fā)展中心助理研究員,北京師范大學發(fā)展心理研究所在讀博士,主要從事教育評價與測量方向的研究。