通訊作者,Email:hn_syb@126.com(北方民族大學(xué)基礎(chǔ)教育學(xué)院,中國(guó) 銀川750021)
摘要如何綜合閱卷教師的獨(dú)立評(píng)分,科學(xué)合理地確定考生的成績(jī),是主觀性評(píng)價(jià)網(wǎng)上閱卷的關(guān)鍵問題之一.提出了考生獲得各個(gè)分?jǐn)?shù)值的難度系數(shù)的新概念,認(rèn)為考生試卷成績(jī)的確定不能是簡(jiǎn)單的平均值,應(yīng)該是考慮分?jǐn)?shù)值難度系數(shù)的加權(quán)平均,根據(jù)隨機(jī)獨(dú)立專家評(píng)分構(gòu)造了高考作文網(wǎng)上閱卷考生成績(jī)的統(tǒng)計(jì)量模型.該模型對(duì)于各種類型的主觀性評(píng)價(jià)網(wǎng)上閱卷的成績(jī)確定具有廣泛的應(yīng)用.
關(guān)鍵詞難度系數(shù);成績(jī)統(tǒng)計(jì)量;一致最小方差無偏估計(jì);數(shù)學(xué)模型
中圖分類號(hào)O212.2文獻(xiàn)標(biāo)識(shí)碼A文章編號(hào)10002537(2015)06006805
On the Construction of Statistical Estimation
of the Teachers Independent Score
TIAN Junzhong*
(College of General Education, Beifang University of Nationalities, Yinchuan 750021, China)
AbstractHow to calculate teachers independent score scientifically and reasonably determine the examinees score, is a key issue in the subjective evaluation of the online marking. The new concept of the difficulty coefficient that the examinee obtain each score was proposed. It is considered that the examinees score can not be a simple average, it should be the weighted average of the difficulty coefficient. Based on its randomness and independence, the statistical estimation model of the examinees score of online marking was constructed. The model has a wide practical application for all kinds of subjective evaluation of online marking.
Key wordsthe coefficient of the difficulty; statistical estimation of the score; uniformly minimum variance unbiased estimation; mathematical model
主觀性評(píng)價(jià)網(wǎng)上閱卷(如高考作文網(wǎng)上閱卷)的工作流程與計(jì)算機(jī)技術(shù)日益成熟,使用范圍不斷地?cái)U(kuò)大,目前全國(guó)各個(gè)省份都實(shí)行了網(wǎng)上閱卷[1].閱卷系統(tǒng)向閱卷教師隨時(shí)隨機(jī)分發(fā)評(píng)閱試卷,電子化的試卷完全消去了考生的個(gè)人信息.在整個(gè)評(píng)分過程中,閱卷教師在時(shí)間上和空間上是分離的,工作上都相互獨(dú)立,他們互不影響,工作流程的管理辦法保證了閱卷老師獨(dú)立自主地認(rèn)真評(píng)閱,所以任何一位評(píng)卷人員對(duì)任何一篇電子化評(píng)閱作文的評(píng)分都是相互獨(dú)立的.
由于電子試卷的隨機(jī)分發(fā),每一份試卷在整個(gè)閱卷期限內(nèi)、在任何時(shí)間上都有同等的概率分發(fā)到每位閱卷教師; 電子化的評(píng)閱作文還可以多次分發(fā),可以在同一時(shí)間發(fā)給不同教師,也可以在不同時(shí)間分發(fā)給不同的教師.不同的閱卷人員在評(píng)閱同一份電子化的評(píng)閱作文是有差異的,為了消除閱卷教師在對(duì)評(píng)分標(biāo)準(zhǔn)的理解、對(duì)敘述問題方式的喜好、評(píng)閱時(shí)的工作態(tài)度與心理傾向等方面的系統(tǒng)偏差,在組織管理中對(duì)閱卷教師進(jìn)行嚴(yán)格選拔,他們都是長(zhǎng)期從事本專業(yè)教學(xué)和研究的高級(jí)教師,多次參加此類型試題的網(wǎng)上閱卷,在評(píng)卷之前認(rèn)真組織培訓(xùn) ,充分討論評(píng)分標(biāo)準(zhǔn),模擬評(píng)卷,規(guī)范評(píng)卷行為,統(tǒng)一基調(diào),使閱卷評(píng)分更加趨同[25].
由于評(píng)閱作文是一種主觀性評(píng)價(jià),閱卷專家的評(píng)分受個(gè)人的知識(shí)業(yè)務(wù)水平、教學(xué)工作經(jīng)驗(yàn)積累、對(duì)評(píng)分標(biāo)準(zhǔn)的理解把握、對(duì)敘述問題方式的喜好、評(píng)閱時(shí)的工作態(tài)度、對(duì)題材的心理傾向以及持續(xù)工作的抗疲勞能力等等方面的影響較大,使得不同的評(píng)卷人員在經(jīng)過培訓(xùn)之后仍然對(duì)同一篇作文主觀性評(píng)價(jià)的評(píng)分往往有一定的差距[67].所以主觀性評(píng)價(jià)網(wǎng)上閱卷在數(shù)學(xué)上存在著一個(gè)關(guān)鍵性的問題:那就是如何確定一份試卷的考試成績(jī),如何綜合各位閱卷老師的獨(dú)立評(píng)分,本文以高考作文網(wǎng)上閱卷為背景,研究構(gòu)造給出主觀性評(píng)價(jià)網(wǎng)上閱卷獨(dú)立評(píng)分考生成績(jī)統(tǒng)計(jì)量的數(shù)學(xué)模型.
1問題的提出
設(shè)X=^一份電子化的評(píng)閱作文的評(píng)分.由于評(píng)閱專家是隨機(jī)抽取的,則X是隨機(jī)變量,E(X)=μ是評(píng)閱試卷水平的真值,是未知待估的.若在全體閱卷老師專家集合中隨機(jī)抽取n個(gè)專家對(duì)同一篇作文進(jìn)行網(wǎng)上獨(dú)立評(píng)分,得樣本X1,X2,…,Xn,由辛欽大數(shù)定理可知,其算術(shù)平均值=1n∑nk=1Xk以概率收斂到其真值μ上,且是μ的一致最小方差無偏估計(jì)[89],所以,只要n充分大,在大樣本下,一般取作為μ的估計(jì)量,就可以作為該試卷的成績(jī).
湖南師范大學(xué)自然科學(xué)學(xué)報(bào)第38卷第6期田俊忠:獨(dú)立評(píng)分考生成績(jī)統(tǒng)計(jì)量模型的構(gòu)造然而在實(shí)際工作中n不可能充分大,由于閱卷時(shí)間、閱卷人數(shù)和閱卷強(qiáng)度等方面的限制,一份試卷往往進(jìn)行兩評(píng)、三評(píng)(為了驗(yàn)證某些疑點(diǎn),在特殊情況下極少量的電子作文才有四評(píng)),在這種情況下如何根據(jù)一份試卷的兩評(píng)或三評(píng)的評(píng)分來確定它的考試成績(jī).十幾年來,實(shí)際工作中為了簡(jiǎn)便易行便于操作,憑經(jīng)驗(yàn)確定了一個(gè)誤差控制限A, 設(shè)X1與X2分別是隨機(jī)的兩位評(píng)卷教師對(duì)同一評(píng)閱材料的評(píng)分,若|X1-X2|≤A,則該試卷的成績(jī)?yōu)閅=X1+X22,若|X1-X2|>A,則由閱卷系統(tǒng)自動(dòng)隨機(jī)地從評(píng)卷教師專家集合中再隨機(jī)地抽取一位專家進(jìn)行獨(dú)立的評(píng)閱,設(shè)評(píng)分為X3,若|X1-X3|<A,則該試卷的成績(jī)?yōu)閅=X1+X32,若|X2-X3|<A,則該試卷的成績(jī)?yōu)閅=X2+X32.否則,由閱卷組長(zhǎng)負(fù)責(zé)另行集體討論處理.
這種確定成績(jī)的方法實(shí)際上是在評(píng)閱專家集合中隨機(jī)搜尋相近的兩位專家,取他們?cè)u(píng)分的簡(jiǎn)單平均值作為考生的成績(jī).由于試卷隨機(jī)地分發(fā),等可能地分發(fā)到每一位專家的手中,如果兩位專家的意見有較大的不一致性,那么隨機(jī)碰到的第三位專家的評(píng)分基本上左右了該試卷成績(jī)的高低.比如:為了使得三評(píng)量不要太大,取誤差控制線A等于10,如果對(duì)于一份試卷的兩評(píng)評(píng)分分別為X1=56與X2=36,那么就有|X1-X2|>A,于是隨機(jī)分發(fā)到第三位專家進(jìn)行三評(píng),當(dāng)碰到的一個(gè)專家獨(dú)立評(píng)分給出的三評(píng)評(píng)分X3=50時(shí),則該試卷的成績(jī)?yōu)閅=X1+X32=53,當(dāng)碰到的是另一個(gè)專家獨(dú)立評(píng)分給出的三評(píng)評(píng)分X3=30時(shí),則該試卷的成績(jī)?yōu)閅=X2+X32=33,所以,該份試卷的成績(jī)的高低基本上是由進(jìn)行三評(píng)時(shí)究竟遇到什么樣的專家水平來決定,這樣,不論該份試卷的水平如何,這種確定方法使得該份試卷的考生要么吃虧,要么占便宜,總之是不公平的,也是不公正的,而且隨著誤差控制線A的縮小,三評(píng)的試卷份數(shù)將會(huì)增加,這種情況形成的不公平的數(shù)量也隨著增加,擴(kuò)大了不公平的考生數(shù)量,本來縮小誤差控制線A,應(yīng)該有利于縮小不公平的數(shù)量,但適得其反,成績(jī)的這種計(jì)算方法是有問題的,更何況取算術(shù)平均作為真值的估計(jì),其基本前提是大樣本才行,因此需要深入研究網(wǎng)上閱卷成績(jī)確定這一世界性難題.
2分值的難度系數(shù)
根據(jù)兩評(píng)的成績(jī)X1與X2或三評(píng)的成績(jī)X1,X2,X3來計(jì)算考生的得分成績(jī)時(shí),考生成績(jī)Y不僅取決于評(píng)閱教師的評(píng)分Xi(i=1,2 或i=1,2,3),而且也應(yīng)該注意到這樣一個(gè)因素,由于種種原因,閱卷教師評(píng)分的趨中現(xiàn)象是個(gè)不合理的常態(tài),是難以避免的評(píng)閱現(xiàn)象[1011].越是給出很高分或者很低分,評(píng)閱教師越是很慎重,所以,考生獲得此分值的難度就越大,若要獲得較高的評(píng)分,說明考生的綜合素質(zhì)水平比較高、綜合能力比較強(qiáng),在確定考生成績(jī)時(shí)應(yīng)該加大其權(quán)重;反之,一般性的綜合素質(zhì)水平與能力,其基本要求絕大多數(shù)考生容易做到,閱卷教師給出評(píng)分很低的分值也是比較困難的,意味著考生獲得很較低的難度系數(shù)也較高.因而處在不同的分?jǐn)?shù)段則有不同的難易程度度,閱卷教師評(píng)分的分值不同,則其得分的難度程度也是不同的.
我們假定閱卷教師隊(duì)伍幾年來相對(duì)穩(wěn)定和成熟,這可以通過組織領(lǐng)導(dǎo)、組織管理與工作總結(jié)討論學(xué)習(xí)在實(shí)際工作中能夠?qū)崿F(xiàn),那么,可以通過幾年的數(shù)據(jù)來測(cè)定各個(gè)分值的難度程度.
設(shè)f(x)是分值x的考生人數(shù)占全部考生人數(shù)的比重,由于說明高考作文試卷設(shè)定的滿分為60.則 0≤x≤60,實(shí)際上,f(x) 是分值x的統(tǒng)計(jì)頻率.如果設(shè)考生總數(shù)為N,即評(píng)閱試卷的總份數(shù)為N,那么分值為x的考生人數(shù)為Nf(x) .
定義1對(duì)于任意的分值x, 0≤x≤60,則稱
F(x)=11+f(x) (1)
為分值x的難度系數(shù), 其中,f(x)=分值x的考生人數(shù)N .
從中可以看出,考生獲得分值x的難度系數(shù)與分值為x的考生人數(shù)所占總?cè)藬?shù)的比例成反比,那個(gè)分值上的試卷份數(shù)最多,或考生人數(shù)最多,則該分值的難度系數(shù)最小.從統(tǒng)計(jì)的意義上看,一般來說,考生獲得高分的難度較大,獲得低分的難度也較大,同時(shí),在長(zhǎng)期的閱卷工作實(shí)踐中,從閱卷的主觀性評(píng)價(jià)上看,閱卷教師給出高分的難度較大,給出低分的難度也較大,如果一個(gè)閱卷教師確實(shí)給出了高分或低分,它是經(jīng)過斟酌評(píng)分標(biāo)準(zhǔn)尺度與作文內(nèi)涵水平,慎重評(píng)閱給出的,其評(píng)分更加接近于該作文的實(shí)際水平.顯然,難度系數(shù)F(x)是有界的,且0<F(x)<1 ,它反映了一個(gè)考生獲得閱卷教師評(píng)分分值x的難易程度, F(x)越大,說明獲得分值x的難度較大,反之亦然.
3考生成績(jī)統(tǒng)計(jì)量模型的構(gòu)造
由于閱卷教師精心挑選、長(zhǎng)期實(shí)踐培養(yǎng)、嚴(yán)格培訓(xùn)與不斷總結(jié)經(jīng)驗(yàn),每一位閱卷教師都能把握標(biāo)準(zhǔn),能夠做出準(zhǔn)確判斷,同時(shí)在評(píng)分時(shí)互不影響,相互獨(dú)立,所以每一位閱卷教師的評(píng)分都反映了考生的某些信息,無論是兩評(píng)還是三評(píng),考生的成績(jī)不應(yīng)該是簡(jiǎn)單的算術(shù)平均,應(yīng)該更為全面,取它們的加權(quán)平均比較合理.權(quán)重以獲得該分值的難度系數(shù)為依據(jù),來進(jìn)行考生成績(jī)統(tǒng)計(jì)量的構(gòu)造.
設(shè)X1,X2,X3是隨機(jī)抽取的三位閱卷教師的網(wǎng)上閱卷的評(píng)分,X1,X2,X3是獨(dú)立同分布的隨機(jī)變量,且都服從正態(tài)分布[12],考慮構(gòu)成考生成績(jī)的數(shù)學(xué)結(jié)構(gòu)是線性的.設(shè)βi(i=1,2,3) 為Xi的系數(shù),于是確定考生成績(jī)的數(shù)學(xué)結(jié)構(gòu)為
Y=β1X1+β2X2+β3X3, (2)
其中,β1+β2+β3=1.
考慮系數(shù)大小βi(i=1,2,3) 只與它們各自的難度系數(shù)F(Xi)有關(guān),
若Xi的難度系數(shù)F(Xi)越大,則βi應(yīng)該越大,即Xi對(duì)于考生成績(jī)Y的貢獻(xiàn)較大,反之亦然.于是令 βi=kF(Xi),且 β1+β2+β3=1,
于是得: k=1F(X1)+F(X2)+F(X3) ,
那么,考生成績(jī)的表達(dá)式結(jié)構(gòu)為
Y=F(X1)F(X1)+F(X2)+F(X3)X1+F(X2)F(X1)+F(X2)+F(X3)X2+F(X3)F(X1)+F(X2)+F(X3)X3.(3)
由于X1,X2,X3是隨機(jī)變量,是閱卷教師評(píng)分X(它是一個(gè)正態(tài)總體)的一個(gè)樣本,Y是樣本X1,X2,X3的一個(gè)函數(shù),不含有任何未知參數(shù),所以Y是一個(gè)統(tǒng)計(jì)量,它是考生成績(jī)的一個(gè)估計(jì)量.
如果 |X1-X2|≤A,則沒有三評(píng)評(píng)分,即X3與F(X3)都不存在,
所以兩評(píng)條件下考生成績(jī)統(tǒng)計(jì)量為
Y=F(X1)F(X1)+F(X2)X1+F(X2)F(X1)+F(X2)X2. (4)
4模型的應(yīng)用
根據(jù)難度系數(shù)式(2),利用2002年寧夏高考作文網(wǎng)上閱卷數(shù)據(jù),經(jīng)計(jì)算得到不同分值x的難度系數(shù)F(x)的值,
表12002年寧夏高考作文網(wǎng)上閱卷分值的難度系數(shù)
Tab.1The difficulty cofficient of Ningxia 2002 college entrance composition examinees score of online marking
分值頻數(shù)難度系數(shù)分值頻數(shù)難度系數(shù)分值頻數(shù)難度系數(shù)5640.999 748 311580.999 377 47105500.960 044 11660.999 740 321810.999 286 48118150.955 467 16680.999 732 332230.999 121 49129610.951 357 18690.999 728 342940.998 842 50139090.947 984 19720.999 716 354020.998 417 51146550.945 347 20780.999 692 365880.997 686 52151970.943 440 21790.999 688 378450.996 678 53156500.941 852 22800.999 685 3812060.995 265 54158870.941 023 23830.999 673 3917080.993 307 55161070.940 255 24850.999 665 4023310.990 888 56162300.939 827 25870.999 657 4131550.987 707 57162790.939 656 26950.999 625 4241170.984 018 58163410.939 440 27990.999 610 4351940.979 922 59163720.939 332 281060.999 582 4464040.975 359 60163840.939 290 291160.999 543 4577800.970 222 合計(jì)253 491301330.999 476 4691880.965 022 由于相鄰兩年全省的高考分?jǐn)?shù)值的難度系數(shù)變化很小,我們以上年的難度系數(shù)作為當(dāng)年的難度系數(shù),比較合理的難度系數(shù)應(yīng)該取近三年全省難度系數(shù)的平均值作為當(dāng)年的難度系數(shù).根據(jù)成績(jī)確定的數(shù)學(xué)模型(3)和(4),由招辦隨機(jī)抽取2003年寧夏高考作文網(wǎng)上閱卷的16份樣本試卷,分別計(jì)算兩評(píng)與三評(píng)時(shí)考生成績(jī)的模擬值,并與歷史成績(jī)進(jìn)行對(duì)比,分析說明其數(shù)學(xué)模型的合理性.
隨機(jī)抽取16份樣本試卷,兩評(píng)與三評(píng)樣本試卷各8份,將根據(jù)(3)和(4)來計(jì)算其模擬成績(jī),并與歷史成績(jī)進(jìn)行對(duì)比,其結(jié)果由表2和表3給出.
表2兩評(píng)時(shí)考生成績(jī)的模擬值與歷史成績(jī)對(duì)比
Tab.2Contrast between the simulation value and the historical result of the composition examinees scores under two evaluation
一評(píng)成績(jī)難度系數(shù)兩評(píng)成績(jī)難度系數(shù)模擬成績(jī)歷史成績(jī)對(duì)比差值460.965 022450.970 22245 46 1480.955 467530.941 85250 51 1300.999 476360.997 68633 33 0460.965 022430.979 92244 45 1560.939 827480.955 46752 52 0300.999 476400.990 88835 35 0430.979 922470.960 04445 45 0540.941 023490.951 35751 52 1
表3三評(píng)時(shí)登錄成績(jī)的模擬值與歷史成績(jī)對(duì)比值
Tab.3Contrast between the simulation value and the historical result of the composition examinees scores under three evaluation
一評(píng)成績(jī)難度系數(shù)兩評(píng)成績(jī)難度系數(shù)三評(píng)成績(jī)難度系數(shù)模擬成績(jī)歷史成績(jī)對(duì)比差值350.998 417530.941 852430.979 92243 39 4 500.947 984380.995 265490.951 35746 50 4 520.943 440360.997 686480.955 46745 50 5 360.997 686490.951 357420.984 01842 39 3 440.975 359550.940 255400.990 88846 42 4 530.941 852360.997 686550.940 25548 54 6 520.943 440400.990 888400.990 88844 40 4 540.941 023400.990 888370.996 67843 39 5 當(dāng)時(shí)根據(jù)經(jīng)驗(yàn)判斷,評(píng)分誤差控制限A取為10分,當(dāng) |X1-X2|<A時(shí),不再進(jìn)行三評(píng),兩評(píng)樣本試卷的歷史成績(jī)是憑經(jīng)驗(yàn)使用簡(jiǎn)單平均公式Y(jié)=X1+X22來計(jì)算的.從表2、表3中可以看出:二評(píng)時(shí),考生成績(jī)的模擬值與歷史成績(jī)相比,當(dāng)|X1-X2|越小,則模擬值與歷史成績(jī)?cè)浇咏?,或者相?在這種情況下,考慮或者不考慮這兩個(gè)評(píng)分的難度系數(shù)F(X1)與F(X2),對(duì)考生成績(jī)影響不大,即:根據(jù)公式(3)及其推論(4)計(jì)算模擬值與歷史成績(jī)值相比較,是基本一致的,這說明了公式(3)與(4)的合理性.三評(píng)時(shí),樣本試卷的模擬成績(jī)與歷史成績(jī)相比較,暴露了經(jīng)驗(yàn)做法的不合理性.歷史成績(jī)的計(jì)算是招辦憑經(jīng)驗(yàn)給出,由于 |X1-X2|≥A,若|X1-X3|≤|X2-X3|成立,則使用簡(jiǎn)單平均公式Y(jié)=X1+X32來計(jì)算.反之,則使用簡(jiǎn)單平均公式Y(jié)=X2+X32來計(jì)算,可以看出上述計(jì)算公式不妥,尤其是X1,X2,X3當(dāng)中有一個(gè)大于50,更為不妥,在大量的閱卷工作中,由主觀經(jīng)驗(yàn)給出的考生成績(jī)計(jì)算公式所產(chǎn)生比較廣泛的不公平性沒有被發(fā)現(xiàn),建議主觀性評(píng)閱網(wǎng)上閱卷成績(jī)的計(jì)算公式應(yīng)采用(3)給出的計(jì)算公式,使考生的成績(jī)更加合理化.
參考文獻(xiàn):
[1]羅友花,劉鐵明.網(wǎng)上閱卷研究述評(píng)[J].中國(guó)考試,2009(11):3437.
[2]賈志先.基于譜聚類的網(wǎng)上閱卷質(zhì)量控制研究[J].智能計(jì)算機(jī)與應(yīng)用, 2014,4(5):7679.
[3]曹建莉,張強(qiáng).評(píng)卷質(zhì)量監(jiān)控模型及其統(tǒng)計(jì)分析[J].統(tǒng)計(jì)與決策, 2012,18(1):2931.
[4]肖廣. 大規(guī)模教育考試中網(wǎng)上閱卷的實(shí)施與思考[J].考試研究, 2009,9(1):4850.
[5]葛麗萍,李傳智. 基于Web的網(wǎng)上閱卷系統(tǒng)的研究[J].科技信息, 2007,11(2):126127.
[6]劉素梅. 俄語測(cè)試網(wǎng)上閱卷系統(tǒng)與主觀題的誤差控制[J].中國(guó)俄語教學(xué), 2007,26(2):5356.
[7]仲軼宏. 基于B/S模式的網(wǎng)絡(luò)閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2013.
[8]陳希孺.高等數(shù)理統(tǒng)計(jì)學(xué)[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社, 1999.
[9]LEHMANN E L, ROMANO J P. Testing statistical hypotheses (third edition)[M]. New York: Springer, 2005.
[10]彭恒利,俞韞燁.主觀性試題網(wǎng)上評(píng)閱趨中評(píng)分控制研究初探[J].中國(guó)考試.測(cè)量與評(píng)價(jià), 2013,(6):39.
[11]王海. 基于Web Services 的網(wǎng)上閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].上海:華東師范大學(xué), 2006.
[12]田俊忠.高考作文網(wǎng)上閱卷區(qū)分度的數(shù)學(xué)模型[J].工程數(shù)學(xué)學(xué)報(bào), 2005,22(8):4952.