鐘紹軍 ,徐春艷,胡紅群
(咸寧學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 咸寧 437100)
基于區(qū)組設(shè)計(jì)的建模評分方式研究
鐘紹軍 ,徐春艷,胡紅群
(咸寧學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 咸寧 437100)
數(shù)學(xué)建模競賽試卷的評分方式的合理性與公正性一直是大家關(guān)注的焦點(diǎn). 傳統(tǒng)的評分方式的最大弊端在于閱卷老師的差異會(huì)對試卷的最終得分有一定的影響. 根據(jù)區(qū)組設(shè)計(jì)的思想,對每位閱卷教師的差異性進(jìn)行提取,并應(yīng)用方差分析法進(jìn)行假設(shè)檢驗(yàn). 若不同閱卷老師的評分沒有顯著性差異,就可以用傳統(tǒng)的算術(shù)平均法計(jì)算得分;否則,就應(yīng)該對學(xué)生的試卷得分進(jìn)行調(diào)整,以消除不同閱卷老師評分的差異性,從而保證公平.
數(shù)學(xué)建模競賽;評分方式;區(qū)組設(shè)計(jì);方差分析法
按照公平性的原則,對與數(shù)學(xué)建模競賽、高考等大型考試的閱卷,都采用多人共同閱卷的方式進(jìn)行. 對與主觀題的評閱,不同的閱卷老師間就有很多的個(gè)體差異. 數(shù)學(xué)建模競賽論文的現(xiàn)行閱卷方式是:每份試卷隨機(jī)的由若干位老師獨(dú)立進(jìn)行評分,對給定的分?jǐn)?shù)進(jìn)行簡單算術(shù)平均就得到論文的最終成績. 不同試卷的閱卷老師組合不盡相同,簡單平均法難以消除不同老師之間的閱卷傾向和差異. 要找到一個(gè)公平合理的評分方式實(shí)屬不易. 在這方面,有一些學(xué)者也進(jìn)行過研究[1]. 雖然這些辦法都在一定程度上消除了部分差異性,但還不夠徹底. 本文針對這一問題,引入?yún)^(qū)組設(shè)計(jì)的思想,將試卷看做區(qū)組,閱卷老師看做若干處理.研究不同處理間是否有顯著性差異. 如果有顯著性差異,就必須對所得分?jǐn)?shù)進(jìn)行適當(dāng)調(diào)整,消除這種差異;若沒有顯著性差異,表明各閱卷老師的評分時(shí)客觀公正的,可以按照傳統(tǒng)的方式進(jìn)行簡單平均.
區(qū)組設(shè)計(jì)的主要作用是研究因子的不同水平間是否有顯著差別[2-3]. 假設(shè)現(xiàn)在有b份試卷需要批閱,共有v位閱卷老師,每份試卷由k位不同的老師來評閱. 現(xiàn)在我們把閱卷老師看作處理,試卷看做區(qū)組,k即為每個(gè)區(qū)組包含的不同處理數(shù)即區(qū)組容量(即為份試卷的批閱次數(shù)). 設(shè)每個(gè)處理分別在ri(i=1,2,…,v)個(gè)不同區(qū)組中出現(xiàn),即為第i位閱卷老師的總閱卷份數(shù). 那么總試驗(yàn)次數(shù)可表示為
表示關(guān)聯(lián)矩陣
根據(jù)區(qū)組設(shè)計(jì)的思想,建立建模評分方式的統(tǒng)計(jì)模型如下:
其中:ijy表示第i位閱卷老師給第j份試卷的評閱分?jǐn)?shù);μ為一般平均;ia為第i位老師的效應(yīng),且滿足總效應(yīng)之和為零,即為第j個(gè)區(qū)組的效應(yīng),且滿足總效應(yīng)之和為零,即是隨機(jī)誤差,其獨(dú)立且服從N(0,2σ).
下面應(yīng)用最小二乘法對參數(shù)進(jìn)行估計(jì). 可建立目標(biāo)函數(shù)為
令該函數(shù)分別對μ,ia,jb求偏導(dǎo)并令其為零,得到正規(guī)方程組,經(jīng)化簡得
j
以上我們通過建立基于區(qū)組設(shè)計(jì)的統(tǒng)計(jì)分析模型,運(yùn)用最小二乘法,得出了所有參數(shù)的最小二乘估計(jì)量. 其中a?i(i=1,2,,v )表示第i位閱卷老師的評閱分?jǐn)?shù)相對于一般平均的偏差,bj(j=1,2,,b)表示第j份試卷的得分相對于一般平均的偏差. 我們需要知道,不同閱卷老師的差異是否是統(tǒng)計(jì)顯著的,為此可以進(jìn)行假設(shè)檢驗(yàn).
要檢驗(yàn)的假設(shè)是v位閱卷老師的效應(yīng)是否全為零,即根據(jù)給定的評卷樣本數(shù)據(jù),可以通過方差分析,建立F檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn)[4]. 若不能拒絕原假設(shè),即不同閱卷老師的差異不顯著,那么傳統(tǒng)的評分方式就是合理的;若不然,就說明閱卷老師的差異對試卷得分的影響不能忽略,那么設(shè)計(jì)出較為合理的評分方式就顯得十分必要.
我們還可以進(jìn)一步考察v位閱卷老師的效應(yīng)中兩兩之間的差異性是否顯著. 可選用LSD法進(jìn)行多重比較,由SPSS軟件可直接計(jì)算結(jié)果. 這樣我們就可以把閱卷老師進(jìn)行分組,各組內(nèi)沒有顯著性差異,而組間有顯著性差異. 有了這樣的結(jié)果之后,我們就可以對閱卷之前的安排進(jìn)行優(yōu)化.
以上我們看到,如果不同處理(閱卷老師)之間確實(shí)有顯著性差異,就必須對每位老師的閱卷分?jǐn)?shù)進(jìn)行調(diào)整,以消除這種差異性. 對試卷進(jìn)行合理的評分,可以有兩種不同的辦法:
方法一 按照每位閱卷老師的效應(yīng),對其所批閱的試卷得分進(jìn)行修正. 第i位閱卷老師給第j份試卷的評閱分?jǐn)?shù)修正為:即用原始分?jǐn)?shù)減去對應(yīng)閱卷老師的效應(yīng),所得分?jǐn)?shù)已經(jīng)不含該閱卷老師的差異. 下一步就可以采用原來組委會(huì)設(shè)定的方法重新計(jì)算每份試卷的最后得分,即去掉一個(gè)最高分和一個(gè)最低分后取平均值.
方法二 模型(1)中的μ代表一般平均,即為所有試卷的總平均值;表示第j份試卷的得分相對于一般平均的偏差. 既然兩個(gè)參數(shù)都已通過模型計(jì)算出估計(jì)值. 那么第j份試卷的最終得分就可以表示為可以證明,如果隨機(jī)誤差服從正態(tài)分布,那么該得分就是試卷真實(shí)分?jǐn)?shù)的無偏估計(jì).
以重慶通信學(xué)院2005年的數(shù)學(xué)建模題[5]為例來進(jìn)行實(shí)證分析. 建立MATLAB程序,計(jì)算得到一般平均?μ=62.6107,各處理的效應(yīng)值見表1所示.
表1 各閱卷老師的評分效應(yīng)
從上表可以看出,不同閱卷老師之間的評分存在一定的偏差,下面進(jìn)行顯著性檢驗(yàn). 通過SPSS軟件計(jì)算,我們可以得出結(jié)果見下:
表2 各處理間顯著性的方差分析表
從表中可以看出,處理因子的顯著性Sig值非常小,故處理因子是顯著的. 這說明,不同閱卷老師對試卷得分的影響有顯著性差異. 下面就可以按照前面的方法計(jì)算每份試卷的最終得分,這樣就可以消除不同閱卷老師的差異,減少不公平因素.
本文通過建立區(qū)組設(shè)計(jì)模型計(jì)算并檢驗(yàn)了不同閱卷老師的差異性,并對試卷總分的計(jì)算進(jìn)行了調(diào)整,使得評分方式更加公正合理. 這種分析方法還可適用于其它主觀題的評閱過程. 另外,本文研究的區(qū)組容量不同,模型并不是平衡的,這對評分的公正性和合理性也有一定的影響,這部分可以建立部分平衡不完全區(qū)組設(shè)計(jì)[6-7]的方法對閱卷過程進(jìn)行優(yōu)化. 由于篇幅限制,本文從略.
[1] 徐春艷. 公正合理的評分方式[J]. 長春師范學(xué)院學(xué)報(bào):自然科學(xué)版, 2005, 24(5): 145 -147.
[2] 李大潛. 中國大學(xué)生數(shù)學(xué)建模競賽[M]. 北京: 高等教育出版社, 1998.
[3] 茆詩松, 周紀(jì)薌. 概率論與數(shù)理統(tǒng)計(jì)[M]. 北京: 中國統(tǒng)計(jì)出版社, 2007.
[4] 茆詩松, 周紀(jì)薌. 試驗(yàn)設(shè)計(jì)[M]. 北京: 中國統(tǒng)計(jì)出版社, 2004: 69-77, 394.
[5] 馬育華. 試驗(yàn)統(tǒng)計(jì)[M]. 北京: 農(nóng)業(yè)出版社,1982.
[6] 吉慶兵. 一類部分均衡不完全區(qū)組設(shè)計(jì)的構(gòu)造[J]. 重慶師范學(xué)院學(xué)報(bào): 自然科學(xué)版, 2001, 18(3): 65-67.
[7] 牛玉剛. 混合區(qū)組試驗(yàn)的設(shè)計(jì)與分析[J]. 概率論與數(shù)理統(tǒng)計(jì),1994(2):19-23.
Pattern of M odeling Grade Based on Block Design
ZHONG Shao-jun, XU Chun-yan, HU Hong-qun
(School of Mathematics and Statistics, Xianning University, Xianning 437100, China)
The rationality and impartiality of graded mode for many examinations, such as mathematical modeling contest and college entrance exam, has been the focus of attention. The biggest malpractice of traditional grade modes is that the paper scores are always affected by different teachers. Based on the block design method, the paper extracted the differences between teachers and made hypothesis testing. If the teacher's score is no different grading significant difference, you can use the traditional method to calculate the arithmetic mean score; otherw ise, the students’ scores should be adjusted to eliminate differences in scores of different
grading of teachers to ensure fairness.
Mathematical modeling contest; Scoring methods; Block design; Analysis of variance
O212.6
A
1009-2854(2010)11-0020-04
(責(zé)任編輯:饒 超)
2010-11-20
咸寧學(xué)院青年科研基金項(xiàng)目(KY0868)
鐘紹軍(1980- ), 男, 湖北老河口人, 咸寧學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院講師.