段旭良,王曼韜,穆 炯,周 蓓
(四川農(nóng)業(yè)大學(xué) 信息工程學(xué)院,四川 雅安 625014)
等級(jí)分制度在學(xué)生自助評(píng)價(jià)中的應(yīng)用研究*
段旭良,王曼韜,穆 炯,周 蓓
(四川農(nóng)業(yè)大學(xué) 信息工程學(xué)院,四川 雅安 625014)
等級(jí)分制度是一種廣泛應(yīng)用于對(duì)弈比賽中評(píng)價(jià)選手能力的一種方法。本文在闡述了等級(jí)分評(píng)價(jià)機(jī)制的基本原理與常用算法的基礎(chǔ)上,將基于貝葉斯推斷的Glicko算法應(yīng)用于實(shí)踐性課程的學(xué)生自助評(píng)價(jià)中,把成績(jī)?cè)u(píng)價(jià)的主體由教師單一個(gè)體轉(zhuǎn)移到上課學(xué)生群體,具有開放、透明、多元、客觀等特點(diǎn)。自助評(píng)價(jià)系統(tǒng)是學(xué)生進(jìn)一步交流、借鑒和學(xué)習(xí)的平臺(tái),實(shí)際應(yīng)用和實(shí)施中,學(xué)生參與度高,積極性大,態(tài)度認(rèn)真;教學(xué)反饋及對(duì)評(píng)價(jià)結(jié)果分析表明,學(xué)生自助評(píng)價(jià)結(jié)果客觀有效,有效地促進(jìn)了教學(xué)質(zhì)量的提高。
等級(jí)分;Glicko;教學(xué);自助評(píng)價(jià)
等級(jí)分制度是一種基于概率與統(tǒng)計(jì)的衡量對(duì)弈競(jìng)爭(zhēng)中選手能力水平的評(píng)價(jià)方法,廣泛應(yīng)用于國(guó)際象棋、圍棋、中國(guó)象棋、足球、籃球等運(yùn)動(dòng)中。等級(jí)分制度評(píng)價(jià)的基本原理是根據(jù)對(duì)弈選手的等級(jí)分(Rating),分別計(jì)算每人的期望獲勝概率,根據(jù)期望概率與實(shí)際的一局或一輪比賽的結(jié)果(勝、負(fù)、平局),對(duì)參賽選手的等級(jí)分進(jìn)行調(diào)整。一般而言,某選手的期望勝率越大,獲勝后的等級(jí)分增量值越小,而對(duì)弈失敗,等級(jí)分會(huì)有較大幅度的縮減;反之,若選手勝率很小,對(duì)弈失敗影響不大,一旦勝利,等級(jí)分會(huì)有較大的增值。
在實(shí)踐性較強(qiáng)的課程教學(xué)中,學(xué)生成績(jī)的評(píng)定一般由教師根據(jù)作業(yè)或課程設(shè)計(jì)進(jìn)行主觀評(píng)價(jià),由于個(gè)人知識(shí)與時(shí)間的限制,難以做到完全客觀,且工作量較大;另一方面,傳統(tǒng)評(píng)價(jià)過程對(duì)學(xué)生幾乎是不透明的,由于缺乏交流與交互,學(xué)生得高分的期望動(dòng)力不足,過關(guān)心態(tài)泛濫,作業(yè)或設(shè)計(jì)的對(duì)學(xué)習(xí)的促進(jìn)效果也在一定程度上打了折扣。
為了改善教學(xué)的評(píng)價(jià)效果,廣大一線教師和科研學(xué)者在學(xué)生課程評(píng)價(jià)理論、方法、指標(biāo)體系、系統(tǒng)建設(shè)等方面做了大量有意義的探索,如對(duì)于網(wǎng)絡(luò)環(huán)境下同伴匿名評(píng)價(jià)的理論和方法的實(shí)證研究、基于發(fā)展性評(píng)價(jià)理念的網(wǎng)絡(luò)學(xué)習(xí)評(píng)價(jià)系統(tǒng)的設(shè)計(jì),對(duì)評(píng)定方法、效果、評(píng)定模型等進(jìn)行了研究[1-2];部分計(jì)算機(jī)課程中采用基于ACM(ACM國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽)的競(jìng)賽模式,對(duì)學(xué)生實(shí)驗(yàn)、作業(yè)進(jìn)行全自動(dòng)評(píng)價(jià),取得了較好的實(shí)踐效果[3-4]。
本文介紹了基于Glicko-2等級(jí)分評(píng)價(jià)算法在學(xué)生成績(jī)自助評(píng)價(jià)中的應(yīng)用,將等級(jí)分評(píng)價(jià)機(jī)制與學(xué)生成績(jī)自助評(píng)價(jià)結(jié)合起來,基于一對(duì)一比較,計(jì)算學(xué)生作業(yè),設(shè)計(jì)等級(jí)分,最后根據(jù)等級(jí)分折算成績(jī),評(píng)價(jià)過程完全透明。自助評(píng)價(jià)系統(tǒng)測(cè)試及在《網(wǎng)站建設(shè)與管理》課程作業(yè)設(shè)計(jì)的應(yīng)用實(shí)踐表明,自助評(píng)價(jià)結(jié)果合理可靠,學(xué)生參與性高,積極性大,取得了很好的效果。
1.Elo與國(guó)際象棋的等級(jí)分制度
20世紀(jì)50年代,匈牙利裔美國(guó)物理學(xué)家、美國(guó)國(guó)際象棋協(xié)會(huì)(USCF)大師級(jí)棋手Arpad Elo基于統(tǒng)計(jì)理論對(duì)當(dāng)時(shí)的等級(jí)分評(píng)價(jià)系統(tǒng)進(jìn)行改進(jìn),提出“Elo Ranking System”的等級(jí)分評(píng)價(jià)機(jī)制。1960年,美國(guó)國(guó)際象棋協(xié)會(huì)采用Elo Rating System作為其評(píng)分系統(tǒng),1970年被國(guó)際棋聯(lián)(FIDE)正式采用,此后,以Elo系統(tǒng)為基礎(chǔ)的評(píng)價(jià)方法逐漸成為對(duì)弈水平評(píng)估的公認(rèn)的權(quán)威方法。[5-9]
Elo模型最早使用正態(tài)分布,但是實(shí)踐顯示棋手的表現(xiàn)并非呈正態(tài)分布,現(xiàn)在的等級(jí)分計(jì)分系統(tǒng)通常使用的是對(duì)數(shù)分布。Elo的等級(jí)分更新機(jī)制非常簡(jiǎn)單,基本原理為根據(jù)勝率與一局比賽結(jié)果更新等級(jí)分。假設(shè)對(duì)手A、B當(dāng)前等級(jí)分為RA、RB,則基于對(duì)數(shù)分布的A對(duì)B和B對(duì)A的期望勝率值EA、EB分別為[8]:
比賽完成后,根據(jù)選手在比賽中的得分SA(勝=1分,平=0.5分,負(fù)=0分)和期望勝率E更新等級(jí)分:
其中R’A為選手A新的等級(jí)分;K為參數(shù),K越大,每次比賽完成等級(jí)分改變幅度越大。K一般根據(jù)選手等級(jí)分或參賽次數(shù)作相應(yīng)調(diào)整,分?jǐn)?shù)越高、參賽次數(shù)越多說明選手的能力越穩(wěn)定,對(duì)應(yīng)的K越小。例如在互聯(lián)網(wǎng)國(guó)際象棋俱樂部(ICC)的規(guī)則中,根據(jù)選手等級(jí)分決定K值大?。?/p>
2.Glicko與微軟TrueSkillTM、TopCoder評(píng)級(jí)算法
等級(jí)分評(píng)價(jià)系統(tǒng)歷史上另一個(gè)具有里程碑意義的是1993年哈佛大學(xué)統(tǒng)計(jì)系博士Mark E.Glickman在其博士論文中提出的一種基于貝葉斯推斷的“Glicko Rating System”[10]。當(dāng)前,USCF、FIDE、Chess.com都采用Glicko或者其改進(jìn)算法作為等級(jí)分評(píng)價(jià)系統(tǒng)。[11]
Glicko評(píng)價(jià)系統(tǒng)算法相對(duì)于Elo改進(jìn)之處首先是等級(jí)分的更新不一定每次比賽后都要進(jìn)行更新,而可以是某一階段一系列比賽完成之后根據(jù)選手的綜合表現(xiàn)更新等級(jí)分;其次,在計(jì)算等級(jí)分的同時(shí)計(jì)算評(píng)級(jí)偏差(Rating Deviation),用以更精確的說明選手的實(shí)際水平在等級(jí)分前后某一范圍之內(nèi);在之后的改進(jìn)版Glicko-2評(píng)價(jià)系統(tǒng)中,又引入了評(píng)級(jí)波動(dòng)(Rating Volatility)值的計(jì)算,用以說明選手表現(xiàn)的穩(wěn)定程度。[12]
近年來,Glicko系統(tǒng)除了在一對(duì)一比較(Paired Comparison)模型中得到廣泛應(yīng)用之外,還被眾多學(xué)者以其為基礎(chǔ)研究改進(jìn)用于處理多人、多組競(jìng)賽的等級(jí)分評(píng)價(jià)模型,典型的有微軟研究院開發(fā)的用于Xbox 360多人游戲、對(duì)手自動(dòng)匹配模型的基于貝葉斯推斷的TrueSkillTM算法。還有專門組織計(jì)算機(jī)程序設(shè)計(jì)競(jìng)賽的公司TopCoder采用的多人競(jìng)爭(zhēng)評(píng)級(jí)的TopCode’s Rating Algorithm。[13-18]
1.Glicko等級(jí)分評(píng)價(jià)系統(tǒng)基本原理
Glicko和Glicko-2都是Mark Glickman博士在Elo系統(tǒng)基礎(chǔ)上進(jìn)行改進(jìn),提出的用于對(duì)弈比賽選手等級(jí)分評(píng)定的算法。在Glicko算法中,引入RD(Ratings Deviation,評(píng)分誤差)作為衡量評(píng)級(jí)可靠性和精確性的一個(gè)指標(biāo)。例如,某選手等級(jí)分Rating=1600,RD=50,那么該選手真實(shí)能力95%的等級(jí)分置信區(qū)間為 [Rating-2RD,Rating+ 2RD],即我們有至少95%的把握說明該選手的真實(shí)能力處在[1500,1700]這個(gè)區(qū)間中。[10、12、16-17]
其中RDold為比賽選手最近一次比賽后的RD值,t為最后一次比賽距離現(xiàn)在的間隔周期,如當(dāng)前正進(jìn)行第5輪比賽,選手上一次參加比賽是在第2輪,則t=3,由此參數(shù)值的設(shè)定可以發(fā)現(xiàn),選手間隔一段時(shí)間未參加比賽,則其評(píng)價(jià)的不確定性RD會(huì)隨著時(shí)間推移而逐漸增大。式中c為常數(shù),其大小決定RD值隨時(shí)間變化增大的程度。
(2)計(jì)算并更新等級(jí)分
假設(shè)選手當(dāng)前的等級(jí)分值為r,評(píng)級(jí)偏差為RD,這輪比賽有m個(gè)對(duì)手,等級(jí)分分別為r1,r2,…,rm,偏差分別為RD1,RD2,…,RDm,當(dāng)前選手的每次比賽得分分別為s1,s2,…,sm,其中si值為1(勝)、0(負(fù))、0.5(平)。按如下公式計(jì)算本輪比賽結(jié)束后選手的Rating和RD值:
Glicko系統(tǒng)推薦選手每參加5-10場(chǎng)比賽 (一輪比賽,一個(gè)評(píng)分周期)更新一次等級(jí)分值,等級(jí)分的更新,主要有兩步,確定RD值,計(jì)算并更新等級(jí)分。主要計(jì)算過程及說明如下:[12]
(1)確定參賽選手的本局比賽的RD值
2.Glicko-2等級(jí)分評(píng)價(jià)算法
Glicko-2算法在Glicko基礎(chǔ)上,進(jìn)一步引入了評(píng)級(jí)波動(dòng)參數(shù)σ(Rating Volatility)變量,表示選手期望評(píng)級(jí)的波動(dòng)情況,選手表現(xiàn)不穩(wěn)定時(shí)σ較大,反之,值很小。與Glicko類似,每位選手具有r、RD以及σ三個(gè)屬性,每周期(推薦至少10-15輪比賽)比賽結(jié)束后更新這三個(gè)值。需要注意的是,運(yùn)算中r、RD需進(jìn)行折算成Glicko-2過程變量,計(jì)算完成后再將結(jié)果折算為與Glicko相當(dāng)?shù)膔、RD值。[17]
1.等級(jí)分制度在教學(xué)自助評(píng)價(jià)中的應(yīng)用
在教學(xué)過程中,尤其是實(shí)踐性較強(qiáng)的課程考核與評(píng)價(jià)中,成績(jī)和作業(yè)的評(píng)定是一個(gè)既要耗費(fèi)大量時(shí)間、精力,又難以做到完全客觀、透明的過程。筆者曾嘗試在課程實(shí)踐和設(shè)計(jì)中引入問卷調(diào)查的投票方法進(jìn)行評(píng)價(jià),但是實(shí)際投票過程非常難以控制,很難要求學(xué)生瀏覽完所有設(shè)計(jì)后做出客觀選擇,并且,盡管采用了眾多技術(shù)手段限制投票,但拉票等現(xiàn)象仍難以禁絕,評(píng)價(jià)結(jié)果可靠性不高。
應(yīng)用兩兩比較的Glicko等級(jí)分評(píng)價(jià)機(jī)制,基于Web通過對(duì)隨機(jī)出現(xiàn)的兩件作業(yè)作品進(jìn)行評(píng)價(jià),其優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:
(1)評(píng)價(jià)趣味性高且非常容易做出選擇。每次瀏覽和比較的僅有兩件作品,做出“哪個(gè)更好些”的選擇非常容易,極大地簡(jiǎn)化了評(píng)價(jià)難度;
(2)提高了評(píng)價(jià)的客觀性。同時(shí),由于對(duì)弈作品完全隨機(jī)出現(xiàn),評(píng)價(jià)者評(píng)價(jià)自己作品或特定拉票作品的概率很低,或者可以采用技術(shù)手段避免評(píng)價(jià)自己,基本上避免了拉票現(xiàn)象,提高了評(píng)價(jià)的客觀性和公正性;
(3)評(píng)價(jià)結(jié)果實(shí)時(shí)更新,過程完全透明?;赪eb的評(píng)價(jià)系統(tǒng)其評(píng)價(jià)原則、結(jié)果和過程都是完全透明,參與者在公開的環(huán)境中評(píng)價(jià)、品評(píng)他人作品,是一個(gè)互動(dòng)和相互學(xué)習(xí)的過程,并且動(dòng)態(tài)更新的結(jié)果會(huì)給參與者帶來一定的壓力,在對(duì)待作業(yè)的態(tài)度上會(huì)更加重視,作品質(zhì)量上會(huì)有所提高,更有效的提升了教學(xué)效果。
本文以Glicko-2評(píng)價(jià)機(jī)制在 《網(wǎng)站建設(shè)與管理》課程學(xué)生自助評(píng)價(jià)系統(tǒng)中的應(yīng)用,闡明系統(tǒng)的建設(shè)、實(shí)施、控制過程及評(píng)價(jià)效果的分析。
2.自助評(píng)價(jià)系統(tǒng)的建設(shè)與算法參數(shù)
本研究應(yīng)用ASP.NET開發(fā)實(shí)現(xiàn)了基于Web的自助評(píng)價(jià)系統(tǒng),主要實(shí)現(xiàn)以下功能:
(1)評(píng)價(jià)用戶的驗(yàn)證,基于學(xué)號(hào)和密碼對(duì)用戶進(jìn)行驗(yàn)證。用戶驗(yàn)證的目的有兩個(gè),一是通過類似實(shí)名認(rèn)證的方式,記錄每個(gè)人的每次投票,相比匿名方法能更好地避免不負(fù)責(zé)任的選擇;二是整個(gè)評(píng)價(jià)過程亦作為教學(xué)過程的一部分,每人必須至少完成一定數(shù)量的投票。
(2)基于兩兩比較的評(píng)價(jià)。為了便于比較和選擇,采用“iframe”框架技術(shù)將兩件待評(píng)價(jià)網(wǎng)頁(yè)顯示在同一頁(yè)面中。對(duì)弈作品的選擇策略,可采用完全隨機(jī)選擇,或隨機(jī)選擇一件作品,根據(jù)其Glicko算法的Rating和RD值匹配水平相當(dāng)?shù)膶?duì)手。本系統(tǒng)為了保證評(píng)價(jià)的均衡性,避免過多或過少評(píng)價(jià),每次選擇,均以作品的等級(jí)分更新次數(shù)升序排列(即作品參與評(píng)價(jià)的比賽輪數(shù),而不是簡(jiǎn)單的比賽次數(shù)),在前十位中隨機(jī)選擇兩件。這種選擇方法一方面平衡了評(píng)價(jià)次數(shù),另一方面每次選出的對(duì)手都是參與比賽數(shù)量比較接近的,相較完全隨機(jī)選擇方法更為合理。
(3)評(píng)價(jià)結(jié)果的展示。以“排行榜”的方式,依評(píng)價(jià)等級(jí)分從高到低依次顯示列表,點(diǎn)擊鏈接可瀏覽對(duì)應(yīng)學(xué)生的網(wǎng)站作品。
系統(tǒng)的參數(shù)均按Glicko-2算法推薦設(shè)置,每輪比賽包括10局,即每位選手作品每被評(píng)價(jià)滿10次更新一次等級(jí)分、偏差和波動(dòng)值;等級(jí)分隨時(shí)間變化常數(shù)τ=0.6;初始時(shí),令所有r=1500,RD=350,σ=0.06。
3.學(xué)生實(shí)驗(yàn)、作業(yè)自助評(píng)價(jià)實(shí)施與控制
(1)作品的提交與評(píng)價(jià)
首先在服務(wù)器端配置好Web、FTP服務(wù)器。為方便程序處理,作品嚴(yán)格按規(guī)定的目錄、文件命名和組織方法,在規(guī)定時(shí)間內(nèi)提交到指定目錄。例如作品目錄必須以學(xué)號(hào)命名,首頁(yè)文件必須命名為index.html/php/aspx等。完成后將作業(yè)目錄映射為Web服務(wù)器虛擬目錄,保證可通過Web訪問到每件網(wǎng)站作品。
作品的評(píng)價(jià)時(shí)間為一周,一周之內(nèi)任何時(shí)間均可上網(wǎng)進(jìn)行評(píng)價(jià),規(guī)定每人至少評(píng)價(jià)30次,最多評(píng)價(jià)200次。
(2)評(píng)價(jià)過程的控制
評(píng)價(jià)系統(tǒng)記錄每一次評(píng)價(jià)的結(jié)果,包括評(píng)價(jià)人、評(píng)價(jià)IP、評(píng)價(jià)時(shí)間,作品1學(xué)號(hào),作品2學(xué)號(hào),是否作品1勝出等信息。
記錄“是否作品1勝出”的主要目的是檢測(cè)和發(fā)現(xiàn)不負(fù)責(zé)任的評(píng)價(jià)。兩件隨機(jī)選擇的作品比較時(shí),作品1一直在左側(cè),如果機(jī)械的完成任務(wù),一直點(diǎn)擊左側(cè)勝出或者很有規(guī)律的“左右左右”的話,則結(jié)合每次評(píng)價(jià)的時(shí)間間隔,通過此人的評(píng)價(jià)序列中“是否作品1勝出”這一列很容易發(fā)現(xiàn)這一點(diǎn)。一旦確認(rèn)存在此種情況,將及時(shí)在評(píng)價(jià)系統(tǒng)中公示并采取適當(dāng)?shù)膽徒浯胧?/p>
記錄每一次評(píng)價(jià)結(jié)果的另一目的是最大限度地避免不負(fù)責(zé)任的評(píng)價(jià)帶來的影響,發(fā)現(xiàn)惡意評(píng)價(jià)后,可以及時(shí)排除干擾,根據(jù)評(píng)價(jià)歷史對(duì)等級(jí)分進(jìn)行重建。
系統(tǒng)采取的另一限制投票的手段為投票達(dá)到一定次數(shù)(如50次)后,強(qiáng)制退出并重新進(jìn)行用戶驗(yàn)證,避免惡意臨時(shí)利用他人信息或軟件自動(dòng)投票。
4.測(cè)試與討論
為了評(píng)價(jià)算法在自助評(píng)價(jià)中的穩(wěn)定性和可靠性,通過模擬數(shù)據(jù)測(cè)試和實(shí)際課程評(píng)價(jià)兩種方案對(duì)算法進(jìn)行驗(yàn)證。
模擬數(shù)據(jù)以一個(gè)實(shí)際的教學(xué)班為基準(zhǔn),生成序號(hào)為1-76的總計(jì)76條數(shù)據(jù),每條記錄的數(shù)據(jù)項(xiàng)包括序號(hào)、Glicko算法Rating值、RD值等、比賽輪次、對(duì)比次數(shù)等,初始值均按默認(rèn)參數(shù)設(shè)定?;贕licko等級(jí)分原理,首先隨機(jī)選擇處一條記錄A,再?gòu)呐cA的Rate值、輪次等信息在一定閾值范圍之內(nèi)的剩余記錄中隨機(jī)選擇另外一條記錄B,比較A、B的序號(hào)大小,大者為勝,記錄結(jié)果??紤]到學(xué)生實(shí)際互評(píng)中不同人的標(biāo)準(zhǔn)不一,也可能有個(gè)別同學(xué)敷衍應(yīng)付,測(cè)試中考慮了隨機(jī)選擇的因素,分別測(cè)試了無隨機(jī)、有5%的隨機(jī)選擇、10%隨機(jī)選擇……60%隨機(jī)選擇對(duì)結(jié)果的影響。由于在等級(jí)分制度中,選手真實(shí)實(shí)力95%的置信區(qū)間為等級(jí)分值前后兩倍偏差值(RD)的區(qū)間,單純的Rating評(píng)分值的精確比較意義不大,所以對(duì)結(jié)果的評(píng)價(jià)按記錄序號(hào)平均分為4組,即1-19,20-38,39-57,58-76,按Rate值升序排列,前19條記錄中出現(xiàn)序號(hào)大于19的記作錯(cuò)誤,20-38條記錄中出現(xiàn)序號(hào)小于20或大于38的記作錯(cuò)誤,依此類推,每組記錄中總錯(cuò)誤數(shù)與記錄數(shù)比值即為錯(cuò)誤率。測(cè)試分兩輪進(jìn)行,第一輪測(cè)試平均每條記錄被比較100次,第二輪測(cè)試平均每條記錄被比較20次,測(cè)試結(jié)果如圖1所示。
圖1 不同隨機(jī)選擇、不同比較次數(shù)下錯(cuò)誤率情況
圖中橫坐標(biāo)軸表示無視序號(hào)大小進(jìn)行隨機(jī)選擇的概率,縱坐標(biāo)軸表示錯(cuò)誤率 (錯(cuò)誤率=錯(cuò)誤數(shù)/記錄數(shù)*100%),錯(cuò)誤率1由第一輪測(cè)試產(chǎn)生,錯(cuò)誤率2由第二輪測(cè)試產(chǎn)生。對(duì)比分析顯示,同樣概率的隨機(jī)選擇下,單位記錄評(píng)價(jià)次數(shù)越高,錯(cuò)誤率越低;隨著隨機(jī)選擇概率的逐漸增大,錯(cuò)誤率呈上升趨勢(shì)。值得注意的是,第一輪測(cè)試中,當(dāng)隨機(jī)選擇概率高達(dá)0.5時(shí),也就是允許一半學(xué)生完全隨機(jī)評(píng)價(jià)時(shí),錯(cuò)誤率依然穩(wěn)定在10%左右,這表明基于等級(jí)分制度的自助評(píng)價(jià)機(jī)制有較強(qiáng)的抗干擾能力和穩(wěn)定性。
實(shí)際課程的學(xué)生自助評(píng)價(jià)以《網(wǎng)站設(shè)計(jì)與管理》(推選課)課程作業(yè)設(shè)計(jì)為例。采用Glicko-2等級(jí)分評(píng)價(jià)機(jī)制進(jìn)行透明公開的Web自助評(píng)價(jià),總計(jì)收到合格的作業(yè)作品76份 (另有7份作品命名或文件組織不符合要求,未參與自助評(píng)價(jià)),開放評(píng)價(jià)時(shí)間為8天。總計(jì)9421條有效評(píng)價(jià)記錄,每學(xué)生最多評(píng)價(jià)200次,最少的評(píng)價(jià)了17次,人均114次,遠(yuǎn)高于30次的下限要求,學(xué)生表現(xiàn)出較高的積極性。
每件作業(yè)作品參與評(píng)價(jià)次數(shù)最高128,最低121次,平均被評(píng)價(jià)124次,至多相差評(píng)價(jià)次數(shù)不大于一個(gè)等級(jí)分更新周期。數(shù)據(jù)分析中也發(fā)現(xiàn),RD值普遍偏大。RD反映的是評(píng)級(jí)的偏差程度,選手真實(shí)實(shí)力95%的置信區(qū)間為等級(jí)分值前后兩倍偏差值的區(qū)間,RD值偏大,導(dǎo)致反映其真實(shí)實(shí)力的區(qū)間也偏大,從這個(gè)意義上來講,等級(jí)分相差幾分甚至十幾分,排名相差幾名的差別是不大的。產(chǎn)生這種現(xiàn)象的原因主要是每個(gè)人的評(píng)價(jià)標(biāo)準(zhǔn)是難以統(tǒng)一的,有的評(píng)價(jià)者更看重美觀性,有的評(píng)價(jià)者更看重內(nèi)容,而有的評(píng)價(jià)者把原創(chuàng)性作為決定勝負(fù)的唯一標(biāo)準(zhǔn)。所以RD值偏大是正常的,從一個(gè)側(cè)面反映了評(píng)價(jià)系統(tǒng)的透明性、公開性、多元化的評(píng)價(jià)準(zhǔn)則,在一定程度上也更為客觀的反映了作品的實(shí)際水平。在評(píng)價(jià)結(jié)果的方面,經(jīng)過對(duì)等級(jí)分排行榜中前20人、中間20人、后20人以及部分隨機(jī)抽查的作業(yè)進(jìn)行檢查來看,結(jié)果也是科學(xué)有效的,排在前面的作品在原創(chuàng)性、美觀性、內(nèi)容的豐滿程度等方面有很好的平衡,等級(jí)分較低的作品基本內(nèi)容簡(jiǎn)陋、或原創(chuàng)性低。
總之,通過以上數(shù)據(jù)分析可以發(fā)現(xiàn),基于Glicko-2的自助評(píng)價(jià)系統(tǒng)抗干擾能力強(qiáng),穩(wěn)定性好,結(jié)果可靠;從實(shí)際課程評(píng)價(jià)次數(shù)和每天的評(píng)價(jià)分布情況來看,這種競(jìng)爭(zhēng)機(jī)制激勵(lì)了學(xué)生的熱情,評(píng)價(jià)者表現(xiàn)出了較高的積極性,評(píng)價(jià)結(jié)果可以反映學(xué)生實(shí)際的作業(yè)完成情況。
評(píng)價(jià)結(jié)果分析顯示,基于Glicko-2等級(jí)分評(píng)價(jià)算法自助教學(xué)評(píng)價(jià)系統(tǒng)具有開放性、透明性、客觀性等特點(diǎn),評(píng)價(jià)數(shù)據(jù)客觀合理,結(jié)果可靠,可以真實(shí)的反應(yīng)學(xué)生作業(yè)設(shè)計(jì)完成的實(shí)際情況。
[1]呂嘯,余勝泉,譚霓.基于發(fā)展性評(píng)價(jià)理念的網(wǎng)絡(luò)教學(xué)平臺(tái)學(xué)習(xí)評(píng)價(jià)系統(tǒng)設(shè)計(jì)[J].電化教育研究,2011(2):73-78.
[2]張倩.網(wǎng)絡(luò)環(huán)境下同伴匿名評(píng)價(jià)實(shí)證研究[J].電化教育研究,2007(7):55-57,71.
[3]吳川,孫錦程.基于ACM的《算法設(shè)計(jì)與分析》教學(xué)改革研究[J].中國(guó)科教創(chuàng)新導(dǎo)刊,2010(32):62.
[4]楊春明,陳念年.基于競(jìng)賽模式的“算法分析與設(shè)計(jì)”教學(xué)探索與實(shí)踐[J].計(jì)算機(jī)教育,2009(20):146-147,105.
[5]GLICKMAN M E,JONES A C.,Rating the chess rating system[J].Chance.1999(12)2:21-28.
[6]GLICKMAN M E.A comprehensive guide to chess ratings[J].American Chess Journal 3(1995),59-102.
[7]Wikipedia.Chess rating system[EB/OL].http://en. wikipedia.org/wiki/Chess_rating_system.
[8]Wikipedia.Elo rating system[EB/OL].http://en. wikipedia.org/wiki/Elo_rating_system.
[9]REMI C.Computing Elo ratings of move patterns in the game of go[J].ICGA Journal January.2007(7):113-124.
[10]GLICKMAN M E.Paired comparison models with time varying parameters,Ph.D.thesis[D],Harvard University Dept of Statistics,1993.
[11]Wikipedia.Mark Glickman[EB/OL].http://en. wikipedia.org/wiki/Mark_Glickman.
[12]GLICKMAN M E.Parameter estimation in large dynamic paired comparison experiments[J].Applied Statistics 48(1999),377-394.
[13]Microsoft.TrueSkill?ranking system FAQ-Microsoft Research[EB/OL].http://research.microsoft.com/enus/projects/trueskill/faq.aspx.
[14]Microsoft.TrueSkill?:A Bayesian skill rating system[J].MIT Press.2007.
[15]TopCoder.Algorithm competition rating system [EB/OL].http://apps.topcoder.com/wiki/display/tc/Algorithm+Competition+Rating+System.
[16]GLICKMAN M E.The Glicko system[EB/OL]. http://www.glicko.net/glicko.html.
[17]GLICKMAN M E.Example of the Glicko-2 system[EB/OL].http://www.glicko.net/glicko.html.
[18]FORISEK M.Theoretical and practical aspects of programmingcontests.PhDthesis[D].ComeniusUniversity.
G434
A
1673-8454(2017)05-0061-05
四川省教育廳項(xiàng)目自然科學(xué)一般項(xiàng)目(15ZB0017);四川農(nóng)業(yè)大學(xué)校級(jí)教改項(xiàng)目(X2015043)。