• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于認(rèn)知診斷的主觀題同行互評技術(shù)

    2022-08-24 15:00:04李秋云
    關(guān)鍵詞:概率模型評價(jià)者主觀題

    許 嘉,李秋云,劉 靜,呂 品,于 戈

    1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧530004)

    2(廣西大學(xué) 廣西多媒體通信網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)

    3(廣西大學(xué) 廣西高校并行與分布式計(jì)算重點(diǎn)實(shí)驗(yàn)室,南寧 530004)

    4(東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽 110819)

    E-mail:lvpin@gxu.edu.cn

    1 引 言

    隨著大數(shù)據(jù)、云計(jì)算和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以Coursera、edX、中國大學(xué)MOOC和學(xué)堂在線為代表的在線教育平臺的興起給平臺上的任課教師帶來了嚴(yán)峻的教學(xué)挑戰(zhàn).一個(gè)最突出的教學(xué)挑戰(zhàn)在于教師如何高效批改大規(guī)模選課學(xué)生在平臺上提交的作業(yè).鑒于做作業(yè)能夠幫助學(xué)生鞏固和內(nèi)化知識,是至關(guān)重要的教學(xué)活動,各大在線教育平臺都提供了客觀題(例如選擇題和判斷題)的自動批改功能,減輕了任課教師的教學(xué)負(fù)擔(dān).相對于客觀題,主觀題(例如簡答題和應(yīng)用題)更能考察學(xué)生的語言表達(dá)能力、知識運(yùn)用能力與創(chuàng)新思維能力,所以主觀題的考察對于很多在線課程而言是必不可少的[1].然而,由于沒有唯一標(biāo)準(zhǔn)答案,主觀題的批改很難由計(jì)算機(jī)自動完成[2],需要任課教師花費(fèi)大量精力逐份手工批改,導(dǎo)致他們無法將精力用于課程內(nèi)容及活動的改進(jìn)提高.可見,如何減輕任課教師的主觀題批改負(fù)擔(dān)是當(dāng)前教育研究領(lǐng)域亟待解決的重要問題.

    為了有效降低任課教師的主觀題作業(yè)批改負(fù)擔(dān),國內(nèi)外各大在線平臺與科研機(jī)構(gòu)提出了不少主觀題評判的技術(shù),這些技術(shù)可分為兩類:基于自然語言處理的評判技術(shù)[3-5]和基于同行互評的評判技術(shù)[6-10].其中,基于自然語言處理的評判技術(shù)通過分析學(xué)生答案與教師給的參考答案之間的匹配程度來實(shí)現(xiàn)主觀題的自動判分.然而,基于自然語言處理的評判技術(shù)通常依賴于特定領(lǐng)域的知識,只適用于解決面向特定領(lǐng)域的主觀題評分問題,因此鮮有在線教育平臺提供基于自然語言處理的主觀題評判功能.基于同行互評的評判技術(shù)是當(dāng)下不少主流在線教育平臺(例如Coursera和中國大學(xué)MOOC)提供的主觀題評判功能.該類技術(shù)將主觀題批改任務(wù)的子集分派給每個(gè)學(xué)生,然后基于多名學(xué)生對某主觀題的評分來估計(jì)該題的真實(shí)分?jǐn)?shù).基于同行互評的主觀題評判技術(shù)對于教師與學(xué)生而言都有積極益處:一方面減輕了任課教師的主觀題作業(yè)批改負(fù)擔(dān);另一方面要求學(xué)生評判他人的主觀題作業(yè),不但能夠讓他們學(xué)習(xí)到不同的解題思路,還能提高他們的課程參與度[11,12].因此,基于同行互評的主觀題評判技術(shù)成為當(dāng)下解決大規(guī)模主觀題評判問題的主流技術(shù)和目前智能教育領(lǐng)域的研究熱點(diǎn),關(guān)注于提出提高同行互評質(zhì)量的方法[13].

    本文考慮基于基數(shù)估計(jì)的同行互評場景,即每名同行評價(jià)者針對每道主觀題給出一個(gè)數(shù)值型的評價(jià)分?jǐn)?shù).基于同行互評的主觀題評判方法的研究難點(diǎn)在于如何利用多個(gè)同行給出的評價(jià)分?jǐn)?shù)估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù).大多數(shù)在線教育平臺只是簡單基于各個(gè)評價(jià)分?jǐn)?shù)的均值或中位數(shù)來估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù).然而,由于同行評價(jià)者的打分質(zhì)量受其可靠性、偏見等因素的影響[14],簡單用各個(gè)評價(jià)分?jǐn)?shù)的均值或中位數(shù)估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù)往往不夠準(zhǔn)確[15].近年來,研究人員將同行評價(jià)者的評分可靠性及評分偏見作為模型的隨機(jī)變量,構(gòu)建了估計(jì)被評價(jià)主觀題作業(yè)真實(shí)分?jǐn)?shù)的概率模型,能夠利用變量間的依賴關(guān)系提高估計(jì)的準(zhǔn)確性[6-9].然而,現(xiàn)有研究方法均假設(shè)同行評價(jià)者的可靠性只與其當(dāng)前作業(yè)的答題情況相關(guān),未同時(shí)考慮同行評價(jià)者對主觀題考察的知識點(diǎn)的掌握程度(由其歷史答題結(jié)果數(shù)據(jù)診斷得到)對其評分可靠性造成的影響,因而存在局限性.對284名同行評價(jià)者針對三道主觀題作業(yè)給出的2109條互評打分記錄進(jìn)行統(tǒng)計(jì)分析.具體而言,首先以這些同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)為輸入并利用流行的認(rèn)知診斷DINA模型[16]診斷得到他們對主觀題考察的知識點(diǎn)的掌握程度,并進(jìn)而量化每個(gè)同行評價(jià)者對每道主觀題的掌握程度值.之后,計(jì)算由每名同行評價(jià)者對每道主觀題的掌握程度值組成的序列與每名同行評價(jià)者對每道主觀題的評分誤差值序列之間的皮爾遜相關(guān)系數(shù).由于兩個(gè)序列的皮爾遜相關(guān)系數(shù)為-0.673,表明評價(jià)者的可靠性還受其對該主觀題掌握程度的影響:評價(jià)者的掌握程度越低,則平均評分誤差越大,可靠性越低;評價(jià)者的掌握程度越高,則平均評分誤差越小,可靠性越大.因此,在對同行評價(jià)者的可靠性進(jìn)行建模時(shí),應(yīng)該同時(shí)考慮評價(jià)者對待評價(jià)習(xí)題的掌握程度信息.

    鑒于此,本文提出了一種基于認(rèn)知診斷的主觀題同行互評技術(shù),包括PG8和PG9兩個(gè)概率模型.該技術(shù)在現(xiàn)有概率模型的基礎(chǔ)上[9],同時(shí)基于同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)(對應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及評價(jià)者的歷史答題表現(xiàn)(對應(yīng)于基于歷史答題記錄診斷得到的該評價(jià)者對本次作業(yè)題的掌握程度)對評價(jià)者的可靠性進(jìn)行建模,以期最終提高概率模型估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.PG8和PG9的區(qū)別在于:PG8假設(shè)評價(jià)者的評分可靠性服從伽馬分布;PG9則假設(shè)評價(jià)者的評分可靠性服從高斯分布.綜上,本文的主要貢獻(xiàn)包括:

    1)提出了改進(jìn)現(xiàn)有同行評價(jià)概率模型的思路,即應(yīng)同時(shí)以認(rèn)知診斷得到的同行評價(jià)者對主觀題的掌握程度信息和評價(jià)者在該主觀題中取得的真實(shí)分?jǐn)?shù)信息作為評價(jià)者評分可靠性的建模依據(jù),以期進(jìn)一步提高概率模型對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.

    2)基于由284名學(xué)生參與的3次主觀題作業(yè)的互評活動收集真實(shí)互評數(shù)據(jù)集,并基于該數(shù)據(jù)集評估提出的互評技術(shù)和相關(guān)互評技術(shù)的有效性.實(shí)驗(yàn)結(jié)果表明本文提出的基于認(rèn)知診斷的主觀題互評技術(shù)在提高對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性方面比其它相關(guān)技術(shù)更具優(yōu)勢.

    本文剩余部分的內(nèi)容組織如下.第2部分闡釋了相關(guān)研究工作.第3部分給出了預(yù)備知識.第4部分給出了基于認(rèn)知診斷的同行互評技術(shù),包含PG8和PG9兩個(gè)概率模型.第5部分為實(shí)驗(yàn).最后,第6部分總結(jié)了全文.

    2 相關(guān)工作

    2.1 基于自然語言處理的主觀題評判技術(shù)

    基于自然語言處理的主觀題評判技術(shù)從題目本身的特性出發(fā),利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)主觀題的自動評判.例如,文獻(xiàn)[5]基于自然語言處理技術(shù)對開放式數(shù)學(xué)問題的每一個(gè)解答轉(zhuǎn)變?yōu)閿?shù)字特征,再通過聚類分析發(fā)現(xiàn)解答中正確、部分正確以及不正確的解答結(jié)構(gòu),從而實(shí)現(xiàn)了對該類問題的自動判分.文獻(xiàn)[3]針對英文論文寫作題給出了自動判分的解決方案,該方案利用潛在語義分析和學(xué)習(xí)向量量化算法來提升自動判分的準(zhǔn)確率.文獻(xiàn)[17]針對英語簡答題設(shè)計(jì)了自動判分方法,該方法利用同義詞詞典和衡量語義距離的兩種自然語言處理方法來解決標(biāo)準(zhǔn)文本相似度衡量方法對于同義詞的匹配不夠準(zhǔn)確的問題.文獻(xiàn)[4]則基于潛在語義分析的奇異值分解策略設(shè)計(jì)了日語短文的自動評分系統(tǒng).基于自然語言處理的主觀題評判技術(shù)為主觀題的自動評分提供解決思路,也取得了不錯(cuò)的評分效果.然而,該類技術(shù)通常依賴特定領(lǐng)域的知識來優(yōu)化自然語言的處理過程,從而保證自動判分的準(zhǔn)確性,因而只適用于解決特定領(lǐng)域的主觀題自動判分問題,很難在其它領(lǐng)域推廣使用.

    2.2 基于同行互評的主觀題評判技術(shù)

    基于同行互評的主觀題評判問題即讓每名評價(jià)者對分配給其的一部分主觀題作業(yè)進(jìn)行評判,最終基于各個(gè)評價(jià)者反饋的評判信息估計(jì)每份主觀題作業(yè)的質(zhì)量.由于評價(jià)者的態(tài)度和能力存在差異,與眾包問題類似,基于同行互評的主觀題評判問題需要解決的核心問題是對評價(jià)者反饋的評價(jià)信息進(jìn)行質(zhì)量控制.按照評價(jià)者反饋的評價(jià)信息形式的不同,基于同行互評的主觀題評價(jià)技術(shù)可分為序數(shù)(Ordinal)估計(jì)技術(shù)和基數(shù)(Cardinal)估計(jì)技術(shù)兩類.

    序數(shù)估計(jì)技術(shù)要求每名評價(jià)者對分配給其的主觀題作業(yè)給出表征作業(yè)質(zhì)量高低的排名反饋,系統(tǒng)則基于所有評價(jià)者給出的作業(yè)間的偏序排名信息估計(jì)每份作業(yè)的質(zhì)量[18].序數(shù)估計(jì)技術(shù)通常利用基于配對比較的方法[19,20]、貝葉斯生成法[21]和矩陣分解方法[22]來估計(jì)主觀題作業(yè)的質(zhì)量.序數(shù)估計(jì)的方法不要求同行評價(jià)者給出主觀題作業(yè)的具體分?jǐn)?shù),降低了評價(jià)者的評判難度.然而,該類技術(shù)存在兩大問題[23]:首先,評價(jià)者由于評判經(jīng)驗(yàn)有限,很難對質(zhì)量相差不大的兩份主觀題作業(yè)給出它們的合理排序;其次,僅依賴作業(yè)間的偏序排名信息很難量化兩份作業(yè)之間的質(zhì)量差異.

    與序數(shù)估計(jì)技術(shù)不同,基數(shù)估計(jì)技術(shù)要求每名評價(jià)者對分配給其的每份主觀題作業(yè)都給出一個(gè)量化分?jǐn)?shù),系統(tǒng)繼而基于不同評價(jià)者針對同一份作業(yè)給出的多個(gè)評價(jià)分?jǐn)?shù)估計(jì)作業(yè)的真實(shí)分?jǐn)?shù).主流的基數(shù)估計(jì)方式有兩種:加權(quán)求和的估計(jì)方式[23-26]和基于概率模型的估計(jì)方式[6-9].其中,加權(quán)求和的估計(jì)方式依據(jù)同行評價(jià)者的評分準(zhǔn)確性和信任度給他們賦以不同的權(quán)重,然后以同行評價(jià)者針對主觀題作業(yè)給出的評價(jià)分?jǐn)?shù)為輸入,通過加權(quán)求和的方法來估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).系統(tǒng)會根據(jù)同行評價(jià)者在新的互評活動中的評分表現(xiàn)來迭代更新其權(quán)重信息.另一類方式是通過構(gòu)建概率模型來估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù).本文提出的基于認(rèn)知診斷的主觀題互評技術(shù)就屬于這類方法.這類方法的主要實(shí)現(xiàn)思路是將待估計(jì)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)、同行評價(jià)者的可靠性及偏見都建模為滿足一定概率分布的隱含變量,然后基于能觀察到的同行評價(jià)者的評分信息來推演以上各個(gè)隱含變量的值.具體而言,Piech等人[6]首先提出了估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的3個(gè)概率模型,即PG1(考慮了評價(jià)者當(dāng)前的可靠性和偏見),PG2(在PG1的基礎(chǔ)上考慮了評價(jià)者的歷史偏見),PG3(在PG1的基礎(chǔ)上將評價(jià)者當(dāng)前可靠性設(shè)定為評價(jià)者當(dāng)前作業(yè)真實(shí)分?jǐn)?shù)的線性函數(shù)的隨機(jī)變量).考慮到PG3模型所設(shè)置的評價(jià)者的可靠性是關(guān)于評價(jià)者真實(shí)分?jǐn)?shù)的線性函數(shù)這一假設(shè)過于嚴(yán)格,Mi等人將評價(jià)者的可靠性建模為滿足形狀參數(shù)為其真實(shí)分?jǐn)?shù)的伽馬分布或均值為其真實(shí)分?jǐn)?shù)的高斯分布,分別得到了PG4模型和PG5模型[7].研究表明一名同行評價(jià)者的評分偏見會受到其朋友的評分偏見的影響[27,28],為了提高對評價(jià)者偏見建模的準(zhǔn)確性,Chan等人利用學(xué)堂在線平臺上收集到的學(xué)生間的社交關(guān)系信息優(yōu)化對評價(jià)者偏見的建模,擴(kuò)展了PG1、PG4、PG5這3個(gè)概率模型[8].然而上述概率模型均認(rèn)為評價(jià)者針對不同主觀題作業(yè)給出的評價(jià)分?jǐn)?shù)之間是相互獨(dú)立的,存在局限性.因此,Wang等人在概率建模時(shí)引入了評價(jià)者的相對分?jǐn)?shù)信息(即同一個(gè)評價(jià)者對不同作業(yè)評分之間的差值),提出了PG6模型(構(gòu)建在PG4之上),PG7模型(構(gòu)建在PG5之上)[9].這兩個(gè)概率模型由于引入了評價(jià)者的相對分?jǐn)?shù)信息,降低了數(shù)據(jù)稀疏性給參數(shù)估計(jì)帶來的負(fù)面影響,從而有效提高了對主觀題真實(shí)分?jǐn)?shù)估計(jì)的準(zhǔn)確性.然而,PG6模型與PG7模型僅基于同行評價(jià)者針對當(dāng)前主觀題作業(yè)取得的真實(shí)分?jǐn)?shù)對其可靠性進(jìn)行建模.PG6模型與PG7模型是當(dāng)前最好的同行互評概率模型,實(shí)驗(yàn)部分將針對這兩種相關(guān)模型進(jìn)行比較分析.

    綜上,基于概率模型的基數(shù)估計(jì)方法是目前實(shí)現(xiàn)主觀題評判的主流方法,近年來研究人員們提出了不少相關(guān)工作.然而,現(xiàn)有研究工作在概率建模時(shí)均未同時(shí)考慮影響同行評價(jià)者評分可靠性的兩大因素,即其在本次作業(yè)中的答題表現(xiàn)(對應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及其的歷史答題表現(xiàn)(對應(yīng)于基于歷史答題記錄診斷得到的該評價(jià)者對本次作業(yè)題的掌握程度),因而限制了它們對于主觀題真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.

    3 預(yù)備知識

    認(rèn)知診斷以認(rèn)知心理學(xué)和心理計(jì)量學(xué)為理論基礎(chǔ),通過構(gòu)建具有認(rèn)知診斷功能的心理計(jì)量模型,能夠基于被試的歷史答題結(jié)果數(shù)據(jù)診斷其對不同技能(知識點(diǎn))的掌握程度,從而為教學(xué)提供重要依據(jù),是當(dāng)下教育評估領(lǐng)域的研究熱點(diǎn)[29-31].作為最流行的認(rèn)知診斷模型之一,DINA模型[16]在實(shí)現(xiàn)對被試知識點(diǎn)掌握程度的精準(zhǔn)建模的同時(shí)具有較好的解釋性,近年來受到廣泛的關(guān)注和研究[32,33].以同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)為診斷基礎(chǔ),本文正是基于DINA認(rèn)知診斷模型來量化評價(jià)者對主觀題作業(yè)的掌握程度.

    給定被試集合C={c1,…,cM},習(xí)題集合E={e1,…,eN},則記錄被試和其答題結(jié)果之間關(guān)聯(lián)關(guān)系的響應(yīng)矩陣R可表示為R=[rmn]M×N,其中rmn=1表示被試cm答對了習(xí)題en(rmn=0則表示答錯(cuò)了該題).設(shè)習(xí)題集合E考察的知識點(diǎn)集合為KP={kp1,…,kpK},則記錄習(xí)題與其考察的知識點(diǎn)之間關(guān)聯(lián)關(guān)系的Q矩陣可表示為Q=[qnk]N×K,其中qnk=1表示習(xí)題en考察了知識點(diǎn)KPk(qnk=0則表示未考察該知識點(diǎn)).DINA模型將被試cm的知識狀態(tài)描述為一個(gè)向量αm={αm1,…,αmK},稱為被試cm的知識點(diǎn)掌握程度向量.其中,αmk表示被試cm對知識點(diǎn)kpk的掌握程度,且αmk∈[0,1].αmk=1說明被試cm完全掌握了第k個(gè)知識點(diǎn);αmk=0則說明被試cm完全沒有掌握第k個(gè)知識點(diǎn).DINA認(rèn)知診斷模型的項(xiàng)目反應(yīng)函數(shù)為:

    p(rmn=1|αm)=guess1-δmnn(1-slipn)δmn

    (1)

    其中:

    δmn=∏Kk=1αmkqnk

    (2)

    公式(2)中,δmn表示知識狀態(tài)為αm的被試cm對習(xí)題en的潛在正確作答概率,即可被定義為被試cm對習(xí)題en的掌握程度值;slipn=P(rmn=0 |δmn=1)表示被試掌握習(xí)題en考察的所有知識點(diǎn)但是答錯(cuò)該題的概率,被稱為失誤參數(shù);guessn=P(rmn=1|δmn=0)指被試沒有掌握習(xí)題en考察的任何一個(gè)知識點(diǎn)時(shí)但答對該題的概率,被稱為猜測參數(shù).DINA模型利用EM算法最大化公式(1)的邊緣似然值,從而得到被試cm的知識點(diǎn)掌握程度向量αm.

    本文假設(shè)參與主觀題互評活動的同行評價(jià)者在進(jìn)行主觀題作業(yè)評判之前完成了該主觀題考察的知識點(diǎn)所對應(yīng)的客觀題的習(xí)題練習(xí),因而作業(yè)互評測試系統(tǒng)能夠收集到他們對于這些知識點(diǎn)對應(yīng)的客觀習(xí)題的答題結(jié)果數(shù)據(jù).以某同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)和表征習(xí)題和主觀題作業(yè)知識點(diǎn)間考察關(guān)系的Q矩陣為輸入,利用DINA認(rèn)知診斷模型即可求得該同行評價(jià)者的知識點(diǎn)掌握程度向量α.然后基于α和主觀題作業(yè)所考察的知識點(diǎn)信息即可以利用公式(2)求得該評價(jià)者對于該主觀題的掌握程度值.

    4 同行互評概率模型

    本節(jié)介紹了基于認(rèn)知診斷的主觀題同行互評技術(shù),具體涉及概率模型PG8與PG9.用U表示提交主觀題作業(yè)的被評價(jià)者集合,V表示參與互評的同行評價(jià)者集合.考慮到實(shí)際教學(xué)實(shí)踐中一般要求提交主觀題作業(yè)的被評價(jià)者都參與該作業(yè)的互評活動,因而有|U|=|V|.下面給出模型所涉及的重要概念的定義并說明它們在模型中的設(shè)定.

    真實(shí)分?jǐn)?shù):假設(shè)每份被評價(jià)者提交的主觀題作業(yè)對應(yīng)一個(gè)真實(shí)分?jǐn)?shù),且用si表示被評價(jià)者ui∈U所提交作業(yè)的真實(shí)分?jǐn)?shù).兩個(gè)概率模型中均假設(shè)變量si的取值滿足高斯分布.

    可靠性:可靠性(記為τv)表示同行評價(jià)者v∈V對主觀題作業(yè)的評分精度.評價(jià)者v的可靠性實(shí)際反映了v給出的主觀題作業(yè)的評價(jià)分?jǐn)?shù)基于其偏見bv修正后的分?jǐn)?shù)與主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的接近程度.給定某主觀題作業(yè),本文首先假設(shè)評價(jià)者v對于該作業(yè)的評分可靠性τv滿足形狀參數(shù)為θ1δv+θ2sv的伽馬分布,得到PG8模型;其次假設(shè)τv滿足均值為θ1δv+θ2sv的高斯分布,得到PG9模型.其中,δv表示基于DINA認(rèn)知診斷模型得到的評價(jià)者v對該作業(yè)的掌握程度.可見,PG8和PG9在對評價(jià)者可靠性建模時(shí)同時(shí)考慮了評價(jià)者的對當(dāng)前作業(yè)答題表現(xiàn)(對應(yīng)θ2sv部分)和評價(jià)者的歷史答題表現(xiàn)(對應(yīng)θ1τv部分).

    偏見:偏見(記為bv)是量化同行評價(jià)者v∈V評分時(shí)表現(xiàn)出其評分高于真實(shí)分?jǐn)?shù)或其評分低于真實(shí)分?jǐn)?shù)的常量.考慮到互評活動中不同的同行評價(jià)者的偏見不同(有些給分偏高,有些則給分偏低),因此兩個(gè)概率模型均認(rèn)為所有評價(jià)者的偏見值的均值為0,即假設(shè)同行評價(jià)者v的偏見bv服從均值為0且方差為1/η0的高斯分布.

    互評分?jǐn)?shù):互評分?jǐn)?shù)(記為zvi)表示同行評價(jià)者v∈V針對被評價(jià)者ui提交的主觀題作業(yè)給出的評價(jià)分?jǐn)?shù).設(shè)所有評價(jià)者的互評分?jǐn)?shù)集合為Z={zvi|ui∈U,v∈V}.兩個(gè)概率模型均假設(shè)變量zvi服從以高斯分布,且高斯分布的均值等于作業(yè)的真實(shí)分?jǐn)?shù)si與評價(jià)者v的評分偏見bv之和,方差反比于評價(jià)者v的可靠性τv.在PG9模型中引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.

    相對分?jǐn)?shù):相對分?jǐn)?shù)(記為dvij)表示同行評價(jià)者v∈V對被評價(jià)者ui∈U和uj∈U的主觀題作業(yè)給出的互評分?jǐn)?shù)間的差值.記面向所有評價(jià)者的相對分?jǐn)?shù)集合為D={dvij|ui,uj∈U,v∈V}.相對分?jǐn)?shù)的引入有利于提高對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精度.PG8模型中,相對分?jǐn)?shù)dvij被設(shè)定為滿足均值為兩份被v評價(jià)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)之差(即si-sj)、且方差為2/τv的高斯分布.在PG9模型中同樣引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.

    基于以上符號表征,本文的研究問題為:已知所有同行評價(jià)者的互評分?jǐn)?shù)集合Z,面向所有評價(jià)者的相對分?jǐn)?shù)集合D,所有評價(jià)者的知識點(diǎn)掌握程度向量α構(gòu)成的矩陣M|V|×|KP|,通過構(gòu)建概率模型PG8和PG9推斷出每個(gè)同行評價(jià)者(即?v∈V)的可靠性τv、偏見bv以及每個(gè)被評價(jià)者(即?ui∈U)提交的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si,可以形式化表示為P({bv|v∈V},{τv|v∈V},{si|ui∈U}Z,D,M).表1總結(jié)了模型涉及的主要符號和相關(guān)解釋.

    表1 主要符號及其含義Table 1 Main notations and their descriptions

    圖1展示了PG8和PG9的概率圖模型.可見,同行評價(jià)者v針對被評價(jià)者ui的主觀題作業(yè)給出的互評分?jǐn)?shù)zvi、v針對被評價(jià)者ui和被評價(jià)者uj給出的評價(jià)分?jǐn)?shù)之間的相對分?jǐn)?shù)dvij、v的潛在正確作答概率δv是概率圖模型中的觀測變量.而ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si、v的偏見bv、v的可靠性τv則是概率模型估計(jì)的隱含變量,且這些隱含變量的先驗(yàn)分布由超參數(shù)μ0、γ0、θ1、θ2、η0和β0所確定.由圖可知,這些隱含變量彼此間是相聯(lián)系的.因而,為了估計(jì)這些隱含變量的值,基于每個(gè)隱含變量的近似后驗(yàn)分布信息,并利用Gibbs采樣技術(shù)[34]對每個(gè)隱含變量的取值進(jìn)行采樣.具體而言,Gibbs采樣技術(shù):首先基于每個(gè)隱含變量的近似后驗(yàn)分布信息運(yùn)行若干次Gibbs采樣以生成該變量的若干個(gè)樣本,得到該變量的樣本集;其后,當(dāng)隱含變量樣本的分布逐漸趨于收斂和穩(wěn)定時(shí),基于隱含變量的樣本集推斷變量的真實(shí)值.例如,假定基于Gibbs采樣技術(shù)所得到的被評價(jià)者ui的主觀題作業(yè)真實(shí)分?jǐn)?shù)si的樣本集為{s1i,s2i,…,sIGi}且IG為采樣的次數(shù),則可基于樣本集中樣本的平均值來估計(jì)si.考慮到Gibbs采樣過程存在老化階段(Burn-in階段),這時(shí)得到的隱含變量的樣本不準(zhǔn)確,因而基于Gibbs采樣技術(shù)生成隱含變量的樣本集時(shí)需要丟棄在老化階段生成的樣本(一般為樣本集中的前n個(gè)樣本).

    圖1 PG8和PG9的概率圖模型Fig.1 Probabilistic graphical model for PG8 and PG9

    4.1 PG8模型

    PG8模型擴(kuò)展了現(xiàn)有的PG6模型[9],其的生成過程為:

    ·對于第i個(gè)被評價(jià)者ui提交的每份主觀題作業(yè)

    →定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)

    ·對于每個(gè)同行評價(jià)者v

    →定義隱含變量τv(即v的可靠性)τv~Γ(θ1δv+θ2sv,1/η0)

    →定義隱含變量bv(即v的偏見)bv~N(0,1/η0)

    ·對于每個(gè)互評分?jǐn)?shù)zvi

    →定義可觀測變量zvi~N(si+bv,1/τv)

    ·對于每個(gè)相對分?jǐn)?shù)dvij

    →定義可觀測變量dvij~N(si-sj,2/τv)

    由于概率模型PG8中的隱含變量si沒有閉式解(close-form solution),因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG8中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:

    s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)

    其中R=γ0+∑v∈Vuiτv+∑v∈Vui∑uj∈Uvτv2

    (3)

    Y=μ0γ0+τv(∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2)
    τ~Γ(θ1δv+θ2sv+|Uv|22,β0+
    ∑vi∈Uv(zvi-si-bv)2+∑ui,uj∈Uv12(dvij-si+sj)2)

    (4)

    b~N∑ui∈Uvτv(zvi-si)η0+|Uv|τv,1η0+|Uv|τv

    (5)

    4.2 PG9模型

    PG8模型與PG9模型的區(qū)別在于PG8模型假同行設(shè)評價(jià)者的可靠性滿足伽馬分布而PG9模型則假設(shè)同行設(shè)評價(jià)者的可靠性滿足高斯分布.PG9模型擴(kuò)展了現(xiàn)有的PG7模型[9],其的生成過程為:

    · 對于第i個(gè)被評價(jià)者ui提交的每份主觀題作業(yè)

    →定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)

    · 對于每個(gè)同行評價(jià)者v

    →定義隱含變量τv(即v的可靠性)τv~N(θ1δv+θ2sv,1/η0)

    →定義隱含變量bv(即v的偏見)bv~N(0,1/η0)

    · 對于每個(gè)互評分?jǐn)?shù)zvi

    →定義可觀測變量zvi~N(si+bv,λ/τv)

    · 對于每個(gè)相對分?jǐn)?shù)dvij

    →定義可觀測變量dvij~N(si-sj,2λ/τv)

    由于PG9模型中的隱含變量si和τv沒有閉式解,因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG9中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:

    s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)

    其中R=γ0+∑v∈Vuiτvλ+∑v∈Vuiτv*(|Uv|-1)2λ

    (6)

    Y=γ0μ0+τvλ∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2

    τ∝τv|Uv|22×exp-β02τv-θ1δv+θ2sv+
    ∑ui∈Uv(zvi-si-bv)2λβ0+∑ui,uj∈Uv(dvij-si+sj)22λβ02

    (7)

    b~N∑ui∈Uvτvλ(zvi-si)η0+|Uv|τvλ,1η0+|Uv|τvλ

    (8)

    4.3 真實(shí)分?jǐn)?shù)估計(jì)步驟

    利用PG8模型和PG9模型即可估計(jì)一份主觀題作業(yè)的真實(shí)分?jǐn)?shù),具體分為以下4個(gè)步驟:

    步驟1.認(rèn)知診斷.以所有同行評價(jià)者的歷史答題記錄為輸入,利用DINA 模型診斷得到記錄了他們對所有知識點(diǎn)的掌握程度信息的矩陣M.

    步驟2.推理.由于概率模型中的各個(gè)變量是相互聯(lián)系的,因而基于模型中觀測變量的觀測值(包括同行評價(jià)者v的潛在正確作答概率(v、互評分?jǐn)?shù)zvi和相對分?jǐn)?shù)dvij)推斷模型中隱含變量(包括同行評價(jià)者的偏見bv、可靠性τv和被評價(jià)者ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si)的后驗(yàn)概率分布是一個(gè)循環(huán)推理的過程,最終推理得到PG8模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(3)-公式(5)所示)以及PG9模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(6)-公式(8)所示).

    步驟3.采樣.以互評分?jǐn)?shù)集合、相對分?jǐn)?shù)集合和步驟一得到的知識點(diǎn)的掌握程度矩陣M為輸入,以Gibbs采樣技術(shù)為采樣框架并利用步驟2得到的各個(gè)隱含變量的近似后驗(yàn)分布得到概率模型中每個(gè)隱含變量的多個(gè)樣本值.

    步驟4.整合.對步驟3得到的概率模型中的每個(gè)隱含變量的多個(gè)樣本值進(jìn)行整合,進(jìn)而得到每個(gè)隱含變量(包括主觀題作業(yè)的真實(shí)分?jǐn)?shù))的估計(jì)值.

    5 實(shí) 驗(yàn)

    基于真實(shí)采集的主觀題同行互評數(shù)據(jù)集,本節(jié)對本文提出的基于認(rèn)知診斷的主觀題同行互評技術(shù)PG8、PG9和相關(guān)的主觀題同行互評技術(shù)進(jìn)行了實(shí)驗(yàn)比較.

    5.1 數(shù)據(jù)集

    為了驗(yàn)證本文提出的基于認(rèn)知診斷的同行互評技術(shù)對于主觀題評判的有效性,基于自主研發(fā)的“會了嗎”在線教學(xué)服務(wù)系統(tǒng)[37]收集計(jì)算機(jī)專業(yè)核心主干課“數(shù)據(jù)庫原理”中“關(guān)系數(shù)據(jù)庫規(guī)范化理論”這一節(jié)的真實(shí)教學(xué)數(shù)據(jù),得到涉及關(guān)系數(shù)據(jù)庫規(guī)范化理論相關(guān)知識點(diǎn)的主觀題同行互評數(shù)據(jù)集以及客觀題測試結(jié)果數(shù)據(jù)集.

    5.1.1 主觀題同行互評數(shù)據(jù)集

    在“會了嗎”在線教學(xué)服務(wù)系統(tǒng)中實(shí)現(xiàn)了主觀題作業(yè)的互評功能.通過給“數(shù)據(jù)庫原理”課程的5個(gè)本科平行教學(xué)班的284名學(xué)生布置考察了關(guān)系數(shù)據(jù)庫規(guī)范化理論的3次主觀題作業(yè)并組織他們進(jìn)行同行互評從而得到主觀題同行互評數(shù)據(jù)集.每次主觀題作業(yè)僅包含一道主觀題,且布置的3次主觀題作業(yè)涉及考察關(guān)系數(shù)據(jù)庫規(guī)范化理論的11個(gè)知識點(diǎn),這些知識點(diǎn)和它們的編號分別為:1)一范式;2)二范式;3)三范式;4)BC范式;5)主屬性;6)傳遞函數(shù)依賴;7)決定因素;8)函數(shù)依賴;9)碼;10)部分函數(shù)依賴;11)非主屬性.這些知識點(diǎn)是數(shù)據(jù)庫原理這門課的教學(xué)難點(diǎn),而主觀題形式的作業(yè)比客觀題形式的作業(yè)能更好地幫助學(xué)生鞏固對這些知識點(diǎn)的學(xué)習(xí).圖2給出了記錄了3次主觀題作業(yè)所考察知識點(diǎn)信息的Q矩陣.

    圖2 主觀題作業(yè)的Q矩陣Fig.2 Q matrix of subjective questions

    在主觀題作業(yè)的互評教學(xué)活動中,每名學(xué)生既是提交主觀題作業(yè)的提交者(即被評價(jià)者)又是評判同行提交的主觀題作業(yè)的評價(jià)者.每個(gè)評價(jià)者都會收到系統(tǒng)隨機(jī)給其派發(fā)的3份主觀題作業(yè),并要求其遵循教師制定的評分指導(dǎo)規(guī)則完成對這3份主觀題作業(yè)的判分.需要說明的是,為了保證互評的質(zhì)量,互評活動采用雙盲的方式進(jìn)行.為了評估不同主觀題互評技術(shù)對于主觀題作業(yè)真實(shí)估計(jì)的準(zhǔn)確性,邀請擁有6年以上“數(shù)據(jù)庫原理”課程教學(xué)經(jīng)驗(yàn)的教師對每份學(xué)生提交的主觀題作業(yè)進(jìn)行評價(jià)打分,并以教師的評分作為該主觀題作業(yè)的真實(shí)分?jǐn)?shù).表2給出了從3次主觀題作業(yè)的互評教學(xué)活動收集到的主觀題同行互評數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息.

    表2 主觀題同行互評數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistics of our subjective question dataset for peer grading

    5.1.2 歷史客觀題測試結(jié)果數(shù)據(jù)集

    為了能夠基于DINA模型診斷學(xué)生對主觀題的掌握程度,要求學(xué)生們在“會了嗎”在線教學(xué)服務(wù)系統(tǒng)上完成包含40道客觀題的在線測試.這些客觀題覆蓋了3次主觀題作業(yè)考察的關(guān)系數(shù)據(jù)庫規(guī)范化理論的11個(gè)知識點(diǎn).基于在線測試活動得到的每名學(xué)生的客觀題測試結(jié)果數(shù)據(jù)和記錄了每道客觀題考察的知識點(diǎn)信息的Q矩陣(如圖3所示),從而可基于DINA模型診斷每名學(xué)生對11個(gè)知識點(diǎn)的掌握程度,進(jìn)而可計(jì)算每名學(xué)生對每道客觀題作業(yè)的掌握程度.

    圖3 每道客觀題考察的知識點(diǎn)信息的Q矩陣Fig.3 Q matrix of objective questions

    5.2 參與比較的主觀題同行互評技術(shù)

    為了評估本文提出的PG8模型與PG9模型的有效性,將它們與其它主觀題同行互評技術(shù)進(jìn)行比較,具體包括:

    ·中位數(shù):即用一份主觀題作業(yè)所獲得的所有評價(jià)分?jǐn)?shù)的中位數(shù)估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù),這也是當(dāng)今大多數(shù)提供主觀題互評功能的MOOC平臺(例如Coursera和中國大學(xué)MOOC)采用的估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的方法.

    ·均值:即用一份主觀題作業(yè)所獲得的所有評價(jià)分?jǐn)?shù)的均值估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).

    ·PG6和PG7[9]:PG6和PG7均是解決主觀題同行互評問題的現(xiàn)有最先進(jìn)概率模型.本文提出的PG8與PG9模型分別是在PG6和PG7模型的基礎(chǔ)上對評價(jià)者可靠性進(jìn)行了建模優(yōu)化.具體而言,PG6和PG7模型在評價(jià)者可靠性時(shí)僅考慮了其在當(dāng)前主觀題作業(yè)中的答題表現(xiàn),而PG8與PG9模型在對評價(jià)者的可靠性進(jìn)行建模時(shí)不但考慮了其在當(dāng)前作業(yè)中的答題表現(xiàn)還考慮了基于其歷史答題表現(xiàn)診斷得到的評價(jià)者對待評價(jià)作業(yè)的掌握程度信息,以期提高概率模型對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.需要說明的是:1)PG8與PG6相對應(yīng),均假設(shè)同行評價(jià)者互評可靠性取值的先驗(yàn)分布為伽馬分布;2)PG9與PG7相對應(yīng),均假設(shè)同行評價(jià)者互評可靠性取值的先驗(yàn)分布為高斯分布.

    5.3 實(shí)驗(yàn)設(shè)置

    本文提出的主觀題同行互評技術(shù)和相關(guān)主觀題同行互評技術(shù)PG6和PG7均是利用概率模型對同行評價(jià)者的互評可靠性和互評偏見進(jìn)行建模,因而都使用了一些超參數(shù).為這些超參數(shù)設(shè)置合理的值對準(zhǔn)確估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)非常重要.對于概率模型中的真實(shí)分?jǐn)?shù)變量si服從的高斯分布的超參數(shù),即均值μ0和方差1/γ0,分別設(shè)置為所有主觀題作業(yè)互評分?jǐn)?shù)的均值和方差.根據(jù)文獻(xiàn)[7,9]的參數(shù)設(shè)置,本文的具體調(diào)整策略為:對于PG8和PG6,在其它參數(shù)取值固定的前提下,以50為步長嘗試超參數(shù)β0在[150,400]范圍中的不同取值,然后以該技術(shù)所得到的對真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值;對于PG9和PG7,在其它參數(shù)取值固定的前提下,以0.2為步長嘗試超參數(shù)λ在[0.6,1.6]范圍中不同取值,然后以該技術(shù)所得到的對真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值.由于基于概率模型的同行互評技術(shù)在估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)時(shí)具有一定的隨機(jī)性,因此對于超參數(shù)集合的每種設(shè)定,每種技術(shù)都執(zhí)行10次真實(shí)分?jǐn)?shù)的推斷算法.對于基于概率模型的同行互評技術(shù)中每個(gè)需要估計(jì)的隱含變量,推斷算法均迭代運(yùn)行600次Gibbs采樣獲取隱含變量的樣本值,并設(shè)定前60次采樣得到的樣本為老化階段的樣本,這些老化階段的樣本將不參與對真實(shí)分?jǐn)?shù)的估計(jì)運(yùn)算.

    所有參與比較的主觀題同行互評技術(shù)均基于Python(v3.7)語言實(shí)現(xiàn),并在配備了i5-8500 3GHZ CPU、8GB內(nèi)存、1TB硬盤,運(yùn)行了64位Windows 10操作系統(tǒng)的服務(wù)器上進(jìn)行統(tǒng)一實(shí)驗(yàn)測試.

    5.4 實(shí)驗(yàn)結(jié)果

    5.4.1 同行互評技術(shù)的估計(jì)準(zhǔn)確性

    采用不同技術(shù)給出的對主觀題真實(shí)分?jǐn)?shù)的估計(jì)值和主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的均方根誤差(即RMSE)作為不同同行互評技術(shù)有效性的評估指標(biāo).RMSE被廣泛應(yīng)用于評估同行互評技術(shù)有效性[6,8].表3展示了不同主觀題同行互評技術(shù)估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.需要說明的是,表中的RMSE表示互評技術(shù)10次迭代得到的RMSE的平均值,而STD表示RMSE的標(biāo)準(zhǔn)差.由表3可知,本文提出的基于認(rèn)知診斷的同行互評技術(shù)PG8和PG9在3份主觀題作業(yè)中的估計(jì)準(zhǔn)確率均高于比其他技術(shù).由于同時(shí)考慮了同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)對其評分可靠性的影響,PG8和PG9技術(shù)對3次作業(yè)真實(shí)分?jǐn)?shù)的平均估計(jì)誤差比PG6和PG7技術(shù)平均降低了42%.實(shí)驗(yàn)結(jié)果證實(shí)了結(jié)合本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)建??煽啃詫τ诨鶖?shù)同行互評估計(jì)的有效性.

    表3 估計(jì)真實(shí)分?jǐn)?shù)的準(zhǔn)確性Table 3 Error of true score estimation

    5.4.2 同行互評技術(shù)的最大估計(jì)誤差

    通過衡量主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)值與教師批改分?jǐn)?shù)之間的最大評分偏差來分析同行互評技術(shù)的評估表現(xiàn),如表4所示.從表中可看出,均值技術(shù)與中位數(shù)技術(shù)的最大評分偏差是最大的,而基于認(rèn)知診斷的同行互評技術(shù)PG8和PG9在3份主觀題作業(yè)中的最大評分偏差是最小的,說明同行評價(jià)者對主觀題作業(yè)考察的知識點(diǎn)的掌握程度信息使概率模型能更有效地保障對每個(gè)學(xué)生的主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.同時(shí)還可觀察到,PG8和PG9技術(shù)對3次作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的最大評分誤差均低于PG6和PG7技術(shù),進(jìn)一步表明了同時(shí)考慮影響可靠性的兩方面因素(即同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn))能夠提升對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.

    5.4.3 同行互評技術(shù)的超參數(shù)敏感性

    表4 真實(shí)分?jǐn)?shù)估計(jì)值與真實(shí)分?jǐn)?shù)間的最大評分偏差Table 4 Maximum deviation between an estimated grade and ground truth for all students

    為了表明PG8技術(shù)中的超參數(shù)β0和PG9技術(shù)中的超參數(shù)λ對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的影響,本文采取固定其他超參數(shù)值的策略并對這兩個(gè)超參數(shù)的值進(jìn)行了實(shí)驗(yàn)分析.在實(shí)驗(yàn)中為了測試模型的敏感性,將PG8中的超參數(shù)β0設(shè)置在[150,400]范圍內(nèi)以50為步長變化,實(shí)驗(yàn)結(jié)果如圖4;將PG9中的超參數(shù)λ設(shè)置在[0.6,1.6]范圍內(nèi)以0.2為步長變化,實(shí)驗(yàn)結(jié)果如圖5所示.圖4和圖5的結(jié)果表明:在合理的取值范圍內(nèi),這兩種技術(shù)對超參數(shù)值具有魯棒性,它們對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)誤差都控制在可接受的范圍.

    圖4 PG8技術(shù)的超參數(shù)敏感性分析Fig.4 Sensitivity analysis of hyper-parameter for PG8

    圖5 PG9技術(shù)的超參數(shù)敏感性分析Fig.5 Sensitivity analysis of hyper-parameter for PG9

    6 總 結(jié)

    同行互評是當(dāng)前大型開放式網(wǎng)絡(luò)課程(MOOCs)平臺用以解決大規(guī)模主觀題作業(yè)評價(jià)的主流方式.同行評價(jià)者的評分偏見和評分可靠性是未知的,因此基于多個(gè)同行評價(jià)者給出的評價(jià)分?jǐn)?shù)估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)是一個(gè)具有挑戰(zhàn)的問題.現(xiàn)有同行互評技術(shù)利用概率模型對同行評價(jià)者的評分可靠性和評分偏見進(jìn)行建模,有效提高了估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)的準(zhǔn)確性.然而,這些技術(shù)均未同時(shí)考慮同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)對其評分可靠性的影響.鑒于此,本文在現(xiàn)有概率模型的基礎(chǔ)上提出了基于認(rèn)知診斷的主觀題同行互評技術(shù),包含PG8和PG9兩個(gè)概率模型.PG8和PG9利用教育評估領(lǐng)域流行的認(rèn)知診斷DINA模型診斷得到同行評價(jià)者對主觀題的掌握程度信息并結(jié)合評價(jià)者在待評價(jià)作業(yè)中的答題表現(xiàn)對評價(jià)者評分可靠性進(jìn)行建模,實(shí)驗(yàn)證實(shí)PG8和PG9比相關(guān)最好的同行技術(shù)在提升主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)準(zhǔn)確性方面更有優(yōu)勢.

    猜你喜歡
    概率模型評價(jià)者主觀題
    淺談“立體幾何主觀題”的復(fù)習(xí)備考
    淺談高中政治“認(rèn)識類”主觀題答題技巧
    井岡教育(2022年2期)2022-10-14 03:11:28
    極坐標(biāo)方程主觀題考點(diǎn)分析
    高考政治主觀題對學(xué)生思維能力的考查
    甘肅教育(2021年10期)2021-11-02 06:14:28
    在精彩交匯中,理解兩個(gè)概率模型
    考慮評價(jià)信息滿意度的群體信息集結(jié)方法研究
    基于評價(jià)信息滿意度的群體信息集結(jié)方法
    基于停車服務(wù)效率的選擇概率模型及停車量仿真研究
    電子測試(2018年10期)2018-06-26 05:53:50
    學(xué)習(xí)者為評價(jià)者的國際漢語教材評價(jià)標(biāo)準(zhǔn)預(yù)試研究
    一類概率模型的探究與應(yīng)用
    亚洲av成人不卡在线观看播放网| 国产亚洲精品久久久久5区| 色精品久久人妻99蜜桃| 黑人猛操日本美女一级片| 色播在线永久视频| 伊人久久大香线蕉亚洲五| 日韩欧美三级三区| 中国美女看黄片| 一级片'在线观看视频| 欧美久久黑人一区二区| 国产精品乱码一区二三区的特点 | www.熟女人妻精品国产| 9热在线视频观看99| 涩涩av久久男人的天堂| 久久久水蜜桃国产精品网| 国产亚洲精品久久久久5区| 中文字幕人妻熟女乱码| 免费在线观看日本一区| 三上悠亚av全集在线观看| 少妇被粗大的猛进出69影院| 亚洲精华国产精华精| 久久草成人影院| 少妇猛男粗大的猛烈进出视频| 建设人人有责人人尽责人人享有的| 精品人妻1区二区| av在线播放免费不卡| 国产精品综合久久久久久久免费 | 美女福利国产在线| 久久久久久亚洲精品国产蜜桃av| 在线观看日韩欧美| 这个男人来自地球电影免费观看| 亚洲aⅴ乱码一区二区在线播放 | 纯流量卡能插随身wifi吗| 国产精品久久久久久精品古装| 咕卡用的链子| 少妇 在线观看| 成年动漫av网址| 精品免费久久久久久久清纯 | 两个人免费观看高清视频| 一夜夜www| 亚洲免费av在线视频| 亚洲中文日韩欧美视频| 99久久人妻综合| 亚洲av日韩精品久久久久久密| 欧美日韩视频精品一区| 国产99久久九九免费精品| 中文亚洲av片在线观看爽 | 中文字幕高清在线视频| 99国产极品粉嫩在线观看| 午夜福利免费观看在线| 国产成人免费观看mmmm| 亚洲一区二区三区不卡视频| 无遮挡黄片免费观看| 一个人免费在线观看的高清视频| 午夜精品久久久久久毛片777| 久久人人爽av亚洲精品天堂| 纯流量卡能插随身wifi吗| 精品人妻熟女毛片av久久网站| 十八禁人妻一区二区| 免费av中文字幕在线| 手机成人av网站| 精品国产一区二区三区四区第35| 啪啪无遮挡十八禁网站| 色尼玛亚洲综合影院| 一二三四在线观看免费中文在| 欧美在线黄色| 欧美在线一区亚洲| 男女高潮啪啪啪动态图| 国产精品1区2区在线观看. | 亚洲国产中文字幕在线视频| 亚洲欧美激情在线| 高清视频免费观看一区二区| 国产国语露脸激情在线看| 国产成人av激情在线播放| 国产亚洲一区二区精品| 女性生殖器流出的白浆| 中出人妻视频一区二区| 久久精品亚洲精品国产色婷小说| 在线视频色国产色| 国产精品av久久久久免费| 欧美日韩福利视频一区二区| 国产不卡一卡二| 亚洲美女黄片视频| 人人妻人人澡人人爽人人夜夜| 亚洲一卡2卡3卡4卡5卡精品中文| 男男h啪啪无遮挡| 亚洲av成人不卡在线观看播放网| 亚洲av第一区精品v没综合| 国产单亲对白刺激| 亚洲一区中文字幕在线| 亚洲片人在线观看| 国产成人精品无人区| 国产精品亚洲av一区麻豆| 国产99久久九九免费精品| 久久久精品区二区三区| 自线自在国产av| 女性生殖器流出的白浆| 精品欧美一区二区三区在线| 日韩免费高清中文字幕av| 伊人久久大香线蕉亚洲五| 五月开心婷婷网| 久99久视频精品免费| 在线观看免费高清a一片| 老熟妇仑乱视频hdxx| 女性生殖器流出的白浆| 18禁裸乳无遮挡动漫免费视频| 热99国产精品久久久久久7| 日韩成人在线观看一区二区三区| 午夜福利免费观看在线| 亚洲欧美激情综合另类| 老熟妇乱子伦视频在线观看| 午夜免费观看网址| 中文欧美无线码| 久久热在线av| 纯流量卡能插随身wifi吗| 成人免费观看视频高清| 欧美黄色淫秽网站| 欧美性长视频在线观看| 一进一出好大好爽视频| 成人黄色视频免费在线看| av国产精品久久久久影院| 久久婷婷成人综合色麻豆| 99精品欧美一区二区三区四区| 在线观看免费日韩欧美大片| 热re99久久国产66热| 婷婷精品国产亚洲av在线 | 一级黄色大片毛片| 99re6热这里在线精品视频| 国产精品偷伦视频观看了| 欧美久久黑人一区二区| av天堂在线播放| 久久人妻福利社区极品人妻图片| 一级片'在线观看视频| 欧美日韩精品网址| 精品人妻熟女毛片av久久网站| 在线观看日韩欧美| 亚洲一区二区三区不卡视频| 国产av一区二区精品久久| 久久精品91无色码中文字幕| 9色porny在线观看| 十八禁高潮呻吟视频| 男女免费视频国产| 国产精品一区二区免费欧美| 欧美日韩亚洲高清精品| 天堂中文最新版在线下载| 久久草成人影院| 国产亚洲av高清不卡| 男女床上黄色一级片免费看| 精品无人区乱码1区二区| 美国免费a级毛片| 精品视频人人做人人爽| 黄色a级毛片大全视频| 亚洲欧美精品综合一区二区三区| 精品一区二区三卡| 欧美日韩乱码在线| 国产极品粉嫩免费观看在线| 中文字幕av电影在线播放| 老汉色∧v一级毛片| 一二三四社区在线视频社区8| 91国产中文字幕| 久久影院123| 亚洲成人免费电影在线观看| 亚洲成人国产一区在线观看| 精品免费久久久久久久清纯 | 侵犯人妻中文字幕一二三四区| 亚洲美女黄片视频| 欧美日本中文国产一区发布| 人人妻人人澡人人爽人人夜夜| 国产一区二区三区在线臀色熟女 | 人成视频在线观看免费观看| a在线观看视频网站| 18禁黄网站禁片午夜丰满| 成人国语在线视频| 久久久久精品国产欧美久久久| 在线国产一区二区在线| 一边摸一边抽搐一进一出视频| 日本黄色视频三级网站网址 | 久久影院123| 在线观看66精品国产| 精品一区二区三卡| 天堂动漫精品| 黄色片一级片一级黄色片| 免费av中文字幕在线| 看片在线看免费视频| 在线观看66精品国产| 国产不卡av网站在线观看| 精品国产乱码久久久久久男人| 99久久精品国产亚洲精品| 久久国产精品人妻蜜桃| 国产精品98久久久久久宅男小说| 日韩精品免费视频一区二区三区| 免费在线观看影片大全网站| 免费观看a级毛片全部| 久久ye,这里只有精品| 人妻久久中文字幕网| 亚洲第一欧美日韩一区二区三区| 国产成人免费观看mmmm| 久久精品亚洲精品国产色婷小说| videos熟女内射| 999久久久精品免费观看国产| 成人精品一区二区免费| 久久人人爽av亚洲精品天堂| 激情在线观看视频在线高清 | 18禁观看日本| 欧美黑人精品巨大| 国产有黄有色有爽视频| 99热国产这里只有精品6| 一级毛片精品| 美女视频免费永久观看网站| 国产不卡一卡二| 一夜夜www| 可以免费在线观看a视频的电影网站| 中文字幕高清在线视频| 飞空精品影院首页| 亚洲av美国av| 十八禁人妻一区二区| 国产99久久九九免费精品| 久久久久久人人人人人| 亚洲精品一二三| 亚洲五月天丁香| 熟女少妇亚洲综合色aaa.| 91在线观看av| 国产精品国产高清国产av | 中亚洲国语对白在线视频| 69精品国产乱码久久久| 很黄的视频免费| 91老司机精品| 国产一区二区三区视频了| 亚洲欧美色中文字幕在线| 女人久久www免费人成看片| 免费观看人在逋| 免费不卡黄色视频| 亚洲国产精品合色在线| 极品少妇高潮喷水抽搐| 亚洲av电影在线进入| 日本一区二区免费在线视频| 夜夜躁狠狠躁天天躁| 亚洲欧美日韩另类电影网站| 91成人精品电影| 精品国产美女av久久久久小说| 老鸭窝网址在线观看| 亚洲成a人片在线一区二区| 国产99久久九九免费精品| 在线观看www视频免费| 久热这里只有精品99| 亚洲精品国产精品久久久不卡| 男人操女人黄网站| 日本vs欧美在线观看视频| 看片在线看免费视频| 国产亚洲精品久久久久久毛片 | 大香蕉久久成人网| 国产高清videossex| 99精品在免费线老司机午夜| 美女国产高潮福利片在线看| av中文乱码字幕在线| 久久香蕉国产精品| 国产熟女午夜一区二区三区| 人人澡人人妻人| 国产精品99久久99久久久不卡| 一区福利在线观看| 午夜激情av网站| 午夜福利一区二区在线看| 欧美日韩成人在线一区二区| 午夜久久久在线观看| 脱女人内裤的视频| ponron亚洲| 免费高清在线观看日韩| 无人区码免费观看不卡| 99久久99久久久精品蜜桃| 国产男靠女视频免费网站| 美女高潮喷水抽搐中文字幕| 久久午夜亚洲精品久久| 中文字幕av电影在线播放| 91成人精品电影| 久久中文字幕人妻熟女| 亚洲人成伊人成综合网2020| 日日摸夜夜添夜夜添小说| 91字幕亚洲| 亚洲aⅴ乱码一区二区在线播放 | 黑丝袜美女国产一区| 久久午夜亚洲精品久久| 黑人猛操日本美女一级片| 老司机深夜福利视频在线观看| 99国产极品粉嫩在线观看| 国产精品免费一区二区三区在线 | 我的亚洲天堂| 亚洲成人免费电影在线观看| 深夜精品福利| 中国美女看黄片| 久久国产精品人妻蜜桃| 韩国av一区二区三区四区| 亚洲成人免费av在线播放| 精品免费久久久久久久清纯 | 欧美不卡视频在线免费观看 | 欧美日韩亚洲高清精品| 母亲3免费完整高清在线观看| 色综合婷婷激情| 在线视频色国产色| 99久久精品国产亚洲精品| 精品国产超薄肉色丝袜足j| 男女下面插进去视频免费观看| 亚洲国产欧美网| 黄片小视频在线播放| 久久草成人影院| 黑人巨大精品欧美一区二区蜜桃| 青草久久国产| 午夜激情av网站| 波多野结衣av一区二区av| 在线观看日韩欧美| 国产精品综合久久久久久久免费 | 美女高潮喷水抽搐中文字幕| av天堂久久9| 国产真人三级小视频在线观看| 亚洲色图 男人天堂 中文字幕| 人人妻人人添人人爽欧美一区卜| 18禁观看日本| 国产一区二区激情短视频| 精品久久蜜臀av无| netflix在线观看网站| 91字幕亚洲| 国产三级黄色录像| 成人黄色视频免费在线看| 亚洲欧洲精品一区二区精品久久久| 久久 成人 亚洲| 国产精品影院久久| 国产真人三级小视频在线观看| 91av网站免费观看| 午夜精品久久久久久毛片777| 黄色丝袜av网址大全| 国产乱人伦免费视频| 国产一区有黄有色的免费视频| 男女床上黄色一级片免费看| 麻豆国产av国片精品| 久久国产精品人妻蜜桃| 麻豆成人av在线观看| 久久国产精品男人的天堂亚洲| av超薄肉色丝袜交足视频| 男女高潮啪啪啪动态图| 国产无遮挡羞羞视频在线观看| 欧美日本中文国产一区发布| 99热国产这里只有精品6| av网站在线播放免费| 变态另类成人亚洲欧美熟女 | 99香蕉大伊视频| 美女福利国产在线| 999久久久国产精品视频| 精品久久久久久久毛片微露脸| av天堂久久9| 国产男靠女视频免费网站| 久久中文字幕人妻熟女| 韩国av一区二区三区四区| 久久亚洲精品不卡| 这个男人来自地球电影免费观看| 又黄又粗又硬又大视频| 丝袜美腿诱惑在线| 精品一区二区三区四区五区乱码| 成人国产一区最新在线观看| 国产极品粉嫩免费观看在线| 国产欧美日韩一区二区三区在线| 国产av又大| 美女福利国产在线| av有码第一页| 美女福利国产在线| 两个人免费观看高清视频| 亚洲avbb在线观看| 精品人妻在线不人妻| 18禁裸乳无遮挡动漫免费视频| 日韩制服丝袜自拍偷拍| aaaaa片日本免费| 九色亚洲精品在线播放| 香蕉丝袜av| 亚洲av成人一区二区三| 成人免费观看视频高清| 9191精品国产免费久久| 黑丝袜美女国产一区| 国产成人精品久久二区二区免费| 免费高清在线观看日韩| 午夜福利影视在线免费观看| 性色av乱码一区二区三区2| 天天躁日日躁夜夜躁夜夜| 日韩视频一区二区在线观看| 看免费av毛片| 91精品三级在线观看| 久久ye,这里只有精品| 国产主播在线观看一区二区| 在线播放国产精品三级| 宅男免费午夜| 亚洲欧美激情综合另类| 一区二区三区激情视频| 久久精品国产亚洲av高清一级| www.精华液| 欧美精品亚洲一区二区| 一区福利在线观看| 在线观看免费日韩欧美大片| 中文字幕av电影在线播放| 午夜福利欧美成人| 极品教师在线免费播放| 一级片'在线观看视频| 亚洲色图av天堂| 99在线人妻在线中文字幕 | 超碰97精品在线观看| 久久人妻熟女aⅴ| 国产激情久久老熟女| 欧美成人午夜精品| 91精品三级在线观看| 精品国产一区二区久久| 美国免费a级毛片| 精品人妻熟女毛片av久久网站| 国内久久婷婷六月综合欲色啪| 波多野结衣av一区二区av| 日韩一卡2卡3卡4卡2021年| 午夜两性在线视频| 99国产精品一区二区蜜桃av | 一个人免费在线观看的高清视频| 人人澡人人妻人| 国产在线一区二区三区精| 久久午夜亚洲精品久久| 变态另类成人亚洲欧美熟女 | 国产1区2区3区精品| 国产又色又爽无遮挡免费看| 精品国产一区二区久久| 国产亚洲av高清不卡| 人人妻人人爽人人添夜夜欢视频| av网站在线播放免费| 婷婷精品国产亚洲av在线 | 久久久久久免费高清国产稀缺| 欧美精品人与动牲交sv欧美| 一区二区三区国产精品乱码| 一本一本久久a久久精品综合妖精| 午夜激情av网站| 最新在线观看一区二区三区| 久久精品亚洲熟妇少妇任你| 国产精品98久久久久久宅男小说| 他把我摸到了高潮在线观看| 在线看a的网站| 成年女人毛片免费观看观看9 | 国产色视频综合| 成人18禁高潮啪啪吃奶动态图| 黄色毛片三级朝国网站| 国产精品综合久久久久久久免费 | 一进一出抽搐gif免费好疼 | 丰满的人妻完整版| 欧美日韩成人在线一区二区| 成人影院久久| 日韩免费av在线播放| 高清毛片免费观看视频网站 | 欧美成狂野欧美在线观看| 最新的欧美精品一区二区| 最近最新中文字幕大全电影3 | 亚洲人成电影观看| 色婷婷久久久亚洲欧美| 欧美黄色片欧美黄色片| 99久久精品国产亚洲精品| 丝袜美足系列| av中文乱码字幕在线| 香蕉国产在线看| 女性被躁到高潮视频| 亚洲精华国产精华精| 亚洲三区欧美一区| 中文字幕人妻熟女乱码| 一进一出抽搐gif免费好疼 | 90打野战视频偷拍视频| 又黄又粗又硬又大视频| 丝袜美腿诱惑在线| 麻豆成人av在线观看| 99国产综合亚洲精品| 伦理电影免费视频| 国产高清激情床上av| 国产v大片淫在线免费观看| 欧美午夜高清在线| 尤物成人国产欧美一区二区三区| 亚洲国产欧美人成| 色av中文字幕| 国产一区二区在线观看日韩 | 丰满人妻熟妇乱又伦精品不卡| 91在线观看av| 日韩av在线大香蕉| 国产免费一级a男人的天堂| 99国产精品一区二区蜜桃av| 国产一级毛片七仙女欲春2| 丰满乱子伦码专区| 91在线观看av| 嫩草影院入口| 成人永久免费在线观看视频| 十八禁人妻一区二区| 欧美+亚洲+日韩+国产| 亚洲av免费高清在线观看| 女人高潮潮喷娇喘18禁视频| 国产精品美女特级片免费视频播放器| www日本黄色视频网| tocl精华| 国产av在哪里看| 1024手机看黄色片| 在线观看av片永久免费下载| 国产精品美女特级片免费视频播放器| 亚洲精品成人久久久久久| 性欧美人与动物交配| 亚洲专区国产一区二区| 美女 人体艺术 gogo| 香蕉久久夜色| 亚洲成人中文字幕在线播放| 欧美一级a爱片免费观看看| 色在线成人网| 在线播放国产精品三级| 日韩成人在线观看一区二区三区| 国产在视频线在精品| 久久精品国产自在天天线| 亚洲欧美日韩高清在线视频| 91麻豆精品激情在线观看国产| 欧美中文日本在线观看视频| 国产真实伦视频高清在线观看 | 国产精品乱码一区二三区的特点| 老汉色av国产亚洲站长工具| 成人高潮视频无遮挡免费网站| 偷拍熟女少妇极品色| 搡老熟女国产l中国老女人| 99精品欧美一区二区三区四区| 国产美女午夜福利| 18禁国产床啪视频网站| 亚洲欧美激情综合另类| 久久久久久人人人人人| 亚洲精品美女久久久久99蜜臀| 亚洲avbb在线观看| 国产三级在线视频| 最好的美女福利视频网| 88av欧美| 真实男女啪啪啪动态图| 国产av在哪里看| 国产精华一区二区三区| 欧美日韩黄片免| 欧美成人a在线观看| 中文资源天堂在线| 免费看美女性在线毛片视频| 狂野欧美激情性xxxx| 老汉色∧v一级毛片| 狠狠狠狠99中文字幕| 人妻久久中文字幕网| 国产男靠女视频免费网站| 精品欧美国产一区二区三| 伊人久久精品亚洲午夜| 97人妻精品一区二区三区麻豆| 精品欧美国产一区二区三| 国产探花极品一区二区| 琪琪午夜伦伦电影理论片6080| 欧美日韩亚洲国产一区二区在线观看| 中文字幕人成人乱码亚洲影| 国产美女午夜福利| 色哟哟哟哟哟哟| 1024手机看黄色片| 国产乱人伦免费视频| 色吧在线观看| 亚洲国产中文字幕在线视频| 变态另类成人亚洲欧美熟女| 久久久久久久精品吃奶| 午夜免费男女啪啪视频观看 | 亚洲五月天丁香| 怎么达到女性高潮| www.色视频.com| www.熟女人妻精品国产| 亚洲国产精品999在线| 日韩欧美三级三区| 精品久久久久久久久久免费视频| 亚洲专区国产一区二区| 乱人视频在线观看| 国产精品国产高清国产av| 欧美在线黄色| 久久性视频一级片| 亚洲人成网站在线播| 可以在线观看毛片的网站| 每晚都被弄得嗷嗷叫到高潮| 国产一区二区亚洲精品在线观看| 老司机午夜十八禁免费视频| 在线天堂最新版资源| 精品久久久久久久末码| 美女被艹到高潮喷水动态| 国产三级中文精品| 亚洲七黄色美女视频| 亚洲无线观看免费| 97人妻精品一区二区三区麻豆| 熟女人妻精品中文字幕| 老熟妇仑乱视频hdxx| 欧美性猛交╳xxx乱大交人| 天堂影院成人在线观看| 我的老师免费观看完整版| 99在线视频只有这里精品首页| 欧美日韩国产亚洲二区| 草草在线视频免费看| 成人亚洲精品av一区二区| 一进一出好大好爽视频| 欧美中文综合在线视频| 久久久久久久久久黄片| 少妇人妻精品综合一区二区 | 日本 欧美在线| 精品不卡国产一区二区三区| 精华霜和精华液先用哪个| 真人一进一出gif抽搐免费| 淫妇啪啪啪对白视频| 国产av不卡久久| 国产成人欧美在线观看| 草草在线视频免费看| 久久久精品大字幕| 亚洲自拍偷在线| 成熟少妇高潮喷水视频| 91麻豆精品激情在线观看国产| 脱女人内裤的视频| 在线免费观看的www视频| 波多野结衣巨乳人妻| 亚洲七黄色美女视频| 国产精品亚洲一级av第二区| 一个人免费在线观看电影| 变态另类成人亚洲欧美熟女| 久久6这里有精品| 国内精品美女久久久久久| 欧美日韩乱码在线| 日本成人三级电影网站|