• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    慕課學(xué)生互評誤差糾正方法及其比較

    2016-06-05 14:18:00孫開鍵
    中國考試 2016年1期
    關(guān)鍵詞:作業(yè)方法模型

    熊 瑤 孫開鍵

    慕課學(xué)生互評誤差糾正方法及其比較

    熊 瑤 孫開鍵

    學(xué)生互評是廣泛用于慕課的一種評價方法,然而學(xué)生評估者本身存在比較大的評分誤差。本文著重介紹和比較可用于糾正慕課學(xué)生互評誤差的方法。這些方法總體分為兩大類,即對學(xué)生評估者進(jìn)行前期糾正的方法和對評分結(jié)果進(jìn)行后期糾正的方法。文中總結(jié)的絕大部分方法目前都還沒有被實(shí)際運(yùn)用在慕課學(xué)生互評中。希望通過本文對慕課學(xué)生互評以及糾正學(xué)生評分誤差方法的介紹,可以讓更多的教育研究者參與對慕課的評價系統(tǒng)進(jìn)行改善的研究。

    慕課;學(xué)生互評;誤差糾正

    1 引言

    近些年,大規(guī)模開放在線課程(massive open on?line course,MOOC,中文稱為“慕課”)已經(jīng)成為高等教育中的熱門話題。慕課有幾個主要特點(diǎn)值得說明。首先,它是在線課程,課程內(nèi)容是循序漸進(jìn)的,有規(guī)定的開課結(jié)課時間,有老師的講義,有需要按時完成的作業(yè)和考試,以及學(xué)生的討論等,這些都和傳統(tǒng)的大學(xué)課程相似。它的最主要的特點(diǎn)是規(guī)模很龐大,具體體現(xiàn)在學(xué)生數(shù)量上。一門慕課平均能夠吸引兩萬名學(xué)生(Jordan,2014)。最后,慕課通常是對所有人免費(fèi)開放的。不過也有一些例外,比如Udacity會對參與的學(xué)生收取每月大約200美元的學(xué)費(fèi)。通常這些收費(fèi)的項(xiàng)目也會給完成課程要求的學(xué)生提供慕課證書。

    隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,慕課也使學(xué)生間互動以及學(xué)生社群的發(fā)展得到更好的支持。比如,“慕課學(xué)院”(http://mooc.guokr.com/)給中國大量的慕課學(xué)習(xí)者提供了一個課外分享和交流的平臺。慕課與傳統(tǒng)的自學(xué)考試有很大的區(qū)別,慕課主要以學(xué)習(xí)體驗(yàn)為導(dǎo)向,大部分慕課學(xué)生不以拿到證書為目的,而自學(xué)考試更注重通過考試得到學(xué)位。

    在全世界范圍內(nèi),慕課平臺已經(jīng)得到很好的發(fā)展。主要以英語授課的平臺,比如Coursera,edX和Udacity吸引了大量的用戶群。值得一提的是,Coursera上的大部分課程內(nèi)容都已被各國學(xué)生志愿者翻譯成多種不同的語言,因此非英語為母語的世界各地的學(xué)生也能夠順利地進(jìn)行學(xué)習(xí)。在中國,以中文授課的平臺也吸引了大量的學(xué)習(xí)者,比如“慕課網(wǎng)”(http://www.imooc.com/)和“中國大學(xué)MOOC”(http://www.icourse163.org/)。其中“慕課網(wǎng)”與別的慕課平臺稍有不同,它提供的課程主要是短課程,比如幾個小時,并且不設(shè)定學(xué)生的學(xué)習(xí)進(jìn)度。

    慕課給高等教育帶來了革新。它為所有人提供了一個免費(fèi)或低費(fèi)用接受高等教育的機(jī)會。慕課學(xué)生需要的僅僅是一臺電腦以及暢通的網(wǎng)絡(luò)。有人認(rèn)為它也許會對傳統(tǒng)的高等教育帶來沖擊,因?yàn)槟秸n相對于傳統(tǒng)的課堂教育更加高效,具體體現(xiàn)在開設(shè)一門慕課的成本分?jǐn)偟矫總€學(xué)生身上相對于傳統(tǒng)的課堂教育有所減少(Hollands&Tirthali, 2014)。慕課也許為降低高等教育成本提供了一種可能。但是,同時也有學(xué)者認(rèn)為慕課部分取代傳統(tǒng)高等教育的未來還存在很多挑戰(zhàn),最主要的挑戰(zhàn)是如何提供一個信效度高的評價機(jī)制對學(xué)生的學(xué)習(xí)成果進(jìn)行評估(Sandeen,2013)。學(xué)生也許在慕課中有好的學(xué)習(xí)體驗(yàn),但是現(xiàn)有的慕課評價系統(tǒng)還無法作出準(zhǔn)確可信賴的評估。目前常用于慕課的評估方法最主要的還是機(jī)器評分,機(jī)器評分局限于客觀題的評分,比如單項(xiàng)選擇題。論文自動評分是一種更加智能的機(jī)器評分,主要應(yīng)用于慕課學(xué)生的寫作評分(Balfour,2013)。然而,論文自動評分的算法還有局限性,它能夠準(zhǔn)確無誤地指出詞匯或語法的錯誤,卻不能有效地識別寫作中的修辭手法等比較高級的寫作手法(Graesser&McNamara,2012),因此它只能局限用于程式化的寫作中,對于比較富有創(chuàng)造力的創(chuàng)作型作業(yè)的評分技術(shù)還不夠成熟。另外一種常用于慕課評分的是學(xué)生互評(peer assess?ment),Coursera對于開放性試題和作業(yè)都是采取學(xué)生互評的方式(Balfour,2013)。學(xué)生互評是一種人工評分方式,主要用于對開放性的作業(yè)進(jìn)行評分。通常在傳統(tǒng)的課堂教育中,這種開放性作業(yè)都是教師或者助教負(fù)責(zé)評分。然而在規(guī)模浩大的慕課中,教師評分工作量太大,于是學(xué)生互評成為一種可行的并被廣泛應(yīng)用的方法。

    慕課中學(xué)生互評的過程通常包括幾個典型的步驟。就以Coursera上的《地圖與地理空間革命》(https://www.coursera.org/course/maps)課程中的學(xué)生互評作為例子(Robinson et al.,2015),這門課只有一次開放性作業(yè),因此也只有一次學(xué)生互評活動。在課程的最后一周,學(xué)生運(yùn)用在本課程中學(xué)到的地理知識和地圖繪制技能按照教師的要求自定義繪制并上傳一張富含信息的電子地圖。在學(xué)生上交電子地圖之后,有一段學(xué)生互評的時間,上交了自己作業(yè)的學(xué)生有權(quán)利隨機(jī)給別的學(xué)生地圖評分以及提供反饋意見。課程系統(tǒng)上,建議每個學(xué)生評6張地圖,但是學(xué)生有自主權(quán),可以選擇評更多或更少。在評分完成后,學(xué)生會收到其他學(xué)生對他本人作業(yè)地圖的評分結(jié)果。與其他的慕課課程活動類似,學(xué)生互評也是基于學(xué)生自愿的原則進(jìn)行的。有的學(xué)生選擇上交作業(yè)但是不參加學(xué)生互評,但實(shí)際上大部分上交了作業(yè)的學(xué)生都參與了這個學(xué)生互評的環(huán)節(jié)。通常在一門慕課中,會有一次到幾次的學(xué)生互評活動。

    學(xué)生互評在傳統(tǒng)教育中扮演著重要的角色,它能夠減輕教師負(fù)擔(dān)并且讓學(xué)生通過評價他人的作業(yè)加深自己的認(rèn)知(Topping,2009)。不過由于學(xué)生的知識水平和評價能力還不夠成熟,學(xué)生互評在傳統(tǒng)教育中一般只用于提供形成性評估,它還不太能勝任總結(jié)性評估。在慕課中,學(xué)生有很大自主權(quán),他們進(jìn)行自主學(xué)習(xí),負(fù)責(zé)自己的學(xué)習(xí)進(jìn)度以及評估自己和同學(xué)的學(xué)習(xí)成果。與傳統(tǒng)的學(xué)生互評一樣,慕課中的學(xué)生互評也面臨著同樣的問題,因?yàn)楹芏鄬W(xué)生還處于積累知識的階段,可能還不完全具備充足的知識和能力對同學(xué)的作業(yè)或作品進(jìn)行準(zhǔn)確有效的評價。同時,由于在慕課中開放性試題和作業(yè)很多時候只能依賴于學(xué)生互評這一項(xiàng)評估手段,學(xué)生作為評估者所存在的問題更加凸顯出來。

    2 慕課學(xué)生互評評分誤差糾正方法

    近年來,一批研究者,包括教育研究者和計算機(jī)科學(xué)家,對慕課中的學(xué)生互評進(jìn)行了研究分析,并提出一些可用于糾正學(xué)生評估者評分誤差的方法。另外,筆者也總結(jié)出一些還未應(yīng)用但有潛力被應(yīng)用于慕課學(xué)生互評中以糾正評估者誤差的方法。這些方法總體來說都是以提高學(xué)生互評結(jié)果的準(zhǔn)確度和信度為目的,大體可以分為兩個大類。第一類方法主要是對學(xué)生評估者(peer rater)進(jìn)行前期糾正或測試,第二類方法主要是對學(xué)生互評結(jié)果進(jìn)行后期糾正。本文將分析比較這兩類不同的方法。

    2.1 對學(xué)生評估者進(jìn)行前期糾正的方法

    對學(xué)生評估者進(jìn)行前期糾正的方法是在學(xué)生互評發(fā)生之前對學(xué)生評估者存在的誤差進(jìn)行糾正或估計。通常有一個外在的無誤差的標(biāo)準(zhǔn),可以通過訓(xùn)練讓學(xué)生接近這個標(biāo)準(zhǔn),從而減少學(xué)生可能存在的評分誤差,或者根據(jù)估算學(xué)生與外在標(biāo)準(zhǔn)之間的差距而給學(xué)生評估者不同的權(quán)重,從而使誤差較小的評估者在實(shí)際評分中能得到更大的權(quán)重,而降低誤差較大的評估者在實(shí)際評分中的影響。

    當(dāng)涉及人工評分的時候,對于評估者的前期培訓(xùn)有助于他們更好地理解評分規(guī)則,從而減少由于對評分規(guī)則的誤解而產(chǎn)生的誤差。系統(tǒng)的有針對性的培訓(xùn)能夠使學(xué)生評估者更有效地進(jìn)行評估,并提供有建設(shè)性的反饋意見,從而幫助被評估者進(jìn)行反思和學(xué)習(xí)(e.g.,Saito,2008;Sluijsmans,Brand-Gruwel,&van Merri?nboer,2002)。例如,在Min(2006)的研究中闡述了對于學(xué)生評估者進(jìn)行系統(tǒng)培訓(xùn)的價值,在對18個學(xué)生評估者進(jìn)行課上集體培訓(xùn)和課后一對一的培訓(xùn)后,評估者提供的反饋意見能更多的被采納,從而提高了學(xué)生的學(xué)習(xí)效果。然而,這種系統(tǒng)有針對性的培訓(xùn)比較難于在學(xué)生評估者數(shù)量眾多的慕課中實(shí)施。對于慕課學(xué)生評估者的培訓(xùn),大概只能局限于對評分規(guī)則進(jìn)行講解和示范,針對每個學(xué)生評估者的個性化培訓(xùn)很難實(shí)現(xiàn)。Li et al.(2015)指出目前的關(guān)于學(xué)生評估的文獻(xiàn)中似乎并不能確定前期培訓(xùn)能起到實(shí)質(zhì)性的作用。這也許跟現(xiàn)有的培訓(xùn)學(xué)生評估者的形式和質(zhì)量有關(guān)。目前鮮有研究者做過針對慕課學(xué)生評估者進(jìn)行培訓(xùn)的調(diào)查研究。已有的慕課平臺也尚未把前期培訓(xùn)作為重要的環(huán)節(jié)納入考量。這里存在著較大的研究缺口有待今后補(bǔ)充。

    雖然前期培訓(xùn)較難在慕課中系統(tǒng)實(shí)施,但是有些慕課平臺提供了對學(xué)生評估者進(jìn)行前期校驗(yàn)的方法,目的在于根據(jù)學(xué)生評估者在校驗(yàn)過程中的評估準(zhǔn)確性給每個評估者計算出一個權(quán)重,這個權(quán)重決定了此評估者在之后真正的評估中的價值。比如Coursera就采取了定標(biāo)學(xué)生評估(Calibrated Peer Review,CPRTM)的方法應(yīng)用于學(xué)生互評中(http://cpr. molsci.ucla.edu/Home.aspx)(Balfour,2013)。定標(biāo)學(xué)生評估的方法是美國加州大學(xué)洛杉磯分校的研究者研發(fā)出來的基于網(wǎng)絡(luò)的學(xué)生評估工具。它的基本思想是學(xué)生評估者的評分準(zhǔn)確度可以通過他在同一個作業(yè)上與教師評分之間的差距得到。換言之,學(xué)生在同一個作業(yè)上的評分與教師的評分越接近,表示這個學(xué)生評估者越可信賴。定標(biāo)學(xué)生評估是在真正的學(xué)生評估之前的一個短暫的培訓(xùn)校驗(yàn)過程,目的在于讓學(xué)生了解評分標(biāo)準(zhǔn)以及進(jìn)行實(shí)際練習(xí),更重要的是由此得到一個評估者能力指數(shù)(Reviewer Competency Index,RCI)代表此評估者的準(zhǔn)確度。在這個校驗(yàn)過程中,每個學(xué)生都會對幾個樣本作業(yè)進(jìn)行評估,這幾個樣本作業(yè)是已經(jīng)由教師評過分的,所以學(xué)生的評分與教師評分之間的差距可以由此得出,再進(jìn)行一些算術(shù)變換,可以計算出每個學(xué)生的評估者能力指數(shù)。這個指數(shù)的具體算法目前還未能從已有文獻(xiàn)中找到,因?yàn)槎?biāo)學(xué)生評估的平臺已經(jīng)被商業(yè)化了。需要用這個平臺的教育機(jī)構(gòu)需要付費(fèi)才能使用。

    實(shí)際上,Coursera在對這個定標(biāo)學(xué)生評估的應(yīng)用時不同于最初設(shè)定。以斯坦福大學(xué)的《人機(jī)交互》(https://class.coursera.org/hci)這門課上應(yīng)用的定標(biāo)學(xué)生評估為例,它與傳統(tǒng)的定標(biāo)學(xué)生評估有所不同。首先,這個校驗(yàn)過程并不發(fā)生在真正的學(xué)生互評之前,而是跟學(xué)生互評一起進(jìn)行(Piech et al., 2013),也就是說,在學(xué)生按時完成并上交他們的作業(yè)之后,進(jìn)行學(xué)生互評的過程中,個別的學(xué)生作業(yè)會被選取出來當(dāng)作樣本分發(fā)給學(xué)生評估者。這里的樣本作業(yè)是已經(jīng)被教師評過分而且會被很多的學(xué)生評分,如果假設(shè)教師評分是準(zhǔn)確無誤的話,這個作業(yè)本身的準(zhǔn)確分?jǐn)?shù)是已知的。同時別的非樣本作業(yè)也隨機(jī)分發(fā)給學(xué)生評估者,因此每個學(xué)生評估者都會收到一兩個樣本作業(yè)以及三四個非樣本作業(yè)進(jìn)行評分。很明顯,這個定標(biāo)互評的著重點(diǎn)是在定標(biāo),而不注重估評者培訓(xùn)。雖然學(xué)生評估者能力指數(shù)也能從這個過程中得出,但是教師也可以選擇不使用這個指數(shù)。目前暫無文獻(xiàn)記錄Coursera平臺上的慕課有真正使用過定標(biāo)學(xué)生評估這個工具。它只是給教師提供了一個選擇,而具體用或不用以及怎么用都取決于負(fù)責(zé)這門課的教師。

    另外,在定標(biāo)學(xué)生評估方法的基礎(chǔ)上,也有研究者提出了一個擴(kuò)展的版本——可靠度指數(shù)(Cred?ibility Index,CI)(Suen,2014;Xiong,Goins,Suen, Pun,&Zang,2014)??煽慷戎笖?shù)類似于評估者能力指數(shù),可用于賦予評估者不同的權(quán)重。相對評估者能力指數(shù),可靠度指數(shù)不僅涵括了評估者的準(zhǔn)確度,也包括評估者的信度和適應(yīng)性。準(zhǔn)確度是指與教師評分的一致性,這個與定標(biāo)學(xué)生評估中的評估者能力指數(shù)一致,信度被定義為評估者對于某個固定作業(yè)評分的一致性,適應(yīng)性被定義為評估者對不同的作業(yè)評分準(zhǔn)確度的一致性??煽慷戎笖?shù)是這三個指數(shù)的整合,對評估者評估能力有更全面的體現(xiàn)。在計算可靠度指數(shù)的過程中,需要每個學(xué)生評估者對至少兩個已知準(zhǔn)確分?jǐn)?shù)的樣本作業(yè)進(jìn)行評估,給出評分的同時也給出對每個樣本作業(yè)能給到的最高得分和最低得分,因此對同一個樣本作業(yè),學(xué)生評估者需要給出三個分?jǐn)?shù):作業(yè)得分、最高得分和最低得分。準(zhǔn)確度還是按跟教師評分的差距進(jìn)行計算,與教師評分差距越大,準(zhǔn)確度越低。信度的計算是按對同一個作業(yè)給出的最高得分和最低得分的差距計算,差距越大說明信度越低。適應(yīng)性是按對不同樣本作業(yè)的準(zhǔn)確度的差異計算得到,準(zhǔn)確度越一致,適應(yīng)性越大。具體的計算公式請參考Xiong et al.(2014)??煽啃灾笖?shù)是對評估者能力指數(shù)的一個補(bǔ)充,理論上來說應(yīng)該更能反映一個學(xué)生評估者的評分能力。然而,這個指數(shù)還只有一個雛形,還未被用真正用于實(shí)際的慕課學(xué)生互評中,進(jìn)一步的測試和完善還有待日后研究。

    2.2 對學(xué)生評分結(jié)果進(jìn)行后期糾正的方法

    除了前期糾正學(xué)生評估者的方法以外,糾正學(xué)生評分誤差的方法還包括另外一類,就是對學(xué)生評分結(jié)果進(jìn)行后期糾正。這類方法旨在通過分析已有的學(xué)生評分?jǐn)?shù)據(jù),對學(xué)生評估者的評分偏差和評分信度進(jìn)行考量,從而估算學(xué)生上交作業(yè)的真分?jǐn)?shù)。這個真分?jǐn)?shù)是剔除了評分者誤差之后所得到的更準(zhǔn)確的分?jǐn)?shù),它誤差更小,更能反應(yīng)學(xué)生的真實(shí)水平。這些方法總體也可以分為兩大類,一類是在機(jī)器學(xué)習(xí)領(lǐng)域提出的一些統(tǒng)計模型,另一類是屬于項(xiàng)目反應(yīng)理論(Item Response Theory)的范疇。

    Piech et al.(2013)提出了一個可以實(shí)際應(yīng)用于慕課學(xué)生互評中估計學(xué)生作業(yè)真分?jǐn)?shù)的統(tǒng)計模型,并且把這個統(tǒng)計模型運(yùn)用到兩門慕課學(xué)生互評的數(shù)據(jù)中。用貝葉斯方法對參數(shù)進(jìn)行估計,結(jié)果顯示用模型化的方法得到的真分?jǐn)?shù)比用原始數(shù)據(jù)更加準(zhǔn)確。在Piech提出的模型中,他假設(shè)學(xué)生給出的實(shí)際分?jǐn)?shù)是正態(tài)分布的,以作業(yè)真分?jǐn)?shù)和學(xué)生評估者偏差的差值為平均值,以學(xué)生評估者信度的倒數(shù)為方差,如下所示:

    其中,znj表示學(xué)生評估者j給學(xué)生作業(yè)n評分的標(biāo)準(zhǔn)z-分,這個模型把評分都轉(zhuǎn)化為標(biāo)準(zhǔn)z-分,因此原本數(shù)據(jù)由類別數(shù)據(jù)(categorical data)轉(zhuǎn)化為連續(xù)數(shù)據(jù)(continuous data);tn是指學(xué)生作業(yè)n的真分?jǐn)?shù);bj是指評估者j的偏差,正數(shù)表示評估者較嚴(yán)厲(severe),負(fù)數(shù)表示評估者評分較寬容(lenient);τj是指學(xué)生評估者j的信度,評估者信度越大,評分的方差就越小。tn,bj和τj都被作為參數(shù)進(jìn)行估計。因此在慕課學(xué)生互評中,每個學(xué)生作業(yè)都會有一個真分?jǐn)?shù),每個學(xué)生評估者都會有一個偏差和一個信度參數(shù)。這個方法最近又被應(yīng)用在一個傳統(tǒng)課堂的學(xué)生互評中(Sajjadi,Alamgir,&von Luxburg,2015),但是結(jié)果顯示用這個方法估計出來的真分?jǐn)?shù)并不優(yōu)于直接用原本數(shù)據(jù)。由此可見,這個模型并不能適用于所有的學(xué)生互評的情況。具體適用于什么情況,需要注意什么,還有待研究。

    另外一個類似但是略有不同的模型是Goldin(2012)提出的。Goldin提出這個模型時并沒有實(shí)際應(yīng)用到慕課學(xué)生互評中,只是用到了一個小班的傳統(tǒng)課堂的學(xué)生互評中。一個有28個學(xué)生的小班,Goldin收集了學(xué)生互評的結(jié)果,同時收集了教師評分的結(jié)果,用這些分?jǐn)?shù)去估計學(xué)生作業(yè)的真分?jǐn)?shù)和學(xué)生評估者的誤差。與Piech的模型不同的是,Goldin的模型加入了題目的難度系數(shù)作為參數(shù),因?yàn)镚oldin的模型適用于多個不同開放型題目的評分,而Piech的模型只局限于單個開放型題目?;蛘哒fGoldin的模型也適用于對同一個作業(yè)的多個分解評分(analytic scoring),而Piech的模型只適用于綜合評分(holistic scoring)。統(tǒng)計模型如下所示:

    其中,ynij是指學(xué)生評估者j給學(xué)生n的作業(yè)題目i的評分,tni是學(xué)生n的作業(yè)題目(或標(biāo)準(zhǔn))i的真分?jǐn)?shù),學(xué)生的真分?jǐn)?shù)是多維的,不是一個單一分?jǐn)?shù),維度由題目(或標(biāo)準(zhǔn))的數(shù)量決定;di是指題目(或標(biāo)準(zhǔn))i的難度系數(shù),bj是指學(xué)生評估者j的評分偏差,1/τj是試題i的合并的方差。在這個模型里,沒有考慮評估者的信度,把τi改成τj才是評估者信度。如果我們更關(guān)心的是評估者的信度而不是試題本身的方差,可以把這個參數(shù)改成τj;insn是教師給學(xué)生n的綜合分?jǐn)?shù),在這個模型中,設(shè)定教師只給出綜合分?jǐn)?shù);β是一個列向量,包含多個系數(shù);α0是截距;γ表示教師評分信度。在這個模型中,學(xué)生的評分與教師評分被設(shè)定為線性關(guān)系。Piech的模型可以認(rèn)為是Goldin的模型的一個簡化版,因?yàn)镚oldin的模型加入了教師的評分,并且可以適用于多題目或多標(biāo)準(zhǔn)的評分,因?yàn)樗O(shè)定了每個題目不一樣的難度系數(shù)。如果忽略教師的評分以及使用學(xué)生綜合評分,那么Goldin的模型就基本簡化成為Piech的模型。

    Piech的模型和Goldin的模型有一個共同的潛在假設(shè),即假設(shè)學(xué)生的評分是一個連續(xù)變量,因?yàn)樵谶@兩個模型中,是用正態(tài)分布來設(shè)定分?jǐn)?shù)分布。事實(shí)上,人工評分量表往往都不是連續(xù)的,而是類別分?jǐn)?shù),比如從1到9的整數(shù)分?jǐn)?shù)。實(shí)際上,在教育測量領(lǐng)域已有的項(xiàng)目反應(yīng)理論中,也能找到適用于人工評分的模型,這些模型能夠直接處理類別分?jǐn)?shù)。在人工評分中使用得比較廣泛的一個方法是由Linacre(1989)提出的多面Rasch模型(Manyfacet Rasch Measurement,MFRM),其中比較常用的是三面Rasch評分模型(Three-facet Rasch Rating Scale Model)。這三個面分別是指:被評估者、評估者和試題。它的數(shù)學(xué)公式如下所示:

    其中,pnijk指學(xué)生n的作業(yè)試題i得到評估者j打分為k的概率;tn是指學(xué)生n的真分?jǐn)?shù)或真實(shí)能力;di指試題i的難度系數(shù);bj指評估者j的評分誤差;fk是一個增量參數(shù),表示由得分k-1跳到k需要的能力上的增量,這里的fk只有一個下標(biāo),表示對于所有的試題和評估者都設(shè)定同樣的增量參數(shù);當(dāng)然,fk也可以被替換為fik或者fjk來表示不同的試題或評估者會有不同的增量參數(shù);k是一個可以從0到K的系數(shù),K是量表的滿分,設(shè)定f0=0。

    多面Rasch模型被廣泛用于人工評分中估計被評估者的真實(shí)水平(Basturka,2008;Farrokhi&Es?fandiari,2011;Smith&Kulikowich,2004),同時它也有被用于慕課學(xué)生互評的潛力。不過有一個問題值得注意,就是慕課學(xué)生互評中學(xué)生評估者數(shù)量很大,而且缺失數(shù)據(jù)的量也很龐大,因此需要估計的參數(shù)很多,觀測到的數(shù)據(jù)卻比較有限,所以運(yùn)用多面Rasch模型在慕課學(xué)生互評中的實(shí)際效果還有待考量。

    除了多面Rasch模型以外,Patz(2002)提出了一個更新的多層評分模型(Hierarchical Rater Model,HRM),也屬于項(xiàng)目反應(yīng)理論的范疇。與多面Rasch模型的不同之處在于,它是一個雙層模型,包括了第一層由評估者的評分來估計被評作業(yè)的真分?jǐn)?shù),第二層由被評作業(yè)的真分?jǐn)?shù)來估計被評估者的真實(shí)水平。這里的被評作業(yè)真分?jǐn)?shù)與之前的三個模型不同,它不是連續(xù)變量,而是一個類別變量。這個真分?jǐn)?shù)可以定義為在理想無誤差狀況下,被評作業(yè)應(yīng)得的最公平的分?jǐn)?shù)。如果原始評分標(biāo)準(zhǔn)是從1分到9分,那么這個真分?jǐn)?shù)也應(yīng)該是從1分到9分的整數(shù)分?jǐn)?shù)。這個模型的第一層的數(shù)學(xué)公式如下:

    其中,xnij是指學(xué)生評估者j給學(xué)生作業(yè)n的試題i給出的評分,是實(shí)際的觀測到的數(shù)據(jù);ξni是指在無誤差的理想狀況下,該作業(yè)的真分?jǐn)?shù),是未知類別參數(shù);bj是評估者j的偏差;τj是指評估者j的信度。第二層模型是對理想真分?jǐn)?shù)和被評估者潛在能力的關(guān)系進(jìn)行建模,這兩個參數(shù)都不是實(shí)際觀測到的數(shù)據(jù),而是潛在參數(shù)。Patz(2002)提出第二層模型可以用多類項(xiàng)目反應(yīng)理論模型(Polytomous IRT Model),比如分部評分模型(Partial Credit Model)(Masters,1982)。除了多層評分模型以外,還有一些類似的方法被提出,比如Decarlo提出的信號檢測評分模型(Signal Detection Rater Model)(DeCarlo, Kim,&Johnson,2011)以及Wilson提出的評分包裹模 型(Rater Bundle Model)(Wilson&Hoskens, 2001)。這些方法都與Patz的方法有類似的效果。

    多面Rasch模型和多層評分模型目前都未實(shí)際用于分析慕課學(xué)生互評的數(shù)據(jù),它們是可用于人工評分的一些通用模型,用于慕課學(xué)生互評的數(shù)據(jù)中的實(shí)際可行性和效果還有待實(shí)際驗(yàn)證。這兩個模型互有優(yōu)劣,比如多面Rasch模型所考慮的參數(shù)數(shù)量少一些,因?yàn)闆]有考慮到ξni這個理想無誤差分?jǐn)?shù)的參數(shù)。參數(shù)數(shù)量少也許在一般的人工評分情況下不一定很重要,但是在慕課學(xué)生互評中,參數(shù)數(shù)量少顯得很重要,因?yàn)閷?shí)際的觀測數(shù)據(jù)有限,如果需要估計的參數(shù)數(shù)量很多的話,對參數(shù)的估計結(jié)果不一定會很準(zhǔn)確。而多層評分模型的優(yōu)點(diǎn)也在于引入了ξni這個參數(shù),從而把不同的評估者對于同一個作業(yè)的評分存在的相關(guān)性進(jìn)行了更好的模擬,這樣的估計結(jié)果應(yīng)該更準(zhǔn)確(Patz et al.,2002)。

    2.3 學(xué)生互評評分誤差糾正方法的比較

    前面所分析的這些不同的方法雖然都有一個相同的功能,就是能計算出一個更加準(zhǔn)確的分?jǐn)?shù),以反映學(xué)生作業(yè)的真實(shí)水平。但是,這些方法也存在很多的差別,具體的差別大體可以分為三個方面:不同的假設(shè),不同的參數(shù)設(shè)置和參數(shù)估計方法,以及模型適用范圍的差別。

    2.3.1 假設(shè)不同

    不同的模型有內(nèi)在不同的假設(shè)。首先,對于真分?jǐn)?shù)的定義略有差別。定標(biāo)學(xué)生評估和可靠度指數(shù)這兩種方法,假設(shè)真分?jǐn)?shù)為無限接近教師評分的分?jǐn)?shù),因此這兩種方法的目標(biāo)都是對學(xué)生評分重新設(shè)定不同的權(quán)重,以讓估計的結(jié)果更加接近于教師的評分。多面Rasch模型以及Piech和Goldin的模型則假設(shè)真分?jǐn)?shù)是被評估者潛在的能力,是一個連續(xù)變量,而這個能力是從他對試題的答題狀況反映出來。多層評分模型略有不同,它假設(shè)的真分?jǐn)?shù)是理想狀態(tài)下學(xué)生作業(yè)應(yīng)該得到的準(zhǔn)確分?jǐn)?shù),是一個類別變量,但是同時它也會跟多面Rasch模型一樣,在另一個層面上由這個理想分?jǐn)?shù)估計出被評估者潛在的能力,這是能力參數(shù)的一個連續(xù)變量。

    另外,這些不同的方法對于觀測到的學(xué)生評分?jǐn)?shù)據(jù)存在哪些誤差也有不同的假設(shè)。定標(biāo)學(xué)生評估方法假設(shè)學(xué)生的評分只存在一個準(zhǔn)確度上的誤差,可靠度指數(shù)方法則加入了信度和適應(yīng)度這兩個可能存在的誤差。多面Rasch模型也假設(shè)觀測到的評分存在準(zhǔn)確度上的誤差,同時由于它利用統(tǒng)計模型來估計,因此也允許有隨機(jī)誤差的發(fā)生。而Piech和Goldin的模型在多面Rasch模型的基礎(chǔ)上,加入了學(xué)生評估者的信度作為參數(shù),因此每個評估者的信度也會被估計。多層評分模型跟Piech和Goldin的模型相似,既包含了評估者準(zhǔn)確度上的誤差也考量了評估者的信度。

    最后,不同的方法其實(shí)都有一個共同的假設(shè),那就是學(xué)生評估者對不同的作業(yè)進(jìn)行評估時的準(zhǔn)確度、信度這些參數(shù)是保持不變的。有一個例外是可靠度指數(shù)這個方法,它提出了一個適應(yīng)性參數(shù),是用來考量評估者準(zhǔn)確度的穩(wěn)定性,它實(shí)際上假設(shè)了準(zhǔn)確度在不同的情況下可能會不一致。

    2.3.2 參數(shù)設(shè)置和參數(shù)估計方法不同

    前述不同方法的參數(shù)設(shè)置和參數(shù)估計方法有較大差異。定標(biāo)學(xué)生評估方法只有一個參數(shù),就是評估者的準(zhǔn)確度,并且對這個參數(shù)的估計只有一個點(diǎn)估計,這個方法的一個缺點(diǎn)是缺乏有效方法來評估這個點(diǎn)估計的準(zhǔn)確性??煽慷戎笖?shù)方法加入了信度和適應(yīng)性,但是也用的是相同的點(diǎn)估計的方法,存在相同的缺點(diǎn)。多面Rasch模型在考量了評估者偏差的基礎(chǔ)上,加入了對試題難度系數(shù)的考慮,并且由于把原始數(shù)據(jù)當(dāng)類別變量,它也加入了增量參數(shù)。對這些參數(shù)的估計,目前比較常用的是最大似然估計(Maximum Likelihood Estimation),可以用一些擬合指數(shù)(fit index)來評估估計結(jié)果的準(zhǔn)確性(Linacre,1989;Myford&Wolfe,2003,2004)。Piech和Goldin的模型中把數(shù)據(jù)當(dāng)連續(xù)變量,因此不需要增量參數(shù),但是它們都包含評估者的信度參數(shù)。對參數(shù)的估計采用的是貝葉斯估計的方法,也就是從參數(shù)的后驗(yàn)分布(posterior distribution)中得出估計結(jié)果。多層評分模型最大的區(qū)別是加入了一個中間參數(shù)ξni,即理想真分?jǐn)?shù),由于模型比較復(fù)雜,采用貝葉斯估計的方法可能更方便(Patz et al., 2002)。

    慕課學(xué)生互評由于評估者數(shù)量很大,并且缺失數(shù)據(jù)的量也很大,因此用任何方法來估計參數(shù)都面臨著同樣的問題,即觀測數(shù)據(jù)有限,而需要估計的參數(shù)很多。因此簡單的含參數(shù)較少的模型相對于復(fù)雜的模型可能更優(yōu)越,不過還有待后續(xù)研究進(jìn)行驗(yàn)證。

    2.3.3 適用范圍不同

    不同的方法各有其局限性。首先,大部分的方法都還沒有實(shí)際運(yùn)用在慕課學(xué)生互評數(shù)據(jù)中,它們的實(shí)際功能和缺陷還有待后續(xù)的實(shí)證研究進(jìn)行考證。理論上來說,這些方法都有一定的處理缺失數(shù)據(jù)的功能,但是對待慕課學(xué)生互評這種存在大范圍缺失數(shù)據(jù)的情況來說,它們的具體效果還有待考證。另外一個比較明顯的區(qū)別在于,在實(shí)際實(shí)施中,定標(biāo)學(xué)生評估和可靠度指數(shù)這兩種方法需要一個額外的定標(biāo)過程以得到對評估者評分能力的估計,其他的方法就不需要這個過程。其次,定標(biāo)學(xué)生評估和可靠度指數(shù)這兩種方法可以適用于不同的評分量表,評分可以是類別的也可以是連續(xù)的。Piech和Goldin的方法更傾向于評分應(yīng)該是連續(xù)的。多面Rasch測量和多層評分模型則只適用于類別評分。最后,除了Piech的模型只能應(yīng)用于只有一個試題或只有綜合評分的情況,其他方法都能拓廣到含多個開放性試題或者分解評分的情況。

    3 結(jié)語

    總的來說,慕課學(xué)生互評是一個比較新的科研課題,存在大量的研究缺口,很多的方法和研究都還停留在初步階段,有待更新。本文總結(jié)的絕大部分方法都還沒有被實(shí)際運(yùn)用在慕課學(xué)生互評中,所以它們的實(shí)際功能和缺陷還有待后續(xù)考證,只有在它的準(zhǔn)確性和有效性得到保證后,才能成為一個真正的能夠有效輔助學(xué)生學(xué)習(xí)以及提供有用反饋的工具。

    參考文獻(xiàn)

    [1]Balfour,S.P.Assessing writing in MOOCs:Automated Essay Scor?ing and Calibrated Peer ReviewTM[J].Journal of Research&Practice in Assessment,2013(8):40-48.

    [2]Basturka,R.Applying the many-facet Rasch model to evaluate Pow?er Point presentation performance in higher education[J].Assess?ment&Evaluation in Higher Education,2008,33(4):431-444.

    [3]DeCarlo,L.T.,Kim,Y.,&Johnson,M.S.A hierarchical rater mod?el for constructed responses,with a signal detection rater model[J]. Journal of Educational Measurement,2011,48(3):333-356.

    [4]Farrokhi,F.,&Esfandiari,R.A many-facet Rasch model to detect halo effect in three types of raters[J].Theory and Practice in Lan?guage Studies,2011,1(11):1531-1540.

    [5]Goldin,I.M.Accounting for peer reviewer bias with bayesian mod?els:Workshop on Intelligent Support for Learning Groups at the 11th International Conference on Intelligent Tutoring Systems[C]. Chania,Greece,2012.

    [6]Graesser,A.C.,&McNamara,D.S.Automated analysis of essays and open-ended verbal responses[M]//APA handbook of research methods in psychology.Washington,DC:American Psychological Association,2012.

    [7]Hambleton,R.K.,&Swaminathan,H.Item response theory:Princi?ples and applications[M].Hingham,MA:Kluwer Nijhoff Publishing, 1985.

    [8]Hollands,F.M.,&Tirthali,D.Resource requirements and costs of developing and delivering MOOCs[J].The International Review of Research in Open and Distributed Learning,2014,15(5):113-133.

    [9]Jordan,K.MOOC completion rates[EB/OL].[2015-11-10].http:// www.katyjordan.com/MOOCproject.html.

    [10]Li,H.,Xiong,Y.,Zang,X.,Kornhaber,M.,Lyu,Y.,Chung,K.S., &Suen,H.K.Peer assessment in the digital age:A meta-analysis comparing peer and teacher ratings[J].Assessment&Evaluation in Higher Education,in press.(preprint available at http://www. tandfonline.com/doi/full/10.1080/02602938.2014.999746)

    [11]Linacre,J.M.Many-facet Rasch measurement[D].Chicago:Uni?versity of Chicago,1989.

    [12]Masters,G.N.A rasch model for partial credit scoring[J].Psy?chometrika,1982,47(2):149-174.

    [13]Min,H.T.The effects of trained peer review on EFL students’re?vision types and writing quality[J].Journal of Second Language Writing,2006,15(2):118-141.

    [14]Myford,C.M.,&Wolfe,E.W.Detecting and measuring rater ef?fects using many-facet Rasch measurement:Part I[J].Journal of Applied Measurement,2003,4(4):386-422.

    [15]Myford,C.M.,&Wolfe,E.W.Detecting and measuring rater ef?fects using many-facet Rasch measurement:Part II[J].Journal of Applied Measurement,2004,5(2):189-227.

    [16]Patz,R.J.,Junker,B.W.,Johnson,M.S.,&Mariano,L.T.The hi?erarchical rater model for rated test items and its application to large-scale educational assessment data[J].Journal of Educational and Behavioral Statistics,2002,27(4):341-384.

    [17]Piech,C.,Huang,J.,Chen,Z.,Do,C.,Ng,A.,&Koller,D.Tuned models of peer assessment in MOOCs:The 6th International Confer?ence on Educational Data Mining[C].Memphis,Tennessee,2013.

    [18]Robinson,A.C.,Kerski,J.,Long,E.C.,Luo,H.,DiBiase,D.,& Lee,A.Maps and the geospatial revolution:Teaching a massive open online course(MOOC)in geography[J].Journal of Geogra?phy in Higher Education,2015,39(1):65-82.

    [19]Saito,H.EFL classroom peer assessment:Training effects on rat?ing and commenting[J].Language Testing,2008,25(4):553-581.

    [20]Sajjadi,M.S.,Alamgir,M.,&von Luxburg,U.Peer grading in a course on algorithms and data structures:Machine learning algo?rithms do not improve over simple baselines:Workshop on Ma?chine Learning for Education,International Conference of Machine Learning[C].Lille,France,2015.

    [21]Sandeen,C.Assessment’s place in the new MOOC world[J].Jour?nal of Research&Practice in Assessment,2013,8(1):5-12.

    [22]Sluijsmans,D.M.A.,Brand-Gruwel,S.,&van Merri?nboer,J.J. G.Peer assessment training in teacher education:Effects on perfor?mance and perceptions[J].Assessment&Evaluation in Higher Ed?ucation,2002,27(5):443-454.

    [23]Smith,E.V.,&Kulikowich,J.M.An application of generalizabili?ty theory and many-facet Rasch measurement using a complex problem-solving skills assessment[J].Educational and Psychologi?cal Measurement,2004,64(4):617-639.

    [24]Suen,H.K.Peer assessment for massive open online courses(MOOCs)[J].The International Review of Research in Open and Distance Learning,2014,15(3):312-327.

    [25]Topping,K.J.Peer assessment[J].Theory Into Practice,2009,48(1):20-27.

    [26]Wilson,M.,&Hoskens,M.The rater bundle model[J].Journal of Educational and Behavioral Statistics,2001,26(3):283-306.

    [27]Xiong,Y.,Goins,D.,Suen,H.K.,Pun,W.H.,&Zang,X.A pro?posed credibility index(CI)in peer assessment:Presentation at the annual meeting of the National Council on Measurement in Ed?ucation[C].Philadelphia,PA,2014.

    A Comparison of Methods to Correct Errors in Peer Assessment Ratings in Massive Open Online Courses

    XIONG Yao&Hoi K.Suen

    Peer assessment is one of the most important assessment methods in Massive Open Online Courses(MOOCs),especially for open-ended assignments or projects.However,for the purpose of summative evaluation, peer assessment results are generally not trusted.This is because peer raters,who are novices,would produce more random errors and systematic biases in ratings than would expert raters,due to peer raters’lack of content expertise and rating experience.In this paper,two major approaches that are designed to improve the accuracy of peer assessment results are reviewed and compared.The first approach is designed to calibrate accuracy of individual peer raters before actual peer assessments so that differential weights can be assigned to raters based on accuracy. The second approach is designed to remedy peer rating errors post hoc.Differences in assumptions, parameterization and estimation methods,and implementation issues are discussed.The development of methods to improve MOOCs peer assessment results is still in its infancy.Most of the methods reviewed in this paper have yet to be implemented and evaluated in real-life applications.We hope the discussion and comparison of different methods in this paper will provide some theoretical and methodological background for further research into MOOC peer assessment.

    MOOCs;Peer Assessment;Error Correction

    G405

    A

    1005-8427(2016)01-0007-9

    熊 瑤,女,賓夕法尼亞州立大學(xué)教育學(xué)院,在讀博士(美國賓夕法尼亞州 16802)

    孫開鍵,男,賓夕法尼亞州立大學(xué)教育學(xué)院,杰出教授(美國賓夕法尼亞州 16802)

    猜你喜歡
    作業(yè)方法模型
    一半模型
    重要模型『一線三等角』
    快來寫作業(yè)
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    可能是方法不對
    3D打印中的模型分割與打包
    作業(yè)
    故事大王(2016年7期)2016-09-22 17:30:08
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚
    人人妻人人看人人澡| 久久国内精品自在自线图片| 国产一区二区亚洲精品在线观看| 精品国产三级普通话版| 美女免费视频网站| 2021天堂中文幕一二区在线观| 日韩欧美 国产精品| 日韩欧美国产一区二区入口| 成人特级黄色片久久久久久久| 国产精品一区二区性色av| 国产极品精品免费视频能看的| 又粗又爽又猛毛片免费看| 五月伊人婷婷丁香| 国产精品一区二区三区四区久久| 欧美成人一区二区免费高清观看| 女的被弄到高潮叫床怎么办 | 久久精品影院6| 两个人视频免费观看高清| 精品无人区乱码1区二区| 亚洲av成人精品一区久久| 波野结衣二区三区在线| 国产精品一及| 毛片女人毛片| 免费人成在线观看视频色| 99视频精品全部免费 在线| 午夜免费成人在线视频| 国产精品精品国产色婷婷| 国产成人av教育| 联通29元200g的流量卡| 亚洲电影在线观看av| 丰满的人妻完整版| 18禁裸乳无遮挡免费网站照片| 色av中文字幕| 亚洲经典国产精华液单| 国产精品,欧美在线| 一个人观看的视频www高清免费观看| 最新在线观看一区二区三区| 不卡视频在线观看欧美| 深夜a级毛片| 亚洲最大成人av| 简卡轻食公司| 在线播放无遮挡| 日本免费一区二区三区高清不卡| 国产一区二区在线av高清观看| 日韩亚洲欧美综合| 成人欧美大片| 国产精品久久久久久亚洲av鲁大| 黄色视频,在线免费观看| 简卡轻食公司| 国产亚洲精品av在线| 中文字幕av成人在线电影| 国产欧美日韩精品亚洲av| 午夜福利视频1000在线观看| 黄色欧美视频在线观看| 中文字幕av成人在线电影| 欧美一区二区国产精品久久精品| 欧美色视频一区免费| 亚洲人成网站高清观看| 成人av一区二区三区在线看| 狂野欧美激情性xxxx在线观看| 99在线视频只有这里精品首页| 天堂网av新在线| 国产熟女欧美一区二区| 久久久成人免费电影| 69av精品久久久久久| 啦啦啦观看免费观看视频高清| 免费高清视频大片| 嫩草影院精品99| 亚洲五月天丁香| 国产淫片久久久久久久久| 夜夜夜夜夜久久久久| 国内久久婷婷六月综合欲色啪| 亚洲欧美日韩高清在线视频| 欧美激情国产日韩精品一区| 日本黄大片高清| 久久久久久伊人网av| 久久天躁狠狠躁夜夜2o2o| 欧美成人免费av一区二区三区| 亚洲,欧美,日韩| 午夜免费成人在线视频| 免费大片18禁| 亚洲美女搞黄在线观看 | 99视频精品全部免费 在线| 亚洲综合色惰| 一本久久中文字幕| 中文在线观看免费www的网站| .国产精品久久| 色综合亚洲欧美另类图片| 精品久久久久久久末码| 中文字幕人妻熟人妻熟丝袜美| 一级黄色大片毛片| 亚洲熟妇中文字幕五十中出| 亚洲欧美激情综合另类| 国产av一区在线观看免费| 国产精品久久电影中文字幕| 亚洲成人精品中文字幕电影| 国产伦一二天堂av在线观看| 99热这里只有是精品50| 亚洲人成网站高清观看| 国产成人一区二区在线| 又紧又爽又黄一区二区| 国产爱豆传媒在线观看| 久久精品国产亚洲av香蕉五月| 十八禁网站免费在线| 日韩欧美免费精品| 国产精华一区二区三区| 成人二区视频| 亚洲三级黄色毛片| 亚洲色图av天堂| 色在线成人网| 变态另类丝袜制服| 国产成人影院久久av| 两个人视频免费观看高清| h日本视频在线播放| 动漫黄色视频在线观看| 色噜噜av男人的天堂激情| 欧美精品国产亚洲| 一区二区三区四区激情视频 | 国产伦一二天堂av在线观看| 国产精品不卡视频一区二区| 欧美人与善性xxx| 九九在线视频观看精品| 精品人妻偷拍中文字幕| av在线蜜桃| 免费观看在线日韩| 深夜a级毛片| 国产精品三级大全| 久久天躁狠狠躁夜夜2o2o| 亚洲精品456在线播放app | 久久久久久久久久黄片| 嫩草影院新地址| 亚洲成人久久爱视频| 亚洲不卡免费看| 国产亚洲精品综合一区在线观看| 变态另类成人亚洲欧美熟女| 国产精品福利在线免费观看| 国产成年人精品一区二区| 一个人观看的视频www高清免费观看| 成人av在线播放网站| 国产在线精品亚洲第一网站| 欧美日本亚洲视频在线播放| 美女cb高潮喷水在线观看| 99久久精品一区二区三区| 亚洲自拍偷在线| 69av精品久久久久久| 中文在线观看免费www的网站| 国产一区二区三区视频了| 亚洲无线在线观看| 亚洲不卡免费看| 麻豆久久精品国产亚洲av| 久久久久久大精品| 国产v大片淫在线免费观看| 亚洲人成网站在线播放欧美日韩| 亚洲狠狠婷婷综合久久图片| 免费黄网站久久成人精品| 日本-黄色视频高清免费观看| 精品久久国产蜜桃| 国内久久婷婷六月综合欲色啪| 亚洲欧美精品综合久久99| 久久久久国内视频| 亚洲精品日韩av片在线观看| 婷婷精品国产亚洲av在线| 内射极品少妇av片p| 一级黄色大片毛片| 麻豆久久精品国产亚洲av| 色在线成人网| 亚洲av免费在线观看| 搡老妇女老女人老熟妇| 亚洲av美国av| 村上凉子中文字幕在线| 国产不卡一卡二| 国产一区二区激情短视频| 久久天躁狠狠躁夜夜2o2o| 18禁黄网站禁片午夜丰满| 91麻豆av在线| 国产精品女同一区二区软件 | 给我免费播放毛片高清在线观看| 成年人黄色毛片网站| 国产精品一区www在线观看 | 亚洲18禁久久av| 亚洲精华国产精华精| 久久亚洲真实| 一级av片app| 国产高清三级在线| 欧美日韩国产亚洲二区| 国产精品一区二区性色av| 日韩欧美一区二区三区在线观看| 欧美日韩中文字幕国产精品一区二区三区| 午夜福利视频1000在线观看| 国产av一区在线观看免费| 亚洲国产精品合色在线| 日本与韩国留学比较| 男女边吃奶边做爰视频| 简卡轻食公司| 亚洲三级黄色毛片| 麻豆久久精品国产亚洲av| 我要看日韩黄色一级片| 久久精品国产99精品国产亚洲性色| 国产在线男女| 亚洲 国产 在线| 午夜a级毛片| 成熟少妇高潮喷水视频| 国产欧美日韩精品一区二区| 色哟哟哟哟哟哟| 亚洲无线在线观看| xxxwww97欧美| 天天一区二区日本电影三级| 国产一区二区三区av在线 | 久久精品国产亚洲av天美| 国产高清不卡午夜福利| 亚洲国产欧洲综合997久久,| 亚洲av免费高清在线观看| 久久久国产成人免费| АⅤ资源中文在线天堂| 校园人妻丝袜中文字幕| 久99久视频精品免费| 联通29元200g的流量卡| 精品一区二区三区视频在线观看免费| 国产精品无大码| 搡老妇女老女人老熟妇| 精品日产1卡2卡| 久久久久久久久久成人| 日本与韩国留学比较| 极品教师在线免费播放| 老司机午夜福利在线观看视频| 赤兔流量卡办理| 欧美又色又爽又黄视频| 亚洲性夜色夜夜综合| 99久国产av精品| 欧美不卡视频在线免费观看| 热99在线观看视频| 一区二区三区免费毛片| 老师上课跳d突然被开到最大视频| 欧美日韩综合久久久久久 | 中亚洲国语对白在线视频| 国产在线男女| 长腿黑丝高跟| 中文在线观看免费www的网站| 精品人妻1区二区| 国产精华一区二区三区| av福利片在线观看| 99国产精品一区二区蜜桃av| 在线国产一区二区在线| 国产av不卡久久| 亚洲人成网站在线播| 亚洲av中文av极速乱 | 日本免费一区二区三区高清不卡| 男人的好看免费观看在线视频| 久久久久免费精品人妻一区二区| 少妇的逼好多水| 九九爱精品视频在线观看| 男人舔奶头视频| 18禁裸乳无遮挡免费网站照片| 欧美日韩国产亚洲二区| or卡值多少钱| 人妻丰满熟妇av一区二区三区| 亚洲国产精品sss在线观看| 午夜精品久久久久久毛片777| 婷婷亚洲欧美| 女生性感内裤真人,穿戴方法视频| 一卡2卡三卡四卡精品乱码亚洲| 91久久精品电影网| 春色校园在线视频观看| 小说图片视频综合网站| 丝袜美腿在线中文| 国产伦在线观看视频一区| 国产成人福利小说| 最近最新中文字幕大全电影3| 搡老岳熟女国产| 99精品久久久久人妻精品| 亚洲经典国产精华液单| 欧美在线一区亚洲| 国产精品亚洲美女久久久| 亚洲熟妇中文字幕五十中出| 又黄又爽又刺激的免费视频.| 久久国产乱子免费精品| 国产成人av教育| 免费观看在线日韩| 久久久久九九精品影院| 免费av不卡在线播放| 天美传媒精品一区二区| 观看免费一级毛片| 1000部很黄的大片| 色在线成人网| 三级国产精品欧美在线观看| 亚洲最大成人手机在线| 无人区码免费观看不卡| 午夜老司机福利剧场| 国产精品永久免费网站| 国产精品不卡视频一区二区| 两人在一起打扑克的视频| 韩国av一区二区三区四区| 成人三级黄色视频| 免费搜索国产男女视频| 国产aⅴ精品一区二区三区波| 熟女电影av网| 丰满乱子伦码专区| 亚洲精品456在线播放app | 女生性感内裤真人,穿戴方法视频| 久久99热6这里只有精品| 婷婷精品国产亚洲av| 国产91精品成人一区二区三区| 久久九九热精品免费| 少妇的逼水好多| 亚洲欧美日韩无卡精品| 亚洲精品久久国产高清桃花| 久久久久久久久中文| 又粗又爽又猛毛片免费看| 男插女下体视频免费在线播放| 国产精品国产高清国产av| 国内毛片毛片毛片毛片毛片| 小蜜桃在线观看免费完整版高清| 美女大奶头视频| 国产黄色小视频在线观看| 欧美性感艳星| 国产久久久一区二区三区| 在线观看舔阴道视频| 色在线成人网| 一个人观看的视频www高清免费观看| 成年人黄色毛片网站| 又爽又黄无遮挡网站| av.在线天堂| a级毛片免费高清观看在线播放| 一本一本综合久久| 日日夜夜操网爽| 国产视频一区二区在线看| 国产精品一区二区三区四区久久| 亚洲欧美激情综合另类| 婷婷精品国产亚洲av| 麻豆国产97在线/欧美| 色av中文字幕| 999久久久精品免费观看国产| 国产一区二区三区在线臀色熟女| 午夜福利成人在线免费观看| 久久香蕉精品热| 国产精品爽爽va在线观看网站| 成人亚洲精品av一区二区| 国产极品精品免费视频能看的| 嫩草影院精品99| 国产精品永久免费网站| 99久久久亚洲精品蜜臀av| 日日干狠狠操夜夜爽| 天堂网av新在线| 国产精品综合久久久久久久免费| 男人舔女人下体高潮全视频| 在现免费观看毛片| 欧美高清成人免费视频www| avwww免费| 午夜爱爱视频在线播放| 亚洲最大成人中文| 国产免费av片在线观看野外av| 国产真实乱freesex| 91狼人影院| 亚洲精品久久国产高清桃花| 日本在线视频免费播放| 一区二区三区高清视频在线| 中文字幕熟女人妻在线| 亚洲图色成人| 一级a爱片免费观看的视频| 午夜精品久久久久久毛片777| 国语自产精品视频在线第100页| 日本免费a在线| 亚洲,欧美,日韩| 在线观看美女被高潮喷水网站| 人人妻人人看人人澡| 免费高清视频大片| 久久久久久久亚洲中文字幕| 少妇的逼好多水| 国产av麻豆久久久久久久| 哪里可以看免费的av片| 可以在线观看毛片的网站| 免费高清视频大片| 麻豆一二三区av精品| 久久久久久久午夜电影| 亚洲成av人片在线播放无| 噜噜噜噜噜久久久久久91| 色综合婷婷激情| 亚洲狠狠婷婷综合久久图片| 欧美绝顶高潮抽搐喷水| 岛国在线免费视频观看| 欧美不卡视频在线免费观看| 最后的刺客免费高清国语| 99视频精品全部免费 在线| 中亚洲国语对白在线视频| 一级黄色大片毛片| 成年人黄色毛片网站| 人妻夜夜爽99麻豆av| 国产淫片久久久久久久久| 亚洲一区二区三区色噜噜| 午夜精品久久久久久毛片777| 午夜福利在线观看免费完整高清在 | 亚洲无线观看免费| av在线天堂中文字幕| 在线播放无遮挡| 国产精品爽爽va在线观看网站| 联通29元200g的流量卡| 亚洲最大成人av| 久久久久免费精品人妻一区二区| 精品免费久久久久久久清纯| 一个人看的www免费观看视频| 欧美成人a在线观看| 又紧又爽又黄一区二区| 日韩亚洲欧美综合| 久久欧美精品欧美久久欧美| 亚洲精品456在线播放app | 国产又黄又爽又无遮挡在线| 国产精品一区二区三区四区久久| 天堂av国产一区二区熟女人妻| 久久久久久国产a免费观看| 日韩欧美在线乱码| 听说在线观看完整版免费高清| 国产亚洲精品综合一区在线观看| 国产精品精品国产色婷婷| 老司机深夜福利视频在线观看| a级毛片免费高清观看在线播放| 色综合婷婷激情| a级毛片a级免费在线| 国产精品不卡视频一区二区| 欧美激情在线99| 亚洲av二区三区四区| 亚洲精华国产精华精| .国产精品久久| 性色avwww在线观看| 亚洲国产精品合色在线| 97热精品久久久久久| 久久精品91蜜桃| 人妻少妇偷人精品九色| 亚洲成人精品中文字幕电影| 国产久久久一区二区三区| 亚洲一级一片aⅴ在线观看| 婷婷丁香在线五月| 男人舔奶头视频| 国产精品日韩av在线免费观看| 最近视频中文字幕2019在线8| 别揉我奶头 嗯啊视频| 男女边吃奶边做爰视频| 亚洲美女搞黄在线观看 | 精品福利观看| 在线a可以看的网站| 国产精品一区二区三区四区久久| a级一级毛片免费在线观看| 亚洲最大成人中文| 高清毛片免费观看视频网站| 中文字幕av成人在线电影| 韩国av在线不卡| 日本色播在线视频| 国产在视频线在精品| 长腿黑丝高跟| 国产精品亚洲美女久久久| 亚洲黑人精品在线| 黄色配什么色好看| 国产精品自产拍在线观看55亚洲| 99九九线精品视频在线观看视频| 99热这里只有精品一区| 国产高潮美女av| 亚洲va在线va天堂va国产| 欧美+日韩+精品| 我的女老师完整版在线观看| 男人狂女人下面高潮的视频| 日本五十路高清| 国产成人av教育| 亚洲成人久久性| 99久久精品国产国产毛片| 国产高清不卡午夜福利| 毛片一级片免费看久久久久 | 亚洲中文字幕日韩| 中亚洲国语对白在线视频| 看免费成人av毛片| 欧美日韩乱码在线| 久久久久免费精品人妻一区二区| 亚洲国产欧美人成| 啦啦啦观看免费观看视频高清| 亚洲自偷自拍三级| 十八禁国产超污无遮挡网站| 国产私拍福利视频在线观看| 乱码一卡2卡4卡精品| 男女做爰动态图高潮gif福利片| 男人的好看免费观看在线视频| 69人妻影院| 真实男女啪啪啪动态图| 免费在线观看影片大全网站| 最新中文字幕久久久久| 蜜桃亚洲精品一区二区三区| 午夜福利18| 麻豆精品久久久久久蜜桃| 亚洲中文字幕一区二区三区有码在线看| 日日撸夜夜添| 国产69精品久久久久777片| 一进一出抽搐gif免费好疼| 一区二区三区四区激情视频 | 成人特级av手机在线观看| 少妇的逼水好多| 听说在线观看完整版免费高清| 亚洲图色成人| 久久久国产成人免费| 看黄色毛片网站| 有码 亚洲区| 联通29元200g的流量卡| 久久久久久大精品| netflix在线观看网站| 亚洲无线在线观看| 天堂av国产一区二区熟女人妻| 国产男人的电影天堂91| 在线播放国产精品三级| 高清日韩中文字幕在线| 日韩欧美国产在线观看| 男女啪啪激烈高潮av片| 国产真实乱freesex| av天堂在线播放| 精品午夜福利视频在线观看一区| 国产精品福利在线免费观看| 99热这里只有是精品在线观看| 最好的美女福利视频网| 男人狂女人下面高潮的视频| 国产 一区精品| 别揉我奶头 嗯啊视频| 久久久成人免费电影| 校园春色视频在线观看| 欧美bdsm另类| 欧美成人免费av一区二区三区| 18禁黄网站禁片免费观看直播| 美女高潮的动态| 自拍偷自拍亚洲精品老妇| 在现免费观看毛片| 亚洲成a人片在线一区二区| 亚洲 国产 在线| 两人在一起打扑克的视频| 深夜a级毛片| 中出人妻视频一区二区| 男人舔奶头视频| 久久久久久伊人网av| 观看免费一级毛片| 国产一区二区亚洲精品在线观看| 成人精品一区二区免费| 国内毛片毛片毛片毛片毛片| 黄色一级大片看看| 丝袜美腿在线中文| 免费无遮挡裸体视频| 国产精品久久久久久av不卡| 日韩一区二区视频免费看| 精品午夜福利在线看| 国产精品野战在线观看| a级毛片a级免费在线| 特级一级黄色大片| 日韩av在线大香蕉| 少妇高潮的动态图| 亚洲精华国产精华精| 两个人的视频大全免费| 久久99热6这里只有精品| 最新中文字幕久久久久| 久久久久久久亚洲中文字幕| 综合色av麻豆| 天天一区二区日本电影三级| 国模一区二区三区四区视频| 日本-黄色视频高清免费观看| 亚洲四区av| 亚洲成人久久性| 亚洲国产色片| av在线观看视频网站免费| 最新在线观看一区二区三区| 男人舔女人下体高潮全视频| 国产aⅴ精品一区二区三区波| 国产精品一区二区三区四区久久| 日本三级黄在线观看| 免费电影在线观看免费观看| 亚洲欧美日韩高清专用| 免费观看精品视频网站| 亚洲国产欧美人成| 小蜜桃在线观看免费完整版高清| 少妇丰满av| 高清在线国产一区| 免费不卡的大黄色大毛片视频在线观看 | 超碰av人人做人人爽久久| 国产午夜精品论理片| 国产 一区精品| 岛国在线免费视频观看| 变态另类成人亚洲欧美熟女| 欧美xxxx黑人xx丫x性爽| 国产精品一区二区性色av| 国产人妻一区二区三区在| 两人在一起打扑克的视频| 亚洲精品亚洲一区二区| 亚洲一区高清亚洲精品| 日本与韩国留学比较| 久久精品国产鲁丝片午夜精品 | 俺也久久电影网| 999久久久精品免费观看国产| 国产亚洲av嫩草精品影院| 不卡一级毛片| 少妇人妻精品综合一区二区 | 欧美高清成人免费视频www| 久久这里只有精品中国| 一本精品99久久精品77| 变态另类丝袜制服| 在线观看舔阴道视频| 两个人视频免费观看高清| 全区人妻精品视频| 99久久中文字幕三级久久日本| 欧美色欧美亚洲另类二区| 18禁黄网站禁片免费观看直播| 精品人妻一区二区三区麻豆 | 99热这里只有是精品50| 久久久久久久午夜电影| 国产成人一区二区在线| 色播亚洲综合网| av.在线天堂| 很黄的视频免费| 色噜噜av男人的天堂激情| 九色国产91popny在线| 国国产精品蜜臀av免费| 婷婷精品国产亚洲av| 欧美3d第一页| 欧美日韩中文字幕国产精品一区二区三区| 在线观看免费视频日本深夜| 国产精品久久久久久久久免|