• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自動(dòng)作文評(píng)分系統(tǒng)測(cè)量性、歸納性和外推性效度研究*

    2017-10-31 05:32:05上海交通大學(xué)
    外語(yǔ)與翻譯 2017年3期
    關(guān)鍵詞:檔案袋人機(jī)效度

    張 荔 上海交通大學(xué)

    自動(dòng)作文評(píng)分系統(tǒng)測(cè)量性、歸納性和外推性效度研究*

    張 荔 上海交通大學(xué)

    研究人員對(duì)常用的自動(dòng)作文評(píng)閱(AWE)系統(tǒng)PEG、IEA、e-rater、IntelliMetric等都開(kāi)展過(guò)大量效度研究,對(duì)AWE系統(tǒng)的發(fā)展起到了積極作用。然而,針對(duì)我國(guó)自主研發(fā)的AWE系統(tǒng)批改網(wǎng)的效度研究卻十分有限。本研究從測(cè)量性、歸納性和外推性三方面對(duì)批改網(wǎng)效度加以驗(yàn)證,結(jié)果顯示,批改網(wǎng)的人機(jī)評(píng)分同一分?jǐn)?shù)檔內(nèi)的完全一致性以及完全加相鄰分?jǐn)?shù)檔一致性與國(guó)外同類AWE系統(tǒng)基本相似,人機(jī)評(píng)分顯著相關(guān),說(shuō)明其具有一定的測(cè)量性,但是相關(guān)性略低于國(guó)外其它AWE系統(tǒng)。批改網(wǎng)對(duì)不同任務(wù)作文評(píng)分呈現(xiàn)顯著相關(guān)性,顯示出一定的歸納性,但相關(guān)性略低于人工評(píng)分間的相關(guān)性以及國(guó)外其它AWE系統(tǒng)的人機(jī)評(píng)分相關(guān)性。批改網(wǎng)作文評(píng)分與聽(tīng)力、閱讀以及學(xué)習(xí)檔案袋分?jǐn)?shù)顯著相關(guān),具有一定的外推性,且相關(guān)性高于國(guó)外其它多數(shù)AWE系統(tǒng)。研究也發(fā)現(xiàn),批改網(wǎng)對(duì)不同任務(wù)作文評(píng)分有顯著差異,系統(tǒng)評(píng)分與口語(yǔ)成績(jī)未呈現(xiàn)顯著相關(guān)性。研究者對(duì)此進(jìn)行了解釋。本研究較為全面地對(duì)批改網(wǎng)系統(tǒng)的效度進(jìn)行了驗(yàn)證,對(duì)于系統(tǒng)的開(kāi)發(fā)、利用和改進(jìn)有著積極意義。

    自動(dòng)作文評(píng)分,效度,測(cè)量性,歸納性,外推性

    1.引言

    效度是測(cè)量工具能準(zhǔn)確測(cè)出所測(cè)量事物的程度,簡(jiǎn)單地說(shuō)是指測(cè)量工具或手段的準(zhǔn)確性和有用性。某一AWE系統(tǒng)能夠從多大程度上測(cè)量學(xué)生的寫作質(zhì)量和幫助學(xué)生提升寫作水平是十分關(guān)鍵的問(wèn)題。國(guó)外研究人員對(duì)PEG(Kukich 2000)、IEA(Landauer et al.2000), e-rater(Ramineni et al.2012;Attali Lewis&Steier 2013;Weigle 2010,2011),IntelliMetric(Elliot 2003;Vantage Learning 1999,2001;Powers,Escoffery&Duchnowski 2015)Criterion(Klobucar et al.,2013) 等常用 AWE系統(tǒng)進(jìn)行了效度研究,并取得了一定的進(jìn)展。我國(guó)研究人員也針對(duì)自主研發(fā)的批改網(wǎng)AWE系統(tǒng)開(kāi)展了大量研究,但是這些研究主要集中在系統(tǒng)對(duì)寫作教學(xué)的作用,有關(guān)效度的研究比較少,且這些研究往往局限于效度的某一方面,未從效度的多個(gè)層面加以探究。因此本研究將著眼于測(cè)量性、歸納性和外推性,對(duì)批改網(wǎng)進(jìn)行更為全面的效度檢驗(yàn)。

    2.研究背景

    2.1 理論基礎(chǔ)

    美國(guó)心理協(xié)會(huì)將效度定義為“證據(jù)能夠支持基于分?jǐn)?shù)的推論的程度,它是指使用測(cè)量做出的某種特定的推論而不是測(cè)量本身是否有效”(AERA1985:9)。在測(cè)試研究中,效度是指“基于測(cè)試分?jǐn)?shù)所做出的推理行為的準(zhǔn)確性和合理性的程度” (Messick 1989:13)。從傳統(tǒng)觀念來(lái)看,效度可分為內(nèi)容效度、關(guān)于標(biāo)準(zhǔn)的效度和結(jié)構(gòu)效度。而現(xiàn)代效度的概念又增加了解釋性和對(duì)分?jǐn)?shù)的使用,換句話說(shuō),效度包含對(duì)分?jǐn)?shù)的解釋所包含的價(jià)值的評(píng)估和使用測(cè)試結(jié)果的社會(huì)效應(yīng)(Yang et al.2002)。研究人員提出效度研究的五個(gè)方面:測(cè)量性(evaluation)、解釋性(interpretation)、外推性(extrapolation)、歸納性(generalization) 和實(shí)用性 (utilization)(Enright&Quinlan 2010; Williamson et al.2012, Xi 2010; Chapelle Cotos&Lee 2015)。測(cè)量性是評(píng)分是否能夠體現(xiàn)寫作能力與分?jǐn)?shù)之間的關(guān)系,也就是說(shuō),根據(jù)評(píng)分標(biāo)準(zhǔn)給一篇作文評(píng)分,那么這個(gè)分?jǐn)?shù)是否真正意義上準(zhǔn)確地反映作文的實(shí)際水平。在自動(dòng)作文評(píng)閱系統(tǒng)來(lái)看,評(píng)分標(biāo)準(zhǔn)必須能夠抓住寫作能力的各個(gè)方面,評(píng)判必須嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)。測(cè)量性主要體現(xiàn)在系統(tǒng)評(píng)分與人工評(píng)分者的評(píng)分是否具有一致性和相關(guān)性,換句話說(shuō)就是研究自動(dòng)作文評(píng)分的信度。解釋性指的是自動(dòng)評(píng)分系統(tǒng)是否反映寫作評(píng)分的結(jié)構(gòu)效度,也就是說(shuō),評(píng)分是否體現(xiàn)寫作能力所需包含的各項(xiàng)內(nèi)容,從某種意義上來(lái)說(shuō),就是評(píng)分標(biāo)準(zhǔn)是否體現(xiàn)寫作能力的各個(gè)方面。解釋性主要體現(xiàn)在評(píng)分對(duì)寫作結(jié)構(gòu)效度的表征性。也就是系統(tǒng)評(píng)分要素與人工評(píng)分要素是否一致。歸納性是指系統(tǒng)評(píng)分可以推測(cè)出其它類似的寫作任務(wù)的得分情況。其依據(jù)體現(xiàn)在不同寫作任務(wù)之間的系統(tǒng)評(píng)分一致性和系統(tǒng)評(píng)分對(duì)其它相似寫作任務(wù)的代表性。歸納性的另一方面體現(xiàn)在自動(dòng)作文評(píng)分系統(tǒng)究竟在多大程度上可以被認(rèn)為是另外一個(gè)評(píng)分員,是否可以推測(cè)出人工評(píng)分的分?jǐn)?shù)。外推性是指分?jǐn)?shù)是否能夠?qū)δ繕?biāo)領(lǐng)域的表現(xiàn)加以推導(dǎo)。所謂目標(biāo)領(lǐng)域,可以指各種不同的寫作領(lǐng)域,比如學(xué)術(shù)寫作、實(shí)用英語(yǔ)寫作、商務(wù)英語(yǔ)寫作;亦或與寫作能力相關(guān)的其它內(nèi)容,例如聽(tīng)力、閱讀、自我及教師評(píng)價(jià)、學(xué)習(xí)檔案袋等等。通過(guò)自動(dòng)作文系統(tǒng)評(píng)分與目標(biāo)領(lǐng)域表現(xiàn)得分的關(guān)系可證明其外推性。實(shí)用性是一種對(duì)語(yǔ)言學(xué)習(xí)政策和策略的決定作用或是對(duì)語(yǔ)言教學(xué)實(shí)踐的預(yù)測(cè)作用,也就是系統(tǒng)評(píng)分結(jié)果對(duì)政策實(shí)施的效應(yīng)。在自動(dòng)評(píng)分中就體現(xiàn)在對(duì)個(gè)人學(xué)習(xí),教學(xué)大綱制定和教學(xué)政策實(shí)施的影響作用。比如使用自動(dòng)作文評(píng)分對(duì)教與學(xué)是否產(chǎn)生正面的影響作用,是否對(duì)某種教學(xué)政策的制定產(chǎn)生積極影響,是否合理地適用于分級(jí)教學(xué)的決策過(guò)程、是否對(duì)學(xué)生考前準(zhǔn)備產(chǎn)生有效推動(dòng)作用等。限于文章篇幅,且對(duì)批改網(wǎng)的解釋性(何旭良2013;張荔、盛越2015) 和實(shí)用性(楊曉瓊、戴運(yùn)財(cái)2015;石曉玲2012) 以往研究已有所涉及,本研究?jī)H對(duì)批改網(wǎng)的測(cè)量性、歸納性和外推性加以研究。

    2.2 相關(guān)研究綜述

    對(duì)于測(cè)量性的研究主要考察人機(jī)評(píng)分的相關(guān)性和一致性兩個(gè)指標(biāo)。從相關(guān)性指標(biāo)來(lái)看,PEG的人機(jī)評(píng)分的相關(guān)性為0.72-0.78,高于人工評(píng)分者之間0.55-0.75的相關(guān)性(Page&Peterson,1995)。Kukich(2000) 則發(fā)現(xiàn)PEG的人機(jī)評(píng)分相關(guān)性達(dá)0.78,低于人工評(píng)分者間0.85的相關(guān)性。根據(jù)Landauer et al.(2000) 的報(bào)告,IEA人機(jī)評(píng)分的相關(guān)性達(dá)到0.85,與人工評(píng)分在詞匯和文本的意義方面有較高的相似性。Landauer et al.(2003)對(duì)IEA系統(tǒng)的可靠性分析發(fā)現(xiàn)人機(jī)評(píng)分的相關(guān)性為0.81,略低于人工評(píng)分者之間0.83的相關(guān)性。Folze et al.(2013) 對(duì)IEA進(jìn)行人機(jī)評(píng)分對(duì)比研究后發(fā)現(xiàn)相關(guān)性達(dá)到0.88,高于人工評(píng)分者之間0.79的相關(guān)性。對(duì)IntelliMetric的一系列可靠性評(píng)估研究表明,人機(jī)評(píng)分的相關(guān)性為0.50-0.90(Elliot 2003;Vantage Learning 1999,2001)。 對(duì)e-rater的一系列研究發(fā)現(xiàn)人機(jī)評(píng)分相關(guān)性為0.66-0.95(Attali&Burstein 2004;Burstein,Chodorow&Leacock 2004;Powers,Escoffery&Duchnowski 2015;Valenti et al.2003;Attali 2015)。由此可見(jiàn),國(guó)外多數(shù)AWE系統(tǒng)人機(jī)評(píng)分的相關(guān)性高于0.7,但也有個(gè)別研究結(jié)果顯示人機(jī)評(píng)分相關(guān)性在0.5-0.7之間。對(duì)于人機(jī)評(píng)分與人工評(píng)分相關(guān)性的比較,不同的研究結(jié)果也有所不同,人機(jī)評(píng)分相關(guān)性或高于或低于人工評(píng)分者間的相關(guān)性。從一致性指標(biāo)來(lái)看,一系列IntelliMetric可靠性評(píng)估研究表明,人機(jī)評(píng)分的完全一致性為87%-98%,完全一致性加相鄰一致性為94%-100%(Elliot 2003;Vantage Learning1999,2001)。e-rater人機(jī)評(píng)分的完全一致性為56-61%,完全加相鄰一致性都是98%-99%,與人工評(píng)分者間的一致性基本持平(Dekli2006)。Dikli(2006) 認(rèn)為,就滿分為6分的作文,若人機(jī)評(píng)分達(dá)到70%的完全一致性和0.70的相關(guān)性,且與人工評(píng)分者之間的均分差別不大于0.1,則說(shuō)明系統(tǒng)具有較好的信度或測(cè)量性。

    對(duì)于歸納性的研究主要從系統(tǒng)測(cè)量不同寫作任務(wù)的相關(guān)性和差異性來(lái)加以評(píng)定。Attali(2007) 對(duì)5000名兩次參加托福考試學(xué)生的寫作成績(jī)進(jìn)行效度的歸納性研究發(fā)現(xiàn),使用e-rater對(duì)兩次作文評(píng)分相關(guān)性達(dá)到0.71,人工兩次評(píng)分間的相關(guān)性為0.54,因此系統(tǒng)對(duì)兩次作文評(píng)分的相關(guān)性高于人工評(píng)分。次年,Attali(見(jiàn)Enright&Quinlan 2010)) 又針對(duì)14,000名學(xué)生三個(gè)月內(nèi)的兩次托??荚囎魑姆?jǐn)?shù)進(jìn)行相關(guān)性檢驗(yàn),結(jié)果發(fā)現(xiàn),人工評(píng)分兩次作文相關(guān)性為0.53,E-rater兩次作文評(píng)分相關(guān)性為0.80。由此可見(jiàn),從歸納性來(lái)看,E-rater系統(tǒng)評(píng)分高于人工評(píng)分。Weigle(2011) 則分別比較了人工評(píng)分和e-rater評(píng)分在兩次不同寫作任務(wù)間的差異性,他使用配對(duì)樣本T檢驗(yàn)對(duì)e-rater兩次作文評(píng)分的結(jié)果進(jìn)行比較后發(fā)現(xiàn),無(wú)論人工評(píng)分(t=0.75,p=0.45)還是系統(tǒng)評(píng)分(t=0.24,p=0.79),兩次作文的均分都沒(méi)有顯著差異,體現(xiàn)出系統(tǒng)評(píng)分具有較好的一致性。因此系統(tǒng)評(píng)分體現(xiàn)了較好的歸納性效度。

    對(duì)于外推性的效度研究主要看系統(tǒng)評(píng)分與體現(xiàn)語(yǔ)言能力的其它測(cè)試性(如聽(tīng)力、閱讀、口語(yǔ)成績(jī))或非測(cè)試性(如師生問(wèn)卷評(píng)定、檔案袋評(píng)分等) 指標(biāo)的相關(guān)性。Ramineni等(2012) 將系統(tǒng)評(píng)分與閱讀、聽(tīng)力、口語(yǔ)以及去除寫作的其它項(xiàng)目總分進(jìn)行相關(guān)性檢驗(yàn)后發(fā)現(xiàn),人工作文評(píng)分與以上各項(xiàng)的相關(guān)性分別為0.53、0.53、0.58和0.62,而系統(tǒng)評(píng)分與以上各項(xiàng)的相關(guān)性則分別為0.54、0.52、0.55、0.61,人工評(píng)分與系統(tǒng)評(píng)分的外推力基本相同。Ramineni(2013) 又將e-rater對(duì)學(xué)生四篇作文的評(píng)分與入學(xué)考試閱讀題、多項(xiàng)選擇題、作文題、學(xué)期累積GPA分?jǐn)?shù)、寫作課程得分和個(gè)人學(xué)習(xí)記錄檔案袋進(jìn)行了相關(guān)性檢驗(yàn),結(jié)果發(fā)現(xiàn)e-rater與以上各項(xiàng)的相關(guān)性分別為0.23-0.35、0.29-0.42、0.37-0.46、0.10-0.23、0.17-0.34和0.26-0.41,部分項(xiàng)目顯示出一定的相關(guān)性,但總體來(lái)看相關(guān)性不是很強(qiáng)。Weigle(2010)分析了人機(jī)評(píng)分分別與其它體現(xiàn)寫作能力的非測(cè)試性指標(biāo)之間的相關(guān)性,包括學(xué)生自評(píng)、教師評(píng)價(jià)、課堂作文。結(jié)果發(fā)現(xiàn)系統(tǒng)評(píng)分與這些非測(cè)試性指標(biāo)的相關(guān)性在0.30到0.40之間,略低于人工評(píng)分與指標(biāo)的相關(guān)性。Weigle(2011)又使用網(wǎng)絡(luò)問(wèn)卷收集到學(xué)生對(duì)自身聽(tīng)、說(shuō)、讀、寫的自我評(píng)分以及教師對(duì)學(xué)生的整體學(xué)術(shù)表現(xiàn)、寫作能力、口語(yǔ)能力、英語(yǔ)語(yǔ)言能力的評(píng)分,并將這些評(píng)分與學(xué)生托福網(wǎng)考的e-rater評(píng)分之間進(jìn)行了相關(guān)性檢驗(yàn)。結(jié)果發(fā)現(xiàn)e-rater與學(xué)生自評(píng)的聽(tīng)、說(shuō)、讀、寫的相關(guān)性分別為0.23、0.26、0.36和0.36,略低于人工作文評(píng)分與此的相關(guān)(0.29,0.31,0.40,0.41),與教師對(duì)學(xué)生的整體學(xué)術(shù)表現(xiàn)、寫作能力、口語(yǔ)能力、英語(yǔ)語(yǔ)言能力的評(píng)分的相關(guān)性分別為0.21、0.28、0.27和0.34,略低于人工作文評(píng)分與此的相關(guān)性 (0.23、0.31、0.31、0.38)。Klobucar等人(2013)從其它測(cè)試或非測(cè)試性質(zhì)的指標(biāo)與自動(dòng)作文評(píng)分的關(guān)系對(duì)Criterion的外推性進(jìn)行了研究,這些內(nèi)容包括SAT寫作測(cè)試分?jǐn)?shù)、學(xué)習(xí)記錄檔案袋分?jǐn)?shù)以及學(xué)科成績(jī)。他們于2009和2010年進(jìn)行了兩次數(shù)據(jù)采集和分析,結(jié)果發(fā)現(xiàn)Criterion與SAT的相關(guān)性分別為為0.43和0.41,與學(xué)習(xí)記錄檔案袋的相關(guān)性為0.37和0.39,與學(xué)科成績(jī)的相關(guān)性為0.22和0.29,高出SAT與學(xué)習(xí)記錄檔案袋分?jǐn)?shù)以及學(xué)科成績(jī)的相關(guān)性。說(shuō)明從外推性來(lái)看,Criterion比SAT的效度更高。

    以上研究顯示,國(guó)外的AWE系統(tǒng)從測(cè)量性、歸納性和外推性這幾項(xiàng)指標(biāo)來(lái)看顯示了一定的效度,尤其在測(cè)量性和歸納性方面相關(guān)系數(shù)都比較高,而從外推性來(lái)看相關(guān)系數(shù)比較低。不同研究顯示出高于或者低于人工評(píng)分或其它測(cè)試成績(jī)的外推性。為了解批改網(wǎng)的測(cè)量性、歸納性和外推性效度,本研究提出以下三個(gè)問(wèn)題:

    1)同一任務(wù)系統(tǒng)評(píng)分與人工評(píng)分的一致性和相關(guān)性如何(測(cè)量性)?

    2)不同任務(wù)系統(tǒng)評(píng)分的一致性和相關(guān)性如何(歸納性)?

    3)系統(tǒng)評(píng)分與反應(yīng)語(yǔ)言能力的其它測(cè)試或非測(cè)試指標(biāo)(聽(tīng)、說(shuō)、讀等其它測(cè)試項(xiàng)目和學(xué)習(xí)記錄檔案袋)的相關(guān)性如何(外推性)?

    3.研究方法

    3.1 研究對(duì)象

    上海交通大學(xué)計(jì)算機(jī)、數(shù)學(xué)、物理、化學(xué)、生物等專業(yè)56名大一學(xué)生參與了該研究,其中男生47名、女生9名。他們被分為兩個(gè)英語(yǔ)教學(xué)班,由同一名教師教授大學(xué)英語(yǔ)課程。在為期16周的大學(xué)英語(yǔ)教學(xué)中完成了同樣的教學(xué)任務(wù)和測(cè)試任務(wù)。

    3.2 研究工具

    研究工具主要包括寫作任務(wù),學(xué)期末水平考試、學(xué)期末外教口試和學(xué)習(xí)記錄檔案袋。學(xué)生共完成三次寫作任務(wù),題目分別為“My Idea of a Good College Teacher”、“My Expectation about Life in the University”和根據(jù)大學(xué)是否要晨跑的閱讀材料自擬題目的任務(wù),每次作文練習(xí)相隔時(shí)間一個(gè)月左右,字?jǐn)?shù)要求200字以上。學(xué)期結(jié)束時(shí),所有學(xué)生參加了學(xué)校統(tǒng)一舉行的水平測(cè)試,包含聽(tīng)力(長(zhǎng)對(duì)話、復(fù)合式聽(tīng)寫、簡(jiǎn)答題和聽(tīng)譯) 閱讀(15選10完形填空、四選一完形填空、長(zhǎng)篇閱讀理解簡(jiǎn)答)和作文。學(xué)期末所有學(xué)生還進(jìn)行了口語(yǔ)考試,由外教就某個(gè)題目與學(xué)生進(jìn)行交談,并根據(jù)統(tǒng)一的評(píng)分標(biāo)準(zhǔn)給出分?jǐn)?shù)。整個(gè)學(xué)期英語(yǔ)學(xué)習(xí)進(jìn)程都使用電子檔案袋進(jìn)行記錄和整理,包括期中/末筆試成績(jī),期初/末口試成績(jī)、中外教師給出的課堂表現(xiàn)和作業(yè)情況平時(shí)成績(jī)、并將此記錄按期中筆試10%,期末筆試50%,外教口試10%,外教平時(shí)成績(jī)10%,中教平時(shí)成績(jī)20%的比例得出每個(gè)學(xué)生教學(xué)檔案袋的最終得分。

    3.3 數(shù)據(jù)收集和分析過(guò)程

    學(xué)生將三次作文提交至批改網(wǎng),系統(tǒng)設(shè)定為四級(jí)打分公式,總分15分,得出相應(yīng)的批改網(wǎng)得分。學(xué)生會(huì)根據(jù)批改網(wǎng)反饋進(jìn)行反復(fù)修改,但本研究只使用了批改網(wǎng)對(duì)作文第一稿的評(píng)分,這是因?yàn)槌醺逦唇?jīng)外界因素影響(如根據(jù)批改網(wǎng)或教師的反饋進(jìn)行修改),比較能夠真實(shí)反映學(xué)習(xí)者當(dāng)前的作文水平。兩位多次參加四級(jí)評(píng)分的教師對(duì)三次作文的初稿進(jìn)行了人工評(píng)分,然后我們將這56位學(xué)生的三次作文分別進(jìn)行批改網(wǎng)和人工評(píng)分的相關(guān)性和一致性檢驗(yàn),即系統(tǒng)測(cè)量性效度檢測(cè)。接著我們又進(jìn)行系統(tǒng)歸納性效度檢測(cè),我們將批改網(wǎng)對(duì)每次作文初稿的評(píng)分進(jìn)行了兩兩相關(guān)性檢驗(yàn),同時(shí)計(jì)算每次作文人工評(píng)分的兩兩相關(guān)性,將系統(tǒng)歸納性與人工評(píng)分歸納性加以比較。我們還使用One-Way ANOVA對(duì)三次作文的均分進(jìn)行了比較,又進(jìn)行了Post Hoc兩兩比較,以判斷系統(tǒng)對(duì)每次作文成績(jī)?cè)u(píng)分是否一致。最后我們將水平考試成績(jī)的聽(tīng)力、閱讀分項(xiàng)分?jǐn)?shù)、外教口試分?jǐn)?shù)和學(xué)習(xí)檔案袋分?jǐn)?shù)與批改網(wǎng)作文評(píng)分進(jìn)行了相關(guān)性檢驗(yàn),以檢測(cè)系統(tǒng)的外推性。

    4.研究結(jié)果

    4.1 測(cè)量性

    研究結(jié)果顯示,三次作文人工評(píng)分的平均分與批改網(wǎng)的平均分十分接近,尤其是兩位人工打分均值的平均分(9.51)與批改網(wǎng)的平均分(9.50)相差僅為0.01,體現(xiàn)出系統(tǒng)評(píng)分與人工評(píng)分在總體平均分上的一致性(見(jiàn)表1)。CET作文評(píng)分標(biāo)準(zhǔn)的同一分?jǐn)?shù)檔上的人機(jī)評(píng)分完全一致性達(dá)62.50%~83.93%,完全加相鄰一致性達(dá)98.21%~100%,與人工評(píng)分者之間的完全一致性(64.28%~78.57%) 和完全加相鄰一致性(100%)比較一致。此外,無(wú)論從三次作文總體來(lái)看還是每次作文來(lái)看,人機(jī)評(píng)分都具有顯著相關(guān)性(0.479~0.741),第二次作文人機(jī)評(píng)分的相關(guān)性(0.741) 高于人工評(píng)分者間(0.725)的相關(guān)性,其它兩次作文人機(jī)評(píng)分的相關(guān)性低于人工評(píng)分者間的相關(guān)性(見(jiàn)表2)。由此可見(jiàn),人機(jī)評(píng)分具有一定的相關(guān)性和一致性。

    表1 自動(dòng)評(píng)分系統(tǒng)與人工評(píng)分的描述統(tǒng)計(jì)

    表2 三次作文人工評(píng)分與系統(tǒng)評(píng)分的相關(guān)性和一致性

    4.2 歸納性

    批改網(wǎng)對(duì)三次作文的評(píng)分呈現(xiàn)顯著相關(guān)性,相關(guān)系數(shù)在0.403到0.498之間,而人工對(duì)三次作文評(píng)分的相關(guān)性在0.457到0.679之間,因此系統(tǒng)評(píng)分三次作文相關(guān)性略低于人工評(píng)分(見(jiàn)表3)。三次作文分?jǐn)?shù)的一致性檢驗(yàn)呈現(xiàn)顯著差異(F=3.49,P<0.05,見(jiàn)表4),Post-Hoc兩兩比較發(fā)現(xiàn)第一次作文與第二、三兩次作文都有顯著差異,而后兩次作文之間沒(méi)有顯著差異(見(jiàn)表5)。

    表3 系統(tǒng)三次作文評(píng)分的相關(guān)性和人工三次作文評(píng)分的相關(guān)性比較

    表4 系統(tǒng)三次作文評(píng)分的差異性(One-way ANOVA)

    表5 系統(tǒng)三次作文評(píng)分差異性兩兩比較(Post Hoc)

    4.3 外推性

    將批改網(wǎng)第一次作文的分?jǐn)?shù)與口語(yǔ)、聽(tīng)力、閱讀和學(xué)習(xí)檔案袋分?jǐn)?shù)的相關(guān)性檢驗(yàn)顯示,系統(tǒng)與口語(yǔ)沒(méi)有顯著相關(guān)性,但與聽(tīng)力(0.446)、閱讀(0.352) 以及學(xué)習(xí)檔案袋(0.500) 都顯著相關(guān)。而人工評(píng)分與這幾項(xiàng)的相關(guān)性分別為0.274~0.325、0.341~0.374、0.276~0.322 和 0.427~0.471。除口語(yǔ)外,系統(tǒng)評(píng)分與聽(tīng)力、閱讀和學(xué)習(xí)檔案袋的相關(guān)性皆高于人工評(píng)分與這幾項(xiàng)的相關(guān)性(見(jiàn)表6)。

    5.討論

    5.1 測(cè)量性

    人機(jī)三次作文的平均分之差為0.01,三次作文人機(jī)評(píng)分的完全一致性達(dá)62.50%-83.93%,完全加相鄰一致性達(dá)98.21%-100%,人機(jī)評(píng)分的完全一致性雖低于IntelliMetric(87%-98%),但完全加相鄰一致性高于 IntelliMetric(94%-100%)(Elliot 2003;Vantage Learning1998,1999,2001),也高于e-rater人機(jī)評(píng)分的完全一致性(56%-62%)和完全加相鄰一致性(98%-99%) (Dekli 2006),因此批改網(wǎng)顯示出較好的一致性。但是三次作文人機(jī)評(píng)分的相關(guān)性為 0.479~0.741,低于 PEG(0.72~0.78)(Page&Peterson 1995; Petersen 1997; Kukich 2000)、IEA(0.81~0.88)(Landauer et al.2000,2003;Folze et al.2013)、IntelliMetric(0.50~0.90)(Elliot 2003;Vantage Learning 1998,1999,2001)和 e-rater(0.66-0.95)(Attali&Burstein 2004;Burstein,Chodorow&Leacock 2004;Kelly 2001;Powers,Escoffery&Duchnowski 2015;Valenti et al.2003;Dekli 2006)。根據(jù) Dikli(2006)人機(jī)評(píng)分70%完全一致性和0.70相關(guān)性,且與人機(jī)評(píng)分差別不大于0.1的標(biāo)準(zhǔn),批改網(wǎng)從CET作文評(píng)分標(biāo)準(zhǔn)的5個(gè)分?jǐn)?shù)檔來(lái)看,其人工評(píng)分完全一致性基本達(dá)到可靠性要求。從作文的平均分來(lái)看,系統(tǒng)與人工評(píng)分之間的差別亦小于0.1,體現(xiàn)系統(tǒng)與人工評(píng)分有較好的一致性。當(dāng)然,這也有可能是由于中等水平學(xué)生作文偏多,高分和低分段作文比較少,因此無(wú)論是人工評(píng)分還是系統(tǒng)評(píng)分都比較容易集中在8分檔和11分檔,也比較容易達(dá)到檔內(nèi)一致的要求。但是研究發(fā)現(xiàn)人機(jī)評(píng)分的相關(guān)性偏低,也就是說(shuō)系統(tǒng)評(píng)分對(duì)每個(gè)學(xué)生分?jǐn)?shù)的排名與人工評(píng)分有一定的出入,或者說(shuō)有可能出現(xiàn)高分評(píng)低和低分評(píng)高的現(xiàn)象。雖然人機(jī)評(píng)分的相關(guān)性顯著,但是離0.7的標(biāo)準(zhǔn)還有一定的距離。由于批改網(wǎng)是網(wǎng)上自動(dòng)作文反饋系統(tǒng),該系統(tǒng)強(qiáng)調(diào)對(duì)教學(xué)的輔助作用,而不是對(duì)大規(guī)??荚嚨脑u(píng)判作用,其對(duì)相關(guān)性要求往往低于用于TOFEL和GRE考試評(píng)分的e-rater系統(tǒng)??傊畯臏y(cè)量性的一致性和相關(guān)性指標(biāo)來(lái)看人機(jī)評(píng)分一致性較好但相關(guān)性偏低,系統(tǒng)體現(xiàn)出一定的測(cè)量性,但不如用于大規(guī)??荚囋u(píng)分的AWE系統(tǒng)。

    表6 人工作文評(píng)分與聽(tīng)說(shuō)讀及檔案袋得分的相關(guān)性

    5.2 歸納性

    批改網(wǎng)對(duì)三次作文評(píng)分呈現(xiàn)顯著相關(guān)性(0.403-0.498),但低于人工評(píng)分三次作文的相關(guān)性(0.457-0.679),這與國(guó)外同類研究的結(jié)果正好相反。Attali(2007) 的研究發(fā)現(xiàn)e-rater對(duì)兩次作文評(píng)分相關(guān)性達(dá)到0.71和0.80,而人工兩次評(píng)分間的相關(guān)性為0.54和0.53,也就是說(shuō)E-rater的歸納性高于人工評(píng)分,而本研究發(fā)現(xiàn)批改網(wǎng)的歸納性略低于人工評(píng)分。這一方面可能在于批改網(wǎng)比較注重作文反饋,對(duì)評(píng)分的信度要求有所降低。另一方面國(guó)外研究從TOEFL考試中收集大量樣本進(jìn)行比對(duì),而本研究則從教學(xué)角度出發(fā),收集的教學(xué)樣本數(shù)比較有限,所顯示的相關(guān)性有一定局限性。從三次作文分?jǐn)?shù)的一致性檢驗(yàn)來(lái)看有顯著差異(F=3.49,P<0.05),主要體現(xiàn)在第一次作文與后兩次作文之間。這與Weigle(2011) 的研究也有所不同。Weigle在分別比較e-rater對(duì)兩次不同寫作任務(wù)的評(píng)分后發(fā)現(xiàn)系統(tǒng)兩次評(píng)分均值沒(méi)有差異。本研究第一次作文和后兩次作文呈現(xiàn)顯著差異可能是由于樣本與Weigle的樣本有所不同。Weigle使用的是兩次TOFEL考試重復(fù)測(cè)試的樣本,而本研究則使用學(xué)生在一個(gè)學(xué)期三次作文的樣本。由于學(xué)生在每次作文之間有大量的課堂和課后語(yǔ)言輸入和關(guān)于寫作方法的課堂教學(xué),同時(shí)學(xué)生還有根據(jù)批改網(wǎng)提供的反饋進(jìn)行反復(fù)修改以及結(jié)合教師反饋進(jìn)行進(jìn)一步修改的過(guò)程,學(xué)生在寫作水平上已經(jīng)獲得提升,第二次作文均分與第一次作文產(chǎn)生顯著差異。第三次作文與第二次作文之間雖然差異不顯著,但也有所提高??傊畯亩啻巫魑南嚓P(guān)性指標(biāo)來(lái)看系統(tǒng)具有一定的歸納性,但不及國(guó)外同類AWE系統(tǒng)。

    5.3 外推性

    系統(tǒng)評(píng)分與口語(yǔ)成績(jī)沒(méi)有顯著相關(guān)性,但與聽(tīng)力 (0.446)、閱讀(0.352) 以及學(xué)習(xí)檔案袋(0.500) 都呈現(xiàn)顯著相關(guān)。體現(xiàn)出系統(tǒng)評(píng)分對(duì)聽(tīng)力、閱讀以及總體英語(yǔ)學(xué)習(xí)情況具有一定的推斷性。這一結(jié)果與Ramineni等(2012) 對(duì)e-rater的外推性研究結(jié)果比較一致,他們將系統(tǒng)評(píng)分與閱讀、聽(tīng)力、口語(yǔ)成績(jī)進(jìn)行相關(guān)性檢驗(yàn)后發(fā)現(xiàn)系統(tǒng)評(píng)分與以上各項(xiàng)的相關(guān)性分別為0.54、0.52、0.55,高于批改網(wǎng)對(duì)這幾項(xiàng)指標(biāo)的外推性。但后來(lái)Ramineni(2013)對(duì)系統(tǒng)與閱讀和個(gè)人學(xué)習(xí)記錄檔案袋的相關(guān)性檢驗(yàn)發(fā)現(xiàn)e-rater與閱讀的相關(guān)性為0.23-0.35,與個(gè)人學(xué)習(xí)記錄檔案袋的相關(guān)性為0.26-0.41,低于批改網(wǎng)作文評(píng)分與這兩項(xiàng)指標(biāo)的相關(guān)性。Klobucar等人(2013) 的兩次研究數(shù)據(jù)采集結(jié)果發(fā)現(xiàn)Criterion與學(xué)習(xí)記錄檔案袋的相關(guān)性為0.37和0.39,低于批改網(wǎng)與學(xué)習(xí)檔案袋的相關(guān)性。Weigle(2011) 發(fā)現(xiàn)e-rater與學(xué)生自評(píng)的聽(tīng)、說(shuō)、讀的相關(guān)性分別為0.23、0.26、0.36,均低于批改網(wǎng)與這些指標(biāo)的相關(guān)性。本研究說(shuō)明,批改網(wǎng)在聽(tīng)力和閱讀方面的外推性比很多同類AWE系統(tǒng)要好,但是與口語(yǔ)成績(jī)不具有相關(guān)性,因此對(duì)口語(yǔ)指標(biāo)的外推性則不明顯,這可能是由于這些學(xué)生分別來(lái)自兩個(gè)班級(jí),由不同的外教實(shí)施口語(yǔ)考試,雖然我們要求外教有統(tǒng)一的評(píng)分標(biāo)準(zhǔn),但是口語(yǔ)考試評(píng)分畢竟存在主觀性,導(dǎo)致口語(yǔ)成績(jī)與批改網(wǎng)評(píng)分以及聽(tīng)力(0.164)、閱讀(0.165) 成績(jī)之間的相關(guān)性都不明顯,因此還需要進(jìn)一步研究系統(tǒng)對(duì)口語(yǔ)成績(jī)的外推性。

    6.結(jié)論

    本研究對(duì)國(guó)內(nèi)自主研發(fā)的AWE系統(tǒng)批改網(wǎng)進(jìn)行了測(cè)量性、歸納性和外推性效度檢驗(yàn),并與國(guó)外AWE系統(tǒng)進(jìn)行了比較。研究結(jié)果發(fā)現(xiàn),從測(cè)量性來(lái)看,批改網(wǎng)的人機(jī)評(píng)分同一分?jǐn)?shù)檔內(nèi)的完全一致性以及完全加相鄰分?jǐn)?shù)檔一致性與國(guó)外同類AWE系統(tǒng)基本相似,人機(jī)評(píng)分顯著相關(guān),但是相關(guān)性低于國(guó)外其它AWE系統(tǒng)。從歸納性來(lái)看,批改網(wǎng)對(duì)三次作文評(píng)分呈現(xiàn)顯著相關(guān)性,但是相關(guān)性低于人工評(píng)分,也低于國(guó)外其它AWE系統(tǒng)。從外推性來(lái)看,批改網(wǎng)作文評(píng)分與聽(tīng)力和閱讀成績(jī)以及學(xué)習(xí)檔案袋分?jǐn)?shù)顯著相關(guān),且相關(guān)性高于國(guó)外其它多數(shù)AWE系統(tǒng)。研究也發(fā)現(xiàn),批改網(wǎng)三次作文評(píng)分有顯著差異,系統(tǒng)評(píng)分與口語(yǔ)成績(jī)未呈現(xiàn)顯著相關(guān)性,研究者對(duì)此進(jìn)行了解釋。本研究較為全面地對(duì)批改網(wǎng)系統(tǒng)的效度進(jìn)行了驗(yàn)證,對(duì)于系統(tǒng)的開(kāi)發(fā)、利用和改進(jìn)有著積極意義。但是鑒于所使用的樣本量較小,所得出的結(jié)論還有一定的局限性,今后可以在更大范圍內(nèi),使用更多樣本對(duì)批改網(wǎng)的測(cè)量性、歸納性和外推性加以研究。對(duì)于效度解釋性和實(shí)用性的研究雖不是本研究涉及的范圍,但相關(guān)研究也可進(jìn)一步深入。

    American Educational Research Association(AERA).1985.Standards for Educational and Psychological Testing[M].Washington,DC:American Psychological Association.

    AttaliY.2007.Constructvalidityofe-raterinscoringTOEFLessays[R].(ETSRR-07-21).Princeton,NJ:ETS.

    Attali,Y.2015.Reliability-based feature weighting for automated essayscoring[J].Applied Psychological Measurement(4):303-313.

    Attali,Y.Lewis,W.&Steier,M.2013.Scoringwith the computer:Alternative procedures for improvingthe reliabilityofholistic essayscoring[J].Language Testing(1):125-141.

    Attali Y,Burstein,J.2004 Automated essay scoring with e-rater V.2.[R].ETS Research Report(2):i-21.

    Burstein,J.,Chodorow,M.,&Leacock,C.2004.Automated essay evaluation:The Criterion online writing service[J].AI Magazine(3):27-35.

    Chapelle,C.A.,Cotos,E.&Lee,J.2015.Validity arguments for diagnostic assessment using automated writing evaluation[J].Language Testing(3):385-405.

    Dikli,S.2006.An overview of automated scoring of essays[J].Journal of Technology,Learning,and Assessment(1):1-35.

    Elliot,S.2003.Howdoes IntelliMetric score essay responses?[R](RB-929).Newtown,PA:Vantage Learning。

    Enright,M.,&Quinlan,M.2010,Complementing human judgment ofessays written byEnglish language learners with e-raterscoring[J].Language Testing(3):317-334.

    Folze,P.W.,Streeter,L.A.,Lochbaum,K.E.&Landauer,T.2013.Implementation and applications of the Inteligent Essay Assessor[A].Shermis M.D.&J.Bursteineds.Handbook ofAutomated Essay Evaluation:Current Applications and New Directions[C].NewYork,NY:Routledge:68-88.

    Klobucar,A.,Elliot,N.,Deess,P.,Rudniy,O.&Joshi,K.2013,Automated scoring in context:Rapid assessment for placed students[J].Assessing Writing(1):62-84.

    Kukich,K.2000.Beyond automated essay scoring[J].IEEE Inte lligent systems:The Debate on Automated Essay Grading(5):22-27.

    Landauer,T.K.,Laham,D.&Foltz,P.W.2000.The Intelligent Essay Assessor[J].IEEE IntelligentSystems:The Debate on Automated Essay Grading(5):27-31.

    Landauer,T.K.,Laham,D.,&Foltz,P.W.2003.Automatic essay assessment[J].Assessment in Education(3):295-308.

    Messick,S.1989.Validity[A].Linn,R.L.ed.Educational Measurement(Third edition)[C].New York:American Council on Education and Macmillan,13-103.

    Page,E.&N.S.Peterson.1995,The computer moves into essay grading:Updating the ancient test[J].Phi Delta Kappan(76):561-565.

    Powers,D.E.,Escoffery,D.S.&Duchnowski,M.P.2015.Validating automated essay scoring:A(modest)refinement of the“Gold Standard”[J].Applied Measurement in Education(2):130-142.

    Ramineni,C.,Trapani,C.S.,Williamson,D.M.W.,Davey,T.&Bridgeman,B.2012.Evaluation ofthe e-rater scoring engine for the TOEFL independent and integrated prompts[R](ETSRR-12-06).Princeton,NJ:ETS.

    Ramineni,C.&Williamson,D.M.2013.Automated essayscoring:Psychometric guidelines and practices[J].Assessing Writing(18):25-39.

    Valenti,S.,Neri,F.,&Cucchiarelli,A.2003.An overview of current research on automated essay grading[J].Journal of Information Technology Education(2):319-330.

    Vantage,Learning.1999.Construct validity of intelliMetric with international assessment[R](RB-323).Newtown,PA:Vantage Learning,

    Vantage,Learning.2001.About IntelliMetric[R](PB-540).New town,PA:Vantage Learning,

    Weigle,S.C.2010.Validation ofautomated scores ofTOEFL iB T tasks against non-test indicators of writing ability[J].Language Testing(3):335-353.

    Weigle,S.C.2011.Validation of automated scores of TOEFL iBT tasks against nontest indicators of writing ability[R].ETS Research Report Series(2):i-63.

    Williamson,D.M.,Xi,X.,&Breyer,F.J.2012,A framework for evaluation and use of automated scoring[J].Educational Measurement:Issues and Practices(31):2-13.

    Xi,X.2010.Automated scoring and feedback systems:Where are we and where are we heading[J]?Language Testing(3):291-300.

    Yang,Y.,Buckendahl,C.W.,Juszkiewicz,P.J.,&Bhola,D.S.2002,Areviewofstrategiesforvalidatingcomputer-automated scoring[J].Applied Measurement in Education(4):391-412.

    何旭良,2013,句酷批改網(wǎng)英語(yǔ)作文評(píng)分的信度和效度研究[J],《現(xiàn)代教育技術(shù)》(5):64-67。

    石曉玲,2012,在線寫作自動(dòng)評(píng)改系統(tǒng)在大學(xué)英語(yǔ)寫作教學(xué)中的應(yīng)用研究——以批改網(wǎng)為例[J],《現(xiàn)代教育技術(shù)》(10):67-71。

    楊曉瓊、戴運(yùn)財(cái),2015,基于批改網(wǎng)的大學(xué)英語(yǔ)自主寫作教學(xué)模式實(shí)踐研究[J],《外語(yǔ)電化教學(xué)》(2):17-23。

    張荔、盛越,2015,自動(dòng)作文評(píng)閱系統(tǒng)反饋效果個(gè)案研究[J],《外語(yǔ)電化教學(xué)》(3):38-44。

    “一帶一路”國(guó)家戰(zhàn)略背景下話語(yǔ)研究與語(yǔ)言服務(wù)高端論壇

    為服務(wù)國(guó)家“一帶一路”戰(zhàn)略的實(shí)施、促進(jìn)國(guó)內(nèi)話語(yǔ)研究與語(yǔ)言服務(wù)水平及相關(guān)人才的培養(yǎng)質(zhì)量,“‘一帶一路’國(guó)家戰(zhàn)略背景下話語(yǔ)研究與語(yǔ)言服務(wù)高端論壇”定于2017年12月1日—3日在廣州召開(kāi)。此次論壇由中國(guó)英漢語(yǔ)比較研究會(huì)話語(yǔ)研究專業(yè)委員會(huì)主辦、廣州大學(xué)外國(guó)語(yǔ)學(xué)院承辦。

    本次論壇主題為:服務(wù)國(guó)家“一帶一路”戰(zhàn)略,助力構(gòu)建當(dāng)代中國(guó)新話語(yǔ)。議題為:1、“一帶一路”戰(zhàn)略下中國(guó)形象的話語(yǔ)建構(gòu);2、“一帶一路”戰(zhàn)略下的語(yǔ)言服務(wù)與人才培養(yǎng);3、“一帶一路”沿線國(guó)家的語(yǔ)言與文化;4、新媒體與話語(yǔ)研究的新發(fā)展。論壇將特邀中國(guó)話語(yǔ)研究機(jī)構(gòu)聯(lián)盟成員代表及學(xué)者參會(huì)并做大會(huì)報(bào)告。

    論壇時(shí)間:2017年12月1日13:00-22:00報(bào)到。

    論壇地點(diǎn):廣州大學(xué)城廣州大學(xué)學(xué)術(shù)交流中心。

    會(huì)務(wù)費(fèi):800元/人(在讀研究生減半)。

    會(huì)議統(tǒng)一安排食宿,費(fèi)用自理。與會(huì)者請(qǐng)于2017年10月30日前將會(huì)議回執(zhí)連同論文摘要發(fā)送到郵箱:3390001548@qq.com

    聯(lián)系人:曾祥薇電話:13632220509賀龍會(huì)電話:13424102499 胡安奇電話:15989001498

    中國(guó)英漢語(yǔ)比較研究會(huì)話語(yǔ)研究專業(yè)委員會(huì)

    廣州大學(xué)外國(guó)語(yǔ)學(xué)院

    H319

    A

    2095-9648(2017)03-0064-08

    *本文系國(guó)家社科基金項(xiàng)目“基于語(yǔ)料庫(kù)和云技術(shù)的網(wǎng)絡(luò)自動(dòng)作文評(píng)閱系統(tǒng)信效度及其輔助教學(xué)研究”(項(xiàng)目號(hào):13BYY081)的部分成果。

    (張 荔:上海交通大學(xué)外國(guó)語(yǔ)學(xué)院副教授,博士)

    2017-05-30

    通訊地址:200240上海市閔行區(qū)東川路800號(hào)上海交通大學(xué)外國(guó)語(yǔ)學(xué)院

    猜你喜歡
    檔案袋人機(jī)效度
    人機(jī)“翻譯員”
    從內(nèi)到外,看懂無(wú)人機(jī)
    南都周刊(2021年3期)2021-04-22 16:43:49
    慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
    “人機(jī)大戰(zhàn)”人類智慧遭遇強(qiáng)敵
    海外星云(2016年7期)2016-12-01 04:17:50
    未來(lái)深空探測(cè)中的人機(jī)聯(lián)合探測(cè)
    太空探索(2016年5期)2016-07-12 15:17:58
    電子檔案袋評(píng)價(jià)技術(shù)與高中信息技術(shù)教學(xué)
    被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
    一圖看懂檔案袋里裝了啥
    文苑·感悟(2015年4期)2015-06-24 11:41:55
    外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
    一圖看懂檔案袋里裝了啥
    文苑(2015年4期)2015-04-03 10:26:41
    丰满的人妻完整版| 国产精品国产三级国产av玫瑰| 夫妻性生交免费视频一级片| 亚洲人成网站在线观看播放| 一卡2卡三卡四卡精品乱码亚洲| 在线免费十八禁| 69av精品久久久久久| 少妇的逼好多水| 我的女老师完整版在线观看| 亚洲精品成人久久久久久| 男的添女的下面高潮视频| 亚洲欧美成人精品一区二区| 老司机福利观看| 亚洲精品国产成人久久av| 超碰av人人做人人爽久久| 村上凉子中文字幕在线| 少妇熟女aⅴ在线视频| 亚洲av熟女| eeuss影院久久| 欧美三级亚洲精品| 国内精品一区二区在线观看| 啦啦啦观看免费观看视频高清| 久久99热6这里只有精品| 国产高清有码在线观看视频| 成年女人永久免费观看视频| 最新中文字幕久久久久| 亚洲精品亚洲一区二区| 成年版毛片免费区| 亚洲,欧美,日韩| 国产乱人偷精品视频| 特大巨黑吊av在线直播| 三级毛片av免费| 午夜老司机福利剧场| 欧美性猛交╳xxx乱大交人| 91麻豆精品激情在线观看国产| 亚洲激情五月婷婷啪啪| 三级男女做爰猛烈吃奶摸视频| av在线亚洲专区| 天堂影院成人在线观看| 在现免费观看毛片| 最近视频中文字幕2019在线8| 国产成人91sexporn| 国产女主播在线喷水免费视频网站 | 一进一出抽搐动态| 免费人成视频x8x8入口观看| 亚洲av.av天堂| www.色视频.com| 久久这里只有精品中国| 国产精品国产三级国产av玫瑰| 美女大奶头视频| av.在线天堂| 日韩成人伦理影院| 91狼人影院| 国产高清有码在线观看视频| 亚洲欧美成人综合另类久久久 | 永久网站在线| av天堂中文字幕网| 久久鲁丝午夜福利片| 看黄色毛片网站| 成人美女网站在线观看视频| 亚洲精品乱码久久久v下载方式| 亚洲欧美精品综合久久99| 女人被狂操c到高潮| 国内精品宾馆在线| 最后的刺客免费高清国语| 国产精品久久久久久av不卡| 狠狠狠狠99中文字幕| 噜噜噜噜噜久久久久久91| 国产黄a三级三级三级人| 五月玫瑰六月丁香| 亚洲国产欧洲综合997久久,| 免费电影在线观看免费观看| 国产高清激情床上av| 日产精品乱码卡一卡2卡三| 日韩欧美精品v在线| 村上凉子中文字幕在线| 2021天堂中文幕一二区在线观| 免费看a级黄色片| 男人舔奶头视频| 天堂中文最新版在线下载 | 欧美高清性xxxxhd video| 国产日本99.免费观看| 久久精品夜色国产| 久久精品国产99精品国产亚洲性色| 成人性生交大片免费视频hd| 国产亚洲av嫩草精品影院| 免费搜索国产男女视频| 天天躁日日操中文字幕| 午夜免费激情av| 一本一本综合久久| 久99久视频精品免费| 亚洲人与动物交配视频| 一进一出抽搐动态| 夜夜夜夜夜久久久久| 亚洲精品456在线播放app| 中文字幕制服av| 亚洲国产精品久久男人天堂| 又爽又黄a免费视频| 天堂网av新在线| 久久这里有精品视频免费| 午夜视频国产福利| 国产伦一二天堂av在线观看| 日本熟妇午夜| 麻豆成人av视频| 国产白丝娇喘喷水9色精品| 一个人看的www免费观看视频| 免费av不卡在线播放| 一区二区三区高清视频在线| 久久精品人妻少妇| 22中文网久久字幕| 亚洲精品乱码久久久久久按摩| 精品人妻偷拍中文字幕| 99久久久亚洲精品蜜臀av| 99国产极品粉嫩在线观看| 只有这里有精品99| 国产成人精品久久久久久| ponron亚洲| 日本免费一区二区三区高清不卡| 日韩av不卡免费在线播放| ponron亚洲| 婷婷色综合大香蕉| www.色视频.com| 免费不卡的大黄色大毛片视频在线观看 | 亚洲av.av天堂| www.色视频.com| 精品一区二区免费观看| 波多野结衣高清无吗| 国产av在哪里看| 免费看a级黄色片| 成人国产麻豆网| av免费观看日本| 亚洲av男天堂| 91麻豆精品激情在线观看国产| av免费在线看不卡| 亚洲18禁久久av| 国产精品日韩av在线免费观看| 色哟哟·www| 一级毛片久久久久久久久女| 亚洲七黄色美女视频| 午夜老司机福利剧场| 成人性生交大片免费视频hd| 久久精品夜色国产| 99久国产av精品| 国产av麻豆久久久久久久| 在线国产一区二区在线| 看片在线看免费视频| 国产免费男女视频| 国产熟女欧美一区二区| 夜夜看夜夜爽夜夜摸| 一进一出抽搐动态| 18禁在线无遮挡免费观看视频| 国产亚洲av嫩草精品影院| 麻豆国产av国片精品| 欧美色欧美亚洲另类二区| 特大巨黑吊av在线直播| 国产色爽女视频免费观看| 天堂av国产一区二区熟女人妻| 午夜免费男女啪啪视频观看| 欧美激情久久久久久爽电影| 国产精品久久久久久久电影| 久久精品91蜜桃| 亚洲精品乱码久久久久久按摩| 日韩欧美精品v在线| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 成人午夜精彩视频在线观看| 国产成人freesex在线| 永久网站在线| 日韩一本色道免费dvd| 欧美日本亚洲视频在线播放| 黄片无遮挡物在线观看| 国产精品久久久久久精品电影| 国产私拍福利视频在线观看| 麻豆国产97在线/欧美| 亚洲av第一区精品v没综合| 国模一区二区三区四区视频| 人妻少妇偷人精品九色| 午夜精品国产一区二区电影 | 欧美zozozo另类| 在线观看午夜福利视频| 欧美色视频一区免费| 人妻少妇偷人精品九色| 亚洲人成网站在线播| 精品久久久久久久久久免费视频| 欧美潮喷喷水| 少妇熟女aⅴ在线视频| 人体艺术视频欧美日本| 此物有八面人人有两片| 日本与韩国留学比较| 久久久久久久久大av| 成年女人永久免费观看视频| 日韩成人av中文字幕在线观看| 国模一区二区三区四区视频| 99热全是精品| 午夜久久久久精精品| 欧美变态另类bdsm刘玥| 国产精品99久久久久久久久| 久久精品91蜜桃| 蜜臀久久99精品久久宅男| 免费观看a级毛片全部| 亚州av有码| 久久6这里有精品| 亚洲欧美中文字幕日韩二区| 晚上一个人看的免费电影| 美女被艹到高潮喷水动态| www.av在线官网国产| 亚洲成人久久性| 看非洲黑人一级黄片| 成年女人永久免费观看视频| 国产高清有码在线观看视频| 六月丁香七月| 最近视频中文字幕2019在线8| 中文字幕熟女人妻在线| 欧美性猛交╳xxx乱大交人| 国产精品久久视频播放| 免费在线观看成人毛片| 久久精品国产鲁丝片午夜精品| 日韩一区二区视频免费看| 国产白丝娇喘喷水9色精品| 久久精品人妻少妇| 婷婷六月久久综合丁香| 中国国产av一级| 午夜福利视频1000在线观看| 啦啦啦啦在线视频资源| 麻豆一二三区av精品| 波野结衣二区三区在线| 亚洲欧美日韩无卡精品| 男女边吃奶边做爰视频| 亚洲aⅴ乱码一区二区在线播放| 欧美xxxx性猛交bbbb| 中文在线观看免费www的网站| 熟妇人妻久久中文字幕3abv| 久久精品91蜜桃| 精品人妻视频免费看| 长腿黑丝高跟| 色播亚洲综合网| 国内精品宾馆在线| 欧美极品一区二区三区四区| 亚洲人成网站在线观看播放| 小说图片视频综合网站| 一区福利在线观看| 99国产精品一区二区蜜桃av| 非洲黑人性xxxx精品又粗又长| av在线老鸭窝| 欧美激情国产日韩精品一区| 国产精品一区二区性色av| 26uuu在线亚洲综合色| av在线天堂中文字幕| 高清毛片免费观看视频网站| 国产真实乱freesex| 亚洲国产精品久久男人天堂| kizo精华| 国产爱豆传媒在线观看| 只有这里有精品99| 99热只有精品国产| 亚洲av一区综合| 一进一出抽搐动态| 中文在线观看免费www的网站| 一本久久中文字幕| 好男人视频免费观看在线| 桃色一区二区三区在线观看| 级片在线观看| 亚洲,欧美,日韩| 99久久久亚洲精品蜜臀av| 我的女老师完整版在线观看| 日本爱情动作片www.在线观看| 简卡轻食公司| 中文字幕人妻熟人妻熟丝袜美| 久久久久久久久久成人| 男的添女的下面高潮视频| 丰满人妻一区二区三区视频av| 一区二区三区免费毛片| 老司机影院成人| 日本黄色片子视频| 国产欧美日韩精品一区二区| 三级男女做爰猛烈吃奶摸视频| 久久99蜜桃精品久久| 天堂√8在线中文| videossex国产| 免费看日本二区| 国产午夜精品一二区理论片| 国产精品一区二区性色av| 亚洲av男天堂| 男女视频在线观看网站免费| 人妻久久中文字幕网| 日韩欧美在线乱码| 日本黄色视频三级网站网址| 久久99蜜桃精品久久| 久久人人爽人人爽人人片va| 插阴视频在线观看视频| 亚洲不卡免费看| 欧美日韩国产亚洲二区| 国产极品精品免费视频能看的| www.色视频.com| 国产黄片视频在线免费观看| 麻豆精品久久久久久蜜桃| 免费一级毛片在线播放高清视频| 日本成人三级电影网站| 神马国产精品三级电影在线观看| 国产男人的电影天堂91| 亚洲精品影视一区二区三区av| 少妇人妻精品综合一区二区 | 欧美变态另类bdsm刘玥| 国语自产精品视频在线第100页| 国产亚洲5aaaaa淫片| 麻豆成人午夜福利视频| 可以在线观看的亚洲视频| 国内精品久久久久精免费| 欧美最新免费一区二区三区| 欧美日韩在线观看h| 99九九线精品视频在线观看视频| 一进一出抽搐动态| 精品国内亚洲2022精品成人| 国产精品一区二区性色av| 日日撸夜夜添| 亚洲精品影视一区二区三区av| 干丝袜人妻中文字幕| 欧美人与善性xxx| 2022亚洲国产成人精品| 综合色av麻豆| 日韩一区二区三区影片| 欧美变态另类bdsm刘玥| 一进一出抽搐gif免费好疼| 18禁在线播放成人免费| 黄色视频,在线免费观看| 亚洲熟妇中文字幕五十中出| av天堂在线播放| 日韩欧美在线乱码| 午夜福利在线观看吧| 亚洲av中文av极速乱| 国产一区二区三区av在线 | 又爽又黄a免费视频| 夫妻性生交免费视频一级片| 亚洲av.av天堂| 欧美色视频一区免费| 美女被艹到高潮喷水动态| 亚洲精品亚洲一区二区| 国产黄色小视频在线观看| 如何舔出高潮| 国产白丝娇喘喷水9色精品| 日韩制服骚丝袜av| 成人无遮挡网站| 十八禁国产超污无遮挡网站| 熟女电影av网| 亚洲自偷自拍三级| 亚洲av免费高清在线观看| 丝袜喷水一区| 人妻夜夜爽99麻豆av| 久久久精品94久久精品| 国产美女午夜福利| 人人妻人人看人人澡| 最好的美女福利视频网| 观看美女的网站| 国产精品永久免费网站| 国产熟女欧美一区二区| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 成人三级黄色视频| 天美传媒精品一区二区| 国产单亲对白刺激| 伦理电影大哥的女人| 国产成人91sexporn| 给我免费播放毛片高清在线观看| av黄色大香蕉| 国产精品.久久久| 国产精品人妻久久久影院| 久久精品国产亚洲网站| 一个人看视频在线观看www免费| 精华霜和精华液先用哪个| 国产成人a∨麻豆精品| 国产精品蜜桃在线观看 | 黄色日韩在线| 亚洲欧美成人综合另类久久久 | 永久网站在线| 久久精品国产清高在天天线| 毛片一级片免费看久久久久| 乱码一卡2卡4卡精品| 身体一侧抽搐| 嫩草影院精品99| 成年av动漫网址| 成人特级黄色片久久久久久久| 91久久精品国产一区二区三区| 日本黄色片子视频| 麻豆成人av视频| 国产蜜桃级精品一区二区三区| 欧美xxxx性猛交bbbb| 岛国毛片在线播放| 又粗又硬又长又爽又黄的视频 | 国产日韩欧美在线精品| 国产女主播在线喷水免费视频网站 | 国产片特级美女逼逼视频| 国产精品人妻久久久久久| 欧美bdsm另类| 春色校园在线视频观看| 国产亚洲精品av在线| 91av网一区二区| 日本一二三区视频观看| 91精品一卡2卡3卡4卡| 国产不卡一卡二| 国产片特级美女逼逼视频| 日韩,欧美,国产一区二区三区 | 99热网站在线观看| 成人性生交大片免费视频hd| 九草在线视频观看| 亚洲av.av天堂| 秋霞在线观看毛片| 欧美最新免费一区二区三区| 九九热线精品视视频播放| 国产91av在线免费观看| 亚洲av二区三区四区| 九九热线精品视视频播放| 别揉我奶头 嗯啊视频| 日本免费一区二区三区高清不卡| 最近视频中文字幕2019在线8| 色尼玛亚洲综合影院| 国产女主播在线喷水免费视频网站 | 成年免费大片在线观看| 网址你懂的国产日韩在线| 亚洲欧洲日产国产| 国产精品蜜桃在线观看 | 精品午夜福利在线看| 久久人人爽人人片av| 欧美最新免费一区二区三区| 亚洲无线在线观看| 老司机福利观看| 日本黄色视频三级网站网址| 国产精品三级大全| 亚洲精品乱码久久久v下载方式| 12—13女人毛片做爰片一| 欧美在线一区亚洲| 十八禁国产超污无遮挡网站| 久久人人精品亚洲av| 国产精华一区二区三区| 天天一区二区日本电影三级| 亚州av有码| 欧美丝袜亚洲另类| www.av在线官网国产| 九色成人免费人妻av| 九九爱精品视频在线观看| 一区二区三区高清视频在线| 欧美成人a在线观看| 一级毛片aaaaaa免费看小| 久久精品国产亚洲av香蕉五月| 热99re8久久精品国产| .国产精品久久| 深爱激情五月婷婷| 免费看av在线观看网站| 国产精品一区二区三区四区免费观看| 亚州av有码| 99久久精品国产国产毛片| 看黄色毛片网站| 国产精品av视频在线免费观看| 乱系列少妇在线播放| 久久久久性生活片| 成年av动漫网址| av在线观看视频网站免费| 日本欧美国产在线视频| 黄色配什么色好看| a级毛片a级免费在线| 国产 一区 欧美 日韩| 亚洲成人中文字幕在线播放| 成人性生交大片免费视频hd| 黄色日韩在线| 亚洲av一区综合| 小蜜桃在线观看免费完整版高清| 亚洲综合色惰| 国产精品久久久久久久久免| 国产免费一级a男人的天堂| 久久韩国三级中文字幕| 久久久久久久久中文| 日韩欧美一区二区三区在线观看| 非洲黑人性xxxx精品又粗又长| 亚洲国产高清在线一区二区三| av在线天堂中文字幕| 联通29元200g的流量卡| 日韩欧美一区二区三区在线观看| 免费看av在线观看网站| 男的添女的下面高潮视频| 18禁裸乳无遮挡免费网站照片| 久久精品国产亚洲av涩爱 | 中文在线观看免费www的网站| 村上凉子中文字幕在线| 国产精品美女特级片免费视频播放器| 99视频精品全部免费 在线| а√天堂www在线а√下载| 赤兔流量卡办理| 免费电影在线观看免费观看| 老司机福利观看| 亚洲精品日韩av片在线观看| 老司机影院成人| 网址你懂的国产日韩在线| 亚洲最大成人av| 99精品在免费线老司机午夜| 日韩制服骚丝袜av| 亚洲精品456在线播放app| 91午夜精品亚洲一区二区三区| 禁无遮挡网站| 波野结衣二区三区在线| 精品免费久久久久久久清纯| 波多野结衣巨乳人妻| 成熟少妇高潮喷水视频| 99久久久亚洲精品蜜臀av| 一本久久中文字幕| 久久久久国产网址| or卡值多少钱| 午夜精品一区二区三区免费看| 男人舔女人下体高潮全视频| 久久久国产成人精品二区| 亚洲精品亚洲一区二区| 国产片特级美女逼逼视频| 欧美三级亚洲精品| videossex国产| 岛国毛片在线播放| 欧美一区二区亚洲| 少妇的逼水好多| 国国产精品蜜臀av免费| av黄色大香蕉| 国产伦精品一区二区三区视频9| 成人二区视频| 人人妻人人澡欧美一区二区| 久99久视频精品免费| 国内精品美女久久久久久| 亚洲精品久久国产高清桃花| 国产精品1区2区在线观看.| 欧美zozozo另类| 精品少妇黑人巨大在线播放 | 亚洲精品粉嫩美女一区| 成人美女网站在线观看视频| 国产精品,欧美在线| 99热这里只有精品一区| 国产极品天堂在线| 麻豆国产av国片精品| 欧美日韩一区二区视频在线观看视频在线 | 不卡一级毛片| 插阴视频在线观看视频| .国产精品久久| 欧美在线一区亚洲| 九草在线视频观看| 亚洲七黄色美女视频| 伦精品一区二区三区| 青春草亚洲视频在线观看| 国产精品人妻久久久久久| 97在线视频观看| 天堂av国产一区二区熟女人妻| 国产精品人妻久久久影院| 国产成人a区在线观看| 精品午夜福利在线看| 国产色婷婷99| 长腿黑丝高跟| 青春草视频在线免费观看| 亚洲18禁久久av| 国产成人a区在线观看| 精品午夜福利在线看| 亚洲人成网站高清观看| 久久中文看片网| 男女那种视频在线观看| 日日撸夜夜添| 又黄又爽又刺激的免费视频.| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 一本久久中文字幕| 欧美日韩综合久久久久久| 国产成人a∨麻豆精品| 黄色日韩在线| 男插女下体视频免费在线播放| 夜夜看夜夜爽夜夜摸| 最近手机中文字幕大全| 日本黄色视频三级网站网址| 国内精品宾馆在线| 亚洲一区二区三区色噜噜| 亚洲国产精品成人久久小说 | 午夜免费激情av| 一级黄色大片毛片| 亚洲精品久久国产高清桃花| 国产亚洲精品久久久久久毛片| 高清毛片免费观看视频网站| av.在线天堂| 欧美色视频一区免费| 国产高潮美女av| 国产精品一区www在线观看| 91久久精品电影网| 成人av在线播放网站| 久久精品人妻少妇| 在线免费观看不下载黄p国产| 国内少妇人妻偷人精品xxx网站| 国产美女午夜福利| 波多野结衣高清无吗| 夜夜夜夜夜久久久久| 2022亚洲国产成人精品| 成年免费大片在线观看| 亚洲国产精品sss在线观看| 性欧美人与动物交配| 亚洲成人中文字幕在线播放| 成年av动漫网址| 亚洲综合色惰| 久久久久久久亚洲中文字幕| 国产精品一区二区三区四区久久| 黄色欧美视频在线观看| 国产一区二区激情短视频| 精品久久久久久久人妻蜜臀av| 亚洲无线在线观看| 麻豆成人av视频| 国产黄片视频在线免费观看| 免费无遮挡裸体视频| 男人的好看免费观看在线视频| av在线蜜桃| 日韩 亚洲 欧美在线| 日本五十路高清| 亚洲av不卡在线观看| 久久精品国产亚洲av香蕉五月| 男女那种视频在线观看| 国产成人精品婷婷| 亚洲精华国产精华液的使用体验 | 日韩欧美在线乱码| 校园人妻丝袜中文字幕| 免费av不卡在线播放| 午夜精品在线福利| 中文字幕av成人在线电影|