• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    國(guó)產(chǎn)大語(yǔ)言模型的語(yǔ)文作文評(píng)價(jià)能力測(cè)試

    2025-03-16 00:00:00魏順平張悅冉柔
    現(xiàn)代教育技術(shù) 2025年3期
    關(guān)鍵詞:小學(xué)語(yǔ)文

    摘要:大語(yǔ)言模型作為人工智能的最新技術(shù)成果,將對(duì)數(shù)智時(shí)代的教育樣態(tài)產(chǎn)生深刻影響。為調(diào)查大語(yǔ)言模型的作文評(píng)價(jià)能力,文章選取500篇小學(xué)語(yǔ)文作文,設(shè)計(jì)了37條提示語(yǔ),以“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型為測(cè)試工具,從評(píng)分和評(píng)語(yǔ)兩個(gè)方面進(jìn)行評(píng)價(jià),發(fā)現(xiàn):在評(píng)分的可用性上,國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始分?jǐn)?shù)具有微弱相關(guān)關(guān)系;在評(píng)分的穩(wěn)定性上,國(guó)產(chǎn)大語(yǔ)言模型前后兩次評(píng)分的相關(guān)度低、穩(wěn)定性較差,而前后兩次評(píng)級(jí)的相關(guān)度高、穩(wěn)定性較好;在評(píng)語(yǔ)的準(zhǔn)確率方面,國(guó)產(chǎn)大語(yǔ)言模型在內(nèi)容選擇、篇章結(jié)構(gòu)方面的作文評(píng)語(yǔ)準(zhǔn)確率較高;在評(píng)語(yǔ)的穩(wěn)定性方面,國(guó)產(chǎn)大語(yǔ)言模型的評(píng)語(yǔ)具有生成性,前后兩次生成的評(píng)語(yǔ)相似度低。最后,文章針對(duì)大語(yǔ)言模型的語(yǔ)文教育應(yīng)用提出建議,以幫助教師更好地進(jìn)行人機(jī)協(xié)同教學(xué)。

    關(guān)鍵詞:大語(yǔ)言模型;小學(xué)語(yǔ)文;作文評(píng)價(jià);人機(jī)協(xié)同

    【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2025)03—0024—10 【DOI】10.3969/j.issn.1009-8097.2025.03.003

    引言

    語(yǔ)文課程是一門學(xué)習(xí)國(guó)家通用語(yǔ)言文字的綜合性、實(shí)踐性課程,而語(yǔ)文作文側(cè)重于語(yǔ)言文字的應(yīng)用,這一學(xué)科特征與大語(yǔ)言模型的自然語(yǔ)言處理技術(shù)相適配。作為第四次人工智能浪潮的代表性產(chǎn)品,大語(yǔ)言模型依托自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù),具有出色的文本生成能力。語(yǔ)文作文評(píng)價(jià)可以充分挖掘大語(yǔ)言模型的應(yīng)用價(jià)值,從而促進(jìn)學(xué)生語(yǔ)文寫(xiě)作能力的提升。在這一過(guò)程中,大語(yǔ)言模型能夠支持學(xué)生開(kāi)展自主、合作、探究性的作文學(xué)習(xí),為學(xué)生個(gè)性化、創(chuàng)造性的作文學(xué)習(xí)提供技術(shù)幫助。學(xué)生在語(yǔ)文作文學(xué)習(xí)時(shí)利用大語(yǔ)言模型獲得及時(shí)的評(píng)價(jià),并在不斷修改作文的過(guò)程中提升寫(xiě)作能力。

    繼Open AI公司推出ChatGPT后,國(guó)產(chǎn)大語(yǔ)言模型相繼推出并投入使用,如訊飛星火、文心一言、智譜AI、通義千問(wèn)、360智腦等。大語(yǔ)言模型為學(xué)校教學(xué)與管理提供了全過(guò)程支持,包括革新學(xué)習(xí)方式、創(chuàng)新評(píng)價(jià)方式等,有助于實(shí)現(xiàn)教學(xué)過(guò)程的即時(shí)迭代和優(yōu)化[1]。國(guó)產(chǎn)大語(yǔ)言模型的反饋結(jié)果在一定程度上受提示語(yǔ)的影響,在語(yǔ)文作文評(píng)價(jià)中的應(yīng)用效果也有待檢驗(yàn)。為此,本研究選擇真實(shí)的小學(xué)語(yǔ)文作文樣本,嘗試從多角度進(jìn)行提示語(yǔ)設(shè)計(jì),并選用“智譜AI”和“訊飛星火”兩款國(guó)產(chǎn)大語(yǔ)言模型,調(diào)用API接口實(shí)現(xiàn)批量的作文評(píng)價(jià)測(cè)試,以考察國(guó)產(chǎn)大語(yǔ)言模型的作文評(píng)價(jià)能力,從而檢驗(yàn)國(guó)產(chǎn)大語(yǔ)言模型在小學(xué)語(yǔ)文作文評(píng)價(jià)中的應(yīng)用價(jià)值。大語(yǔ)言模型的作文評(píng)價(jià)能力包括評(píng)分能力和評(píng)語(yǔ)能力,其中反映評(píng)分能力的指標(biāo)主要有可用性和穩(wěn)定性,而反映評(píng)語(yǔ)能力的指標(biāo)主要有準(zhǔn)確率和穩(wěn)定性。

    一 文獻(xiàn)綜述

    《義務(wù)教育語(yǔ)文課程標(biāo)準(zhǔn)(2022年版)》對(duì)小學(xué)不同學(xué)段的作文提出了要求:第一學(xué)段,學(xué)生應(yīng)寫(xiě)自己想說(shuō)的話,寫(xiě)想象的事物;第二學(xué)段,學(xué)生應(yīng)不拘形式地寫(xiě)下自己的見(jiàn)聞、感受和想象;第三學(xué)段,學(xué)生應(yīng)寫(xiě)記實(shí)作文、想象作文[2]。為了科學(xué)衡量作文的質(zhì)量,研究者設(shè)計(jì)了作文評(píng)價(jià)的相關(guān)指標(biāo)。例如,祝新華[3]設(shè)計(jì)了面向1~9年級(jí)兒童的作文五項(xiàng)目評(píng)定量表,包括中心、材料、條理、語(yǔ)言表達(dá)基本功、修辭五個(gè)維度;黃濤等[4]構(gòu)建了人機(jī)協(xié)同支持的小學(xué)語(yǔ)文寫(xiě)作能力評(píng)價(jià)指標(biāo)體系,從內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)、書(shū)面文寫(xiě)、作文修訂五個(gè)維度對(duì)小學(xué)語(yǔ)文作文進(jìn)行評(píng)價(jià)。

    語(yǔ)文作文的評(píng)價(jià)可以分為評(píng)分和評(píng)語(yǔ)兩部分,相應(yīng)地,國(guó)產(chǎn)大語(yǔ)言模型的語(yǔ)文作文評(píng)價(jià)也可從評(píng)分和評(píng)語(yǔ)兩個(gè)方面進(jìn)行:①在評(píng)分方面,研究者主要從評(píng)分的可用性、準(zhǔn)確性進(jìn)行研究。例如,Thelwall[5]利用ChatGPT-4對(duì)51篇學(xué)術(shù)期刊論文進(jìn)行評(píng)價(jià),從評(píng)分的可用性、準(zhǔn)確性進(jìn)行評(píng)估,發(fā)現(xiàn)ChatGPT-4在準(zhǔn)確性上的評(píng)分與人工評(píng)價(jià)差距較大,多輪分?jǐn)?shù)的平均值與人工評(píng)分的相關(guān)度更高。②在評(píng)語(yǔ)方面,研究者多從評(píng)語(yǔ)的計(jì)量分析、內(nèi)容分析、準(zhǔn)確率展開(kāi)研究。例如,劉淑君等[6]對(duì)IN課堂的智能作文評(píng)價(jià)進(jìn)行研究,發(fā)現(xiàn)智能作文評(píng)價(jià)的表?yè)P(yáng)型反饋占比較高,且反饋召回率高于教師作文評(píng)價(jià)的召回率;吳軍其等[7]將“文心一言”用于初中語(yǔ)文作文評(píng)價(jià),發(fā)現(xiàn)“文心一言”的評(píng)價(jià)精準(zhǔn)度低于教師,但其評(píng)價(jià)召回率顯著高于教師;賀樑等[8]的研究表明,在教育能力方面,ChatGPT的準(zhǔn)確率與同質(zhì)化程度存在正比關(guān)系。

    提示語(yǔ)(Prompt)的設(shè)計(jì)是影響大語(yǔ)言模型反饋質(zhì)量的重要因素之一。作為用戶與大語(yǔ)言模型交流的語(yǔ)言媒介,提示語(yǔ)是用戶向計(jì)算機(jī)程序或大語(yǔ)言模型提供的一組輸入集或指令集[9]。有研究者發(fā)現(xiàn),“優(yōu)化提問(wèn)”下ChatGPT的反饋精準(zhǔn)度(含精確度和召回率)高于“初始提問(wèn)”[10];在長(zhǎng)文本的評(píng)估測(cè)試中,ChatGPT對(duì)短提示語(yǔ)的反饋精準(zhǔn)度要優(yōu)于長(zhǎng)提示語(yǔ)[11]。

    綜合相關(guān)文獻(xiàn)可知,當(dāng)前大語(yǔ)言模型的教育應(yīng)用研究正處于起步階段,主要表現(xiàn)為:①研究者通過(guò)實(shí)證研究嘗試對(duì)大語(yǔ)言模型的語(yǔ)文作文評(píng)價(jià)效果進(jìn)行檢驗(yàn),且多以單篇作文為研究對(duì)象進(jìn)行評(píng)價(jià),而未能從語(yǔ)文學(xué)科的內(nèi)在特性細(xì)分評(píng)價(jià)維度。②對(duì)于人工智能的作文評(píng)價(jià)能力,研究者關(guān)注提示語(yǔ)對(duì)大語(yǔ)言模型反饋的影響,且多對(duì)提示語(yǔ)的設(shè)計(jì)進(jìn)行說(shuō)明,而較少對(duì)提示語(yǔ)的設(shè)計(jì)進(jìn)行前測(cè)以改善大語(yǔ)言模型的反饋質(zhì)量。③已有研究多聚焦評(píng)語(yǔ)分析,而缺少評(píng)分分析,且未能對(duì)不同類型、不同層次的作文進(jìn)行細(xì)化分析。

    二 研究過(guò)程

    大語(yǔ)言模型依托自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù),能夠迅速且精準(zhǔn)地根據(jù)師生的需求生成反饋,這一能力為其在教育評(píng)價(jià)領(lǐng)域的應(yīng)用提供了可能。而大語(yǔ)言模型的教育評(píng)價(jià)能力如何,需要在具體的學(xué)科中進(jìn)行實(shí)驗(yàn)研究。為測(cè)試國(guó)產(chǎn)大語(yǔ)言模型在語(yǔ)文教學(xué)中的作文評(píng)價(jià)能力,本研究選用“智譜AI”和“訊飛星火”兩款國(guó)產(chǎn)大語(yǔ)言模型,選取了500篇小學(xué)語(yǔ)文作文為測(cè)試樣本,設(shè)計(jì)了37條教育提示語(yǔ),得到了國(guó)產(chǎn)大語(yǔ)言模型的21000條作文評(píng)價(jià)反饋,從評(píng)分和評(píng)語(yǔ)兩個(gè)方面測(cè)試國(guó)產(chǎn)大語(yǔ)言模型的語(yǔ)文作文評(píng)價(jià)能力。

    1 選取測(cè)試樣本

    本研究采取隨機(jī)抽樣的方法,從北京師范大學(xué)未來(lái)教育高精尖創(chuàng)新中心搜集的由8367篇小學(xué)語(yǔ)文作文組成的測(cè)試集中抽取1~5年級(jí)作文各100篇,共得500篇小學(xué)語(yǔ)文作文。在原始評(píng)分方面,這500篇小學(xué)語(yǔ)文作文均分為87.21分,標(biāo)準(zhǔn)差為9.702,高、中、低分?jǐn)?shù)組分布較為均勻。在作文類型方面,這500篇小學(xué)語(yǔ)文作文包含363篇想象作文和137篇記實(shí)作文,符合小學(xué)生作文以想象類作文為主的寫(xiě)作情況。

    2 設(shè)計(jì)提示語(yǔ)

    《提示工程指南》提到,提示語(yǔ)包含指令、上下文、輸入數(shù)據(jù)和輸出指示四個(gè)要素,而提示語(yǔ)的要素選擇取決于用戶想要大語(yǔ)言模型完成的任務(wù)類型[12]。本研究從內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)、書(shū)寫(xiě)規(guī)范、整體評(píng)價(jià)5個(gè)維度,設(shè)計(jì)了77條提示語(yǔ)。由于提示語(yǔ)會(huì)在一定程度上影響大語(yǔ)言模型的回答質(zhì)量,故本研究設(shè)計(jì)了兩輪測(cè)試來(lái)調(diào)整和完善提示語(yǔ):①利用大語(yǔ)言模型對(duì)選取的2篇作文進(jìn)行第一輪評(píng)價(jià)測(cè)試,根據(jù)反饋結(jié)果調(diào)整提示語(yǔ),具體包括細(xì)化評(píng)分的提問(wèn)方式、對(duì)得分進(jìn)行追問(wèn)、刪除3道統(tǒng)計(jì)題。②采取同樣的步驟進(jìn)行第二輪測(cè)試,并根據(jù)第二輪測(cè)試的反饋,比較大語(yǔ)言模型對(duì)不同提示語(yǔ)的反饋效果,將提示語(yǔ)整合為37條,包括2條評(píng)分類提示語(yǔ)(即分?jǐn)?shù)評(píng)價(jià)q33和等級(jí)評(píng)價(jià)q37)和35條評(píng)語(yǔ)類提示語(yǔ)。其中,評(píng)語(yǔ)類提示語(yǔ)包括16道問(wèn)題建議題(q1~q4、q9~q12、q17~q21、q27~q29)、16道優(yōu)點(diǎn)分析題(q5~q8、q13~q16、q22~q26、q30~q32)和3道整體評(píng)價(jià)題(q34~q36)。提示語(yǔ)的類型及其設(shè)計(jì)舉例如表1所示。

    3 調(diào)用大語(yǔ)言模型

    在大語(yǔ)言模型的調(diào)用上,本研究先利用Python調(diào)用“智譜AI”的API接口,用37條提示語(yǔ)對(duì)測(cè)試集的500篇作文進(jìn)行批量提問(wèn)測(cè)試,得到18500條反饋。為檢驗(yàn)“智譜AI”的評(píng)價(jià)穩(wěn)定性,本研究對(duì)1條評(píng)分類提示語(yǔ)(q33)、1條評(píng)語(yǔ)類提示語(yǔ)(q30)進(jìn)行了第二輪測(cè)試,得到1000條反饋。為測(cè)試國(guó)產(chǎn)大語(yǔ)言模型評(píng)分的可用性,本研究再次利用Python調(diào)用“訊飛星火”的API接口,對(duì)2條評(píng)分類提示語(yǔ)(q33、q37)進(jìn)行了第一輪測(cè)試,得到1000條反饋;之后,對(duì)等級(jí)評(píng)價(jià)提示語(yǔ)(q37)進(jìn)行了第二輪測(cè)試,得到500條反饋。測(cè)試結(jié)束后,本研究共收集、整理得到有關(guān)國(guó)產(chǎn)大語(yǔ)言模型的21000條作文評(píng)價(jià)反饋。

    4 數(shù)據(jù)分析

    本研究利用國(guó)產(chǎn)大語(yǔ)言模型,對(duì)小學(xué)語(yǔ)文作文測(cè)試集中的作文樣本展開(kāi)了評(píng)分和評(píng)語(yǔ)兩個(gè)方面的測(cè)試:①評(píng)分方面,分析國(guó)產(chǎn)大語(yǔ)言模型作文評(píng)分的可用性和穩(wěn)定性。具體來(lái)說(shuō),在評(píng)分的可用性方面,利用SPSS 25分析國(guó)產(chǎn)大語(yǔ)言模型的作文評(píng)分與原始評(píng)分的一致性;在評(píng)分的穩(wěn)定性方面,利用SPSS 25分析國(guó)產(chǎn)大語(yǔ)言模型兩次評(píng)分之間的一致性。②評(píng)語(yǔ)方面,對(duì)國(guó)產(chǎn)大語(yǔ)言模型作文評(píng)語(yǔ)的準(zhǔn)確率和穩(wěn)定性進(jìn)行分析。具體來(lái)說(shuō),在評(píng)語(yǔ)的準(zhǔn)確率方面,人工抽檢評(píng)語(yǔ)進(jìn)行核對(duì);在分析評(píng)語(yǔ)的穩(wěn)定性方面,利用Python采用TF-IDF方法對(duì)大語(yǔ)言模型兩次評(píng)語(yǔ)的相似度進(jìn)行計(jì)算。

    三 國(guó)產(chǎn)大語(yǔ)言模型的測(cè)試與分析

    1 測(cè)試方案

    本研究參考黃濤等[13]設(shè)計(jì)的小學(xué)語(yǔ)文寫(xiě)作能力量表,設(shè)計(jì)了國(guó)產(chǎn)大語(yǔ)言模型語(yǔ)文作文評(píng)價(jià)能力的測(cè)試方案,如表2所示。該測(cè)試方案包括內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)、書(shū)寫(xiě)規(guī)范4個(gè)一級(jí)指標(biāo)及其下屬的12個(gè)二級(jí)指標(biāo),且一級(jí)指標(biāo)下設(shè)計(jì)了“問(wèn)題建議”和“優(yōu)點(diǎn)分析”兩種評(píng)語(yǔ)類提示語(yǔ)。為驗(yàn)證國(guó)產(chǎn)大語(yǔ)言模型對(duì)語(yǔ)文作文評(píng)價(jià)能力的整體效果,本研究還加上了“整體評(píng)價(jià)”這一測(cè)試維度,設(shè)計(jì)了“作文評(píng)分”此評(píng)分類提示語(yǔ)和“文體識(shí)別”“評(píng)語(yǔ)設(shè)計(jì)”兩種評(píng)語(yǔ)類提示語(yǔ)。

    2 國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分分析

    (1)評(píng)分的可用性

    為檢測(cè)國(guó)產(chǎn)大語(yǔ)言模型評(píng)分的可用性,本研究應(yīng)用“智譜AI”“訊飛星火”分別以分?jǐn)?shù)評(píng)價(jià)(百分制)和等級(jí)評(píng)價(jià)(六級(jí)制)兩種評(píng)分方式對(duì)500篇作文進(jìn)行分?jǐn)?shù)評(píng)價(jià),同時(shí)對(duì)這兩款國(guó)產(chǎn)大語(yǔ)言模型評(píng)分與原始評(píng)分進(jìn)行相關(guān)性分析,結(jié)果如表3所示。表3顯示,“智譜AI”的分?jǐn)?shù)評(píng)價(jià)與原始評(píng)分的皮爾遜相關(guān)系數(shù)r1=0.164,其等級(jí)評(píng)價(jià)與原始評(píng)分的皮爾遜相關(guān)系數(shù)為r2=0.129,說(shuō)明“智譜AI”評(píng)分與原始評(píng)分具有微弱相關(guān)關(guān)系,即“智譜AI”評(píng)分和人工評(píng)分的差異較大;而“訊飛星火”的分?jǐn)?shù)評(píng)價(jià)與原始評(píng)分的皮爾遜相關(guān)系數(shù)r3=0.172,其等級(jí)評(píng)價(jià)與原始評(píng)分的皮爾遜相關(guān)系數(shù)r4=0.139,說(shuō)明“訊飛星火”評(píng)分與原始評(píng)分具有微弱相關(guān)關(guān)系,即“訊飛星火”評(píng)分和人工評(píng)分的差異較大。

    接著,本研究進(jìn)行了“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型對(duì)不同類型作文(包括想象作文和記實(shí)作文)評(píng)分與原始評(píng)分的相關(guān)性分析,結(jié)果如表4所示。表4顯示,在對(duì)想象作文的評(píng)分方面,這兩款國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始評(píng)分都具有微弱相關(guān)關(guān)系,其中“智譜AI”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r5=0.139,“訊飛星火”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r6=0.172;在對(duì)記實(shí)作文的評(píng)分方面,這兩款國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始評(píng)分也都具有微弱相關(guān)關(guān)系,其中“智譜AI”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r7=0.250,“訊飛星火”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r8=0.157。可見(jiàn),“智譜AI”對(duì)記實(shí)作文的評(píng)分與原始評(píng)分的相關(guān)性最高(r7=0.250),說(shuō)明“智譜AI”對(duì)記實(shí)作文的評(píng)分反饋效果最好。

    本研究以500篇作文的原始得分為依據(jù)進(jìn)行分組:排前27%的作文得分在93分及以上,為高分組;排后27%的作文得分在83分及以下,為低分組。本研究進(jìn)行了“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型對(duì)高、低分組作文評(píng)分與原始評(píng)分的相關(guān)性分析,結(jié)果如表5所示。表5顯示,在對(duì)高分組作文的評(píng)分方面,這兩款國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始評(píng)分都具有微弱相關(guān)關(guān)系,其中“智譜AI”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r9=0.019,“訊飛星火”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r10=0.087;而在對(duì)低分組作文的評(píng)分方面,這兩款國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始評(píng)分也都具有微弱相關(guān)關(guān)系,其中“智譜AI”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r11=0.207,“訊飛星火”的評(píng)分與原始評(píng)分的皮爾遜相關(guān)系數(shù)r12=0.095??梢?jiàn),“智譜AI”對(duì)低分組作文的評(píng)分與原始評(píng)分的相關(guān)性最高(r11=0.207),說(shuō)明“智譜AI”對(duì)低分組作文的評(píng)分反饋效果最好。

    (2)評(píng)分的穩(wěn)定性

    為檢測(cè)國(guó)產(chǎn)大語(yǔ)言模型作文評(píng)分的穩(wěn)定性,本研究應(yīng)用“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型分別對(duì)500篇作文進(jìn)行兩次分?jǐn)?shù)評(píng)價(jià)、等級(jí)評(píng)價(jià)測(cè)試,并利用SPSS 25對(duì)作文評(píng)分的測(cè)試數(shù)據(jù)進(jìn)行分析。

    “智譜AI”分?jǐn)?shù)評(píng)價(jià)的描述性統(tǒng)計(jì)結(jié)果如表6所示,可以看出:“智譜AI”兩次評(píng)分的平均值與原始評(píng)分基本持平,而“智譜AI”兩次評(píng)分的標(biāo)準(zhǔn)差小于原始評(píng)分,說(shuō)明“智譜AI”評(píng)分的分散程度低于原始評(píng)分。此外,“智譜AI”兩次評(píng)分的頻率直方圖如圖1所示,可以看出:“智譜AI”兩次評(píng)分的頻率分布相似,作文評(píng)分集中在[78, 100]分;“智譜AI”兩次評(píng)分的相關(guān)性系數(shù)值為0.228,說(shuō)明兩者具有微弱相關(guān)關(guān)系。由此可見(jiàn),“智譜AI”對(duì)同一篇作文的分?jǐn)?shù)評(píng)價(jià)不穩(wěn)定。

    “訊飛星火”等級(jí)評(píng)價(jià)的描述性統(tǒng)計(jì)結(jié)果如表7所示,可以看出:“訊飛星火”兩次評(píng)級(jí)的平均值基本持平,且兩次評(píng)級(jí)的標(biāo)準(zhǔn)差遠(yuǎn)小于原始評(píng)級(jí),說(shuō)明“訊飛星火”評(píng)級(jí)的分散程度低于原始評(píng)級(jí)。此外,“訊飛星火”兩次評(píng)級(jí)的頻率直方圖如圖2所示,可以看出:“訊飛星火”兩次評(píng)級(jí)的頻率分布相似,作文評(píng)級(jí)集中在[3, 5]級(jí);“訊飛星火”兩次評(píng)級(jí)的相關(guān)性系數(shù)值為0.534,說(shuō)明兩者存在顯著相關(guān)關(guān)系。由此可見(jiàn),“訊飛星火”對(duì)同一篇作文的等級(jí)評(píng)價(jià)較為穩(wěn)定。

    3 國(guó)產(chǎn)大語(yǔ)言模型的評(píng)語(yǔ)分析

    (1)評(píng)語(yǔ)的準(zhǔn)確率

    在評(píng)估機(jī)器學(xué)習(xí)的能力時(shí),通常采用準(zhǔn)確率、精確率、召回率等指標(biāo)來(lái)度量機(jī)器學(xué)習(xí)模型的優(yōu)劣。其中,準(zhǔn)確率是指預(yù)測(cè)正確的結(jié)果占總樣本的百分比??紤]到圍繞一篇文章的全部標(biāo)準(zhǔn)觀點(diǎn)數(shù)量難以在短時(shí)間內(nèi)形成,且各位老師難以就此達(dá)成共識(shí),因此本研究尚未進(jìn)行精確率、召回率的測(cè)量。為檢測(cè)“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型評(píng)語(yǔ)的準(zhǔn)確率,本研究選取小學(xué)語(yǔ)文作文《假如我是孫悟空》《玩具世界》,應(yīng)用評(píng)語(yǔ)類提示語(yǔ)(q1~q32)從內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)、書(shū)寫(xiě)規(guī)范四個(gè)維度分別詢問(wèn)“智譜AI”“訊飛星火”,以收集這兩款國(guó)產(chǎn)大語(yǔ)言模型的評(píng)語(yǔ)反饋,并統(tǒng)計(jì)這四個(gè)維度評(píng)語(yǔ)的總觀點(diǎn)數(shù)和錯(cuò)誤觀點(diǎn)數(shù)。之后,按照公式“(總觀點(diǎn)數(shù)-錯(cuò)誤觀點(diǎn)數(shù))/總觀點(diǎn)數(shù)=評(píng)語(yǔ)的準(zhǔn)確率”,計(jì)算這四個(gè)維度評(píng)語(yǔ)的準(zhǔn)確率。

    由表8可知,“智譜AI”評(píng)語(yǔ)的準(zhǔn)確率處于[0.64, 0.98]之間,總的平均值為0.83。具體來(lái)說(shuō),兩篇作文內(nèi)容選擇、篇章結(jié)構(gòu)的準(zhǔn)確率均高于平均值,有一篇作文語(yǔ)言表達(dá)的準(zhǔn)確率高于平均值、有一篇低于平均值,而兩篇作文書(shū)寫(xiě)規(guī)范的準(zhǔn)確率均低于平均值。由此可見(jiàn),在內(nèi)容選擇和篇章結(jié)構(gòu)方面,“智譜AI”的作文評(píng)語(yǔ)準(zhǔn)確率較高。由表9可知,“訊飛星火”評(píng)語(yǔ)的準(zhǔn)確率在[0.55, 0.95]之間,總的平均值為0.80。具體來(lái)說(shuō),兩篇作文內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)的準(zhǔn)確率均高于平均值,而兩篇作文書(shū)寫(xiě)規(guī)范的準(zhǔn)確率低于平均值。由此可見(jiàn),在內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)方面,“訊飛星火”的作文評(píng)語(yǔ)準(zhǔn)確率較高。

    (2)評(píng)語(yǔ)的穩(wěn)定性

    為檢測(cè)“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型評(píng)語(yǔ)的穩(wěn)定性,本研究選取評(píng)語(yǔ)字?jǐn)?shù)最接近平均值的優(yōu)點(diǎn)分析類提示語(yǔ)(q30)進(jìn)行了兩輪測(cè)試。測(cè)算方法既考慮了詞頻和逆文檔頻率的影響,又能夠捕捉到文本之間的語(yǔ)義相似性,通過(guò)TF-IDF方法將文本轉(zhuǎn)化為向量表示,再利用Cosine Similarity計(jì)算這些向量之間的相似度。

    通過(guò)TF-IDF方法對(duì)兩款國(guó)產(chǎn)大語(yǔ)言模型在兩輪測(cè)試中產(chǎn)生的1000條評(píng)語(yǔ)反饋進(jìn)行測(cè)算,得到“智譜AI”的評(píng)語(yǔ)相似度區(qū)間為[0.003, 0.402],均值為0.09;“訊飛星火”的評(píng)語(yǔ)相似度區(qū)間為[0.004, 0.449],均值為0.09。由此可見(jiàn),這兩款國(guó)產(chǎn)大語(yǔ)言模型對(duì)同一篇作文前后評(píng)語(yǔ)反饋的相似度均較低,說(shuō)明這兩款國(guó)產(chǎn)大語(yǔ)言模型給出的作文評(píng)語(yǔ)具有較強(qiáng)的生成性。

    四 結(jié)論與建議

    1 研究結(jié)論

    本研究從評(píng)分、評(píng)語(yǔ)兩個(gè)方面測(cè)試了“智譜AI”“訊飛星火”這兩款國(guó)產(chǎn)大語(yǔ)言模型的作文評(píng)價(jià)能力,所得結(jié)論如下:①評(píng)分方面,就可用性而言,國(guó)產(chǎn)大語(yǔ)言模型的評(píng)分與原始分?jǐn)?shù)具有微弱相關(guān)關(guān)系。就穩(wěn)定性而言,“智譜AI”對(duì)同一篇作文的分?jǐn)?shù)評(píng)價(jià)不穩(wěn)定,而“訊飛星火”對(duì)同一篇作文的等級(jí)評(píng)價(jià)較為穩(wěn)定??梢?jiàn),國(guó)產(chǎn)大語(yǔ)言模型前后兩次評(píng)分的相關(guān)度低、穩(wěn)定性較差,而前后兩次評(píng)級(jí)的相關(guān)度高、穩(wěn)定性較好。②評(píng)語(yǔ)方面,就準(zhǔn)確率而言,“智譜AI”在內(nèi)容選擇和篇章結(jié)構(gòu)方面的作文評(píng)語(yǔ)準(zhǔn)確率均高于平均值,而“訊飛星火”在內(nèi)容選擇、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)方面的作文評(píng)語(yǔ)準(zhǔn)確率均高于平均值??梢?jiàn),國(guó)產(chǎn)大語(yǔ)言模型在內(nèi)容選擇、篇章結(jié)構(gòu)方面的作文評(píng)語(yǔ)準(zhǔn)確率較高。就穩(wěn)定性而言,國(guó)產(chǎn)大語(yǔ)言模型的評(píng)語(yǔ)具有生成性,前后兩次生成的評(píng)語(yǔ)相似度較低。整體而言,在語(yǔ)文作文評(píng)價(jià)能力上,大語(yǔ)言模型評(píng)語(yǔ)在語(yǔ)文教學(xué)中具有可用性,但評(píng)分的性能有待加強(qiáng)。師生可以將國(guó)產(chǎn)大語(yǔ)言模型的評(píng)語(yǔ)與人工評(píng)語(yǔ)相結(jié)合,以更大程度地發(fā)揮人機(jī)協(xié)同的優(yōu)勢(shì)。

    2 建議

    作為技術(shù)助力教育的新興工具,大語(yǔ)言模型將深刻影響并重塑現(xiàn)有的教育教學(xué)模式[14]。當(dāng)前,教師與人工智能協(xié)作共存漸成趨勢(shì),人機(jī)協(xié)同教學(xué)將成為主流的教學(xué)模式。為更好地進(jìn)行人機(jī)協(xié)同教學(xué),本研究針對(duì)大語(yǔ)言模型的語(yǔ)文教育應(yīng)用提出以下建議:

    (1)人機(jī)協(xié)同應(yīng)“情理并存”,在大語(yǔ)言模型作文評(píng)價(jià)中更好地發(fā)揮以評(píng)促學(xué)的作用

    由于大語(yǔ)言模型的作文評(píng)價(jià)反饋存在學(xué)段和作文體裁的差異,因此教師在應(yīng)用大語(yǔ)言模型時(shí),要做到“量體裁衣”,充分發(fā)揮其作文評(píng)價(jià)優(yōu)勢(shì)為教學(xué)“減負(fù)”。在評(píng)價(jià)方面,大語(yǔ)言模型可以做到理性、客觀,卻無(wú)法做到對(duì)情感的洞察與分析。因此,教師要發(fā)揮人類教師和大語(yǔ)言模型“情”“理”互補(bǔ)的作用,做到評(píng)價(jià)的“情理并存”。

    ①教師在作文評(píng)價(jià)中要判“理”,選擇客觀且準(zhǔn)確的評(píng)價(jià)。要想實(shí)現(xiàn)判“理”的目標(biāo),教師就應(yīng)具備內(nèi)容核驗(yàn)意識(shí)與核驗(yàn)?zāi)芰?。教師可以通過(guò)查看權(quán)威資料、對(duì)比不同模型生成的內(nèi)容、問(wèn)詢專門的教育智能體等方法來(lái)核實(shí)輸出內(nèi)容,以識(shí)別信息的一致性與差異性,篩選出更可靠的反饋。通過(guò)對(duì)輸出數(shù)據(jù)的可靠性分析和教師的主觀判斷,確保模型輸出反饋符合情理、事理、義理。

    ②教師在作文評(píng)價(jià)中要通“情”,給予學(xué)生鼓勵(lì),激發(fā)學(xué)生的創(chuàng)作動(dòng)力。具體而言,一要多用情感化、鼓勵(lì)性的評(píng)價(jià)語(yǔ)言,營(yíng)造積極的學(xué)習(xí)氛圍;二可采用線上+線下的方式,鼓勵(lì)學(xué)生展示作文成果,讓其作品得到更多的關(guān)注和認(rèn)可;三是通過(guò)多元、有趣的互動(dòng),提高師生在人機(jī)協(xié)作中的互動(dòng)頻率,實(shí)現(xiàn)情感共鳴。

    (2)教師在作文教學(xué)中使用國(guó)產(chǎn)大語(yǔ)言模型時(shí)要揚(yáng)長(zhǎng)避短,助力作文教學(xué)創(chuàng)新發(fā)展

    有研究者認(rèn)為,人工智能技術(shù)將很快成為教育的一個(gè)重要組成部分,建議利用技術(shù)來(lái)提高學(xué)習(xí)效率[15]。盡管大語(yǔ)言模型的作文評(píng)價(jià)還存在些許不足,但只要恰當(dāng)使用,仍可成為教師進(jìn)行語(yǔ)文教學(xué)的有益補(bǔ)充。

    ①教師借助大語(yǔ)言模型實(shí)現(xiàn)寫(xiě)作“黑洞”的可視化。大語(yǔ)言模型的優(yōu)勢(shì)在于數(shù)據(jù)的即時(shí)獲得、永久保存、公開(kāi)化,這使得學(xué)生的寫(xiě)作過(guò)程半透明化。據(jù)此,教師可收集學(xué)生寫(xiě)作過(guò)程中的全部數(shù)據(jù)記錄,提煉學(xué)生寫(xiě)作的共性問(wèn)題(包括難點(diǎn)和痛點(diǎn)),調(diào)整寫(xiě)作教學(xué)設(shè)計(jì)方案,并創(chuàng)建學(xué)生作文成長(zhǎng)檔案袋,分析學(xué)生寫(xiě)作能力水平,以更好地開(kāi)展教學(xué)研究,總結(jié)教學(xué)規(guī)律。此外,教師還需平衡好技術(shù)與教育教學(xué)的關(guān)系,以避免過(guò)度依賴大語(yǔ)言模型而給作文教學(xué)帶來(lái)不良后果。

    ②教師應(yīng)積極借助大語(yǔ)言模型開(kāi)展人機(jī)協(xié)同的寫(xiě)作教學(xué)創(chuàng)新試驗(yàn)。首先,教師要遵照技術(shù)服務(wù)于需求的原則,明確人為主、機(jī)為輔的人機(jī)主客關(guān)系;其次,教師要遵守語(yǔ)文學(xué)科使用大語(yǔ)言模型的相關(guān)規(guī)定;最后,教師要結(jié)合教學(xué)設(shè)計(jì)方案,在教學(xué)過(guò)程中合理地融合技術(shù)要素,開(kāi)展創(chuàng)新試驗(yàn)。

    (3)教師應(yīng)在語(yǔ)文閱讀教學(xué)中探索大語(yǔ)言模型技術(shù)支持的讀寫(xiě)融合共生機(jī)制

    寫(xiě)作和閱讀是語(yǔ)文教育的“兩駕馬車”,各有側(cè)重卻又緊密相關(guān)——閱讀滋養(yǎng)寫(xiě)作,讓閱讀為寫(xiě)作奠基、鋪路;寫(xiě)作促進(jìn)閱讀,讓寫(xiě)作成為閱讀的引擎和動(dòng)能[16]。人工智能技術(shù)的發(fā)展,既推動(dòng)了作文教學(xué)的創(chuàng)新發(fā)展,也促進(jìn)了閱讀教學(xué)與寫(xiě)作教學(xué)的雙向共生。教師進(jìn)行語(yǔ)文閱讀教學(xué)時(shí),應(yīng)依托知識(shí)增強(qiáng)的大語(yǔ)言模型,在網(wǎng)絡(luò)平臺(tái)上開(kāi)辟一個(gè)富有情趣、意趣的讀寫(xiě)分享空間,讓學(xué)生產(chǎn)生緊密的讀寫(xiě)交互,并擁有屬于自己的“讀寫(xiě)圈”,進(jìn)而實(shí)現(xiàn)讀寫(xiě)融合共生。

    (4)教師應(yīng)提升大語(yǔ)言模型的應(yīng)用素養(yǎng),在大語(yǔ)言模型的語(yǔ)文教學(xué)應(yīng)用過(guò)程中把好質(zhì)量關(guān)

    實(shí)現(xiàn)高質(zhì)量的人機(jī)協(xié)同語(yǔ)文教學(xué),要求教師提升大語(yǔ)言模型的應(yīng)用素養(yǎng),主要包括:①學(xué)習(xí)并掌握與大語(yǔ)言模型高質(zhì)量交互的技能。例如,采用多輪對(duì)話訓(xùn)練模型生成高質(zhì)量反饋信息,使用API調(diào)用外部知識(shí)庫(kù),結(jié)合任務(wù)需求微調(diào)提示語(yǔ)和上下文語(yǔ)境等。②提高對(duì)大語(yǔ)言模型教學(xué)反饋結(jié)果的價(jià)值判斷力。大語(yǔ)言模型生成的反饋信息可能會(huì)存在匹配錯(cuò)誤、價(jià)值觀誤導(dǎo)等問(wèn)題,因此教師要積極提升對(duì)信息的判斷、選擇、解釋能力,對(duì)交互結(jié)果的可行性與安全性進(jìn)行評(píng)估。

    參考文獻(xiàn)

    [1]熊璋.“人工智能+”行動(dòng)賦能教育新生態(tài)的關(guān)鍵要素[J].中小學(xué)數(shù)字化教學(xué),2024,(4):1.

    [2]中華人民共和國(guó)教育部.義務(wù)教育語(yǔ)文課程標(biāo)準(zhǔn)(2022年版)[S].北京:北京師范大學(xué)出版社,2022:8-13.

    [3]祝新華.促進(jìn)學(xué)習(xí)的作文評(píng)估[M].北京:人民教育出版社,2016:269.

    [4][13]黃濤,龔眉潔,楊華利,等.人機(jī)協(xié)同支持的小學(xué)語(yǔ)文寫(xiě)作教學(xué)研究[J].電化教育研究,2020,(2):108-114.

    [5]Thelwall M. Can ChatGPT evaluate research quality?[J]. Journal of Data and Information Science, 2024,(2):1-21.

    [6]劉淑君,李艷,楊普光,等.智能作文評(píng)價(jià)的效果研究[J].開(kāi)放教育研究,2021,(3):73-84.

    [7]吳軍其,劉萌,王嘉桐,等.AIGC輔助教師作文評(píng)價(jià)的效果研究——以九年級(jí)語(yǔ)文作文為例[J].現(xiàn)代教育技術(shù),2024,(10):53-64.

    [8]賀樑,應(yīng)振宇,王英英,等.教育中的ChatGPT:教學(xué)能力診斷研究[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2023,(7):162-176.

    [9]趙曉偉,祝智庭,沈書(shū)生.教育提示語(yǔ)工程:構(gòu)建數(shù)智時(shí)代的認(rèn)識(shí)論新話語(yǔ)[J].中國(guó)遠(yuǎn)程教育,2023,(11):22-31.

    [10]王麗,李艷,陳新亞,等.ChatGPT支持的學(xué)生論證內(nèi)容評(píng)價(jià)與反饋——基于兩種提問(wèn)設(shè)計(jì)的實(shí)證比較[J].現(xiàn)代遠(yuǎn)程教育研究,2023,(4):83-91.

    [11]Yu L, Liu Q, Xiong D. LFED: A literary fiction evaluation dataset for large language models[OL].lt;https://arxiv.org/pdf/2405.10166gt;

    [12]Omar Sanseviero. Prompt engineering guide[OL]. lt;https://www.promptingguide.ai/zh/introductiongt;

    [14]張軍愛(ài),劉海軍.ChatGPT在中學(xué)地理教學(xué)中的應(yīng)用:場(chǎng)景、局限與突破策略[J].地理教學(xué),2024,(5):16-20.

    [15]David M. Human-centered artificial intelligence: The superlative approach to achieve sustainable development goals in the fourth industrial revolution[J]. Sustainability, 2022,(13):7804.

    [16]黃偉.讀寫(xiě)融合:追求雙向共赴和雙效共生[J].語(yǔ)文建設(shè),2023,(15):4-9.

    Chinese Composition Evaluation Ability Test of Domestic Large Language Model

    WEI Shun-Ping1,2""""ZHANG Yue1""""RAN Rou1[Corresponding Author]

    (1. School of Education, Minzu University of China, Beijing, China 100081;2. Engineering Research Center of

    Integration and Application of Digital Learning Technology, Ministry of Education, Beijing, China 100039)

    Abstract:"As the latest technological achievement of artificial intelligence, the large language model will have a profound impact on the education pattern in the digital intelligence age. In order to investigate the composition evaluation ability of the large language model, this paper selected 500 elementary school language compositions, designed 37 prompts, and adopted two domestic large language models of “Zhipu AI” and “Xunfei Xinghuo”, as the test tools to evaluate the compositions from two aspects of scoring and comments. It was found that in terms of the usability of scoring, the scoring of the domestic large language models had a weak correlation with the original score; in terms of the stability of scoring, the correlation between the two scores of the domestic large language model before and after the scoring was low and the stability was poor, while the correlation between the two ratings before and after the scoring was higher and the stability was better; in terms of the accuracy of the comments, the domestic large language model had higher accuracy in the composition comments of the content selection and the text structure; in terms of the stability of the comments, the comments of the domestic large language model were generative, and the similarity between the twice generated comments before and after was low. Finally, this paper put forward some suggestions for the application of large language model in Chinese language education to help teachers better conduct human-computer collaborative teaching.

    Keywords: large language model; Chinese composition in primary school; composition evaluation; human-computer collaboration

    *基金項(xiàng)目:本文為數(shù)字化學(xué)習(xí)技術(shù)集成與應(yīng)用教育部工程研究中心2024年創(chuàng)新基金項(xiàng)目“面向人工智能的終身教育領(lǐng)域高質(zhì)量數(shù)據(jù)資源治理與應(yīng)用研究”(項(xiàng)目編號(hào):1441001)的階段性研究成果。

    作者簡(jiǎn)介:魏順平,教授,博士,研究方向?yàn)榻逃髷?shù)據(jù)與學(xué)習(xí)分析,郵箱為weishunping@muc.edu.cn。

    收稿日期:2024年12月18日

    編輯:小米

    猜你喜歡
    小學(xué)語(yǔ)文
    基于微格教研的語(yǔ)文閱讀教學(xué)探究
    成才之路(2016年25期)2016-10-08 10:31:37
    基于情景交融的詩(shī)歌品讀教學(xué)研究
    成才之路(2016年25期)2016-10-08 10:28:49
    語(yǔ)文課堂教學(xué)的導(dǎo)入藝術(shù)研究
    成才之路(2016年25期)2016-10-08 10:26:01
    語(yǔ)文教學(xué)中因勢(shì)利導(dǎo)滲透德育探究
    成才之路(2016年25期)2016-10-08 09:53:14
    作文教學(xué)的有效策略探討
    踐行少教多學(xué),構(gòu)建高效課堂
    淺談?wù)Z文課堂的情感教育滲透
    語(yǔ)文教學(xué)中師生互動(dòng)語(yǔ)言溝通探析
    優(yōu)化朗讀技巧,提升語(yǔ)文實(shí)效
    淺談如何培養(yǎng)學(xué)生的閱讀興趣
    99久久人妻综合| 色播在线永久视频| 国产在线观看jvid| 黑人欧美特级aaaaaa片| 超色免费av| avwww免费| 国产黄色视频一区二区在线观看| 国产精品免费大片| 色网站视频免费| 精品亚洲成国产av| 欧美日韩av久久| 欧美大码av| 我要看黄色一级片免费的| 蜜桃国产av成人99| 制服人妻中文乱码| 亚洲成人手机| a级片在线免费高清观看视频| 亚洲一区中文字幕在线| 欧美另类一区| 国产欧美日韩综合在线一区二区| 成年人免费黄色播放视频| 亚洲精品国产av蜜桃| 一级毛片女人18水好多 | 男女之事视频高清在线观看 | 一边摸一边做爽爽视频免费| 国产高清国产精品国产三级| 一区在线观看完整版| 成人亚洲精品一区在线观看| 精品亚洲乱码少妇综合久久| 美国免费a级毛片| 久久九九热精品免费| 国产免费现黄频在线看| h视频一区二区三区| 亚洲av综合色区一区| 50天的宝宝边吃奶边哭怎么回事| 中文欧美无线码| 国产亚洲欧美在线一区二区| 天天影视国产精品| 777久久人妻少妇嫩草av网站| 欧美日韩亚洲国产一区二区在线观看 | 成年女人毛片免费观看观看9 | 午夜福利影视在线免费观看| 日韩制服骚丝袜av| 中文字幕另类日韩欧美亚洲嫩草| 熟女av电影| 十八禁高潮呻吟视频| 女人爽到高潮嗷嗷叫在线视频| 久久久国产一区二区| 日韩熟女老妇一区二区性免费视频| 欧美在线黄色| 久久精品久久久久久久性| av国产精品久久久久影院| 亚洲精品乱久久久久久| 成人手机av| 久久国产精品大桥未久av| 99国产精品免费福利视频| 国产野战对白在线观看| 少妇 在线观看| av国产久精品久网站免费入址| 搡老乐熟女国产| 精品一区二区三区四区五区乱码 | 制服诱惑二区| 男女午夜视频在线观看| 成年人午夜在线观看视频| 久久精品亚洲av国产电影网| 少妇裸体淫交视频免费看高清 | 一级毛片我不卡| 欧美亚洲 丝袜 人妻 在线| 午夜福利乱码中文字幕| 老司机在亚洲福利影院| 欧美久久黑人一区二区| bbb黄色大片| 欧美日韩亚洲综合一区二区三区_| 侵犯人妻中文字幕一二三四区| 国产一区亚洲一区在线观看| 亚洲黑人精品在线| 人妻 亚洲 视频| 亚洲精品第二区| 久久久久久久久免费视频了| 国产伦人伦偷精品视频| 免费黄频网站在线观看国产| 天堂中文最新版在线下载| 不卡av一区二区三区| 一区在线观看完整版| a级片在线免费高清观看视频| 韩国精品一区二区三区| 精品卡一卡二卡四卡免费| 亚洲人成电影免费在线| 亚洲一码二码三码区别大吗| 精品少妇黑人巨大在线播放| 欧美 日韩 精品 国产| 91麻豆av在线| 天堂中文最新版在线下载| 欧美黑人欧美精品刺激| 日韩电影二区| 丝袜在线中文字幕| 一级黄片播放器| 亚洲国产欧美网| 亚洲欧洲日产国产| 69精品国产乱码久久久| 满18在线观看网站| 97在线人人人人妻| 国产无遮挡羞羞视频在线观看| 婷婷色综合www| 久久99热这里只频精品6学生| 国产精品免费大片| 亚洲成人国产一区在线观看 | 国产无遮挡羞羞视频在线观看| 久久精品国产综合久久久| 一本色道久久久久久精品综合| 大香蕉久久成人网| 国产有黄有色有爽视频| 亚洲av美国av| 巨乳人妻的诱惑在线观看| 免费看av在线观看网站| 午夜免费鲁丝| 操美女的视频在线观看| 男女下面插进去视频免费观看| 看免费成人av毛片| 日韩电影二区| 亚洲精品国产区一区二| 亚洲欧美清纯卡通| 国产高清videossex| av福利片在线| 久久久国产精品麻豆| 999精品在线视频| 午夜日韩欧美国产| 婷婷色麻豆天堂久久| 免费在线观看日本一区| 国产伦人伦偷精品视频| 老熟女久久久| 亚洲av电影在线进入| 9热在线视频观看99| 中文字幕最新亚洲高清| 女警被强在线播放| 大香蕉久久成人网| 99国产精品一区二区蜜桃av | 成人亚洲欧美一区二区av| 每晚都被弄得嗷嗷叫到高潮| 99国产精品一区二区三区| 日日爽夜夜爽网站| 国产成人免费观看mmmm| 欧美日韩亚洲综合一区二区三区_| av视频免费观看在线观看| 国产精品一二三区在线看| 好男人视频免费观看在线| 午夜激情久久久久久久| 色网站视频免费| www.999成人在线观看| 久久久国产欧美日韩av| 黄色 视频免费看| 欧美日韩av久久| 9191精品国产免费久久| 久久热在线av| 2018国产大陆天天弄谢| 天天添夜夜摸| 国产精品一区二区在线观看99| 在线天堂中文资源库| 国产精品久久久久久精品古装| 国产视频首页在线观看| 欧美日韩视频精品一区| 久久国产精品大桥未久av| 九草在线视频观看| a级片在线免费高清观看视频| 免费少妇av软件| 久久久久久久国产电影| 777久久人妻少妇嫩草av网站| av不卡在线播放| 丁香六月欧美| 黄色a级毛片大全视频| 青春草亚洲视频在线观看| 婷婷丁香在线五月| 国产一区二区在线观看av| 日本av免费视频播放| 日韩一本色道免费dvd| 51午夜福利影视在线观看| 天天添夜夜摸| 最近中文字幕2019免费版| 波野结衣二区三区在线| 久久精品人人爽人人爽视色| 国产野战对白在线观看| av欧美777| 日韩 欧美 亚洲 中文字幕| 精品人妻1区二区| 999精品在线视频| 最近手机中文字幕大全| 久久青草综合色| 久久热在线av| 成人影院久久| 欧美中文综合在线视频| 伦理电影免费视频| 精品一区二区三区av网在线观看 | 黄频高清免费视频| av有码第一页| 国产成人精品在线电影| 看免费成人av毛片| 久久av网站| 欧美激情 高清一区二区三区| 国产亚洲精品第一综合不卡| 天堂俺去俺来也www色官网| 亚洲精品第二区| 麻豆乱淫一区二区| 色婷婷久久久亚洲欧美| 不卡av一区二区三区| 色婷婷久久久亚洲欧美| 好男人视频免费观看在线| 啦啦啦中文免费视频观看日本| 欧美日韩福利视频一区二区| 日韩一本色道免费dvd| 免费女性裸体啪啪无遮挡网站| 亚洲成av片中文字幕在线观看| 国产日韩欧美在线精品| 亚洲成人免费av在线播放| 久久精品国产a三级三级三级| 免费看av在线观看网站| 一边摸一边做爽爽视频免费| 欧美日韩视频高清一区二区三区二| 精品久久蜜臀av无| 国产欧美日韩综合在线一区二区| 免费人妻精品一区二区三区视频| 这个男人来自地球电影免费观看| 美女脱内裤让男人舔精品视频| 亚洲精品一二三| 亚洲人成网站在线观看播放| 国产精品香港三级国产av潘金莲 | 久久精品熟女亚洲av麻豆精品| 成人国产一区最新在线观看 | 黄片小视频在线播放| 蜜桃在线观看..| 久久亚洲精品不卡| 熟女av电影| 永久免费av网站大全| 1024视频免费在线观看| 久久精品亚洲av国产电影网| 日韩伦理黄色片| 国产成人免费观看mmmm| 国产麻豆69| 日本wwww免费看| 极品人妻少妇av视频| 国产一区亚洲一区在线观看| 多毛熟女@视频| 精品一区二区三区av网在线观看 | 欧美精品一区二区大全| 一级毛片黄色毛片免费观看视频| 99国产综合亚洲精品| 99精国产麻豆久久婷婷| 国产伦人伦偷精品视频| 欧美激情 高清一区二区三区| 亚洲,欧美,日韩| 午夜影院在线不卡| 国产高清视频在线播放一区 | 男的添女的下面高潮视频| 国产亚洲精品久久久久5区| 大话2 男鬼变身卡| 日韩熟女老妇一区二区性免费视频| 热99久久久久精品小说推荐| 国产真人三级小视频在线观看| av在线老鸭窝| 无遮挡黄片免费观看| 久久人人97超碰香蕉20202| 在线观看一区二区三区激情| 日韩精品免费视频一区二区三区| 国产伦理片在线播放av一区| 亚洲国产毛片av蜜桃av| 999精品在线视频| 99久久人妻综合| 亚洲专区中文字幕在线| 久久久久网色| 黄色视频在线播放观看不卡| 超碰97精品在线观看| 亚洲 国产 在线| 免费在线观看影片大全网站 | 后天国语完整版免费观看| 这个男人来自地球电影免费观看| 亚洲av成人精品一二三区| 夫妻午夜视频| svipshipincom国产片| 国精品久久久久久国模美| 午夜日韩欧美国产| 最近手机中文字幕大全| 国产在视频线精品| 黄网站色视频无遮挡免费观看| 热re99久久精品国产66热6| 狠狠精品人妻久久久久久综合| 午夜福利视频在线观看免费| 美女中出高潮动态图| 考比视频在线观看| 女性生殖器流出的白浆| 免费观看人在逋| 久久久久久久久久久久大奶| 天天躁夜夜躁狠狠久久av| 亚洲美女黄色视频免费看| 18禁裸乳无遮挡动漫免费视频| av网站在线播放免费| 搡老乐熟女国产| 少妇猛男粗大的猛烈进出视频| 精品少妇久久久久久888优播| 女人爽到高潮嗷嗷叫在线视频| 丝袜美足系列| 亚洲欧美精品综合一区二区三区| 亚洲国产精品国产精品| 亚洲人成网站在线观看播放| 人体艺术视频欧美日本| 波多野结衣一区麻豆| 国产男女内射视频| xxxhd国产人妻xxx| 午夜福利影视在线免费观看| 在线观看www视频免费| 精品福利观看| 久久久久久免费高清国产稀缺| 亚洲av在线观看美女高潮| 欧美黑人精品巨大| 亚洲九九香蕉| 国产一区二区三区av在线| 操出白浆在线播放| 七月丁香在线播放| 精品第一国产精品| 99国产精品一区二区三区| 亚洲精品国产av蜜桃| 考比视频在线观看| 国产亚洲精品久久久久5区| 欧美精品人与动牲交sv欧美| 最新在线观看一区二区三区 | 国产午夜精品一二区理论片| 啦啦啦 在线观看视频| 最新的欧美精品一区二区| 亚洲伊人久久精品综合| 亚洲,一卡二卡三卡| 国产精品一二三区在线看| 在线观看人妻少妇| 国产在线视频一区二区| 国产色视频综合| 久久久国产一区二区| 国产精品一区二区在线不卡| 久久精品亚洲熟妇少妇任你| 男人舔女人的私密视频| 人妻 亚洲 视频| 肉色欧美久久久久久久蜜桃| 国产精品偷伦视频观看了| 可以免费在线观看a视频的电影网站| 国产av国产精品国产| 黄色视频在线播放观看不卡| 手机成人av网站| 亚洲 国产 在线| 国产日韩欧美在线精品| 日韩,欧美,国产一区二区三区| 国产精品久久久人人做人人爽| 亚洲精品美女久久av网站| 老鸭窝网址在线观看| 欧美日韩福利视频一区二区| 好男人视频免费观看在线| av有码第一页| 麻豆国产av国片精品| 国产精品一区二区免费欧美 | 啦啦啦中文免费视频观看日本| 蜜桃国产av成人99| 视频区欧美日本亚洲| 两人在一起打扑克的视频| 美女国产高潮福利片在线看| 精品一区二区三卡| 最近最新中文字幕大全免费视频 | 久久久久久人人人人人| 亚洲中文av在线| 一级毛片 在线播放| 脱女人内裤的视频| 天堂俺去俺来也www色官网| 人人妻人人爽人人添夜夜欢视频| 日本一区二区免费在线视频| 午夜福利影视在线免费观看| 97在线人人人人妻| 国产成人精品无人区| 女人精品久久久久毛片| 久久精品久久精品一区二区三区| 水蜜桃什么品种好| 精品亚洲成国产av| 久久精品国产亚洲av涩爱| 99国产精品一区二区蜜桃av | 制服人妻中文乱码| 日本av手机在线免费观看| 国产老妇伦熟女老妇高清| 亚洲av成人不卡在线观看播放网 | 一级a爱视频在线免费观看| 韩国精品一区二区三区| 国产欧美亚洲国产| 婷婷色麻豆天堂久久| 大片电影免费在线观看免费| 一级毛片电影观看| 99久久99久久久精品蜜桃| 亚洲欧美日韩另类电影网站| 精品视频人人做人人爽| 久久精品国产亚洲av高清一级| 日韩制服骚丝袜av| 一区二区三区四区激情视频| 妹子高潮喷水视频| 尾随美女入室| 又大又爽又粗| 久久这里只有精品19| 首页视频小说图片口味搜索 | e午夜精品久久久久久久| 亚洲 欧美一区二区三区| 亚洲成人免费电影在线观看 | tube8黄色片| 女性生殖器流出的白浆| 一区在线观看完整版| 日本午夜av视频| 色综合欧美亚洲国产小说| 久久人人爽av亚洲精品天堂| 亚洲成人免费电影在线观看 | 母亲3免费完整高清在线观看| 日本wwww免费看| 久久国产亚洲av麻豆专区| 每晚都被弄得嗷嗷叫到高潮| 亚洲国产日韩一区二区| 后天国语完整版免费观看| 91老司机精品| 亚洲中文字幕日韩| 日韩欧美一区视频在线观看| 交换朋友夫妻互换小说| 亚洲精品国产一区二区精华液| 亚洲一区中文字幕在线| 国产淫语在线视频| 在线看a的网站| 久久久久久亚洲精品国产蜜桃av| 高清av免费在线| 在线观看免费高清a一片| 精品福利观看| 亚洲图色成人| av有码第一页| 亚洲人成电影免费在线| 老司机午夜十八禁免费视频| 另类精品久久| 欧美精品av麻豆av| 国产亚洲欧美在线一区二区| 免费看av在线观看网站| 亚洲中文字幕日韩| tube8黄色片| 中文字幕另类日韩欧美亚洲嫩草| 国产一区二区在线观看av| 亚洲精品av麻豆狂野| 晚上一个人看的免费电影| 男女午夜视频在线观看| 国产av一区二区精品久久| 天堂中文最新版在线下载| 色婷婷av一区二区三区视频| 国产亚洲欧美精品永久| 丝袜美足系列| 亚洲国产成人一精品久久久| 国产主播在线观看一区二区 | 大陆偷拍与自拍| 亚洲一卡2卡3卡4卡5卡精品中文| 在线观看国产h片| 麻豆乱淫一区二区| 亚洲av成人不卡在线观看播放网 | 国产精品人妻久久久影院| 人妻人人澡人人爽人人| 午夜福利视频在线观看免费| 香蕉丝袜av| 在线av久久热| 悠悠久久av| 十八禁网站网址无遮挡| 欧美人与性动交α欧美精品济南到| 亚洲欧洲日产国产| 男女边摸边吃奶| 久久精品人人爽人人爽视色| 中文字幕人妻熟女乱码| 久久久久国产一级毛片高清牌| 亚洲国产欧美在线一区| 亚洲精品国产av成人精品| 亚洲中文字幕日韩| 欧美在线黄色| www.999成人在线观看| 亚洲国产av影院在线观看| 成人国产av品久久久| 99香蕉大伊视频| 欧美国产精品一级二级三级| 欧美精品亚洲一区二区| 欧美黑人精品巨大| 久久精品成人免费网站| 午夜免费鲁丝| 伊人久久大香线蕉亚洲五| 国产三级黄色录像| 最新在线观看一区二区三区 | 可以免费在线观看a视频的电影网站| 好男人视频免费观看在线| 成年av动漫网址| 99国产综合亚洲精品| 大码成人一级视频| 国产无遮挡羞羞视频在线观看| 欧美日韩亚洲国产一区二区在线观看 | 妹子高潮喷水视频| 久久久国产精品麻豆| 欧美少妇被猛烈插入视频| 丁香六月天网| 操出白浆在线播放| 亚洲欧美日韩另类电影网站| 久久人妻熟女aⅴ| 久久99热这里只频精品6学生| av视频免费观看在线观看| 国产一区亚洲一区在线观看| 伊人久久大香线蕉亚洲五| 在线观看免费日韩欧美大片| a级毛片黄视频| 最近中文字幕2019免费版| 我的亚洲天堂| 国产午夜精品一二区理论片| 成人国产av品久久久| 久久人妻熟女aⅴ| 好男人视频免费观看在线| 中文字幕人妻丝袜一区二区| 一级毛片电影观看| 欧美97在线视频| 一本色道久久久久久精品综合| 91字幕亚洲| 国产熟女午夜一区二区三区| 亚洲精品第二区| 精品福利永久在线观看| 99国产精品一区二区三区| 老司机影院毛片| 啦啦啦在线免费观看视频4| 亚洲国产精品999| 国产高清国产精品国产三级| 精品人妻在线不人妻| av网站在线播放免费| av在线app专区| 午夜老司机福利片| 美女视频免费永久观看网站| 丝袜人妻中文字幕| 美女国产高潮福利片在线看| 精品国产乱码久久久久久男人| 中文字幕av电影在线播放| 欧美黑人欧美精品刺激| 在线观看国产h片| 国产精品国产av在线观看| 一级片'在线观看视频| 国产野战对白在线观看| 操出白浆在线播放| 老汉色∧v一级毛片| 日韩av在线免费看完整版不卡| av不卡在线播放| 久久人妻熟女aⅴ| 美国免费a级毛片| 人体艺术视频欧美日本| 好男人视频免费观看在线| 五月开心婷婷网| av在线播放精品| 久久鲁丝午夜福利片| 黄片播放在线免费| 免费在线观看完整版高清| 国产精品一区二区免费欧美 | 午夜福利乱码中文字幕| 午夜激情久久久久久久| 美女午夜性视频免费| 一级片'在线观看视频| 精品国产一区二区三区四区第35| 大片电影免费在线观看免费| 美女中出高潮动态图| 国产激情久久老熟女| 久久精品aⅴ一区二区三区四区| av网站在线播放免费| 日韩 欧美 亚洲 中文字幕| 久久久国产一区二区| 巨乳人妻的诱惑在线观看| 最新在线观看一区二区三区 | 国产福利在线免费观看视频| 咕卡用的链子| 国产亚洲精品久久久久5区| 99久久99久久久精品蜜桃| 美女脱内裤让男人舔精品视频| 亚洲国产欧美网| 黑丝袜美女国产一区| 精品卡一卡二卡四卡免费| 色网站视频免费| 我要看黄色一级片免费的| 丝袜美腿诱惑在线| 国产精品熟女久久久久浪| 纵有疾风起免费观看全集完整版| 欧美国产精品va在线观看不卡| 狠狠婷婷综合久久久久久88av| 亚洲精品国产av成人精品| 亚洲欧美一区二区三区黑人| 一本久久精品| 久久人妻福利社区极品人妻图片 | 欧美人与善性xxx| 亚洲,一卡二卡三卡| 亚洲中文av在线| 久久国产亚洲av麻豆专区| 国产精品一区二区在线观看99| 99九九在线精品视频| 性色av乱码一区二区三区2| 国产精品熟女久久久久浪| 大型av网站在线播放| 97精品久久久久久久久久精品| 在线观看免费日韩欧美大片| 啦啦啦啦在线视频资源| 亚洲一卡2卡3卡4卡5卡精品中文| 纯流量卡能插随身wifi吗| bbb黄色大片| 一个人免费看片子| 国产男人的电影天堂91| av欧美777| 国产精品一区二区在线不卡| 91精品三级在线观看| 国产免费视频播放在线视频| 亚洲九九香蕉| 老司机影院成人| 1024视频免费在线观看| 午夜两性在线视频| 麻豆国产av国片精品| 伊人久久大香线蕉亚洲五| 两人在一起打扑克的视频| 精品国产一区二区三区四区第35| 欧美另类一区| 精品人妻熟女毛片av久久网站| 国产成人a∨麻豆精品| 黄频高清免费视频|