• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大型語言模型與學(xué)生在考試中的表現(xiàn)比較研究

    2025-08-18 00:00:00凌達(dá)蓮馮詩穎陳思楠潘偉權(quán)
    現(xiàn)代信息科技 2025年12期
    關(guān)鍵詞:題型評估評分

    中圖分類號:TP39;G434 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2025)12-0050-09

    Comparative Study of Large Language Models and Student Performance in Exams -Taking Qwen asan Example

    LING Dalian, FENG Shiying, CHEN Sinan, PAN Weiquan (SchoolofMathematicsandStatistics,YulinNormalUniversity,Yulin537ooo,China)

    Abstract: The research focuses on the application potential of Qwen,anAI chatbot driven byLLM,ineducational assessment.Basedon2190fnalexaminationquestionsof“ProbabilityandMathematical Statistics”inauniversityfrom2019 to 2023,eighteachersdouble-blindscoretheQwen Model,theoptimized modelandthestudents'answers.Theresultsshowthat the performanceofQwen isstable in multiplechoicequestions,but thereis muchroomfor improvement intheanswerquestions. EspeciallyafterPromptEngineeringoptimization,theperformanceoftheanswerquestionsissignificantlyimproved.Teachers' scoresonAI-generatedcontentaremorestringent,andthescoresaresignificantlyaffectedbythequestiontypeandtheanswer subject.ThisstudyprovidesempiricalevidenceforAI-assistededucationalassssment,emphasizingtheimportanceofupdating standards and exploring new models.

    Keywords:LLM; Qwen; educational assessment; AI-assisted learning

    0 引言

    隨著信息技術(shù)的迅猛發(fā)展,人工智能(AI)聊天機器人的應(yīng)用在教育領(lǐng)域正逐漸普及。特別是生成式人工智能(GenerativeAI,GAI),它通過各種機器學(xué)習(xí)方法從大量數(shù)據(jù)中學(xué)習(xí)并生成新內(nèi)容,正在改變傳統(tǒng)的教育模式[1]。大型語言模型(LargeLanguageModel,LLM)的進(jìn)步為AI聊天機器人提供了堅實的技術(shù)基礎(chǔ),使其能夠理解和生成自然語言,進(jìn)一步促進(jìn)了教育應(yīng)用的創(chuàng)新與發(fā)展[。

    本研究依托于大數(shù)據(jù)背景下地方高校統(tǒng)計類課程實踐能力培養(yǎng)的教學(xué)改革項目(桂教高教[2023]24號,項目編號:2023JGB329)。該項目旨在通過引入先進(jìn)的教育技術(shù)手段,提升學(xué)生的實踐能力和綜合素質(zhì)。作為該項目的一部分,我們選擇了阿里云開發(fā)的大型語言模型—通義千問(Qwen),來探索其在高等教育評估中的應(yīng)用潛力。

    Rumjau的社會學(xué)習(xí)理論(SLT)常被視為行為主義(傳統(tǒng)學(xué)習(xí)理論)和認(rèn)知理論之間的中介。Nabavi等人后面提煉出該理論的三個核心概念:觀察學(xué)習(xí)(通過觀察,人們可以學(xué)習(xí))、內(nèi)在強化(心理狀態(tài)是學(xué)習(xí)的重要因素)、建模過程(學(xué)習(xí)不一定導(dǎo)致行為的改變)。Morgan[4指出,如果教師持續(xù)根據(jù)學(xué)生們在智力上的弱點來教授他們,學(xué)生會感到笨拙。Morgan[5的理論表明,如果教師的教學(xué)方法和學(xué)生的技能之間存在不匹配,很可能會發(fā)生負(fù)面結(jié)果。多元智能理論強調(diào)每個學(xué)生都有獨特的智能類型,AI聊天機器人可以根據(jù)個體差異提供定制化的學(xué)習(xí)支持[4]。

    這些原則表明,AI聊天機器人可以通過模擬教師反饋和同伴學(xué)習(xí)經(jīng)歷,幫助學(xué)生獲得不同的視角和解答策略,從而促進(jìn)合作學(xué)習(xí)和知識共享。近年來,盡管教育領(lǐng)域?qū)I聊天機器人的研究逐漸增多,但這些研究大多仍處于早期階段,特別是在高等教育評估方面的實證研究較為缺乏[。特別是在K-12教育領(lǐng)域中,已有研究表明AI聊天機器人在教學(xué)中的應(yīng)用前景廣闊,但仍需更多實證研究來驗證其效果[]。因此,亟須更多實證數(shù)據(jù)來探討AI聊天機器人在教育環(huán)境中的影響、挑戰(zhàn)和風(fēng)險。

    IDC發(fā)布的《AI大模型技術(shù)能力評估報告2023》[8]顯示,阿里通義千問、百度文心一言、科大訊飛星火等AI在多項技術(shù)指標(biāo)上表現(xiàn)優(yōu)異,這標(biāo)志著AI技術(shù)的發(fā)展已經(jīng)達(dá)到了一個新的高度,能夠為教育領(lǐng)域帶來前所未有的機遇。其中,阿里通義千問以其廣泛的知識、強大的中文理解能力和出色的對話連貫性脫穎而出,能夠處理復(fù)雜的成語、俚語及文化背景問題,提供符合中文習(xí)慣的回答。

    PromptEngineering是一門相對較新的學(xué)科,指的是開發(fā)和優(yōu)化提示(prompts)的實踐,以有效利用大型語言模型,尤其是在自然語言處理任務(wù)中[

    基于通義千問在中文語言理解和處理方面的優(yōu)勢,以及其在教育場景中的廣泛應(yīng)用潛力,本研究選擇以阿里通義千問(版本號:Qwen2.5,發(fā)布日期:2024年9月19日)為研究對象,系統(tǒng)考察人工智能(AI)聊天機器人在高等教育評估中的應(yīng)用效果及其對教師評估實踐的影響。

    具體而言,本研究聚焦以下4個核心問題:

    1)教師在評估不同答題主體(學(xué)生、AI)的不同題型答案時,其評分標(biāo)準(zhǔn)和評估行為是否存在顯著差異?2)通義千問在經(jīng)過prompts后,其答題表現(xiàn)是否發(fā)生顯著變化?這種變化在不同題型中是否表現(xiàn)出差異性?3)在相同題型和評分標(biāo)準(zhǔn)下,學(xué)生答案與AI生成答案的得分是否存在系統(tǒng)性差異?這種差異的具體表現(xiàn)和可能原因是什么?4)題型特征(選擇題、填空題、解答題)和答題主體(學(xué)生、AI學(xué)習(xí)前、AI學(xué)習(xí)后)這兩個因素如何交互影響最終的評分結(jié)果?

    通過對這些問題的系統(tǒng)研究,本研究旨在為AI技術(shù)在教育評估中的應(yīng)用提供堅實的實證依據(jù),為教育實踐者提供有價值的參考和建議,以共同推動教育領(lǐng)域的創(chuàng)新與發(fā)展。同時,希望通過這種綜合性的探索,更好地理解AI聊天機器人在教育評估中的角色和潛力,指導(dǎo)未來教育技術(shù)的發(fā)展方向,促進(jìn)更加個性化、高效的教學(xué)方法的形成。

    1理論框架與技術(shù)基礎(chǔ)

    1.1生成式人工智能概述

    生成式人工智能是通過各種機器學(xué)習(xí)方法從數(shù)據(jù)中學(xué)習(xí)對象的特征,進(jìn)而生成全新的、完全原創(chuàng)的內(nèi)容(如文字、圖片、視頻)的人工智能[10]。

    大型語言模型是一種基于深度學(xué)習(xí)算法的自然語言處理模型,LLM通常在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,從而能夠理解、生成和處理人類語言[1]。

    2022年11月上線的ChatGPT(ChatGenerativePretrainedTransformer)是由美國人工智能實驗室OpenAI開發(fā)的人工智能聊天機器人應(yīng)用[1],迅速引發(fā)了關(guān)于其對教育潛在影響的廣泛討論。ChatGPT的優(yōu)勢在于其能夠生成合理的答案,并具備自我改進(jìn)能力,提供個性化和實時的響應(yīng)。這些特點提升了信息獲取的便利性,促進(jìn)了個性化學(xué)習(xí),減輕了教師的工作負(fù)擔(dān),提高了教育效率。然而,它也存在一些劣勢,如缺乏深層理解、難以評估回應(yīng)質(zhì)量、存在偏見風(fēng)險,以及缺乏較高階的思維技能等[12]。

    1.2AI聊天機器人在教育中的應(yīng)用

    Pradana和Elisa通過文獻(xiàn)計量分析和系統(tǒng)文獻(xiàn)綜述,評估了關(guān)于OpenAIChatGPT在教育中使用的現(xiàn)有研究。自2022年至2023年間,相關(guān)主題的研究文章數(shù)量顯著增加。網(wǎng)絡(luò)分析繪制的研究集群圖譜表明,“挑戰(zhàn)”“教學(xué)”和“知識”等關(guān)鍵詞尚未得到充分研究[13]。

    以ChatGPT為代表的通用大模型在教育行業(yè)快速普及,可能引發(fā)教育的系統(tǒng)性變革乃至生態(tài)重構(gòu)[14]。學(xué)生作為教育的主體,其知識體系和思維邏輯結(jié)構(gòu)的培養(yǎng)至關(guān)重要[15]。2024年,Huang等 [16]4 位學(xué)者構(gòu)建了由AI認(rèn)知、AI技能、AI應(yīng)用、AI倫理四大部分組成的人工智能素養(yǎng)(AIL)教育內(nèi)容框架,為我國AIL教育活動的開展提供了參考。

    生成式人工智能能夠在學(xué)習(xí)前幫助教師設(shè)定學(xué)習(xí)目標(biāo)、提供個性化資源和推薦學(xué)習(xí)策略,在學(xué)習(xí)過程中進(jìn)行指導(dǎo)、回答問題和提供建議,以及在學(xué)習(xí)后幫助教師評估學(xué)習(xí)效果、進(jìn)行自我反思和規(guī)劃進(jìn)一步的學(xué)習(xí)行動[17]。

    Farazouli等人[8]的研究探討了AI聊天機器人對大學(xué)教師評估實踐的影響,發(fā)現(xiàn)教師在評分學(xué)生編寫的文本時表現(xiàn)出降級的模式,即對學(xué)生文本的評估更加嚴(yán)格;聊天機器人生成的文本的通過率在 37.5% 到85.7% 之間,教師對AI生成文本的懷疑率則在 14% 到 23% 之間。這表明教師在面對AI生成內(nèi)容時更趨于謹(jǐn)慎。這一發(fā)現(xiàn)強調(diào)了教師在面對AI生成文本時的挑戰(zhàn),尤其是在維護(hù)學(xué)術(shù)誠信方面。

    為了應(yīng)對AI快速解答學(xué)術(shù)問題帶來的潛在作弊風(fēng)險,有學(xué)者建議教育機構(gòu)制定清晰政策,設(shè)計限制AI生成文本的評估方式,以維護(hù)學(xué)術(shù)誠信并減輕技術(shù)的負(fù)面影響[19]。

    1.3研究缺口與技術(shù)選擇理由

    Qwen(通義千問)是一個全面的語言模型系列,包含具有不同參數(shù)數(shù)量的不同模型。它包括Qwen(基本預(yù)訓(xùn)練語言模型)和Qwen-Chat(使用人工對齊技術(shù)微調(diào)的聊天模型)?;菊Z言模型在眾多下游任務(wù)中始終表現(xiàn)出卓越的性能,而聊天模型,尤其是那些使用來自人類反饋的強化學(xué)習(xí)(RLHF)訓(xùn)練的聊天模型,具有很強的競爭力[20]。

    關(guān)于通義千問(Qwen)在高等教育中的應(yīng)用,目前尚缺乏系統(tǒng)研究。隨著生成式AI技術(shù)的快速發(fā)展,教育者需要不斷適應(yīng)新技術(shù),調(diào)整評估標(biāo)準(zhǔn)和方法,同時加強對學(xué)生批判性思維和原創(chuàng)思維能力的培養(yǎng)。

    總之,生成式AI在教育領(lǐng)域的應(yīng)用為教師評估實踐帶來了重大影響,既是機遇也是挑戰(zhàn)。教育者應(yīng)積極應(yīng)對這些變化,以確保教育質(zhì)量和學(xué)術(shù)誠信。

    2 研究方法

    2.1 研究設(shè)計

    本研究采用系統(tǒng)化的實驗設(shè)計,旨在有效評估AI技術(shù)在教育評估中的應(yīng)用效果。該設(shè)計包括測試題選擇與準(zhǔn)備、評分環(huán)節(jié)、數(shù)據(jù)收集及分析等環(huán)節(jié)。

    2.2測試題選擇與準(zhǔn)備

    測試題選自中國某高校數(shù)學(xué)與統(tǒng)計學(xué)院不同專業(yè)2019一2023五個學(xué)年的第一學(xué)期《概率論與數(shù)理統(tǒng)計》課程期末考試真題,共計2190道題目。這些題目涵蓋了選擇題(840道)、填空題(1020道)和解答題(330道),分別考察學(xué)生的知識記憶、理解應(yīng)用和綜合分析能力。其中,解答題根據(jù)難易程度,分為10分制與12分制兩種。所有題目均由該課程的任課教師審核,確保其能有效測量學(xué)生的學(xué)習(xí)目標(biāo)和知識點掌握情況。

    2.3 評分環(huán)節(jié)

    為提高評分可靠性,研究制定了明確的評分標(biāo)準(zhǔn):

    選擇題和填空題的標(biāo)準(zhǔn)為答案與標(biāo)準(zhǔn)答案完全一致則得分;解答題參考了教材中的標(biāo)準(zhǔn)答案和評分細(xì)則,根據(jù)答案的完整性、準(zhǔn)確性和邏輯性評分。(例如,對于一道10分的解答題,如果答案完全正確且邏輯清晰,則得10分;如果答案部分正確,則根據(jù)答對的知識點數(shù)量酌情給分;如果答案完全錯誤或邏輯混亂,則得0分。)

    為減少評分主觀性,研究采用雙盲評分方式:

    評分由8位具有至少7年教學(xué)經(jīng)驗的副教授及以上職稱的統(tǒng)計專業(yè)教師執(zhí)行。評分過程中,評分者不知道答案的來源(如學(xué)生、基準(zhǔn)模型、使用基于教材內(nèi)容的PromptEngineering后的模型)。每道題目的最終得分為8位評分者的平均分。若評分標(biāo)準(zhǔn)差大于平均分一倍標(biāo)準(zhǔn)差,則引入仲裁機制,在評分過程中如出現(xiàn)爭議時,由第9位資深教師進(jìn)行最終裁決,以確保評分結(jié)果的可靠性。

    2.4 數(shù)據(jù)收集

    研究設(shè)計了三種回答類型:學(xué)生回答、基準(zhǔn)模型回答和使用基于教材內(nèi)容的PromptEngineering后的模型回答,以分析學(xué)生與AI的表現(xiàn)。

    學(xué)生回答來自國內(nèi)某高校數(shù)學(xué)與統(tǒng)計學(xué)院在2019一2023五個學(xué)年《概率論與數(shù)理統(tǒng)計》課程期末考試的隨機2190份真實考試答卷;基準(zhǔn)模型回答是將測試題目直接輸入未經(jīng)任何提示處理的通義千問模型得到的回答;基于教材內(nèi)容PromptEngineering后的模型回答則是將測試題目與教材內(nèi)容相結(jié)合構(gòu)建Prompt(Prompt的構(gòu)建方法詳見2.5),輸入通義千問模型得到的答案。所有答題數(shù)據(jù)均以文本形式保存,并進(jìn)行匿名化處理,保護(hù)學(xué)生隱私。

    2.5PromptEngineering方法使用說明

    研究采用了一種基于教材內(nèi)容的PromptEngineering方法來探究通義千問在高等教育評估中的應(yīng)用效果。具體而言,每個測試問題都構(gòu)建了一個包含“指令”“上下文”和“問題”的Prompt。“指令”指導(dǎo)模型根據(jù)提供的教材內(nèi)容回答問題;“上下文”摘錄自相關(guān)章節(jié),通常包含知識點的定義、解釋和例證等,不對原文進(jìn)行改寫或概括,進(jìn)行適當(dāng)精簡,保留核心內(nèi)容,內(nèi)容長度控制在600字以內(nèi);“問題”即具體的考試題目。通過這種方式,確保模型能夠利用相關(guān)信息生成更精準(zhǔn)的答案。

    Prompt示例:

    請根據(jù)以下提供的《概率論與數(shù)理統(tǒng)計》教材內(nèi)容,回答問題:

    內(nèi)容:輸入具體章節(jié)內(nèi)容,如第三章 XXX理論/方法…(教材原文)

    問題:某保險公司把被保險人分為三類:“謹(jǐn)慎的”“一般的”“冒失的”。統(tǒng)計資料表明,上述三種人在一年內(nèi)發(fā)生事故的概率依次為0.05,0.15和0.30。如果“謹(jǐn)慎的”被保險人占 20% ,“一般的”占 50% ,“冒失的”占 30% ,現(xiàn)知某被保險人在一年內(nèi)出了事故,則他是“謹(jǐn)慎的”的概率是多少?

    答案:輸出……

    2.6 數(shù)據(jù)分析

    使用單因素和雙因素方差分析(ANOVA)檢驗變量間的顯著差異,并通過Tukey的HSD測試進(jìn)行多重比較,識別各組間差異及其對評分的影響。此外,還將探討題型特征與答題主體之間的交互影響,以及這些因素如何共同作用于最終評分結(jié)果。

    3 研究結(jié)果

    3.1樣本特征與描述性統(tǒng)計

    ICC(IntraclassCorrelationCoefficient)是評估多個評分者之間評分一致性的一種統(tǒng)計方法。值的范圍從0到1,其中0表示沒有一致性,1表示完全一致。ICC越高,評分者間的一致性越強。

    本研究共分析了2190項考試記錄,包括學(xué)生作答 )、通義學(xué)習(xí)前作答( n=45 )和通義學(xué)習(xí)后作答( n=45 )三種類型。評分者( n=8 )對三類題型(選擇題、填空題、解答題)進(jìn)行了評估。評分者間信度系數(shù)(ICC)為0.85,表明評分具有較高的一致性。

    各組在不同題型上的得分分布如表1所示。

    表1各組在不同題型上的得分情況(Mean±SD)

    在三種題型的表現(xiàn)上,學(xué)生組的得分都是最低的,這說明相較于通義學(xué)習(xí)前和學(xué)習(xí)后的表現(xiàn),學(xué)生在沒有額外學(xué)習(xí)支持的情況下,對題目理解和解答的能力相對較低。這一現(xiàn)象可能反映了傳統(tǒng)教學(xué)模式下,學(xué)生僅靠課堂學(xué)習(xí)和自我復(fù)習(xí)難以達(dá)到較高的掌握水平,尤其是在復(fù)雜問題解決能力方面。

    針對選擇題和填空題,通義學(xué)習(xí)前的得分比學(xué)習(xí)后高,這可能是因為評估時間點的不同。通義學(xué)習(xí)前的數(shù)據(jù)可能捕捉到了學(xué)生剛接觸新內(nèi)容時的記憶效果較好,而通義學(xué)習(xí)后的數(shù)據(jù)則反映了通義在學(xué)習(xí)過程中引入了更具挑戰(zhàn)性的練習(xí),使得其在簡單題型上的得分有所下降,但這并不意味著他們實際能力的退步,而是訓(xùn)練難度增加的結(jié)果。

    針對解答題,通義學(xué)習(xí)后的得分顯著高于學(xué)習(xí)前,這確實說明經(jīng)過學(xué)習(xí),通義提高了對解答題的理解和應(yīng)用能力,思路更加清晰。這種提升表明,通義學(xué)習(xí)鞏固了基礎(chǔ)知識,還增強了分析問題、解決問題的綜合能力,特別是在需要更深入思考和創(chuàng)造性思維的解答題上,展現(xiàn)出更高的解題水平。

    3.2評分者評估差異分析

    單因素方差分析用于比較三個或三個以上樣本均值之間的差異。它檢驗因變量在不同組別之間是否存在顯著差異。值反映組間方差與組內(nèi)方差的比值, F 值越大,表示組間差異越顯著; p 值用于評估結(jié)果的統(tǒng)計顯著性,通常, plt;0.05 被視為統(tǒng)計顯著; η2 為效應(yīng)量,表示一個因素對因變量總體變異的解釋程度。值的范圍通常在0到1之間,值越大,表示效應(yīng)越顯著。

    評分者在評估不同答題主體時表現(xiàn)出顯著差異。單因素方差分析結(jié)果顯示,評分者對通義基準(zhǔn)模型后的答案評分差異顯著 (F(2, 327)=142.58 , plt;.001 ,η2=0.47 )。具體而言:

    1)通義基準(zhǔn)模型答案評分(總分12分時): F ?=4.29 , plt;.001 , η2=0.31 2)通義基準(zhǔn)模型答案評分(總分10分時): F =10.59 , plt;.001 , η2=0.39 3)通義基于教材內(nèi)容的Prompt Engineering 后的模型答案評分(總分12分時): F=10.36 , plt;.001 ,η2=0.38 4)通義基于教材內(nèi)容的Prompt Engineering后的模型答案評分(總分10分時): F=9.14 , plt;.001 ,η2=0.35

    在評分過程中,共有47次( (2.1%)% )觸發(fā)仲裁機制,其中42次( 89.4% )通過第四位評分專家的介入達(dá)成一致。

    3.3通義學(xué)習(xí)效果分析

    為了進(jìn)一步探討不同題型對評分結(jié)果的影響,本研究進(jìn)行了ANOVA分析與Tukey'sHSD測試。不同題型在各回答類型中的得分分布情況如表2所示。

    表2解答題ANOVA分析

    由于顯著性 F 值很高,可以得出結(jié)論,回答類型間存在顯著差異。表2分析結(jié)果表明,不同的回答類型對結(jié)果產(chǎn)生了明顯的影響

    通過Tukey'sHSD測試,結(jié)果如表3所示,學(xué)生的回答與通義學(xué)習(xí)前和通義學(xué)習(xí)后的回答差異顯著,但通義學(xué)習(xí)前與后之間的差異不顯著。

    表3解答題Tukey'sHSD測試

    可以推測,學(xué)生在回答時可能與通義差異較大,但是通義學(xué)習(xí)本身在這兩組間的提升效果并未顯著。

    ANOVA結(jié)果如表4所示,不同的回答類型之間存在顯著差異,支持教育評估設(shè)計與回答方式的影響。

    表4選擇題ANOVA分析

    通過Tukey'sHSD測試,結(jié)果如表5所示,反映學(xué)生的回答高于通義學(xué)習(xí)前的回答,而通義學(xué)習(xí)后的回答與學(xué)生回答相比未表現(xiàn)出顯著性差異,說明通義學(xué)習(xí)的效果可能有限。

    表5選擇題Tukey'sHSD測試

    在教育評估中,應(yīng)優(yōu)先考慮如何提升學(xué)生的回答水平,同時檢討通義學(xué)習(xí)的有效性和內(nèi)容。

    ANOVA結(jié)果如表6所示,不同的回答類型之間存在顯著差異,特別是學(xué)生在回答時顯著高于其他組別。

    表6填空題ANOVA分析

    通過Tukey'sHSD測試,結(jié)果如表7所示,學(xué)生回答顯著優(yōu)于通義學(xué)習(xí)前和后回答,而通義學(xué)習(xí)前回答低于通義學(xué)習(xí)后回答,表明通義學(xué)習(xí)可能對成績有一定影響,但相比之下,學(xué)生的表現(xiàn)更優(yōu)異。

    表7填空題Tukey'sHSD測試

    教育者在設(shè)計課程時應(yīng)關(guān)注如何提升學(xué)生的回答能力,同時檢討通義學(xué)習(xí)內(nèi)容,進(jìn)一步提高其效果。

    3.4 答題主體比較分析

    為了評估學(xué)生回答、通義學(xué)習(xí)前后的結(jié)果得分是否存在差異,本文進(jìn)行了箱線圖和散點圖分析,如圖1所示。通義經(jīng)過學(xué)習(xí)后,與學(xué)生回答,通義學(xué)習(xí)前回答相比,回答質(zhì)量提升的分析如圖2和圖3所示。

    圖1解答題箱線圖與散點圖

    在分?jǐn)?shù)為12分的解答題中,學(xué)生的回答表現(xiàn)較為穩(wěn)定且評分一致,但存在一定的波動;通義在學(xué)習(xí)前的回答質(zhì)量不穩(wěn)定,評分波動較大,而在學(xué)習(xí)后評分更加集中和一致,表明學(xué)習(xí)后顯著提升了通義的回答質(zhì)量,學(xué)習(xí)后對通義的回答表現(xiàn)有顯著的正面影響。

    在分?jǐn)?shù)為10分的解答題中,學(xué)生們的回答表現(xiàn)較為穩(wěn)定,評分較為一致,但存在一定的波動;通義在學(xué)習(xí)前的回答表現(xiàn)不穩(wěn)定,評分波動較大;通義在學(xué)習(xí)后,回答質(zhì)量顯著提升,評分更加一致,波動范圍減小,表明學(xué)習(xí)后對通義的回答質(zhì)量有顯著的正面影響。

    從箱線圖中可以看出,不同回答類型的中位數(shù)(箱線圖中的橫線)大致相同,表明不同回答類型的得分中位數(shù)相近;不同回答類型的IQR(箱體的長度)有所不同,表明不同回答類型的得分分布范圍有差異。

    從散點圖中可以看出,學(xué)生回答得分較低,相比之下,學(xué)生回答整體上分布在較低的得分區(qū)間,表明這些回答的得分普遍較低;通義學(xué)習(xí)后回答得分較高:與通義學(xué)習(xí)前回答相比,通義學(xué)習(xí)后回答整體上分布在較高的得分區(qū)間,表明通義學(xué)習(xí)后回答的得分普遍比學(xué)習(xí)前回答得分高。

    3.5 題型特征影響分析

    交互作用用于描述兩個或多個變量之間的交互關(guān)系如何影響因變量。這可以揭示更復(fù)雜的關(guān)系和效應(yīng)。

    如表8所示,所有因素(題目類型、回答類型及其交互作用)均對結(jié)果顯著影響。所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明統(tǒng)計上的顯著性。教育和評估設(shè)計中,應(yīng)考慮題目類型和回答方式的影響,根據(jù)這些結(jié)果可以針對性地優(yōu)化教學(xué)方法和目標(biāo)。

    表8不同題型間回答類型的方差分析1

    如表9所示,所有因素(題目類型、回答類型及其交互作用)對結(jié)果具有顯著影響。所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明統(tǒng)計顯著性。高 F 值和小 p 值表明模型有效地解釋了數(shù)據(jù)的變異,并揭示出因素之間的關(guān)系。

    表9不同題型間回答類型的方差分析2

    表10顯示所有因素(題目類型、回答類型及其交互作用)均對結(jié)果有顯著的影響,所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明這些因素在統(tǒng)計上是重要的。高F 值和極小的 p 值揭示了不同因素之間的關(guān)系。在后續(xù)的教學(xué)與評估的設(shè)計中,應(yīng)根據(jù)結(jié)果優(yōu)化題目類型與回答類型的選擇,以提高評估的有效性和可靠性。

    表10不同題型間回答類型的方差分析3

    4 討論與分析

    4.1 研究發(fā)現(xiàn)及意義

    本研究通過系統(tǒng)化的實驗設(shè)計與嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析,探討了通義千問在高等教育評估中的應(yīng)用效果及其對教師評估實踐的影響。研究表明,AI技術(shù)的發(fā)展給傳統(tǒng)教育評估體系帶來了新的挑戰(zhàn)和機遇。

    首先,教師在評估AI生成內(nèi)容時的顯著評分差異 ΔICC=0.85 )揭示了當(dāng)前教育評估標(biāo)準(zhǔn)在應(yīng)對AI內(nèi)容方面的適應(yīng)性問題。這表明隨著AI技術(shù)的進(jìn)步,傳統(tǒng)的教育評估方法需要調(diào)整或重新設(shè)計以更好地適應(yīng)新工具。

    其次,通義千問在不同題型中的表現(xiàn)差異為考試設(shè)計提供了重要參考。例如,在選擇題中表現(xiàn)出最高的穩(wěn)定性( CV=0.15 ),而在解答題中顯示最大的變異( CV=0.28 )。其中,變異系數(shù)(CV)是描述數(shù)據(jù)離散程度的無量綱統(tǒng)計量,通常用于比較不同數(shù)據(jù)集的相對變異程度。這一發(fā)現(xiàn)提示我們在設(shè)計試題時應(yīng)考慮AI的能力特點,合理分配題型比例,以確保評估的有效性和公平性。

    此外,通義千問展現(xiàn)出顯著的學(xué)習(xí)能力,特別是在填空題中的出色表現(xiàn)( ),證實了其自適應(yīng)學(xué)習(xí)潛力。這不僅展示了AI處理特定類型題目上的潛力,也為未來教育技術(shù)開發(fā)提供了方向。

    最后,題型特征和答題主體之間的顯著交互作用(F(4, 1 454)=37.79 , plt;.001 )強調(diào)了評估任務(wù)性質(zhì)對AI系統(tǒng)表現(xiàn)的重要影響。這意味著,在設(shè)計AI輔助教學(xué)工具時,需考慮不同類型題目對學(xué)生和AI的不同要求,從而優(yōu)化教學(xué)資源配置。

    4.2應(yīng)用前景與教育評估實踐啟示

    通過對通義千問在高等教育不同題型中的表現(xiàn)分析,我們發(fā)現(xiàn)AI系統(tǒng)在處理基于事實記憶和模式識別的選擇題方面表現(xiàn)出較高的準(zhǔn)確性。然而,在涉及深層次理解、批判性思維和創(chuàng)造性思維的任務(wù)中,其表現(xiàn)相對受限。這一發(fā)現(xiàn)提示我們需要在利用AI輔助教學(xué)時平衡使用,尤其是在培養(yǎng)學(xué)生的高階思維能力方面。

    并且,通過對通義千問學(xué)習(xí)前后表現(xiàn)的對比分析發(fā)現(xiàn),其在經(jīng)過學(xué)習(xí)后的答題質(zhì)量顯著提升,這一結(jié)果為AI系統(tǒng)的自適應(yīng)學(xué)習(xí)能力提供了實證支持。這種進(jìn)步不僅體現(xiàn)在答案的準(zhǔn)確性上,更反映在答案的邏輯性和連貫性方面,這與現(xiàn)代教育評估理論中強調(diào)的高階思維能力的培養(yǎng)目標(biāo)形成了有趣的對照。未來的研究可以進(jìn)一步探討如何通過改進(jìn)AI的學(xué)習(xí)算法,使其更好地模擬人類的認(rèn)知過程,從而提高AI在復(fù)雜任務(wù)中的表現(xiàn)。

    同時,研究結(jié)果對當(dāng)前高等教育評估體系提出了深刻挑戰(zhàn)。教師面對AI生成內(nèi)容時采用更嚴(yán)格的評分標(biāo)準(zhǔn),可能反映了對AI技術(shù)的認(rèn)知偏差和專業(yè)判斷的調(diào)適過程。因此,更新評估標(biāo)準(zhǔn)、優(yōu)化考試設(shè)計顯得尤為重要。教育者在設(shè)計評估方案時,應(yīng)當(dāng)根據(jù)評估目的合理配置不同類型的試題,特別是在考察學(xué)生的深層理解能力和創(chuàng)新思維時,可以適當(dāng)增加解答題的比重,通過題型的差異性來更好地區(qū)分學(xué)習(xí)者的真實能力水平。

    AI在不同題型中的表現(xiàn)差異為考試設(shè)計提供了新的思路。建議根據(jù)評估目的合理配置不同類型的試題,特別是在考察深層理解和創(chuàng)新能力時,適當(dāng)增加解答題的比例,以便更好地區(qū)分學(xué)生的真實能力水平。

    此外,考慮到AI系統(tǒng)的穩(wěn)定性和學(xué)習(xí)能力,教育機構(gòu)可以探索將AI輔助評估與傳統(tǒng)評估方法結(jié)合的混合模式,提高評估效率的同時確保全面性和準(zhǔn)確性。這種創(chuàng)新不僅能減輕教師負(fù)擔(dān),還能提供及時、個性化的學(xué)習(xí)反饋。

    4.3 研究局限性

    盡管取得了一些重要發(fā)現(xiàn),本研究仍存在局限性。

    在樣本代表性方面,本研究的評分教師樣本規(guī)模相對有限( ),雖然這些教師都具備豐富的教學(xué)經(jīng)驗和較高的職稱,但樣本規(guī)模的限制可能影響結(jié)果的推廣性。同時,學(xué)生樣本僅來自單一院校,這可能無法充分反映不同教育背景和學(xué)習(xí)水平的學(xué)生群體特征,可能影響結(jié)果的推廣性。

    研究的時效性同樣值得關(guān)注。鑒于AI技術(shù)的快速發(fā)展特征,本研究基于特定版本通義千問的發(fā)現(xiàn)可能會隨著技術(shù)的更新而發(fā)生變化。AI模型的持續(xù)優(yōu)化和升級可能帶來性能的顯著提升,這使得研究結(jié)論的適用期限面臨挑戰(zhàn)。這一局限性也提示我們在解釋和應(yīng)用研究結(jié)果時需要考慮時間因素的影響。

    在評估維度方面,本研究主要聚焦于量化評分的分析,對評分過程中的質(zhì)性特征關(guān)注相對不足。雖然統(tǒng)計分析揭示了顯著的評分差異,但未能深入探究教師在評估過程中的認(rèn)知決策機制。這種局限性使我們可能忽略了一些重要的質(zhì)性因素,如教師的評估思維過程、專業(yè)判斷的形成機制等。此外,研究未能充分考察評分標(biāo)準(zhǔn)在不同情境下的適用性,這可能影響評估結(jié)果的解釋效度。

    這些局限性不僅提示我們在解釋研究結(jié)果時需要保持謹(jǐn)慎,同時也為未來研究指明了改進(jìn)方向。后續(xù)研究可以通過擴大樣本規(guī)模、增加研究場景的多樣性、深化質(zhì)性分析等方式,進(jìn)一步提升研究的科學(xué)性和實踐價值。

    5結(jié)論

    綜上所述,本研究為AI技術(shù)在教育評估中的應(yīng)用提供了實證依據(jù),揭示了教育體系面臨的挑戰(zhàn)與發(fā)展方向。這些研究成果將有助于指導(dǎo)教育實踐者和技術(shù)開發(fā)者共同努力,推動教育領(lǐng)域的創(chuàng)新與發(fā)展。

    同時,明確指出研究的局限性也為未來的研究提供了改進(jìn)的方向,為進(jìn)一步的研究奠定了基礎(chǔ)。通過不斷優(yōu)化AI系統(tǒng)的設(shè)計和應(yīng)用策略,我們可以期待一個更加個性化、高效且公平的教育未來。

    參考文獻(xiàn):

    [1]JURAFSKYD,MARTINHJ.Speech and Language

    Processing:An Introduction to Natural Language Processing,

    Computational Linguistics,and Speech Recognition with Language

    Models[M/OL].[2025-01-02].https://web.stanford.edu/~jurafsky/slp3.

    [2]RUMJAUNA,NARODF.Social LearningTheory—

    AlbertBandura [M].ScienceEducationin Theoryand Practice:

    AnIntroductory Guide to Learning Theory,Cham:Springer,

    2025:85-99.

    [3]NABAVI R T.Bandura's Social Learning Theory and

    SocialCognitiveLearning Theory[J].TheoryofDevelopmental

    Psychology,2012,1(1):1-24.

    [4]MORGAN H.Howard Gardner's Multiple Intelligences

    Theory and his Ideas on Promoting Creativity [M]//REISMAN

    F. Celebrating Giants and Trailblazers: A-Z of Who’s Who

    in Creativity Research and Related Fields.London:KIE

    Publications,2021:124-141.

    [5] MORGAN H. Maximizing Student Success with

    Differentiated Learning [J].the Clearing House:A Journal of

    Educational Strategies,Issues and Ideas,2014,87(1):34-38.

    [6] HWANG G J, CHANG C Y. A Review of Opportunities

    and Challenges of Chatbots in Education [J].Interactive Learning

    Environments,2023,31(7):4099-4112.

    [7] CHIU T K F,MOORHOUSE B L,CHAI C S,

    et al. Teacher Support and Student Motivation to Learn with

    Artificial Intellgence (AI) Based Chatbot [J].Interactive Learing

    Environments,2024,32(7):3240-3256.

    [8] IDC.AI 大模型技術(shù)能力評估報告 [R/OL].[2025-6-11].

    https://www.idc.com/getdoc.jsp?containerId=CHC49698923.

    [9] GIRAY L. Prompt Engineering with ChatGPT: A Guide

    for Academic Writers[J].Ann Biomed Engineering,2023,51(12):

    2629-2633.

    [10] GARTNER.5 Impactful Technologies from the Gartner

    Emerging Technologies and Trends Impact Radar for 2022 [EB/

    OL].(2021-12-08)[2025-06-11].ttps://www.gartner.com/en/

    articles/5-impactful-technologies-from-the-gartner-emerging-

    technologies-and-trends-impact-radar-for-2022.

    [11]喻國明,蘇健威.生成式人工智能浪潮下的傳播革命

    與媒介生態(tài)——從ChatGPT到全面智能化時代的未來[J].新

    疆師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2023,44(5):81-90.

    [12] FARROKHNIA M,BANIHASHEM S K,NOROOZI O,

    et al.A SWOT Analysis of ChatGPT: Implications for Educational

    Practice and Research [J].Innovations in Education and Teaching

    Intermational,2024,61(3):460-474.

    [13] PRADANA M,ELISA HP,SYARIFUDDIN S.

    Discussing ChatGPT in Education:A Literature Review and

    Bibliometric Analysis [J].Cogent Education,2023,10 (2):

    2243134.

    [14]吳砥,吳河江.通用大模型教育應(yīng)用的潛在風(fēng)險及其

    規(guī)避一 一基于技術(shù)倫理的視角[J].華東師范大學(xué)學(xué)報:教育科

    學(xué)版,2024,42(8):64-75.

    [15]施周龍,趙飛燕.生成式人工智能賦能教育轉(zhuǎn)型發(fā)展

    的思考[J].教育進(jìn)展,2024,14(5):950-956.

    [16] HUANG R,SHI L Y.Content Framework for

    Artificial Intelligence Literacy Instruction in China from a Global

    Perspective [J].Documentation, Information and Knowledge,

    2024,41(3):27-37.

    [17] 汪晨,劉永貴.基于生成式人工智能的教師自主學(xué)習(xí)

    模式探究- -以ChatGPT為例[J].軟件導(dǎo)刊,2023,22(11):

    219-225.

    [18]FARAZOULI A,CERRATTO-PARGMAN T,

    BOLANDER-LAKSOV K,et al.Hello GPT!Goodbye Home

    Examination? An Exploratory Study of AI Chatbots Impact on

    University Teachers' Assessment Practices [J].Assessment and

    Evaluation in Higher Education,2024,49(3):363-375.

    [19] ADESHOLAI,ADEPOJU A P. The Opportunities

    and Challenges of ChatGPT in Education [J].Interactive Learning

    Environments,2024,32(10):6159-6172.

    [20]BAIJ,BAIS,YANGS,etal.Qwen-VL:AVersatile Vision-LanguageModel forUnderstanding,Localization,Text Reading,and Beyond[J/OL].arXiv:2308.12966[cs.CV].[2025-06- 11].https://arxiv.org/abs/2308.12966.

    作者簡介:凌達(dá)蓮(2004.05一),女,漢族,廣西北流人,本科在讀,研究方向:統(tǒng)計學(xué);馮詩穎(2004.05一),女,漢族,江蘇淮安人,本科在讀,研究方向:統(tǒng)計學(xué);陳思楠(2001.10—),女,漢族,廣西浦北人,本科在讀,研究方向:統(tǒng)計學(xué);通信作者:潘偉權(quán)(1980.12—),男,漢族,廣西平南人,副教授,博士,研究方向:統(tǒng)計學(xué)、概率論與數(shù)理統(tǒng)計等課程教學(xué)與研究。

    猜你喜歡
    題型評估評分
    OBE理念在大學(xué)生愛國主義核心素養(yǎng)教育中的創(chuàng)新應(yīng)用
    不同類型初中數(shù)學(xué)新定義試題的解題策略
    剖析全等三角形證明題常見的解題誤區(qū)
    對一道中考填空題的追蹤和探究
    巧用坐標(biāo)法解等腰直角三角形存在性問題
    科技創(chuàng)新賦能保險中介
    冠脈鈣化并不等于冠心病
    央企房地產(chǎn)評估與城市更新的協(xié)同發(fā)展
    紫云英苷調(diào)節(jié)腸道菌群緩解小鼠潰瘍性結(jié)腸炎的作用機制
    中國藥房(2025年14期)2025-08-18 00:00:00
    基于風(fēng)險管理的消防監(jiān)督管理模式探索
    消防界(2025年4期)2025-08-18 00:00:00
    1000部很黄的大片| 在线观看美女被高潮喷水网站| 欧美成人a在线观看| 久久精品国产亚洲网站| 蜜桃在线观看..| 成人毛片60女人毛片免费| 亚洲av.av天堂| 在线观看免费高清a一片| a级毛色黄片| 日韩一区二区视频免费看| 老司机影院毛片| 精品国产乱码久久久久久小说| 日韩强制内射视频| 免费黄色在线免费观看| 精品一区二区三卡| 精品熟女少妇av免费看| 一本—道久久a久久精品蜜桃钙片| 毛片一级片免费看久久久久| 午夜精品国产一区二区电影| 成人亚洲欧美一区二区av| 少妇被粗大猛烈的视频| 久久精品久久精品一区二区三区| 国产精品久久久久久久久免| 日韩,欧美,国产一区二区三区| 国产亚洲5aaaaa淫片| 五月玫瑰六月丁香| 国产成人aa在线观看| 国产色婷婷99| 精品人妻偷拍中文字幕| 狂野欧美激情性xxxx在线观看| 亚洲欧美中文字幕日韩二区| 丝袜喷水一区| 三级国产精品欧美在线观看| 精品久久久久久久久av| 国产精品国产三级国产专区5o| 午夜视频国产福利| 人妻夜夜爽99麻豆av| 各种免费的搞黄视频| 丰满少妇做爰视频| 黄色欧美视频在线观看| 日韩av在线免费看完整版不卡| 少妇的逼好多水| 久久久色成人| 国产在线男女| 日韩人妻高清精品专区| 成人影院久久| 美女高潮的动态| 欧美日本视频| 3wmmmm亚洲av在线观看| 亚洲婷婷狠狠爱综合网| 国产成人a区在线观看| 肉色欧美久久久久久久蜜桃| 亚洲国产欧美人成| 久久99热6这里只有精品| 中国美白少妇内射xxxbb| 亚洲av中文av极速乱| 高清av免费在线| 美女cb高潮喷水在线观看| 伊人久久国产一区二区| 国产av精品麻豆| 日本vs欧美在线观看视频 | 大香蕉97超碰在线| 99久久精品一区二区三区| 国产精品一区二区性色av| 亚州av有码| 亚洲四区av| 日本欧美视频一区| 国产乱人视频| 欧美日韩视频高清一区二区三区二| 久久精品久久久久久久性| 日日摸夜夜添夜夜添av毛片| 99热国产这里只有精品6| 女人十人毛片免费观看3o分钟| 国产爽快片一区二区三区| 久久久久久久久久久免费av| 亚州av有码| 在线 av 中文字幕| 欧美日本视频| 亚洲天堂av无毛| 国精品久久久久久国模美| 午夜精品国产一区二区电影| 免费观看av网站的网址| 91久久精品国产一区二区三区| 97精品久久久久久久久久精品| 蜜桃在线观看..| 中文欧美无线码| av在线播放精品| 纯流量卡能插随身wifi吗| 国产黄片美女视频| 午夜激情久久久久久久| 韩国高清视频一区二区三区| 久久女婷五月综合色啪小说| 18禁裸乳无遮挡动漫免费视频| 国产精品嫩草影院av在线观看| 中文字幕久久专区| 亚洲欧美精品专区久久| 久久国产亚洲av麻豆专区| 午夜精品国产一区二区电影| 国产成人精品久久久久久| 国产国拍精品亚洲av在线观看| 狂野欧美白嫩少妇大欣赏| 18+在线观看网站| 中文欧美无线码| 最近中文字幕高清免费大全6| 亚洲国产成人一精品久久久| 高清午夜精品一区二区三区| 男女国产视频网站| 国产欧美日韩一区二区三区在线 | 18+在线观看网站| 国产黄色免费在线视频| 天堂8中文在线网| 蜜桃亚洲精品一区二区三区| 三级经典国产精品| 国产成人免费观看mmmm| 狂野欧美激情性bbbbbb| 久久久久国产网址| 日韩中文字幕视频在线看片 | 汤姆久久久久久久影院中文字幕| 天美传媒精品一区二区| av在线老鸭窝| 久久99蜜桃精品久久| 成人漫画全彩无遮挡| 色视频www国产| 中国美白少妇内射xxxbb| 日本色播在线视频| 成人亚洲欧美一区二区av| 黑人高潮一二区| 国产精品99久久99久久久不卡 | 黄色欧美视频在线观看| 亚洲熟女精品中文字幕| 大香蕉97超碰在线| 亚洲久久久国产精品| 精品国产三级普通话版| 简卡轻食公司| 女性生殖器流出的白浆| 18禁裸乳无遮挡动漫免费视频| 下体分泌物呈黄色| 久久久久国产网址| 男女边吃奶边做爰视频| 亚洲成人一二三区av| 久久女婷五月综合色啪小说| 亚洲精品国产色婷婷电影| 亚洲精品456在线播放app| 国产男女超爽视频在线观看| 精品一区在线观看国产| 欧美成人午夜免费资源| 亚洲av日韩在线播放| 成人影院久久| videos熟女内射| 亚洲欧美精品自产自拍| 校园人妻丝袜中文字幕| 免费人成在线观看视频色| 亚洲精品,欧美精品| 欧美zozozo另类| 丝袜喷水一区| 深夜a级毛片| 午夜老司机福利剧场| av专区在线播放| 中文欧美无线码| 国模一区二区三区四区视频| 成年女人在线观看亚洲视频| 欧美日韩精品成人综合77777| 18禁在线无遮挡免费观看视频| 成人美女网站在线观看视频| 久久国产乱子免费精品| 18禁裸乳无遮挡免费网站照片| 欧美一级a爱片免费观看看| 亚洲精品乱码久久久久久按摩| 国产黄片视频在线免费观看| 亚洲第一av免费看| 久久精品国产自在天天线| 一本久久精品| 熟女av电影| 免费播放大片免费观看视频在线观看| 2021少妇久久久久久久久久久| 久久久欧美国产精品| 26uuu在线亚洲综合色| 免费观看的影片在线观看| 午夜免费男女啪啪视频观看| 色婷婷av一区二区三区视频| 久久久久性生活片| 黄色一级大片看看| 亚洲一区二区三区欧美精品| 国产欧美另类精品又又久久亚洲欧美| 丰满人妻一区二区三区视频av| 日本爱情动作片www.在线观看| 国语对白做爰xxxⅹ性视频网站| 伊人久久国产一区二区| 男人舔奶头视频| 嫩草影院入口| 国产精品99久久久久久久久| 九色成人免费人妻av| 嘟嘟电影网在线观看| 永久网站在线| 高清不卡的av网站| 久久这里有精品视频免费| 日本午夜av视频| av不卡在线播放| 亚洲精华国产精华液的使用体验| 少妇人妻久久综合中文| 久久久久性生活片| 在线天堂最新版资源| 在线观看国产h片| 亚洲不卡免费看| 91久久精品电影网| 王馨瑶露胸无遮挡在线观看| 精品少妇黑人巨大在线播放| 国产精品免费大片| 中文字幕人妻熟人妻熟丝袜美| 午夜日本视频在线| 国产亚洲精品久久久com| 欧美+日韩+精品| 中国三级夫妇交换| 91精品国产九色| 寂寞人妻少妇视频99o| 精品少妇久久久久久888优播| 国产色爽女视频免费观看| 一区二区三区精品91| 婷婷色综合www| 国产精品99久久久久久久久| 黑人猛操日本美女一级片| 国产91av在线免费观看| 婷婷色麻豆天堂久久| 18禁在线无遮挡免费观看视频| 另类亚洲欧美激情| 亚洲怡红院男人天堂| 欧美精品亚洲一区二区| 亚洲经典国产精华液单| 国产综合精华液| 夜夜爽夜夜爽视频| 国产精品一及| 久久久久久人妻| 男女边摸边吃奶| 国模一区二区三区四区视频| 黄色一级大片看看| 综合色丁香网| 精品视频人人做人人爽| 色吧在线观看| 内地一区二区视频在线| 国产真实伦视频高清在线观看| 99久久精品国产国产毛片| 内射极品少妇av片p| 国产成人精品婷婷| 日日啪夜夜爽| 精品久久久久久久久亚洲| 国产片特级美女逼逼视频| 国产白丝娇喘喷水9色精品| 免费av中文字幕在线| 涩涩av久久男人的天堂| 国产精品秋霞免费鲁丝片| 午夜激情福利司机影院| 欧美精品人与动牲交sv欧美| 亚洲四区av| 女人久久www免费人成看片| 免费av中文字幕在线| 国产大屁股一区二区在线视频| 久久99蜜桃精品久久| 在线 av 中文字幕| 欧美三级亚洲精品| 欧美xxxx黑人xx丫x性爽| 中国美白少妇内射xxxbb| 自拍欧美九色日韩亚洲蝌蚪91 | 精品酒店卫生间| 国产精品爽爽va在线观看网站| 国产日韩欧美亚洲二区| 日韩制服骚丝袜av| 欧美极品一区二区三区四区| 这个男人来自地球电影免费观看 | 免费观看无遮挡的男女| 亚洲在久久综合| 国产精品免费大片| 精品亚洲成a人片在线观看 | 久久婷婷青草| 中国三级夫妇交换| 国产在线一区二区三区精| 国产午夜精品久久久久久一区二区三区| 在现免费观看毛片| 亚洲第一区二区三区不卡| 26uuu在线亚洲综合色| 久久久久国产精品人妻一区二区| 亚洲精品aⅴ在线观看| 王馨瑶露胸无遮挡在线观看| 三级经典国产精品| 久久久久久久精品精品| 尾随美女入室| 中国国产av一级| 成年女人在线观看亚洲视频| 一级片'在线观看视频| 亚洲精品一区蜜桃| 少妇人妻 视频| 成人二区视频| 黄片无遮挡物在线观看| 久久99热6这里只有精品| 22中文网久久字幕| 老司机影院成人| 久久久久久久久久人人人人人人| 亚洲aⅴ乱码一区二区在线播放| 久久av网站| 丰满乱子伦码专区| 精品久久久噜噜| 国产精品秋霞免费鲁丝片| 美女视频免费永久观看网站| 国产 一区精品| 最近的中文字幕免费完整| 久久人妻熟女aⅴ| 六月丁香七月| 欧美最新免费一区二区三区| 18禁在线无遮挡免费观看视频| 国产一区二区三区综合在线观看 | h日本视频在线播放| 日韩成人av中文字幕在线观看| 亚洲av中文字字幕乱码综合| 九色成人免费人妻av| 国产色爽女视频免费观看| 草草在线视频免费看| 一级av片app| 国产亚洲5aaaaa淫片| 亚洲欧美一区二区三区国产| 国内少妇人妻偷人精品xxx网站| 亚洲av免费高清在线观看| 成人亚洲欧美一区二区av| 亚洲aⅴ乱码一区二区在线播放| 久久久久久久久久成人| 国产精品女同一区二区软件| 中文资源天堂在线| 18禁在线播放成人免费| kizo精华| 美女xxoo啪啪120秒动态图| 国产午夜精品一二区理论片| 狂野欧美激情性xxxx在线观看| av专区在线播放| 大片电影免费在线观看免费| 又黄又爽又刺激的免费视频.| 搡女人真爽免费视频火全软件| 如何舔出高潮| 黄片无遮挡物在线观看| 国产精品久久久久久精品古装| 亚洲av国产av综合av卡| 国产淫片久久久久久久久| 亚洲第一区二区三区不卡| 一本久久精品| 寂寞人妻少妇视频99o| 免费观看的影片在线观看| 人体艺术视频欧美日本| 最近手机中文字幕大全| 国产在线免费精品| 美女福利国产在线 | 噜噜噜噜噜久久久久久91| 成人午夜精彩视频在线观看| 国产精品欧美亚洲77777| 国产色婷婷99| 欧美国产精品一级二级三级 | 亚洲精品自拍成人| 在线免费观看不下载黄p国产| 在线观看av片永久免费下载| 日韩 亚洲 欧美在线| 久久久久久九九精品二区国产| av女优亚洲男人天堂| 免费观看在线日韩| 中文乱码字字幕精品一区二区三区| 久久人妻熟女aⅴ| 99久久精品国产国产毛片| 欧美日韩一区二区视频在线观看视频在线| 亚洲四区av| 日本黄大片高清| 亚洲av免费高清在线观看| 亚洲欧美精品自产自拍| 人妻少妇偷人精品九色| 人妻夜夜爽99麻豆av| 久久青草综合色| 亚洲丝袜综合中文字幕| 激情五月婷婷亚洲| 国产伦在线观看视频一区| 免费大片18禁| 伊人久久精品亚洲午夜| 91精品国产国语对白视频| 伦理电影大哥的女人| 毛片一级片免费看久久久久| 国产熟女欧美一区二区| 亚洲精品国产av成人精品| 夜夜看夜夜爽夜夜摸| 我要看黄色一级片免费的| 高清午夜精品一区二区三区| 在线 av 中文字幕| 日韩av在线免费看完整版不卡| 久久精品夜色国产| 国产精品福利在线免费观看| 亚洲av不卡在线观看| 亚洲成人中文字幕在线播放| 免费黄网站久久成人精品| 亚洲欧洲国产日韩| 新久久久久国产一级毛片| 亚洲av男天堂| 日韩电影二区| 国产精品爽爽va在线观看网站| 国产精品不卡视频一区二区| 国产高清有码在线观看视频| 亚洲av二区三区四区| 能在线免费看毛片的网站| 日本免费在线观看一区| 麻豆成人午夜福利视频| 亚洲精品视频女| 久久人人爽人人片av| 国产精品福利在线免费观看| 亚洲成人一二三区av| 国产高潮美女av| 久久青草综合色| 男女无遮挡免费网站观看| 777米奇影视久久| 成年女人在线观看亚洲视频| 亚洲av电影在线观看一区二区三区| 欧美激情国产日韩精品一区| 欧美成人a在线观看| 美女脱内裤让男人舔精品视频| 日本一二三区视频观看| 日韩人妻高清精品专区| 国产无遮挡羞羞视频在线观看| 美女主播在线视频| 亚洲精品一区蜜桃| 久久人人爽人人爽人人片va| 亚洲欧美成人精品一区二区| 久久6这里有精品| h日本视频在线播放| 一区二区三区乱码不卡18| 亚洲av日韩在线播放| 久久久久国产精品人妻一区二区| 一区在线观看完整版| 国产久久久一区二区三区| 色婷婷av一区二区三区视频| 国产淫语在线视频| 国产精品精品国产色婷婷| 亚洲欧美日韩东京热| 亚洲高清免费不卡视频| 亚洲欧美一区二区三区黑人 | 午夜免费男女啪啪视频观看| 久久精品久久精品一区二区三区| 精品国产一区二区三区久久久樱花 | 国产精品一二三区在线看| 亚洲天堂av无毛| 国产在线一区二区三区精| 国产精品人妻久久久影院| 久久久精品免费免费高清| 国产精品爽爽va在线观看网站| 一个人看视频在线观看www免费| 免费观看无遮挡的男女| 天堂中文最新版在线下载| 欧美xxxx性猛交bbbb| 日本与韩国留学比较| 成年av动漫网址| 18禁裸乳无遮挡动漫免费视频| h视频一区二区三区| 18禁在线播放成人免费| 久久女婷五月综合色啪小说| 在线免费十八禁| freevideosex欧美| 久久久久久人妻| 爱豆传媒免费全集在线观看| kizo精华| 亚洲成人手机| 欧美精品人与动牲交sv欧美| 蜜桃亚洲精品一区二区三区| 成人国产av品久久久| 99热这里只有是精品在线观看| 观看av在线不卡| 新久久久久国产一级毛片| 国产男女内射视频| 日韩国内少妇激情av| 能在线免费看毛片的网站| h视频一区二区三区| 一级二级三级毛片免费看| 成人免费观看视频高清| 国产一级毛片在线| 亚洲av成人精品一二三区| 亚洲人成网站高清观看| 国产精品精品国产色婷婷| 三级经典国产精品| 下体分泌物呈黄色| 五月伊人婷婷丁香| 亚洲第一av免费看| 在线观看美女被高潮喷水网站| 黄色日韩在线| 一本久久精品| 亚洲精品久久久久久婷婷小说| 18禁动态无遮挡网站| 免费不卡的大黄色大毛片视频在线观看| av视频免费观看在线观看| 国产av国产精品国产| 日本-黄色视频高清免费观看| 韩国av在线不卡| 日韩不卡一区二区三区视频在线| 成人一区二区视频在线观看| 少妇裸体淫交视频免费看高清| 成人亚洲欧美一区二区av| 水蜜桃什么品种好| 在线观看一区二区三区| 成人一区二区视频在线观看| 久久青草综合色| 精品熟女少妇av免费看| 日本黄色片子视频| 最近最新中文字幕免费大全7| 欧美变态另类bdsm刘玥| 91精品国产国语对白视频| 1000部很黄的大片| 欧美成人精品欧美一级黄| 丰满人妻一区二区三区视频av| 18+在线观看网站| 亚洲成人手机| 日韩一本色道免费dvd| 精品99又大又爽又粗少妇毛片| 久久人人爽人人爽人人片va| 亚洲最大成人中文| av不卡在线播放| av播播在线观看一区| 中文在线观看免费www的网站| 国产视频首页在线观看| 久久国产精品大桥未久av | a级一级毛片免费在线观看| 欧美zozozo另类| 永久免费av网站大全| 亚洲精品456在线播放app| 久久久久视频综合| 亚洲在久久综合| av不卡在线播放| 少妇人妻一区二区三区视频| 成人美女网站在线观看视频| 嫩草影院新地址| 一级毛片黄色毛片免费观看视频| 青春草国产在线视频| 我的女老师完整版在线观看| 午夜视频国产福利| 一区二区三区免费毛片| 汤姆久久久久久久影院中文字幕| 中文字幕人妻熟人妻熟丝袜美| 久久久久人妻精品一区果冻| 插逼视频在线观看| 啦啦啦啦在线视频资源| 国产精品人妻久久久影院| 亚洲在久久综合| 国产精品嫩草影院av在线观看| 亚洲天堂av无毛| 大又大粗又爽又黄少妇毛片口| 久久青草综合色| 永久免费av网站大全| 久久久久久久大尺度免费视频| 日韩中文字幕视频在线看片 | 我要看黄色一级片免费的| 街头女战士在线观看网站| 国产精品麻豆人妻色哟哟久久| 一级二级三级毛片免费看| 老司机影院毛片| 夜夜骑夜夜射夜夜干| 国产女主播在线喷水免费视频网站| 国产无遮挡羞羞视频在线观看| 国产一区亚洲一区在线观看| 久久久欧美国产精品| 天堂8中文在线网| 色综合色国产| a 毛片基地| 婷婷色综合大香蕉| 秋霞伦理黄片| 国模一区二区三区四区视频| 国产精品福利在线免费观看| 国产日韩欧美在线精品| 免费观看无遮挡的男女| 久久精品人妻少妇| 又爽又黄a免费视频| 免费av中文字幕在线| 色网站视频免费| 国产乱来视频区| 日韩三级伦理在线观看| 国产一区二区三区综合在线观看 | 3wmmmm亚洲av在线观看| 成人午夜精彩视频在线观看| 亚洲国产最新在线播放| 久久99精品国语久久久| 精品久久久噜噜| 91精品国产国语对白视频| 亚洲精品日韩在线中文字幕| 国产色爽女视频免费观看| 国产黄片视频在线免费观看| 国内少妇人妻偷人精品xxx网站| av线在线观看网站| 偷拍熟女少妇极品色| 1000部很黄的大片| 国产久久久一区二区三区| 亚洲av电影在线观看一区二区三区| 免费观看在线日韩| 中文字幕免费在线视频6| 国产高清国产精品国产三级 | 啦啦啦啦在线视频资源| 国产亚洲欧美精品永久| 网址你懂的国产日韩在线| 秋霞在线观看毛片| 亚洲自偷自拍三级| 亚洲色图av天堂| 国产精品一二三区在线看| 又粗又硬又长又爽又黄的视频| 看十八女毛片水多多多| 国产亚洲一区二区精品| 啦啦啦在线观看免费高清www| 国产黄片美女视频| 性色av一级| 有码 亚洲区| 九九在线视频观看精品| 特大巨黑吊av在线直播| 国产视频首页在线观看| 寂寞人妻少妇视频99o| 国产深夜福利视频在线观看| 国产精品女同一区二区软件| 91久久精品电影网| videos熟女内射| 久久97久久精品| 欧美精品人与动牲交sv欧美| 老师上课跳d突然被开到最大视频| 久久青草综合色|