• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大語言模型在中學(xué)歷史學(xué)科中的應(yīng)用測(cè)評(píng)分析

    2024-03-12 04:07:47申麗萍何朝帆曹東旭朱云彬吳永和
    現(xiàn)代教育技術(shù) 2024年2期
    關(guān)鍵詞:大語言模型教育應(yīng)用測(cè)評(píng)

    申麗萍 何朝帆 曹東旭 朱云彬 吳永和

    摘要:大語言模型一經(jīng)發(fā)布便獲得廣泛關(guān)注,但其在實(shí)際應(yīng)用特別是教育領(lǐng)域的應(yīng)用還存在諸多局限與挑戰(zhàn),因此需要對(duì)大語言模型在中文語境下的能力與風(fēng)險(xiǎn)進(jìn)行測(cè)評(píng)?;诖?,文章首先收集整理了一個(gè)包括10萬條客觀選擇題與10套中學(xué)主觀題測(cè)試卷的中學(xué)歷史數(shù)據(jù)集,并在以ChatGPT、GPT-4和訊飛星火為代表的大語言模型上測(cè)試了該數(shù)據(jù)集中題目的回答表現(xiàn)。然后,文章詳細(xì)分析了測(cè)試結(jié)果,發(fā)現(xiàn)雖然當(dāng)前大語言模型的突出能力在于能夠產(chǎn)生完整且流暢的表達(dá),但其在中學(xué)歷史知識(shí)測(cè)試中仍遠(yuǎn)低于適齡學(xué)生的平均水平,大語言模型應(yīng)用于教育領(lǐng)域仍存在可靠性較差、可信度較低、具有偏見與歧視、推理能力不足、無法自動(dòng)更新知識(shí)等問題。最后,文章針對(duì)大語言模型在中文語境下教育領(lǐng)域的應(yīng)用提出建議,以期助力大語言模型在教育領(lǐng)域發(fā)揮更大的作用,為學(xué)生、教師帶來更好的學(xué)習(xí)和教學(xué)體驗(yàn)。

    關(guān)鍵詞:大語言模型;ChatGPT;訊飛星火;教育應(yīng)用;測(cè)評(píng)

    【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2024)02—0062—10 【DOI】10.3969/j.issn.1009-8097.2024.02.007

    引言

    自2022年11月30日美國(guó)人工智能研究公司OpenAI發(fā)布生成式交互工具ChatGPT以來[1],生成式大語言模型(Large Language Models,LLM)迅速進(jìn)入主流,引起了前所未有的關(guān)注,國(guó)內(nèi)外各大AI科技巨頭也紛紛投入其中,相繼發(fā)布各自的LLM。LLM通過模擬人類的語言交流,進(jìn)行文本生成、代碼生成和圖像生成,深刻地影響著人類的生產(chǎn)生活方式,其應(yīng)用場(chǎng)景非常廣泛[2],包括問答功能、多語言潤(rùn)色與翻譯、教育功能、內(nèi)容概述等[3],可以幫助用戶提高工作效率、生活質(zhì)量和服務(wù)質(zhì)量,幫助企業(yè)提高客戶滿意度和忠誠(chéng)度、產(chǎn)品的競(jìng)爭(zhēng)力和市場(chǎng)占有率[4]。然而,在進(jìn)行實(shí)際應(yīng)用時(shí)LLM仍存在一些局限和挑戰(zhàn),其生成內(nèi)容包含較大的不可解釋性和不穩(wěn)定性,在安全、隱私和倫理方面也具有較大風(fēng)險(xiǎn),這引起了全球范圍內(nèi)的關(guān)注和擔(dān)憂。特別是在教育領(lǐng)域,以上局限會(huì)引發(fā)教育生態(tài)的潛在風(fēng)險(xiǎn),包括知識(shí)異化的風(fēng)險(xiǎn)、學(xué)生主體性異化的風(fēng)險(xiǎn)、教學(xué)過程異化的風(fēng)險(xiǎn)、數(shù)字倫理風(fēng)險(xiǎn)、數(shù)字教育治理風(fēng)險(xiǎn)等[5]。

    對(duì)此,美國(guó)教育部于2023年5月發(fā)布人工智能教育報(bào)告《人工智能與教學(xué)的未來》,指出針對(duì)當(dāng)前人工智能在教育領(lǐng)域的大規(guī)模應(yīng)用風(fēng)險(xiǎn)制定政策法規(guī)是當(dāng)務(wù)之急[6]。同年6月,全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育技術(shù)分技術(shù)委員會(huì)暨教育教育技術(shù)標(biāo)準(zhǔn)化委員會(huì)批準(zhǔn)成立“教育通用人工智能大模型”系列標(biāo)準(zhǔn)工作組,以制定相關(guān)框架、數(shù)據(jù)、測(cè)評(píng)和安全標(biāo)準(zhǔn),促進(jìn)我國(guó)可信、安全、高效、好用的教育通用人工智能大模型的發(fā)展。除了相關(guān)的政策制定,大量國(guó)內(nèi)外研究還對(duì)以ChatGPT為代表的LLM進(jìn)行了傳統(tǒng)自然語言任務(wù)和各種考試能力的測(cè)評(píng)[7][8],試圖量化LLM的應(yīng)用能力與風(fēng)險(xiǎn),但這些測(cè)評(píng)大多以英文為主,中文語境下教育領(lǐng)域的測(cè)評(píng)還相當(dāng)缺乏[9],其在中文語境下教育領(lǐng)域的測(cè)評(píng)效果與風(fēng)險(xiǎn)還有待驗(yàn)證。為此,本研究以中學(xué)歷史學(xué)科為例,通過收集整理超過10萬條客觀選擇題和10套中學(xué)主觀題測(cè)試卷的中學(xué)歷史數(shù)據(jù)集,對(duì)ChatGPT、GPT-4等LLM在歷史知識(shí)掌握、審題、主客觀答題等方面的能力進(jìn)行測(cè)評(píng)和比較,分析大語言模型在歷史學(xué)科中的應(yīng)用成效與不足,為其在中文語境下教育領(lǐng)域的實(shí)際應(yīng)用提供參考與指導(dǎo)。

    一 研究現(xiàn)狀

    當(dāng)前,ChatGPT、訊飛星火等一系列大語言模型在已有的公開自然語言數(shù)據(jù)集上都展現(xiàn)出了優(yōu)秀的甚至最好的結(jié)果[10]。然而,這類傳統(tǒng)數(shù)據(jù)集可能已不再適用于評(píng)估LLM或已被其用于訓(xùn)練,因此有大量研究者嘗試使用真實(shí)的人類考試題目對(duì)LLM進(jìn)行測(cè)評(píng)。例如,GPT-4參加了美國(guó)律師資格考試Uniform Bar Exam、法學(xué)院入學(xué)考試LSAT、美國(guó)高考SAT數(shù)學(xué)部分和閱讀與寫作考試等。在這些考試中,GPT-4的得分高于88%的人類應(yīng)試者[11]。但LLM也并非全能,其在一致性、錯(cuò)誤示例響應(yīng)以及邏輯推理等方面仍有待提高,如Borji[12]對(duì)ChatGPT的錯(cuò)誤進(jìn)行了全面分析,并總結(jié)出主要的錯(cuò)誤類型,包括推理邏輯混亂、事實(shí)錯(cuò)誤、數(shù)學(xué)與編碼能力較差和容易輸出偏見內(nèi)容等。

    隨著LLM在英文數(shù)據(jù)集上的評(píng)測(cè)已日趨成熟,其在中文數(shù)據(jù)集上的評(píng)測(cè)也逐漸進(jìn)入研究者的視野,如有研究者測(cè)試和對(duì)比了ChatGPT[13]、文心一言[14]、盤古[15]、WeLM[16]、LaMDA[17]在中文情感分析、自動(dòng)摘要、閱讀理解和閉卷問答上的性能表現(xiàn),并測(cè)評(píng)了ChatGPT在中文語境下的問答知識(shí)錯(cuò)誤和風(fēng)險(xiǎn),以及錯(cuò)誤混淆、事實(shí)不一致等諸多風(fēng)險(xiǎn),認(rèn)為ChatGPT在自然語言處理的經(jīng)典任務(wù)中表現(xiàn)較好,但在閉卷問答方面出現(xiàn)錯(cuò)誤的概率較高。此外,復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評(píng)估大語言模型語言理解能力和邏輯推理能力的測(cè)評(píng)框架GAOKAO-bench收集了2010~2022年全國(guó)高考卷的題目,但僅包括1781道客觀題和1030道主觀題。可見,LLM在中文語境下教育領(lǐng)域的測(cè)評(píng)仍然不足。

    二 研究設(shè)計(jì)

    為填補(bǔ)LLM中文教育領(lǐng)域測(cè)評(píng)研究匱乏的現(xiàn)狀,本研究嘗試通過中學(xué)歷史題測(cè)評(píng)多個(gè)大語言模型在教育領(lǐng)域的應(yīng)用能力與局限。

    1 測(cè)評(píng)數(shù)據(jù)集

    本研究從作業(yè)幫、百度題庫(kù)等知名教輔資料網(wǎng)站分別搜集了國(guó)內(nèi)中學(xué)歷史(包括初中和高中歷史)的客觀選擇題超過10萬條,并與來自上海不同知名中學(xué)的兩位資深初高中歷史老師開展深度合作,獲得原創(chuàng)初、高中試卷(以主觀題為主)各10套,形成了一個(gè)用于測(cè)評(píng)LLM的中學(xué)歷史數(shù)據(jù)集,具體如下:

    (1)客觀選擇題

    本研究首先從教輔資料網(wǎng)站分別獲取初、高中歷史客觀選擇題約10萬多條??紤]到ChatGPT僅支持純文本形式輸入,本研究刪除了帶圖片以及重復(fù)的題目,驗(yàn)證篩選了初中題目6萬多條和高中題目8萬多條(如表1所示),其中包含答案解析的初、高中題目分別有2萬多條、5萬多條。每個(gè)客觀選擇題包含問題描述、選項(xiàng)、正確答案、背景知識(shí)、題目解析(可選)等。其中,問題描述的長(zhǎng)度一般不會(huì)超過50個(gè)中文字符,選項(xiàng)一般包含4個(gè),且每個(gè)選項(xiàng)的長(zhǎng)度平均為10個(gè)中文字符??陀^選擇題主要通過判斷和引用歷史事實(shí)以及分類、判斷、總結(jié)考察大模型的知識(shí)儲(chǔ)備能力和邏輯推理能力。

    (2)主觀題

    本研究與上海兩所知名中學(xué)開展合作,分別設(shè)計(jì)了初中、高中歷史學(xué)科的測(cè)試卷各10套,篩選出初中題目41條,高中題目58條,共99條。每道主觀題一般提供4~5個(gè)相關(guān)材料,并圍繞材料和中學(xué)教育的知識(shí)點(diǎn)設(shè)計(jì)3個(gè)小題,以對(duì)大語言模型學(xué)習(xí)能力、知識(shí)掌握能力、材料閱讀和知識(shí)歸納概括能力進(jìn)行綜合量化測(cè)評(píng)。

    2 測(cè)評(píng)方法

    本研究設(shè)計(jì)了一種人機(jī)協(xié)作測(cè)評(píng)方法,如圖1所示。其中,客觀選擇題主要基于微調(diào)模型和LLM進(jìn)行自動(dòng)評(píng)測(cè),主觀題主要基于專家進(jìn)行評(píng)估。

    (1)客觀選擇題測(cè)評(píng)方法

    對(duì)于客觀選擇題,其答案確定并唯一,只需判斷模型是否輸出了正確選項(xiàng),因此針對(duì)這種題型可采用簡(jiǎn)單、高效的大規(guī)模自動(dòng)測(cè)評(píng)。由于目前還無法訪問GPT-4和訊飛星火的API,因此本研究只測(cè)試了ChatGPT的答題情況,并針對(duì)答題準(zhǔn)確率進(jìn)行統(tǒng)計(jì)和分析。考慮到生成式大語言模型無法對(duì)歷史學(xué)科數(shù)據(jù)集進(jìn)行訓(xùn)練或微調(diào),本研究將它與深度學(xué)習(xí)預(yù)訓(xùn)練-微調(diào)語言模型(Bert、Roberta、T5)進(jìn)行比較。例如,本研究使用歷史客觀選擇題數(shù)據(jù)集作為一項(xiàng)分類任務(wù)微調(diào)預(yù)訓(xùn)練語言模型,使其將題目選項(xiàng)作為分類標(biāo)簽,對(duì)比其與大語言模型在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。

    另外,本研究希望進(jìn)行更有啟發(fā)性的實(shí)驗(yàn),使大語言模型更好地應(yīng)用于中文教育領(lǐng)域,因此進(jìn)行了知識(shí)融合的測(cè)試,即在提問中添加相關(guān)的知識(shí)點(diǎn),以測(cè)評(píng)大語言模型在給定相關(guān)知識(shí)情況下的理解能力是否有提升。

    由于生成式語言模型的本質(zhì)仍然是概率模型,因此即使輸入相同,每次生成的輸出也可能完全不同。如果模型每次生成的答案都一樣,那么模型對(duì)該答案的確信度就是100%?;诖硕x,本研究進(jìn)行了大語言模型對(duì)答案確信度的分析,即多次相同輸入的多數(shù)決采樣測(cè)試,來判斷ChatGPT答案的隨機(jī)性或確信度。

    (2)主觀題測(cè)評(píng)方法

    不同于客觀選擇題的自動(dòng)測(cè)評(píng),主觀題由專業(yè)老師進(jìn)行評(píng)閱和打分。主觀題同時(shí)測(cè)試ChatGPT和New Bing/GPT-4的性能,從以下五個(gè)方面進(jìn)行評(píng)分:

    ①得分率,即該題的分?jǐn)?shù),評(píng)價(jià)方式與批改學(xué)生試卷一致。

    ②知識(shí)點(diǎn)完整性(踩點(diǎn)率),即回答覆蓋標(biāo)準(zhǔn)答案的給分點(diǎn)數(shù)量。

    ③史實(shí)錯(cuò)誤率,即回答中是否存在歷史事實(shí)和知識(shí)點(diǎn)的錯(cuò)誤。

    ④邏輯合理性,即回答是否清晰易懂、邏輯是否合理,而與回答的正確性無關(guān)。

    ⑤語言自然通順性,即語言表達(dá)是否自然通順,是否符合中文的表達(dá)習(xí)慣,是否存在語法、拼寫等方面的錯(cuò)誤。

    除此之外,ChatGPT、New Bing/GPT-4以及訊飛星火分別參加了初、高中在校生的一次模擬考試。閱卷時(shí),教師知道哪些是LLM完成的試卷,但并不知道具體由哪一個(gè)模型完成,以此測(cè)評(píng)ChatGPT、New Bing/GPT-4和訊飛星火的答題能力及其對(duì)應(yīng)的學(xué)生層次。

    三 研究結(jié)果與分析

    1 客觀選擇題的結(jié)果

    根據(jù)上述測(cè)評(píng)方法,本研究對(duì)比了LLM與預(yù)訓(xùn)練-微調(diào)模型在歷史客觀選擇題上的測(cè)試結(jié)果,即Bert、Roberta、T5、ChatGPT在1000條歷史客觀選擇題上的測(cè)試結(jié)果,如表2所示。其中,預(yù)訓(xùn)練模型結(jié)果中同時(shí)給出了使用微調(diào)(w/ finetune)和不使用微調(diào)(w/o finetune)的結(jié)果。微調(diào)數(shù)據(jù)集使用總數(shù)據(jù)集中篩選出不包含1000條測(cè)試集的約8萬個(gè)樣本。由表2的測(cè)試結(jié)果可知,在不經(jīng)過訓(xùn)練的情況下,ChatGPT的參數(shù)量最多,且表現(xiàn)最佳:在初中題目上有超過60%的正確率,在高中題目上也有高于50%的正確率,平均正確率約為57%。用歷史客觀選擇題對(duì)Bert、Roberta、T5三個(gè)模型進(jìn)行微調(diào)之后,Bert、Roberta幾乎沒有提升,T5的準(zhǔn)確率大幅提高,平均達(dá)到75.63%。

    融合知識(shí)是將相關(guān)知識(shí)直接添加到提問中用于輔助大語言模型作答,包括詳細(xì)的題目解析和題目背景兩種知識(shí)。表3是ChatGPT對(duì)兩種知識(shí)融合方式在初、高中各1000題上的測(cè)試結(jié)果,可以看出:在提問時(shí)增加一定的相關(guān)知識(shí)會(huì)提高ChatGPT的性能,特別是在融合詳細(xì)題目解析時(shí),初中客觀選擇題的正確率從62.9%提升到了91.7%,高中客觀選擇題的正確率從50.1%提升到了68.5%。

    表4展示了ChatGPT回答確信度的測(cè)試結(jié)果。本研究對(duì)初、高中各500題分別進(jìn)行三次相同輸入,結(jié)果表明三次生成答案相同的分別只有54.8%、42.4%;其中,回答正確的占比更低,高中題目中ChatGPT回答的三次生成答案相同且回答正確的僅占三成。可見,ChatGPT的答案生成還不夠穩(wěn)定,其確信度還有待提高。

    2 主觀題的結(jié)果

    除客觀選擇題外,本研究還同時(shí)對(duì)ChatGPT和New Bing/GPT-4針對(duì)初、高中試卷主觀題的答題能力進(jìn)行了評(píng)測(cè)。由于評(píng)閱初中卷和高中卷的老師不同,兩者的主觀題試卷難度并沒有可比性,因此本研究主要關(guān)注同一年級(jí)試卷中ChatGPT和New Bing/GPT-4模型的結(jié)果對(duì)比情況,并進(jìn)行了分析。

    ChatGPT與GPT-4主觀題的測(cè)試結(jié)果如表5所示,可以看出:ChatGPT與New Bing/GPT-4在答題得分率上的表現(xiàn)皆不盡如人意。雖然GPT-4的得分率在初中水平測(cè)試中獲得了大幅的提升,但踩點(diǎn)率相比于ChatGPT卻下降了很多,這也體現(xiàn)了New Bing/GPT-4在答題上的保守性(在保證正確率的前提下再豐富作答角度)。在史實(shí)錯(cuò)誤率上,New Bing/GPT-4得益于聯(lián)網(wǎng)搜索和更完善的模型,相較于ChatGPT有更加精確的史料引用能力,錯(cuò)誤率大大降低,這也直接提升了New Bing/GPT-4邏輯推導(dǎo)的合理性。兩個(gè)模型的邏輯合理性和語言自然通順性都達(dá)到了較高的水平,能包含基本的論點(diǎn)、論據(jù)和結(jié)論,以對(duì)材料進(jìn)行較強(qiáng)的總結(jié)和記憶,并通順、自然地表達(dá)觀點(diǎn)。

    3 模擬考試的結(jié)果

    為了測(cè)評(píng)大型語言模型的答題能力是否與適齡學(xué)生相當(dāng),本研究選用三個(gè)大語言模型——ChatGPT、New Bing/GPT-4、訊飛星火,在完全相同的環(huán)境下分別面向初、高中學(xué)生開展模擬考試,其成績(jī)與排名如圖2所示。其中,圖2(a)為初中卷得分分布統(tǒng)計(jì)表,縱軸表示分?jǐn)?shù),滿分30分;橫軸表示按分?jǐn)?shù)高低排序后的學(xué)生序號(hào)。圖2(b)為高中卷得分分布統(tǒng)計(jì)表,縱軸表示分?jǐn)?shù),滿分100分;橫軸表示按分?jǐn)?shù)高低排序后的學(xué)生序號(hào)。

    由圖2可知,ChatGPT、New Bing/GPT-4、訊飛星火在初中卷的得分情況比較接近,而高中卷中New Bing/GPT-4的成績(jī)遙遙領(lǐng)先于ChatGPT和訊飛星火。但遺憾的是,三者的整體排名相對(duì)比較靠后,在初中共137位被測(cè)者(134位被測(cè)學(xué)生與3個(gè)被測(cè)模型)中,三個(gè)模型的排名分別為:New Bing/GPT-4、ChatGPT排名122,訊飛星火排名128;而在高中89位被測(cè)者(86位被測(cè)學(xué)生與3個(gè)被測(cè)模型)中,三個(gè)模型的排名分別為:New Bing/GPT-4排名60、ChatGPT排名84、訊飛星火排名86。

    4 討論與分析

    從以上結(jié)果可知,當(dāng)前LLM的突出優(yōu)勢(shì)在于其能夠產(chǎn)生完整且流暢的表達(dá),且語法和寫作能力已接近甚至超過人類的平均水平,但在中學(xué)歷史知識(shí)測(cè)試中仍然遠(yuǎn)遠(yuǎn)低于適齡學(xué)生的平均水平,并低于微調(diào)后的中型預(yù)訓(xùn)練生成模型。本次測(cè)評(píng)結(jié)果反映了LLM存在易輸出偏見內(nèi)容、不可靠性、低可信度、邏輯推理能力不足、數(shù)據(jù)具有時(shí)限性等問題,大模型典型錯(cuò)誤案例如表6所示。

    ①偏易輸出偏見內(nèi)容。LLM訓(xùn)練數(shù)據(jù)的全球性,從根本上決定了其價(jià)值觀不可能與我國(guó)社會(huì)的主流價(jià)值觀完全一致。例如,針對(duì)表6的問題1,ChatGPT的回答是維護(hù)人權(quán),GPT-4的回答是支持科索沃獨(dú)立,而正確答案應(yīng)為加強(qiáng)對(duì)巴爾干的控制。

    ②不可靠性。在測(cè)試的99個(gè)主觀歷史題目中,ChatGPT的38條回答出現(xiàn)了不同程度的歷史事實(shí)錯(cuò)誤或史實(shí)捏造。例如,針對(duì)表6的問題2,GPT-4和ChatGPT都無法正確回答“兩彈一星”具體所指的內(nèi)容,正確答案應(yīng)為原子彈、導(dǎo)彈、人造衛(wèi)星。

    ③低可信度。在對(duì)500道高中客觀選擇題進(jìn)行三次相同輸入,ChatGPT回答的三次生成答案相同的比例約占42.4%,其中只有30%的答案相同且回答正確,如表4所示??梢?,ChatGPT的答案生成還不夠穩(wěn)定,其確信度還有待提高。

    ④邏輯推理能力不足。雖然GPT-4表現(xiàn)了比ChatGPT、訊飛星火更強(qiáng)的推理能力,但與本研究合作的上海知名中學(xué)的兩位歷史老師認(rèn)為,對(duì)于歷史學(xué)科而言,GPT-4的很多回答并沒有聚焦核心史實(shí)的論證,也較少聯(lián)系材料,雖然其能夠辯證地看待觀點(diǎn)分析的題目,但是缺乏對(duì)深層次觀點(diǎn)的關(guān)注和論證。例如,針對(duì)表6的問題3,ChatGPT忽略了“導(dǎo)致清朝北洋艦隊(duì)全軍覆沒的戰(zhàn)役”和“威海衛(wèi)戰(zhàn)役”之間的強(qiáng)關(guān)聯(lián)。

    ⑤數(shù)據(jù)具有時(shí)限性。LLM的知識(shí)完全來源于所訓(xùn)練的數(shù)據(jù),它無法感知世界,無法自動(dòng)更新知識(shí),因此無法回答超出訓(xùn)練數(shù)據(jù)截止日期之后的事件和知識(shí)。例如,針對(duì)表6的問題4,ChatGPT和GPT-4明確表示無法回答2021年9月之后的事件;訊飛星火訓(xùn)練數(shù)據(jù)的截止日期未知,也同樣無法回答2022年11月11日的事件。

    四 總結(jié)與建議

    本研究以中學(xué)歷史學(xué)科為例,探討了大語言模型在教育領(lǐng)域的應(yīng)用能力與存在的局限,通過收集整理超過10萬條題目的中學(xué)歷史客觀測(cè)試數(shù)據(jù)集和原創(chuàng)初、高中主觀題試卷,在以ChatGPT、GPT-4和訊飛星火為代表的LLM模型上進(jìn)行了大量實(shí)驗(yàn)和分析。結(jié)果表明,當(dāng)前LLM的突出能力在于其能夠產(chǎn)生完整且流暢的表達(dá),其語法和寫作能力已接近甚至超過人類平均水平,但在中學(xué)歷史知識(shí)測(cè)試中仍然遠(yuǎn)遠(yuǎn)低于適齡學(xué)生的平均水平,在知識(shí)儲(chǔ)備、邏輯推理等方面還存在提升空間。在教育領(lǐng)域,LLM出色的文本生成能力,可以用于學(xué)生的學(xué)習(xí)和教師的輔助教學(xué),因此在應(yīng)用時(shí)應(yīng)該趨利避害,用積極的批判態(tài)度去擁抱代表更高生產(chǎn)力的新技術(shù)。針對(duì)LLM在中文語境下教育領(lǐng)域的應(yīng)用,本研究提出以下建議:

    ①學(xué)生方面,可以合理利用LLM提供的建議、思路或提示,但不建議完全照搬大語言模型的輸出結(jié)果。特別是對(duì)于低年級(jí)、低齡段的學(xué)生,大量的生成文本會(huì)含有冗余或完全錯(cuò)誤的內(nèi)容,甚至?xí)怀鲋形鞣絻r(jià)值觀的差異,這些都非常容易誤導(dǎo)學(xué)生,使其在學(xué)習(xí)過程中產(chǎn)生疑惑。因此,學(xué)生在使用LLM進(jìn)行學(xué)習(xí)的過程中要學(xué)會(huì)運(yùn)用批判性思維,分辨是非曲直。對(duì)此,大模型是一個(gè)非常好的對(duì)話工具,能夠循循善誘地為學(xué)生答疑解惑,提供引導(dǎo)式的學(xué)習(xí)體驗(yàn)和跨學(xué)科知識(shí)的支持。

    ②教師方面,需盡可能發(fā)揮LLM的輔助教學(xué)作用。在99道主觀題中,ChatGPT在8個(gè)回答中正確引用了超出課本的知識(shí)和史料記載等,因此可以在教學(xué)過程中將其作為輔助的教學(xué)材料,對(duì)課堂教學(xué)進(jìn)行補(bǔ)充。在能夠判斷大語言模型的回答是否正確的前提下,使用大語言模型進(jìn)行批判性的知識(shí)索引和審查可以提高教師的教學(xué)水平。其中,GPT-4的理論性更強(qiáng),答題的正確率較高,因此可以提供更多的教學(xué)和解題思路。此外,大模型具有強(qiáng)大的語言理解和生成能力,可以幫助教師進(jìn)行作文批改,從而為學(xué)生提供個(gè)性化的分析與指導(dǎo),實(shí)現(xiàn)對(duì)學(xué)生的因材施教。

    ③科研人員方面,解決LLM存在的諸多局限和問題是重要的研究任務(wù)。教育是特殊的應(yīng)用領(lǐng)域,具有知識(shí)準(zhǔn)確性、意識(shí)形態(tài)正確性、過程可解釋性等要求。要達(dá)到這樣的目標(biāo)還有大量的工作尚待完成,如獲取特定的學(xué)科相關(guān)訓(xùn)練數(shù)據(jù)、融合學(xué)科知識(shí)圖譜、保護(hù)用戶隱私數(shù)據(jù)、去除有害的或存在偏見的內(nèi)容等。當(dāng)前科研人員亟須解決LLM存在的諸多局限和問題,探索數(shù)字教育與智能教育的新范式,通過構(gòu)建可控、可信、安全、綠色、好用、高效的教育通用人工智能大模型,建立有教育溫度、以育人為本的人工智能及其智能教育環(huán)境,才能更好地賦能、賦智教育,推進(jìn)教育數(shù)字化發(fā)展。

    ④管理人員方面,需要制定相應(yīng)的政策和標(biāo)準(zhǔn),規(guī)范LLM功能、框架、數(shù)據(jù)和評(píng)測(cè)標(biāo)準(zhǔn),防止LLM在教育產(chǎn)品中的濫用。雖然對(duì)于LLM在中文語境下教育領(lǐng)域應(yīng)用的研究正在不斷推進(jìn),但是如何保證應(yīng)用過程中的規(guī)范性同樣重要,這就需要管理人員針對(duì)LLM的相關(guān)使用規(guī)則做出明確規(guī)定,引導(dǎo)正確的研究和應(yīng)用方向,從而推動(dòng)構(gòu)建適應(yīng)未來世界的教育模式,形成“思維比知道重要、問題比答案重要、邏輯比羅列重要”的學(xué)習(xí)評(píng)價(jià)新思維[18]。

    綜上所述,LLM在中文語境下教育領(lǐng)域的應(yīng)用既面臨挑戰(zhàn),也有較大的發(fā)展?jié)摿ΑMㄟ^解決模型的不足,不斷優(yōu)化模型,并與教育大數(shù)據(jù)對(duì)齊,可以讓大模型才能更好地賦能、賦智教育。期待大語言模型在教育領(lǐng)域發(fā)揮更大的作用,為學(xué)生和教師帶來更好的學(xué)習(xí)與教學(xué)體驗(yàn)。

    參考文獻(xiàn)

    [1]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022,35:27730-27744.

    [2]Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT-4[OL].

    [3]Park J S, OBrien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[A]. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology[C]. 2023:1-22.

    [4]Eloundou T, Manning S, Mishkin P, et al. GPTs are GPTs: An early look at the labor market impact potential of large language models[OL].

    [5][9][13]張華平,李林翰,李春錦.ChatGPT中文性能測(cè)評(píng)與風(fēng)險(xiǎn)應(yīng)對(duì)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,(3):16-25.

    [6]US Department of Education. AI and the future of teaching and learning: Insights and recommendations[OL].

    [7][10]Zhao W X, Zhou K, Li J, et al. A survey of large language models[OL].

    [8]Nunes D, Primi R, Pires R, et al. Evaluating GPT-3.5 and GPT-4 models on Brazilian university admission exams[OL]. .

    [11]OpenAI. GPT-4 technical report[OL].

    [12]Zeng W, Ren X, Su T, et al. Pangu-α: Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

    [14]Wang S, Sun Y, Xiang Y, et al. Ernie 3.0 titan: Exploring larger-scale knowledge enhanced pre-training for language understanding and generation[OL].

    [15]Zeng W, Ren X, Su T, et al. Pangu-α: Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

    [16]Su H, Zhou X, Yu H, et al. Welm: A well-read pre-trained language model for Chinese[OL].

    [17]Thoppilan R, De Freitas D, Hall J, et al. Lamda: Language models for dialog applications[OL].

    [18]沈書生,祝智庭.ChatGPT類產(chǎn)品:內(nèi)在機(jī)制及其對(duì)學(xué)習(xí)評(píng)價(jià)的影響[J].中國(guó)遠(yuǎn)程教育,2023,(4):8-15.

    Evaluation and Analysis of Large Language Models Application in of Historical Discipline Middle Schools

    Abstract: Large language models (LLMs) have received wide attention since its release, while there are still many limitations and challenges in their practical application, especially in the field of education. Therefore, it is necessary to evaluate the capability and risk of LLMs in the Chinese context. Based on this, this paper firstly collected and sorted out a historical dataset for middle school students including more than 100,000 objective multiple choice questions and 10 sets of subjective questions, and tested the answer performances of the questions in the data set of the LLMs represented by ChatGPT, GPT-4 and IFLYTEK Spark. Then, the paper analyzed the test results in detail and found that although the outstanding ability of the current LLMs lay in its ability to produce complete and fluent expression, and its performance in the history knowledge test of middle school was still far below the average level of school-age students.

    The application of LLMs in education still had some problems: such as poor reliability, low credibility, prejudice and discrimination, insufficient reasoning ability and inability to update knowledge automatically. Finally, some suggestions were proposed for the application of LLMs in the field of education in the Chinese context, in order to help LLMs play a greater role in the educational field and bring better learning and teaching experience for students and teachers.

    Keywords: large language models, ChatGPT, IFLYTEK Spark, education applicational, evaluation and analysis

    猜你喜歡
    大語言模型教育應(yīng)用測(cè)評(píng)
    ChatGPT技術(shù)原理及未來影響研究
    財(cái)務(wù)共享服務(wù)中心的大語言模型應(yīng)用探究
    人工智能需要“靈魂”嗎
    生成式人工智能的教育應(yīng)用與展望
    談?dòng)?jì)算機(jī)多媒體技術(shù)在中等職業(yè)教育中的應(yīng)用
    測(cè)評(píng)一款LED成像燈
    演藝科技(2016年11期)2016-12-24 18:26:11
    解析一款LED燈具
    演藝科技(2016年4期)2016-11-16 07:32:57
    西藏職業(yè)技術(shù)學(xué)院學(xué)生綜合素質(zhì)測(cè)評(píng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    社會(huì)治安防控體系建設(shè)中的公民參與度測(cè)評(píng)研究
    商(2016年30期)2016-11-09 11:04:38
    游戲教學(xué)法在幼兒教育中的應(yīng)用
    考試周刊(2016年71期)2016-09-20 07:15:03
    丝袜在线中文字幕| 成人亚洲欧美一区二区av| 男的添女的下面高潮视频| 中文欧美无线码| 欧美少妇被猛烈插入视频| 国产精品久久久久成人av| 国产深夜福利视频在线观看| 在线精品无人区一区二区三| 边亲边吃奶的免费视频| 免费av中文字幕在线| 亚洲精品日本国产第一区| 女的被弄到高潮叫床怎么办| 国产又爽黄色视频| 欧美人与善性xxx| 欧美精品一区二区大全| 午夜久久久在线观看| 亚洲av免费高清在线观看| 国产日韩欧美亚洲二区| 日本-黄色视频高清免费观看| 国产成人91sexporn| 日韩成人av中文字幕在线观看| av不卡在线播放| 亚洲伊人色综图| 美女中出高潮动态图| 香蕉丝袜av| 99热网站在线观看| 国产精品久久久久成人av| 久久久国产欧美日韩av| 免费看不卡的av| 人人妻人人爽人人添夜夜欢视频| 男女边摸边吃奶| 最近最新中文字幕免费大全7| 午夜久久久在线观看| 午夜激情久久久久久久| 少妇高潮的动态图| 亚洲人成网站在线观看播放| 欧美激情极品国产一区二区三区 | 亚洲av欧美aⅴ国产| 亚洲熟女精品中文字幕| 亚洲伊人久久精品综合| 一级片'在线观看视频| 国产亚洲欧美精品永久| 国产成人精品久久久久久| 亚洲av中文av极速乱| 26uuu在线亚洲综合色| 五月玫瑰六月丁香| 国产精品女同一区二区软件| 成人无遮挡网站| 在线免费观看不下载黄p国产| 内地一区二区视频在线| 男人添女人高潮全过程视频| 亚洲,欧美,日韩| 国产精品久久久久久久电影| 久久这里只有精品19| 91在线精品国自产拍蜜月| 亚洲av综合色区一区| 午夜福利,免费看| 国产精品偷伦视频观看了| 亚洲情色 制服丝袜| 黄网站色视频无遮挡免费观看| 在线观看一区二区三区激情| 精品国产一区二区三区久久久樱花| 日本wwww免费看| 啦啦啦中文免费视频观看日本| 曰老女人黄片| a级片在线免费高清观看视频| 亚洲精品自拍成人| 最近中文字幕高清免费大全6| 国产成人欧美| 女人久久www免费人成看片| 91午夜精品亚洲一区二区三区| 亚洲伊人久久精品综合| 成人无遮挡网站| 欧美成人精品欧美一级黄| 在线观看免费视频网站a站| 人体艺术视频欧美日本| 免费久久久久久久精品成人欧美视频 | 大片免费播放器 马上看| 纯流量卡能插随身wifi吗| 人妻 亚洲 视频| freevideosex欧美| 青青草视频在线视频观看| 丝袜脚勾引网站| 青春草视频在线免费观看| 国产成人91sexporn| 性色avwww在线观看| 久久久久久久亚洲中文字幕| 亚洲一区二区三区欧美精品| 日本av手机在线免费观看| 中文字幕免费在线视频6| 国产精品一区二区在线观看99| 如日韩欧美国产精品一区二区三区| 啦啦啦在线观看免费高清www| 美女内射精品一级片tv| 亚洲三级黄色毛片| 香蕉国产在线看| xxxhd国产人妻xxx| 亚洲av在线观看美女高潮| 99视频精品全部免费 在线| 成人国语在线视频| 99热这里只有是精品在线观看| 日韩在线高清观看一区二区三区| 国产有黄有色有爽视频| 看非洲黑人一级黄片| 亚洲 欧美一区二区三区| 成年av动漫网址| 国产av码专区亚洲av| 久久久久视频综合| 国产亚洲一区二区精品| 插逼视频在线观看| 天堂中文最新版在线下载| 看非洲黑人一级黄片| 天美传媒精品一区二区| 欧美xxxx性猛交bbbb| 国产精品久久久av美女十八| 欧美日本中文国产一区发布| av网站免费在线观看视频| 少妇人妻久久综合中文| 亚洲欧美日韩卡通动漫| 亚洲精品456在线播放app| 尾随美女入室| 男女边摸边吃奶| 国产精品欧美亚洲77777| 国产老妇伦熟女老妇高清| 亚洲国产毛片av蜜桃av| 香蕉丝袜av| 精品久久蜜臀av无| 国产精品嫩草影院av在线观看| 日本91视频免费播放| 日韩,欧美,国产一区二区三区| 亚洲av中文av极速乱| 日韩av免费高清视频| 热99国产精品久久久久久7| 欧美成人午夜免费资源| 在线精品无人区一区二区三| 国产女主播在线喷水免费视频网站| 免费在线观看黄色视频的| 亚洲欧洲精品一区二区精品久久久 | 飞空精品影院首页| 另类亚洲欧美激情| 男女啪啪激烈高潮av片| 日韩三级伦理在线观看| 亚洲成人手机| 婷婷色av中文字幕| 中国美白少妇内射xxxbb| 欧美日韩精品成人综合77777| 美国免费a级毛片| 免费少妇av软件| 狠狠婷婷综合久久久久久88av| 最新中文字幕久久久久| 免费观看无遮挡的男女| 久久久a久久爽久久v久久| 一级,二级,三级黄色视频| 黄色怎么调成土黄色| 国产亚洲精品第一综合不卡 | 一二三四中文在线观看免费高清| 国产精品一二三区在线看| 日韩成人伦理影院| 免费播放大片免费观看视频在线观看| 日韩欧美精品免费久久| 久久久久久人妻| 国产精品一区二区在线观看99| 国产成人精品婷婷| 男人舔女人的私密视频| 久久免费观看电影| 亚洲成人手机| 宅男免费午夜| 一级毛片 在线播放| 熟女人妻精品中文字幕| 久久精品aⅴ一区二区三区四区 | 精品酒店卫生间| 如日韩欧美国产精品一区二区三区| 亚洲欧美中文字幕日韩二区| 久久久国产欧美日韩av| 人体艺术视频欧美日本| 草草在线视频免费看| 午夜福利视频精品| 熟妇人妻不卡中文字幕| 久久久久久久久久人人人人人人| 亚洲精品国产色婷婷电影| 纯流量卡能插随身wifi吗| 寂寞人妻少妇视频99o| 黑人猛操日本美女一级片| a 毛片基地| 久久久欧美国产精品| 人人妻人人澡人人看| 女性被躁到高潮视频| 亚洲成av片中文字幕在线观看 | 男女边吃奶边做爰视频| 伊人久久国产一区二区| 国产 一区精品| 午夜福利影视在线免费观看| 亚洲欧美成人精品一区二区| 一级,二级,三级黄色视频| 多毛熟女@视频| 欧美成人午夜精品| av.在线天堂| 久久热在线av| 亚洲国产毛片av蜜桃av| 国产国语露脸激情在线看| 亚洲国产精品成人久久小说| 成人亚洲精品一区在线观看| av一本久久久久| 老熟女久久久| 一级毛片黄色毛片免费观看视频| 亚洲内射少妇av| 飞空精品影院首页| 免费高清在线观看视频在线观看| 国产老妇伦熟女老妇高清| 国产在线视频一区二区| 男女高潮啪啪啪动态图| 欧美亚洲日本最大视频资源| 久久久国产精品麻豆| 国产激情久久老熟女| 中文字幕制服av| 中文天堂在线官网| 天堂8中文在线网| 色94色欧美一区二区| 熟女电影av网| 自拍欧美九色日韩亚洲蝌蚪91| 精品一区二区三区视频在线| 国产在线免费精品| 黑人欧美特级aaaaaa片| 亚洲丝袜综合中文字幕| 少妇的丰满在线观看| 国产无遮挡羞羞视频在线观看| 在线天堂最新版资源| 又粗又硬又长又爽又黄的视频| 色婷婷久久久亚洲欧美| 另类亚洲欧美激情| 婷婷色综合大香蕉| 在线观看免费高清a一片| 十八禁高潮呻吟视频| 18在线观看网站| 午夜老司机福利剧场| 亚洲成av片中文字幕在线观看 | 亚洲国产精品一区三区| 熟妇人妻不卡中文字幕| 高清在线视频一区二区三区| 国产 一区精品| 曰老女人黄片| 永久网站在线| 久久 成人 亚洲| 赤兔流量卡办理| 最近最新中文字幕免费大全7| 另类精品久久| 汤姆久久久久久久影院中文字幕| 大片免费播放器 马上看| 日韩电影二区| 视频在线观看一区二区三区| 国产综合精华液| 日本欧美视频一区| 日韩一本色道免费dvd| av在线播放精品| 午夜视频国产福利| 十分钟在线观看高清视频www| 久久精品久久久久久久性| 亚洲成人av在线免费| 综合色丁香网| 国产日韩欧美亚洲二区| 欧美精品一区二区大全| 日韩成人av中文字幕在线观看| 乱人伦中国视频| 伊人亚洲综合成人网| 亚洲高清免费不卡视频| 少妇高潮的动态图| 成人漫画全彩无遮挡| 青春草视频在线免费观看| 午夜免费鲁丝| av在线app专区| 国产 一区精品| 九色亚洲精品在线播放| 国产免费一级a男人的天堂| 99久久综合免费| 在线精品无人区一区二区三| 夫妻午夜视频| 秋霞伦理黄片| 久久久久久伊人网av| 在线免费观看不下载黄p国产| 99re6热这里在线精品视频| 亚洲美女视频黄频| 男女国产视频网站| 国产色爽女视频免费观看| 久久精品国产自在天天线| 免费黄色在线免费观看| 久久久亚洲精品成人影院| 99久久精品国产国产毛片| 国产精品.久久久| 国产日韩一区二区三区精品不卡| 日韩制服丝袜自拍偷拍| 日韩一本色道免费dvd| 欧美人与性动交α欧美软件 | av电影中文网址| 亚洲国产日韩一区二区| 免费观看性生交大片5| videos熟女内射| 在线观看免费日韩欧美大片| 51国产日韩欧美| 大香蕉久久网| 色哟哟·www| 黑人巨大精品欧美一区二区蜜桃 | 国产69精品久久久久777片| 国产av精品麻豆| 日日爽夜夜爽网站| 国产精品国产av在线观看| 五月伊人婷婷丁香| 大香蕉97超碰在线| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 美女国产视频在线观看| 亚洲精品国产av蜜桃| 日本与韩国留学比较| 国产精品一区www在线观看| 国产一区二区激情短视频 | 校园人妻丝袜中文字幕| 深夜精品福利| 综合色丁香网| 国产在线视频一区二区| 一区二区三区四区激情视频| 久久久久久久亚洲中文字幕| 精品久久久久久电影网| 久久精品国产亚洲av天美| 中文字幕人妻熟女乱码| 国产精品一区www在线观看| 黄色一级大片看看| 亚洲av福利一区| 成人二区视频| 免费观看a级毛片全部| a级毛色黄片| 男女边摸边吃奶| 97人妻天天添夜夜摸| 永久网站在线| av女优亚洲男人天堂| 亚洲欧美一区二区三区黑人 | 国产日韩欧美在线精品| 亚洲精品色激情综合| 精品亚洲成a人片在线观看| 菩萨蛮人人尽说江南好唐韦庄| 三上悠亚av全集在线观看| 国产 一区精品| 欧美3d第一页| 亚洲熟女精品中文字幕| 欧美日韩亚洲高清精品| 日韩不卡一区二区三区视频在线| 亚洲国产精品国产精品| 国产成人91sexporn| 亚洲图色成人| 色吧在线观看| 少妇精品久久久久久久| 国产成人精品婷婷| 久久婷婷青草| 婷婷色综合大香蕉| 51国产日韩欧美| 国产精品 国内视频| 9热在线视频观看99| 午夜福利网站1000一区二区三区| 97人妻天天添夜夜摸| 亚洲成色77777| 人人澡人人妻人| 高清视频免费观看一区二区| 亚洲av电影在线观看一区二区三区| 国产精品人妻久久久久久| www.熟女人妻精品国产 | 国精品久久久久久国模美| 91精品三级在线观看| 观看美女的网站| 91精品三级在线观看| 日本av手机在线免费观看| 亚洲久久久国产精品| 欧美日韩视频高清一区二区三区二| 国产毛片在线视频| 免费大片18禁| 国产一区二区激情短视频 | 在线观看人妻少妇| 啦啦啦在线观看免费高清www| 日韩视频在线欧美| www.熟女人妻精品国产 | 精品卡一卡二卡四卡免费| 看免费成人av毛片| 搡老乐熟女国产| 美女中出高潮动态图| 亚洲内射少妇av| 免费少妇av软件| 亚洲国产av影院在线观看| 亚洲伊人色综图| www.色视频.com| 精品人妻一区二区三区麻豆| 在线观看三级黄色| 亚洲人成网站在线观看播放| 久久人人爽av亚洲精品天堂| 黄色一级大片看看| 人妻人人澡人人爽人人| 国产女主播在线喷水免费视频网站| 9热在线视频观看99| 日韩av不卡免费在线播放| 99热全是精品| 欧美日韩精品成人综合77777| 国产爽快片一区二区三区| 亚洲人成77777在线视频| 午夜免费鲁丝| 亚洲av电影在线进入| 精品国产国语对白av| 大陆偷拍与自拍| 一本久久精品| 中文天堂在线官网| 久久精品久久久久久久性| 亚洲天堂av无毛| 成年av动漫网址| 美女国产视频在线观看| av在线app专区| 一区在线观看完整版| 麻豆精品久久久久久蜜桃| 香蕉国产在线看| 纯流量卡能插随身wifi吗| 搡女人真爽免费视频火全软件| 精品人妻一区二区三区麻豆| 高清av免费在线| 国产成人午夜福利电影在线观看| xxxhd国产人妻xxx| 国产av精品麻豆| 国产精品嫩草影院av在线观看| 精品人妻偷拍中文字幕| 国产黄色视频一区二区在线观看| 大陆偷拍与自拍| 2021少妇久久久久久久久久久| 国产成人精品无人区| 久久久久国产精品人妻一区二区| av播播在线观看一区| 中文字幕制服av| 亚洲av男天堂| 国产xxxxx性猛交| 亚洲一级一片aⅴ在线观看| 亚洲图色成人| 久久久国产一区二区| 午夜视频国产福利| 亚洲 欧美一区二区三区| 免费av不卡在线播放| 又黄又粗又硬又大视频| 久久97久久精品| 国产免费现黄频在线看| 色婷婷久久久亚洲欧美| 欧美亚洲 丝袜 人妻 在线| 国产精品蜜桃在线观看| 日日撸夜夜添| 人妻 亚洲 视频| 观看美女的网站| 亚洲成色77777| 久久精品久久精品一区二区三区| 97超碰精品成人国产| 中国国产av一级| 在线观看免费视频网站a站| 少妇的丰满在线观看| 久久这里有精品视频免费| 777米奇影视久久| 亚洲国产精品国产精品| 亚洲国产精品专区欧美| 亚洲精品久久成人aⅴ小说| 搡老乐熟女国产| 国产在线免费精品| 老司机亚洲免费影院| 婷婷色麻豆天堂久久| 18禁动态无遮挡网站| 亚洲国产精品专区欧美| 日韩欧美一区视频在线观看| 少妇的丰满在线观看| 亚洲欧美色中文字幕在线| 免费久久久久久久精品成人欧美视频 | 肉色欧美久久久久久久蜜桃| 99热全是精品| 久久国产精品大桥未久av| 在线观看免费高清a一片| 九草在线视频观看| 久久99热这里只频精品6学生| 18禁国产床啪视频网站| 国产国拍精品亚洲av在线观看| 伊人久久国产一区二区| 国产精品秋霞免费鲁丝片| 99久久人妻综合| 亚洲伊人久久精品综合| 老熟女久久久| 精品一区二区三区四区五区乱码 | 边亲边吃奶的免费视频| 婷婷成人精品国产| 国产精品国产三级国产av玫瑰| 国产午夜精品一二区理论片| 少妇猛男粗大的猛烈进出视频| 日本免费在线观看一区| 青春草国产在线视频| 亚洲国产av影院在线观看| 国产淫语在线视频| 久久99热这里只频精品6学生| 国产有黄有色有爽视频| 麻豆精品久久久久久蜜桃| 精品一区二区三区四区五区乱码 | 久久免费观看电影| 中文字幕免费在线视频6| 亚洲av福利一区| 亚洲,欧美,日韩| 欧美日韩国产mv在线观看视频| 母亲3免费完整高清在线观看 | 少妇精品久久久久久久| 两个人看的免费小视频| 国产熟女欧美一区二区| 99热6这里只有精品| 日韩不卡一区二区三区视频在线| 在线观看免费视频网站a站| 夫妻午夜视频| 欧美老熟妇乱子伦牲交| 综合色丁香网| 女性生殖器流出的白浆| 水蜜桃什么品种好| 人人妻人人澡人人看| 成年女人在线观看亚洲视频| 啦啦啦中文免费视频观看日本| 久久人妻熟女aⅴ| 在线观看www视频免费| 一级毛片 在线播放| 97超碰精品成人国产| 精品国产国语对白av| 亚洲激情五月婷婷啪啪| 丝瓜视频免费看黄片| 黑人猛操日本美女一级片| 国产白丝娇喘喷水9色精品| 国产 精品1| 日韩人妻精品一区2区三区| 黄网站色视频无遮挡免费观看| 日本vs欧美在线观看视频| 国产又色又爽无遮挡免| 丰满少妇做爰视频| 大香蕉久久成人网| 丝袜喷水一区| 久久综合国产亚洲精品| 成年美女黄网站色视频大全免费| 丝袜脚勾引网站| 大香蕉久久成人网| 亚洲少妇的诱惑av| 久久午夜综合久久蜜桃| 在线天堂最新版资源| 久久久精品区二区三区| 日韩三级伦理在线观看| 日本黄色日本黄色录像| 亚洲欧美中文字幕日韩二区| 视频区图区小说| 赤兔流量卡办理| 久久精品久久精品一区二区三区| 夫妻性生交免费视频一级片| 色5月婷婷丁香| 国产精品久久久久成人av| 午夜av观看不卡| 成人综合一区亚洲| 一二三四中文在线观看免费高清| 久久久久久久久久久久大奶| 精品99又大又爽又粗少妇毛片| √禁漫天堂资源中文www| av有码第一页| 99热6这里只有精品| 亚洲av.av天堂| 尾随美女入室| 色婷婷久久久亚洲欧美| 国产精品偷伦视频观看了| 纯流量卡能插随身wifi吗| 国产成人免费观看mmmm| 国产色爽女视频免费观看| 精品久久国产蜜桃| 国产成人一区二区在线| 国产成人免费无遮挡视频| 天堂中文最新版在线下载| 如何舔出高潮| 免费久久久久久久精品成人欧美视频 | 婷婷色综合大香蕉| 久久精品aⅴ一区二区三区四区 | 少妇人妻精品综合一区二区| 桃花免费在线播放| 国产探花极品一区二区| 黄色视频在线播放观看不卡| 亚洲国产精品专区欧美| 欧美+日韩+精品| 久久久久网色| 日韩不卡一区二区三区视频在线| 日韩在线高清观看一区二区三区| 国产精品久久久久成人av| 中文字幕人妻熟女乱码| 国产午夜精品一二区理论片| 亚洲欧美清纯卡通| 五月伊人婷婷丁香| 亚洲人成网站在线观看播放| 婷婷色综合www| 99香蕉大伊视频| 日韩欧美一区视频在线观看| 日韩欧美精品免费久久| 69精品国产乱码久久久| 91成人精品电影| 在线观看国产h片| 九九在线视频观看精品| 亚洲欧美日韩另类电影网站| 亚洲伊人久久精品综合| 91精品三级在线观看| 国产成人aa在线观看| 99久久中文字幕三级久久日本| 免费看光身美女| 51国产日韩欧美| 爱豆传媒免费全集在线观看| 大香蕉久久网| 99热这里只有是精品在线观看| 午夜激情久久久久久久| 国产男女超爽视频在线观看| 婷婷色av中文字幕| 久久久精品94久久精品| 午夜福利在线观看免费完整高清在| 三上悠亚av全集在线观看| 中国国产av一级| 纵有疾风起免费观看全集完整版| 日日啪夜夜爽| 精品少妇久久久久久888优播| 91午夜精品亚洲一区二区三区| 久久久久久久亚洲中文字幕|