• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大模型在高等教育中的應用:大模型寫作輔助能力測評

    2024-12-31 00:00:00尹珺瑤
    電化教育研究 2024年9期
    關(guān)鍵詞:高等教育

    [摘" "要] 大規(guī)模語言模型引發(fā)了高等教育領(lǐng)域的深層變革。研究基于人—技關(guān)系理論,聚焦人文社會學科研究生學位論文寫作輔助場景,構(gòu)建包含知識、邏輯和應用能力三大維度15項任務的能力框架,及包含2,990道題項的測試數(shù)據(jù)集,以ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat為樣本模型進行寫作輔助能力測評。研究發(fā)現(xiàn):大模型在人文社會學科學位論文寫作輔助場景下表現(xiàn)出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發(fā)展?jié)摿?,Qwen-72B-Chat在高等教育與科研垂類表現(xiàn)較好。研究針對大模型在科研方法、社會關(guān)系和因果關(guān)系三方面的不足,探索了有效的補充指令改進策略,從學習者、研發(fā)者、管理者和研究者視角提出了建議,以科學規(guī)范與指引學生的技術(shù)行為,推動高等教育與科研垂類大模型的建設。

    [關(guān)鍵詞] 高等教育; 學位論文; 寫作輔助能力; 大模型測評; 人—技關(guān)系理論

    [中圖分類號] G434" " " " " " [文獻標志碼] A

    [作者簡介] 尹珺瑤(1997—),女,湖北武漢人。博士研究生,主要從事教育經(jīng)濟與管理、高等教育研究。E-mail:648204413@qq.com。

    一、引" "言

    數(shù)智時代,以ChatGPT為代表的大規(guī)模語言模型(以下簡稱“大模型”)在自然語言處理領(lǐng)域已經(jīng)展現(xiàn)出驚人的通用能力和應用潛力,引發(fā)了高等教育領(lǐng)域的深層變革,發(fā)展學生與人工智能協(xié)作共處的智慧,規(guī)范人工智能技術(shù)在高等教育領(lǐng)域的應用勢在必行[1]。學位論文寫作是高等教育人才培養(yǎng)的“最后一公里”,大模型已被學生廣泛應用于輔助學位論文資料檢索、校對、潤色等方面[2],但由于學生缺乏科學的大模型寫作能力測評結(jié)果作為參考和指引,加劇了學術(shù)精神異化與學術(shù)不端風險,這一風險性在人文社會學科領(lǐng)域尤其明顯[3]。探析人文社會學科學位論文寫作場景中的大模型作為輔助工具的能力邊界,對于科學引導、監(jiān)管與規(guī)范學位論文寫作中的人工智能技術(shù)使用行為,降低技術(shù)濫用引發(fā)的人才培養(yǎng)質(zhì)量風險而言至關(guān)重要。

    “技術(shù)之所是,包含著技術(shù)為之效力的各種需要和目的”,基于人的需求和實踐的技術(shù)才有意義[4]。在海德格爾觀點的基礎(chǔ)上,伊德提出“人—技關(guān)系”理論,將人技關(guān)系視作包含具身關(guān)系、解釋學關(guān)系、他者關(guān)系和背景關(guān)系的連續(xù)統(tǒng)[5],適應具體情境需求的技術(shù)具身是技術(shù)變革與人技關(guān)系發(fā)展的理想目標與必然趨勢[6]。評估和發(fā)展大模型滿足具體情境需求的能力,對于推動人技關(guān)系走向技術(shù)具身而言至關(guān)重要。教育場景中的大模型能力測評研究逐年增多,EduNLP團隊針對K12教育發(fā)布首個CALM-EDU評測框架與報告,從教學知識、學生發(fā)展與內(nèi)容知識三個維度評估各模型在教育領(lǐng)域的綜合性能,組織了ChatGPT教學能力診斷[7],為模型評測框架與數(shù)據(jù)集構(gòu)建提供了一定參考。為彌補當前大模型能力測評研究在高等教育垂類以及在具體科研輔助應用任務中的空白,聚焦人文社會學科學位論文寫作輔助場景下的大模型能力,構(gòu)建具有更細粒度的大模型學位論文寫作輔助能力評測框架與數(shù)據(jù)集,評估樣本模型在高等教育垂類的任務表現(xiàn),并探尋模型問題與改進策略,對于高等教育與人文社會科學研究場景下的垂類大模型應用與發(fā)展有重要價值。

    二、研究設計

    (一)研究方法與樣本選擇

    針對相同場景、相同度量下的標準化模型評估,國內(nèi)外多所研究機構(gòu)已構(gòu)建了較成熟的大模型能力評測框架與數(shù)據(jù)集,形成了系統(tǒng)評測結(jié)果[8],為研究設計與樣本模型選擇提供了一定的指引和參照。2023年7月,上海人工智能實驗室推出了開源大型模型評估平臺OpenCompass,評估范圍涵蓋學科、語言、知識、理解和推理五個維度[9],能夠全面評估大型模型的能力,提供了一種全面成體系的評測范式。仿照OpenCompass的評測任務設置,自主構(gòu)建測評數(shù)據(jù)集,并實現(xiàn)了自動化評測,得到了可靠的結(jié)果。

    樣本模型的選取綜合考慮代表性與可得性,參考開源大型模型評估平臺OpenCompass在語言、知識、推理等維度的模型排行,以及大模型領(lǐng)域的主流評測任務MMLU[10]、C-Eval[11]和GSM8K[12]上的表現(xiàn),我們選取OpenAI在2022年11月發(fā)布的ChatGPT(GPT-3.5-Turbo),以及阿里云通義千問對話模型Qwen-Chat系列中的Qwen-72B-Chat與Qwen-14B-Chat作為樣本模型。其中,ChatGPT代表國外大模型的領(lǐng)先水平,可付費用于學術(shù)研究;Qwen-72B-Chat作為國內(nèi)最大參數(shù)規(guī)模的開源大語言模型,其數(shù)學邏輯、意圖理解與通用知識能力在基線測評排行中表現(xiàn)突出,代表中文大模型的前沿水平;Qwen-14B-Chat開源且運算成本較低,在各大基線測評中其通用能力顯著超出同規(guī)模模型,代表高可控與高性價比。

    為實現(xiàn)規(guī)?;尚磐评恚诠皆瓌t,開源對話模型Qwen-72B-chat和Qwen-14B-chat的評測運行于8張A100-SXM4-80G GPU,基于PyTorch 2.1.0和Cuda 11.8的環(huán)境,vLLM 0.2.2高速推理框架,完成了樣本模型在人文社會學科學位論文寫作輔助任務上的能力評測;而對于閉源的ChatGPT,選用基于API(GPT-3.5-Turbo)的模型推理方式,公平地完成了相同人文社會學科學位論文寫作輔助任務設置上的能力評測?;谠u測結(jié)果的差異分析,對特定問題進行補測與個案分析,有助于探究大模型在真實應用場景中存在的問題與改進策略。

    (二)研究過程

    研究過程大致分為四個階段:

    第一階段,搭建研究框架。圍繞學位論文輔助工具能力的內(nèi)涵與要素,對教育領(lǐng)域與人工智能領(lǐng)域?qū)<议_展結(jié)構(gòu)化訪談。訪談文本資料共詞分析結(jié)果顯示,大模型等人工智能技術(shù)作為學位論文寫作輔助工具的能力要素大致劃分為:規(guī)范論文寫作、查找知識信息和提供多樣表達三類。在此基礎(chǔ)上,綜合OpenCompass提出的大模型通用能力框架與C-Eval、MMLU等大規(guī)模基線評測任務內(nèi)容,將研究框架劃分為知識型能力、邏輯型能力與應用型能力三大維度,每個維度包含5個二級指標,共計15個指標(見表1)。

    2.問題設計主要根據(jù)各項指標測試的實際需要,由于各項指標測試難度存在差異,故對應的問題數(shù)量不完全相同。

    第二階段,設計測試問題?;谘芯靠蚣埽垏鴥?nèi)3位人工智能領(lǐng)域?qū)<遗c9位教育領(lǐng)域?qū)<裔槍γ總€維度中的5個二級指標進行問題設計。在參考OpenCompass框架,結(jié)合C-Eval、MMLU等基線測評數(shù)據(jù)庫,中國國家公務員考試、普通高等學校招生全國統(tǒng)一考試與全國碩士研究生統(tǒng)一招生考試等大型權(quán)威考試真題庫的基礎(chǔ)上,課題組專門針對人文社會學科學位論文寫作場景,經(jīng)過多輪試測與評估,反復修訂題目內(nèi)容與表述方式,設計了包含2,990道單項選擇題的測試數(shù)據(jù)集。值得強調(diào)的是,相較于現(xiàn)有的通用能力評測數(shù)據(jù)集,本研究所構(gòu)建的垂類測評數(shù)據(jù)集聚焦人文社會學科學位論文寫作輔助具體場景下的大模型能力表現(xiàn),對具體任務進行了更細粒度的劃分,問題設計更加突顯專業(yè)性和應用性,測評結(jié)果在人文社會學科學位論文寫作輔助應用場景下更有參考價值。

    第三階段,對樣本模型進行準確性測試。對樣本模型ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat在15項任務上進行測試訓練并統(tǒng)計結(jié)果,以各項任務的準確率為該模型人文社會學科學位論文寫作輔助能力的代理變量。

    第四階段,針對特定問題進行追加補測與個案分析。在真實應用場景下,提供更詳細的補充信息和更具體的指令要求能夠提高大模型的輔助能力。通過模擬學位論文寫作輔助真實場景下的開放問答,對準確性測試階段出現(xiàn)的特定錯題進行追問,發(fā)現(xiàn)樣本模型在實際應用中存在的問題并從補充指令的角度探究改進路徑。

    最終,基于第三、四階段研究結(jié)果的分析,形成研究結(jié)論并提出討論與建議。

    三、研究結(jié)果

    (一)整體描述

    從模型能力得分情況來看,在三個樣本模型中,Qwen-72B-Chat的學位論文輔助能力最強,整體準確率達到81%,各維度能力準確率均高于70%;其次是Qwen-14B-Chat,準確率為71%;ChatGPT的學位論文輔助能力最弱,準確率僅48%(見表2)。整體上,Qwen-72B-Chat具備更強的人文社會學科學位論文輔助能力。經(jīng)檢驗,樣本模型在知識型能力、邏輯型能力和應用型能力三個維度上準確性得分與整體準確性得分具有一致性,表明測試數(shù)據(jù)集具有較好的魯棒性,準確性測評得分能夠代表大模型人文社會學科學位論文輔助能力水平。

    從模型能力得分分布來看,三個樣本模型的能力得分分布均較離散。其中,Qwen-72B-Chat的離散程度最低,標準差仍可達0.12,大模型的學位論文輔助能力建設均衡性有待提升。經(jīng)檢驗,樣本模型能力分布狀況基本一致,排除了數(shù)據(jù)集對得分平衡性的內(nèi)生干擾,能力得分分布情況能夠體現(xiàn)大模型人文社會學科學術(shù)論文輔助能力建設的均衡性。

    從各維度得分情況來看,ChatGPT在應用型能力維度上表現(xiàn)較好,擅長根據(jù)指令處理文本內(nèi)容,但相較于OpenCompass框架內(nèi)其他通用任務測評結(jié)果,ChatGPT在學位論文寫作輔助這一具體任務上的知識型能力和邏輯型能力表現(xiàn)欠佳。Qwen-72B-Chat與Qwen-14B-Chat在知識型能力與應用型能力維度上表現(xiàn)更好,邏輯型能力相對較差。綜合而言,在學位論文寫作輔助場景下,大模型具備的知識能力與應用能力能夠滿足學生資料收集、論文潤色等基本需要,但在信息不充分的情況下,大模型難以準確理解和分析人文社會科學研究中復雜的邏輯關(guān)系,輔助學位論文寫作的邏輯能力還存在很大提升空間。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的邏輯能力問題與改進路徑。

    (二)差異分析

    通過對15項具體指標在模型內(nèi)部和模型之間的能力差異進行分析,分別比較樣本模型在各維度具體任務上的表現(xiàn)(如圖1所示)。經(jīng)檢驗,樣本模型的具體指標得分與在所屬維度上的能力表現(xiàn)具有一致性,說明數(shù)據(jù)集問題匹配任務的穩(wěn)健性較高,測評結(jié)果能夠較客觀地反映模型能力。

    1. 模型內(nèi)部能力差異分析

    ChatGPT的學位論文寫作輔助能力整體較弱,有12項指標準確率低于60%。其中,應用型能力相對較強,文意理解指標準確率達到80%;邏輯能力維度上的歸納推理與演繹推理指標準確率僅有22%和26%。ChatGPT雖然在一定程度上能夠理解輸入內(nèi)容的含義,但缺乏邏輯關(guān)系的理解能力和邏輯問題的解決能力,人文社會科學研究相關(guān)知識掌握不足。在人文社會學科學位論文寫作輔助場景下,ChatGPT仍存在許多不足,在缺少充足信息補充的情況下使用ChatGPT輔助學位論文寫作的風險性較高。

    Qwen-72B-Chat的學位論文寫作輔助能力整體較強,有11項指標準確率不低于80%。其中,知識型與應用型能力維度的指標準確率大體在80%以上,其中有政策知識、歷史知識與文意理解指標準確率高于90%,邏輯型能力維度的概念判斷指標準確率接近100%,但邏輯型能力維度的其余4項指標相對偏弱,演繹、類比和常識推理的準確率僅64%、63%和69%,歸納推理的準確率僅54%。Qwen-72B-Chat能夠為學位論文寫作提供相對豐富和準確的知識資料,對人文社會科學研究內(nèi)容的理解和抽象概括的能力較強,病句糾錯、同義改寫等論文寫作規(guī)范應用的效果相對更好,但該模型在解決社會關(guān)系問題上的邏輯推理能力有待提升。

    Qwen-14B-Chat的學位論文寫作輔助能力處于中等水平,有4項指標準確率低于60%。其中,應用型能力相對較強,標題概括、中心提煉、文意理解和同義改寫任務的準確率均高于80%;但邏輯型能力相對較弱,歸納、演繹、類比和常識推理任務的準確率均低于53%。Qwen-14B-Chat能夠為學位論文寫作提供一定的相關(guān)史實與社會信息,能夠幫助學生規(guī)范論文寫作格式與語言表達,但該模型的邏輯推理能力暫時無法滿足輔助人文社會科學研究的基本需要。

    2. 模型間能力差異分析

    知識型能力維度測評結(jié)果如圖2所示。測評結(jié)果表明,Qwen-72B-Chat在學科知識、政策知識、歷史知識和文化知識指標得分最高,準確率在80%~91%之間;Qwen-14B-Chat在社會知識指標得分最高,準確率達89%;ChatGPT在5項指標上都表現(xiàn)得相對較弱,準確率均低于60%。相對而言,Qwen-72B-Chat所提供的學科知識、政策知識、歷史知識和文化知識更加準確、可信,Qwen-14B-Chat所提供的社會信息資訊更加可靠??傮w而言,大模型為人文社會科學研究者提供了一條更加便捷的資料搜集渠道,但無法保障知識信息的科學性,特別是對于中國歷史與中華傳統(tǒng)文化相關(guān)知識掌握不足,難以提供準確的文化知識信息。

    邏輯型能力維度測評結(jié)果如圖3所示。測評結(jié)果表明,Qwen-72B-Chat在各指標上處于領(lǐng)先,其中,概念判斷任務準確率接近100%,而另外4項準確率僅60%左右,未達到該模型平均水平;Qwen-14B-Chat的概念判斷任務得分達68%,其余4項指標的準確率僅50%左右;ChatGPT在5項指標上都表現(xiàn)得相對更弱,5項指標準確率均不高于50%。相對而言,Qwen-72B-Chat在人文社會學科學位論文寫作輔助場景中理解邏輯關(guān)系和解決邏輯問題的各項能力位于領(lǐng)先水平。總體而言,在人文社會學科學位論文寫作輔助場景下,大模型能夠抽象出事物的共同本質(zhì)特征并推廣到同類事物上,但歸納、演繹、類比和常識推理能力有很大提升空間,特別是從個別性知識推導出一般性結(jié)論的歸納推理能力難以滿足人文社會學科研究在發(fā)現(xiàn)和分析社會規(guī)律方面的內(nèi)在需求。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的歸納推理邏輯能力問題與改進路徑。

    應用型能力維度測評結(jié)果如圖4所示。測評結(jié)果表明,Qwen-72B-Chat在5項指標上都表現(xiàn)得更好,準確率不低于83%,其中文意理解能力指標準確率高達92%;Qwen-14B-Chat和Qwen-72B-Chat在標題概括上的準確率均為86%,5項指標的準確率均高于77%;ChatGPT在5項指標上都表現(xiàn)得相對更弱,大部分指標準確率低于70%。相對而言,Qwen-72B-Chat滿足人文社會學科學位論文規(guī)范性相關(guān)應用需求的能力位于領(lǐng)先水平??傮w而言,大模型能夠理解和判斷輸入文本的含義,能夠滿足學生在應用層面的學位論文輔助需求,但同義改寫指標準確率相對較低,利用大模型修改論文措辭有可能造成論文原意變化。

    (三)問題分析與改進策略

    由前所述,歸納推理能力是當前大模型人文社會學科學位論文輔助能力發(fā)展的薄弱環(huán)節(jié)??紤]到Qwen-72B-Chat的人文社會學科學位論文輔助能力相對最強,邏輯能力位于領(lǐng)先水平,故選取Qwen-72B-Chat作為個案模型,以其歸納推理測試錯題為原型,追加問答題補測,剖析其在歸納推理任務上的具體問題并探究有利于完善模型能力的補充指令。

    通過對Qwen-72B-Chat在歸納推理任務上的所有錯題進行追加多輪問答補測,發(fā)現(xiàn)主要存在:人文社會科學研究方法掌握不足;基本社會關(guān)系識別存在偏誤;復雜因果關(guān)系推斷不準確三方面問題,分別選擇歸納推理任務中的第21、44和46題作為典型案例進行問題分析。

    1. 研究方法掌握不足

    形成科學且清晰的研究方法和思路是人文社會學科學位論文的基本要求,但Qwen-72B-Chat作為輔助工具,對人文社會科學研究方法掌握不足,通過細化提問內(nèi)容的補充指令能夠有效改進這一問題。具體補測記錄如下① 。

    測試者(Q1):一位社會學家對兩組青少年作了研究。第一組成員每周看有暴力內(nèi)容的影視的時間平均不少于10小時;第二組則不多于2小時。結(jié)果發(fā)現(xiàn)第一組成員中舉止粗魯者所占的比例遠高于第二組。因此,此項研究認為,多看有暴力內(nèi)容的影視容易導致青少年舉止粗魯。以下哪項如果為真 ,將質(zhì)疑上述研究的結(jié)論?

    A.第一組中有的成員的行為并不粗魯 。

    B.第二組中有的成員的行為比第一組有的成員粗魯。

    C.第一組中有的成員的文明行為是父母從小教育的結(jié)果,這使得他們能抵制暴力影視的不良影響。

    D.第一組成員中很多成員的粗魯舉止是從小養(yǎng)成的,這使得他們特別愛看暴力影視。

    Qwen-72B-Chat(A1):選項C指出第一組中有的成員的文明行為是父母從小教育的結(jié)果,這使得他們能抵制暴力影視的不良影響。這個選項提供了一個可能的原因,說明第一組成員中的舉止粗魯者所占的比例較高,并不一定是因為看了更多的暴力影視。選項D雖然提到了第一組成員愛看暴力影視,但它并沒有解釋為什么第一組成員中的舉止粗魯者所占的比例較高。

    測試者(Q2):一項社會學研究根據(jù)每周看暴力影視的平均時長將青少年分為兩組,第一組為每周看暴力影視的平均時長不少于10小時的青少年;第二組為每周看暴力影視的平均時長不多于2小時的青少年。對比這兩組青少年的粗魯行為,發(fā)現(xiàn)第一組舉止粗魯者所占的比例遠高于第二組。據(jù)此,提出研究結(jié)論:多看有暴力內(nèi)容的影視容易導致青少年舉止粗魯。以下哪項如果為真,最能質(zhì)疑上述研究結(jié)論?(選項同Q1)

    Qwen-72B-Chat(A2):選項D最能質(zhì)疑上述研究結(jié)論。因為第一組成員中很多成員的粗魯舉止是從小養(yǎng)成的,這使得他們特別愛看暴力影視,也就是說,是先有粗魯舉止,后有多看暴力影視,而不是多看暴力影視導致了青少年舉止粗魯。因此,這個研究結(jié)論可能是因果倒置的結(jié)果。

    根據(jù)A1回答推斷,Qwen-72B-Chat缺乏社會實驗抽樣分組的基本常識。通過補充指令Q2進一步明確研究分組的具體過程以及兩組青少年之間的關(guān)系,在此基礎(chǔ)上重新提問,Qwen-72B-Chat輸出了正確答案。

    綜上所述,大模型對社會科學研究方法、技術(shù)和過程的相關(guān)知識掌握不足,需要警惕其對于研究結(jié)果解釋和描述上的偏誤。在利用大模型輔助學位論文寫作時,利用補充指令細化提問內(nèi)容,盡可能詳細、清晰地描述研究技術(shù)路線與操作流程,在一定程度上能夠幫助大模型準確理解研究的思路和過程,輸出符合邏輯的答案。

    2. 社會關(guān)系識別存在偏誤

    厘清社會關(guān)系是人文社會科學研究的基本前提,但Qwen-72B-Chat對基本社會關(guān)系的識別存在偏誤,通過提供先驗條件的補充指令能夠有效改進這一問題。具體補測記錄如下。

    測試者(Q1):專家說:“最近,大學X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了。這說明X專業(yè)崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶??

    A.X專業(yè)領(lǐng)域沒有足夠的崗位。

    B.現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了。

    C.在過去的10年里,X專業(yè)領(lǐng)域的工作崗位增加了許多。

    D.許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作。

    Qwen-72B-Chat(A1):分析專家的看法:X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了,因此得出結(jié)論X專業(yè)崗位不受歡迎。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與專家的結(jié)論無關(guān);B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與專家的結(jié)論相反,可以削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與專家的結(jié)論無關(guān)。綜上所述,本題答案選C。

    測試者(Q2):如果Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。根據(jù)此參考范例,再次回答上題。

    Qwen-72B-Chat(A2):根據(jù)提供的參考范例,某專業(yè)工作崗位的減少會導致有意愿在該專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與提供的條件一致;B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與提供的條件無關(guān)。綜上所述,本題答案選A。

    根據(jù)A1輸出答案可以推斷,Qwen-72B-Chat并未意識到除了父母離異外,父母其中一方去世也是單親家庭形成的原因之一。通過第二輪補測加以修正,補充指令Q2輸入內(nèi)容在追加了“父母離婚和父母其中一方去世都會導致孩子成為單親兒童”這一社會關(guān)系解釋作為補充條件后,Qwen-72B-Chat輸出了正確答案。

    綜上所述,在利用大模型輔助學位論文寫作時,需要警惕其對于社會關(guān)系理解和判斷失誤。利用補充指令為大模型提供研究相關(guān)主體及社會關(guān)系的基本邏輯解釋作為先驗條件與參考依據(jù),在一定程度上提高了大模型對于社會關(guān)系判斷的準確性,有助于激發(fā)大模型的學位論文寫作輔助能力。

    3. 因果推斷不準確

    因果推斷是人文社會研究的重要思路之一,人文社會科學研究的意義在于深刻剖析復雜因果關(guān)系,但Qwen-72B-Chat對人文社會科學研究中復雜因果關(guān)系的推斷不準確,通過提供參考范例的補充指令能夠有效改進這一問題。具體補測記錄如下。

    測試者(Q1):專家說:“最近,大學X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了。這說明X專業(yè)崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶ǎ?/p>

    A.X專業(yè)領(lǐng)域沒有足夠的崗位。

    B.現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了。

    C.在過去的10年里,X專業(yè)領(lǐng)域的工作崗位增加了許多。

    D.許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作。

    Qwen-72B-Chat(A1):分析專家的看法:X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了,因此得出結(jié)論X專業(yè)崗位不受歡迎。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與專家的結(jié)論無關(guān);B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與專家的結(jié)論相反,可以削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與專家的結(jié)論無關(guān)。綜上所述,本題答案選C。

    測試者(Q2):如果Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。根據(jù)此參考范例,再次回答上題。

    Qwen-72B-Chat(A2):根據(jù)提供的參考范例,某專業(yè)工作崗位的減少會導致有意愿在該專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與提供的條件一致;B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與提供的條件無關(guān)。綜上所述,本題答案選A。

    A1輸出答案顯示,Qwen-72B-Chat判斷,X專業(yè)不受歡迎導致X專業(yè)畢業(yè)生去其他專業(yè)崗位就業(yè),這是一個單向因果關(guān)系,X專業(yè)崗位數(shù)量的變動僅被理解為因果關(guān)系作用的結(jié)果,并未認識到X專業(yè)崗位數(shù)量變動與X專業(yè)畢業(yè)生去其他專業(yè)崗位就業(yè)之間存在雙向因果關(guān)系。通過第二輪試測進行驗證和改進,補充指令Q2輸入在追加了“Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)”這一相同因果關(guān)系的參考范例作為補充條件后,Qwen-72B-Chat輸出了正確答案。

    綜上所述,在利用大模型輔助學位論文寫作時,需要批判地看待其對于因果關(guān)系的推斷結(jié)論。利用補充指令為大模型提供研究中基本的因果關(guān)系與歸因邏輯作為前提條件,在一定程度上能夠提高大模型因果關(guān)系推理的準確性,激發(fā)大模型能力以更好滿足學生的學位論文寫作的需要。

    四、結(jié)論與建議

    (一)研究結(jié)論

    綜合來看,大模型在人文社會學科學位論文寫作輔助場景下表現(xiàn)出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發(fā)展?jié)摿?,豐富、準確的補充指令能夠有效激發(fā)大模型能力。為進一步推動大模型教育與科研能力發(fā)展,將進一步探究高等教育與人文社會科學研究輔助場景下的大模型補充指令使用策略與技巧作為下一階段研究的重點。

    具體而言,大模型的通用知識數(shù)據(jù)庫為人文社會科學研究提供更便捷的信息獲取渠道,其所具備的概念判斷和文意理解能力為質(zhì)性文本分析技術(shù)提供創(chuàng)新選擇,在收集資料、規(guī)范寫作和方法創(chuàng)新上起到一定的輔助作用。另一方面,大模型作為學位論文寫作輔助工具的各項能力還存在很大提升空間,其輸出內(nèi)容的嚴謹性、準確性暫未達到學位論文寫作輔助的要求,邏輯能力問題突出,具體表現(xiàn)為:對人文社會科學研究方法掌握不足,對基本社會關(guān)系識別存在偏誤,對復雜因果關(guān)系推斷不準確。通過細化輸入內(nèi)容、提供先驗條件、提供參考范例等形式的補充指令能夠有效激發(fā)大模型能力。

    在三個樣本模型中,Qwen-72B-Chat的人文社會學科學位論文輔助能力位于領(lǐng)先水平,ChatGPT表現(xiàn)相對較弱。產(chǎn)生這一結(jié)果的原因可能在于,Qwen-Chat系列模型在中文語言背景測試中具有一定優(yōu)勢,使用的預訓練數(shù)據(jù)類型覆蓋多語言,并且使用中文偏好的SFT和RLHF實現(xiàn)對齊。CLEVA等基線測評排名也證實了Qwen-Chat系列模型在理解與執(zhí)行中文指令的能力上更勝一籌[13]。

    事實上,目前僅有極少數(shù)業(yè)界領(lǐng)先的大模型具備人文社會學科學位論文輔助能力,且其本地部署門檻和運行成本較高,例如,Qwen-72B-Chat在本研究測評過程中需要運行于8張A100-SXM4-80G GPU,暫不適用于日常場景。而樣本模型Qwen-14B-Chat本地部署成本僅需Qwen-72B-Chat的八分之一,其測評結(jié)果對于考量當前日常場景中所接觸的大模型能力表現(xiàn)而言更有參考價值。除了本地部署的方式以外,伴隨大模型的產(chǎn)品化和商業(yè)模式創(chuàng)新,基于API調(diào)用的使用方式和基于token數(shù)量的計費方式將更加適應低成本的日常使用場景,大模型作為日常科研輔助工具的部署成本將逐漸降低。

    (二)討論與建議

    為實現(xiàn)人與技術(shù)的相互作用與形塑,需從多主體視角出發(fā),深入、全面剖析大模型輔助寫作場景下的多元人技關(guān)系,探討高等教育領(lǐng)域人技關(guān)系走向常態(tài)化技術(shù)具身的可行路徑。

    從學習者視角來看,應有意識地培養(yǎng)創(chuàng)造力與批判性思維等高階思維,提升問題意識,學習和訓練大模型使用中的提示語組織技巧。一方面,有意識地培養(yǎng)創(chuàng)造力、批判性思維與抓住事物關(guān)鍵問題的能力,在使用大模型輔助寫作過程中,批判地看待大模型所提供的信息,加強信息甄別、篩選與核實,同時提升創(chuàng)新性的問題意識,培養(yǎng)人機共生思維與較強的大模型使用技能。另一方面,學習和訓練大模型使用中的提示語組織技巧,在寫作過程中,科學、靈活使用大模型通用指令技巧,有效激發(fā)大模型寫作輔助能力。

    從研發(fā)者視角來看,應加強具有中國特色的大模型中文知識庫建設,推動高等教育與人文社會科學研究垂類大模型建設。一方面,建議加強大模型對中華優(yōu)秀傳統(tǒng)文化、中華文明歷史、中國社會關(guān)系等方面知識的中國特色社會主義知識庫建設,全面提高大模型理解中國本土文化,輔助解決中國問題的能力。另一方面,建議加快推動高等教育與人文社會科學研究垂類大模型建設,滿足高等教育人才培養(yǎng)與人文社會科學研究場景的需要,豐富大模型在人文社會學科領(lǐng)域中專業(yè)知識與傳統(tǒng)文化知識,提升大模型對于中國獨特社會關(guān)系的理解與推斷能力。

    從管理者視角來看,針對高等教育領(lǐng)域大模型輔助寫作可能產(chǎn)生的學術(shù)不端現(xiàn)象,需要加強制度、評價、治理體系等多維度創(chuàng)新。在制度層面,出臺大模型輔助科研寫作規(guī)范制度,明確AI的工具定位與使用原則,結(jié)合中國實際,并制訂科研領(lǐng)域的大模型工具使用指南;在評價層面,加強論文原創(chuàng)性審查與過程性評價,助力學生創(chuàng)造力和批判性思維發(fā)展。在治理層面,將AI治理作為高等教育治理體系建設的重要內(nèi)容,成立專門的AI指導工作組,通過專題研討與實證調(diào)查等途徑,探究AI在高等教育領(lǐng)域的使用機會和潛在風險,制定更加切合中國高等教育發(fā)展生態(tài)的大模型使用原則。

    從研究者視角看,關(guān)于大模型作為學習輔助工具的研究應更突顯情境性與教育性。一方面,建議更加全面、深入地測評大模型在高等教育各類具體情境中的輔助能力,為使用和研發(fā)者提供參考和指引使用指南。本研究對大模型在人文社會學科學位論文寫作輔助場景下的各項能力進行了針對性測評,但受制于研究條件,測評內(nèi)容和范圍仍存在一定的局限,研究結(jié)論難以遷移到其他應用場景中,未來將以高等教育其他重要垂類應用中的大模型能力測評為下一階段研究的重點。另一方面,考慮到研究的科學性,建議教育領(lǐng)域的大模型應用能力測評研究進一步加強教育理論的指引。大模型在教育領(lǐng)域的應用測評框架與數(shù)據(jù)集的構(gòu)建應該遵循人學習、教育與發(fā)展的普遍規(guī)律,必須堅持教育理論的指導。

    ①Q(mào)1代表測試者第一輪輸入問題,A1代表模型針對Q1的第一輪輸出回答;Q2代表測試者在第一輪答案的基礎(chǔ)上,進一步輸入的第二輪補充條件及提問,A2代表模型針對Q2的第二輪輸出回答,以此類推,下同。

    [參考文獻]

    [1] 張絨. 生成式人工智能技術(shù)對教育領(lǐng)域的影響——關(guān)于ChatGPT的專訪[J]. 電化教育研究,2023,44(2):5-14.

    [2] 尚智叢,閆禹宏. ChatGPT教育應用及其帶來的變革與倫理挑戰(zhàn)[J]. 東北師大學報(哲學社會科學版),2023(5):44-54.

    [3] 吳曉林,邢羿飛. 知識復制抑或創(chuàng)新激發(fā)?——人工智能(ChatGPT)對社科類研究生教育的挑戰(zhàn)與機遇[J]. 廣西師范大學學報(哲學社會科學版), 2023, 59(2):66-74.

    [4] 海德格爾. 演講與論文集[M]. 孫周興,譯.北京:三聯(lián)書店, 2005:4.

    [5] 唐·伊德. 技術(shù)與生活世界:從伊甸園到塵世[M]. 韓連慶,譯. 北京:北京大學出版社,2012:77-117.

    [6] 鄧敏杰,李藝. 走向技術(shù)具身:信息技術(shù)時代學習者主體性再認識[J]. 電化教育研究,2023,44(8):26-32.

    [7] 賀樑,應振宇,王英英,等. 教育中的ChatGPT:教學能力診斷研究[J]. 華東師范大學學報(教育科學版),2023,41(7):162-176.

    [8] LIANG P, BOMMASANI R, LEE T, et al. Holistic evaluation of language models[J]. Transactions on machine learning research, 2023,775:1-162.

    [9] OpenCompass. CompassRank[EB/OL]. (2024-02-26)[2024-05-31]. https://rank.opencompass.org.cn/home.

    [10] HENDRYCKS D, BURNS C, BASART S, et al. Measuring massive multitask language understanding[C]// ICLR.9th International Conference on Learning Representations. Wshington D.C.:ICLR,2021:1-27.

    [11] HUANG Y, BAI Y, ZHU Z, et al. C-eval: a multi-level multi-discipline Chinese evaluation suite for foundation models[C]// NIPS. 37th Conference on Neural Information Processing Systems. New York: Curran Associates, 2023:62991-63010.

    [12] COBBE K, KOSARAJU V, BAVARIAN M, et al. Training verifiers to solve math word problems[J]. ArXiv, 2021:2110.14168.

    [13] LI Y, ZHAO J, ZHENG D, et al. CLEVA: Chinese Language Models EVAluation Platform[C]//IEEE. 2023 Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Computer Society, 2023:186-217.

    The Application of Large Model in Higher Education: Assessment of

    Large Model Writing Assistance Abilities

    YIN Junyao

    (School of Education, Central China Normal University, Wuhan Hubei 430079)

    [Abstract] Large-scale language models(LLMs) have triggered profound transformations in the field of higher education. Based on the theory of human-technology relationship, this study focused on the scenario of writing assistance for postgraduate students' dissertations in humanities and social sciences, constructed a competency framework containing 15 tasks in three dimensions of knowledge, logic and application ability, and a test dataset containing 2,990 items. ChatGPT, Qwen-72B-Chat and Qwen-14B-Chat were used as sample models to assess the writing assistance ability. It is found that the LLMs demonstrate better knowledge-based and application-based abilities in humanities and social sciences dissertation writing assistance scenarios, and there was a strong development potential for logic-based abilities. Qwen-72B-Chat performed better in higher education and scientific research vertical category. This study explores effective strategies to improve the supplementary instruction for the large model with regard to its shortcomings in three aspects of scientific research methods, social relations and causality, and puts forward suggestions from the perspectives of learners, developers, administrators and researcher to scientifically regulate and guide students' technical behaviors, and to promote the construction of large models in higher education and scientific research vertical category.

    [Keywords] Higher Education; Dissertation; Writing Assistance Abilities; Large Model Evaluation; Theory of Human-Technology Relationship

    猜你喜歡
    高等教育
    教學和管理層面的高等教育服務思考分析
    科教導刊(2016年27期)2016-11-15 21:03:53
    高校雙語教學現(xiàn)狀與創(chuàng)新分析
    科教導刊(2016年26期)2016-11-15 20:12:30
    在線性代數(shù)課程教學中引入MATLAB的簡單介紹
    考試周刊(2016年86期)2016-11-11 07:44:56
    法津?qū)嶒灲虒W的思考
    新形勢下加強高校師德建設的對策研究
    科技視界(2016年18期)2016-11-03 22:22:25
    大數(shù)據(jù)對高等教育發(fā)展的推動研究
    人間(2016年26期)2016-11-03 17:51:57
    各地區(qū)高等教育與經(jīng)濟發(fā)展水平協(xié)調(diào)性分析
    時代金融(2016年23期)2016-10-31 13:56:28
    關(guān)于應用型計算機專業(yè)培養(yǎng)方案的研究
    中國市場(2016年36期)2016-10-19 04:33:08
    基于Flash+XML技術(shù)的護理技能虛擬教學平臺設計與實現(xiàn)
    中國高等教育供給側(cè)改革研究:起源、核心、內(nèi)涵、路徑
    大學教育(2016年9期)2016-10-09 07:53:44
    尤物成人国产欧美一区二区三区| 久久久久久伊人网av| 精品少妇黑人巨大在线播放| 三级国产精品片| 久久ye,这里只有精品| 国产午夜精品久久久久久一区二区三区| 97在线人人人人妻| 春色校园在线视频观看| 亚洲aⅴ乱码一区二区在线播放| 亚洲欧洲日产国产| 大又大粗又爽又黄少妇毛片口| 亚洲成人一二三区av| 亚洲av一区综合| 国产高清国产精品国产三级 | 在线精品无人区一区二区三 | 97热精品久久久久久| 日韩中字成人| 人人妻人人澡人人爽人人夜夜| 久久女婷五月综合色啪小说 | 少妇的逼水好多| 男女那种视频在线观看| 亚洲久久久久久中文字幕| 性色avwww在线观看| 日本av手机在线免费观看| 卡戴珊不雅视频在线播放| 男女下面进入的视频免费午夜| 亚洲成人中文字幕在线播放| 亚洲天堂av无毛| 亚洲在久久综合| 在线观看一区二区三区激情| 久久精品国产鲁丝片午夜精品| 在线亚洲精品国产二区图片欧美 | 国产黄a三级三级三级人| 看免费成人av毛片| 能在线免费看毛片的网站| 一区二区av电影网| 成人毛片60女人毛片免费| 国产淫语在线视频| 日韩一区二区三区影片| 中国国产av一级| 中文在线观看免费www的网站| 校园人妻丝袜中文字幕| 精品久久久久久电影网| 街头女战士在线观看网站| 国产成人精品久久久久久| 亚洲精品一二三| 日韩一区二区视频免费看| 香蕉精品网在线| 性色av一级| 国产精品麻豆人妻色哟哟久久| 中国美白少妇内射xxxbb| 国产精品久久久久久久电影| 日韩伦理黄色片| xxx大片免费视频| 一级毛片电影观看| 在线观看免费高清a一片| 精品一区二区三区视频在线| 国产综合懂色| 欧美+日韩+精品| 国产老妇女一区| 蜜臀久久99精品久久宅男| 亚州av有码| xxx大片免费视频| 国产免费视频播放在线视频| 国产乱来视频区| 别揉我奶头 嗯啊视频| a级一级毛片免费在线观看| 免费看光身美女| 国产精品不卡视频一区二区| 久久久亚洲精品成人影院| 菩萨蛮人人尽说江南好唐韦庄| 免费电影在线观看免费观看| 欧美性感艳星| 男插女下体视频免费在线播放| 国产亚洲一区二区精品| 国产精品人妻久久久久久| 我的老师免费观看完整版| 少妇丰满av| 亚洲精品国产成人久久av| 插阴视频在线观看视频| 国产精品蜜桃在线观看| 97超碰精品成人国产| av.在线天堂| av免费观看日本| 亚洲成人中文字幕在线播放| 日日啪夜夜撸| 久久99热这里只频精品6学生| 好男人在线观看高清免费视频| 午夜精品国产一区二区电影 | 国产熟女欧美一区二区| 边亲边吃奶的免费视频| 视频区图区小说| 97在线视频观看| 18禁裸乳无遮挡免费网站照片| 色视频www国产| 欧美xxxx性猛交bbbb| 精品一区二区三卡| 国产精品.久久久| 亚洲激情五月婷婷啪啪| 黄片wwwwww| 国产伦精品一区二区三区视频9| 国产伦精品一区二区三区视频9| 97超视频在线观看视频| videossex国产| 久久99热6这里只有精品| 高清在线视频一区二区三区| 国产精品不卡视频一区二区| 国内揄拍国产精品人妻在线| 超碰av人人做人人爽久久| 丝袜脚勾引网站| 日本一本二区三区精品| 大陆偷拍与自拍| 中文欧美无线码| 黑人高潮一二区| 91精品伊人久久大香线蕉| 亚洲精品乱码久久久v下载方式| 人妻一区二区av| 久久热精品热| 亚洲精品色激情综合| 热99国产精品久久久久久7| 亚洲不卡免费看| 99re6热这里在线精品视频| 人妻夜夜爽99麻豆av| 国产国拍精品亚洲av在线观看| 亚洲va在线va天堂va国产| 欧美极品一区二区三区四区| 免费看光身美女| 日日啪夜夜撸| 一区二区av电影网| 精品久久国产蜜桃| 亚洲成人一二三区av| 秋霞伦理黄片| 国内少妇人妻偷人精品xxx网站| 18禁裸乳无遮挡动漫免费视频 | 美女视频免费永久观看网站| 成人一区二区视频在线观看| 久久久久久九九精品二区国产| 日韩大片免费观看网站| 秋霞在线观看毛片| 久久久a久久爽久久v久久| 国产精品不卡视频一区二区| 国产黄频视频在线观看| 视频中文字幕在线观看| 性色av一级| 国产又色又爽无遮挡免| 国产精品一区二区性色av| 国产精品秋霞免费鲁丝片| 久久精品久久精品一区二区三区| 国产中年淑女户外野战色| 久久精品国产a三级三级三级| 成人亚洲精品一区在线观看 | 最近最新中文字幕大全电影3| 岛国毛片在线播放| 日韩伦理黄色片| 久久久久九九精品影院| 六月丁香七月| 欧美 日韩 精品 国产| 麻豆成人av视频| 2022亚洲国产成人精品| 国产综合精华液| 51国产日韩欧美| 99热这里只有是精品50| 欧美xxⅹ黑人| 亚洲自偷自拍三级| 黄色视频在线播放观看不卡| av专区在线播放| 日本免费在线观看一区| 免费不卡的大黄色大毛片视频在线观看| 卡戴珊不雅视频在线播放| 国产精品伦人一区二区| 97超碰精品成人国产| 国产精品一区二区性色av| 亚洲av.av天堂| av卡一久久| 啦啦啦啦在线视频资源| 日日摸夜夜添夜夜添av毛片| 亚洲成人精品中文字幕电影| 久久99热这里只频精品6学生| 麻豆精品久久久久久蜜桃| 国产伦精品一区二区三区四那| 在线a可以看的网站| 精华霜和精华液先用哪个| 99九九线精品视频在线观看视频| 国产精品99久久99久久久不卡 | 色婷婷久久久亚洲欧美| 中文字幕人妻熟人妻熟丝袜美| 国产成人精品福利久久| 日本与韩国留学比较| 青春草亚洲视频在线观看| 狂野欧美激情性bbbbbb| 夜夜爽夜夜爽视频| 天堂中文最新版在线下载 | 久久久久九九精品影院| 国产精品一二三区在线看| 久久亚洲国产成人精品v| 男女边摸边吃奶| 国产精品三级大全| av女优亚洲男人天堂| 午夜激情福利司机影院| 欧美高清成人免费视频www| 欧美精品一区二区大全| 日韩强制内射视频| 99热这里只有是精品在线观看| 少妇的逼水好多| 午夜福利高清视频| 亚洲精品国产成人久久av| 人妻少妇偷人精品九色| 亚洲精华国产精华液的使用体验| 亚洲av日韩在线播放| 亚洲自偷自拍三级| 下体分泌物呈黄色| 免费少妇av软件| 欧美xxⅹ黑人| 国产亚洲午夜精品一区二区久久 | 春色校园在线视频观看| 热99国产精品久久久久久7| 丝袜喷水一区| 欧美+日韩+精品| 亚洲一区二区三区欧美精品 | 久久久久网色| 成人综合一区亚洲| 成年女人看的毛片在线观看| 国产精品人妻久久久影院| 国产亚洲av嫩草精品影院| 精品久久久噜噜| 国产免费福利视频在线观看| 欧美精品国产亚洲| 国产片特级美女逼逼视频| 日韩视频在线欧美| 国内少妇人妻偷人精品xxx网站| 日本猛色少妇xxxxx猛交久久| 色婷婷久久久亚洲欧美| 一级爰片在线观看| 汤姆久久久久久久影院中文字幕| 啦啦啦中文免费视频观看日本| 又爽又黄无遮挡网站| 亚洲国产精品999| 深夜a级毛片| 精品少妇久久久久久888优播| 国产69精品久久久久777片| 不卡视频在线观看欧美| 日本色播在线视频| 亚洲va在线va天堂va国产| 在线观看人妻少妇| 国产精品.久久久| 婷婷色综合大香蕉| 大片免费播放器 马上看| 免费黄网站久久成人精品| h日本视频在线播放| 免费播放大片免费观看视频在线观看| 国产成人a∨麻豆精品| 亚洲精品一区蜜桃| 精品国产一区二区三区久久久樱花 | 2018国产大陆天天弄谢| 大香蕉97超碰在线| 夜夜爽夜夜爽视频| 日韩av在线免费看完整版不卡| 国产免费视频播放在线视频| 夜夜爽夜夜爽视频| 亚洲一区二区三区欧美精品 | 精品一区二区三区视频在线| 男人添女人高潮全过程视频| 久久精品久久久久久噜噜老黄| 在线观看免费高清a一片| 日日啪夜夜爽| 人妻夜夜爽99麻豆av| 亚洲国产欧美人成| 国产精品久久久久久精品古装| 日韩,欧美,国产一区二区三区| 日韩伦理黄色片| 国产免费一区二区三区四区乱码| 中文字幕久久专区| 精品人妻偷拍中文字幕| 亚洲自拍偷在线| 亚洲精品国产av成人精品| 亚洲久久久久久中文字幕| 欧美区成人在线视频| 精品午夜福利在线看| 亚洲国产色片| 在线观看一区二区三区激情| 久久99蜜桃精品久久| 国精品久久久久久国模美| 中文字幕人妻熟人妻熟丝袜美| 亚洲成人精品中文字幕电影| 亚洲精品成人av观看孕妇| 日本免费在线观看一区| 一个人观看的视频www高清免费观看| 国产又色又爽无遮挡免| 午夜激情久久久久久久| av在线老鸭窝| 日日撸夜夜添| 在线亚洲精品国产二区图片欧美 | 99热这里只有是精品在线观看| 人妻夜夜爽99麻豆av| 成人无遮挡网站| 久久精品国产亚洲av涩爱| 亚洲欧洲日产国产| 美女被艹到高潮喷水动态| 最近最新中文字幕免费大全7| 久热久热在线精品观看| 深夜a级毛片| 一级黄片播放器| 日本黄大片高清| 能在线免费看毛片的网站| 黄色一级大片看看| 日日摸夜夜添夜夜爱| 免费av观看视频| 国产男人的电影天堂91| 亚洲av成人精品一区久久| 2021天堂中文幕一二区在线观| 一个人观看的视频www高清免费观看| 国产精品麻豆人妻色哟哟久久| 国产黄色免费在线视频| 国产黄a三级三级三级人| a级毛色黄片| 伦理电影大哥的女人| 国产黄频视频在线观看| 18禁在线无遮挡免费观看视频| 欧美潮喷喷水| 免费观看a级毛片全部| 欧美成人a在线观看| 男女那种视频在线观看| 亚洲精品,欧美精品| 激情 狠狠 欧美| 亚洲美女搞黄在线观看| 亚洲欧美精品自产自拍| 国产亚洲最大av| 亚洲va在线va天堂va国产| 可以在线观看毛片的网站| 欧美日韩在线观看h| videossex国产| 联通29元200g的流量卡| 国产一区二区在线观看日韩| 在线 av 中文字幕| 小蜜桃在线观看免费完整版高清| 欧美日韩精品成人综合77777| 最近手机中文字幕大全| a级一级毛片免费在线观看| 亚洲精品日韩在线中文字幕| 一区二区三区四区激情视频| 亚洲av成人精品一区久久| 亚洲精品亚洲一区二区| 丰满少妇做爰视频| 赤兔流量卡办理| 少妇被粗大猛烈的视频| 亚洲人与动物交配视频| 岛国毛片在线播放| 麻豆国产97在线/欧美| 久久久久性生活片| 成年版毛片免费区| 中国三级夫妇交换| 少妇熟女欧美另类| 在线a可以看的网站| 亚洲欧洲日产国产| 女的被弄到高潮叫床怎么办| 男的添女的下面高潮视频| 深爱激情五月婷婷| 国产色爽女视频免费观看| 日韩av不卡免费在线播放| 丝袜美腿在线中文| av专区在线播放| eeuss影院久久| 国语对白做爰xxxⅹ性视频网站| av专区在线播放| 亚洲欧美成人综合另类久久久| 在线免费十八禁| 欧美老熟妇乱子伦牲交| 国产精品国产三级国产av玫瑰| 国产黄色视频一区二区在线观看| 99re6热这里在线精品视频| 亚洲自偷自拍三级| 亚洲av不卡在线观看| 国产伦理片在线播放av一区| 26uuu在线亚洲综合色| 黄色视频在线播放观看不卡| 国产老妇女一区| 国产高清国产精品国产三级 | 大香蕉97超碰在线| 久久久久久久久久成人| 亚洲av免费在线观看| 久久精品夜色国产| 亚洲国产精品999| 我的女老师完整版在线观看| 国产精品伦人一区二区| 国产女主播在线喷水免费视频网站| 最近中文字幕高清免费大全6| 亚洲在线观看片| 欧美bdsm另类| 少妇人妻精品综合一区二区| 黄色日韩在线| 少妇裸体淫交视频免费看高清| 丝袜喷水一区| 日韩不卡一区二区三区视频在线| 亚洲精品第二区| 夫妻性生交免费视频一级片| 国产精品女同一区二区软件| 国产精品麻豆人妻色哟哟久久| 美女主播在线视频| 最近2019中文字幕mv第一页| 波野结衣二区三区在线| 国产精品女同一区二区软件| 男女无遮挡免费网站观看| 草草在线视频免费看| 在线免费观看不下载黄p国产| 99精国产麻豆久久婷婷| 国产av国产精品国产| 国产在线男女| 中国三级夫妇交换| 欧美极品一区二区三区四区| freevideosex欧美| 男人爽女人下面视频在线观看| 亚洲经典国产精华液单| 嫩草影院新地址| 成人午夜精彩视频在线观看| 国产精品爽爽va在线观看网站| 真实男女啪啪啪动态图| 免费播放大片免费观看视频在线观看| 国产69精品久久久久777片| 午夜福利网站1000一区二区三区| 国产一区二区亚洲精品在线观看| 国产精品久久久久久久久免| 精品国产一区二区三区久久久樱花 | 久久久久久久久久久免费av| 啦啦啦中文免费视频观看日本| 久久久精品免费免费高清| 精华霜和精华液先用哪个| 欧美一区二区亚洲| 男的添女的下面高潮视频| a级毛片免费高清观看在线播放| 国产久久久一区二区三区| 在线观看av片永久免费下载| 99九九线精品视频在线观看视频| 男女无遮挡免费网站观看| 一区二区av电影网| 国产精品久久久久久精品古装| freevideosex欧美| 国产亚洲精品久久久com| 不卡视频在线观看欧美| 综合色av麻豆| 狂野欧美激情性bbbbbb| av天堂中文字幕网| 国精品久久久久久国模美| 小蜜桃在线观看免费完整版高清| 一级毛片 在线播放| 久久久久久久国产电影| 街头女战士在线观看网站| 亚洲精品日本国产第一区| 午夜精品国产一区二区电影 | 韩国高清视频一区二区三区| 成人黄色视频免费在线看| 香蕉精品网在线| 99热网站在线观看| av专区在线播放| 国产精品精品国产色婷婷| 国产毛片a区久久久久| 插阴视频在线观看视频| 精品人妻偷拍中文字幕| 欧美 日韩 精品 国产| 久久久久久久久大av| 联通29元200g的流量卡| 欧美性猛交╳xxx乱大交人| 大香蕉久久网| 久久久色成人| 久久99精品国语久久久| 国产爽快片一区二区三区| 亚州av有码| 国产精品国产av在线观看| 色视频在线一区二区三区| 人妻制服诱惑在线中文字幕| 一区二区三区免费毛片| 永久免费av网站大全| 免费在线观看成人毛片| 草草在线视频免费看| 国产色婷婷99| 欧美性猛交╳xxx乱大交人| h日本视频在线播放| 在线 av 中文字幕| 少妇人妻一区二区三区视频| 亚洲精品乱码久久久v下载方式| av又黄又爽大尺度在线免费看| 在线播放无遮挡| 在线观看免费高清a一片| 身体一侧抽搐| 国产精品国产三级国产专区5o| 亚洲av欧美aⅴ国产| 天堂俺去俺来也www色官网| 少妇丰满av| 欧美一级a爱片免费观看看| av在线天堂中文字幕| 亚洲经典国产精华液单| 乱系列少妇在线播放| av国产免费在线观看| 丝瓜视频免费看黄片| 国产男人的电影天堂91| 99re6热这里在线精品视频| 18禁裸乳无遮挡免费网站照片| 久久精品人妻少妇| 熟妇人妻不卡中文字幕| 一级a做视频免费观看| 中文资源天堂在线| 最后的刺客免费高清国语| 国产爱豆传媒在线观看| 中文字幕制服av| 啦啦啦在线观看免费高清www| 亚洲,欧美,日韩| 国产在视频线精品| 2021天堂中文幕一二区在线观| 高清在线视频一区二区三区| 亚洲最大成人av| 黄色日韩在线| 免费黄色在线免费观看| 九九久久精品国产亚洲av麻豆| 99久久精品一区二区三区| 日本av手机在线免费观看| 肉色欧美久久久久久久蜜桃 | 男女边摸边吃奶| 亚洲人成网站在线播| av又黄又爽大尺度在线免费看| 人人妻人人爽人人添夜夜欢视频 | 大码成人一级视频| 国产精品不卡视频一区二区| 王馨瑶露胸无遮挡在线观看| 国产永久视频网站| 中文字幕亚洲精品专区| 国产精品av视频在线免费观看| 联通29元200g的流量卡| 免费观看无遮挡的男女| 老司机影院毛片| 秋霞在线观看毛片| 久久久久久久久大av| 亚洲精品一二三| 性色avwww在线观看| 欧美亚洲 丝袜 人妻 在线| 高清在线视频一区二区三区| 中国国产av一级| 国产熟女欧美一区二区| 欧美3d第一页| 国产男人的电影天堂91| 九草在线视频观看| 熟女人妻精品中文字幕| 亚洲怡红院男人天堂| 18+在线观看网站| 午夜老司机福利剧场| av在线观看视频网站免费| 老女人水多毛片| 欧美日韩视频高清一区二区三区二| 日本-黄色视频高清免费观看| 热re99久久精品国产66热6| 亚州av有码| 伊人久久精品亚洲午夜| 麻豆成人午夜福利视频| 精品国产三级普通话版| 日韩欧美一区视频在线观看 | 超碰av人人做人人爽久久| 欧美三级亚洲精品| 亚洲成人一二三区av| 啦啦啦在线观看免费高清www| 欧美激情久久久久久爽电影| 国产精品久久久久久精品电影小说 | 久久精品国产自在天天线| 直男gayav资源| 91久久精品国产一区二区三区| 免费大片黄手机在线观看| 春色校园在线视频观看| 日本与韩国留学比较| 中文在线观看免费www的网站| 青青草视频在线视频观看| av.在线天堂| 免费看日本二区| 少妇的逼好多水| 精品酒店卫生间| 少妇人妻精品综合一区二区| av免费在线看不卡| 国产成人一区二区在线| 亚洲最大成人手机在线| 日本色播在线视频| 国产伦精品一区二区三区四那| 久久午夜福利片| 国产精品福利在线免费观看| 日本一本二区三区精品| 日日摸夜夜添夜夜爱| 男人舔奶头视频| 男女那种视频在线观看| 国产av国产精品国产| 亚洲精品乱码久久久久久按摩| 国产亚洲av片在线观看秒播厂| 国产精品女同一区二区软件| 午夜福利网站1000一区二区三区| av线在线观看网站| 久久人人爽av亚洲精品天堂 | 精品午夜福利在线看| 亚洲欧美日韩东京热| 久久久久国产精品人妻一区二区| 精品一区二区免费观看| av在线亚洲专区| 99久国产av精品国产电影| 欧美日韩精品成人综合77777| 另类亚洲欧美激情| 一个人观看的视频www高清免费观看| 日韩av在线免费看完整版不卡| 精品人妻一区二区三区麻豆| 国产黄片视频在线免费观看| 男的添女的下面高潮视频| 新久久久久国产一级毛片| 欧美日韩视频高清一区二区三区二| av网站免费在线观看视频| 如何舔出高潮| 九色成人免费人妻av| 网址你懂的国产日韩在线| 久久精品久久久久久久性| 亚洲av免费在线观看| 国产探花极品一区二区| 国产 精品1| 亚洲一级一片aⅴ在线观看| 天天一区二区日本电影三级|