[摘" "要] 大規(guī)模語言模型引發(fā)了高等教育領(lǐng)域的深層變革。研究基于人—技關(guān)系理論,聚焦人文社會學科研究生學位論文寫作輔助場景,構(gòu)建包含知識、邏輯和應用能力三大維度15項任務的能力框架,及包含2,990道題項的測試數(shù)據(jù)集,以ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat為樣本模型進行寫作輔助能力測評。研究發(fā)現(xiàn):大模型在人文社會學科學位論文寫作輔助場景下表現(xiàn)出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發(fā)展?jié)摿?,Qwen-72B-Chat在高等教育與科研垂類表現(xiàn)較好。研究針對大模型在科研方法、社會關(guān)系和因果關(guān)系三方面的不足,探索了有效的補充指令改進策略,從學習者、研發(fā)者、管理者和研究者視角提出了建議,以科學規(guī)范與指引學生的技術(shù)行為,推動高等教育與科研垂類大模型的建設。
[關(guān)鍵詞] 高等教育; 學位論文; 寫作輔助能力; 大模型測評; 人—技關(guān)系理論
[中圖分類號] G434" " " " " " [文獻標志碼] A
[作者簡介] 尹珺瑤(1997—),女,湖北武漢人。博士研究生,主要從事教育經(jīng)濟與管理、高等教育研究。E-mail:648204413@qq.com。
一、引" "言
數(shù)智時代,以ChatGPT為代表的大規(guī)模語言模型(以下簡稱“大模型”)在自然語言處理領(lǐng)域已經(jīng)展現(xiàn)出驚人的通用能力和應用潛力,引發(fā)了高等教育領(lǐng)域的深層變革,發(fā)展學生與人工智能協(xié)作共處的智慧,規(guī)范人工智能技術(shù)在高等教育領(lǐng)域的應用勢在必行[1]。學位論文寫作是高等教育人才培養(yǎng)的“最后一公里”,大模型已被學生廣泛應用于輔助學位論文資料檢索、校對、潤色等方面[2],但由于學生缺乏科學的大模型寫作能力測評結(jié)果作為參考和指引,加劇了學術(shù)精神異化與學術(shù)不端風險,這一風險性在人文社會學科領(lǐng)域尤其明顯[3]。探析人文社會學科學位論文寫作場景中的大模型作為輔助工具的能力邊界,對于科學引導、監(jiān)管與規(guī)范學位論文寫作中的人工智能技術(shù)使用行為,降低技術(shù)濫用引發(fā)的人才培養(yǎng)質(zhì)量風險而言至關(guān)重要。
“技術(shù)之所是,包含著技術(shù)為之效力的各種需要和目的”,基于人的需求和實踐的技術(shù)才有意義[4]。在海德格爾觀點的基礎(chǔ)上,伊德提出“人—技關(guān)系”理論,將人技關(guān)系視作包含具身關(guān)系、解釋學關(guān)系、他者關(guān)系和背景關(guān)系的連續(xù)統(tǒng)[5],適應具體情境需求的技術(shù)具身是技術(shù)變革與人技關(guān)系發(fā)展的理想目標與必然趨勢[6]。評估和發(fā)展大模型滿足具體情境需求的能力,對于推動人技關(guān)系走向技術(shù)具身而言至關(guān)重要。教育場景中的大模型能力測評研究逐年增多,EduNLP團隊針對K12教育發(fā)布首個CALM-EDU評測框架與報告,從教學知識、學生發(fā)展與內(nèi)容知識三個維度評估各模型在教育領(lǐng)域的綜合性能,組織了ChatGPT教學能力診斷[7],為模型評測框架與數(shù)據(jù)集構(gòu)建提供了一定參考。為彌補當前大模型能力測評研究在高等教育垂類以及在具體科研輔助應用任務中的空白,聚焦人文社會學科學位論文寫作輔助場景下的大模型能力,構(gòu)建具有更細粒度的大模型學位論文寫作輔助能力評測框架與數(shù)據(jù)集,評估樣本模型在高等教育垂類的任務表現(xiàn),并探尋模型問題與改進策略,對于高等教育與人文社會科學研究場景下的垂類大模型應用與發(fā)展有重要價值。
二、研究設計
(一)研究方法與樣本選擇
針對相同場景、相同度量下的標準化模型評估,國內(nèi)外多所研究機構(gòu)已構(gòu)建了較成熟的大模型能力評測框架與數(shù)據(jù)集,形成了系統(tǒng)評測結(jié)果[8],為研究設計與樣本模型選擇提供了一定的指引和參照。2023年7月,上海人工智能實驗室推出了開源大型模型評估平臺OpenCompass,評估范圍涵蓋學科、語言、知識、理解和推理五個維度[9],能夠全面評估大型模型的能力,提供了一種全面成體系的評測范式。仿照OpenCompass的評測任務設置,自主構(gòu)建測評數(shù)據(jù)集,并實現(xiàn)了自動化評測,得到了可靠的結(jié)果。
樣本模型的選取綜合考慮代表性與可得性,參考開源大型模型評估平臺OpenCompass在語言、知識、推理等維度的模型排行,以及大模型領(lǐng)域的主流評測任務MMLU[10]、C-Eval[11]和GSM8K[12]上的表現(xiàn),我們選取OpenAI在2022年11月發(fā)布的ChatGPT(GPT-3.5-Turbo),以及阿里云通義千問對話模型Qwen-Chat系列中的Qwen-72B-Chat與Qwen-14B-Chat作為樣本模型。其中,ChatGPT代表國外大模型的領(lǐng)先水平,可付費用于學術(shù)研究;Qwen-72B-Chat作為國內(nèi)最大參數(shù)規(guī)模的開源大語言模型,其數(shù)學邏輯、意圖理解與通用知識能力在基線測評排行中表現(xiàn)突出,代表中文大模型的前沿水平;Qwen-14B-Chat開源且運算成本較低,在各大基線測評中其通用能力顯著超出同規(guī)模模型,代表高可控與高性價比。
為實現(xiàn)規(guī)?;尚磐评恚诠皆瓌t,開源對話模型Qwen-72B-chat和Qwen-14B-chat的評測運行于8張A100-SXM4-80G GPU,基于PyTorch 2.1.0和Cuda 11.8的環(huán)境,vLLM 0.2.2高速推理框架,完成了樣本模型在人文社會學科學位論文寫作輔助任務上的能力評測;而對于閉源的ChatGPT,選用基于API(GPT-3.5-Turbo)的模型推理方式,公平地完成了相同人文社會學科學位論文寫作輔助任務設置上的能力評測?;谠u測結(jié)果的差異分析,對特定問題進行補測與個案分析,有助于探究大模型在真實應用場景中存在的問題與改進策略。
(二)研究過程
研究過程大致分為四個階段:
第一階段,搭建研究框架。圍繞學位論文輔助工具能力的內(nèi)涵與要素,對教育領(lǐng)域與人工智能領(lǐng)域?qū)<议_展結(jié)構(gòu)化訪談。訪談文本資料共詞分析結(jié)果顯示,大模型等人工智能技術(shù)作為學位論文寫作輔助工具的能力要素大致劃分為:規(guī)范論文寫作、查找知識信息和提供多樣表達三類。在此基礎(chǔ)上,綜合OpenCompass提出的大模型通用能力框架與C-Eval、MMLU等大規(guī)模基線評測任務內(nèi)容,將研究框架劃分為知識型能力、邏輯型能力與應用型能力三大維度,每個維度包含5個二級指標,共計15個指標(見表1)。
2.問題設計主要根據(jù)各項指標測試的實際需要,由于各項指標測試難度存在差異,故對應的問題數(shù)量不完全相同。
第二階段,設計測試問題?;谘芯靠蚣埽垏鴥?nèi)3位人工智能領(lǐng)域?qū)<遗c9位教育領(lǐng)域?qū)<裔槍γ總€維度中的5個二級指標進行問題設計。在參考OpenCompass框架,結(jié)合C-Eval、MMLU等基線測評數(shù)據(jù)庫,中國國家公務員考試、普通高等學校招生全國統(tǒng)一考試與全國碩士研究生統(tǒng)一招生考試等大型權(quán)威考試真題庫的基礎(chǔ)上,課題組專門針對人文社會學科學位論文寫作場景,經(jīng)過多輪試測與評估,反復修訂題目內(nèi)容與表述方式,設計了包含2,990道單項選擇題的測試數(shù)據(jù)集。值得強調(diào)的是,相較于現(xiàn)有的通用能力評測數(shù)據(jù)集,本研究所構(gòu)建的垂類測評數(shù)據(jù)集聚焦人文社會學科學位論文寫作輔助具體場景下的大模型能力表現(xiàn),對具體任務進行了更細粒度的劃分,問題設計更加突顯專業(yè)性和應用性,測評結(jié)果在人文社會學科學位論文寫作輔助應用場景下更有參考價值。
第三階段,對樣本模型進行準確性測試。對樣本模型ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat在15項任務上進行測試訓練并統(tǒng)計結(jié)果,以各項任務的準確率為該模型人文社會學科學位論文寫作輔助能力的代理變量。
第四階段,針對特定問題進行追加補測與個案分析。在真實應用場景下,提供更詳細的補充信息和更具體的指令要求能夠提高大模型的輔助能力。通過模擬學位論文寫作輔助真實場景下的開放問答,對準確性測試階段出現(xiàn)的特定錯題進行追問,發(fā)現(xiàn)樣本模型在實際應用中存在的問題并從補充指令的角度探究改進路徑。
最終,基于第三、四階段研究結(jié)果的分析,形成研究結(jié)論并提出討論與建議。
三、研究結(jié)果
(一)整體描述
從模型能力得分情況來看,在三個樣本模型中,Qwen-72B-Chat的學位論文輔助能力最強,整體準確率達到81%,各維度能力準確率均高于70%;其次是Qwen-14B-Chat,準確率為71%;ChatGPT的學位論文輔助能力最弱,準確率僅48%(見表2)。整體上,Qwen-72B-Chat具備更強的人文社會學科學位論文輔助能力。經(jīng)檢驗,樣本模型在知識型能力、邏輯型能力和應用型能力三個維度上準確性得分與整體準確性得分具有一致性,表明測試數(shù)據(jù)集具有較好的魯棒性,準確性測評得分能夠代表大模型人文社會學科學位論文輔助能力水平。
從模型能力得分分布來看,三個樣本模型的能力得分分布均較離散。其中,Qwen-72B-Chat的離散程度最低,標準差仍可達0.12,大模型的學位論文輔助能力建設均衡性有待提升。經(jīng)檢驗,樣本模型能力分布狀況基本一致,排除了數(shù)據(jù)集對得分平衡性的內(nèi)生干擾,能力得分分布情況能夠體現(xiàn)大模型人文社會學科學術(shù)論文輔助能力建設的均衡性。
從各維度得分情況來看,ChatGPT在應用型能力維度上表現(xiàn)較好,擅長根據(jù)指令處理文本內(nèi)容,但相較于OpenCompass框架內(nèi)其他通用任務測評結(jié)果,ChatGPT在學位論文寫作輔助這一具體任務上的知識型能力和邏輯型能力表現(xiàn)欠佳。Qwen-72B-Chat與Qwen-14B-Chat在知識型能力與應用型能力維度上表現(xiàn)更好,邏輯型能力相對較差。綜合而言,在學位論文寫作輔助場景下,大模型具備的知識能力與應用能力能夠滿足學生資料收集、論文潤色等基本需要,但在信息不充分的情況下,大模型難以準確理解和分析人文社會科學研究中復雜的邏輯關(guān)系,輔助學位論文寫作的邏輯能力還存在很大提升空間。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的邏輯能力問題與改進路徑。
(二)差異分析
通過對15項具體指標在模型內(nèi)部和模型之間的能力差異進行分析,分別比較樣本模型在各維度具體任務上的表現(xiàn)(如圖1所示)。經(jīng)檢驗,樣本模型的具體指標得分與在所屬維度上的能力表現(xiàn)具有一致性,說明數(shù)據(jù)集問題匹配任務的穩(wěn)健性較高,測評結(jié)果能夠較客觀地反映模型能力。
1. 模型內(nèi)部能力差異分析
ChatGPT的學位論文寫作輔助能力整體較弱,有12項指標準確率低于60%。其中,應用型能力相對較強,文意理解指標準確率達到80%;邏輯能力維度上的歸納推理與演繹推理指標準確率僅有22%和26%。ChatGPT雖然在一定程度上能夠理解輸入內(nèi)容的含義,但缺乏邏輯關(guān)系的理解能力和邏輯問題的解決能力,人文社會科學研究相關(guān)知識掌握不足。在人文社會學科學位論文寫作輔助場景下,ChatGPT仍存在許多不足,在缺少充足信息補充的情況下使用ChatGPT輔助學位論文寫作的風險性較高。
Qwen-72B-Chat的學位論文寫作輔助能力整體較強,有11項指標準確率不低于80%。其中,知識型與應用型能力維度的指標準確率大體在80%以上,其中有政策知識、歷史知識與文意理解指標準確率高于90%,邏輯型能力維度的概念判斷指標準確率接近100%,但邏輯型能力維度的其余4項指標相對偏弱,演繹、類比和常識推理的準確率僅64%、63%和69%,歸納推理的準確率僅54%。Qwen-72B-Chat能夠為學位論文寫作提供相對豐富和準確的知識資料,對人文社會科學研究內(nèi)容的理解和抽象概括的能力較強,病句糾錯、同義改寫等論文寫作規(guī)范應用的效果相對更好,但該模型在解決社會關(guān)系問題上的邏輯推理能力有待提升。
Qwen-14B-Chat的學位論文寫作輔助能力處于中等水平,有4項指標準確率低于60%。其中,應用型能力相對較強,標題概括、中心提煉、文意理解和同義改寫任務的準確率均高于80%;但邏輯型能力相對較弱,歸納、演繹、類比和常識推理任務的準確率均低于53%。Qwen-14B-Chat能夠為學位論文寫作提供一定的相關(guān)史實與社會信息,能夠幫助學生規(guī)范論文寫作格式與語言表達,但該模型的邏輯推理能力暫時無法滿足輔助人文社會科學研究的基本需要。
2. 模型間能力差異分析
知識型能力維度測評結(jié)果如圖2所示。測評結(jié)果表明,Qwen-72B-Chat在學科知識、政策知識、歷史知識和文化知識指標得分最高,準確率在80%~91%之間;Qwen-14B-Chat在社會知識指標得分最高,準確率達89%;ChatGPT在5項指標上都表現(xiàn)得相對較弱,準確率均低于60%。相對而言,Qwen-72B-Chat所提供的學科知識、政策知識、歷史知識和文化知識更加準確、可信,Qwen-14B-Chat所提供的社會信息資訊更加可靠??傮w而言,大模型為人文社會科學研究者提供了一條更加便捷的資料搜集渠道,但無法保障知識信息的科學性,特別是對于中國歷史與中華傳統(tǒng)文化相關(guān)知識掌握不足,難以提供準確的文化知識信息。
邏輯型能力維度測評結(jié)果如圖3所示。測評結(jié)果表明,Qwen-72B-Chat在各指標上處于領(lǐng)先,其中,概念判斷任務準確率接近100%,而另外4項準確率僅60%左右,未達到該模型平均水平;Qwen-14B-Chat的概念判斷任務得分達68%,其余4項指標的準確率僅50%左右;ChatGPT在5項指標上都表現(xiàn)得相對更弱,5項指標準確率均不高于50%。相對而言,Qwen-72B-Chat在人文社會學科學位論文寫作輔助場景中理解邏輯關(guān)系和解決邏輯問題的各項能力位于領(lǐng)先水平。總體而言,在人文社會學科學位論文寫作輔助場景下,大模型能夠抽象出事物的共同本質(zhì)特征并推廣到同類事物上,但歸納、演繹、類比和常識推理能力有很大提升空間,特別是從個別性知識推導出一般性結(jié)論的歸納推理能力難以滿足人文社會學科研究在發(fā)現(xiàn)和分析社會規(guī)律方面的內(nèi)在需求。鑒于此,在個案分析部分,重點探討大模型在人文社會學科學位論文寫作輔助場景中的歸納推理邏輯能力問題與改進路徑。
應用型能力維度測評結(jié)果如圖4所示。測評結(jié)果表明,Qwen-72B-Chat在5項指標上都表現(xiàn)得更好,準確率不低于83%,其中文意理解能力指標準確率高達92%;Qwen-14B-Chat和Qwen-72B-Chat在標題概括上的準確率均為86%,5項指標的準確率均高于77%;ChatGPT在5項指標上都表現(xiàn)得相對更弱,大部分指標準確率低于70%。相對而言,Qwen-72B-Chat滿足人文社會學科學位論文規(guī)范性相關(guān)應用需求的能力位于領(lǐng)先水平??傮w而言,大模型能夠理解和判斷輸入文本的含義,能夠滿足學生在應用層面的學位論文輔助需求,但同義改寫指標準確率相對較低,利用大模型修改論文措辭有可能造成論文原意變化。
(三)問題分析與改進策略
由前所述,歸納推理能力是當前大模型人文社會學科學位論文輔助能力發(fā)展的薄弱環(huán)節(jié)??紤]到Qwen-72B-Chat的人文社會學科學位論文輔助能力相對最強,邏輯能力位于領(lǐng)先水平,故選取Qwen-72B-Chat作為個案模型,以其歸納推理測試錯題為原型,追加問答題補測,剖析其在歸納推理任務上的具體問題并探究有利于完善模型能力的補充指令。
通過對Qwen-72B-Chat在歸納推理任務上的所有錯題進行追加多輪問答補測,發(fā)現(xiàn)主要存在:人文社會科學研究方法掌握不足;基本社會關(guān)系識別存在偏誤;復雜因果關(guān)系推斷不準確三方面問題,分別選擇歸納推理任務中的第21、44和46題作為典型案例進行問題分析。
1. 研究方法掌握不足
形成科學且清晰的研究方法和思路是人文社會學科學位論文的基本要求,但Qwen-72B-Chat作為輔助工具,對人文社會科學研究方法掌握不足,通過細化提問內(nèi)容的補充指令能夠有效改進這一問題。具體補測記錄如下① 。
測試者(Q1):一位社會學家對兩組青少年作了研究。第一組成員每周看有暴力內(nèi)容的影視的時間平均不少于10小時;第二組則不多于2小時。結(jié)果發(fā)現(xiàn)第一組成員中舉止粗魯者所占的比例遠高于第二組。因此,此項研究認為,多看有暴力內(nèi)容的影視容易導致青少年舉止粗魯。以下哪項如果為真 ,將質(zhì)疑上述研究的結(jié)論?
A.第一組中有的成員的行為并不粗魯 。
B.第二組中有的成員的行為比第一組有的成員粗魯。
C.第一組中有的成員的文明行為是父母從小教育的結(jié)果,這使得他們能抵制暴力影視的不良影響。
D.第一組成員中很多成員的粗魯舉止是從小養(yǎng)成的,這使得他們特別愛看暴力影視。
Qwen-72B-Chat(A1):選項C指出第一組中有的成員的文明行為是父母從小教育的結(jié)果,這使得他們能抵制暴力影視的不良影響。這個選項提供了一個可能的原因,說明第一組成員中的舉止粗魯者所占的比例較高,并不一定是因為看了更多的暴力影視。選項D雖然提到了第一組成員愛看暴力影視,但它并沒有解釋為什么第一組成員中的舉止粗魯者所占的比例較高。
測試者(Q2):一項社會學研究根據(jù)每周看暴力影視的平均時長將青少年分為兩組,第一組為每周看暴力影視的平均時長不少于10小時的青少年;第二組為每周看暴力影視的平均時長不多于2小時的青少年。對比這兩組青少年的粗魯行為,發(fā)現(xiàn)第一組舉止粗魯者所占的比例遠高于第二組。據(jù)此,提出研究結(jié)論:多看有暴力內(nèi)容的影視容易導致青少年舉止粗魯。以下哪項如果為真,最能質(zhì)疑上述研究結(jié)論?(選項同Q1)
Qwen-72B-Chat(A2):選項D最能質(zhì)疑上述研究結(jié)論。因為第一組成員中很多成員的粗魯舉止是從小養(yǎng)成的,這使得他們特別愛看暴力影視,也就是說,是先有粗魯舉止,后有多看暴力影視,而不是多看暴力影視導致了青少年舉止粗魯。因此,這個研究結(jié)論可能是因果倒置的結(jié)果。
根據(jù)A1回答推斷,Qwen-72B-Chat缺乏社會實驗抽樣分組的基本常識。通過補充指令Q2進一步明確研究分組的具體過程以及兩組青少年之間的關(guān)系,在此基礎(chǔ)上重新提問,Qwen-72B-Chat輸出了正確答案。
綜上所述,大模型對社會科學研究方法、技術(shù)和過程的相關(guān)知識掌握不足,需要警惕其對于研究結(jié)果解釋和描述上的偏誤。在利用大模型輔助學位論文寫作時,利用補充指令細化提問內(nèi)容,盡可能詳細、清晰地描述研究技術(shù)路線與操作流程,在一定程度上能夠幫助大模型準確理解研究的思路和過程,輸出符合邏輯的答案。
2. 社會關(guān)系識別存在偏誤
厘清社會關(guān)系是人文社會科學研究的基本前提,但Qwen-72B-Chat對基本社會關(guān)系的識別存在偏誤,通過提供先驗條件的補充指令能夠有效改進這一問題。具體補測記錄如下。
測試者(Q1):專家說:“最近,大學X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了。這說明X專業(yè)崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶??
A.X專業(yè)領(lǐng)域沒有足夠的崗位。
B.現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了。
C.在過去的10年里,X專業(yè)領(lǐng)域的工作崗位增加了許多。
D.許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作。
Qwen-72B-Chat(A1):分析專家的看法:X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了,因此得出結(jié)論X專業(yè)崗位不受歡迎。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與專家的結(jié)論無關(guān);B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與專家的結(jié)論相反,可以削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與專家的結(jié)論無關(guān)。綜上所述,本題答案選C。
測試者(Q2):如果Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。根據(jù)此參考范例,再次回答上題。
Qwen-72B-Chat(A2):根據(jù)提供的參考范例,某專業(yè)工作崗位的減少會導致有意愿在該專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與提供的條件一致;B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與提供的條件無關(guān)。綜上所述,本題答案選A。
根據(jù)A1輸出答案可以推斷,Qwen-72B-Chat并未意識到除了父母離異外,父母其中一方去世也是單親家庭形成的原因之一。通過第二輪補測加以修正,補充指令Q2輸入內(nèi)容在追加了“父母離婚和父母其中一方去世都會導致孩子成為單親兒童”這一社會關(guān)系解釋作為補充條件后,Qwen-72B-Chat輸出了正確答案。
綜上所述,在利用大模型輔助學位論文寫作時,需要警惕其對于社會關(guān)系理解和判斷失誤。利用補充指令為大模型提供研究相關(guān)主體及社會關(guān)系的基本邏輯解釋作為先驗條件與參考依據(jù),在一定程度上提高了大模型對于社會關(guān)系判斷的準確性,有助于激發(fā)大模型的學位論文寫作輔助能力。
3. 因果推斷不準確
因果推斷是人文社會研究的重要思路之一,人文社會科學研究的意義在于深刻剖析復雜因果關(guān)系,但Qwen-72B-Chat對人文社會科學研究中復雜因果關(guān)系的推斷不準確,通過提供參考范例的補充指令能夠有效改進這一問題。具體補測記錄如下。
測試者(Q1):專家說:“最近,大學X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了。這說明X專業(yè)崗位不受歡迎?!毕铝心捻椬钅芟魅鯇<业目捶ǎ?/p>
A.X專業(yè)領(lǐng)域沒有足夠的崗位。
B.現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了。
C.在過去的10年里,X專業(yè)領(lǐng)域的工作崗位增加了許多。
D.許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作。
Qwen-72B-Chat(A1):分析專家的看法:X專業(yè)的畢業(yè)生去其他專業(yè)崗位的人更多了,因此得出結(jié)論X專業(yè)崗位不受歡迎。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與專家的結(jié)論無關(guān);B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與專家的結(jié)論相反,可以削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與專家的結(jié)論無關(guān)。綜上所述,本題答案選C。
測試者(Q2):如果Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。根據(jù)此參考范例,再次回答上題。
Qwen-72B-Chat(A2):根據(jù)提供的參考范例,某專業(yè)工作崗位的減少會導致有意愿在該專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)。分析選項:A項說明X專業(yè)領(lǐng)域沒有足夠的崗位,這與提供的條件一致;B項說明現(xiàn)在獲得X專業(yè)學位的畢業(yè)生比過去少了,但這并不能削弱專家的看法;C項說明X專業(yè)領(lǐng)域的工作崗位增加了許多,這與提供的條件相反,不能削弱專家的看法;D項說明許多X專業(yè)學位的畢業(yè)生在就讀時就從事過X專業(yè)領(lǐng)域的工作,這也與提供的條件無關(guān)。綜上所述,本題答案選A。
A1輸出答案顯示,Qwen-72B-Chat判斷,X專業(yè)不受歡迎導致X專業(yè)畢業(yè)生去其他專業(yè)崗位就業(yè),這是一個單向因果關(guān)系,X專業(yè)崗位數(shù)量的變動僅被理解為因果關(guān)系作用的結(jié)果,并未認識到X專業(yè)崗位數(shù)量變動與X專業(yè)畢業(yè)生去其他專業(yè)崗位就業(yè)之間存在雙向因果關(guān)系。通過第二輪試測進行驗證和改進,補充指令Q2輸入在追加了“Y專業(yè)工作崗位的減少,會導致有意愿在Y專業(yè)崗位就業(yè)的大學生不得不去其他專業(yè)的崗位就業(yè)”這一相同因果關(guān)系的參考范例作為補充條件后,Qwen-72B-Chat輸出了正確答案。
綜上所述,在利用大模型輔助學位論文寫作時,需要批判地看待其對于因果關(guān)系的推斷結(jié)論。利用補充指令為大模型提供研究中基本的因果關(guān)系與歸因邏輯作為前提條件,在一定程度上能夠提高大模型因果關(guān)系推理的準確性,激發(fā)大模型能力以更好滿足學生的學位論文寫作的需要。
四、結(jié)論與建議
(一)研究結(jié)論
綜合來看,大模型在人文社會學科學位論文寫作輔助場景下表現(xiàn)出較好的知識型能力與應用型能力,邏輯型能力也存在較強的發(fā)展?jié)摿?,豐富、準確的補充指令能夠有效激發(fā)大模型能力。為進一步推動大模型教育與科研能力發(fā)展,將進一步探究高等教育與人文社會科學研究輔助場景下的大模型補充指令使用策略與技巧作為下一階段研究的重點。
具體而言,大模型的通用知識數(shù)據(jù)庫為人文社會科學研究提供更便捷的信息獲取渠道,其所具備的概念判斷和文意理解能力為質(zhì)性文本分析技術(shù)提供創(chuàng)新選擇,在收集資料、規(guī)范寫作和方法創(chuàng)新上起到一定的輔助作用。另一方面,大模型作為學位論文寫作輔助工具的各項能力還存在很大提升空間,其輸出內(nèi)容的嚴謹性、準確性暫未達到學位論文寫作輔助的要求,邏輯能力問題突出,具體表現(xiàn)為:對人文社會科學研究方法掌握不足,對基本社會關(guān)系識別存在偏誤,對復雜因果關(guān)系推斷不準確。通過細化輸入內(nèi)容、提供先驗條件、提供參考范例等形式的補充指令能夠有效激發(fā)大模型能力。
在三個樣本模型中,Qwen-72B-Chat的人文社會學科學位論文輔助能力位于領(lǐng)先水平,ChatGPT表現(xiàn)相對較弱。產(chǎn)生這一結(jié)果的原因可能在于,Qwen-Chat系列模型在中文語言背景測試中具有一定優(yōu)勢,使用的預訓練數(shù)據(jù)類型覆蓋多語言,并且使用中文偏好的SFT和RLHF實現(xiàn)對齊。CLEVA等基線測評排名也證實了Qwen-Chat系列模型在理解與執(zhí)行中文指令的能力上更勝一籌[13]。
事實上,目前僅有極少數(shù)業(yè)界領(lǐng)先的大模型具備人文社會學科學位論文輔助能力,且其本地部署門檻和運行成本較高,例如,Qwen-72B-Chat在本研究測評過程中需要運行于8張A100-SXM4-80G GPU,暫不適用于日常場景。而樣本模型Qwen-14B-Chat本地部署成本僅需Qwen-72B-Chat的八分之一,其測評結(jié)果對于考量當前日常場景中所接觸的大模型能力表現(xiàn)而言更有參考價值。除了本地部署的方式以外,伴隨大模型的產(chǎn)品化和商業(yè)模式創(chuàng)新,基于API調(diào)用的使用方式和基于token數(shù)量的計費方式將更加適應低成本的日常使用場景,大模型作為日常科研輔助工具的部署成本將逐漸降低。
(二)討論與建議
為實現(xiàn)人與技術(shù)的相互作用與形塑,需從多主體視角出發(fā),深入、全面剖析大模型輔助寫作場景下的多元人技關(guān)系,探討高等教育領(lǐng)域人技關(guān)系走向常態(tài)化技術(shù)具身的可行路徑。
從學習者視角來看,應有意識地培養(yǎng)創(chuàng)造力與批判性思維等高階思維,提升問題意識,學習和訓練大模型使用中的提示語組織技巧。一方面,有意識地培養(yǎng)創(chuàng)造力、批判性思維與抓住事物關(guān)鍵問題的能力,在使用大模型輔助寫作過程中,批判地看待大模型所提供的信息,加強信息甄別、篩選與核實,同時提升創(chuàng)新性的問題意識,培養(yǎng)人機共生思維與較強的大模型使用技能。另一方面,學習和訓練大模型使用中的提示語組織技巧,在寫作過程中,科學、靈活使用大模型通用指令技巧,有效激發(fā)大模型寫作輔助能力。
從研發(fā)者視角來看,應加強具有中國特色的大模型中文知識庫建設,推動高等教育與人文社會科學研究垂類大模型建設。一方面,建議加強大模型對中華優(yōu)秀傳統(tǒng)文化、中華文明歷史、中國社會關(guān)系等方面知識的中國特色社會主義知識庫建設,全面提高大模型理解中國本土文化,輔助解決中國問題的能力。另一方面,建議加快推動高等教育與人文社會科學研究垂類大模型建設,滿足高等教育人才培養(yǎng)與人文社會科學研究場景的需要,豐富大模型在人文社會學科領(lǐng)域中專業(yè)知識與傳統(tǒng)文化知識,提升大模型對于中國獨特社會關(guān)系的理解與推斷能力。
從管理者視角來看,針對高等教育領(lǐng)域大模型輔助寫作可能產(chǎn)生的學術(shù)不端現(xiàn)象,需要加強制度、評價、治理體系等多維度創(chuàng)新。在制度層面,出臺大模型輔助科研寫作規(guī)范制度,明確AI的工具定位與使用原則,結(jié)合中國實際,并制訂科研領(lǐng)域的大模型工具使用指南;在評價層面,加強論文原創(chuàng)性審查與過程性評價,助力學生創(chuàng)造力和批判性思維發(fā)展。在治理層面,將AI治理作為高等教育治理體系建設的重要內(nèi)容,成立專門的AI指導工作組,通過專題研討與實證調(diào)查等途徑,探究AI在高等教育領(lǐng)域的使用機會和潛在風險,制定更加切合中國高等教育發(fā)展生態(tài)的大模型使用原則。
從研究者視角看,關(guān)于大模型作為學習輔助工具的研究應更突顯情境性與教育性。一方面,建議更加全面、深入地測評大模型在高等教育各類具體情境中的輔助能力,為使用和研發(fā)者提供參考和指引使用指南。本研究對大模型在人文社會學科學位論文寫作輔助場景下的各項能力進行了針對性測評,但受制于研究條件,測評內(nèi)容和范圍仍存在一定的局限,研究結(jié)論難以遷移到其他應用場景中,未來將以高等教育其他重要垂類應用中的大模型能力測評為下一階段研究的重點。另一方面,考慮到研究的科學性,建議教育領(lǐng)域的大模型應用能力測評研究進一步加強教育理論的指引。大模型在教育領(lǐng)域的應用測評框架與數(shù)據(jù)集的構(gòu)建應該遵循人學習、教育與發(fā)展的普遍規(guī)律,必須堅持教育理論的指導。
①Q(mào)1代表測試者第一輪輸入問題,A1代表模型針對Q1的第一輪輸出回答;Q2代表測試者在第一輪答案的基礎(chǔ)上,進一步輸入的第二輪補充條件及提問,A2代表模型針對Q2的第二輪輸出回答,以此類推,下同。
[參考文獻]
[1] 張絨. 生成式人工智能技術(shù)對教育領(lǐng)域的影響——關(guān)于ChatGPT的專訪[J]. 電化教育研究,2023,44(2):5-14.
[2] 尚智叢,閆禹宏. ChatGPT教育應用及其帶來的變革與倫理挑戰(zhàn)[J]. 東北師大學報(哲學社會科學版),2023(5):44-54.
[3] 吳曉林,邢羿飛. 知識復制抑或創(chuàng)新激發(fā)?——人工智能(ChatGPT)對社科類研究生教育的挑戰(zhàn)與機遇[J]. 廣西師范大學學報(哲學社會科學版), 2023, 59(2):66-74.
[4] 海德格爾. 演講與論文集[M]. 孫周興,譯.北京:三聯(lián)書店, 2005:4.
[5] 唐·伊德. 技術(shù)與生活世界:從伊甸園到塵世[M]. 韓連慶,譯. 北京:北京大學出版社,2012:77-117.
[6] 鄧敏杰,李藝. 走向技術(shù)具身:信息技術(shù)時代學習者主體性再認識[J]. 電化教育研究,2023,44(8):26-32.
[7] 賀樑,應振宇,王英英,等. 教育中的ChatGPT:教學能力診斷研究[J]. 華東師范大學學報(教育科學版),2023,41(7):162-176.
[8] LIANG P, BOMMASANI R, LEE T, et al. Holistic evaluation of language models[J]. Transactions on machine learning research, 2023,775:1-162.
[9] OpenCompass. CompassRank[EB/OL]. (2024-02-26)[2024-05-31]. https://rank.opencompass.org.cn/home.
[10] HENDRYCKS D, BURNS C, BASART S, et al. Measuring massive multitask language understanding[C]// ICLR.9th International Conference on Learning Representations. Wshington D.C.:ICLR,2021:1-27.
[11] HUANG Y, BAI Y, ZHU Z, et al. C-eval: a multi-level multi-discipline Chinese evaluation suite for foundation models[C]// NIPS. 37th Conference on Neural Information Processing Systems. New York: Curran Associates, 2023:62991-63010.
[12] COBBE K, KOSARAJU V, BAVARIAN M, et al. Training verifiers to solve math word problems[J]. ArXiv, 2021:2110.14168.
[13] LI Y, ZHAO J, ZHENG D, et al. CLEVA: Chinese Language Models EVAluation Platform[C]//IEEE. 2023 Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Computer Society, 2023:186-217.
The Application of Large Model in Higher Education: Assessment of
Large Model Writing Assistance Abilities
YIN Junyao
(School of Education, Central China Normal University, Wuhan Hubei 430079)
[Abstract] Large-scale language models(LLMs) have triggered profound transformations in the field of higher education. Based on the theory of human-technology relationship, this study focused on the scenario of writing assistance for postgraduate students' dissertations in humanities and social sciences, constructed a competency framework containing 15 tasks in three dimensions of knowledge, logic and application ability, and a test dataset containing 2,990 items. ChatGPT, Qwen-72B-Chat and Qwen-14B-Chat were used as sample models to assess the writing assistance ability. It is found that the LLMs demonstrate better knowledge-based and application-based abilities in humanities and social sciences dissertation writing assistance scenarios, and there was a strong development potential for logic-based abilities. Qwen-72B-Chat performed better in higher education and scientific research vertical category. This study explores effective strategies to improve the supplementary instruction for the large model with regard to its shortcomings in three aspects of scientific research methods, social relations and causality, and puts forward suggestions from the perspectives of learners, developers, administrators and researcher to scientifically regulate and guide students' technical behaviors, and to promote the construction of large models in higher education and scientific research vertical category.
[Keywords] Higher Education; Dissertation; Writing Assistance Abilities; Large Model Evaluation; Theory of Human-Technology Relationship