[摘 要] 大語言模型在職業(yè)能力評估領(lǐng)域有良好的適應(yīng)性和廣泛的應(yīng)用場景。以“高職學(xué)生職業(yè)能力評估”為研究對象,闡釋新時代職業(yè)能力的評估內(nèi)涵,分析基于LLM對職業(yè)能力進(jìn)行評估的可行性及其優(yōu)勢,進(jìn)一步提出職業(yè)能力評估路徑:以行業(yè)企業(yè)需求為目標(biāo),對齊模型評價標(biāo)準(zhǔn),對職業(yè)能力進(jìn)行交互式評估。結(jié)合評估案例,驗(yàn)證該方法的有效性。研究顯示:相較于傳統(tǒng)職業(yè)能力的評估方式,基于LLM的評估效果良好,智能化水平與易用性顯著提升,證明了基于LLM的自動評估方法的顯著優(yōu)勢。
[關(guān)鍵詞] 職業(yè)能力評估;大語言模型;職業(yè)教育;自動化評估
[中圖分類號] G424.74 [文獻(xiàn)標(biāo)識碼] A
[文章編號] 1673—1654(2024)05—024—008
一、引言
當(dāng)前社會分工快速變革,職業(yè)教育人才培養(yǎng)方向需要與企業(yè)需求契合,與產(chǎn)業(yè)發(fā)展匹配。職業(yè)能力評價是職業(yè)教育質(zhì)量監(jiān)控的重要手段,對于新時代背景下職業(yè)教育改革和發(fā)展具有重要意義。國務(wù)院頒布實(shí)施的《國家職業(yè)教育改革實(shí)施方案》(以下簡稱“職教20條”)提出,要“以學(xué)習(xí)者的職業(yè)道德技術(shù)技能水平為核心,建立職業(yè)教育質(zhì)量評價體系”,要求職業(yè)院校合理評估畢業(yè)生在職業(yè)活動和個人職業(yè)生涯發(fā)展中所需要的綜合能力,即職業(yè)能力。
2021年7月,教育部等多部門聯(lián)合印發(fā)《關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見》,明確指出,應(yīng)用大數(shù)據(jù)、人工智能等新一代信息技術(shù)創(chuàng)新評價工具是可行路徑。同年7月13日,國家網(wǎng)信辦等七部門聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,鼓勵生成式人工智能技術(shù)在各行業(yè)、各領(lǐng)域的創(chuàng)新應(yīng)用,生成積極健康、向上向善的優(yōu)質(zhì)內(nèi)容,探索優(yōu)化應(yīng)用場景,構(gòu)建應(yīng)用生態(tài)體系。
隨著人工智能技術(shù)的快速發(fā)展,大語言模型(large language models,LLM)出色的語言處理能力和語義理解能力為職業(yè)能力評估提供了新的方向。LLM指包含數(shù)千億(或更多)參數(shù)的語言模型,這些參數(shù)是在大量文本數(shù)據(jù)的基礎(chǔ)上經(jīng)過訓(xùn)練得到的[1]。目前國外主流的LLM有ChatGPT、LaMDA、PaLM等;國內(nèi)則有百度的“文心一言”、阿里的“通義千問”、騰訊的“混元”、華為的“盤古”,以及科大訊飛的“星火認(rèn)知”等。LLM于2018年左右推出,它們能夠捕捉人類語言的大部分句法和語義,掌握大量的語言知識和常識,能夠在訓(xùn)練期間記憶海量文本,在各種任務(wù)中表現(xiàn)出色[2]。
當(dāng)前階段,有關(guān)職業(yè)能力本身的研究較多,在方法論層面的研究則較少。在傳統(tǒng)職業(yè)能力評估過程中,存在系統(tǒng)化、科學(xué)化不足的問題,同時難以避免地會出現(xiàn)評價主觀性過強(qiáng)的問題[3-4]。目前,人工智能技術(shù)廣泛應(yīng)用于教育評估領(lǐng)域,隨著教育評估場景和形式快速轉(zhuǎn)變,測評模型的通用性理論框架和核心步驟在不斷發(fā)展完善[5]。智能化的評估方式能夠顯著提高評估效率,增強(qiáng)評估結(jié)果的準(zhǔn)確性和公正性[6]。同時,智能化評估能夠?qū)崿F(xiàn)多維度個性化評估,極大豐富了評估結(jié)果的呈現(xiàn)形式[7-8]。LLM的出現(xiàn)使得智能化評估的使用門檻大大降低,評估形式更加多樣,實(shí)踐可行性顯著提升[9]。
為了提高職業(yè)能力評估水平,全面衡量學(xué)生的職業(yè)能力,本文旨在探討基于LLM的高職學(xué)生職業(yè)能力評估及反饋實(shí)踐研究。針對當(dāng)前職業(yè)教育評估實(shí)踐中存在的問題,提出新時代的職業(yè)能力評估內(nèi)涵。結(jié)合當(dāng)前職業(yè)能力評估的需求和特點(diǎn),分析LLM在職業(yè)能力評估領(lǐng)域的適用范圍及其顯著優(yōu)勢,確定基于LLM的職業(yè)能力評估路徑,提出具體的實(shí)施方案?;贚LM的職業(yè)能力評估方法,利用LLM強(qiáng)大的自然語言理解和生成能力,對語義表達(dá)范疇內(nèi)的職業(yè)能力進(jìn)行自動化、智能化、個性化的評估和反饋,極大提升了評估效率和質(zhì)量,減少了評分誤差和主觀干擾,為職業(yè)院校教育質(zhì)量評估和育人模式改革提供理論依據(jù)。
二、新時代職業(yè)能力評估內(nèi)涵
高職院校要落實(shí)立德樹人根本任務(wù),高質(zhì)量實(shí)現(xiàn)職業(yè)院校教育目標(biāo),職業(yè)能力的評估結(jié)果是重要參考。很多研究從不同研究領(lǐng)域和角度對職業(yè)能力進(jìn)行了界定,形成的共識是,職業(yè)能力是高職學(xué)生完成職業(yè)活動所需的素養(yǎng)、知識、技能等一系列能力單元的綜合。國內(nèi)學(xué)者在廣泛研究德國職業(yè)教育的基礎(chǔ)上,將職業(yè)能力劃分為:專業(yè)能力與關(guān)鍵能力(也稱為“職業(yè)核心能力”)[10-11]。
專業(yè)能力是指學(xué)生未來從事某一特定職業(yè)活動所必須具備的能力,強(qiáng)調(diào)專業(yè)的應(yīng)用性和針對性,注重專業(yè)知識和技能的掌握程度。專業(yè)能力是在具備一定專業(yè)理論知識的基礎(chǔ)上,經(jīng)過大量與職業(yè)活動相關(guān)的實(shí)踐而獲得的能力,包括專業(yè)知識、專業(yè)技能和專業(yè)態(tài)度。
關(guān)鍵能力是德國社會教育學(xué)家梅爾騰斯于1972年首次提出的概念。應(yīng)世界教育發(fā)展趨勢,我國勞動和社會保障部于 1998 年在《國家技能振興戰(zhàn)略》中提出了關(guān)鍵能力的概念,沿用至今。關(guān)鍵能力是專業(yè)能力的延伸和抽象,屬于與實(shí)際職業(yè)崗位所需知識和技能無直接聯(lián)系的能力范疇,是從事任何職業(yè)崗位都必不可少的一種能力[12]。它適用于各種職業(yè),能適應(yīng)崗位不斷變化,是伴隨人終生的可持續(xù)發(fā)展能力。傳統(tǒng)的關(guān)鍵能力包括再學(xué)習(xí)能力、分析解決問題能力、創(chuàng)新能力、團(tuán)隊(duì)協(xié)作能力、適應(yīng)能力、人際交往能力等。
在職業(yè)教育高質(zhì)量發(fā)展的契機(jī)下,新時代職業(yè)能力評估的要求如下:
(一)突出專業(yè)能力評估的職業(yè)導(dǎo)向作用
高職人才培養(yǎng)具有明確的目標(biāo)導(dǎo)向,即服務(wù)于特定的產(chǎn)業(yè)、行業(yè)及崗位。專業(yè)能力的評估核心是從業(yè)者能否勝任本職工作任務(wù)。職業(yè)能力評估體系應(yīng)具備鮮明的行業(yè)特色,評估內(nèi)容應(yīng)對接崗位實(shí)際工作任務(wù),評估結(jié)果應(yīng)能反映學(xué)生能力與崗位要求的匹配度。目前鮮有院校將學(xué)生職業(yè)能力作為一項(xiàng)獨(dú)立的評價內(nèi)容,大多仍沿用學(xué)生的綜合素質(zhì)測評方案對學(xué)生進(jìn)行評價。高職院校應(yīng)該發(fā)揮專業(yè)能力評估的職業(yè)導(dǎo)向作用,而不是將職業(yè)能力僅作為綜合素質(zhì)測評下的隱性能力。
(二)關(guān)鍵能力評估與時代發(fā)展同頻
關(guān)鍵能力具備普遍適用性和廣泛遷移性。在信息時代背景下,學(xué)習(xí)方法和工作模式都在快速變化,這對學(xué)生的適應(yīng)能力和終生學(xué)習(xí)能力提出了更高的要求。關(guān)鍵能力的評價需要聯(lián)系實(shí)際,與社會發(fā)展相適應(yīng)。關(guān)鍵能力的評估也要與國家 “立德樹人”的育人目標(biāo)相適應(yīng)。2020年10月,國務(wù)院印發(fā)了《深化新時代教育評價改革總體方案》(以下簡稱“《總體方案》”)?!犊傮w方案》重點(diǎn)評價職業(yè)學(xué)校(含技工院校)“德技并修”等情況,這不僅說明“德技并修”是中國特色職業(yè)教育立德樹人的根本特征,也是新時代我國職業(yè)教育評價導(dǎo)向的基本要求。職業(yè)院校面向的崗位對“德”的內(nèi)涵解讀不同但均有要求,職業(yè)道德、職業(yè)操守、職業(yè)素養(yǎng)是從事任何崗位事業(yè)的根基,也是關(guān)鍵能力評價中的重要組成部分。
(三)職業(yè)能力評價體系升級
目前,多數(shù)高職院校職業(yè)能力評價缺乏統(tǒng)一的評價標(biāo)準(zhǔn),主要參考各自的教學(xué)特點(diǎn)、管理習(xí)慣而自擬評價標(biāo)準(zhǔn)。評估過程缺乏系統(tǒng)性設(shè)計(jì),評價結(jié)果波動性大、準(zhǔn)確性低。無論是反映辦學(xué)質(zhì)量,還是學(xué)生的崗位勝任力水平,這樣的職業(yè)能力評估結(jié)果均缺乏說服力。健全職業(yè)能力評估體系,多方評價主體廣泛參與,采用科學(xué)的評價指標(biāo)和多樣的評價辦法,提高職業(yè)能力評價體系系統(tǒng)化和科學(xué)化水平,將有助于提高院校人才培養(yǎng)水平,增加行業(yè)對專業(yè)人才的認(rèn)可。
(四)職業(yè)能力評價方式智能化
《總體方案》明確提出,要充分利用人工智能、大數(shù)據(jù)等信息技術(shù)手段,提高職業(yè)能力評價智能化水平,促進(jìn)人工智能與職業(yè)能力評價融合發(fā)展。應(yīng)創(chuàng)新信息化評價工具,客觀分析學(xué)生的職業(yè)能力,鼓勵探索規(guī)?;殬I(yè)能力在線評價系統(tǒng),促進(jìn)職業(yè)教育高質(zhì)量發(fā)展。智能化評價技術(shù)能全面記錄學(xué)生的學(xué)習(xí)過程,豐富評價數(shù)據(jù)的采集維度和數(shù)量,通過海量數(shù)據(jù)促進(jìn)教師精準(zhǔn)教學(xué)和學(xué)生個性化發(fā)展。
三、LLM職業(yè)能力評估適用性分析
LLM是在大規(guī)模文本語料上訓(xùn)練、包含千億級別(或更多)參數(shù)的語言模型,具有強(qiáng)大的語言理解和生成能力,可以在多種任務(wù)和領(lǐng)域中展現(xiàn)出人類水平,甚至超越人類的表現(xiàn)[13]。
語言是職業(yè)能力評估的媒介,LLM強(qiáng)大的語言生成能力和理解能力能夠最大化地發(fā)揮語言在理論測評中的載體作用。通過LLM生成豐富、客觀、全面的評估題目,能夠引導(dǎo)學(xué)生完整表達(dá),展現(xiàn)出全面的認(rèn)知水平。LLM強(qiáng)大的自然文字解析能力和語義理解能力,能夠?qū)Ρ辉u估者的表達(dá)內(nèi)容進(jìn)行處理和分析,對學(xué)生的掌握程度進(jìn)行精準(zhǔn)衡量,參考預(yù)設(shè)的標(biāo)準(zhǔn)給出具體的評價。
得益于LLM的可塑性,結(jié)合用戶的要求和反饋,利用對齊微調(diào)等其他模型訓(xùn)練技術(shù),能夠?qū)崿F(xiàn)模型的價值觀或偏好向人類評估者看齊,更加符合用戶的期望,提高評估的客觀性和合理性。在人機(jī)交互層面,LLM的交互形式以文字為主,同時支持圖像交互、語音交互等多種輸入和輸出方式,完成評估過程的多樣化交互,提供了多樣的選擇空間[14]。
相較于傳統(tǒng)職業(yè)能力測試,通過LLM職業(yè)能力評估具有以下顯著優(yōu)勢:
第一,LLM可獲取性高、入口便捷、測試快速、反饋及時,極大方便了評估體系的構(gòu)建和部署。對于評估者而言,降低了使用門檻,提高了評估效率。對于學(xué)生而言,LLM是一個“私人導(dǎo)師”,能夠?yàn)閷W(xué)生的自我提升提供助力。
第二,模型的可塑性和針對性強(qiáng)。LLM具備上下文學(xué)習(xí)和指令遵循的能力,能夠根據(jù)不同的評估標(biāo)準(zhǔn)和要求,靈活適應(yīng)不同的職業(yè)能力評估任務(wù)??梢酝ㄟ^針對性、定制性訓(xùn)練,讓模型在特定的領(lǐng)域和行業(yè)具有更強(qiáng)的適用性,匹配不同學(xué)科、不同深度的測試要求。
第三,評估方式多樣化。LLM能夠?qū)崿F(xiàn)以自然語言作為媒介的評估,借助AI交互方式,拓展出豐富的測評形式,包括口試、面談、分析報告、書面答卷等。
在當(dāng)前技術(shù)發(fā)展階段,LLM職業(yè)能力評估存在的不足和風(fēng)險如下:
第一,意識形態(tài)問題。在西方主流的LLM訓(xùn)練數(shù)據(jù)集中,大部分內(nèi)容由英語或其他一些西方主流語言表述,主要應(yīng)用于西方語境,其中文性能、潛在風(fēng)險還未得到深入充分的評估[15]。在職業(yè)能力評價的過程中,需要避免隱蔽的西方立場對學(xué)生價值觀塑造、主流意識形態(tài)認(rèn)同的潛在消極影響。因此開發(fā)適合于中國教育特色的LLM是可行之徑。
第二,訓(xùn)練數(shù)據(jù)集質(zhì)量要求高。當(dāng)前LLM的訓(xùn)練過程主要依賴無監(jiān)督機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)模型從大量無標(biāo)簽的數(shù)據(jù)中自動學(xué)習(xí)??梢詫δP瓦M(jìn)行人工微調(diào)和干預(yù),但LLM輸出的內(nèi)容主要反映其訓(xùn)練數(shù)據(jù)集中的內(nèi)容,因此模型水平與訓(xùn)練數(shù)據(jù)集質(zhì)量密切相關(guān),如果質(zhì)量不佳則可能產(chǎn)生謬誤,在評估過程中會對評估效果和評估可信度產(chǎn)生一定影響。
第三,算力成本大。專業(yè)化的評估需要高質(zhì)量的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,在模型訓(xùn)練過程中需要的算力資源龐大。因此,如何降低成本、提升安全性和可控性,是進(jìn)一步研究的方向。
第四,無法應(yīng)用于非文本化場景。LLM本質(zhì)是語言模型,只能評測語義表達(dá)范圍內(nèi)的內(nèi)容,如識記、認(rèn)知、程序性等知識,但不能應(yīng)用于真實(shí)環(huán)境和物理交互的場景。
四、基于LLM的職業(yè)能力理論評估路徑
結(jié)合LLM的特點(diǎn)及優(yōu)勢,本研究構(gòu)建了基于LLM的職業(yè)能力評估體系。首先,結(jié)合行業(yè)協(xié)會、企業(yè)需求及院校培養(yǎng)目標(biāo)制定評價標(biāo)準(zhǔn),明確評價內(nèi)容。其次,確定評估框架下的具體評估指標(biāo)和評估形式,通過融入行業(yè)知識、對齊評價標(biāo)準(zhǔn)等手段對模型進(jìn)行針對性訓(xùn)練,使模型具備專業(yè)評估能力。再次,采用與評估目標(biāo)相適應(yīng)的評價形式,要求被評估者與LLM進(jìn)行交互,完成評估過程。最后,由LLM提供指標(biāo)評價結(jié)果,通過特定的統(tǒng)計(jì)方法,呈現(xiàn)最終的職業(yè)能力評估結(jié)果和反饋意見(見圖1)。
(一)評價標(biāo)準(zhǔn)建立及其依據(jù)
職業(yè)能力是衡量學(xué)生能否勝任崗位的重要參考,因而應(yīng)具備職業(yè)特色。評價標(biāo)準(zhǔn)必須與崗位的需求一致,應(yīng)充分了解企業(yè)的各項(xiàng)職業(yè)活動,必要時可以由企業(yè)和行業(yè)協(xié)會參與制定,以確保評價標(biāo)準(zhǔn)的真實(shí)性、權(quán)威性和可信度。同時,評價標(biāo)準(zhǔn)應(yīng)基于可量化的具體指標(biāo)和某種顯性特征,以保證評估的客觀性和準(zhǔn)確性。職業(yè)能力評價標(biāo)準(zhǔn)與院校人才培養(yǎng)目標(biāo)密切相關(guān),是衡量教學(xué)效果和辦學(xué)質(zhì)量的重要依據(jù)。
職業(yè)能力的評價過程應(yīng)始終貫徹《中華人民共和國職業(yè)教育法》的要求,遵循行業(yè)和企業(yè)的需求,反映職業(yè)活動的本質(zhì)和特點(diǎn)。以能力本位為原則,明確評價目標(biāo)、評價內(nèi)容、評價方法、評價形式、評價時間和評價標(biāo)準(zhǔn)等要素,突出對知識技能和關(guān)鍵能力的評估。突出實(shí)踐性、靈活性和開放性,適應(yīng)不同的評價場景和評價對象。由第三方制定評價標(biāo)準(zhǔn),保證公正性與客觀性。嚴(yán)格遵循行業(yè)標(biāo)準(zhǔn)的同時,充分聽取政府、行業(yè)、企業(yè)及高職院校等各方面的意見和建議,制定出多元化的評價標(biāo)準(zhǔn)機(jī)制。
(二)評估形式與問題設(shè)置
設(shè)置評估問題的核心目標(biāo)是考查學(xué)生的認(rèn)知能力水平。評估問題應(yīng)該與學(xué)科的教育標(biāo)準(zhǔn)和育人目標(biāo)相統(tǒng)一,反映被評估者所應(yīng)具備的基本知識、技能和素養(yǎng)。問題設(shè)置應(yīng)盡量參考真實(shí)案例,與實(shí)際工作場景密切相關(guān)。問題應(yīng)該是開放式的,要求評估者運(yùn)用分析、綜合、評價和創(chuàng)造等高階思維技能,提出多種觀點(diǎn)和解決方案。問題應(yīng)當(dāng)簡潔清晰,避免內(nèi)容模糊和存在偏見。問題應(yīng)全面和多樣化,涵蓋學(xué)科的不同方面和維度。例如,針對不同認(rèn)知水平的學(xué)生,可利用布魯姆分類框架設(shè)計(jì)不同層次的問題。
(三)模型訓(xùn)練與標(biāo)準(zhǔn)對齊
評價標(biāo)準(zhǔn)和評價形式完成確認(rèn)之后,需對LLM進(jìn)行針對性訓(xùn)練,使其具備完整的專業(yè)評估能力。訓(xùn)練的方法包括融入行業(yè)知識、對齊評價標(biāo)準(zhǔn)和優(yōu)化生成質(zhì)量等。訓(xùn)練過程需融入相關(guān)的行業(yè)知識,如基本的概念、原理、方法和工具等。同時訓(xùn)練過程可以對齊評價標(biāo)準(zhǔn),根據(jù)不同的領(lǐng)域、維度和指標(biāo),生成相應(yīng)的評分和反饋。另外,模型需要根據(jù)評估規(guī)則和應(yīng)試規(guī)范進(jìn)行調(diào)整,包括基本的考試規(guī)則和考試道德約束,防止出現(xiàn)作弊等情況。
(四)評估過程要求
評估者應(yīng)事先了解并熟悉這種新型的評估形式,參加有針對性的培訓(xùn)和指導(dǎo)。評估時應(yīng)引導(dǎo)被評估者充分表達(dá)他們的主張和觀點(diǎn),遵循學(xué)術(shù)規(guī)范,采用清晰、連貫、準(zhǔn)確的語言描述評估過程中提出的問題。
(五)評估結(jié)果量化
評估過程的核心是對被評估者的表現(xiàn)進(jìn)行量化反映。評價標(biāo)準(zhǔn)應(yīng)透明、有效、可靠和公平,需要反映學(xué)科的期望和學(xué)習(xí)成果。評估的角度應(yīng)是多維的,涵蓋不同方面和不同領(lǐng)域的表現(xiàn),如內(nèi)容知識、概念理解、批判性思維、問題解決、溝通能力和創(chuàng)造力等。評價標(biāo)準(zhǔn)應(yīng)盡量細(xì)化,提供清晰的反饋,具體指出被評估者的優(yōu)勢和劣勢。通過同一次評估下不同評估對象之間的橫向?qū)Ρ?、不同評估輪次之間的相互對比,保證評價標(biāo)準(zhǔn)的規(guī)范性,呈現(xiàn)更加可信的評估結(jié)果。最后,通過具體的分?jǐn)?shù)和字母等級量化評估結(jié)果。
(六)評估結(jié)果呈現(xiàn)
由LLM生成指標(biāo)評價結(jié)果,給出反饋意見,通過圖表、報告和建議等呈現(xiàn)最終的職業(yè)能力評估結(jié)果。例如,為呈現(xiàn)特定專業(yè)學(xué)生的職業(yè)能力評估結(jié)果,可使用圖表的方式展示被評估者在不同領(lǐng)域和維度下的分?jǐn)?shù)和排名,也可使用報告的方式總結(jié)出被評估者的優(yōu)勢和不足,給出具體的分析和解釋。
五、評估案例
以城市軌道交通專業(yè)學(xué)生職業(yè)能力評估為案例,闡釋基于LLM的職業(yè)能力評估流程。使用的LLM為GPT-4.0。
首先確定評價標(biāo)準(zhǔn)。結(jié)合交通運(yùn)輸部2022年發(fā)布的《城市軌道交通客運(yùn)服務(wù)規(guī)范》、城市軌道交通服務(wù)員國家職業(yè)技能標(biāo)準(zhǔn),以及地鐵運(yùn)營公司從行業(yè)角度對培養(yǎng)計(jì)劃提出的指導(dǎo)意見,從行業(yè)、企業(yè)、崗位層面提煉評估指標(biāo)和職業(yè)能力的具體范圍,確定出城市軌道交通運(yùn)營管理專業(yè)學(xué)生的職業(yè)能力評估指標(biāo)體系。職業(yè)能力評估需要對學(xué)生進(jìn)行多能力多維度評估,以下是針對該專業(yè)的一項(xiàng)專業(yè)核心能力,客運(yùn)服務(wù)能力為例的職業(yè)能力評估流程。
客運(yùn)服務(wù)能力是指在城市軌道交通運(yùn)輸中,能夠?yàn)槌丝吞峁﹥?yōu)質(zhì)、安全、便捷、舒適服務(wù)的能力;是在具備較強(qiáng)的專業(yè)知識儲備的基礎(chǔ)上,能夠處理車站服務(wù)、票務(wù)、信息咨詢、投訴等多種復(fù)雜情景的一種職業(yè)能力。具體能力維度包括:基礎(chǔ)常識、服務(wù)規(guī)范語言、票務(wù)服務(wù)、車站服務(wù)、應(yīng)急處理、客傷處理等。
融入行業(yè)知識與教學(xué)資源,對齊評價標(biāo)準(zhǔn),對模型進(jìn)行訓(xùn)練。將國家規(guī)范、地鐵站務(wù)員崗位細(xì)則、規(guī)劃教材等優(yōu)質(zhì)訓(xùn)練材料進(jìn)行整理,作為訓(xùn)練數(shù)據(jù)集和基礎(chǔ)知識對模型進(jìn)行預(yù)訓(xùn)練。訓(xùn)練模型后,采用技能大賽和案例對模型進(jìn)行測試,檢驗(yàn)?zāi)P蛯W(xué)習(xí)成果。通過專業(yè)教師和行業(yè)專家對模型進(jìn)行人工標(biāo)注,最大程度地保證模型輸出與行業(yè)標(biāo)準(zhǔn)對齊。經(jīng)過教學(xué)一線教師和企業(yè)專家檢測,訓(xùn)練后的LLM能夠根據(jù)要求輸出全面準(zhǔn)確、價值觀合理的評估內(nèi)容。
根據(jù)具體測試的要求擬定提示詞。在經(jīng)過預(yù)訓(xùn)練、提示微調(diào)后,需要通過提示策略與LLM進(jìn)行交互,以完成評估過程。合理的提示能夠顯著提升LLM在處理任務(wù)時的表現(xiàn)。受限于文章篇幅,核心提示詞如表1所示。
以某次測試過程為例,LLM評估過程部分生成內(nèi)容如表2所示。
分析表中內(nèi)容發(fā)現(xiàn),經(jīng)過訓(xùn)練的LLM能夠高質(zhì)量輸出內(nèi)容,生成全面系統(tǒng)的評估結(jié)果,能夠考查被評估者的各項(xiàng)能力。在評估結(jié)束后,能夠輸出評估題目及題目設(shè)計(jì)意圖,方便監(jiān)督與反饋。
最后統(tǒng)計(jì)某學(xué)校城市軌道交通運(yùn)營管理專業(yè)30名學(xué)生完成LLM能力評估在不同行為指標(biāo)上的得分情況,與學(xué)生在相近科目的期末評測成績進(jìn)行比對。為避免因評判尺度導(dǎo)致的分?jǐn)?shù)差異,對數(shù)據(jù)進(jìn)行歸一化處理,處理后的LLM評估與紙質(zhì)測評成績對比如圖2所示。
對圖表進(jìn)行分析可知,學(xué)生整體評估情況與期末測評結(jié)果接近,成績相似度為84%,證明了基于LLM評估的有效性和可信度。采用自動化的評估,能夠避免人工評價中存在的個人偏好,保證評估過程的客觀性。較傳統(tǒng)筆試評估而言,兩種方式在被評估者參與評估的過程中耗時基本相同,但基于LLM的職業(yè)能力評估在評估過程結(jié)束后即可生成結(jié)果,相較于傳統(tǒng)筆試,效率提升顯著。云平臺的部署能夠滿足大量學(xué)生同時在線評估,大幅提升評估效率。利用LLM生成技術(shù)增強(qiáng)型試題,對學(xué)生進(jìn)行技術(shù)評估,可以有效收集學(xué)生對試題的反饋,從而更好地考查學(xué)生的知識、能力和素養(yǎng)水平。在評估結(jié)束后,能夠針對每個評估對象的情況給出合適的提升意見,做到評估反饋的正面導(dǎo)向,顯著提升了評估的自動化和系統(tǒng)化程度,對于推廣科學(xué)的教育教學(xué)評價有深刻意義。
六、結(jié)論與展望
基于LLM提出高職學(xué)生職業(yè)能力評估的設(shè)想,提供了完整的實(shí)施路徑,對推動職業(yè)教育評估的改革具有現(xiàn)實(shí)意義。首先,針對當(dāng)前職業(yè)能力評估存在的問題進(jìn)行簡要分析,對新時代職業(yè)能力評估內(nèi)涵進(jìn)行具體闡釋,詮釋現(xiàn)階段職業(yè)能力評估的變革方向及導(dǎo)向作用。其次,論證LLM對職業(yè)能力評估的可行性和適用范圍。利用LLM的自然語言理解和生成能力,實(shí)現(xiàn)自動化、智能化、個性化的客觀評估結(jié)果。隨后研究構(gòu)建出基于LLM的職業(yè)能力評估路徑,包括制定評價標(biāo)準(zhǔn)、設(shè)置評估形式、模型訓(xùn)練、過程要求、結(jié)果量化和呈現(xiàn)等具體步驟。最后,通過城市軌道交通專業(yè)的案例詳細(xì)分析了評估流程,驗(yàn)證了訓(xùn)練后的模型能夠輸出合理的評估內(nèi)容,表明了該方法的有效性。
由于LLM存在的解釋性不足問題會對評價結(jié)果可信度產(chǎn)生一定影響,后續(xù)研究將進(jìn)一步提升評估過程的穩(wěn)定性和公平性。在模型訓(xùn)練階段需要大量算力和優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)集等資源,在未來研究中,應(yīng)持續(xù)提升模型的通用性以降低應(yīng)用門檻和使用成本,將基于LLM的職業(yè)能力評估方法推向更為成熟和完善的階段。
本研究對于推進(jìn)職業(yè)教育評估體系的自動化和科學(xué)化改革具有參考價值?;贚LM的職業(yè)能力評估為職業(yè)院校提供了一種新的評價方式,該方法還可廣泛應(yīng)用于教育質(zhì)量監(jiān)控、學(xué)習(xí)診斷、學(xué)習(xí)反饋等領(lǐng)域,為數(shù)字化育人、智能化輔助教育提供參考。
參考文獻(xiàn):
[1] Wei J,Tay Y,Bommasani R,et al. Emergent Abilities of Large Language Models [J]. arXiv Preprint arXiv:2206.07682,2022.
[2] Brown T,Mann B,Ryder N,et al. Language Models Are Few-Shot Learners [J]. Advances in Neural Information Processing Systems,2020,(33):1877-1901.
[3] 楊瓊.高職學(xué)生職業(yè)能力評價體系研究[D].金華:浙江師范大學(xué),2010.
[4] 金洪勇.高職學(xué)生職業(yè)能力評價體系的構(gòu)建與實(shí)施研究[J].天津職業(yè)院校聯(lián)合學(xué)報,2018,20(08):3-7.
[5] 楊華利,耿晶,胡盛澤,等.人工智能時代的教育測評通用理論框架與實(shí)踐進(jìn)路[J].中國遠(yuǎn)程教育,2022,(12):68-77.DOI:10.13541/j.cnki.chinade.2022.12.007.
[6] 劉浩,劉笑笑,辛濤.人工智能賦能基礎(chǔ)教育監(jiān)測的應(yīng)用與挑戰(zhàn)[J].北京師范大學(xué)學(xué)報(社會科學(xué)版),2022,(02):136-142.
[7] 彭波,王偉清,張進(jìn)良,等.人工智能視域下教育評價改革何以可能[J].當(dāng)代教育論壇,2021,(06):1-15.DOI:10.13694/j.cnki.ddjylt.20211012.001.
[8] 羅清萍.新時代高職學(xué)生職業(yè)核心能力評價體系研究[J].武漢工程職業(yè)技術(shù)學(xué)院學(xué)報,2022,34(03):74-79.
[9] 蔣華林.人工智能聊天機(jī)器人對科研成果與人才評價的影響研究——基于ChatGPT、Microsoft Bing視角分析[J].重慶大學(xué)學(xué)報(社會科學(xué)版),2023,29(02):97-110.
[10] 姜大源,吳全全.當(dāng)代德國職業(yè)教育主流教學(xué)思想研究——理論、實(shí)踐與創(chuàng)新[M].北京:清華大學(xué)出版社,2007:25.
[11] 曾旭華,李彬,李福東.高職學(xué)生職業(yè)能力指標(biāo)體系構(gòu)建的實(shí)證研究[J].職教論壇,2014,(21):28-32.
[12] 查英華,朱春杉.《悉尼協(xié)議》框架下高職學(xué)生職業(yè)核心能力評價指標(biāo)體系構(gòu)建[J].職業(yè)技術(shù)教育,2020,41(11):54-58.
[13] 托雷·霍爾,李思琦,孫波.生成式人工智能對歐洲教育的影響及對中國的啟示[J].中國教育信息化,2023,29(06):8-16.
[14] 李志民.ChatGPT本質(zhì)分析及其對教育的影響[J].中國教育信息化,2023,29(03):12-18.
[15] 熊明輝,池驍.論生成式大語言模型應(yīng)用的安全性——以ChatGPT為例[J].山東社會科學(xué),2023,(05):79-90.DOI:10.14112/j.cnki.37-1053/c.2023.05.009.
Research on Assessment of Vocational Competence for Vocational Students Based on Large Language Models
Liu Xiaotong" Zhang Guo’ao
Qingdao Engineering Vocational College,Qingdao,Shandong,266000
Abstract:This study aims to explore the application of large language models in vocational competency assessment. The study analyzes the problems existing in current vocational competency assessment,and the feasibility and advantages of using LLM to assess vocational competencies. It then proposes an assessment approach based on LLM and analyzes its key elements. Finally,it verifies the effectiveness of this method by combining practical vocational competency assessment cases. The results show that,compared with traditional assessment methods,the assessment based on LLM achieves automation and accuracy,proving the effectiveness and feasibility of the automatic LLM on LLM. The realization of automated assessment and feedback via large language models is profoundly significant for promoting automation and scientization of vocational education assessment systems,and has extensive application potential in educational practice.
Key words:Vocational Competency Assessment,Large language Models,Vocational Education,Automated Assessment
(責(zé)任編輯:陳暢)