中圖分類號:TP391.4;TP181 文獻標識碼:A 文章編號:2096-4706(2025)12-0079-06
Automatic Correction of Multimodal Experimental Reports Driven by LLM
XU Jining, HUANG Nan, SONG Hao (SchoolofElectricalandControlEngineering,North China UniversityofTechnology,Beijing10o144,China)
Abstract:Automatic correction of experimental reports isan important task in the field of intellgent education. FollowingteOBEconcept,tepaperreproduces thteacher'sorrctionideatransfoms tesoingitesitoquestons,and coordinates temultimodalresposeiformatiosuchastext,tables,ndpictures tosoresostoblosetoteactuateaching and curiculum construction needs.Intheunderstanding and scoring stageof multimodal information,on the basisof Deep Learming,LLMisitroduced torealizethecontentextractionandtransformationoftablequestions,andsolvethdifculties of positioningandlogicaldiscrimination.Fortextcontent,BERTisusedtounderstand.Fortheimagecontent,theself-training modelconstructed by thecombination ofBERTand ResNet-18 isused to scale the image matching weightsforthe image featureevaluationingraphicquestions.Theschemeusessmallsampledata fortraining,adapts todiferent subject experiments, andovercomes the pain points such as insuffcient generalization and migration caused byrelying onalarge amount of data training.Through the correction test of two courses,the average accuracy of the report score reaches 92.20% ,bridging the gap of automatic correction of non-customized experimental reports.
Keywords: automatic correction of experimental report; Deep Learning; LLM
0 引言
隨著人工智能技術(shù)融入教育,各類作業(yè)考試的自動評分系統(tǒng)使教師的工作變得更加高效。實驗報告作為實踐能力培養(yǎng)的重要教學載體,采用人工智能自動批改不僅可以提高效率,大幅度減少教師的批改時間,消除教師個人因素導致的評分偏差,提升評分公平性;而且AI批改系統(tǒng)通過算法和大量數(shù)據(jù)訓練,能夠準確識別學生的作答過程和具體錯因,提供更加客觀的評分和個性化的即時反饋。通過收集數(shù)據(jù),它還能夠為教師和管理者提供可靠的學情分析報告,幫助優(yōu)化教學內(nèi)容和方法,為學生提供更加富有成效的指導。
當前,編程練習的自動批改、在線作業(yè)批改、AES自動論文評分、虛擬實驗教學等應用場景的智能批改準確性和有效性越來越得到用戶的認可。然而,其他理工科實驗報告的批改因其教學方式和內(nèi)容的特點,需要處理復雜問題、圖表或非標準化答案,仍存在很多困難。例如,目前自動批改大多只能勝任單點、單一模態(tài)評分,很難基于實驗報告的多種模態(tài)信息進行綜合評價。
以ChatGPT為代表的大語言模型橫空出世,其強大的文本理解和生成能力改變教育教學的面貌[。本文嘗試將大語言模型 (LargeLanguageModel,LLM)引入實驗報告自動批改過程,同時采用ResNet18深度神經(jīng)網(wǎng)絡(luò)預訓練模型處理圖像輸入,提取圖片特征,并用BERT自然語言表示模型理解文本內(nèi)容。將實驗教學預設(shè)目標轉(zhuǎn)化成大語言模型的提問任務(wù),基于問題對實驗報告全文進行匯總分析,得到分析文本和參考評分。最后,利用全連接層對提取的特征進行深入解析和預測,達到更精準合理的評分效果。
1 研究現(xiàn)狀
目前國內(nèi)外關(guān)于實驗報告自動批改的研究中,比較成熟的是編程類課程,多使用測試用例對學生提交的代碼進行評判。其他類別的實驗批改技術(shù)近十年來也受到了廣泛關(guān)注,如表1所示。
表1實驗報告模態(tài)類別和解決技術(shù)
本文通過嘗試模擬教師的報告批改思路和流程,遵循OBE的教學理念,以問題為導向,在學生的實驗報告全文中搜索與問題相關(guān)的作答信息,對每個考核問題進行多模態(tài)綜合評分,并依據(jù)教師設(shè)定的報告評分規(guī)則匯總各考核點成績,最終得出實驗報告的綜合評價。
2應用大語言模型的自動批改方案
2.1 批改業(yè)務(wù)流程分析
在實驗教學過程中,教師要依據(jù)學生對實驗目標的理解、操作執(zhí)行的規(guī)范水平、實驗結(jié)果的合理性,以及對實驗過程的分析和反思來進行評分。除了操作執(zhí)行外,其他考核點大多通過實驗報告來反映。
教師按照OBE理念將實驗教學目標設(shè)置為考核評分點,并以問題的形式呈現(xiàn)。這些問題可方便地作為實驗教學評價和教師反饋的依據(jù),直接用于課程的形成性評價和達成性評價。自動批改過程就是從實驗報告中逐個尋找這些問題答案的過程。這種批改思路最大限度地貼近了教學的需求和邏輯。
圖1展示了基于實驗教學目標設(shè)置的報告評價考核點,旨在評估學生在某個知識和能力維度的認知水平和應用能力。這就意味著學生對某個考核點問題的全部作答不一定是單一模態(tài)的,可能需要考察數(shù)據(jù)表格、文字簡答、公式、圖片及描述文字等不同內(nèi)容。因此,以問題為導向的自動批改流程引發(fā)了多模態(tài)綜合評分的需求,以保證得到更加精確有效的綜合評分。
圖1問題導向方法在自動批改流程分析思路
2.2實驗報告批改總方案
模擬老師批改實驗報告的過程,可以提煉出教師評分的兩個基本步驟:首先,根據(jù)實驗報告評分的預設(shè)考核點,精準定位到學生報告的相關(guān)作答部分;然后,對作答內(nèi)容進行分析并評分。學生作答內(nèi)容按照形式被分為三類:表格填寫類、文字簡答類和圖片展示類。
教師在查看表格時,關(guān)注的是表格內(nèi)數(shù)據(jù)的準確性和數(shù)據(jù)之間的相互關(guān)系。他們首先提取表格數(shù)據(jù),然后按照規(guī)則判斷數(shù)據(jù)是否合理。在考察圖片時,教師會判斷圖片是否與所討論的主題緊密相關(guān),通過學生的上下文描述和圖片內(nèi)容來判斷圖片的切題性,隨后考察圖片的正確性。通過考察圖片的相關(guān)性和正確性,教師可以判斷學生對實驗圖片是否真正理解。
考核問題答案為導向。對于表格和文字簡答類問題,利用大語言模型提取相關(guān)內(nèi)容、分析表格參數(shù)和相關(guān)規(guī)則,再將返回的信息文本送入相應的評分網(wǎng)絡(luò)。圖片題則使用自主訓練的深度學習模型完成評分。最后將三類題目的得分進行累計,得到報告的總評分。
圖2展示了本文的自動批改方案,該方案以尋找
圖2實驗報告自動批改總流程
3 批改分支任務(wù)實現(xiàn)
表格類、文字簡答類,兩種模態(tài)均利用大語言模型(LargeLanguageModel,LLM)的知識問答功能進行解答。首先,教師需要指導,將實驗報告中的預設(shè)問題轉(zhuǎn)化為LLM的提示詞。本文在眾多大語言模型(LargeLanguageModel,LLM)工具中選擇了Kimi,通過它分析并理解實驗報告的文本內(nèi)容,返回預設(shè)問題的分析結(jié)果,并將結(jié)果送至評分神經(jīng)網(wǎng)絡(luò)以獲取該項分數(shù)。表2展示了Kimi在表格問題、文字簡答題中的作用。
表2Kimi在表格類、文字簡答類問題中的作用
3.1文字簡答題
為每個文本簡答問題對應設(shè)置一個大模型提示詞,并將其與實驗報告一同上傳給Kimi的Client對象。通過Client對象,數(shù)據(jù)可以被送至Kimi的后端服務(wù)器進行分析和交互,從而返回相關(guān)的原文作答。為改進傳統(tǒng)文本處理算法,本文將返回內(nèi)容和問題兩個文本分別輸入BERT模型以提取特征,將兩個文本的特征向量聯(lián)結(jié)后作為輸入,送入文本簡答評分網(wǎng)絡(luò),以此提升了評分預測效果。文本簡答評分網(wǎng)絡(luò)采用堆疊的全連接層結(jié)構(gòu),能夠有效地處理高維數(shù)據(jù),捕捉文本間的復雜關(guān)系,從而提高評分預測的精確性。
3.2 表格問題
表格問題的解決首先模擬教師思考過程,將表格中的數(shù)據(jù)提取和評價規(guī)則轉(zhuǎn)化為提示詞。自動評分時,按照圖3展示步驟進行:
1)利用Python的Document庫從學生報告中提取指定表格,借助Pandas庫將表格數(shù)據(jù)轉(zhuǎn)化為保留了表格格式的字符串。隨后,將表格數(shù)據(jù)字符串與LLM提示詞進行拼接,送入Client對象進行多輪對話,由API返回相關(guān)的參數(shù)。
2)將提取到的表格內(nèi)容參數(shù)再次與考察表格參數(shù)關(guān)系的提示詞進行拼接,送入Client對象的多輪對話API,等待信息返回。
3)將大語言模型返回的客觀分析文本通過BERT提取特征。將BERT模型的CLS標志位送入由多層感知器(MultilayerPerceptron,MLP)構(gòu)成的評分神經(jīng)網(wǎng)絡(luò),輸出對表格內(nèi)容進行評價的歸一化預測分數(shù)。
其中,CLS標志位是評分預測的關(guān)鍵,它代表了整個句子的聚合特征。這里的表格評分神經(jīng)網(wǎng)絡(luò)同樣采用堆疊的全連接層結(jié)構(gòu)。
3.3 圖片題
圖4展示了圖片題評分中引入自主訓練的圖文匹配模型的過程,其中,文字部分沿用BERT作為文本特征提取器,圖像特征提取則采用ResNet-18。該模型將圖片及其周圍的描述信息同時送入,輸出匹配標志位或權(quán)重位來表示圖文的匹配性。不相關(guān)的圖片會被乘以0向量,因此不參與評分;而相關(guān)圖片則根據(jù)匹配權(quán)值縮放圖像特征,進入評分網(wǎng)絡(luò)進行打分。圖文匹配和圖片評分兩個神經(jīng)網(wǎng)絡(luò)的圖像特征提取器并不共用,以實現(xiàn)功能解耦。這是因為圖文匹配模型僅需提供是否匹配的標志位。若未來有更好的預訓練模型可替代當前圖文匹配模型,這種解耦設(shè)計將便于獨立更新圖文匹配模型,而不會影響到圖片評分步驟的特征提取。
4報告自動批改實驗結(jié)果
4.1數(shù)據(jù)集與訓練準備
實驗的環(huán)境參數(shù)如:CPU為Inteli7-10875H8核;GPU為NVIDIARTX2060-6GB;操作系統(tǒng)為Win10(64位系統(tǒng));PyTorch2.0.1;CUDA11.7;Python3.9。
實驗數(shù)據(jù)來源于本校2024年自動控制原理課的“系統(tǒng)穩(wěn)定性分析”實驗報告,共220份。其中50份報告用作深度評分網(wǎng)絡(luò)的測試集,以驗證模型的性能。其余170份報告,根據(jù)學生作答條件和評分規(guī)則,對圖片題和表格題進行數(shù)據(jù)生成,擴充成2000條表格數(shù)據(jù)和4834張圖片數(shù)據(jù),補充成為預訓練集。
根據(jù)實驗教學要求,將實驗報告的考核點轉(zhuǎn)化為10個考核問題,并形成相應的LLM提示詞,部分題目如表3所示。
表3“系統(tǒng)的穩(wěn)定性分析”實驗問題列表
實驗報告內(nèi)題目還有一類判斷題,是關(guān)于評判報告作答表格中數(shù)據(jù)范圍合理性的兩個小題,使用固定代碼進行數(shù)值邏輯判斷進行評分,并且不參與最后的實驗對比。
4.2實驗參數(shù)及實驗結(jié)果分析
表4展示了三種題型評分網(wǎng)絡(luò)在驗證集上的實驗結(jié)果。由于圖片題數(shù)據(jù)集的數(shù)據(jù)量較其他兩種題型的數(shù)據(jù)量更大,所以圖片評分網(wǎng)絡(luò)在驗證集上的表現(xiàn)優(yōu)于其他兩種題型。
表4各題型評分網(wǎng)絡(luò)在驗證集的結(jié)果
文字簡答題和表格題的作答原文及表格分析文本,均通過BERT模型提取特征,隨后送入各自評分網(wǎng)絡(luò)。文字簡答題評分神經(jīng)網(wǎng)絡(luò)和表格題評分神經(jīng)網(wǎng)絡(luò)均由全連接層構(gòu)成,具體參數(shù)如下:
文字簡答題評分神經(jīng)網(wǎng)絡(luò):學習率為 6×10-4 使用Adam迭代優(yōu)化器進行迭代優(yōu)化,損失函數(shù)為MAE損失函數(shù),訓練迭代次數(shù)為100次。
表格題評分神經(jīng)網(wǎng)絡(luò):學習率為 3×10-3 ,使用Adam迭代優(yōu)化器進行迭代優(yōu)化,損失函數(shù)同樣為MAE損失函數(shù),訓練迭代次數(shù)設(shè)為7次。
前文提到,圖片題評分環(huán)節(jié)通過拆分為圖文匹配模型與圖片評分模型這兩個任務(wù)的網(wǎng)絡(luò)組合來完成。兩個任務(wù)的數(shù)據(jù)集,從生成的4834張圖片和170份實驗報告中篩選出質(zhì)量較高的圖片,將它們混合構(gòu)成的數(shù)據(jù)集。圖片題的圖文匹配模型的網(wǎng)絡(luò)結(jié)構(gòu)采用圖像特征提取神經(jīng)網(wǎng)絡(luò)ResNet-18,圖片周圍的文本描述信息的文本特征使用BERT提取和全連接層組成的分類網(wǎng)絡(luò),學習率分別設(shè)置為 6×10-5 和 8×10-4 均使用Adam迭代優(yōu)化器,損失函數(shù)選擇為二元交叉熵損失(BCE),訓練迭代次數(shù)設(shè)為20次。在圖文匹配的圖像預處理中,會使用Resize(調(diào)整大?。┖虲enterCrop(中心裁剪)方法來減小圖片尺寸,這樣做既能防止顯存溢出,又能保留圖片的主要特征。
生成的4834張圖片數(shù)據(jù)作為數(shù)據(jù)集,豐富了訓練數(shù)據(jù)集的多樣性,提升了模型的泛化能力。訓練數(shù)據(jù)集和驗證數(shù)據(jù)的比例為9:1。圖5顯示圖文匹配任務(wù)在預訓練數(shù)據(jù)集上訓練階段的效果圖,可以看到BCE損失最終收斂到0.05以下,模型在驗證集的準確率(Accuracy)和F1指標分別達到 99.60% 和 99.58% 。
圖5圖文匹配任務(wù)在預訓練數(shù)據(jù)集上Loss衰減圖
在圖片評分模型中,圖像特征網(wǎng)絡(luò)采用ResNet-18,評分網(wǎng)絡(luò)則由多層全連接層構(gòu)成。兩者的學習率分別設(shè)為 4×10-5 和 2×10-5 ,并使用Adam迭代優(yōu)化器進行迭代優(yōu)化。損失函數(shù)是MAE損失和MSE損失相加的組合,訓練迭代次數(shù)設(shè)為20次。同圖文匹配模型一樣,訓練數(shù)據(jù)集和驗證數(shù)據(jù)的比例為9:1。圖6顯示,評價指標隨訓練迭代次數(shù)變化趨于收斂。結(jié)合圖5的結(jié)論,這表明模型在該數(shù)據(jù)集上具有優(yōu)異的性能,為后續(xù)的實際應用奠定了堅實的基礎(chǔ)。
圖6圖片評分任務(wù)在預訓練數(shù)據(jù)集上驗證集的效果圖
表5分別展示了三種題型評分網(wǎng)絡(luò)在50份報告的測試集上的實驗結(jié)果,三種題型評分網(wǎng)絡(luò)在測試集上均取得了較好的性能表現(xiàn),其中表格題評分網(wǎng)絡(luò)的表現(xiàn)相對更為優(yōu)異。
表5各題型評分網(wǎng)絡(luò)在測試集的結(jié)果
圖7展示了“系統(tǒng)的穩(wěn)定性分析”實驗中三種題型各自的平均誤差曲線對比??梢钥吹饺N題型絕大多數(shù)的誤差都在1分以內(nèi),表明本實驗具有較好的泛化性,可以在后續(xù)的教學任務(wù)中推廣使用,從而有效減輕老師的工作壓力,將精力轉(zhuǎn)向其他工作。
圖7“系統(tǒng)的穩(wěn)定性分析”實驗中三種題型的平均誤差曲線圖
4.3自動批改效果實驗對比
如前述,在實驗報告批改研究中,僅文獻[14]的作者曹珊珊考慮了多模態(tài)信息。其實驗圖像題的批改方法是將圖像曲線與參考答案的特征點進行匹配,從而得出分數(shù)。該方法僅能解決一部分較為確定的圖片和曲線評分問題。該文獻對不同模態(tài)的信息采用的是分別定位、獨立評分再相加的線性方式。
表5給出了本文所述方案實驗結(jié)果與該文獻實驗效果的比對,指標采用了該作者使用的平均準確率??梢钥闯?,本文方案在提升自動批改對表格邏輯關(guān)聯(lián)分析和多模態(tài)作答內(nèi)容相互匹配性的基礎(chǔ)上,批改結(jié)果的正確率也有出色的表現(xiàn)。
綜合分析表5和圖7,可以分析出“系統(tǒng)的穩(wěn)態(tài)性分析”實驗中圖片題批改效果不夠理想,誤差曲線波動較其他兩種題型更為明顯。主要原因是該實驗的圖片題評價的是多組響應曲線的變化趨勢,而圖片中的曲線形狀不確定性且較為復雜,缺乏統(tǒng)一的參考評價數(shù)據(jù)點來輔助得出作答曲線的誤差,導致曲線的評價結(jié)果稍遜。隨著運行過程數(shù)據(jù)積累,圖片題的評分效果還會有所提升。
表6中最后一行展示了本文自動批改方案在另一門“計算機原理與實踐”課程實驗報告中的應用效果,平均正確率達 93.66% ,這表明本解決方案具有良好的可遷移性和通用性。綜合“系統(tǒng)的穩(wěn)態(tài)性分析”實驗結(jié)果,兩門課程的報告評分平均準確率達到 92.20% 。
表6實驗報告自動批改方案效果對比
5結(jié)論
本文遵循OBE理念,秉持問題導向,復現(xiàn)教師批改實驗報告的思路和內(nèi)在邏輯,最大限度地貼近了一線教學和課程建設(shè)的發(fā)展需求。針對實驗報告中文字、表格、圖片等多種模態(tài)并存的現(xiàn)象,本文引入了大語言模型強大的文本理解和生成能力,解決了評分任務(wù)定位和邏輯判別的難點,且僅需小樣本數(shù)據(jù)集即可完成模型訓練,獲得較高的批改準確率。該方案可適配不同學科實驗,展現(xiàn)出良好的可遷移性,填補了非定制化實驗報告自動批改的空白。未來,隨著人工智能技術(shù)的發(fā)展,我們可在提示詞自動生成和公式識別評價方面進一步深入研究,以更好地解決各類報告的自動批改問題。
參考文獻:
[1]吳蘭岸,閆寒冰,黃發(fā)良,等.大型語言模型在高等教育中的應用分析與現(xiàn)實挑戰(zhàn)[J].現(xiàn)代教育技術(shù),2023,33(8):29-37.
[2]王紹卿.電子實驗報告自動批改系統(tǒng)的設(shè)計與實現(xiàn)[J].山東理工大學學報:自然科學版,2010,24(3):60-63.
[3]蔣進文,張衛(wèi)豐.基于代碼倉庫的作業(yè)自動批改的研究與實現(xiàn)[D].南京:南京郵電大學,2021.
[4]LINOA,ROCHAA,SIZO A.Virtual TeachingandLearningEnvironments: Automatic Evaluation withArtificialNeuralNetworks[J].Cluster Computing,2019,22:7217-7227.
[5]ABDEL-HALEEMAM,EIDMM,ELMESALAWYMM,etal.AGenericAI-Based Technique forAssessingStudentPerformance in Conducting Online Virtual and Remote ControlledLaboratories[J].IEEEAccess,2022,10:128046-128065.
[6]汪生海,劉玉敏.深度學習在虛擬實驗指導與批改中的應用[D].:郵電大學,2018.
[7]張景輝,王培進.課程設(shè)計自動評分系統(tǒng)設(shè)計與實現(xiàn)
[8]張琳,陳夕松,王曉俊.基于遠程開放式測控教學實驗平臺的智能綜合考評系統(tǒng)研發(fā)[D].南京:東南大學,2020.
[9]孫雅琳,文福安.人工智能在語言訓練指導和批改中的應用[D].:郵電大學,2018.
[10] CHENYF,LIUXM,HUOPP,et al.TheDesign andImplementation forAutomaticEvaluation SystemofVirtual Experiment Report[C]//201712th International Conference on Computer Science and Education(ICCSE).Houston:IEEE, 2017:717-721.
[11]姜建華,汪洋,王敏,等.基于互聯(lián)網(wǎng)的實驗教學到實驗報告自動批改[J].實驗室研究與探索,2017,36(5):157-161.
[12]李東煒,胡昊,龍云.基于Halcon平臺的金工實習自動評分系統(tǒng)[J].機電工程技術(shù),2025,54(2):111-115.
[13]ZENGW,GUOJ,HAOL,etal.EvaluationofPhysical Electrical Experiment Operation Process BasedonYOLOv5 and ResNeXt Cascade Networks[J].Neural ProcessingLetters,2022,55(2):1583-1603.
[14]曹姍姍.工科線上實驗報告智能評價系統(tǒng)設(shè)計與開發(fā)[D].:林業(yè)大學,2022.
作者簡介:徐繼寧(1970—),女,漢族,陜西興平人,副教授,博士,研究方向:控制理論與模式識別、智慧教育;通信作者:黃楠(1997一),男,漢族,人,碩士在讀,研究方向:深度學習、自然語言處理、智慧教育;宋浩(1977一),男,漢族,河北廊坊人,工程師,本科,研究方向:邊緣智能與智能制造控制系統(tǒng)、工業(yè)控制網(wǎng)絡(luò)。