陳思文, 孔亞琪, 劉 宇
(南京郵電大學(xué)教育科學(xué)與技術(shù)學(xué)院, 江蘇 南京 210023)
學(xué)業(yè)評價也被稱為教育評價或?qū)W術(shù)評價。通過學(xué)業(yè)評價,教師、學(xué)校或教育系統(tǒng)能夠評估學(xué)生的學(xué)習(xí)進(jìn)度程度,了解學(xué)生的知識和技能水平。學(xué)業(yè)評價通常涉及各種形式的測試和評估,包括標(biāo)準(zhǔn)化測試、項目評價、口頭評價、書面作業(yè)、課堂參與等[1]。盡管學(xué)業(yè)評價在教育過程中發(fā)揮了重要作用,但傳統(tǒng)的學(xué)業(yè)評價方法存在一些短板,一是在反映學(xué)生各項技能和知識水平方面存在一定的局限性,二是需耗費大量時間和資源進(jìn)行評分,而且難以進(jìn)行個性化評價。近年來,生成式人工智能(Artificial Intelligence Generated Content,AIGC)的出現(xiàn)為這些問題提供了可行的解決方案。通過利用深度學(xué)習(xí)和自然語言處理技術(shù),生成式人工智能能夠?qū)W(xué)生的作業(yè)和考試進(jìn)行高效、公正且全面地評價,從而提供更詳盡的反饋,并更好地滿足個性化教學(xué)的需求[2]。因此,生成式人工智能在學(xué)業(yè)評價中的應(yīng)用具有巨大的潛力及價值。然而,在使用AIGC技術(shù)時,需綜合考慮多方面的因素以保證其作用最大化,為學(xué)習(xí)評價提供了創(chuàng)新路徑。本文研究以ChatGPT為例,結(jié)合學(xué)業(yè)評價的生成與應(yīng)用,驗證AIGC在學(xué)業(yè)評價中的應(yīng)用效果及其風(fēng)險應(yīng)對策略。
近年來,生成式人工智能已經(jīng)在教育領(lǐng)域得到了廣泛的應(yīng)用。學(xué)業(yè)評價是教育評價的一個重要領(lǐng)域,其作用是幫助學(xué)生了解自身的學(xué)習(xí)表現(xiàn)與亟待改進(jìn)之處,也能幫助教師更好地指導(dǎo)學(xué)生學(xué)習(xí),提高教學(xué)質(zhì)量。然而,傳統(tǒng)的學(xué)業(yè)評價方法易出現(xiàn)評價趨于主觀性,難以快速評價一定數(shù)量學(xué)生等問題。因此,在學(xué)業(yè)評價中使用AIGC可提高評價效率和準(zhǔn)確性,在一定程度上也降低了評價中人的主觀性的影響[3]。針對生成式人工智能在學(xué)業(yè)評價中的應(yīng)用,本文采用真實的學(xué)生學(xué)習(xí)數(shù)據(jù)作為輸入信息,并將這些數(shù)據(jù)分別輸入ChatGPT(一個大型的語言模型)和交給兩位數(shù)學(xué)專業(yè)教師用于評價,ChatGPT和兩位數(shù)學(xué)專業(yè)教師將針對學(xué)生的學(xué)習(xí)行為表現(xiàn),從診斷、激勵、指導(dǎo)、干預(yù)4個方面進(jìn)行評價。
為了更好地使ChatGPT作為評價者對學(xué)生的學(xué)習(xí)和行為數(shù)據(jù)進(jìn)行診斷、激勵、指導(dǎo)、干預(yù),需要先編寫合適的Prompt(提示詞)引導(dǎo)ChatGPT成為一個評價者。其中,Prompt是一種文本片段,其目的是指導(dǎo)ChatGPT根據(jù)給定的條件生成特定類型的文本輸出,可理解為在給定的上下文中,使用某一主題或話題引導(dǎo)模型生成使用者所需的相關(guān)文本[4]。若要使用ChatGPT對學(xué)生進(jìn)行學(xué)習(xí)評價并評估學(xué)生的課程表現(xiàn),需要先使用合適的Prompt指導(dǎo)ChatGPT生成正確的文本輸出,在此過程中應(yīng)考慮以下幾個方面。
(1)輸入的信息:需要收集學(xué)生課堂內(nèi)外表現(xiàn)的信息,如學(xué)生的出勤率、課堂表現(xiàn)和潛在的課堂問題等。
(2)評估的要素:確定用于評估學(xué)生表現(xiàn)的要素??梢愿鶕?jù)學(xué)生的課堂表現(xiàn),分析學(xué)生對某些概念的掌握程度,回答問題的能力,主動提出問題的頻率,以及對課程的積極參與度等。
(3)Prompt的生成:編寫合適的Prompt,并使用它引導(dǎo)ChatGPT為每名學(xué)生評估他們的表現(xiàn)。例如,給定一名學(xué)生表現(xiàn)評估的Prompt,ChatGPT會基于其內(nèi)部的模型,生成一個文本輸出,這個輸出會包含一名學(xué)生的綜合表現(xiàn),對學(xué)生的學(xué)習(xí)表現(xiàn)進(jìn)行概括,給出學(xué)習(xí)改進(jìn)建議或其他此類有關(guān)文本。
在這個過程中,需要嘗試不同的Prompt,確保ChatGPT生成符合預(yù)期的文本輸出。同時,需要利用反饋告知ChatGPT其生成的文本是否合適,以便ChatGPT進(jìn)一步優(yōu)化生成模型?;贑hatGPT的學(xué)業(yè)評價生成流程如圖1所示。
圖1 基于ChatGPT的學(xué)業(yè)評價生成流程圖Fig.1 Flow chart of academic evaluation generation based on ChatGPT
本文研究選擇了UCI Machine Learning Repository(加州大學(xué)歐文分校機器學(xué)習(xí)數(shù)據(jù)庫)中的Student Performance數(shù)據(jù)集作為學(xué)生信息數(shù)據(jù)來源。此數(shù)據(jù)集包含學(xué)習(xí)兩個課程(數(shù)學(xué)和葡萄牙語)的學(xué)生表現(xiàn)數(shù)據(jù),涵蓋了學(xué)生的個人信息、家庭背景、學(xué)習(xí)習(xí)慣、課堂表現(xiàn)和成績等維度,為本文研究提供了一個全面且深入的視角理解學(xué)生的學(xué)習(xí)情況與生活情況,數(shù)據(jù)集中的部分學(xué)生學(xué)習(xí)數(shù)學(xué)課程數(shù)據(jù)如表1所示。
表1 Student Performance數(shù)據(jù)集中三名學(xué)生學(xué)習(xí)數(shù)學(xué)課程的表現(xiàn)數(shù)據(jù)Tab.1 Data of three students' performance in mathematics courses in the Student Performance dataset
在數(shù)據(jù)處理階段首先進(jìn)行數(shù)據(jù)清洗,檢查并處理數(shù)據(jù)集中的缺失值和異常值以確保數(shù)據(jù)的準(zhǔn)確性; 其次對數(shù)據(jù)進(jìn)行了預(yù)處理,將二元變量轉(zhuǎn)換為文字變量,例如將1和0轉(zhuǎn)換為“是”和“否”,這樣處理的目的是使教師可以更直觀、更輕松地了解學(xué)生的數(shù)據(jù),從而更好地對學(xué)生的學(xué)習(xí)數(shù)據(jù)進(jìn)行評價決策。
Prompt構(gòu)建完成后,以數(shù)據(jù)集中給出的數(shù)學(xué)課堂中隨機選擇三名學(xué)生的學(xué)習(xí)數(shù)據(jù)為例,將每名學(xué)生學(xué)習(xí)數(shù)學(xué)課程的表現(xiàn)數(shù)據(jù)以及Prompt輸入給ChatGPT,即可得到三名學(xué)生基于ChatGPT的學(xué)業(yè)評價內(nèi)容文本。
情感分析是一種自然語言處理技術(shù),它的目標(biāo)是識別和提取文本中的主觀信息,如情緒、觀點、情感等[5]。在學(xué)業(yè)評價中進(jìn)行情感分析的主要原因是更深入地理解評價者的態(tài)度和情緒傾向[6]。這種理解有利于判斷評價的積極性或消極性,以及評價的強度和情感色彩。首先,情感分析可以幫助量化評價內(nèi)容的情感傾向,通過這種方法可以將主觀的、定性的評價轉(zhuǎn)化為可以量化和比較的數(shù)據(jù)。通過文本情感分析技術(shù)可以更公正、客觀地比較ChatGPT生成的評價內(nèi)容和教師的評價內(nèi)容。其次,情感分析可以揭示評價者的情緒狀態(tài)和態(tài)度,這對于理解評價者的觀點與意圖至關(guān)重要。再次,情感分析有利于發(fā)現(xiàn)潛在的問題和改進(jìn)點。例如,如果情感分析結(jié)果顯示某位教師的評價總是傾向于消極,即需要進(jìn)一步研究其評價方法和內(nèi)容,檢查是否有需要改進(jìn)的地方。同樣,如果ChatGPT生成的評價過于消極,那么需要調(diào)整Prompt生成策略,使其更好地反映學(xué)生真實的學(xué)習(xí)情況。
在進(jìn)行情感分析的過程中,本文研究使用中文自然語言處理開源數(shù)據(jù)集weibo_senti_100k作為數(shù)據(jù)源,此數(shù)據(jù)集包含10 萬多條附帶情感標(biāo)注的新浪微博評論,其中正向評論和負(fù)向評論各約5萬條。首先,對輸入的中文文本數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理包括分詞和構(gòu)建詞匯表的過程。其次,使用jieba分詞庫將文本切分為單個詞語,并構(gòu)建詞匯表(vocab)存儲詞語和對應(yīng)的索引。
在預(yù)處理數(shù)據(jù)之后,將數(shù)據(jù)集分為訓(xùn)練集和測試集,使用Bi-LSTM模型進(jìn)行情感分析,這是因為Bi-LSTM在處理序列數(shù)據(jù)方面具有優(yōu)秀的性能。情感分析涉及對文本進(jìn)行時序建模,以捕捉文本中的上下文信息和語義結(jié)構(gòu)。Bi-LSTM作為一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變體,能夠有效地處理序列數(shù)據(jù),并具有一定的記憶能力。構(gòu)建Bi-LSTM模型,該模型包括一個嵌入層(Embedding)、一個雙向LSTM層(Bi-LSTM)、一個全連接層(Fully Connected)和一個Dropout層(Dropout),其模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。首先,將詞匯索引序列作為輸入,通過嵌入層將每個詞語轉(zhuǎn)換為固定維度的詞嵌入向量。其次,將嵌入向量輸入雙向LSTM層中得到隱藏狀態(tài)。最后,將隱藏狀態(tài)經(jīng)過拼接和全連接層操作后,通過Dropout層得到模型的輸出結(jié)果。在訓(xùn)練過程中,使用二元交叉熵?fù)p失函數(shù)(BCEWithLogitsLoss)作為優(yōu)化目標(biāo),并使用Adam優(yōu)化器進(jìn)行參數(shù)更新。
圖2 Bi-LSTM模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Bi-LSTM model architecture diagram
二元交叉熵?fù)p失函數(shù)是用于二分類問題的一種常用損失函數(shù)。假設(shè)有一個二分類問題,其真實標(biāo)簽為y(取值為0或1),模型預(yù)測的概率為p。那么,二元交叉熵?fù)p失函數(shù)可以定義如下:
loss=-[y·ln(sigmoid(logits))+(1-y)·
ln(1-sigmoid(logits))]
(1)
其中,logits表示模型輸出的未經(jīng)sigmoid函數(shù)處理的結(jié)果,y表示真實標(biāo)簽(取值為0或1),sigmoid(·)表示sigmoid函數(shù),ln(·)表示以e為底的自然對數(shù)。
Adam(Adaptive Moment Estimation)優(yōu)化器是一種用于深度學(xué)習(xí)模型的優(yōu)化算法,它結(jié)合了Momentum和RMSprop兩種優(yōu)化算法的優(yōu)點。Adam優(yōu)化器的更新規(guī)則如下。
(1)計算梯度的一階矩估計和二階矩估計:
mt=β1mt-1+(1-β1)gt
(2)
(3)
其中,mt和vt分別是梯度的一階矩估計和二階矩估計,β1和β2超參數(shù)(通常設(shè)為0.9和0.999),gt為在時間步t的梯度。
(2)對一階矩估計和二階矩估計進(jìn)行偏差修正:
(4)
(5)
(3)使用修正后的一階矩估計和二階矩估計更新參數(shù):
(6)
其中,θt是在時間步t的參數(shù),α是學(xué)習(xí)率,ε是一個很小的數(shù)(通常設(shè)為10-8),以防止除以0。在訓(xùn)練和驗證函數(shù)中,模型的預(yù)測結(jié)果和真實標(biāo)簽被輸入損失函數(shù)中計算損失,然后通過反向傳播和優(yōu)化器更新模型參數(shù)。
此外,本文研究使用樸素貝葉斯模型和邏輯回歸模型兩種機器學(xué)習(xí)模型進(jìn)行模型訓(xùn)練,使用Bi-LSTM模型進(jìn)行性能對比,各模型在測試集上的ACC(準(zhǔn)確率)和LOSS(損失)指標(biāo)如表2所示,從表2中的數(shù)據(jù)來看,Bi-LSTM模型在情感分析任務(wù)上明顯優(yōu)于樸素貝葉斯模型和邏輯回歸模型的機器學(xué)習(xí)模型。
表2 Bi-LSTM模型與樸素貝葉斯模型和邏輯回歸模型的性能對比Tab.2 Performance comparison of Bi-LSTM model with naive Bayes and Logistic Regression models
Bi-LSTM(雙向長短期記憶)模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,它能夠處理序列數(shù)據(jù),并且能夠捕捉序列中的長期依賴關(guān)系,這使得它在處理文本數(shù)據(jù)時,能夠理解文本的上下文信息,從而提高模型的預(yù)測性能。①雙向信息流:Bi-LSTM模型不僅能像傳統(tǒng)的LSTM模型那樣從前往后處理序列,還能從后往前處理序列,這使得Bi-LSTM模型在預(yù)測某個位置的輸出時,能夠同時考慮到該位置前后的所有信息,從而提高模型的預(yù)測準(zhǔn)確性。并且,LSTM模型通過引入門控機制,能夠有效地避免在訓(xùn)練深層網(wǎng)絡(luò)時常見的梯度消失和梯度爆炸問題。這使得模型能夠?qū)W習(xí)到更深層次的特征,從而提高模型的預(yù)測性能。②模型的泛化能力:從表2中的數(shù)據(jù)來看,Bi-LSTM模型的損失明顯低于樸素貝葉斯模型和邏輯回歸模型,說明Bi-LSTM模型在文本情感分析任務(wù)上的泛化能力更強。
使用訓(xùn)練完成的Bi-LSTM模型分別對ChatGPT和教師的評價文本內(nèi)容進(jìn)行預(yù)測。首先對評價內(nèi)容文本進(jìn)行相同的停用詞預(yù)處理,其次將其轉(zhuǎn)化為向量,并使用Bi-LSTM模型進(jìn)行預(yù)測。輸出模型對新文本的預(yù)測概率,可以幫助使用人了解模型對新文本的情感傾向的預(yù)測情況。以上過程可了解到Bi-LSTM模型對不同文本的情感傾向的預(yù)測情況,從而進(jìn)行后續(xù)的分析與決策。ChatGPT的評價內(nèi)容與教師的評價內(nèi)容的文本情感分析結(jié)果統(tǒng)計圖如圖3所示,圖3中ChatGPT+學(xué)生1表示ChatGPT對學(xué)生1的評價內(nèi)容的情感分析結(jié)果,分?jǐn)?shù)越接近1,說明評價內(nèi)容越積極。同樣,教師1+學(xué)生1表示教師1對學(xué)生1評價內(nèi)容的情感分析結(jié)果,通過對比顯示,ChatGPT對學(xué)生的學(xué)業(yè)評價內(nèi)容在情感表現(xiàn)上更為積極。
圖3 評價文本情感分析結(jié)果統(tǒng)計圖Fig.3 Statistical chart of sentiment analysis results of evaluation text
基于AIGC的學(xué)業(yè)評價生成與應(yīng)用效果驗證過程中,對ChatGPT的評價內(nèi)容與教師的評價內(nèi)容進(jìn)行中文文本相似度檢測是至關(guān)重要的。量化ChatGPT生成的評價內(nèi)容與教師的評價內(nèi)容在語義上的相似度,以此評估ChatGPT的評價質(zhì)量與教師的評價質(zhì)量。通過這種方式可以了解ChatGPT是否能夠生成與教師相似的、高質(zhì)量的評價內(nèi)容,從而評估AIGC在學(xué)業(yè)評價場景中的應(yīng)用價值。
本文研究使用BERT模型進(jìn)行中文文本相似度檢測。BERT(Bidirectional Encoder Representations from Transformers)是一種基于Transformer的預(yù)訓(xùn)練模型,其模型網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。Transformer模型的核心是自注意力機制(Self-Attention Mechanism),它能夠捕捉文本中的長距離依賴關(guān)系。BERT模型通過雙向的Transformer編碼器,能夠捕捉到文本中的上下文信息。
圖4 BERT模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 BERT model architecture diagram
在數(shù)據(jù)處理過程中,首先對評價內(nèi)容文本進(jìn)行停用詞的去除,其次使用BERT的分詞器對文本進(jìn)行分詞,并轉(zhuǎn)化為模型需要的輸入格式。因為BERT模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)習(xí)到了豐富的語言表示,所以研究在訓(xùn)練過程中使用預(yù)訓(xùn)練的BERT模型,不需要進(jìn)行額外的訓(xùn)練。
本文研究使用余弦相似度公式進(jìn)行評價文本的相似度計算。余弦相似度是一種基于向量空間的度量,它可以衡量兩個向量夾角的余弦值,表示兩個向量的相似度。余弦相似度的計算公式如下:
(7)
其中,u和v是2個語句的向量,u·v表示u和v的點積,‖u‖和‖v‖分別表示u和v的模。余弦相似度的取值范圍為-1~1,值越大,則表示文本越相似。
訓(xùn)練好模型后,輸入ChatGPT的評價內(nèi)容和教師的評價內(nèi)容,即可計算ChatGPT和教師之間的文本相似度,文本相似度結(jié)果如表3所示,表3中的“ChatGPT+教師1”表示ChatGPT對某名學(xué)生的評價內(nèi)容與教師1對某名學(xué)生評價的內(nèi)容之間的文本相似度,以此類推。結(jié)果顯示:ChatGPT的學(xué)習(xí)評價內(nèi)容的相似度達(dá)到了教師評價的75.21%以上,已具備實際的應(yīng)用價值及具有一定的市場潛力。
表3 ChatGPT與教師評價內(nèi)容相似度檢測結(jié)果 Tab.3 Similarity detection results between ChatGPT's generated content and teacher evaluations
ChatGPT在學(xué)習(xí)評價中不可避免存在一定的主觀性和不確定性[7]。由于模型的訓(xùn)練過程中使用的數(shù)據(jù)和評價標(biāo)準(zhǔn)在很大程度上決定了所生成的評價結(jié)果的質(zhì)量,因此需要充分認(rèn)識其局限性,努力尋找更準(zhǔn)確和可靠的評價方法。ChatGPT在處理基本的語法和語義問題上表現(xiàn)良好,但其較難處理復(fù)雜的問題或特殊領(lǐng)域的評價,例如針對具體學(xué)科、職業(yè)或社會背景的評價。因此,必須尋找其他不同類型的模型和算法,在多樣化的評價場景和問題中獲得更好的評估效果。并且ChatGPT模型需要使用大量的用戶數(shù)據(jù)進(jìn)行訓(xùn)練和調(diào)整,這些數(shù)據(jù)可能涉及用戶隱私保護(hù)等問題,同時數(shù)據(jù)量必須達(dá)到一定規(guī)模才能對模型進(jìn)行有效訓(xùn)練和優(yōu)化[8]。所以,采取切實有效的數(shù)據(jù)采集和審核策略,確保數(shù)據(jù)的質(zhì)量和隱私安全,是目前研究者面臨的最大挑戰(zhàn)。ChatGPT模型的不透明性以及算法的復(fù)雜性產(chǎn)生的評價結(jié)果較難被人們所理解,這種不透明性會影響對評價結(jié)果的準(zhǔn)確性和可靠性的判斷,并且隨著各種學(xué)習(xí)場景的不斷變化,ChatGPT模型的適應(yīng)能力不可避免地會受到一定的影響[9]。如果模型無法處理新的場景或問題,那么需要準(zhǔn)備更新和改進(jìn)模型,確保它能夠適應(yīng)不斷變化的學(xué)習(xí)需求,為學(xué)習(xí)者提供更準(zhǔn)確、可靠的評價和反饋服務(wù)。
ChatGPT模型基于深度學(xué)習(xí)算法,可以對大量的自然語言數(shù)據(jù)進(jìn)行有效的訓(xùn)練和處理。這使得模型可以對不同學(xué)生的學(xué)習(xí)表現(xiàn)進(jìn)行個性化的評價,提供更加精準(zhǔn)的反饋,這對于提高學(xué)生的學(xué)習(xí)動力和效果具有很大的促進(jìn)作用。學(xué)業(yè)評價通常需要大量的人力和時間投入,而ChatGPT模型可以自動化評價和反饋過程,有助于教育機構(gòu)和教育工作者提高評價的效率和精確度,使教育資源得到更高效的利用[10]。ChatGPT模型的應(yīng)用和研究,為教育的評價、反饋和個性化服務(wù)提供了新的思路和方法,推動了教育行業(yè)的發(fā)展和創(chuàng)新[11]。ChatGPT模型的應(yīng)用也提供了新的思路和方法,促進(jìn)了教育評價方式的創(chuàng)新。教育領(lǐng)域可以對人工智能和自然語言生成等先進(jìn)技術(shù)進(jìn)行更深入的研究,探索更加準(zhǔn)確、全面和高效的評價方式,滿足不斷變化的學(xué)習(xí)需求并進(jìn)一步實現(xiàn)個性化學(xué)習(xí)[12]。ChatGPT模型在學(xué)習(xí)評價中具有廣泛的應(yīng)用前景,需要進(jìn)一步探索和開發(fā)更加高效和準(zhǔn)確的評價方法,為社會提供更加優(yōu)質(zhì)、個性化和便捷的教育服務(wù)。
本文研究主要關(guān)注于生成式人工智能系統(tǒng)ChatGPT在教育領(lǐng)域的應(yīng)用潛力,并基于其啟發(fā)性內(nèi)容生成、對話情境理解、序列任務(wù)執(zhí)行和程序語言解析4項核心能力,探討該系統(tǒng)在學(xué)業(yè)評價中的應(yīng)用效果。本文研究使用真實的學(xué)習(xí)數(shù)據(jù),對學(xué)生學(xué)習(xí)數(shù)據(jù)進(jìn)行評價,并對其在評價過程中的診斷、激勵、指導(dǎo)和干預(yù)進(jìn)行了相應(yīng)的評估和比較。結(jié)果表明,與兩位教師的評價內(nèi)容相比,ChatGPT生成的評價內(nèi)容情感更積極,評價文本相似度達(dá)到了教師評價的75.21%以上。此研究證明了基于AIGC的學(xué)習(xí)評價潛力,證明了其優(yōu)良的自然語言理解和生成能力在提供學(xué)業(yè)評價的診斷和指導(dǎo)方面的可應(yīng)用性。AIGC可在教育領(lǐng)域中為學(xué)生提供更加精準(zhǔn)和個性化的學(xué)習(xí)支持服務(wù),提高學(xué)生的學(xué)習(xí)效果和成果,有望在未來得到更為廣泛的應(yīng)用。
盡管ChatGPT在自然語言理解、生成和多模態(tài)數(shù)據(jù)處理方面具有優(yōu)勢,但它仍存在一些技術(shù)局限性,例如系統(tǒng)可能會缺乏深入的語義理解或知識表示能力,導(dǎo)致其對某些學(xué)術(shù)領(lǐng)域(如數(shù)學(xué)或物理學(xué))的特定領(lǐng)域知識進(jìn)行推理或解釋方面存在困難。因此,在將其應(yīng)用于學(xué)習(xí)評價的過程中,需要謹(jǐn)慎考慮其適應(yīng)性與總體準(zhǔn)確性。