摘 要:智慧教育運用人工智能等技術(shù)來實現(xiàn)教育的智能化,將智慧教育應(yīng)用到電氣類高校教學(xué)、注冊電氣工程師考試和電網(wǎng)員工入職培訓(xùn)等領(lǐng)域,有助于學(xué)生和工作人員快速掌握電氣專業(yè)知識。基于電氣領(lǐng)域本體和自然語言處理技術(shù),探索了電氣領(lǐng)域主觀題自動評分方法。針對通用詞語相似度計算存在的不足,設(shè)計了一種融合《同義詞詞林》和《知網(wǎng)》的詞語相似度方法,并結(jié)合文本的表層結(jié)構(gòu)信息以及語義信息,提出了一種結(jié)合句子的詞序、詞形和搭配詞對三種特征的電氣領(lǐng)域主觀題自動評分方法。試驗表明,該方法能夠有效解決傳統(tǒng)評分算法對專業(yè)術(shù)語的識別不全面和未考慮文本中句子的語義關(guān)系等問題,有效地提升了評分結(jié)果的準(zhǔn)確度。
關(guān)鍵詞:電氣領(lǐng)域;主觀題自動評分;領(lǐng)域本體;相似度計算
中圖分類號:TP314
文獻標(biāo)志碼:A
隨著計算機、大數(shù)據(jù)以及人工智能等技術(shù)的興起,智慧教育運用現(xiàn)代信息技術(shù)來實現(xiàn)教育的信息化和智能化。自動評分作為智慧教育的一項重要環(huán)節(jié),不僅可以減少教師在閱卷過程中的工作負(fù)擔(dān),而且能夠避免因個人主觀因素導(dǎo)致的評分偏差的問題。在電氣工程領(lǐng)域中,智慧教育被應(yīng)用到高校教學(xué)、注冊電氣工程師考試和電網(wǎng)員工入職培訓(xùn)等環(huán)節(jié),有助于學(xué)員完善電氣領(lǐng)域的知識體系。自動評分作為智慧教育的一項重要環(huán)節(jié),不僅可以減少教師在閱卷過程中的工作負(fù)擔(dān),而且能夠避免因個人主觀因素導(dǎo)致的評分偏差的問題。
現(xiàn)階段,客觀題自動評分算法已經(jīng)非常成熟,并廣泛運用于各類在線考試系統(tǒng)。另一方面,關(guān)于作文和短文本等領(lǐng)域無關(guān)的主觀題自動評分的研究也取得很多成果[1-6]。鉉靜等[7]基于卷積神經(jīng)網(wǎng)絡(luò)的方法,使用全維度和單維度的卷積核進行卷積,得到詞語之間長距離依賴信息。李寒[8]提出了基于深度學(xué)習(xí)的中文句子相似度計算方法,使用大量未標(biāo)注數(shù)據(jù)進行訓(xùn)練模型參數(shù),該模型在自動評分中具有更好的性能。胡艷霞等[9]在依存關(guān)系樹的基礎(chǔ)上使用深度學(xué)習(xí)的方法,采用多頭注意力機制Tree-LSTM的神經(jīng)網(wǎng)絡(luò)實現(xiàn)句子相似度的計算。彭琦等[10]針對詞語間信息內(nèi)容的差異性的問題,為實現(xiàn)詞語信息內(nèi)容的相似度計算方法,提出了一種相似度計算策略應(yīng)用于改進的《同義詞詞林》。但是,將作文或短文本自動評分算法直接應(yīng)用在特定領(lǐng)域主觀題評分的效果并不好[11]。評分算法無法準(zhǔn)確地理解電氣領(lǐng)域的專業(yè)術(shù)語,且缺乏對領(lǐng)域知識的理解,容易導(dǎo)致語義分析出現(xiàn)較大誤差,進而影響評分結(jié)果的準(zhǔn)確度。
本文以電氣工程學(xué)科為背景,從本校電氣工程研究生的專業(yè)課程中選取部分課程涉及的專業(yè)術(shù)語,以此為基礎(chǔ)構(gòu)建電氣領(lǐng)域本體,并提出了一種多特征融合的電氣領(lǐng)域主觀題自動評分方法。該方法借助語義詞典以及電氣工程領(lǐng)域本體,分別完成對通用詞語和專業(yè)術(shù)語的相似度計算,此后,方法通過加權(quán)融合句子的詞形相似度、詞性相似度和搭配詞對相似度的特征,計算電氣領(lǐng)域主觀題的評分。
1 電氣領(lǐng)域本體構(gòu)建
領(lǐng)域本體作為專業(yè)性本體,具有非常強的領(lǐng)域區(qū)分性。通過構(gòu)建電氣領(lǐng)域本體,能夠更準(zhǔn)確地獲取電氣領(lǐng)域的專業(yè)術(shù)語、數(shù)據(jù)屬性以及術(shù)語間的關(guān)系,進而有助于完成領(lǐng)域概念查找以及專業(yè)術(shù)語的相似度計算等任務(wù)[12]。將電氣領(lǐng)域本體作為主觀題自動評分的知識庫,能夠提高對電氣領(lǐng)域?qū)I(yè)術(shù)語的識別能力和語義理解能力[13]。電氣領(lǐng)域本體構(gòu)建的具體步驟圖1所示。
在構(gòu)建領(lǐng)域本體之前,需要結(jié)合本體的使用對象、應(yīng)用目的和作用等因素,確定構(gòu)建的本體所涉及到專業(yè)領(lǐng)域和范疇。由于電氣領(lǐng)域包含的課程較多,因此本文從本校電氣工程研究生的專業(yè)課程中的課程體系中選取了《電力系統(tǒng)概述》、《電機與電力拖動》、《電力工程基礎(chǔ)》、《發(fā)電廠電氣部分》等核心課程,從中盡可能多地列出課程涉及的概念、專業(yè)術(shù)語、以及概念詳細(xì)的定義等知識。所構(gòu)建本體所涉及部分概念和術(shù)語如表1所示。
完成電氣領(lǐng)域的關(guān)鍵知識和術(shù)語的獲取后,需要確定本體中概念、屬性以及彼此之間的關(guān)系。其中,關(guān)系類型的確定是構(gòu)建本體過程中最關(guān)鍵的一個環(huán)節(jié)。由于電氣領(lǐng)域?qū)I(yè)術(shù)語的同一概念存在多種表述,并且概念之間存在上下位關(guān)系、部分與整體的關(guān)系,導(dǎo)致相關(guān)知識在通用詞典中難以體現(xiàn)。因此,本文構(gòu)建的本體關(guān)系類型涵蓋了同義關(guān)系、繼承關(guān)系、組成關(guān)系,以盡可能完整地涵蓋相關(guān)領(lǐng)域知識。
2 電氣領(lǐng)域主觀題自動評分方法
如圖2所示,多特征融合的電氣領(lǐng)域主觀題自動評分模型在獲得學(xué)生答案文本和參考答案文本之后,通過文本分詞、詞義擴充、停用詞過濾、句法分析等技術(shù)對文本進行預(yù)處理。基于電氣領(lǐng)域本體、語義詞典,分別計算專業(yè)術(shù)語和通用詞語相似度,并結(jié)合三個特征的加權(quán)計算結(jié)果,得到學(xué)生答案文本的相似度。最后進行分?jǐn)?shù)轉(zhuǎn)換,得到學(xué)生答案的最終得分。
2.1 詞語相似度計算
根據(jù)文本中詞語的所屬類別(通用詞語或?qū)I(yè)術(shù)語),多特征融合的電氣領(lǐng)域主觀題自動評分方法采用以下三種方法計算詞語的相似度:1)若詞語兩個詞語都屬于通用詞語,采用融合《知網(wǎng)》和《同義詞詞林》的通用詞語相似度計算方法;2)若兩個詞語都屬于專業(yè)術(shù)語,采用基于電氣領(lǐng)域本體的專業(yè)術(shù)語相似度計算方法;3)若其中一個詞語是通用詞語,另一個詞語是專業(yè)術(shù)語。則設(shè)定兩個詞語的相似度為0。
2.1.1 基于《知網(wǎng)》的詞語相似度計算
與傳統(tǒng)的語義詞典不同,《知網(wǎng)》通過一系列的義原來描述義項,義項是對詞匯的進一步解釋。影響義原相似度計算的因素主要有節(jié)點密度、節(jié)點深度和義原距離等。用y1和y2表示兩個義原,根據(jù)劉群等[14]提出的義原相似度轉(zhuǎn)換成計算義原距離,y1和y2的相似度計算如下:
S(y1,y2)=λD(y1,y2)+λ(1)
式中,D(y1,y2)代表y1和y2的語義距離,即y1和y2在義原樹的路徑長度;λ為可調(diào)參數(shù)。詞語的不同語義是通過多個義項進行描述,根據(jù)劉群等對義項的研究[14], 將義項分為四個部分,分別為第一基本義原描述、其他基本義原描述、關(guān)系義原描述,以及符號義原描述。y1和y2在這四個部分的相似度分別記為S1(y1,y2)、S2(y1,y2)、S3(y1,y2)和S4(y1,y2)。
將Y1和Y2表示為兩個義項,則他們的相似度分別由Y1和Y2在四個語義表達式的相似度組合而成,即義項語義相似度計算公式如下:
S(Y1,Y2)=∑4i=1ρiΠSj(Y1,Y2)(2)
式中,ρi為可調(diào)參數(shù),ρ1+ρ2+ρ3+ρ4=1。由于部分詞語會包含多個義項,因此應(yīng)取最大義項相似度作為詞語C1和C2最終的語義相似度,計算如下:
Sz(C1,C2)=MAXi=1…mj=1…n(S(Y1i,Y1j))(3)
2.1.2 基于《同義詞詞林》的詞語相似度計算
結(jié)合電氣領(lǐng)域自動評分的特點,基于《同義詞詞林》的詞語相似度算法考慮的主要因素是詞語的語義距離,次要因素分別是分支節(jié)點總數(shù)n和分支間距k。按照底層到高層的結(jié)構(gòu)順序,根據(jù)朱新華等[15]提供的試驗參數(shù)設(shè)計,本文對連接上下兩層的有向邊語義距離給予不同權(quán)重,分別設(shè)置為W1=2.5;W2=1;W3=2.5;W4=0.5。詞語C1和詞語C2的語義距離計算如式(4)所示。
D(C1,C2)=2×∑d≤i≤4Wi(4)
節(jié)點總數(shù)n和分支間距k屬于詞語相似度計算的次要因素,作用是對語義距離進行修正,并且該修正只能微調(diào),因此將這兩個調(diào)節(jié)參數(shù)加入詞語相似度計算中,從而降低計算公式對參數(shù)n和k的敏感度,以此避免修正幅度過大。由此得到基于《同義詞詞林》的相似度計算如下:
Sc(C1,C2)=(1.05-0.05×D(C1,C2))e-k2n(5)
2.1.3 通用詞語相似度計算
通過分析2.1.1和2.1.2小節(jié)中兩種詞語相似度計算方法,可以發(fā)現(xiàn)各自計算規(guī)則是不一致的??紤]到兩個語義詞典的知識體系是不一致的,其性質(zhì)和結(jié)構(gòu)具有較大的差別,因此有必要設(shè)計一種融合不同語義詞典的通用詞語相似度算法以彌補單一方法的不足,從而提高詞語相似度計算結(jié)果的準(zhǔn)確性。該算法根據(jù)詞語在《知網(wǎng)》或《同義詞詞林》的收錄情況計算兩個詞語的相似度,算法過程描述如下。
算法1 融合《知網(wǎng)》和《同義詞詞林》的通用詞語相似度算法
輸入:詞語C1和C2
輸出:C1和C2的相似度S(C1,C2)
1 if(C1∈Z and C2∈Z-T)
2" S(C1,C2)=MAXi=1…mj=1…n(S(Y1i,Y1j))
3 else if(C1∈T and C2∈T-Z)
4" S(C1,C2)=(1.05-0.05×D(C1,C2))e-k2n
5 else if(C1∈Z-T and C2∈T-Z)
6 {
7" G=getSig(C2)" //查找C2的同義詞集合
8" M=NULL
9" Foreach w in G:
10"" S(C1,w)=MAXi=1…mj=1…n(S(Y1i,Y1j))
11" "M.append(S(C1,w))
12nbsp; S(C1,C2)=max(M)" //取M集合中最大值
13 }
14 else if(C1∈Z∩T and C2∈T∩Z)
15" S(C1,C2)=
MAXi=1…mj=1…n(S(Y1i,Y1j))+(1.05-0.05×D(C1,C2))e-k2n2
16 else
17" S(C1,C2)=0
18 return S(C1,C2)
2.1.4 專業(yè)術(shù)語相似度計算
專業(yè)詞語相似度計算通過引入電氣領(lǐng)域本體作為知識庫,對該領(lǐng)域的專業(yè)術(shù)語進行相似度計算。其中專業(yè)術(shù)語的語義相似度是由節(jié)點距離相似度和節(jié)點信息相似度構(gòu)成。在電氣領(lǐng)域本體中,各個節(jié)點間的有向邊代表的作用是不一致的,對于電氣領(lǐng)域本體中任意兩個節(jié)點h和t的節(jié)點距離相似度計算如下:
sd(h,t)=1-d(h,t)2×dmax(6)
式中,d(h, t)表示節(jié)點h和t之間的語義距離;dmax是電氣領(lǐng)域本體中節(jié)點的最大深度。
節(jié)點信息相似度通過最低公共祖先進行表示,當(dāng)概念間共享的信息量越多,則說明概念的相似度越高。當(dāng)上層節(jié)點細(xì)化到下層的多個節(jié)點時,下層節(jié)點得到了父節(jié)點的信息,因此可以說相同的公共祖先是下層節(jié)點間共享信息的表現(xiàn)之一。任意兩個節(jié)點h和t的節(jié)點信息相似度計算如下:
si(h,t)=1-2×I(c(h,t))I(h)+I(t)(7)
式中,I(c(h,t)),I(h),I(t)分別是最低公共祖先節(jié)點、h節(jié)點、t節(jié)點的信息量。
綜合考慮以上兩個因素,得到專業(yè)詞語的相似度計算如下:
sonto(h,t)=λsd(h,t)+ηsi(h,t)(8)
式中,λ、η表示調(diào)節(jié)因子權(quán)重。
2.2 句子相似度計算
2.2.1 句子的詞序相似度計算
詞序相似度反映的是參考答案文本A1和學(xué)生答案文本A2之間詞語的相對位置關(guān)系,根據(jù)詞語的順序來衡量句子的相似度。本文用m表示文本A1和文本A2中同時出現(xiàn)且僅出現(xiàn)一次的詞語集合大小。詞序相似度的計算方法如下:
so(S1,S2)=1-C(A1,A2)s-1,sgt;1
1,s=1
0,s=0 (9)
式中,C(A1,A2)表示文本A1和文本A2的逆序數(shù)。
2.2.2 句子的詞形相似度計算
詞形的相似度反映的是參考答案文本A1和學(xué)生答案文本A2中所包含的詞語在形態(tài)層次上的語義相似度。當(dāng)兩個詞語相似度大于指定閾值時,記為相似詞。結(jié)合公式,詞形相似度計算方法如下:
Swf(S1,S2)=2×W(A1,A2)L(S1)+L(S2)(10)
式中,W(A1,A2)表示文本A1和文本A2中相似詞的個數(shù);L(A1)和L(A2)分別表示文本A1和文本A2的詞語總數(shù)。
2.2.3 句子的搭配詞對相似度計算
搭配詞對相似度是從中心詞的相似度、依存詞的相似度和詞語間關(guān)系類型三個維度來量化句子相似度。搭配詞對可用采用三元組lt;中心詞,關(guān)系類型,依存詞gt;進行表示。搭配詞對雖然丟失了詞語之間的順序關(guān)系,但可以呈現(xiàn)詞語之間的內(nèi)在邏輯關(guān)系和深層語義關(guān)系。
通過提取文本的搭配詞對,并對搭配詞對進行簡化。首先,運用詞語相似度計算方法對搭配詞對中的詞語進行詞語相似度計算,進一步獲得搭配詞對的相似度矩陣;其次,遍歷矩陣并取出每行中數(shù)值最大的元素;最后,得到搭配詞對的相似度。其中,遍歷的元素集合和搭配詞對相似度計算方法分別如下:
Nmax(A1,A2)={Amax1,Amax2,…,Amaxp}(11)
sN(A1,A2)=∑1≤n≤i Amaxp
p,p≥1
0,p=0(12)
式中,p表示Nmax(A1,A2)的容量。
考慮到矩陣的不對稱性,需要進一步計算文本A1和文本A2的搭配詞對相似度。通過對調(diào)文本A1和文本A2的位置,可以得到文本A2和文本A1的搭配詞對相似度SN(A2,A1)。最終搭配詞對相似度的計算方法如下:
SN(A1,A2)=SN(A1,A2)+SN(A2,A1)2(13)
綜合考慮句子的詞序、詞形和搭配詞對相似度,采用三個特征全面描述一個答案文本,以此衡量學(xué)生答案文本和參考答案文本的相似程度,可以得到電氣領(lǐng)域主觀題自動評分計算方法如下:
S(A1,A2)=αSo(A1,A2)+βSw(A1,A2)+γSN(A1,A2)(14)
式中,α、β、γ是可調(diào)參數(shù),分別代表詞序相似度、詞形相似度和搭配詞對相似度的權(quán)重值。
3 試驗分析
3.1 試驗數(shù)據(jù)和評價指標(biāo)
為了驗證本文提出的主觀題自動評分算法模型的有效性,本文試驗引入TF-IDF句子相似度算法的主觀題自動評分方法(方法A)、基于語義樹的短文本相似度算法的主觀題自動評分方法(方法B)[16]作為對照試驗,分別對試驗數(shù)據(jù)進行自動評分,統(tǒng)計三種算法模型的評分結(jié)果。試驗使用的主觀題數(shù)據(jù)來自于《電力系統(tǒng)分析》、《電機及拖動基礎(chǔ)》和《發(fā)電廠電氣部分》三門課程的課后習(xí)題。在此之后,我們邀請10個來自本校電氣工程專業(yè)的研二學(xué)生進行答題,并收集其提交的答題結(jié)果。我們?yōu)樗兄饔^題都提供一份參考答案,并邀請了三位具有相關(guān)專業(yè)助教背景的研究生對答題結(jié)果進行評分。最終,我們將三位研究生評分結(jié)果的平均值作為基準(zhǔn)評分標(biāo)準(zhǔn),并通過對比不同評分算法對學(xué)生答案的評分結(jié)果與手工評分結(jié)果的差異來分析不同評分算法的優(yōu)劣。
本文通過選取均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)、對稱平均絕對百分比誤差(symmetric mean absolute percentage error,SMAPE)四個評價指標(biāo),進一步客觀評價本文方法對于主觀題自動評分的效果。
3.2 結(jié)果分析
本文方法模型、TF-IDF評分模型、基于語義樹的評分模型和人工對每道題目的評分結(jié)果如圖3所示。
從以上結(jié)果可以看出,本文方法得到的評分結(jié)果比TF-IDF算法和基于語義依存樹的算法得到的評分結(jié)果更加貼近人工評分結(jié)果,同時波動較小。這主要是由于本文方法在相似度計算過程中考慮了詞序、詞形和搭配詞對三種特征相似度,并應(yīng)用融合語義詞典的算法提高了通用詞語的相似度的計算結(jié)果。同時主觀題相似度計算過程中會涉及到電氣領(lǐng)域的專業(yè)術(shù)語,通過引入電氣領(lǐng)域本體,解決了分詞結(jié)果不全面導(dǎo)致計算結(jié)果存在誤差的問題。對于含有專業(yè)術(shù)語較多的答案文本,例如題目1、題目3和題目10,本文算法模型構(gòu)建的領(lǐng)域本體和搭配詞對相似度算法,能夠準(zhǔn)確識別專業(yè)術(shù)語,并且較為準(zhǔn)確地計算專業(yè)術(shù)語的相似度。但是,對于題目7和題目9,由于這兩道題涉及的電氣領(lǐng)域?qū)I(yè)術(shù)語較少,本文算法引入的電氣領(lǐng)域本體并沒有較大的影響,與語義依存算法的評分結(jié)果差異較小。
為了進一步明確不同算法之間的差異,通過MSE、MAE、RMSE以及SMAPE四個評價指標(biāo)對評分結(jié)果的質(zhì)量進行評估,其結(jié)果如表2所示。
在電氣領(lǐng)域的主觀題自動評分中,由表2可以看出,本文算法模型能夠在MSE、MAE、RMSE和SMAPE都取得最小值。由于三種自動評分方法考慮的特征不一致,導(dǎo)致評分結(jié)果有所偏差。TF-IDF評分方法主要考慮的是文本中單詞詞頻,沒有考慮句子成分間的語義結(jié)構(gòu),因此在句子的語義相似度計算方面具有一定的不足。基于語義樹的評分方法是從句法的結(jié)構(gòu)信息出發(fā),對于句子的理解較為充分,但是只保留了兩層的語義樹,從而丟失了深層的語義結(jié)構(gòu)信息,導(dǎo)致自動評分結(jié)果不佳。本文方法綜合考慮詞語的語義結(jié)構(gòu),句子深層的句法結(jié)構(gòu),引入領(lǐng)域本體提高了專業(yè)術(shù)語相似度計算結(jié)果的準(zhǔn)確率。試驗結(jié)果表明,本文算法的評分結(jié)果與人工的評分結(jié)果的擬合度更高,同時相對于基于語義樹的評分方法和TF-IDF評分方法,整體的評分效果具有較為明顯的優(yōu)勢。
4 結(jié)語
本文提出了一種多特征融合的電氣領(lǐng)域主觀題自動評分方法,該方法引入了電氣領(lǐng)域本體,提高了對電氣領(lǐng)域?qū)I(yè)術(shù)語的語義理解,有效地解決了對專業(yè)術(shù)語分詞不準(zhǔn)確的問題。同時在文本相似度計算中綜合考慮了詞形、詞序以及搭配詞對相似度三個特征,解決了語義關(guān)系考慮不全面等問題,進一步提高了主觀題自動評分的準(zhǔn)確度。
由于學(xué)生答案文本具有多樣性,如果可以構(gòu)建更大的參考答案集合,能夠增強學(xué)生答案的覆蓋范圍。目前深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于中文信息處理領(lǐng)域,后續(xù)可以對基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進行研究,并且引入神經(jīng)網(wǎng)絡(luò)模型進行主觀題自動評分方法中,從而提高句子相似度的計算精度以及評分方法的自適應(yīng)能力。
參考文獻:
[1]譚紅葉, 午澤鵬, 盧宇,等. 基于代表性答案選擇與注意力機制的短答案自動評分[J]. 中文信息學(xué)報, 2019,33(11):134-142.
[2] 鐘啟東, 張景祥. 嵌入語言深度感知的漢語作文評分算法[J]. 計算機工程與應(yīng)用, 2020, 56(8):124-129.
[3] LIU W, LIAO C C, CHANG W C, et al. Automatic classification with SVM and F-VSM on elementary chinese composition[J]. International Journal of Information and Education Technology, 2018,8(5):327-331.
[4] LV X. A study on the application of automatic scoring and feedback system in college English writing[J]. International Journal of Emerging Technologies in Learning, 2018,13(3):188-196.
[5] BIN Y, MANDAL D. English teaching practice based on artificial intelligence technology[J]. Journal of Intelligent amp; Fuzzy Systems, 2019,37(3):3381-3391.
[6] CHAO X W, WEI D Z. Problems and countermeasures of sustainable development of digital transformation in China in the post-epidemic era[J]. Information and Communications Technology and Policy, 2020,46(10):59-62.
[7] 鉉靜,吳瓊,魏從悅,等.基于句法依存卷積神經(jīng)網(wǎng)絡(luò)的句子相似度計算[J].重慶大學(xué)學(xué)報,2020,43(9):41-53.
[8] 李寒. 基于深度學(xué)習(xí)的中文句子相似度計算研究[D].成都:電子科技大學(xué),2019.
[9] 胡艷霞, 王成, 李弼程, 等. 基于多頭注意力機制 Tree-LSTM 的句子語義相似度計算[J]. 中文信息學(xué)報, 2020,34(3):23-33.
[10]彭琦, 朱新華, 陳意山, 等. 基于信息內(nèi)容的詞林詞語相似度計算[J]. 計算機應(yīng)用研究, 2018,35(2):400-404.
[11]劉俊宏. 基于本體和句法結(jié)構(gòu)分析的軌道交通信號領(lǐng)域主觀題自動閱卷系統(tǒng)的研究[D]. 北京:北京交通大學(xué), 2019.
[12]何婷婷, 張小鵬. 特定領(lǐng)域本體自動構(gòu)造方法[J]. 計算機工程, 2007, 33(22):235-237.
[13]王金水,郭偉文,唐鄭熠. 基于領(lǐng)域本體和依存句法分析的主觀題自動評分方法[J]. 貴州大學(xué)學(xué)報(自然科學(xué)版), 2020, 37(6):84-89,129.
[14]劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[J]. 中文計算語言學(xué), 2002,7(2):59-76.
[15]朱新華, 馬潤聰, 孫柳, 等. 基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 中文信息學(xué)報, 2016,30(4): 29-36.
[16]郭炳元. 基于語義樹的短文本相似度算法研究與應(yīng)用[D]. 湘潭:湘潭大學(xué), 2019.
(責(zé)任編輯:于慧梅)
Automatic Scoring Method of Subjective Questions in
Electrical Field Based on Multi-Feature Fusion
WANG Jinshui1,2, GUO Weiwen1,2, CHEN Junyan1,2,TANG Zhengyi*1,2
(1.College of Computer Science and Mathematics, Fujian University of Technology, Fuzhou 350118, China;
2.Fujian Provincial Key Laboratory of Big Data Mining and Applications, Fujian University of Technology, Fuzhou 350118,China)
Abstract:
Smart Education employs artificial intelligence and other technologies to realize the intelligence of education, and applies smart education to the fields of teaching in electrical colleges and universities, registered electrical engineer examinations and power grid staff induction training, which helps students and staff to quickly master electrical expertise. Based on electrical domain ontology and natural language processing technology, an automatic scoring method for subjective questions in electrical domain was explored. In view of the shortcomings of generic word similarity calculation, a word similarity method integrating synonym word forest and knowledge network was designed, and an automatic scoring method combining three features of word order, word form and collocated word pairs in electrical domain was proposed by combining the superficial structure information and semantic information of the text. The experimental results show that the proposed method can effectively solve the problems of incomplete recognition of specialized terms and failure to consider the semantic relationship of sentences in the text by the traditional scoring algorithm, and effectively improve the accuracy of scoring results.
Key words:
electrical field; automatic scoring of subjective questions; domain ontology; similarity calculation