胡慧君 劉茂福
摘 要 文章針對(duì)組卷系統(tǒng)中容易對(duì)同一語(yǔ)義內(nèi)容但不同形式的題目多次出現(xiàn)在同一張?jiān)嚲碇械膯?wèn)題,提出了基于差分優(yōu)化語(yǔ)義相似度模型的組卷系統(tǒng)。此系統(tǒng)引入語(yǔ)義相似度模型,在組卷的過(guò)程較好地避免了重復(fù)知識(shí)點(diǎn)的考查,增加了組卷的成功率;在語(yǔ)義相似度模型的基礎(chǔ)上,對(duì)一些參數(shù)不再用手動(dòng)的方式調(diào)整,采用差分算法對(duì)模型中的相關(guān)參數(shù)進(jìn)行動(dòng)態(tài)的調(diào)控,不僅可以避免手動(dòng)調(diào)整參數(shù)的辛苦,又在全局范圍中獲得最優(yōu)化的參數(shù),從而保證了自動(dòng)組卷系統(tǒng)的科學(xué)性、公正性、高效性,該系統(tǒng)對(duì)題目知識(shí)結(jié)構(gòu),數(shù)據(jù)延展進(jìn)行全方位的跟蹤管理,多種考試形式豐富組織方式。
關(guān)鍵詞 自動(dòng)組卷系統(tǒng) 語(yǔ)義相似度模型 余弦相似度 差分優(yōu)化
中圖分類(lèi)號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdks.2016.02.073
0 引言
現(xiàn)階段,有不斷增加的考試類(lèi)型和不斷提高的考試要求,隨即而來(lái),也越來(lái)越增加了教師的工作量。為適應(yīng)現(xiàn)代考試的需要,傳統(tǒng)的考試方法應(yīng)該慢慢地被淘汰了。目前有著迅速發(fā)展的計(jì)算機(jī)應(yīng)用,網(wǎng)絡(luò)應(yīng)用不斷擴(kuò)大,如遠(yuǎn)程教育和虛擬大學(xué)的出現(xiàn)等等,且這些應(yīng)用正逐步深入到千家萬(wàn)戶(hù)。在線(xiàn)考試都會(huì)需要這些網(wǎng)絡(luò)應(yīng)用技術(shù),期待減輕教師的工作負(fù)擔(dān)以及提高工作效率,與此同時(shí)提高了考試的質(zhì)量,從而使考試更趨于公正、客觀,更加激發(fā)學(xué)生的學(xué)習(xí)興趣。鑒于以上現(xiàn)狀和結(jié)合當(dāng)前市面上考試系統(tǒng)的特點(diǎn)與不足,一種新型的語(yǔ)義相似度模型的自動(dòng)組卷系統(tǒng)應(yīng)運(yùn)而生。
1 基于差分優(yōu)化語(yǔ)義相似度模型的自動(dòng)組卷系統(tǒng)
針對(duì)現(xiàn)有自動(dòng)組卷系統(tǒng)的不足,本論文提出基于差分優(yōu)化語(yǔ)義相似度模型的自動(dòng)組卷系統(tǒng),以提高所組試卷的質(zhì)量。例如避免在組卷過(guò)程中產(chǎn)生選擇、填空、判斷三者之間對(duì)同一知識(shí)點(diǎn)考查多次的問(wèn)題;改進(jìn)傳統(tǒng)的組卷系統(tǒng),借助語(yǔ)義相似度模型實(shí)現(xiàn)對(duì)填空,問(wèn)答的審閱,使得組卷變得更科學(xué)、更智能,以減輕老師負(fù)擔(dān)和提高系統(tǒng)工作效率。基于差分優(yōu)化語(yǔ)義相似度模型的自動(dòng)組卷系統(tǒng)具有以下特點(diǎn):
(1)引入語(yǔ)義相似度模型;(2)具有普適性,基于語(yǔ)義層面的相似度模型使得系統(tǒng)不再局限于少數(shù)幾門(mén)學(xué)科;(3)提高組卷效率,借助語(yǔ)義相似度模型,在組卷的過(guò)程較好地避免了重復(fù)知識(shí)點(diǎn)的考查,增加了組卷的成功率;(4)題型更加全面,借助文本相似度的計(jì)算實(shí)現(xiàn)了對(duì)填空,問(wèn)答等主觀題的組卷;(5)組卷具有高效性,省去了人工組卷環(huán)節(jié),系統(tǒng)的工作效率得到了質(zhì)的飛躍;(6)采用差分算法對(duì)模型中的相關(guān)參數(shù)進(jìn)行動(dòng)態(tài)的調(diào)控,不僅可以避免手動(dòng)調(diào)整參數(shù)的辛苦,又在全局范圍中獲得最優(yōu)化的參數(shù),從而保證了自動(dòng)組卷系統(tǒng)的科學(xué)性、公正性、高效性。
1.1 語(yǔ)義相似度模型的設(shè)計(jì)與實(shí)現(xiàn)
文本語(yǔ)義相似度量方法大多將文比文本看作一組詞的集合體,分析每個(gè)詞在文本中出現(xiàn)的次數(shù)以及在整個(gè)文本集合中出現(xiàn)的次數(shù),進(jìn)而利用這些詞頻信息將文本建模為一個(gè)向量,并利用向量間的余弦相似度、Jaccard相似度等方法計(jì)算文本之間的相似度?;谡Z(yǔ)義的文本相似度量方法則通過(guò)同義詞、冗余和蘊(yùn)涵等語(yǔ)義關(guān)系來(lái)考查文本之間的相似度。
鑒于已經(jīng)存在的問(wèn)題的一些不足,在本文中將采用一種能有效降低文本表示模型的維度,又能結(jié)合詞項(xiàng)語(yǔ)義信息進(jìn)行相似度量計(jì)算的方法。
1.2 語(yǔ)義相似度模型具體算法
對(duì)于語(yǔ)義相似度模型的算法,主要有兩個(gè)關(guān)鍵操作:關(guān)鍵詞的提取、關(guān)鍵詞項(xiàng)向量間的相似度計(jì)算。
1.2.1 關(guān)鍵詞的提取
(1)首先預(yù)處理文本中的人名、地名、無(wú)實(shí)意的常用字(在TF-IDF方法中有相關(guān)識(shí)別技術(shù)),將它們用per,loc,org等詞代替,因?yàn)檫@類(lèi)詞具有較高的TF-IDF值,從而容易導(dǎo)致對(duì)文本關(guān)鍵詞項(xiàng)的錯(cuò)誤選擇;然后,必須對(duì)文本中的詞項(xiàng)進(jìn)行詞性分析,給出詞項(xiàng)的語(yǔ)義屬性,即該詞項(xiàng)是名詞、動(dòng)詞還是副詞等。
(2)關(guān)鍵詞項(xiàng)的選擇:文本預(yù)處理完成后,需要對(duì)整個(gè)文本集合中的詞項(xiàng)進(jìn)行TF-IDF值計(jì)算,并將詞項(xiàng)的TF-IDF值進(jìn)行排序,選取TF-IDF值大于P(P為百分比)的名詞動(dòng)詞詞項(xiàng)作為關(guān)鍵詞項(xiàng)。
(3)由于關(guān)鍵詞項(xiàng)代表了一篇文本中最重要的信息,因此文本的相似度就可以由關(guān)鍵詞項(xiàng)向量間的相似度來(lái)描述。因此,文本之間的相似度就轉(zhuǎn)換為關(guān)鍵詞項(xiàng)向量間的相似度。
1.2.2 關(guān)鍵詞項(xiàng)向量間的相似度計(jì)算
借助HowNet中的思想,將詞語(yǔ)理解為多個(gè)義原(語(yǔ)義的最小原子)的集合,兩個(gè)義原集合相似度即詞項(xiàng)相似度,先尋找最優(yōu)匹配,集合中批次最相似的元素兩兩組合,然后加權(quán)值就是整體相似度。每個(gè)義原在定義概念中的作用大小不同,義原所攜帶的語(yǔ)義信息越豐富,權(quán)值越大。義原相似度的計(jì)算則使用劉群的公式:sSim(S1,S2)=a/(a+distance(S1,S2))計(jì)算。若詞項(xiàng)整體相似度>0.5則判定為相似。然后,以類(lèi)似的方法,借用權(quán)值在得出關(guān)鍵詞項(xiàng)相似度的情況下,計(jì)算文本相似度。
1.3 將語(yǔ)義相似度模型應(yīng)用到組卷模塊
為了避免題目?jī)?nèi)容上的重復(fù),把語(yǔ)義相似度模型應(yīng)用到組卷系統(tǒng)中,以實(shí)現(xiàn)組卷系統(tǒng)的試題在內(nèi)容上的非冗余性和形式上的科學(xué)性,其步驟如下:
獲取某一問(wèn)答題考生所給答案文本及標(biāo)準(zhǔn)答案文本;
若試題標(biāo)準(zhǔn)答案已設(shè)置關(guān)鍵字,將考生所給答案文本與關(guān)鍵字做匹配,匹配成功率直接與最后評(píng)分關(guān)聯(lián)。若未預(yù)先設(shè)置關(guān)鍵字,直接進(jìn)行下一步;
將考生所給答案文本與標(biāo)準(zhǔn)答案文本做相似度計(jì)算,根據(jù)文本相似度計(jì)算結(jié)果以及提前設(shè)置的評(píng)分算法進(jìn)行評(píng)分。(評(píng)分算法:舉例 score=S1a%+S2b%,Score為此題最后得分,S1為中匹配成功率S2為中文本相似度計(jì)算結(jié)果a,b為權(quán)重比)
1.4 差分算法優(yōu)化語(yǔ)義相似度模型的相關(guān)參數(shù)
由于差分算法采用對(duì)個(gè)體進(jìn)行方向擾動(dòng),以達(dá)到對(duì)個(gè)體的函數(shù)值進(jìn)行下降的目的,此算法不利用函數(shù)的梯度信息,因此對(duì)函數(shù)的可導(dǎo)性甚至連續(xù)性沒(méi)有要求,適用性很強(qiáng)。對(duì)于詞項(xiàng)相似度的參數(shù)、文本相似度的參數(shù),通過(guò)差分算法自動(dòng)尋優(yōu)找到最優(yōu)的參數(shù),擯棄傳統(tǒng)的手動(dòng)主觀控制參數(shù)方式,從而得到更科學(xué)的語(yǔ)義相似度模型,進(jìn)而得到更智能、更客觀的組卷系統(tǒng),這是手動(dòng)組卷方法所不能企及的。
2 結(jié)論
針對(duì)組卷系統(tǒng)中容易對(duì)同一語(yǔ)義內(nèi)容但不同形式的題目多次出現(xiàn)在同一張?jiān)嚲碇械膯?wèn)題,提出了基于差分優(yōu)化語(yǔ)義相似度模型的組卷系統(tǒng)。采用一種能有效降低文本表示模型的維度,又能結(jié)合詞項(xiàng)語(yǔ)義信息進(jìn)行相似度量計(jì)算的方法進(jìn)行自動(dòng)組卷,以提高自動(dòng)組卷的質(zhì)量,實(shí)現(xiàn)自動(dòng)組卷的科學(xué)性;通過(guò)差分算法自動(dòng)尋優(yōu)找到最優(yōu)的參數(shù),擯棄傳統(tǒng)的手動(dòng)控制參數(shù)方式,從而得到更科學(xué)的語(yǔ)義相似度模型,進(jìn)而得到更智能、更客觀的組卷系統(tǒng)。
參考文獻(xiàn)
[1] Mikolov T. Word2vec project [EB/OL].(2014-09-03) [2015-04-10].http://code.google.com/p/word2vec/.
[2] 谷波,劉開(kāi)瑛.中文文本分類(lèi)中一種簡(jiǎn)單高效的特征詞選擇方法[C].//2005第一屆中國(guó)分類(lèi)技術(shù)與應(yīng)用研討會(huì)(CSCA).2005:356-360.
[3] 周練.Word2vec的工作原理及應(yīng)用探究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2015(2):145-148.
[4] 鄭文超,徐鵬.利用word2vec對(duì)中文詞進(jìn)行聚類(lèi)的研究[J].軟件,2013(12):160-162.