宋燕
摘要:通過(guò)構(gòu)建有限領(lǐng)域概念網(wǎng)模型,形成一種新穎的自然語(yǔ)言文本處理方法。該方法首先構(gòu)建領(lǐng)域概念網(wǎng),再對(duì)目標(biāo)文本進(jìn)行常規(guī)處理后提取其語(yǔ)句框架,最后計(jì)算文本相似度。據(jù)此開(kāi)發(fā)的試卷主觀題評(píng)測(cè)系統(tǒng)表明,與目前方法相比,該系統(tǒng)以語(yǔ)義為核心,使得命題所指的概念網(wǎng)與考生答案的語(yǔ)義之間有聯(lián)系,從而提高評(píng)分準(zhǔn)確率。
關(guān)鍵詞:概念網(wǎng);語(yǔ)句框架;詞網(wǎng);句子相似度;主觀題評(píng)分
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)29-6827-04
Abstract: By constructing a finite domain network of concepts model, a novel form of natural language text processing methods. Firstly, the method build domain network of concepts, and then regularly handle with the target text frame, finally calculate the text similarity. According to the subjective question papers developed evaluation systems says that, compared with current methods, this system semantics as the core, to keep within the meaning of the network of concepts propositions and candidates answer semantic links, improving the score accuracy.
Key words: the network of concepts; sentence framework; wordnet; sentence similarity; assessment of subjective questions
在目前的考試系統(tǒng)中,對(duì)于選擇題和填空題的自動(dòng)閱卷技術(shù)發(fā)展較為成熟,且被廣泛地應(yīng)運(yùn)到各個(gè)考試系統(tǒng)中。對(duì)于主觀題,由于它的答題特點(diǎn)和復(fù)雜性,目前還沒(méi)有一種考試系統(tǒng)能比較智能地完成[1]。計(jì)算機(jī)計(jì)算速度之快、效率之高、不會(huì)疲勞,工作不考慮其它,就非常適合主觀題的自動(dòng)評(píng)分。因此,研究讓計(jì)算機(jī)來(lái)進(jìn)行主觀題的自動(dòng)評(píng)閱具有重大的現(xiàn)實(shí)意義。
主觀題自動(dòng)評(píng)分是通過(guò)計(jì)算機(jī)實(shí)現(xiàn)對(duì)考生答案的自動(dòng)評(píng)閱?,F(xiàn)實(shí)中考試系統(tǒng)要實(shí)現(xiàn)自動(dòng)化和智能化就要解決主觀題自動(dòng)評(píng)分的問(wèn)題,這也是自然語(yǔ)言處理技術(shù)領(lǐng)域中的一個(gè)研究熱點(diǎn)。計(jì)算機(jī)閱卷的過(guò)程就是模擬人的閱卷過(guò)程,主要從考生答案和參考答案的語(yǔ)義上的相似程度,二者相似程度越高,考生的得分越高。因此,要實(shí)現(xiàn)主觀題自動(dòng)評(píng)分就要建立合理高效的主觀題自動(dòng)評(píng)分模型。對(duì)于主觀題自動(dòng)評(píng)分系統(tǒng)中涉及到的詞語(yǔ)語(yǔ)義相似度[2]、文本相似度計(jì)算等的研究在信息檢索[3]、基于實(shí)例的機(jī)器翻譯[4]、自動(dòng)問(wèn)答系統(tǒng)[5][6]、文本挖掘中都有實(shí)際應(yīng)用。
1 概念網(wǎng)模型的構(gòu)建
知網(wǎng)的描述對(duì)象是漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念,它的基本內(nèi)容是概念與概念之間及概念的屬性之間的關(guān)系。在知網(wǎng)中,任一詞語(yǔ)都是通過(guò)概念來(lái)描述,并且每個(gè)詞可以表達(dá)為幾個(gè)概念,概念則由義原來(lái)描述。
知網(wǎng)中描述了十六種關(guān)系,例如上下位關(guān)系、同義關(guān)系、反義關(guān)系、對(duì)義關(guān)系等關(guān)系。義原與義原間組成一個(gè)復(fù)雜的網(wǎng)狀知識(shí)體系。該文要構(gòu)建的概念網(wǎng)模型是參考知網(wǎng)的結(jié)構(gòu)建構(gòu)而成,經(jīng)收集整理得到了《計(jì)算機(jī)網(wǎng)絡(luò)》的相關(guān)概念和術(shù)語(yǔ)部分列舉如下:計(jì)算機(jī)網(wǎng)絡(luò)、硬件資源、軟件資源、數(shù)據(jù)資源、信道資源、分布處理、均衡負(fù)荷、主機(jī)、客戶機(jī)、終端、集線器、交換機(jī)、路由器、同軸電纜、雙絞線、光纖、編碼解碼器、網(wǎng)絡(luò)協(xié)議等等。
知識(shí)工程中的構(gòu)建概念網(wǎng)的方法是迭代法,首先構(gòu)建一個(gè)概念網(wǎng)的框架,然后再更新、擴(kuò)展,不斷補(bǔ)充細(xì)節(jié),最后完善。由于考生的表達(dá)方式具有多樣性,所以主觀題的答題結(jié)果具有復(fù)雜性。該文在構(gòu)建領(lǐng)域概念網(wǎng)時(shí)采用歸一化的思想,組織建立概念之間的關(guān)系,使用到的主要是直接的概念關(guān)系并且建立概念網(wǎng)時(shí)著重建立的是概念間的連接關(guān)系。該文還對(duì)句型進(jìn)行了歸一化,限定了幾種常見(jiàn)的領(lǐng)域句型。該文中概念網(wǎng)的存儲(chǔ)方式為矩陣,在數(shù)據(jù)庫(kù)中建表存儲(chǔ)詞。word代表詞,wordmid代表中間詞,wordcon代表連接詞,圖1是一個(gè)word的表示圖,n個(gè)word構(gòu)成了概念網(wǎng)。
2 構(gòu)建有限領(lǐng)域概念網(wǎng)
在文獻(xiàn)[6]中指出:句子是表達(dá)語(yǔ)義的基本單位,句子中的關(guān)鍵詞及其結(jié)構(gòu)可以形成語(yǔ)句的語(yǔ)義脈絡(luò),表達(dá)了句子的基本語(yǔ)義。如果這兩個(gè)句子的語(yǔ)義脈絡(luò)相近,則可以視為這兩個(gè)句子的語(yǔ)義相似。該文對(duì)從每句話中提取出的關(guān)鍵詞進(jìn)行概念的重新組配,此種方法稱之為語(yǔ)句框架。為了提取考生答案中整句的結(jié)構(gòu)信息,繼而將一個(gè)句子中的關(guān)鍵詞抽出,實(shí)現(xiàn)以語(yǔ)句框架的表現(xiàn)形式先存儲(chǔ)到參考答案的句子類對(duì)象中。此外,一個(gè)完整的漢語(yǔ)句子通常由句子的關(guān)鍵成分和修飾成分組成,并且通??梢詮木渥拥年P(guān)鍵成分體會(huì)到一個(gè)句子的主要意思。
本文將語(yǔ)句框架的語(yǔ)義成分規(guī)定如下:
語(yǔ)句框架≈{主體,行為,主題,位置|方式,目的|時(shí)間},各語(yǔ)義塊的描述如下所示:
1) 主體語(yǔ)義塊對(duì)應(yīng)于句法分析中的主語(yǔ),用于描述行為發(fā)出者的名詞短語(yǔ),該文稱此之為主體語(yǔ)義塊。
2) 行為語(yǔ)義塊對(duì)應(yīng)于句法分析中的謂語(yǔ),描述對(duì)象在某方面的動(dòng)作或者此對(duì)象對(duì)別的對(duì)象的影響,一般是正在發(fā)生或進(jìn)行的動(dòng)詞短語(yǔ)。
3) 主題語(yǔ)義塊對(duì)應(yīng)于句法分析中的賓語(yǔ),描述正在發(fā)生的某些變化或者充當(dāng)行為對(duì)象,一般是名詞短語(yǔ)。endprint
4) 方式語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述狀態(tài)或方法。一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
5) 方位語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述位置或場(chǎng)所的關(guān)系或表示運(yùn)動(dòng)或路徑的關(guān)系,一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
6) 目的語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述主體發(fā)起動(dòng)作的用意,為了達(dá)到的某種效果。
7) 時(shí)間語(yǔ)義塊是說(shuō)明主體或主題發(fā)生的時(shí)間。
例:計(jì)算機(jī)網(wǎng)絡(luò)就是通過(guò)電纜、電話線或無(wú)線通訊將兩臺(tái)以上的計(jì)算機(jī)互連起來(lái)的集合。
抽取的語(yǔ)句框架為:{計(jì)算機(jī)網(wǎng)絡(luò),通過(guò),電纜、電話線、無(wú)線通訊,將,計(jì)算機(jī),互連,集合}
3 基于改進(jìn)的語(yǔ)句框架的主觀題自動(dòng)評(píng)閱流程
假設(shè)給出了題目A的考生答案,該文的目的就是要考生答案對(duì)于這道題目的參考答案是否語(yǔ)義相近或相同,或者考生答案中存在幾個(gè)關(guān)鍵得分點(diǎn),從而判定考生的得分。在主觀題自動(dòng)閱卷中,首先對(duì)主觀題的學(xué)生答案進(jìn)行預(yù)處理,分詞、詞性標(biāo)注,句法分析和指代消解,其中在指代消解中利用到本文中構(gòu)建的概念網(wǎng),構(gòu)建學(xué)生答案的語(yǔ)句框架,并為每個(gè)語(yǔ)句框架分配權(quán)重,利用改進(jìn)的相似度算法計(jì)算句框架相似度,最終得出學(xué)生答案的分?jǐn)?shù)。圖3為主觀題評(píng)分的流程。
注意:①文本處理是對(duì)考生答案建立語(yǔ)句框架進(jìn)行歸一化處理,指代替換。
②加權(quán)文本相似度計(jì)算是:倒裝、被動(dòng)句型下的用語(yǔ)處理和反義詞的處理。同義詞即為相同處理,近義詞即為不完全相同,設(shè)置一個(gè)閾值,該閾值由實(shí)驗(yàn)測(cè)試獲得。
4 基于語(yǔ)料庫(kù)和語(yǔ)義分析方法計(jì)算語(yǔ)句框架相似度
目前,句子相似度計(jì)算是中文信息處理技術(shù)中一個(gè)基礎(chǔ)的并且核心的研究課題,在現(xiàn)實(shí)中有著重要的應(yīng)用價(jià)值。因此,只有正確而有效地計(jì)算詞語(yǔ)相似度,才可能計(jì)算出正確的句子相似度。
基于語(yǔ)料庫(kù)和語(yǔ)義分析計(jì)算句子相似度考慮了多方面的影響因素,將關(guān)鍵詞、句子結(jié)構(gòu)有機(jī)結(jié)合,就形成了精確度高的計(jì)算方法。該文先將學(xué)生答案抽取語(yǔ)句框架后,再與之前構(gòu)建的概念網(wǎng)進(jìn)行相似度計(jì)算。語(yǔ)句框架是由五元組組成的,考生答案的語(yǔ)句框架表示成SAj=(SAj1,SAj2,SAj3,SAj4,SAj5)。在計(jì)算SAj與局部概念網(wǎng)的相似度之前,首先要計(jì)算SAj1、SAj2、SAj3、SAj4和SAj5分別與局部概念網(wǎng)中的概念的相似度。
算法步驟:1) 輸入句子;
2) 提取句子的語(yǔ)句框架,轉(zhuǎn)換成概念的網(wǎng)絡(luò)圖;
3) 將得到的概念網(wǎng)絡(luò)圖與領(lǐng)域概念網(wǎng)進(jìn)行匹配;
4) 匹配成功后,將領(lǐng)域概念網(wǎng)轉(zhuǎn)化為有向網(wǎng)狀圖,否則轉(zhuǎn)向第一步;
5) 概念網(wǎng)中的概念轉(zhuǎn)化為有向網(wǎng)狀圖中的節(jié)點(diǎn),將概念間的關(guān)系表示為連接兩個(gè)節(jié)點(diǎn)的邊;
6) 計(jì)算句子相似度。
5 結(jié)束語(yǔ)
本文以《計(jì)算機(jī)網(wǎng)絡(luò)》課程的領(lǐng)域概念網(wǎng)為基礎(chǔ),在此提出了一種新的方法—基于概念網(wǎng)的方法,改進(jìn)了句子相似度計(jì)算算法。通過(guò)本文的研究,實(shí)現(xiàn)了基于領(lǐng)域概念網(wǎng)和語(yǔ)料庫(kù)及語(yǔ)義分析方法的主觀題自動(dòng)評(píng)閱系統(tǒng),但是本文在研究中仍然存在著一些不足之處,比如空間消耗比較大,需要在以后做進(jìn)一步的學(xué)習(xí)和研究。
參考文獻(xiàn):
[1] 南鉉國(guó).基于語(yǔ)句相似度計(jì)算的主觀題自動(dòng)評(píng)分技術(shù)研究[D].延吉:延邊大學(xué),2007.
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002:59-76.
[3] 廉站俊,呂學(xué)強(qiáng),張玉杰,等.基于句子相似度計(jì)算的信息抽取[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,2(6):38-41.
[4] 姚建民,周明,趙鐵軍,等.基于句子相似度的機(jī)器翻譯評(píng)價(jià)方法及其有效性分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1258-1265.
[5] 周法國(guó),楊炳儒.句子相似度計(jì)算新方法及在問(wèn)答系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(l):165-167,178.
[6] 楊思春,陳家駿.中文自動(dòng)問(wèn)答中句子相似度計(jì)算研究[J].情報(bào)學(xué)報(bào),2008,27(1):35-41.
[7] Yin Wensheng,Tu Pinghui,Xu Fan,et al.The Query Expansion Method Based on Semantic Skeleton[C].Proc of the 2009 Int`1 IEEE Workshop on Intelligent Systems and Application(isa 2009),2009:113-116.endprint
4) 方式語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述狀態(tài)或方法。一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
5) 方位語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述位置或場(chǎng)所的關(guān)系或表示運(yùn)動(dòng)或路徑的關(guān)系,一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
6) 目的語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述主體發(fā)起動(dòng)作的用意,為了達(dá)到的某種效果。
7) 時(shí)間語(yǔ)義塊是說(shuō)明主體或主題發(fā)生的時(shí)間。
例:計(jì)算機(jī)網(wǎng)絡(luò)就是通過(guò)電纜、電話線或無(wú)線通訊將兩臺(tái)以上的計(jì)算機(jī)互連起來(lái)的集合。
抽取的語(yǔ)句框架為:{計(jì)算機(jī)網(wǎng)絡(luò),通過(guò),電纜、電話線、無(wú)線通訊,將,計(jì)算機(jī),互連,集合}
3 基于改進(jìn)的語(yǔ)句框架的主觀題自動(dòng)評(píng)閱流程
假設(shè)給出了題目A的考生答案,該文的目的就是要考生答案對(duì)于這道題目的參考答案是否語(yǔ)義相近或相同,或者考生答案中存在幾個(gè)關(guān)鍵得分點(diǎn),從而判定考生的得分。在主觀題自動(dòng)閱卷中,首先對(duì)主觀題的學(xué)生答案進(jìn)行預(yù)處理,分詞、詞性標(biāo)注,句法分析和指代消解,其中在指代消解中利用到本文中構(gòu)建的概念網(wǎng),構(gòu)建學(xué)生答案的語(yǔ)句框架,并為每個(gè)語(yǔ)句框架分配權(quán)重,利用改進(jìn)的相似度算法計(jì)算句框架相似度,最終得出學(xué)生答案的分?jǐn)?shù)。圖3為主觀題評(píng)分的流程。
注意:①文本處理是對(duì)考生答案建立語(yǔ)句框架進(jìn)行歸一化處理,指代替換。
②加權(quán)文本相似度計(jì)算是:倒裝、被動(dòng)句型下的用語(yǔ)處理和反義詞的處理。同義詞即為相同處理,近義詞即為不完全相同,設(shè)置一個(gè)閾值,該閾值由實(shí)驗(yàn)測(cè)試獲得。
4 基于語(yǔ)料庫(kù)和語(yǔ)義分析方法計(jì)算語(yǔ)句框架相似度
目前,句子相似度計(jì)算是中文信息處理技術(shù)中一個(gè)基礎(chǔ)的并且核心的研究課題,在現(xiàn)實(shí)中有著重要的應(yīng)用價(jià)值。因此,只有正確而有效地計(jì)算詞語(yǔ)相似度,才可能計(jì)算出正確的句子相似度。
基于語(yǔ)料庫(kù)和語(yǔ)義分析計(jì)算句子相似度考慮了多方面的影響因素,將關(guān)鍵詞、句子結(jié)構(gòu)有機(jī)結(jié)合,就形成了精確度高的計(jì)算方法。該文先將學(xué)生答案抽取語(yǔ)句框架后,再與之前構(gòu)建的概念網(wǎng)進(jìn)行相似度計(jì)算。語(yǔ)句框架是由五元組組成的,考生答案的語(yǔ)句框架表示成SAj=(SAj1,SAj2,SAj3,SAj4,SAj5)。在計(jì)算SAj與局部概念網(wǎng)的相似度之前,首先要計(jì)算SAj1、SAj2、SAj3、SAj4和SAj5分別與局部概念網(wǎng)中的概念的相似度。
算法步驟:1) 輸入句子;
2) 提取句子的語(yǔ)句框架,轉(zhuǎn)換成概念的網(wǎng)絡(luò)圖;
3) 將得到的概念網(wǎng)絡(luò)圖與領(lǐng)域概念網(wǎng)進(jìn)行匹配;
4) 匹配成功后,將領(lǐng)域概念網(wǎng)轉(zhuǎn)化為有向網(wǎng)狀圖,否則轉(zhuǎn)向第一步;
5) 概念網(wǎng)中的概念轉(zhuǎn)化為有向網(wǎng)狀圖中的節(jié)點(diǎn),將概念間的關(guān)系表示為連接兩個(gè)節(jié)點(diǎn)的邊;
6) 計(jì)算句子相似度。
5 結(jié)束語(yǔ)
本文以《計(jì)算機(jī)網(wǎng)絡(luò)》課程的領(lǐng)域概念網(wǎng)為基礎(chǔ),在此提出了一種新的方法—基于概念網(wǎng)的方法,改進(jìn)了句子相似度計(jì)算算法。通過(guò)本文的研究,實(shí)現(xiàn)了基于領(lǐng)域概念網(wǎng)和語(yǔ)料庫(kù)及語(yǔ)義分析方法的主觀題自動(dòng)評(píng)閱系統(tǒng),但是本文在研究中仍然存在著一些不足之處,比如空間消耗比較大,需要在以后做進(jìn)一步的學(xué)習(xí)和研究。
參考文獻(xiàn):
[1] 南鉉國(guó).基于語(yǔ)句相似度計(jì)算的主觀題自動(dòng)評(píng)分技術(shù)研究[D].延吉:延邊大學(xué),2007.
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002:59-76.
[3] 廉站俊,呂學(xué)強(qiáng),張玉杰,等.基于句子相似度計(jì)算的信息抽取[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,2(6):38-41.
[4] 姚建民,周明,趙鐵軍,等.基于句子相似度的機(jī)器翻譯評(píng)價(jià)方法及其有效性分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1258-1265.
[5] 周法國(guó),楊炳儒.句子相似度計(jì)算新方法及在問(wèn)答系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(l):165-167,178.
[6] 楊思春,陳家駿.中文自動(dòng)問(wèn)答中句子相似度計(jì)算研究[J].情報(bào)學(xué)報(bào),2008,27(1):35-41.
[7] Yin Wensheng,Tu Pinghui,Xu Fan,et al.The Query Expansion Method Based on Semantic Skeleton[C].Proc of the 2009 Int`1 IEEE Workshop on Intelligent Systems and Application(isa 2009),2009:113-116.endprint
4) 方式語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述狀態(tài)或方法。一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
5) 方位語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述位置或場(chǎng)所的關(guān)系或表示運(yùn)動(dòng)或路徑的關(guān)系,一般是由副詞和介詞短語(yǔ)構(gòu)成。提取時(shí)將介詞去掉。
6) 目的語(yǔ)義塊對(duì)應(yīng)于句法分析中的狀語(yǔ),描述主體發(fā)起動(dòng)作的用意,為了達(dá)到的某種效果。
7) 時(shí)間語(yǔ)義塊是說(shuō)明主體或主題發(fā)生的時(shí)間。
例:計(jì)算機(jī)網(wǎng)絡(luò)就是通過(guò)電纜、電話線或無(wú)線通訊將兩臺(tái)以上的計(jì)算機(jī)互連起來(lái)的集合。
抽取的語(yǔ)句框架為:{計(jì)算機(jī)網(wǎng)絡(luò),通過(guò),電纜、電話線、無(wú)線通訊,將,計(jì)算機(jī),互連,集合}
3 基于改進(jìn)的語(yǔ)句框架的主觀題自動(dòng)評(píng)閱流程
假設(shè)給出了題目A的考生答案,該文的目的就是要考生答案對(duì)于這道題目的參考答案是否語(yǔ)義相近或相同,或者考生答案中存在幾個(gè)關(guān)鍵得分點(diǎn),從而判定考生的得分。在主觀題自動(dòng)閱卷中,首先對(duì)主觀題的學(xué)生答案進(jìn)行預(yù)處理,分詞、詞性標(biāo)注,句法分析和指代消解,其中在指代消解中利用到本文中構(gòu)建的概念網(wǎng),構(gòu)建學(xué)生答案的語(yǔ)句框架,并為每個(gè)語(yǔ)句框架分配權(quán)重,利用改進(jìn)的相似度算法計(jì)算句框架相似度,最終得出學(xué)生答案的分?jǐn)?shù)。圖3為主觀題評(píng)分的流程。
注意:①文本處理是對(duì)考生答案建立語(yǔ)句框架進(jìn)行歸一化處理,指代替換。
②加權(quán)文本相似度計(jì)算是:倒裝、被動(dòng)句型下的用語(yǔ)處理和反義詞的處理。同義詞即為相同處理,近義詞即為不完全相同,設(shè)置一個(gè)閾值,該閾值由實(shí)驗(yàn)測(cè)試獲得。
4 基于語(yǔ)料庫(kù)和語(yǔ)義分析方法計(jì)算語(yǔ)句框架相似度
目前,句子相似度計(jì)算是中文信息處理技術(shù)中一個(gè)基礎(chǔ)的并且核心的研究課題,在現(xiàn)實(shí)中有著重要的應(yīng)用價(jià)值。因此,只有正確而有效地計(jì)算詞語(yǔ)相似度,才可能計(jì)算出正確的句子相似度。
基于語(yǔ)料庫(kù)和語(yǔ)義分析計(jì)算句子相似度考慮了多方面的影響因素,將關(guān)鍵詞、句子結(jié)構(gòu)有機(jī)結(jié)合,就形成了精確度高的計(jì)算方法。該文先將學(xué)生答案抽取語(yǔ)句框架后,再與之前構(gòu)建的概念網(wǎng)進(jìn)行相似度計(jì)算。語(yǔ)句框架是由五元組組成的,考生答案的語(yǔ)句框架表示成SAj=(SAj1,SAj2,SAj3,SAj4,SAj5)。在計(jì)算SAj與局部概念網(wǎng)的相似度之前,首先要計(jì)算SAj1、SAj2、SAj3、SAj4和SAj5分別與局部概念網(wǎng)中的概念的相似度。
算法步驟:1) 輸入句子;
2) 提取句子的語(yǔ)句框架,轉(zhuǎn)換成概念的網(wǎng)絡(luò)圖;
3) 將得到的概念網(wǎng)絡(luò)圖與領(lǐng)域概念網(wǎng)進(jìn)行匹配;
4) 匹配成功后,將領(lǐng)域概念網(wǎng)轉(zhuǎn)化為有向網(wǎng)狀圖,否則轉(zhuǎn)向第一步;
5) 概念網(wǎng)中的概念轉(zhuǎn)化為有向網(wǎng)狀圖中的節(jié)點(diǎn),將概念間的關(guān)系表示為連接兩個(gè)節(jié)點(diǎn)的邊;
6) 計(jì)算句子相似度。
5 結(jié)束語(yǔ)
本文以《計(jì)算機(jī)網(wǎng)絡(luò)》課程的領(lǐng)域概念網(wǎng)為基礎(chǔ),在此提出了一種新的方法—基于概念網(wǎng)的方法,改進(jìn)了句子相似度計(jì)算算法。通過(guò)本文的研究,實(shí)現(xiàn)了基于領(lǐng)域概念網(wǎng)和語(yǔ)料庫(kù)及語(yǔ)義分析方法的主觀題自動(dòng)評(píng)閱系統(tǒng),但是本文在研究中仍然存在著一些不足之處,比如空間消耗比較大,需要在以后做進(jìn)一步的學(xué)習(xí)和研究。
參考文獻(xiàn):
[1] 南鉉國(guó).基于語(yǔ)句相似度計(jì)算的主觀題自動(dòng)評(píng)分技術(shù)研究[D].延吉:延邊大學(xué),2007.
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002:59-76.
[3] 廉站俊,呂學(xué)強(qiáng),張玉杰,等.基于句子相似度計(jì)算的信息抽取[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,2(6):38-41.
[4] 姚建民,周明,趙鐵軍,等.基于句子相似度的機(jī)器翻譯評(píng)價(jià)方法及其有效性分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1258-1265.
[5] 周法國(guó),楊炳儒.句子相似度計(jì)算新方法及在問(wèn)答系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(l):165-167,178.
[6] 楊思春,陳家駿.中文自動(dòng)問(wèn)答中句子相似度計(jì)算研究[J].情報(bào)學(xué)報(bào),2008,27(1):35-41.
[7] Yin Wensheng,Tu Pinghui,Xu Fan,et al.The Query Expansion Method Based on Semantic Skeleton[C].Proc of the 2009 Int`1 IEEE Workshop on Intelligent Systems and Application(isa 2009),2009:113-116.endprint