王文輝 吳敏華 駱力明 劉 杰
(首都師范大學(xué)信息工程學(xué)院 北京 100048)
基于相似度算法的英語智能問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
王文輝 吳敏華 駱力明 劉 杰
(首都師范大學(xué)信息工程學(xué)院 北京 100048)
智能問答系統(tǒng)是在搜索引擎的基礎(chǔ)上融合了自然語言知識(shí)和應(yīng)用的人工智能產(chǎn)品,相比較傳統(tǒng)的依靠關(guān)鍵字匹配的搜索引擎,能夠更好地滿足用戶的查詢需求。針對(duì)現(xiàn)有的英語智能問答系統(tǒng)中知識(shí)呈現(xiàn)的單一化以及系統(tǒng)查詢效率低等現(xiàn)狀,采用基于距離的相似度算法,設(shè)計(jì)并實(shí)現(xiàn)了基于相似度算法的英語智能問答系統(tǒng)。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)能夠較為準(zhǔn)確地回答小學(xué)生的英語問題,對(duì)遠(yuǎn)程教育中小學(xué)英語智能問答系統(tǒng)的構(gòu)建起到參考和借鑒的作用。
智能問答系統(tǒng) 搜索引擎 關(guān)鍵字匹配 相似度算法
隨著21世紀(jì)進(jìn)入人們的視野,網(wǎng)絡(luò)通信技術(shù)飛速發(fā)展,大數(shù)據(jù)時(shí)代逐漸進(jìn)入人們視野,紛繁復(fù)雜的數(shù)據(jù)信息充斥著互聯(lián)網(wǎng),互聯(lián)網(wǎng)承載的信息量在不斷增長。這些龐大的信息逐漸成為了回答用戶提問的重要來源。傳統(tǒng)的搜索引擎信息檢索方式大部分還是按照關(guān)鍵詞進(jìn)行搜索。這種檢索方式雖然能方便用戶查詢信息,但它在一定程度上反饋給用戶的是大量相關(guān)和無關(guān)的搜索結(jié)果,用戶很難從中快速地找到自己想要的答案。如何從海量的信息源中準(zhǔn)確獲取到用戶最需要的信息,是信息化時(shí)代研究者們共同追求的目標(biāo)。
近年來,問答系統(tǒng)的出現(xiàn)逐漸引起了學(xué)者們的關(guān)注。智能問答系統(tǒng)是自然語言處理和信息檢索領(lǐng)域的一個(gè)新的研究熱點(diǎn),它允許用戶以自然語言形式的句子提問,并采用自然語言處理技術(shù)自動(dòng)地將簡(jiǎn)潔、準(zhǔn)確的答案返回給用戶[1-2],它的出現(xiàn)體現(xiàn)了人們對(duì)快速、準(zhǔn)確檢索信息的探索與追求。與傳統(tǒng)搜索引擎相比,智能問答系統(tǒng)不僅符合用戶提問的表達(dá)形式,而且相對(duì)于搜索引擎的關(guān)鍵詞匹配方式,在對(duì)問句理解的提問意圖方面具有明顯優(yōu)勢(shì),并且能夠直接把用戶想要的答案提煉好并以結(jié)構(gòu)化的方式呈現(xiàn)給用戶。這種智能化的問答方式在遠(yuǎn)程教育答疑解惑中發(fā)揮著重要的作用。
知識(shí)本體庫是用戶提問的“問題-答案”庫,這些問題所對(duì)應(yīng)的答案都存儲(chǔ)在數(shù)據(jù)庫中。當(dāng)用戶提出一個(gè)問題時(shí),該問答系統(tǒng)通常先對(duì)常規(guī)問題集FAQ(Frequently Asked Question)進(jìn)行檢索,然后搜尋出最相似的問題答案,返還給用戶。如果該系統(tǒng)在FAQ庫中找不到用戶滿意的答案,系統(tǒng)將自動(dòng)切換到知識(shí)本體庫中進(jìn)行檢索。其中,相似度算法是智能問答系統(tǒng)中的關(guān)鍵技術(shù),用來實(shí)現(xiàn)知識(shí)本體庫中最相似問句的查找。通過對(duì)用戶提出的問題與知識(shí)本體庫中存儲(chǔ)的問題答案進(jìn)行相似度計(jì)算,然后選取相似度最高的答案作為用戶提出的問題答案,并將對(duì)應(yīng)的答案信息返還給用戶。
目前,句子相似度算法在現(xiàn)實(shí)中有著廣泛的應(yīng)用,它的研究狀況影響著其他相關(guān)領(lǐng)域的研究進(jìn)展,句子相似度算法在問答系統(tǒng)的各個(gè)領(lǐng)域都有著非常重要的作用,如在中文FAQ問答系統(tǒng)中[3],在本體問答系統(tǒng)中[4],在OTC問答系統(tǒng)中的使用[5]以及在基于常見問題集的機(jī)器問答系統(tǒng)中的使用等[6],句子相似度算法都是問答系統(tǒng)中的關(guān)鍵技術(shù)之一?;诖耍疚膶⒕渥酉嗨贫人惴☉?yīng)用于小學(xué)英語智能問答系統(tǒng)中,設(shè)計(jì)并實(shí)現(xiàn)了英語智能問答系統(tǒng)。句子相似度算法綜合考慮了英語問句單詞和語義多方面的特征,不僅提高了英語智能問答系統(tǒng)的運(yùn)行效率,而且準(zhǔn)確地回答了小學(xué)生的英語問題。該系統(tǒng)還能滿足小學(xué)生英語智能問答學(xué)習(xí)的功能需求,更好地幫助小學(xué)生實(shí)現(xiàn)多樣化英語學(xué)習(xí)。
1.1 系統(tǒng)模型
英語智能問答系統(tǒng)是自然領(lǐng)域的一種較高級(jí)的信息檢索技術(shù),它的目的是希望小學(xué)生通過使用該系統(tǒng)能夠?qū)θ粘I钪谢镜挠⒄Z句子進(jìn)行提問,然后得到一個(gè)準(zhǔn)確的答案。簡(jiǎn)單來說,英語智能問答系統(tǒng)就是通過分析學(xué)生提出的英語問題并理解問題含義,然后將答案返回給學(xué)生。
如圖1所示,英語智能問答系統(tǒng)的組成有四個(gè)模塊:第一個(gè)是問題分析模塊,該模塊的內(nèi)容主要包括五個(gè)部分:?jiǎn)卧~還原、詞性標(biāo)注、問句類型分析、問句答案類型分析以及關(guān)鍵詞提取。第二個(gè)模塊是相似度計(jì)算,相似度計(jì)算模塊是問答系統(tǒng)的核心內(nèi)容,這部分主要是詞語相似度計(jì)算和語句相似度計(jì)算。第三個(gè)模塊是答案抽取,這部分主要是進(jìn)行相似度排序、篩選答案以及輸出答案。最后一個(gè)模塊是知識(shí)推送,這部分內(nèi)容主要是通過了解不同用戶的知識(shí)水平等級(jí)、相關(guān)知識(shí)難度以及用戶對(duì)資源類型的偏好,將答案以多樣化的形式呈現(xiàn)給用戶。
圖1 英語智能問答系統(tǒng)模型
1.2 問題分析模塊
問題分析模塊是智能問答系統(tǒng)中不可缺少的一部分,它的目標(biāo)是使計(jì)算機(jī)能夠理解用戶的查詢語義,為后續(xù)進(jìn)行的答案抽取模塊工作做準(zhǔn)備。準(zhǔn)確的問題分析有助于系統(tǒng)在答案抽取模塊時(shí)針對(duì)不同類別的問題使用相應(yīng)的答案抽取方法和策略。當(dāng)用戶輸入一個(gè)英語問句時(shí),問題分析模塊將對(duì)其進(jìn)行分析和處理,處理程序包括:
(1) 單詞還原
把問句與答案句中所有的單詞變回原型。例如:助動(dòng)詞had、has變?yōu)閔ave,復(fù)數(shù)單詞sports變?yōu)閟port,be動(dòng)詞變?yōu)閕s、was變?yōu)閎e。
(2) 詞性標(biāo)注
對(duì)還原后的每個(gè)單詞進(jìn)行詞性標(biāo)注。其中包括詞性為動(dòng)詞的單詞、詞性為名詞的單詞詞性為形容詞的單詞和詞性為副詞的單詞。
(3) 問句類型分析
對(duì)用戶提出的一些常用英語問句類型進(jìn)行分析,如以“What kind of……”、“How do you like……?”、“Which is……?”等為代表的英語問句。
(4) 問句答案類型分析
判斷用戶提出的問句是屬于哪一類型的事物。問句答案類型主要有回答、情境對(duì)話等多種。每個(gè)類型又包含四種媒體呈現(xiàn)方式:音頻、視頻、繪本、圖片。分為難、中、易三個(gè)等級(jí)。
此外,用戶還可以單獨(dú)輸入一個(gè)單詞查詢所得結(jié)果。單詞答案類型包括回答、課文原句、情景段落、延伸例句等。對(duì)單詞以及問句答案類型進(jìn)行劃分與確定,不僅豐富了英語知識(shí)呈現(xiàn)的形式,而且在一定程度上提高了小學(xué)生學(xué)習(xí)英語的積極性和學(xué)習(xí)興趣。問句和單詞答案具體分類如表1所示。
表1 問句和單詞答案類型
(5) 關(guān)鍵詞提取
英語問句中包含的關(guān)鍵詞代表了該句子的主要含義。在檢索過程中,關(guān)鍵詞按照詞性的不同被賦予不同的權(quán)重,權(quán)重從大到小依次為名詞、限定性副詞、形容詞和動(dòng)詞[7]。
1.3 相似度計(jì)算模塊
句子相似度計(jì)算方法主要通過計(jì)算兩條語句之間的相似度來選取合適的句子。其中語句的相似度主要包含詞形、句法、語義等方面,計(jì)算結(jié)果得出的相似度值越大,表明兩個(gè)句子在詞形、句法、語義等方面的信息越接近[8]。本研究在計(jì)算英語問句相似度時(shí)采用的是基于距離的相似度算法,該算法基于 WordNet 概念語義分類詞典,計(jì)算英語單詞間相似度采用概念詞相似度計(jì)算方法,得到英語單詞之間相似度后根據(jù)夾角余弦相似度的計(jì)算方法得出英語語句間的語義相似度。
1.4 答案抽取模塊
答案抽取模塊是對(duì)信息檢索模塊得到的備選答案問句進(jìn)行詞法、句法和語義等方面的分析,需要對(duì)答案進(jìn)行排序。另外系統(tǒng)也需要設(shè)置一個(gè)閾值,只有語句相似度大于設(shè)定的閾值,才輸出檢索的結(jié)果,通過強(qiáng)制性關(guān)鍵詞表對(duì)檢索的結(jié)果進(jìn)行過濾,去掉和檢索結(jié)果無關(guān)的內(nèi)容,然后根據(jù)查詢問句所屬類別提煉答案,以符合用戶知識(shí)水平的方式返回給用戶最合適的問題答案[9]。該模塊主要通過問句相似度計(jì)算從知識(shí)本體庫中得到最相似的備選答案,之后進(jìn)行答案抽取,將相似度值大于0.8的備選答案依照相似度值的大小進(jìn)行排序,并且根據(jù)問題分析模塊獲取的問題類型,將備選答案推送給知識(shí)推送模塊。
1.5 知識(shí)推送模塊
知識(shí)推送模塊是該系統(tǒng)的重要組成部分,與眾不同之處在于它考慮到了用戶個(gè)人的興趣愛好,每個(gè)用戶都有自己獨(dú)特的學(xué)習(xí)方式,該模塊能夠根據(jù)用戶的瀏覽信息推送不同的知識(shí)。智能問答系統(tǒng)根據(jù)用戶的先前知識(shí)水平、興趣愛好以及學(xué)習(xí)方式等特征提供多種多樣的答案給用戶,不同的用戶會(huì)得到符合自己知識(shí)水平的問題答案。在知識(shí)推送模塊中,將問題答案呈現(xiàn)內(nèi)容根據(jù)難易程度劃分為三個(gè)級(jí)別,簡(jiǎn)單、中等、困難。通過不同用戶的知識(shí)水平背景推薦不同難度等級(jí)的問題答案(如表2所示)。
表2 問題答案難度等級(jí)
1.6 知識(shí)本體庫
如圖2所示,本系統(tǒng)的知識(shí)本體庫分為三部分:知識(shí)本體、教材組織本體和資源庫。知識(shí)本體包括單詞本體和句子本體,具有不同的屬性;每個(gè)屬性由圖片、音頻、視頻、繪本等資源組成,以滿足不同學(xué)習(xí)者的個(gè)性化需求。由于相似度計(jì)算模塊的算法是在相同的疑問詞中查找相似度最高的句子,這就會(huì)遺漏不同疑問詞中語義相似度高的句子,所以建立一個(gè)特例句子本體庫,鏈接此類句子,以提高查找精度。單詞教材組織本體和句子教材組織本體都繼承教材組織本體,包含教材特征的所有屬性。
圖2 知識(shí)本體結(jié)構(gòu)圖
2.1 相似度算法
基于距離的相似度計(jì)算是目前使用較多的算法之一,它的基本思想是通過獲得語義詞典樹當(dāng)中兩個(gè)概念詞之間的路徑長度來衡量它們的語義距離,語義相似度和語義距離之間呈現(xiàn)負(fù)相關(guān)的關(guān)系。如果兩個(gè)詞語之間的語義距離越大,那么相似度就越低;反之,如果兩個(gè)詞語之間的語義距離越小,那么相似度就越高[10]。
2.1.1 語間概念詞相似度
本文參考了Li[11]提出的概念相似度算法的思想,該算法非常經(jīng)典且具有代表性,并引用改進(jìn)的概念詞相似度計(jì)算方法[12],算法定義如下:
(1)
其中,L表示兩個(gè)概念詞W1與W2之間的最短路徑長度,Hc表示W(wǎng)1和W2公共上位詞集的深度,Hw1表示概念詞W1的深度,Hw2表示概念詞W2的深度。α為常數(shù)(根據(jù)Li的實(shí)驗(yàn)取值為0.2)。
式(1)需要滿足如下幾個(gè)約束條件:
(1) 如果兩個(gè)概念詞之間的最短路徑越短,那么它們的語義相似度就越大;
(2) 如果兩個(gè)概念詞的公共上位詞的深度越大,那么它們的語義相似度就越大;
(3) 如果兩個(gè)概念詞分別到公共上位詞的距離越短,那么它們的語義相似度就越大;
(4) 兩個(gè)概念詞之間的語義相似度值位于區(qū)間[0,1]之內(nèi)。
2.1.2 語句間語義相似度
本文在衡量語句間相似度時(shí),使用向量空間模型來表示英文語句,向量空間模型是一種較好的文本表示方法之一。向量空間模型VSM(vector space model)的基本思想是把文本中的單詞、短語等包含語義的最小單位分割開,然后將其對(duì)應(yīng)的相似度值作為向量中的元素[13-14]。這種向量空間模型的表述方式能夠準(zhǔn)確而客觀的表達(dá)英語文本的語義信息。在對(duì)兩條英語問句和答案句進(jìn)行向量化表示以后,使用向量相似度測(cè)量方法——夾角余弦來獲得英語語句間的語義相似度。
1) 語句的向量化表示
在對(duì)英文語句進(jìn)行向量化表示時(shí),需要把兩條英文語句表示成等長度的向量。例如兩條英文語句T1和T2,將兩條語句中的所有單詞匯集在一起,構(gòu)成一個(gè)聯(lián)合詞集T:
T=T1∪T2={w1,q1,…,wm,qn}
(2)
聯(lián)合詞集T包含了英文語句T1和T2中所有的單詞,將T1和T2中相同的單詞都去掉,保證聯(lián)合詞集T中所有元素的互異性。其中集合{w1,w2,…,wm}表示英文語句T1中的所有單詞集合,集合{q1,q2,…,qn}表示英文語句T2中的所有單詞集合。下面以兩條英文例句來具體說明:
T1:{What is your favorite sports?}
T2:{What kind of sports do you enjoy most?}
T1和T2組成聯(lián)合詞集T:{ What be your favorite sport kind of do you enjoy most ?}
其中,聯(lián)合詞集T是由兩條英文語句中的單詞原形并去掉冠詞、感嘆詞等不具有真正語義信息的單詞組成的,并且兩個(gè)語句中相同的單詞只記錄一次。將聯(lián)合詞集T用一個(gè)向量來表示,稱這個(gè)向量為聯(lián)合語義向量,記作S。同時(shí)將兩條英文語句T1和T2分別都使用聯(lián)合語義向量S1和S2表示。聯(lián)合語義向量的長度與聯(lián)合詞集中單詞的個(gè)數(shù)相等。向量中每個(gè)單詞分量的值根據(jù)以下方法確定:
(1) 當(dāng)Wi包含在語句中,Si取值為1;
(2) 當(dāng)Wi不包含在語句中,那么使用式(1)計(jì)算單詞間相似度。
由上述方法得到英文語句T1和T2分別對(duì)應(yīng)的聯(lián)合語義向量S1和S2:
S1:{1,1,1,1,1,0.8,0,0,1,0.8,0.9};
S2:{1,0,1,0.8,1,1,1,1,1,1,1 }。
其中,S1中的各個(gè)數(shù)值依次為What與What、 be與be、 your與your、favorite與favorite、 sport與sport 、kind與favorite、you與your、 enjoy與favorite、most與favorite之間的綜合相似度(其中of是介詞無比較單詞,do與是助動(dòng)詞無比較單詞);S2中的各個(gè)數(shù)值依次為What與What、 your與you、favorite與enjoy、 sport與sport 、kind與kind、you與you、 enjoy與enjoy、 most與most之間的綜合相似度(其中of是介詞無比較單詞,do與是助動(dòng)詞無比較單詞,be是系動(dòng)詞無比較單詞)。
2) 語句間的相似度計(jì)算
確定了兩條英文語句T1與T2的聯(lián)合語義向量S1和S2之后,根據(jù)式(3)計(jì)算得到T1與T2語句間的相似度。最后,將語句間相似度大于預(yù)設(shè)閾值的備選答案作為最終答案。
(3)
2.2 相似度算法流程
該算法輸入為用戶提問的一條英語問句,輸出結(jié)果為與該問句相似的所有備選答案以及相似度值,相似度取值的區(qū)間為[0,1]。以下為本算法在執(zhí)行英語問句時(shí)的具體處理流程(如圖3所示)。
Step1 用戶輸入一個(gè)英語問句,進(jìn)行問句預(yù)處理操作,然后在知識(shí)本體庫中檢索得到備選答案;
Step2 將問句和備選答案句中的單詞進(jìn)行還原處理;
Step3 對(duì)還原后的每個(gè)單詞進(jìn)行詞性標(biāo)注;
Step4 將處理后的問句和答案句中的不同單詞組成聯(lián)合詞集;
Step5 將聯(lián)合詞集向量化表示,構(gòu)成聯(lián)合語義向量集;
Step6 根據(jù)式(1)計(jì)算得出的概念詞相似度給聯(lián)合語義向量集中的每一個(gè)分量賦值;
Step7 根據(jù)式(3)計(jì)算問句和答案句分別對(duì)應(yīng)的聯(lián)合語義向量的余弦相似度得出語義相似度;
Step8 將計(jì)算出的step7中的語義相似度結(jié)果進(jìn)行排序,最終選取相似度最高的句子作為問題答案。
圖3 算法執(zhí)行流程圖
該系統(tǒng)以MYSQL數(shù)據(jù)庫和知識(shí)本體庫作為后臺(tái)數(shù)據(jù)庫管理系統(tǒng)。使用到的數(shù)據(jù)表有問題表、問題答案表、答案表、學(xué)習(xí)偏好表、常用詞詞典以及WordNet作為語義詞典。在Eclipse平臺(tái)下采用(Spring MVC+ Maven+Mybatis)等架構(gòu)。系統(tǒng)實(shí)現(xiàn)的具體流程如圖4所示。
圖4 智能問答系統(tǒng)執(zhí)行流程圖
如圖4所示,用戶輸入問句進(jìn)行提問,之后系統(tǒng)首先查詢FAQ問題集,如果查找到了問題答案,便進(jìn)行篩選,將最合適的答案返回給用戶。如果在FAQ庫中沒有找到問題答案,便查詢知識(shí)本體庫。這一階段需要經(jīng)過一系列句法處理,如單詞還原、詞性標(biāo)注等過程形成關(guān)鍵詞集,然后將處理好的英文語句進(jìn)行相似度計(jì)算,最后返回相似度最高的問題答案給用戶,根據(jù)用戶知識(shí)水平呈現(xiàn)多樣化答案內(nèi)容。問句答案可以在知識(shí)本體庫中查詢到對(duì)應(yīng)的ID值,獲取到與該ID值相關(guān)的若干屬性值。用戶本體庫存儲(chǔ)著每個(gè)學(xué)生的知識(shí)水平等級(jí)、學(xué)習(xí)風(fēng)格等信息,最后通過知識(shí)推送模塊推薦給學(xué)習(xí)者合適的學(xué)習(xí)內(nèi)容。
3.1 數(shù)據(jù)測(cè)試結(jié)果
如表3所示,實(shí)驗(yàn)結(jié)果采用正確率和綜合相似度進(jìn)行評(píng)估,本實(shí)驗(yàn)總共輸入432條句子、910個(gè)單詞,正確率分別為82.17%和91.09%,綜合相似度值均大于0.8。從測(cè)試結(jié)果可以看出該算法能夠提高實(shí)驗(yàn)結(jié)果的正確率,并且句子綜合相似度較高,提高了系統(tǒng)效率。
表3 系統(tǒng)數(shù)據(jù)測(cè)試結(jié)果
3.2 單詞查詢結(jié)果
當(dāng)用戶在搜索框輸入一個(gè)英語單詞時(shí),系統(tǒng)會(huì)呈現(xiàn)與該單詞相關(guān)的多種類型的答案,例如對(duì)應(yīng)單詞的課文原句、情景段落、延伸例句等。在查詢單詞的過程中,系統(tǒng)首先查詢FAQ庫,如果查到答案便直接呈現(xiàn)給用戶;如果FAQ庫沒有答案,便查詢知識(shí)本體庫將答案呈現(xiàn)給用戶。
例如,以輸入單詞“river”為例進(jìn)行查詢。如圖5所示,用戶輸入單詞“river”,系統(tǒng)呈現(xiàn)與該單詞相關(guān)的結(jié)果。其中包含:課文原句“I see some ships and boats on the river”;情境段落“That’s the Thames.It’s a long and wide river”;延伸例句“Jimmy can swim across the river”;百科“中國的第一大河-長江長約6 300公里?!保挥梅ā皢卧~、句型”;聯(lián)想“wide(寬的)/water(水)/long(長的)”;同義詞“water”;反義詞“desert”;拓展“river bed(河床)/river side(河岸)”;常用“cross the river(渡河)/mouth of the river(河口)”。
圖5 單詞查詢結(jié)果
3.3 問句查詢結(jié)果
當(dāng)用戶在搜索框輸入一個(gè)問句時(shí),系統(tǒng)會(huì)呈現(xiàn)與該問句相關(guān)的多種類型的答案,例如回答、情境對(duì)話、重要句型、課后單詞等。在查詢問句的過程中,系統(tǒng)首先查詢FAQ庫,如果查到答案便直接呈現(xiàn)給用戶;如果FAQ庫沒有答案,便查詢知識(shí)本體庫將答案呈現(xiàn)給用戶,在查詢本體庫的同時(shí),對(duì)查到的相關(guān)語句答案進(jìn)行相似度計(jì)算,選取相似度最大的問題答案作為最終答案返回給用戶。
例如,以輸入問句“Excuse me, What is her name?”進(jìn)行查詢。如圖6所示,對(duì)用戶所提問句預(yù)處理之后,在知識(shí)本體庫一共查詢到26條與問句相關(guān)的答案。ID是每條備選答案的唯一標(biāo)識(shí),與問句“Excuse me, What is her name?”最相似的句子ID為1/10/7/3的語句“What is your name”,相似度值為0.52。
圖6 相似度算法查詢問句結(jié)果
圖7為問句查詢結(jié)果,其中包含:?jiǎn)栴}“What’s your name?”,回答“His name is Mocky”。情景對(duì)話“A:Is this yours? B:Yes,it’s mine.A:Are there any gift in your bag? B:Well,open it and see.C:Dad,this bag isn’t yours.There are woman’s clothes.D:Maybe it’s hers.A:This bag isn’t his.Is it yours? E:Yes,it’s mine.What’s your name? B: His name is Mocky.”;本課重要句型:無;本課課后單詞:“1. hers 她的(所有物)2.his 他的(所有物)3.yours 你(們)的(所有物)”。
圖7 問句查詢結(jié)果
3.4 系統(tǒng)運(yùn)行效果分析
本系統(tǒng)收集與整理了眾多小學(xué)生在使用問答系統(tǒng)過程中常見問題和普遍性問題2 000多個(gè),問題答案使用批量導(dǎo)入方式,通過教材收集問題答案然后存入知識(shí)本體庫中。系統(tǒng)運(yùn)行三個(gè)月以來,接受各學(xué)校小學(xué)生使用累計(jì)3 058次,并對(duì)此進(jìn)行了統(tǒng)計(jì)分析如表4所示,其中λ(0≤λ≤1)為系統(tǒng)設(shè)定的相似度閾值,在這里λ分別取0.7/0/8/0.9三個(gè)數(shù)值來衡量句子相似度。
表4 句子相似度結(jié)果所占比例
由表4可以看出:(1)對(duì)于λ取不同的值時(shí),出現(xiàn)相似問句的數(shù)量并不相同,其中當(dāng)λ=0.8時(shí)相似句子出現(xiàn)數(shù)量最高,占總體比例的70.4%,說明本系統(tǒng)在采用基于距離的相似度算法有較高的準(zhǔn)確性。(2)當(dāng)λ=0.9時(shí)相似單詞出現(xiàn)數(shù)量最高,達(dá)到了90%以上。由此可見,無論是在查詢單詞還是句子方面,系統(tǒng)已經(jīng)較好地滿足了實(shí)際應(yīng)用的需求。
小學(xué)英語問答系統(tǒng)能否實(shí)現(xiàn)智能化,最直接的體現(xiàn)就是能否準(zhǔn)確地回答用戶提出的問題。本文通過研究英語句子相似度算法,介紹了英語智能問答系統(tǒng)的模型以及模型每個(gè)模塊的功能和作用,并給出了具體的系統(tǒng)設(shè)計(jì)和開發(fā)過程,并在此基礎(chǔ)上編碼實(shí)現(xiàn)了基于相似度算法的小學(xué)英語智能問答系統(tǒng)。經(jīng)過實(shí)際體驗(yàn)與使用,該系統(tǒng)不僅可以智能、準(zhǔn)確地回答用戶提出的問題,還可以提供一些與用戶所提問題相關(guān)的知識(shí)答案,而且該系統(tǒng)查找速度快,基于距離的相似度算法提高了英語智能問答系統(tǒng)的查準(zhǔn)效率。后續(xù)研究將對(duì)相似度算法進(jìn)行改進(jìn),以便更加準(zhǔn)確、快速地查詢用戶所需要的內(nèi)容,進(jìn)一步提高系統(tǒng)的效率。同時(shí)在系統(tǒng)實(shí)際使用的過程中,將繼續(xù)搜集用戶點(diǎn)擊頁面資源次數(shù)、瀏覽時(shí)間等內(nèi)容獲取用戶的偏好信息,自適應(yīng)推薦給用戶學(xué)習(xí)資源,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)。
[1] 張江濤, 杜永萍. 基于語義鏈的檢索在 QA 系統(tǒng)中的應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2013, 40(2): 257-260.
[2] 錢強(qiáng), 龐林斌, 高尚. 一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問答系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(3): 841-843.
[3] 葉正, 林鴻飛, 楊志豪. 基于問句相似度的中文 FAQ 問答系統(tǒng)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43(9): 161-163.
[4] 劉漢興, 劉財(cái)興, 林旭東. 基于問句相似度的本體問答系統(tǒng)[J]. 廣西師范大學(xué)學(xué)報(bào)自然科學(xué)版, 2010, 28(1):88-91.
[5] 樊康新. 基于常見問題集的 OTC 問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2008 (12): 30-34.
[6] 劉曉義, 王培東, 周洪玉. 基于知識(shí)處理重型切削數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2004,9(1):11-13.
[7] 馬莉. 基于動(dòng)態(tài)本體知識(shí)庫的問答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 廣西師范大學(xué), 2009.
[8] 周法國, 楊炳儒. 句子相似度計(jì)算新方法及在問答系統(tǒng)中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(1): 165-167.
[9] 劉里, 曾慶田. 自動(dòng)問答系統(tǒng)研究綜述[J]. 山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 26(4): 73-76.
[10] 王赫寧. 基于 WordNet 的英文語句相似度算法的研究[D]. 東北師范大學(xué), 2014.
[11] Li Y, McLean D, Bandar Z A, et al. Sentence similarity based on semantic nets and corpus statistics[J]. Knowledge and Data Engineering, IEEE Transactions on, 2006, 18(8): 1138-1150.
[12] 王赫寧. 基于 WordNet 的英文語句相似度算法的研究[D]. 東北師范大學(xué), 2014.
[13] Lee D L, Chuang H, Seamons K. Document ranking and the vector-space model[J]. Software, IEEE, 1997, 14(2): 67-75.
[14] 張劍, 李春平. 基于 WordNet 概念向量空間模型的文本分類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2006, 42(4): 174-178.
DESIGN AND IMPLEMENTATION OF ENGLISH INTELLIGENT QUESTION-ANSWERING SYSTEM BASED ON SIMILIARITY ALGORITHM
Wang Wenhui Wu Minhua Luo Liming Liu Jie
(CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China)
Compared with the traditional search engine which is rely on the keyword matching, intelligent question-answering system integrates with the knowledge and application of natural language on the basis of the search engine, so as to satisfy users’ information retrieval requirement. Aiming at current simplified knowledge and inefficient system query of English intelligent question answering system, the research adopts the similarity algorithm based on distance , designing and implementing English intelligent question answering system based on similarity algorithm. The results show that the system can answer students’ questions accurately. The conclusion of this research can be used as references to the construction of English intelligent question answering system in distance education.
Intelligent question-answering system Search engine Keyword matching Similarity algorithm
2016-08-09。國家社會(huì)科學(xué)基金重大委托項(xiàng)目(14&ZH0036);北京市教育科學(xué)十二五規(guī)劃重點(diǎn)課題(AJA12132)。王文輝,碩士生,主研領(lǐng)域:自然語言處理和語義網(wǎng)。吳敏華,教授。駱力明,教授。劉杰,副教授。
TP311
A
10.3969/j.issn.1000-386x.2017.06.013