摘要: 答疑是教學中不可或缺的環(huán)節(jié),傳統(tǒng)面對面的答疑浪費時間和精力,因而開發(fā)高效、準確、智能化的自動答疑系統(tǒng)是必要的。系統(tǒng)返回答案的準確性在一定程度取決于問題匹配的相似度。該文介紹了智能答疑系統(tǒng)中傳統(tǒng)的相似度計算,然后在傳統(tǒng)的相似度計算的基礎上提出了一種新的相似度計算方法——基于問題關鍵詞匹配度的相似度計算,同時給出了該思想在系統(tǒng)中的實現(xiàn)算法。
關鍵詞:智能答疑系統(tǒng);相似度;匹配度
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2012)30-7323-03
我們知道,有效的學習知識必須有學生和教師之間的交流,答疑是教學中的一個重要環(huán)節(jié)。在傳統(tǒng)的教學模式中,師生之間通過面對面的交流,可以及時解決教學中出現(xiàn)的問題。如果教師與學生之間面對面的答疑,教師可能對同一個問題對不同的學生要分別答疑。這將浪費寶貴的答疑時間,因為答疑時間總是有限的,教師也沒有那么多的精力逐個回答學生提出的問題。這種人工答疑方式將會使教師不堪重負。因此,如果能讓計算機自動解答學生的疑問將會大大減輕教師負擔,同時及時排解學生在學習過程中遇到的難題,從而提高學生的學習質(zhì)量和效率。但是,目前開發(fā)高效、準確、智能化的自動答疑系統(tǒng)仍然是一個難題。本課題就是適應這一要求而提出的,目的是利用現(xiàn)有的自然語言理解技術改革現(xiàn)有的智能答疑系統(tǒng)模式,充分利用遠程教育網(wǎng)絡資源,通過機器處理自動理解用戶提出的自然語言描述的問題,并自動返回答案,達到減輕教師的負擔,幫助學生學習,提高遠程教學質(zhì)量和效率的目的。在目前的遠程教學模式中,研制開發(fā)一個智能答疑系統(tǒng)的意義尤為重大,這是因為:
1)答疑是學生進行系統(tǒng)學習的有益補充,同時也是學生鞏固知識的重要途徑,無論學習的形式如何變化,答疑對于學習活動來說是必要且不可或缺的,在網(wǎng)絡壞境下,及時、有效地獲得解答是學生遠程學習的基本需求。
2)通過對學生所提問題的記錄分析,可以統(tǒng)計出學生普遍存在的知識薄弱環(huán)節(jié),為教師進一步改進教學方法提供參考,成為輔助教學的有效工具。
3)在網(wǎng)絡環(huán)境下的智能答疑系統(tǒng)采用了友好自然的自然語言接口,學生可以輕松自如地提問,及時解決學習過程中遇到的難題,使遠程教學真正起到用戶良師的作用,對于遠程教學方式在我國的進一步普及,具有不可估量的重大意義。
4)將功能良好的智能答疑系統(tǒng)應用于國家大力發(fā)展的遠程教學支撐平臺中,具有很大的社會價值。
5)為自然語言理解以及信息檢索技術的應用發(fā)展提供了一個方向,可以推動該技術領域的發(fā)展。
如何讓計算機理解用戶提出的自然語言描述的問題,檢索到目標問題,并自動的返回答案,這是智能答疑系統(tǒng)的關鍵。本文討論怎樣根據(jù)用戶問題去匹配目標問題的思想及其算法,這也是智能答疑系統(tǒng)的最終目的。
1 問題關鍵詞匹配度計算
一個問題中含有一個或多個關鍵詞,但是每個關鍵詞在句子中的地位是不一樣的,有的起決定性的作用。該類關鍵詞就是要重點考慮的關鍵詞,它與問題的匹配度為1。如:“編譯原理是什么?”,含有關鍵詞“編譯原理”、“編譯”,在這個問題中學生要問的是“編譯原理是什么”,因而“編譯原理”是要重點考慮的關鍵詞。但是“編譯”也屬于《編譯原理》這門課程的專業(yè)詞,匹配時也可以考慮,因為這將有利于問題答案的檢索。如果學生問的“編譯是什么?”,若FAQ中沒有該匹配對,不能檢索到相同的問題則檢索近似的問題。
起決定性作用的關鍵詞,它與該問題的匹配度為1,不起決定性的關鍵詞與問題的匹配度為0.5。
采用這種策略,可以實現(xiàn)簡單的語義分析。
例如:“編譯原理是什么?”與“什么是編譯原理?” 是同一個問題。如果用戶輸入的是這兩個問題,則檢索到的都是同一個問題。
如果問的是“編譯是什么?”(假設FAQ中沒有該問題與“編譯”的匹配度為1的匹配對),則檢索到近似的“編譯原理是什么?”,然后返回其答案。這樣系統(tǒng)用一個近似的問題及其答案來回答學生所問問題,從所返回的答案中學生能有所啟發(fā)。
2 基于問題關鍵詞匹配度的相似度計算
系統(tǒng)根據(jù)用戶所問問題去檢索相應的問題及其答案,即根據(jù)用戶問題去匹配目標問題。匹配到的目標問題是否與用戶問題對應,相似程度有多大?這將涉及到相似度問題。
句子相似度計算在自然語言處理中有著廣泛的應用,例如,在基于實例的機器翻譯中的源語言檢索,面向常問問題集的自動問答系統(tǒng)中的問句檢索等領域。在不同的具體應用中,相似度的含義也有所不同。例如,在基于實例的機器翻譯中,相似度主要用于衡量文本中詞語的可以相互替換使用而不改變文本的句法語義結(jié)構(gòu)的程度;在信息檢索中,相似度更多的是反映文本與用戶查詢在意義上的符合程度。
目前常見的兩種句子相似度的計算方法:(1)基于詞向量空間模型的TF-IDF相似度計算方法;(2)基于語義詞典的相似度計算方法。
本文在這兩種相似度計算方法的基礎上提出了一種新的相似度計算——基于問題關鍵詞匹配度的相似度計算:
當用戶問題中的關鍵詞與目標問題的匹配度為1且句子類別一致時,則認為目標問題與用戶問題完全相似,相似度為1。
當用戶問題中的關鍵詞與目標問題的匹配度為0.5且句子類別一致時,則認為目標問題與用戶問題近似相似,相似度為0.5。
當用戶問題中的關鍵詞與目標問題的匹配度為1或0.5但句子類別不一致時,則認為目標問題與用戶問題低相似,相似度為0.25。
利用這種相似度計算方法,相似度在系統(tǒng)實現(xiàn)中不用單獨計算,它的計算隱含在問題匹配中。
在實際的系統(tǒng)實現(xiàn)中,一般只要考慮前兩種。這種方法是一種非常有效的相似度計算方法,在實際的系統(tǒng)中能大大提高系統(tǒng)的效率,減少了傳統(tǒng)的相似度計算的復雜統(tǒng)計及計算。
3 問題匹配算法
利用本文中提出的相似度計算來完成問題的匹配——用戶問題與目標問題的匹配。
利用FAQ庫進行用戶問題解答的基本計算流程如下圖所示:
3.1 算法程序代碼
4 結(jié)束語
本文闡述了智能答疑系統(tǒng)的作用,介紹了一種基于問題關鍵詞匹配度的相似度計算,然后利用該思想來完成問題匹配,并給出了問題匹配算法的流程圖以及程序代碼。
參考文獻:
[1] 侯麗敏.基于網(wǎng)絡的智能答疑系統(tǒng)的研究與實現(xiàn)[D].河南:河南大學,2005.
[2] 石鳳貴. 《編譯原理》智能答疑系統(tǒng)中課程知識庫檢索模塊的開發(fā)[D].安徽:安徽工業(yè)大學,2007.