楊亞菲
摘 要:遠(yuǎn)程教育已經(jīng)成為我國終身教育體系的一個(gè)重要組成部分。答疑解惑是遠(yuǎn)程教學(xué)過程中決定教學(xué)質(zhì)量的重要因素,而自動問答系統(tǒng)可以在少量人力的參與下及時(shí)且準(zhǔn)確地定位問題并做出解答。文章介紹了國內(nèi)自動問答系統(tǒng)的發(fā)展現(xiàn)狀和研究意義,分析了自動問答系統(tǒng)的問題分析、信息檢索和答案抽取以及各部分使用的關(guān)鍵技術(shù),最后闡述了現(xiàn)代遠(yuǎn)程教育自動問答系統(tǒng)的研究方向。
關(guān)鍵詞:遠(yuǎn)程教育;自動問答;問題分析;信息檢索;答案抽取
中圖分類號:G434;TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2018)20-0094-03
隨著計(jì)算機(jī)和網(wǎng)絡(luò)等相關(guān)技術(shù)的成熟發(fā)展,遠(yuǎn)程教育已在教育界起到越來越重要的作用,而問答系統(tǒng)在遠(yuǎn)程教育平臺中可以起到及時(shí)解決學(xué)生的疑問以方便其學(xué)習(xí)的作用。但目前隨著遠(yuǎn)程學(xué)習(xí)學(xué)生規(guī)模的增長,現(xiàn)有的問答方式無法及時(shí)解答學(xué)生問題?;诖爽F(xiàn)狀,本文介紹了自動問答系統(tǒng)并探討了涉及到的相關(guān)技術(shù)。
一、自動問答系統(tǒng)國內(nèi)現(xiàn)狀
1.自動問答系統(tǒng)
自動問答系統(tǒng)(Automatic Question and Answering System,簡稱“問答系統(tǒng)QA”),是對于用戶使用自然語言描述的問題,基于大量非同構(gòu)數(shù)據(jù)自動搜索出簡潔且準(zhǔn)確答案的信息檢索系統(tǒng)。問答系統(tǒng)在及時(shí)解決學(xué)生在學(xué)習(xí)過程中所遇問題的同時(shí),還促進(jìn)了學(xué)生學(xué)習(xí)的積極性,此外可以使教師不用將大量精力花費(fèi)在重復(fù)回答相似問題上,而是集中于教學(xué)的改革和研究。
2.國內(nèi)遠(yuǎn)程教學(xué)中的問答系統(tǒng)
目前我國在遠(yuǎn)程教育領(lǐng)域的問答系統(tǒng)主要分為以下三種:
(1)沒有獨(dú)立的問答部分,教學(xué)中的交互只能通過使用電子郵件、留言板或聊天室等簡單方式進(jìn)行。這種遠(yuǎn)程教育系統(tǒng)可以視為電視大學(xué)的網(wǎng)絡(luò)版,沒有展現(xiàn)網(wǎng)絡(luò)教學(xué)的優(yōu)點(diǎn)。
(2)具有簡單問答方式的問答系統(tǒng),這種系統(tǒng)類似于BBS形式,為師生提供交互環(huán)境,或是在教師的主導(dǎo)下以線上聊天的方式進(jìn)行交互,這種方式比較粗糙地實(shí)現(xiàn)了師生之間的互動,但不一定是及時(shí)的。
(3)采用比較復(fù)雜的技術(shù)在某種程度上實(shí)現(xiàn)自動的問答系統(tǒng)。這類系統(tǒng)減少了教師參與,縮短了問答互動延時(shí)。根據(jù)采用技術(shù)不同大致分為三種類型:①基于FAQ庫的智能答疑系統(tǒng)?;诔R妴栴}庫(Frequently Asked Question,F(xiàn)AQ)的QA是指將常見問題與對應(yīng)答案存儲到常見問題庫,系統(tǒng)使用自然語言處理技術(shù)分析問題并抽取出關(guān)鍵詞,然后在FAQ庫中匹配和提取最優(yōu)項(xiàng)反饋給用戶。②基于全文檢索的問答系統(tǒng)。這種系統(tǒng)搜索答案的范圍是相關(guān)文檔。系統(tǒng)利用自然語言處理技術(shù)分析用戶問題,然后在文檔庫中使用信息檢索技術(shù)搜索文檔并按照查詢相似度排序文檔,最后提取出與問題相似度較高的文檔返回給提問者。③面向知識自動化的問答系統(tǒng)。這種系統(tǒng)利用知識自動化的方法對虛擬空間的大數(shù)據(jù)進(jìn)行深度開發(fā)和智力挖掘,以有效解決不確定、多樣且復(fù)雜的問題。
二、自動問答系統(tǒng)研究意義
現(xiàn)代遠(yuǎn)程教育是我國終身教育體系中至關(guān)重要的一個(gè)組成部分。根據(jù)現(xiàn)代遠(yuǎn)程教育的特點(diǎn),它不再是使用以往教育中教師灌輸知識、學(xué)生被動學(xué)習(xí)的方式進(jìn)行教學(xué),而是在教學(xué)過程中更側(cè)重以學(xué)生為核心的自主學(xué)習(xí),因此,及時(shí)回答疑問是決定遠(yuǎn)程教育教學(xué)質(zhì)量的必要環(huán)節(jié)。然而在遠(yuǎn)程教學(xué)過程中,教師和學(xué)生在時(shí)間和空間上的分離導(dǎo)致難以實(shí)現(xiàn)師生一對一實(shí)時(shí)互動,所以需要問答系統(tǒng)解決學(xué)生在自主學(xué)習(xí)過程中遇到的疑難問題,這使得問答系統(tǒng)對遠(yuǎn)程教育質(zhì)量高低起著決定性作用,因此,研究問答系統(tǒng)對我國現(xiàn)代遠(yuǎn)程教育的發(fā)展具有深遠(yuǎn)的意義。
三、自動問答系統(tǒng)實(shí)現(xiàn)關(guān)鍵技術(shù)
無論采用何種方式進(jìn)行分類,QA系統(tǒng)架構(gòu)通常包括三個(gè)主要過程:問題分析、信息檢索和答案抽取。具體流程為首先對用戶提出的問題進(jìn)行自然語言分析處理;然后在相關(guān)庫中對關(guān)鍵詞進(jìn)行檢索,得到問題答案候選集;最后使用問題答案候選集對問題進(jìn)行相似度計(jì)算以提取出最優(yōu)答案。其基本體系結(jié)構(gòu)如圖1所示。
1.問題分析
問題分析是指對用戶提出的問題進(jìn)行預(yù)處理和文本分類,其中用到的關(guān)鍵技術(shù)有中文分詞、命名實(shí)體識別、詞性標(biāo)注、問題分類、句法分析以及關(guān)鍵詞提取與擴(kuò)展等。這些涉及到的自然語言處理各個(gè)細(xì)分部分的性能都直接或間接影響著整個(gè)問答系統(tǒng)的性能。下面分別介紹以上涉及的關(guān)鍵技術(shù)。
中文分詞是將漢字序列切分成單個(gè)獨(dú)立的詞。例如對句子“如何理解會計(jì)系統(tǒng)設(shè)計(jì)內(nèi)部控制的方向?”進(jìn)行中文分詞的結(jié)果為“如何 理解 會計(jì) 系統(tǒng) 設(shè)計(jì) 內(nèi)部控制 的 方向”。近乎所有涉及到中文文本處理的任務(wù)都在中文分詞的基礎(chǔ)上完成,因?yàn)樵谥形男畔⑻幚碇?,一組單詞通常被用作最小處理單位。常見的分詞技術(shù)有基于字符串匹配法、基于統(tǒng)計(jì)原則和基于理解的方法。
命名實(shí)體識別即專名識別,用于識別文本中具有特定含義的對象,主要是人名、地名、組織名、專有名詞等。在具有問句的文本中命名實(shí)體基本具有可以區(qū)別其它文本信息特殊的含義,因此識別命名實(shí)體不僅利于后續(xù)信息檢索性能的提高,而且在抽取答案時(shí)給相似度計(jì)算提供較好的特征。
詞性標(biāo)注又稱詞類標(biāo)注或標(biāo)注,用于標(biāo)注分詞結(jié)果中每個(gè)單詞的正確詞性,以確定每個(gè)單詞的詞性是名詞、動詞、形容詞或其它詞性。詞性標(biāo)注是自然語言處理領(lǐng)域中許多任務(wù)必不可少的步驟,例如句法分析、文本分類、信息抽取以及語音識別等。常見的詞性標(biāo)注方法包括基于統(tǒng)計(jì)模型的注釋方法、基于規(guī)則的注釋方法、統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的注釋方法。
問題分類是指通過確定問題的目標(biāo)答案的類型來為隨后的答案抽取提供語義限制。問題分類可以縮小候選答案搜索空間,以提高定位答案的準(zhǔn)確性。因此,問題分類對提高問答系統(tǒng)的性能方面起到關(guān)鍵性作用。常用分類方法有貝葉斯分類方法、支持向量機(jī)、最大熵等。
句法分析是分析句子的詞語語法。在對句子中的單詞串進(jìn)行句法分析之后,會構(gòu)造出一個(gè)解釋句子語法結(jié)構(gòu)的句法分析樹。對文本的預(yù)處理僅限于句子中詞及其相關(guān)屬性級別,則不能分析出句子中詞與詞之間以及句子與詞之間的關(guān)系。而句法分析可以準(zhǔn)確揭示認(rèn)識對象的結(jié)構(gòu)特征并迅速把握語義,所以本文預(yù)處理過程中句法分析必不可少。
關(guān)鍵詞是指在某種程度上可以代表句子主要含義的詞或詞組。在對句子進(jìn)行文本處理的任務(wù)中,通過提取關(guān)鍵詞可方便理解句子的主要語義,為后續(xù)信息檢索和答案提取操作降低難度。常用的關(guān)鍵詞提取方法可分為有監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法。此外關(guān)鍵詞需要擴(kuò)展,因?yàn)樵诓煌瑔栴}和答案中具有相同含義的關(guān)鍵詞或許具有不同的詞型,如果不擴(kuò)展關(guān)鍵詞的詞型,可能會降低定位答案的準(zhǔn)確性。
2.信息檢索
信息檢索是通過相應(yīng)的檢索技術(shù)將提取出的關(guān)鍵詞在相應(yīng)的知識儲備數(shù)據(jù)庫中進(jìn)行信息檢索,得到候選問題集;信息檢索的本質(zhì)是將描述用戶所需信息的問題特征與存儲在信息中的檢索標(biāo)識符進(jìn)行比較,并找到與問題特征一致或基本一致的信息。當(dāng)前的問答系統(tǒng)無論是基于知識庫檢索問題答案,還是基于全文相關(guān)文檔檢索信息,都需要對相關(guān)信息數(shù)據(jù)創(chuàng)建索引,然后搜索索引以獲取信息檢索的結(jié)果。關(guān)于信息檢索目前有多種檢索模型,比如布爾模型、向量空間模型以及概率檢索模型。對于布爾模型,文檔與用戶查詢由其包含的單詞集合來表示,這種模型簡單直觀但無法結(jié)合數(shù)據(jù)的相關(guān)性,而且其搜索結(jié)果也不細(xì)致。向量模型把文檔看成一個(gè)向量,將查詢也表示成同一高維空間的向量,計(jì)算給定的查詢向量和每個(gè)文檔向量的tf-idf作為權(quán)重值進(jìn)行檢索。對于概率模型,排序文檔與用戶查詢相關(guān)的概率作為最優(yōu)處理方式進(jìn)行檢索。以上三種模型中,布爾模型計(jì)算速度比其它兩個(gè)模型快,但是性能低于后兩個(gè)模型。
3.答案提取
答案提取處理過程中相似度計(jì)算是關(guān)鍵技術(shù)。答案提取的主要任務(wù)是對問題與候選集中的問題進(jìn)行文本分析以及相似度計(jì)算提取最終答案,相似度計(jì)算可以從關(guān)鍵詞詞類型相似度、句子長度相似度和關(guān)鍵詞詞序相似度等不同角度計(jì)算用戶問句和候選問題集中問題之間的相似度,若計(jì)算的相似度值大于預(yù)先設(shè)定的閾值,則檢索的結(jié)果滿足預(yù)期,便得到與用戶輸入問題最為相似的問題,抽取其對應(yīng)的答案返回給用戶。其中關(guān)鍵詞詞類型相似度使用句子中關(guān)鍵詞的相同類型個(gè)數(shù)來度量,并且相同的個(gè)數(shù)越多,相似度越高。句子長度相似度是使用句子的長度來衡量,句子之間長度相差越小,相似度越高。關(guān)鍵詞次序相似度是使用關(guān)鍵詞在句子中的位置來衡量,關(guān)鍵詞的位置越相近,相似度越高。
四、現(xiàn)代遠(yuǎn)程教育中自動問答系統(tǒng)研究難點(diǎn)分析
1.中文領(lǐng)域問答系統(tǒng)研究
目前遠(yuǎn)程教育方面比較先進(jìn)的問答系統(tǒng)是在英文環(huán)境下研究與開發(fā)的,而且英文環(huán)境下提供了大量先進(jìn)技術(shù)和資源使用,而較少有研究涉及到其它語言包括中文領(lǐng)域。而且中文的語言結(jié)構(gòu)比較多樣,相同問題因句子語境的不同可能表達(dá)的含義不一致,使得問答系統(tǒng)處理的數(shù)據(jù)源具有一定復(fù)雜性。另外,問答系統(tǒng)的整個(gè)處理過程需要很多步驟,每個(gè)步驟都需要改進(jìn)算法提高性能,提高最終結(jié)果的準(zhǔn)確性。因此,中文領(lǐng)域問答系統(tǒng)的研究仍面臨諸多挑戰(zhàn),我們可以借鑒國外的技術(shù)和成果,但將此領(lǐng)域國外相關(guān)技術(shù)應(yīng)用于中文領(lǐng)域仍需進(jìn)一步努力以達(dá)到最佳適用度,這就需要我們加強(qiáng)對比與分析相關(guān)工具與方法,進(jìn)而找到更好應(yīng)用于遠(yuǎn)程教育方面的中文領(lǐng)域問答系統(tǒng)。
2.與其它系統(tǒng)關(guān)聯(lián)的問答系統(tǒng)研究
現(xiàn)代遠(yuǎn)程教學(xué)信息日益增多,其中除了包括結(jié)構(gòu)化數(shù)據(jù)之外,還包括大量的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性使得問答系統(tǒng)在遠(yuǎn)程教育信息資源整合方面存在困難。而且就目前國內(nèi)遠(yuǎn)程教育方面自動問答系統(tǒng)的研究現(xiàn)狀看,問答系統(tǒng)很少與其它相關(guān)系統(tǒng)如教務(wù)系統(tǒng)、考試系統(tǒng)、學(xué)習(xí)系統(tǒng)等進(jìn)行關(guān)聯(lián),導(dǎo)致無法利用相關(guān)系統(tǒng)中有價(jià)值的數(shù)據(jù)更好地進(jìn)行有針對性的回答、擴(kuò)展數(shù)據(jù)來源以及增加數(shù)據(jù)內(nèi)容豐富性。所以在信息整合和推理方面的方法和技術(shù)并不成熟,對問答系統(tǒng)與其它系統(tǒng)的關(guān)聯(lián)研究還有很大的發(fā)展空間。我們可以在將問答系統(tǒng)與遠(yuǎn)程教學(xué)中相關(guān)系統(tǒng)建立關(guān)聯(lián)的方向多做嘗試,使關(guān)聯(lián)系統(tǒng)的相關(guān)數(shù)據(jù)為問答系統(tǒng)服務(wù),以提高其定位答案的準(zhǔn)確率。
3.滿足現(xiàn)代遠(yuǎn)程教育個(gè)性化與智能化需求的問答系統(tǒng)研究
現(xiàn)代遠(yuǎn)程教育主要是針對相關(guān)領(lǐng)域相關(guān)專業(yè)相關(guān)課程的知識進(jìn)行的學(xué)習(xí),根據(jù)現(xiàn)代遠(yuǎn)程教育的特點(diǎn),適用的問答系統(tǒng)應(yīng)該具有實(shí)時(shí)性、準(zhǔn)確性以及正確性,可以達(dá)到能快速且準(zhǔn)確解答學(xué)生疑問的目的。但隨著教育行業(yè)相關(guān)政策的推行,問答系統(tǒng)已經(jīng)不能滿足當(dāng)前教育形式的發(fā)展需求。除了以上基本要求外,問答系統(tǒng)尤其需要具備個(gè)性化推薦功能,通過對學(xué)生的課程學(xué)習(xí)情況、科目考試情況等學(xué)習(xí)行為信息分析,并從中挖掘出有價(jià)值的數(shù)據(jù)構(gòu)建針對學(xué)生個(gè)性特點(diǎn)的學(xué)習(xí)模型,進(jìn)而實(shí)現(xiàn)相關(guān)問題的個(gè)性化推薦。目前已有問答系統(tǒng)尚不能滿足現(xiàn)代遠(yuǎn)程教育對解答問題的個(gè)性化和智能化需求,仍需進(jìn)一步研究。
五、結(jié)束語
答疑解惑是學(xué)習(xí)過程中不可或缺的步驟,而遠(yuǎn)程教學(xué)中問答系統(tǒng)可以高效解答學(xué)生疑惑,因此問答系統(tǒng)是遠(yuǎn)程教學(xué)體系中極其重要的模塊。目前我國在研究實(shí)現(xiàn)自動問答系統(tǒng)的技術(shù)方面取得了一定的進(jìn)展,而且有不少領(lǐng)域已經(jīng)實(shí)現(xiàn)了系統(tǒng)的實(shí)際應(yīng)用,但是,將比較契合現(xiàn)代遠(yuǎn)程教育的問答系統(tǒng)投入使用需要更多努力。本文對遠(yuǎn)程教育領(lǐng)域問答系統(tǒng)的相關(guān)技術(shù)進(jìn)行了闡述,并就目前的研究難點(diǎn)進(jìn)行了分析,希望對相關(guān)研究者有一定的啟示和幫助。
參考文獻(xiàn):
[1]劉里,曾慶田.自動問答系統(tǒng)研究綜述[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(4):73-76.
[2]李爽,陳麗.國內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].中國電化教育,2003(1):80-83.
[3]江耿豪.基于FAQ的自動答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)時(shí)代,2009(12):39-41.
[4]曾帥,王帥,袁勇等.面向知識自動化的自動問答研究進(jìn)展[J].自動化學(xué)報(bào),2017,43(9):1491-1508.
[5]鄧實(shí)福,劉挺,秦兵等.問答系統(tǒng)綜述[J].中文信息學(xué)報(bào),2002,6(16):46-52
[6]張黎,徐蔚然.中文分詞研究[J].軟件,2012,33(12):103-108.
[7]孫鎮(zhèn),王惠臨.命名實(shí)體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(6):42-47.
[8]江會星.漢語命名實(shí)體識別研究[D].北京:北京郵電大學(xué),2012.
[9]Ma J,Xiao T,Zhu J,et al.Easy-First Chinese POS Tagging and Dependency Parsing[C].COLING,2012:1731-1746.
[10]Ma J, Zhu J, Xiao T, et al. Easy-First POS Tagging and Dependency Parsing with Beam Search[C].Meeting of the Association for Computational Linguistics. 2013:110-114.
[11]孫宏林,俞士汶.淺層句法分析方法概述[J].當(dāng)代語言學(xué),2000(2):74-83+124.
[12]鄭丁山.基于moodle平臺答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013,16(9):101-103.
[13]康毅.面向客服的自動問答系統(tǒng)關(guān)鍵技術(shù)研究[D].沈陽:東北大學(xué),2014.
[14]王正華,韓永國.自動問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].軟件導(dǎo)刊,2014,13(9):111-113.(編輯:魯利瑞)