摘要:教務(wù)門戶信息的查詢等操作存在交互性差的問題,利用搜索引擎又不能有效解決這個問題,基于聊天機(jī)器人的自動問答系統(tǒng)(Automatic Question Answering System, QA)在人機(jī)交互上的優(yōu)勢及其自主性的問答機(jī)制有助于解決用戶在教務(wù)門戶網(wǎng)站交互性差的問題。通過對教務(wù)門戶網(wǎng)的用戶需求分析和信息操作分類,構(gòu)建底層數(shù)據(jù)結(jié)構(gòu)以文檔形式儲存;對自動問答系統(tǒng)核心的三個模塊:問題分析、信息檢索和答案抽取作了深入的分析和設(shè)計,給出了實現(xiàn)的方法,最后通過實際測試驗證了系統(tǒng)的可行性和互操作性。
關(guān)鍵詞:自動問答系統(tǒng);聊天機(jī)器人;LUCENE;XML
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)36-10506-02
Design and Implementation of QA System for Educational Administration Portal Website
HUANG Jian-gang, ZHANG Ai-hua
(Computer Science and Information Engineering College, Tianjin University of Science Technology, Tianjin 300222, China)
Abstract: There exists the poor interactivity in the information services of EAP, and the search engines cannot effectively solve this problem, the QA based on chat robot in terms of the advantage of the human-computer interaction and the autonomy helps us to solve the problem. Through user requirement analysis and information classification of EAP it constructed the underlying data structures by document storage; analysed the three modules of the core of the QA: problem analysis, information retrieval and answer extraction, gave out the implementation, and finally through actual test verified the feasibility and interoperability of the system.
Key words: QA; chat robot; LUCENE; XML
高校EAP提供從介紹教學(xué)研究、教學(xué)運行、實踐教學(xué)和師生信息查詢等大量的網(wǎng)上服務(wù),這些服務(wù)以Web頁來構(gòu)建。隨著信息量的豐富,信息分類越來越多,當(dāng)獲取所需信息時,通常要在各個頁面間跳轉(zhuǎn),花費大量的時間和精力。QA是一種全新的概念,它是以自然語言處理和人機(jī)交互等多種人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)[1],使用Web或IM(即時通訊工具)作為表現(xiàn)形式的智能自動客服系統(tǒng)。目前自動問答類型主要有聊天機(jī)器人、基于知識庫的問答系統(tǒng)、問答式檢索系統(tǒng),以及基于自由文本的問答系統(tǒng)等?;谧杂晌谋镜膯柎鹣到y(tǒng)是基于自由文本進(jìn)行知識問答,不需要建立大規(guī)模知識庫;并且系統(tǒng)返給用戶的是具體答案,而不是和用戶查詢相關(guān)的文本或網(wǎng)頁,故代表著QA的發(fā)展方向。
1 需求分析與數(shù)據(jù)層設(shè)計
1.1 需求分析
EAP的服務(wù)對象是全校師生,可分為學(xué)生服務(wù)和教師服務(wù)兩大類。師生關(guān)心的問題如下:
1)關(guān)于政策的提問
如對某事務(wù)原則的提問
2)關(guān)于某事務(wù)具體操作細(xì)節(jié)的提問
如關(guān)于時間的提問,提問類型:{在}+{何時|什么時候|什么時間}+{可以|做|進(jìn)行|開始|能}+{事務(wù)};關(guān)鍵詞:何時、時候、時間、事務(wù);信息關(guān)鍵詞:{事物}+{時間}。
1.2 數(shù)據(jù)層設(shè)計
系統(tǒng)的底層數(shù)據(jù)可以采取文本存儲(如Word、XML、TXT等文檔),占資源少,適合小數(shù)據(jù)量的存儲,易維護(hù)。由用戶提問內(nèi)容可知,內(nèi)容組織形式分為通知和政策兩種,故系統(tǒng)可用XML文檔用于存儲通知數(shù)據(jù),TXT文檔用于政策數(shù)據(jù)。
1.3 信息導(dǎo)航目錄設(shè)置
信息導(dǎo)航目錄是為簡單快速有效地引導(dǎo)用戶找到相關(guān)的信息而設(shè)置。用戶在實際使用時只要根據(jù)系統(tǒng)提示輸入分類名稱對應(yīng)的類型編號即可。
一級導(dǎo)航目錄共分為學(xué)生選課、學(xué)籍處理、培養(yǎng)計劃、學(xué)生注冊、英語四六級考試等,類型編號分別為A、B、C、D、S;二級導(dǎo)航目錄分為通知信息(notice)、政策法規(guī)(law)等。
2 系統(tǒng)實現(xiàn)
2.1 總體結(jié)構(gòu)
基于聊天機(jī)器人的系統(tǒng)總體采用三層結(jié)構(gòu)[2](如圖1)。數(shù)據(jù)層專門存放數(shù)據(jù),應(yīng)用服務(wù)器提供各類服務(wù)部件來訪問數(shù)據(jù)和響應(yīng)客戶端的請求,界面表現(xiàn)層瀏覽器端只顯示結(jié)果和發(fā)出請求。
2.2 系統(tǒng)模塊架構(gòu)
根據(jù)需求分析的結(jié)果,本系統(tǒng)主要分3個模塊:通知查詢、政策查詢、常用網(wǎng)站鏈接。
2.3 主要功能模塊設(shè)計
2.3.1 查詢模塊的實現(xiàn)
如何對用戶輸入的自然語言問題進(jìn)行分析處理,給用戶一個有效的回復(fù),主要考慮自然語言問題分析、中文分詞、信息檢索、答案抽取等。
1)問題分析模塊
問題分析的目的是要從用戶的語言中最大限度地提取出有效關(guān)鍵詞,同時,還要盡量除去非關(guān)鍵詞,對用戶問題中的一些潛在關(guān)鍵詞進(jìn)行意義擴(kuò)展。
2)中文分詞
采用一基于LUCENE分詞架構(gòu)而實現(xiàn)的中文分詞組件,名為“庖丁解?!?。此組件用于對底層數(shù)據(jù)進(jìn)行建立索引和搜索索引時。最終從問題分析模塊得到一個長度為7的String型特殊字符數(shù)組QueryString[i],數(shù)組中的i代表不同的問題分類,如i=0,表示時間問題,QueryString[i]存儲值為Null或“時間”。
3)信息檢索
要對信息進(jìn)行檢索,首先要對信息創(chuàng)建索引,然后再對索引進(jìn)行搜索,得到信息檢索的結(jié)果。
①創(chuàng)建索引
根據(jù)系統(tǒng)底層數(shù)據(jù)存儲方式,建立不同字段的索引,XML文檔使用的索引字段有標(biāo)題、事務(wù)、時間安排、地點、發(fā)布單位、電話等;TXT文檔用標(biāo)題、內(nèi)容作為索引字段。
②搜索索引
搜索時,輸入?yún)?shù)為QueryString[i]和從用戶獲取的兩個用戶標(biāo)簽,且不論是何種查詢均從多角度進(jìn)行搜索,方式一無結(jié)果,再采用方式二。
4)答案抽取模塊
從信息檢索模塊得到信息檢索的結(jié)果集(Hits對象),作為參數(shù)傳入答案抽取模塊。需要注意和說明的是:答案抽取模塊拿到的結(jié)果集是已經(jīng)過相似度評分處理,篩選留下的結(jié)果,同時,結(jié)果集里保存的對象是對文檔的引用,而不是文檔中的數(shù)據(jù)[3]。
此模塊需要完成:一根據(jù)系統(tǒng)收集到的用戶標(biāo)簽值、提問分類信息來確定要給用戶提供哪些內(nèi)容;二對答案內(nèi)容進(jìn)行輸出格式化處理。通知信息答案抽取核心代碼:
2.4 測試截圖
圖2為用戶查詢導(dǎo)航示例圖。
3 結(jié)論
該文分析了問答系統(tǒng)的發(fā)展現(xiàn)狀和趨勢,以教務(wù)信息發(fā)布應(yīng)用為背景,針對門戶的可用性和用戶交互性存在的不足,研發(fā)了基于聊天機(jī)器人的教務(wù)信息自動問答門戶系統(tǒng),重點闡述了門戶根據(jù)用戶需求標(biāo)簽的信息組織模式和聊天機(jī)器人語言規(guī)則模板。此系統(tǒng)改善了傳統(tǒng)的頁面瀏覽模式,用戶獲取信息通過機(jī)器人自動推送,即由門戶主動向用戶展示功能和服務(wù)。本文創(chuàng)新點是采用機(jī)器人交互的這種模式來改進(jìn)教務(wù)信息的發(fā)布,為增加教務(wù)信息門戶的可用性提供一種新思路。
參考文獻(xiàn):
[1] 文勖.中文問答系統(tǒng)中問題分類及答案候選句抽取的研究[D].哈爾濱工業(yè)大學(xué):計算機(jī)科學(xué)與技術(shù)學(xué)院,2006.
[2] 丁一.基于聊天機(jī)器人技術(shù)的房產(chǎn)導(dǎo)購信地理信息門戶研究[D].南京師范大學(xué):南京師范大學(xué)地理科學(xué)學(xué)院,2007.
[3] Otis Gospodnetic,Erik Hatcher.LUCENE In Action[M].USA:Manning Publications Co,2005:1-300.
[4] 王宇,戰(zhàn)學(xué)剛,蔡建山.基于網(wǎng)絡(luò)的中文問答系統(tǒng)的研究[D].鞍山科技大學(xué):鞍山科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院,2006.
[5] 孫景廣.基于網(wǎng)絡(luò)的自動問答系統(tǒng)的答案抽取方法研究[D].沈陽航空工業(yè)學(xué)院:計算機(jī)應(yīng)用技術(shù),2007.