吳靈慧
摘 要 目前,問答系統(tǒng)已經廣泛應用到社會各個方面,其作為整個計算機領域重點的研究領域,引起了人們的高度重視。文章對問答系統(tǒng)的基礎概念、發(fā)展歷史、關鍵技術及未來的發(fā)展趨勢進行簡要闡述,旨在為問答系統(tǒng)今后發(fā)展打下良好基礎。
關鍵詞 問答系統(tǒng);信息檢索;答案抽?。粏栴}分析
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2019)230-0147-02
隨著互聯(lián)網的迅猛發(fā)展和計算機的廣泛普及,人們一直尋找迅速并準確地獲取信息的方法。在過去20年里,各類搜索引擎產品不斷出現(xiàn)和發(fā)展,迎合了用戶的信息檢索需求。然而當數(shù)據(jù)量不斷增加,海量數(shù)據(jù)資源匯集到一起時,搜索引擎的缺點逐漸開始暴露。傳統(tǒng)的搜索引擎只能以檢索關鍵詞作為輸入,這就要求用戶必須用數(shù)量有限的詞來準確表達查詢需求,對用戶的信息檢索能力要求較高,這對于絕大多數(shù)普通用戶來說并不友好。
此外,傳統(tǒng)搜索引擎返回的結果通常也不盡如人意,仍需用戶自己在搜索引擎系統(tǒng)返回的網頁列表中查找具體的信息,這就容易使用戶的體驗大打折扣?;谏鲜龃嬖诘膯栴},問答系統(tǒng)應運而生,與傳統(tǒng)搜索引擎不同,問答系統(tǒng)可以針對任意以自然語言形式提出的問題返回給用戶確切的答案。由此可見,問答系統(tǒng)能更好地表達和滿足用戶的要求。本文對問答系統(tǒng)的發(fā)展歷史、關鍵技術及發(fā)展趨勢進行簡要介紹,旨在幫助讀者對問答系統(tǒng)有全面的認識和了解。
1 問答系統(tǒng)發(fā)展歷史
問答系統(tǒng)的發(fā)展歷史已有70余年,早在1950年,計算機科學之父艾倫圖靈便提出了使用自然語言進行人機交互的相關技術,進而使得問答系統(tǒng)的誕生成為了現(xiàn)實。
在20世紀60年代,借助人工智能的相關技術,第一批問答系統(tǒng)出現(xiàn)在人們的視眼中,典型的代表系統(tǒng)有BASEBALL、LUNAR和ELIZA[ 1 ]。Baseball允許用戶對籃球比賽的相關內容進行提問,并返回相應的結果;Lunar能夠對巖石樣本分析實驗的相關內容進行問答;ELIZA系統(tǒng)主要用于精神疾病患者的恢復過程,能夠實現(xiàn)簡單的交流過程。這3個系統(tǒng)都在各自的領域中取得了巨大的成功,但這些問答系統(tǒng)只能接受特定形式的自然語言問句形式,無法實現(xiàn)開放領域的問答。
在20世紀70年代和80年代期間,隨著計算機語言學理論的深入研究及發(fā)展,問答系統(tǒng)也逐漸向著更為復雜的領域發(fā)展。這個時期誕生了大量的項目,其中就包含了著名的Berkeley Unix Consultant(UC),然而UC系統(tǒng)提供的對話實例并不能完美應用到現(xiàn)實對話場合中。
20世紀90年代以后,問答系統(tǒng)進入了開放領域和基于自由文本的新時期,在此期間,國外開發(fā)出一些相對成熟的問答系統(tǒng)。1993年,麻省理工學院(MIT)的人工智能實驗室開發(fā)出了世界上第一個名為START的問答系統(tǒng)。START可以回答一些有關地理、文化、科技、歷史等方面的簡單問題。例如:對于問題“Whats the capital of China?”START將會回答“The capital of China is Beijing.”。密歇根大學于2002年開發(fā)的AnswerBus[ 2 ]是個多語種的自動問答系統(tǒng),它可以回答以英語、法語、和葡萄牙語等語言提出的問題。
在文本信息檢索會議(TREC, Text Retrieval Conference)將QA track引入到會議主題后,新型問答系統(tǒng)的研究發(fā)展得到了進一步促進,問答系統(tǒng)研究自此進入了開放域研究的時代[ 3 ]。現(xiàn)如今,越來越多的高校和公司都參與到了有關問答系統(tǒng)技術的研究中,包括人們熟知的蘋果、三星、Google、阿里巴巴、劍橋大學等,使得問答系統(tǒng)的發(fā)展得到了進一步推進。同時,憑借著信息技術的發(fā)展,問答系統(tǒng)的研究者們總結提煉了大量的常問問題與回答數(shù)據(jù),為問答系統(tǒng)技術的進一步發(fā)展打下了堅實的基礎。其中典型的代表為2005年出現(xiàn)的社區(qū)問答(community based question answering,CQA[ 4 ])數(shù)據(jù),如Yahoo! Answer。
2 問答系統(tǒng)關鍵技術
問答系統(tǒng)關鍵技術主要包括問題分析、信息檢索、答案抽取3個部分。本章節(jié)將對這3個部分進行簡要介紹。
2.1 問題分析
在問答系統(tǒng)工作時,首要的任務便是對用戶提出的問題進行分析。問題分析包括類型分析、主旨識別、問句指代及語法分析等工作。問答系統(tǒng)的首要工作是判定問題的類別,通常問題的類別也是答案的類別,所以這個過程對問答系統(tǒng)來說必不可缺。問答系統(tǒng)規(guī)則分類器根據(jù)問題的特征對用戶提出的問題進行分類,之后對問題中的關鍵詞進行提取;關鍵詞的提取是問題分析的核心步驟,問答系統(tǒng)往往會對關鍵詞進行擴展來更好的理解用戶的查詢意圖;最后問答系統(tǒng)將對問題的表達形式進行重新組織,以便于計算機進行答案查找。
2.2 信息檢索
信息檢索是問答系統(tǒng)與普通搜索引擎之間的橋梁。信息檢索的步驟包括文檔檢索、段落檢索和富信息索引。信息檢索過程的核心內容是將問題分析過程中提取到的關鍵詞在后臺文檔庫中進行匹配,以找到最相關的文檔。信息檢索模塊的輸入一般是幾個關鍵詞的組合,同時根據(jù)語種的不同,問答系統(tǒng)還需要對英文關鍵詞進行詞根操作,對中文關鍵詞進行分詞處理等。信息檢索步驟的關鍵在于確定文檔相關性的權重和對文檔進行合理排序,這樣才能保證向用戶呈現(xiàn)最相關的信息。
2.3 答案抽取
答案抽取是問答系統(tǒng)的最后一步。答案抽取的主要目的是從文檔信息中獲得用戶想要的答案,以滿足用戶的需求。答案抽取一般分為兩個步驟,第一步為生成候選答案集合,第二步為提取答案。生成候選答案集合即使用在文檔中匹配得到的短語構成候選答案集,提取答案即在所得候選答案集的基礎上進行選擇,最后將最準確的答案返回給用戶。在這個過程中,答案抽取一般會通過基于表層特征的答案提取方法,選擇出現(xiàn)頻率最高的信息作為最終答案,或者采用關系抽取答案、模式匹配抽取答案和統(tǒng)計模型抽取答案等方法。
3 問答系統(tǒng)發(fā)展趨勢
問答系統(tǒng)作為人工智能技術的有效評價手段,目前已有60年的研究歷史。多年來,基于Wikipedia等高質量且會動態(tài)更新的開發(fā)資源建立起來的知識資源庫日趨成熟,包含的知識也越來越多,再加上基于統(tǒng)計機器學習的自然語言處理技術和知識推理技術有了極大的發(fā)展,這兩方面的進步分別為智能問答系統(tǒng)的發(fā)展奠定了資源基礎和技術基礎。問答技術的發(fā)展從限定領域向開放領域,從單輪問答向多輪對話,從單個數(shù)據(jù)向多個數(shù)據(jù),從淺層語義分析向深度邏輯推理不斷推進[ 5 ]。
但是問答系統(tǒng)仍然存在一些急需解決的問題,主要有知識庫的融合、目前存在信息孤島的問題;自然理解能力偏弱,還需要進一步提高等。為解決這些問題,問答系統(tǒng)將會有以下發(fā)展趨勢。
1)網絡中充滿著大量為特定領域建立的知識資源庫,這些資源庫在各自領域發(fā)揮了很好的作用。未來的趨勢是開放領域的多領域覆蓋智能問答系統(tǒng),所以要把全部異構的知識源統(tǒng)一起來,滿足用戶的統(tǒng)一查詢需求。
2)我們目前建立的知識資源庫中的知識大多是事實性知識,缺乏常識性知識。常識性知識在人的推理中具有及其重要的作用,人們正在研究如何將常識性知識融入到智能問答系統(tǒng)中來。
3)隨著深度神經網絡技術在各個領域的成功應用,人們希望深度神經網絡算法能夠在問答系統(tǒng)領域代替?zhèn)鹘y(tǒng)的方法。隨著深度學習技術的逐步發(fā)展和計算機硬件性能的進一步提升,能夠學習數(shù)據(jù)深層特征的深度神經網絡技術將成為未來智能問答系統(tǒng)的絕對主流技術。
隨著相關技術的飛速發(fā)展,自動問答系統(tǒng)在未來將會有越來越多的應用實例,其效果也會得到突破。伴隨著IBM Watson、Apple Siri等實際應用的落地,我們更有信心看到這一技術在不遠的未來得到更廣泛的應用。
4 結論
本文主要對問答系統(tǒng)的發(fā)展歷史、關鍵技術及發(fā)展趨勢3個方面進行了闡述。就目前而言,問答系統(tǒng)暫時還未達到我們預期的目標,問答技術也只是在起步階段,并且問答系統(tǒng)準確率也有待提高,相信在不久的將來,問答系統(tǒng)將會取得重大的突破,為人們的工作和生活提供更多的便利。
參考文獻
[1]李舟軍,李水華.基于Web的問答系統(tǒng)綜述[J].計算機科學,2017(6):1-7.
[2]鄭實福,劉挺,秦兵,等.自動問答綜述[J].中文信息學報,2002(6):46-52.
[3]毛先領,李曉明.問答系統(tǒng)研究綜述[J].計算機科學與探索,2012,6(3):193-207.
[4]宋萬里,卜磊.智能答疑系統(tǒng)的設計與實現(xiàn)[J].電腦知識與技術,2017,13(36):163-165.
[5]馮升.聊天機器人問答系統(tǒng)現(xiàn)狀與發(fā)展[J].機器人技術與應用,2016(4):34-36.