白祎銘
摘要:在進行高級信息的檢索時較為常用的為問答系統(tǒng),該系統(tǒng)可以對用戶所需提問的問題進行理解并給出答案。本文對問答系統(tǒng)的定義、發(fā)展背景和發(fā)展歷程進行了闡述,之后通過旅游領域、軍事領域中的兩個具體案例介紹了問答系統(tǒng)的應用情況及構建方法,最后分析了問答系統(tǒng)面臨的挑戰(zhàn)與未來發(fā)展方向。
關鍵詞:問答系統(tǒng);知識圖譜;旅游;軍事科普
1 引言
在日常生活中,人們希望能夠實時、精準的獲取所需信息。隨著信息技術的發(fā)展與應用,互聯網已經成為社會生活的重要組成部分。借助互聯網,人們可以隨時隨地進行溝通、發(fā)布動態(tài)、網上購物等經濟、生活行為。與此同時,人們在互聯網上的各種行為也被記錄下來,互聯網上的信息隨之呈井噴式增長。如何從這些海量信息中獲取用戶需要的內容,解決信息過載問題是當前信息檢索領域面臨的難題。為了將信息、知識精準地推送給用戶,研究者開始設計一種高級信息檢索系統(tǒng)——問答系統(tǒng)(Question Answering System,QA)。問答系統(tǒng)是用戶采用自然語言的形式給出想要檢索的問題,系統(tǒng)通過對問題進行語義理解和解析,進而利用知識庫進行查詢、推理得到答案。用通俗的話來講,就是用戶直接輸入想問的問題,機器通過運算將準確的答案用自然的語言反饋給用戶[1]。
問答系統(tǒng)能夠用自然的語言,簡潔、準確地回答用戶所提出的問題,其在人工智能領域備受關注,同時具有廣泛的發(fā)展前景。目前,問答系統(tǒng)已在多個領域進行了初步運用并得到了廣泛關注。在淘寶、京東等電子商務平臺,已經廣泛使用了智能客服機器人,智能客服能夠快速處理客戶的問題,這些問題主要是一些簡單、重復性的問題。相比傳統(tǒng)的人工客服,智能客服的成本較低,且能夠24小時不間斷工作。聊天機器人是問答系統(tǒng)的升級,其不僅可以回答用戶的問題,還能與用戶進行人性化對交流,仿佛是用戶的一個好朋友。當前,聊天機器人在商業(yè)領域很常見,如蘋果公司推出的移動個人助理Siri,阿里巴巴的聊天機器人等。本文將對問答系統(tǒng)的發(fā)展應用進行分析,以期為其未來發(fā)展提供借鑒。
2 問答系統(tǒng)的發(fā)展歷程
1950年,英國數學家圖靈在其論文中提出并研究了一個十分有意思的問題,即測試機器是否具有智能,并提出了判定機器能否思考的方法——圖靈測試。其測試內容為:房間1中有測試人員,房間2中有一名人類和一臺機器,被測人與房間2中的兩個對象進行對話,若測試人員無法對房間2中的對象做出屬性判斷,那么可以初步判定該機器具有智能性。
1966年,Weizenbaum設計了第一個公認的問答系統(tǒng),其名為“Eliza”。Eliza被設計為一個心理學專家,采用啟發(fā)式心理療法,能夠與患者進行對話。其原理是通過提出問題,引導病人說出心里的不適,從而達到治療的效果。1970年,耶魯大學人工智能實驗室研制出一套閱讀理解系統(tǒng),該系統(tǒng)名為Sam。Sam的能力受限于其預先準備的問題及答案腳本,當腳本未準備好時,系統(tǒng)將無法工作。
在1990年,傳統(tǒng)模式的問答系統(tǒng)主要依靠于文檔集,隨著信息技術的發(fā)展,現今的系統(tǒng)基礎也發(fā)展為互聯網數據,但此時面向Web開放域的問答系統(tǒng)其回答的正確率與精準性較低,用戶體驗不佳。近年來,深度學習技術在自然語言處理領域中的應用越來越多,而基于深度學習技術的問答系統(tǒng)其系統(tǒng)性能往往更好,也是目前研究的熱點。
目前國內的企業(yè)與研究團體也推出了許多問答系統(tǒng),如在電子商務平臺——淘寶上廣泛應用的智能客服、百度公司推出的小度機器人、知識問答社區(qū)——知乎的智能回答等。由于中文區(qū)別于英文沒有天然的分詞,其在問題理解方面相比英文難度較大[2],此外,國內在自然語言處理領域起步較晚,技術相對薄弱。因此,相比國外的研究水平,國內還存在一定的差距。
3 問答系統(tǒng)的應用
3.1旅游問答
隨著人民生活狀況不斷改善,越來越多的人們會在休閑時間選擇旅游來放松心情、增長見識。而到一個旅游景點時就不免要在去之前對它背后的歷史、文化知識進行了解。在現今所使用的大多搜索工具幾乎都是在用戶進行搜索后根據所輸入關鍵詞呈現相關網頁,這樣的方式會造成答案片面化的情況。況且有的景點背后存在著許多與之相關的事件、人物。因此,如果在旅游領域引入問答系統(tǒng)將為游客進行路線制定、相關知識科普帶來極大的便利。
針對“靖江王府”相關的文化知識,桂林電子科技大學的研究人員設計了一套問答系統(tǒng)[3]。這一問答系統(tǒng)是基于知識圖譜的,系統(tǒng)的構建分為三步:知識圖譜構建、問句分析、答案生成。
第一步,信息獲取。研究人員首先用網絡爬蟲自動獲取景點基本信息以及真實的用戶問答內容,解析相關內容,之后將提取的有用信息保存到知識庫中,接著再查閱相關歷史文獻完善知識庫。然后構建知識圖譜,知識圖譜是將知識點以及它們之間的關系結構化、可視化,知識圖譜的構建能夠對相關的概念進行精確描述,為后續(xù)的問答生成提供知識基礎。
第二步,問句分析。首先進行問句分詞,這是將中文自然語言轉換為結構化語言的基礎模塊。然后進行同類詞替換,需要預先構建一個同類詞詞典,使問句中的語義詞統(tǒng)一為一個表達方式,減少由于用戶語言習慣帶來的差異,從而提高查詢準確率。最后是很重要的一步——問句相似度計算。通過計算用戶輸入部分與模板相似度能讓返回的答案更加快速、準確。
第三步生成答案。在這個系統(tǒng)中使用的是多策略檢索方式,在生成答案前進行相似度計算將問題與知識庫中模板進行比對。如匹配則直接返回問答對模板中的答案。不匹配就在知識圖譜中查詢生成答案。
系統(tǒng)實現包括三個部分:獲取和整理網絡信息的數據獲取與存儲模塊、處理輸入輸出語言的問答模塊、通過簡潔的界面幫助用戶獲取信息的人機交互模塊。研究人員最終進行調試與運行證明了該設計是可行的。
可以看到基于知識圖譜的問答系統(tǒng)很好地解決了游客關于旅游景點的問題,兼具準確性與速度。下一步只需擴增它的知識圖譜及知識庫就可以應對更多用戶問題。
3.2 軍事科普問答
軍事科普領域需要的問答系統(tǒng)具有準確性以及專業(yè)性并且往往需要通過深度推理準確理解問題和生成答案。傳統(tǒng)的瀏覽器及開放領域問答系統(tǒng)都無法滿足需求,前者準確性不高,后者則缺乏開放知識源。同時由于軍事類的特殊性,問題的形式遠少于開放域問題。那么問答系統(tǒng)的構建難點就落在了構建知識圖譜以及推理求解的過程上。
竇小強等[4]設計了一個基于軍事知識的智能科普問答系統(tǒng)。該系統(tǒng)的構建最重要的兩步就是相關軍事知識圖譜的構建以及問答系統(tǒng)設計。
第一步構建軍事知識圖譜。首先要解決知識來源不統(tǒng)一帶來的模式層不同的問題。文中通過建立一個標準的模式層分類體系,自動轉化的模式層通過語言學判定上下位、類屬、并列等關系建立聯系,達成語義上的統(tǒng)一。由于圖數據庫與查詢比文件查詢在大數據面前更加高效,不僅能節(jié)省時間而且可以為以后數據庫的擴展打下堅實基礎,因此系統(tǒng)采用圖數據庫存儲相關的知識。將每個知識圖譜上的邊和點對應到圖數據庫上,不僅能體現高效性與可操作性,同時使得語義信息得以完整保存。圖數據庫建好之后,調用知識圖譜時只需要使用圖數據庫的查詢語句即可。
第二步就是設計問答系統(tǒng)整體架構。同旅游業(yè)中介紹的問答系統(tǒng)類似,由問題理解、問題求解和答案生成三個模塊組成。在問題求解過程,系統(tǒng)將問題進行分類處理:第一類是直接輸出查詢結果就可以的;第二類是基于查詢結果進行邏輯推理得出答案;第三類是基于推理得到模糊答案的問題。這樣針對每類問題都可求解。
該系統(tǒng)已經基本實現了幾類問題的自動回答,可支持部分交互應答,并將蘊含查詢結果的知識圖譜可視化。該系統(tǒng)利用多種來源的知識,生成知識圖譜,經過問題理解、查詢后返回答案。對專業(yè)領域的問答系統(tǒng)的構建具有一定指導性。在這個系統(tǒng)的處理用戶提問中的處理方式讓人眼前一亮,比如在用戶提問的答案有好幾種結果時會將多個答案用自然語言返回給用戶,從而進一步縮小答案范圍,更加便利。
4 結語
目前來看,小范圍特定領域應用基于知識圖譜的問答系統(tǒng)可以更加高效、結果更加準確,但是仍有一些缺陷:難以十分精準地理解自然語言,以及知識圖譜建構方面的成本、準確性問題。構建一個規(guī)模稍大的知識圖譜,首先要提取數千個數據樣本,由業(yè)內專家標注它們之間的關系,之后進行機器學習,實現自動、半自動的標注。這個過程需要投入不少人力,比如:自然語言學習師、大數據工程師。動輒幾百萬的造價使得問答系統(tǒng)的普及較為困難[5]。
自然語言的問句理解是問答系統(tǒng)構建的瓶頸問題。問句理解是要將用戶的問題轉換為計算機能夠理解的形式。由于用戶的自然語言表述受到個體語言習慣、文化等的影響,是不斷發(fā)展變化的。其不僅僅是問答系統(tǒng)面臨的難題,也是人工智能領域所需要解決的最核心的難題之一。
此外,答案的生成也是問答系統(tǒng)面臨的難題。目前,基于知識圖譜的問答系統(tǒng)發(fā)展迅速,但如何從知識圖譜中推理生成準確的答案仍然面臨許多挑戰(zhàn)。目前的問答系統(tǒng)僅能處理簡單問題,對于一些復雜的問題的回答還面臨許多技術難題。
當上述問答系統(tǒng)面臨的技術、成本問題得到緩解甚至解決時,問答系統(tǒng)的便捷以及準確性就會凸顯出來,其應用的范圍也會進一步擴大。雖然問題系統(tǒng)的發(fā)展面臨許多困難與挑戰(zhàn),但其未來的發(fā)展前景是廣闊的。
參考文獻:
[1]王瑛,何啟濤.智能問答系統(tǒng)研究[J].電子技術與軟件工程,2019(05):174-175.
[2]李沛晏,朱露,吳多勝.問答系統(tǒng)綜述[J].數字技術與應用,2015(04):69+71.
[3]時雨,古天龍,賓辰忠等.基于知識圖譜的旅游景點問答系統(tǒng)[J].桂林電子科技大學學報,2018,38(04):296-302.
[4]竇小強,劉天雅,張志政.基于軍事知識圖譜的問答系統(tǒng)[C].中國指揮與控制學會.第六屆中國指揮控制大會論文集(上冊).中國指揮與控制學會:中國指揮與控制學會,2018:537-541.
[5]劉里,曾慶田.自動問答系統(tǒng)研究綜述[J].山東科技大學學報(自然科學版),2007(04):73-76.