王智悅,于 清,王 楠,王耀國(guó)
1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
2.新疆自治區(qū)人民醫(yī)院 信息中心,烏魯木齊 830001
智能問(wèn)答是自然語(yǔ)言處理中非常重要的研究?jī)?nèi)容,具體指計(jì)算機(jī)通過(guò)對(duì)人類語(yǔ)言的自動(dòng)分析,回復(fù)用戶所詢問(wèn)的問(wèn)題。為了更精準(zhǔn)回答用戶提問(wèn),現(xiàn)通常采用對(duì)問(wèn)句進(jìn)行深層次語(yǔ)義分析,獲取問(wèn)句豐富內(nèi)涵信息,再反饋接近用戶需要的答案,由此體現(xiàn)計(jì)算機(jī)智能性。
知識(shí)圖譜又稱科學(xué)知識(shí)圖譜,在圖書(shū)情報(bào)界叫做知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,用可視化技術(shù)描述知識(shí)資源及其載體。知識(shí)圖譜構(gòu)建需要挖掘、分析、繪制和顯示知識(shí)及知識(shí)之間的相互關(guān)系,讓原本知識(shí)庫(kù)更具智能。結(jié)合知識(shí)圖譜智能問(wèn)答,通過(guò)知識(shí)圖譜中實(shí)體間存在的直接聯(lián)系,挖掘推理出潛在關(guān)系,與傳統(tǒng)搜索引擎比較,基于知識(shí)圖譜的信息檢索,不再是反饋簡(jiǎn)單排序的文檔結(jié)果,而是通過(guò)智能語(yǔ)義分析,反饋接近用戶需要的問(wèn)題答案。本文綜述近年來(lái)基于知識(shí)圖譜的智能問(wèn)答技術(shù)研究與發(fā)展?fàn)顩r,為更多研究者提供信息參考。
智能問(wèn)答最早追溯到人工智能誕生時(shí)期,阿蘭·圖靈[1]1950 年提出通過(guò)觀察機(jī)器是否具備正確回答問(wèn)題的能力,從而驗(yàn)證機(jī)器是否具有智能。不久后,麻省理工學(xué)院Weizenbaum在1966年設(shè)計(jì)了名為ELIZA的聊天機(jī)器人[2],實(shí)現(xiàn)了與人簡(jiǎn)單交流,不過(guò),并不意味著機(jī)器對(duì)自然語(yǔ)言真正理解。隨后又有大量研究成果如:Colby 設(shè) 計(jì) 的 Parry[3]、ALICE[4]、Jabberwacky[5];2011 年IBM 公司設(shè)計(jì)研發(fā)了超級(jí)計(jì)算機(jī)“沃森”,“沃森”在美國(guó)知識(shí)競(jìng)賽節(jié)目《危險(xiǎn)邊緣》中上演了“人機(jī)大戰(zhàn)”,戰(zhàn)勝兩位頂尖人類選手,被視為人工智能發(fā)展又一里程碑;華盛頓大學(xué)Etzioni 教授2011 年在Nature上發(fā)表文章Search needs a shake-up指出:“以直接而準(zhǔn)確的方式回答用戶自然語(yǔ)言提問(wèn)的自動(dòng)問(wèn)答系統(tǒng)將構(gòu)成下一代搜索引擎的基本形態(tài)”[6]。因此,問(wèn)答系統(tǒng)被看作未來(lái)信息智能服務(wù)關(guān)鍵性技術(shù)之一,是人機(jī)交互的重要手段。
知識(shí)圖譜于2012 年由谷歌公司首次提出,具體是將獨(dú)立的知識(shí)轉(zhuǎn)化為三元組形式,形成龐大的知識(shí)網(wǎng)絡(luò)。知識(shí)圖譜屬于人工智能重要研究領(lǐng)域知識(shí)工程研究范疇,是利用知識(shí)工程建立大規(guī)模知識(shí)資源的重要應(yīng)用之一。知識(shí)圖譜可以理解為一種語(yǔ)義網(wǎng)絡(luò)[7]結(jié)構(gòu)的知識(shí)庫(kù)。在問(wèn)答系統(tǒng)[8]中,自然語(yǔ)言通過(guò)語(yǔ)義網(wǎng)絡(luò)來(lái)表達(dá)和存儲(chǔ)十分的方便。21世紀(jì)后,語(yǔ)義網(wǎng)絡(luò)進(jìn)入新的應(yīng)用場(chǎng)景即語(yǔ)義Web[9],這種允許上傳圖結(jié)構(gòu)(W3C 的標(biāo)準(zhǔn)RDF),實(shí)現(xiàn)數(shù)據(jù)之間鏈接就是知識(shí)圖譜的雛形[10],并且知識(shí)圖譜又不同于早期的語(yǔ)義網(wǎng)絡(luò),知識(shí)圖譜更加強(qiáng)調(diào)實(shí)體之間的關(guān)系或者實(shí)體的屬性值。知識(shí)圖譜研究的內(nèi)容包括知識(shí)獲取、知識(shí)融合、知識(shí)計(jì)算與應(yīng)用三大主要步驟[11]。最具代表性的大規(guī)模網(wǎng)絡(luò)知識(shí)圖譜包括DBpedia[12]、Freebase[13]、KnowItAll[14]、WikiTaxonomy[15]和 YAGO[16]、以及 BabelNet[17]、ConceptNet[18]、DeepDive[19]、NELL[20]、Probase[21]、Wikidata[22]、XLore[23]、Zhishi.me[24]等 。這些知識(shí)圖譜遵循RDF 三元組數(shù)據(jù)結(jié)構(gòu),包含數(shù)千萬(wàn)級(jí)或者億級(jí)規(guī)模實(shí)體,以及數(shù)十億或百億事實(shí)(即屬性值和與其他實(shí)體的關(guān)系),這些實(shí)體被組織在成千上萬(wàn)由語(yǔ)義體現(xiàn)的客觀世界概念結(jié)構(gòu)中。圖1 展示了一個(gè)簡(jiǎn)單的知識(shí)圖譜。
圖1 簡(jiǎn)單的知識(shí)圖譜
近年來(lái),伴隨用戶對(duì)智能應(yīng)用方面的強(qiáng)大需求,許多公司及機(jī)構(gòu)如Google、百度、維基等對(duì)獲得的高質(zhì)量數(shù)據(jù),采用自動(dòng)或半自動(dòng)化方法設(shè)計(jì)了一系列完備的知識(shí)圖譜。例如 DBpedia[12]、Freebase[13]、YAGO[16]等,這類圖譜由大批量實(shí)體、關(guān)系及屬性構(gòu)成。同時(shí)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)發(fā)展,為智能問(wèn)答奠定研究基礎(chǔ)。例如Baseball[25]、Lunar[26]實(shí)現(xiàn)了限定域的智能問(wèn)答,Paralex[27]、SEMPRE[28]、ParaSEMPRE[29]、STAGG[30]嘗試更具挑戰(zhàn)性的開(kāi)放域智能問(wèn)答研究。
大量文獻(xiàn)圍繞研究智能問(wèn)答展開(kāi),如:鄭實(shí)福等人[31]對(duì)早期自動(dòng)問(wèn)答做了比較全面的綜述,另有研究者針對(duì)限定域問(wèn)答進(jìn)行全面總結(jié)[32],還有針對(duì)Web的智能問(wèn)答,以及研究自然語(yǔ)言處理技術(shù)自動(dòng)問(wèn)答實(shí)現(xiàn)等[33]。然而,基于知識(shí)圖譜的智能問(wèn)答還沒(méi)有敘述全面的綜述類文章,在此對(duì)基于知識(shí)圖譜的智能問(wèn)答做全面介紹,吸引更多研究者投身該領(lǐng)域研究。
同時(shí),問(wèn)答系統(tǒng)實(shí)現(xiàn)離不開(kāi)數(shù)據(jù)集,重點(diǎn)介紹當(dāng)前較成熟的英文問(wèn)答數(shù)據(jù)集有Simplequestion[34]、Webquestions[28]、WebquestionsSP[35]、QALD[36]、CSQA[37]等,如表1。Simplequestions是一種大規(guī)模問(wèn)答數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中的問(wèn)題可以用一個(gè)三元組進(jìn)行回答,并且數(shù)據(jù)集包含查詢語(yǔ)句。該數(shù)據(jù)集包含了10 萬(wàn)多條問(wèn)答對(duì),但是簡(jiǎn)單問(wèn)題占很大比例,簡(jiǎn)單問(wèn)題即由一條三元組就可以回答的問(wèn)題,也叫single-relation 問(wèn)題,在該數(shù)據(jù)集上大部分研究者采用向量建模與深度學(xué)習(xí)相結(jié)合的方法并取得了很好的效果。Webquestions是Berant等人借助Google Suggest 生成了5 810 條問(wèn)答對(duì),提供了每個(gè)答案對(duì)應(yīng)知識(shí)庫(kù)的主題節(jié)點(diǎn)。Webquestions 數(shù)據(jù)集更加偏向自然語(yǔ)言,但是同樣存在缺點(diǎn),只是提供了答案而沒(méi)有對(duì)應(yīng)的查詢語(yǔ)句,這就對(duì)生成邏輯表達(dá)式的模型訓(xùn)練造成了困難,其次是復(fù)雜問(wèn)句較少。Yih等人對(duì)Webquestions 改進(jìn)后提出 WebquestionsSP,WebquestionsSP是Webquestions的子集,補(bǔ)全了相應(yīng)的查詢語(yǔ)句。QALD是一種開(kāi)放域問(wèn)答數(shù)據(jù)集且表達(dá)更加復(fù)雜、更加口語(yǔ)化,除了包含問(wèn)句與答案之外,QALD 還為每個(gè)問(wèn)答對(duì)配置了關(guān)鍵詞以及對(duì)應(yīng)的SPARQL 語(yǔ)句。CSQA 主要是用于知識(shí)圖譜序列問(wèn)答(多輪問(wèn)答)的數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)樣本均由具有共享上下文的一系列QA 對(duì)組成。在這些數(shù)據(jù)集中,盡管序列中的單個(gè)問(wèn)題通常很短,但具有上下文相關(guān)性。中文數(shù)據(jù)集有NLPCC 評(píng)測(cè)(NLPCC2016 評(píng)測(cè)數(shù)據(jù)包含14 609 個(gè)問(wèn)答對(duì)的訓(xùn)練集和包含9 870 個(gè)問(wèn)答對(duì)的測(cè)試集。并提供一個(gè)知識(shí)庫(kù),包含6 502 738 個(gè)實(shí)體、587 875 個(gè)屬性以及43 063 796個(gè)三元組)以及CCKS評(píng)測(cè)(CCKS2018測(cè)評(píng)數(shù)據(jù)集包括2 298 條問(wèn)答對(duì),其中有約1 000 條金融領(lǐng)域問(wèn)答對(duì),并提供三元組數(shù)據(jù))等,隨著智能技術(shù)發(fā)展,研究者們繼續(xù)嘗試構(gòu)建更高標(biāo)準(zhǔn)的數(shù)據(jù)集,Liu 等人構(gòu)建了一個(gè)開(kāi)源的跨語(yǔ)言O(shè)penQA數(shù)據(jù)集XQA[38],包含英語(yǔ)訓(xùn)練集以及英語(yǔ)、法語(yǔ)、德語(yǔ)、葡萄牙語(yǔ)、波蘭語(yǔ)、中文、俄語(yǔ)、烏克蘭語(yǔ)和泰米爾語(yǔ)驗(yàn)證集和測(cè)試集。Xiong等人[39]收集新聞文本,構(gòu)建了社交問(wèn)答數(shù)據(jù)集。
表1 知識(shí)圖譜問(wèn)答數(shù)據(jù)集
構(gòu)建模板的問(wèn)答方法通過(guò)構(gòu)造一組模板參數(shù),形成查詢表達(dá)式,對(duì)問(wèn)題文本進(jìn)行匹配。整個(gè)過(guò)程不涉及問(wèn)句分析,通過(guò)預(yù)設(shè)查詢模板替代相關(guān)實(shí)體關(guān)系映射。優(yōu)點(diǎn):簡(jiǎn)潔、準(zhǔn)確性高,巧妙避開(kāi)語(yǔ)義解析等難題,適用于簡(jiǎn)單查詢,在實(shí)際中應(yīng)用廣泛。
AskJeeves 是國(guó)外使用模板庫(kù)較成功的例子,其中問(wèn)題理解部分由幾百名專家對(duì)相關(guān)問(wèn)題構(gòu)建問(wèn)題模板手工完成,耗費(fèi)大量人力,借助模板庫(kù)返回相關(guān)文檔鏈接或者一段文本,回答用戶問(wèn)題,回答方式多樣。缺點(diǎn)是后期維護(hù)依然需要人工,工作量巨大。
2010 年TrueKnowledge[40]模板問(wèn)答方法被提出,核心思想是:首先使用已知模板成分匹配句子中的內(nèi)容,例如一些疑問(wèn)詞,其次按照順序匹配相應(yīng)模板,一個(gè)模板可以覆蓋多個(gè)問(wèn)題。例如問(wèn)題“What is the capital of France?”首先匹配疑問(wèn)詞,如WhatWhich,這些反映問(wèn)題意圖的疑問(wèn)詞又生成“whatwhich a y”,其中a與y是問(wèn)題中內(nèi)容的映射,確定好這樣的待填充結(jié)構(gòu)后,最后繼續(xù)根據(jù)已定義模板將“is the capital of”映射到變量a,將“France”映射到變量y。模板針對(duì)不同問(wèn)題可以復(fù)用,但缺點(diǎn)也十分明顯,需要大量人工處理形成模板,成本昂貴。同時(shí),生成的模板對(duì)數(shù)據(jù)庫(kù)依賴性大。
文獻(xiàn)[41]構(gòu)建了基于汽車(chē)領(lǐng)域的智能問(wèn)答系統(tǒng),針對(duì)原有問(wèn)答模板方法進(jìn)行了改進(jìn),結(jié)合汽車(chē)領(lǐng)域知識(shí)庫(kù)提出模板自動(dòng)生成方法,提前將復(fù)雜自然語(yǔ)言處理,預(yù)備在模板庫(kù)構(gòu)建中取得較好效果。同時(shí),該文獻(xiàn)還介紹了模板庫(kù)自動(dòng)生成系統(tǒng)結(jié)構(gòu)以及相關(guān)開(kāi)發(fā)工具。
Cui等人[42]針對(duì)簡(jiǎn)單事實(shí)問(wèn)答,在大規(guī)模模板自動(dòng)化生成方面,提出優(yōu)化方案。Abujabal等人[43]提出QUINT模型,通過(guò)語(yǔ)料自動(dòng)學(xué)習(xí)模板,借助生成的模板將自然語(yǔ)言問(wèn)句轉(zhuǎn)化為知識(shí)庫(kù)查詢。Cocco等人[44]提出基于面向?qū)ο蟮膯?wèn)答系統(tǒng),借助RDF 形式的LinkedSpeding 數(shù)據(jù)集,在現(xiàn)有訓(xùn)練集(相互配對(duì)的問(wèn)答對(duì))上,通過(guò)機(jī)器學(xué)習(xí)方法學(xué)習(xí)SPARQL模板。
總而言之,基于模板的問(wèn)答方法屬于比較傳統(tǒng)的方法,設(shè)計(jì)者需要提前設(shè)定模板,依據(jù)問(wèn)題相關(guān)部分,選取不同模板,生成答案。這種方法優(yōu)點(diǎn)是:可以獲得比較準(zhǔn)確的答案,回答響應(yīng)速度快。缺點(diǎn):需要耗費(fèi)大量人力進(jìn)行模板校對(duì),以及模板庫(kù)維護(hù)。但是,針對(duì)問(wèn)答領(lǐng)域多跳復(fù)雜問(wèn)題,最新的模板方法也能提供解決思路,當(dāng)前該方法研究重點(diǎn)更側(cè)重于模板自動(dòng)生成,克服耗時(shí)耗力難題。
語(yǔ)義解析與基于模板的方法最明顯的區(qū)別是邏輯表達(dá)式。模板方法需要預(yù)設(shè)固定表達(dá)方式,語(yǔ)義解析方法關(guān)鍵在于對(duì)自然語(yǔ)言問(wèn)句成分進(jìn)行解析,將查詢轉(zhuǎn)化成邏輯表達(dá)式,再利用知識(shí)圖譜的語(yǔ)義信息將邏輯表達(dá)式轉(zhuǎn)換成知識(shí)圖譜查詢,最終得到相應(yīng)結(jié)果。邏輯表達(dá)式用于面向知識(shí)圖譜的結(jié)構(gòu)化查詢,查找知識(shí)庫(kù)中的實(shí)體以及與實(shí)體相關(guān)的知識(shí),在結(jié)構(gòu)化形式的知識(shí)圖譜上進(jìn)行查詢,最高效的方法是利用結(jié)構(gòu)化查詢語(yǔ)句,類似SQL、SPARQL語(yǔ)句等,然而對(duì)普通用戶來(lái)說(shuō),設(shè)計(jì)規(guī)范的查詢語(yǔ)句存在困難?;谥R(shí)圖譜的語(yǔ)義解析問(wèn)答系統(tǒng)實(shí)現(xiàn),需要兩個(gè)關(guān)鍵步驟:(1)使用語(yǔ)義解析器將問(wèn)題轉(zhuǎn)換成機(jī)器能夠理解和運(yùn)行的語(yǔ)義表示;(2)使用該語(yǔ)義產(chǎn)生結(jié)構(gòu)化查詢語(yǔ)言,對(duì)知識(shí)圖譜進(jìn)行查詢,并從返回的實(shí)體集合中尋找答案,如圖2所示。
圖2 基于語(yǔ)義解析的知識(shí)圖譜問(wèn)答過(guò)程
常用語(yǔ)義解析方法又有三類:基于詞典-文法的語(yǔ)義解析、基于語(yǔ)義圖構(gòu)建的語(yǔ)義解析、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義解析。
該方法由Berant[28]提出,它依靠組合文法,其中組合范疇文法(CCG)[45]由ACL 終身成就獎(jiǎng)獲得者Steedman提出,后由Zettlemoyer與Collins[46]應(yīng)用于對(duì)問(wèn)句成分進(jìn)行語(yǔ)義解析。Kwiatkowski 等人提出改進(jìn)規(guī)則方法[47],有效提升了CCG 句法分析器魯棒性;Artzi 等人[48]使用AMR(Abstract Meaning Representation)替換λ-算子,表示CCG 語(yǔ)義規(guī)則中語(yǔ)義類型部分,同樣取得不錯(cuò)效果。語(yǔ)義解析方法還有很多,例如同步上下文無(wú)關(guān)文法(SCFG)[49],以及組合語(yǔ)義法(DCS)[28],DCS擁有和λ-算子相似的表示能力,但該方法定義的語(yǔ)義結(jié)構(gòu)更貼近知識(shí)圖譜的存儲(chǔ)結(jié)構(gòu)。
基于詞典-文法的語(yǔ)義解析方法可解釋性很強(qiáng),結(jié)構(gòu)清晰,在限定領(lǐng)域問(wèn)答方面達(dá)到很好效果。但是很多重要組成部分(比如CCG 中的詞匯表和規(guī)則集)都需人工編寫(xiě)。面對(duì)大規(guī)模多源異構(gòu)知識(shí)庫(kù),該方法存在以下不足:(1)資源(例如詞匯表、規(guī)則集)標(biāo)注費(fèi)時(shí)費(fèi)力,在訓(xùn)練數(shù)據(jù)有限情況下,性能大打折扣;(2)語(yǔ)義表示與知識(shí)庫(kù)聯(lián)系不緊密,無(wú)法在解析過(guò)程中利用知識(shí)約束;(3)大規(guī)模知識(shí)庫(kù)開(kāi)放域特性使文本歧義問(wèn)題嚴(yán)重。
Reddy[50]提出與基于詞典-文法的語(yǔ)義解析方法不同的新方法。通過(guò)對(duì)問(wèn)句分析,構(gòu)建相對(duì)應(yīng)的語(yǔ)義圖,語(yǔ)義圖由節(jié)點(diǎn)(實(shí)體、變量或者類型)、邊(關(guān)系)、操作符(count、argmax 等)構(gòu)成,被看作知識(shí)圖譜子圖,實(shí)現(xiàn)將問(wèn)句映射到知識(shí)圖譜中,再通過(guò)圖匹配完成問(wèn)題回答,該方法即是基于語(yǔ)義圖的語(yǔ)義解析方法。較有代表性的是Reddy 等人[51]設(shè)計(jì)的從依存樹(shù)到語(yǔ)義圖的轉(zhuǎn)換文法,將樹(shù)結(jié)構(gòu)轉(zhuǎn)化為知識(shí)圖譜的子圖結(jié)構(gòu)再結(jié)合知識(shí)圖譜進(jìn)行匹配;Yih[52]提出分步驟構(gòu)建文法,便于理解,可解釋性強(qiáng),提高了語(yǔ)義圖構(gòu)建的準(zhǔn)確性;Bast 等人[53]從另一方面構(gòu)建了一種基于模板的語(yǔ)義圖生成方法。構(gòu)建語(yǔ)義圖的方法不僅針對(duì)簡(jiǎn)單問(wèn)題,Hao等人[54]還嘗試構(gòu)建復(fù)雜語(yǔ)義圖解決復(fù)雜問(wèn)題,效果明顯,尤其問(wèn)句中存在多個(gè)實(shí)體時(shí),更便于語(yǔ)義圖構(gòu)建。
基于語(yǔ)義圖的問(wèn)句解析方法關(guān)鍵技術(shù)在于語(yǔ)義圖表示,以及語(yǔ)義圖構(gòu)建。語(yǔ)義圖結(jié)構(gòu)與自然語(yǔ)言句子結(jié)構(gòu)具有相似性,故使用語(yǔ)義圖作為目標(biāo)語(yǔ)義表示有顯著優(yōu)點(diǎn),語(yǔ)義解析過(guò)程充分利用知識(shí)庫(kù)的知識(shí)約束,由組合文法轉(zhuǎn)換為語(yǔ)義圖構(gòu)建,減少了搜索空間。但是基于語(yǔ)義圖的語(yǔ)義解析方法也存在問(wèn)題,該方法依賴于一些啟發(fā)式方法構(gòu)建語(yǔ)義圖,導(dǎo)致缺乏通用性。
該方法將自然語(yǔ)言及對(duì)應(yīng)的語(yǔ)義看作是兩種不同語(yǔ)言,語(yǔ)義分析任務(wù)被看做類似于機(jī)器翻譯任務(wù),利用端到端模型,實(shí)現(xiàn)將問(wèn)句翻譯成對(duì)應(yīng)語(yǔ)義的表示序列。
Dong等[55]和Jia等[56]用基于attention機(jī)制的encoderdecoder 模型(如圖3),將自然語(yǔ)言作為輸入,得到適用于機(jī)器處理的邏輯表示作為輸出。Xiao 等人[57]結(jié)合符號(hào)先驗(yàn)知識(shí),利用RNN 模型實(shí)現(xiàn)語(yǔ)義解析。Chen 等人[58]提出Sequence-to-Action 模型,用語(yǔ)義圖表示語(yǔ)義信息。也有研究者在基于神經(jīng)網(wǎng)絡(luò)的方法上進(jìn)行擴(kuò)展。Krishnamurthy 等人[59]考慮到目標(biāo)語(yǔ)言是形式化語(yǔ)言,需要嚴(yán)格條件約束,對(duì)比機(jī)器翻譯的decoder,語(yǔ)義解析中使用了嚴(yán)格約束條件。Dong 等人[60]提出用兩級(jí)encoder->decoder 改進(jìn)機(jī)器翻譯端到端模型,有效解決自然語(yǔ)言與語(yǔ)義表示之間跨度大問(wèn)題,通過(guò)問(wèn)題分解,提升性能。Chen 等人[61]不僅考慮從問(wèn)句中提取相關(guān)特征做語(yǔ)義分析,同時(shí)結(jié)合知識(shí)圖譜中實(shí)體類型、關(guān)系路徑、上下文關(guān)系等,借助注意力機(jī)制方法,在Webquestions數(shù)據(jù)集上實(shí)驗(yàn),準(zhǔn)確性提高。Lukovnikov等人[62]設(shè)計(jì)了一種端到端基于字符級(jí)別的問(wèn)題編碼器,可以處理詞庫(kù)以外的文字問(wèn)題,捕獲文字水平的語(yǔ)義。
圖3 encoder-decoder模型示意圖
基于神經(jīng)網(wǎng)絡(luò)方法,相比其他兩種方法,模型簡(jiǎn)單,但是可解釋性差,還需要預(yù)先準(zhǔn)備相應(yīng)的訓(xùn)練語(yǔ)料,對(duì)模型進(jìn)行訓(xùn)練時(shí),訓(xùn)練過(guò)程較長(zhǎng),還需要調(diào)整參數(shù)。對(duì)基于語(yǔ)義解析的三類方法,進(jìn)一步歸納總結(jié),得到如表2。
綜上所述,基于語(yǔ)義解析的知識(shí)圖譜問(wèn)答方法,核心任務(wù)是將自然語(yǔ)言轉(zhuǎn)化成機(jī)器能夠理解和執(zhí)行的語(yǔ)義表示。通?;诜?hào)邏輯的語(yǔ)義表示,缺乏靈活性,在分析問(wèn)句語(yǔ)義過(guò)程中,還容易受到符號(hào)間語(yǔ)義鴻溝影響,同時(shí)從自然語(yǔ)言問(wèn)句得到結(jié)構(gòu)化語(yǔ)義表示需要許多步操作,多步間誤差傳遞對(duì)問(wèn)答準(zhǔn)確度造成影響?;谏窠?jīng)網(wǎng)絡(luò)的方法,需要大量標(biāo)注數(shù)據(jù),然而帶有標(biāo)注的數(shù)據(jù)集非常有限,加上現(xiàn)有知識(shí)圖譜覆蓋度較低。因此,目前基于語(yǔ)義分析的問(wèn)答系統(tǒng)在開(kāi)放域上取得的效果還不近人意。由于基于符號(hào)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法各具優(yōu)缺點(diǎn),所以今后可以考慮兩種方法結(jié)合,此外,無(wú)論是基于符號(hào)方法需要構(gòu)建規(guī)則集,還是基于神經(jīng)網(wǎng)絡(luò)的方法需要標(biāo)注語(yǔ)料,都耗費(fèi)大量人工,因此構(gòu)建低成本的模型也是研究方向之一。
表2 語(yǔ)義解析方法比較
2006 年Hinton 等人[63]在神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上提出深度學(xué)習(xí),如今海量數(shù)據(jù)積累、計(jì)算力提升、算法模型改進(jìn),促成深度學(xué)習(xí)迅猛發(fā)展。深度學(xué)習(xí)方法也已應(yīng)用于問(wèn)答系統(tǒng)各項(xiàng)任務(wù)實(shí)現(xiàn)。例如實(shí)體識(shí)別采用的經(jīng)典BILSTM+CRF 方法,如圖4 所示,谷歌提出BERT[64]模型;關(guān)系分類、意圖分類,采用基于字級(jí)別的深度學(xué)習(xí)方法;實(shí)體消歧采用深度學(xué)習(xí)排序方法,判斷語(yǔ)義匹配性等。
圖4 BILSTM+CRF實(shí)體識(shí)別模型示意圖
當(dāng)今,在基于知識(shí)圖譜的問(wèn)答研究領(lǐng)域,大部分研究者把目光從傳統(tǒng)或規(guī)則的方法轉(zhuǎn)向深度學(xué)習(xí)方法。以下章節(jié)將重點(diǎn)介紹基于深度學(xué)習(xí)的知識(shí)圖譜問(wèn)答。
采用深度學(xué)習(xí)的方法需要將問(wèn)題以及知識(shí)圖譜中包含的豐富的語(yǔ)義信息(字、詞語(yǔ)、上下文關(guān)系,知識(shí)圖譜中的實(shí)體、關(guān)系以及屬性),投射到一個(gè)高維向量空間,獲得字向量或者詞向量,通過(guò)深度學(xué)習(xí)模型對(duì)向量進(jìn)行相似度計(jì)算,再通過(guò)相應(yīng)打分機(jī)制獲得候選排序,得出最終問(wèn)答結(jié)果。如圖5所示。
圖5 基于深度學(xué)習(xí)的答案排序方法典型流程
其中,Bordes[65]在文獻(xiàn)[66]基礎(chǔ)上提出的方法比較經(jīng)典,首先對(duì)問(wèn)句中實(shí)體準(zhǔn)確定位,將問(wèn)句中的實(shí)體抽取出來(lái),再將實(shí)體連接到知識(shí)庫(kù),以該實(shí)體為起點(diǎn),查找與其關(guān)系相連的實(shí)體作為候選答案。其次計(jì)算這些實(shí)體關(guān)系的組合與問(wèn)句之間的相似度,通過(guò)打分排序,選擇相似度最大的候選項(xiàng)返回答案,取得很好效果。Hao等人[67]針對(duì)前人工作中沒(méi)有充分考慮候選答案相關(guān)信息訓(xùn)練question representation,提出Cross-Attention機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練知識(shí)庫(kù)全局信息,一定程度上減輕了the Out of Vocabulary(OOV)問(wèn)題,在Webquestions數(shù)據(jù)集上取得不錯(cuò)效果。Hao等人[68]在問(wèn)句實(shí)體鏈接方面提出改進(jìn)方案,同時(shí)利用多級(jí)編碼及多維信息增強(qiáng)效果。Zhang 等人[69]在原有APVA 模型上改進(jìn),提高關(guān)系預(yù)測(cè)準(zhǔn)確性。此外,也有學(xué)者嘗試將問(wèn)句實(shí)體鏈接與關(guān)系鏈接合并抽取[70]。
Bordes 等人[71]還設(shè)計(jì)了一種基于記憶網(wǎng)絡(luò)的問(wèn)答系統(tǒng),在多個(gè)數(shù)據(jù)集上驗(yàn)證了系統(tǒng)設(shè)計(jì)的優(yōu)越性,具備遷移學(xué)習(xí)能力。Dong等人[72]設(shè)計(jì)了一種多列卷積神經(jīng)網(wǎng)絡(luò),根據(jù)知識(shí)圖譜特點(diǎn),定義答案路徑、上下文路徑、答案類型,作為參考特征,并且每個(gè)特征對(duì)應(yīng)一個(gè)已經(jīng)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),用于捕獲問(wèn)句中語(yǔ)義信息,再通過(guò)計(jì)算問(wèn)句與答案之間的相似度,對(duì)結(jié)果打分排序,排名第一的作為最終答案。為更好捕獲問(wèn)句與答案間的交互信息,以及保留更多原始信息,Qu等人[73]提出了一種基于相似矩陣的遞歸神經(jīng)網(wǎng)絡(luò)(AR-SMCNN)模型,利用RNN 順序建模特性捕獲語(yǔ)義級(jí)相關(guān)性,使用注意機(jī)制跟蹤實(shí)體和關(guān)系重要部分,并制定了一種準(zhǔn)確確定問(wèn)句中主實(shí)體的方法。Lan 等人[74]創(chuàng)新地將“matchingaggregation”框架用于匹配候選項(xiàng),增強(qiáng)候選實(shí)體表示,充分利用問(wèn)題特有語(yǔ)境關(guān)系,提升在公開(kāi)數(shù)據(jù)集Webquestions、Simplequestion 上的效果。Krishna 等人[75]將問(wèn)答與實(shí)際生活聯(lián)系起來(lái),將問(wèn)答過(guò)程比作老師與學(xué)生之間的關(guān)系,學(xué)生問(wèn)題寬泛,同時(shí)使用分類方法,由大到小,由粗到細(xì),定位問(wèn)題意圖,最終由老師回答。
以上是國(guó)外學(xué)者在研究基于知識(shí)圖譜問(wèn)答方面,采用深度學(xué)習(xí)方法取得的成果。國(guó)內(nèi)也有許多研究者,致力于構(gòu)建領(lǐng)域知識(shí)圖譜及設(shè)計(jì)問(wèn)答系統(tǒng),將基于知識(shí)圖譜的單一事實(shí)問(wèn)答拆解成兩部分任務(wù),一是實(shí)體鏈接,二是關(guān)系識(shí)別。羅達(dá)等人[76]按照這一思路提出了一種基于多角度注意力機(jī)制的單一事實(shí)知識(shí)庫(kù)問(wèn)答方法,關(guān)系識(shí)別率達(dá)到93.5%。曹明宇等人[77]構(gòu)建了一種針對(duì)原發(fā)性肝癌的知識(shí)圖譜問(wèn)答系統(tǒng)。張楚婷[78]在旅游方面展開(kāi)知識(shí)圖譜問(wèn)答系統(tǒng)研究。張崇宇[79]設(shè)計(jì)了關(guān)于醫(yī)療領(lǐng)域的知識(shí)圖譜問(wèn)答系統(tǒng)。史夢(mèng)飛[80]設(shè)計(jì)了一種分布式的問(wèn)答系統(tǒng),將問(wèn)題句進(jìn)行分類,提高下游任務(wù)的準(zhǔn)確性,通過(guò)構(gòu)建基于深度學(xué)習(xí)的End2End 問(wèn)答模型,同時(shí)考慮中文問(wèn)句的復(fù)雜性,提出結(jié)合語(yǔ)義依存分析的剪枝算法及自動(dòng)化模板的方法。童培豪[81]針對(duì)復(fù)雜問(wèn)題進(jìn)行優(yōu)化,將系統(tǒng)分為三個(gè)步驟,實(shí)體識(shí)別、關(guān)系發(fā)現(xiàn)、系統(tǒng)整合,并在每一個(gè)步驟中實(shí)現(xiàn)優(yōu)化。國(guó)內(nèi)眾多評(píng)測(cè)會(huì)議,進(jìn)一步促進(jìn)問(wèn)答系統(tǒng)發(fā)展。Lai 等人[82]在NLPCC2017比賽中設(shè)計(jì)了一種深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)體謂詞重排序配對(duì)方法,取得第一名。Zhou 等人[83]將規(guī)則與神經(jīng)網(wǎng)絡(luò)相結(jié)合,在2019 年CCKS 評(píng)測(cè)中,取得第一名。
在基于深度學(xué)習(xí)答案排序的方法中,計(jì)算輸入問(wèn)題和候選答案實(shí)體之間的相關(guān)性是核心任務(wù)。當(dāng)前采用問(wèn)題與答案對(duì)直接訓(xùn)練的問(wèn)答模型取得較好效果。Costa 等人[84]針對(duì)當(dāng)前多領(lǐng)域多知識(shí)圖譜發(fā)展,提出針對(duì)開(kāi)放域的基于知識(shí)圖譜的問(wèn)答框架,嘗試設(shè)計(jì)一個(gè)高效且高質(zhì)量的問(wèn)答系統(tǒng),實(shí)現(xiàn)在任何領(lǐng)域?qū)θ魏晤愋蛦?wèn)題都有效的問(wèn)答系統(tǒng)。
知識(shí)圖譜嵌入(Knowledge Graph Embedding,KGE)學(xué)習(xí)是針對(duì)知識(shí)圖譜中的三元組做word embedding操作,在一般的自然語(yǔ)言處理任務(wù)中,將文本的表述轉(zhuǎn)化為word2vec這種產(chǎn)物,KGE不同于普通的詞向量表示,知識(shí)圖譜嵌入學(xué)習(xí)面向知識(shí)庫(kù)中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí),從而更為直接地構(gòu)造實(shí)體與關(guān)系之間的語(yǔ)義相關(guān)性。相比于普通的詞向量,KGE 更能反映相近的實(shí)體以及關(guān)系間的相似程度,KGE 的目的是為了保存知識(shí)圖譜中原有的信息,并將知識(shí)圖譜用連續(xù)向量空間中的低維密集向量或者矩陣來(lái)表示,可以有效解決數(shù)據(jù)稀疏問(wèn)題,使知識(shí)獲取、融合、推理的性能得到顯著提升。現(xiàn)有研究已經(jīng)提出了許多的KGE,如線性映射方法DistMult[85]、基于平移的TransE[86]、基于張量因子化的RESCAL[87]、神經(jīng)張量網(wǎng)絡(luò)NTN[88]等,并被證明在知識(shí)圖譜補(bǔ)全、問(wèn)答系統(tǒng)和關(guān)系抽取等許多應(yīng)用中都是有效的。
Wang 等人[89]借助知識(shí)圖譜的嵌入學(xué)習(xí),提出了一種解決通過(guò)SPARQL查詢沒(méi)有答案的方法。Wang針對(duì)一些在知識(shí)圖譜中可以找到答案,但是通過(guò)SPARQL匹配時(shí),要求每個(gè)指定的查詢項(xiàng)都需要匹配,從而無(wú)法找到正確答案的問(wèn)題,通過(guò)專門(mén)為SPARQL查詢匹配設(shè)計(jì)的保留實(shí)體上下文的轉(zhuǎn)化模型,將知識(shí)圖譜三元組映射到連續(xù)的向量空間中,使得語(yǔ)義相似的實(shí)體在向量空間中接近。這樣的模型框架可以方便地生成高質(zhì)量的近似答案。
Huang等人[90]設(shè)計(jì)了一種基于知識(shí)圖譜嵌入的問(wèn)答系統(tǒng),針對(duì)謂詞在問(wèn)題中的不同表達(dá)和實(shí)體被識(shí)別后的消歧等問(wèn)題,Huang等人結(jié)合知識(shí)圖譜嵌入學(xué)習(xí)在問(wèn)答系統(tǒng)的優(yōu)點(diǎn)來(lái)解決,知識(shí)圖譜嵌入學(xué)習(xí)表示圖譜中的每個(gè)謂詞/實(shí)體為低維向量,給定一個(gè)簡(jiǎn)單問(wèn)題,目標(biāo)是找到謂詞嵌入空間的一個(gè)點(diǎn)作為謂詞的表示向量,并在實(shí)體嵌入空間中找到一個(gè)點(diǎn)作為頭實(shí)體的表示向量。對(duì)于所有知識(shí)圖譜可以解答的問(wèn)題,它們的謂詞向量必然在謂詞嵌入空間中。因此,作者設(shè)計(jì)謂詞與頭實(shí)體學(xué)習(xí)模型,將問(wèn)題作為輸入,并返回盡可能接近于問(wèn)題的謂詞/實(shí)體嵌入表示的向量,確定謂詞與頭實(shí)體,最終找到尾實(shí)體,完成問(wèn)答。
Hamilton 等人[91]認(rèn)為知識(shí)圖譜是一張有關(guān)系和實(shí)體組成的一張圖,通過(guò)學(xué)習(xí)實(shí)體低緯度嵌入表示,可以預(yù)測(cè)潛在或者缺失的邊。目前知識(shí)圖譜查詢的難點(diǎn)在于處理更為復(fù)雜的邏輯查詢,因?yàn)檫@涉及多個(gè)未發(fā)現(xiàn)的邊、實(shí)體和屬性。針對(duì)這一問(wèn)題,Hamilton 等人設(shè)計(jì)了一種框架,實(shí)現(xiàn)在不完整知識(shí)圖譜上有效地對(duì)連接邏輯查詢進(jìn)行預(yù)測(cè),在低維空間中對(duì)圖譜節(jié)點(diǎn)embedding操作,并在這個(gè)embedding space中將邏輯運(yùn)算符表示為學(xué)習(xí)過(guò)的幾何運(yùn)算(例如平移、旋轉(zhuǎn))。通過(guò)在低維embedding space中執(zhí)行邏輯運(yùn)算,可以預(yù)測(cè)圖譜中的關(guān)系。
知識(shí)圖譜問(wèn)答中一種有效的方法就是將自然語(yǔ)言問(wèn)句轉(zhuǎn)化為圖結(jié)構(gòu)的查詢,最為重要的過(guò)程就是將實(shí)體/關(guān)系映射到知識(shí)圖譜的點(diǎn)與邊,從而構(gòu)造結(jié)構(gòu)查詢。Wang 等人[92]考慮到語(yǔ)言的靈活性以及模糊性,映射的過(guò)程存在挑戰(zhàn)性,提出了一種新的問(wèn)答框架KemQA,嘗試去解決自然語(yǔ)言問(wèn)題的映射問(wèn)題和構(gòu)造結(jié)構(gòu)查詢,通過(guò)大量的實(shí)驗(yàn),證明框架的有效性。
知識(shí)圖譜的嵌入學(xué)習(xí)方法是將知識(shí)圖譜中的每個(gè)對(duì)象編碼到連續(xù)向量空間,這樣的做法能夠反映出關(guān)系密切的實(shí)體以及關(guān)系的相似程度,保存了知識(shí)圖譜中的重要信息。這樣的做法為問(wèn)答的實(shí)現(xiàn)做了很好的鋪墊。知識(shí)圖譜嵌入式學(xué)習(xí)的問(wèn)答方法具有很好的可行性以及魯棒性。如何能讓知識(shí)圖譜嵌入學(xué)習(xí)學(xué)到更多更細(xì)致的知識(shí)圖譜信息是這種方法的關(guān)鍵。
近年來(lái),有論文指出KGQA任務(wù)中的簡(jiǎn)單問(wèn)題已經(jīng)基本被解決[93]。從知識(shí)圖譜的發(fā)展來(lái)看,當(dāng)前學(xué)術(shù)界更關(guān)注解決包含多跳、組合或者需要借助推理解決的復(fù)雜問(wèn)題,由于問(wèn)題和知識(shí)的多樣性和復(fù)雜性,知識(shí)圖譜問(wèn)答仍然是一項(xiàng)具有挑戰(zhàn)的任務(wù),尤其是在多跳的問(wèn)答中,許多研究者在這方面進(jìn)行了許多嘗試。
多跳問(wèn)題主要分為兩類,一類是路徑問(wèn)題,另一類是聯(lián)合問(wèn)題。路徑問(wèn)題指的是問(wèn)題中只包含一個(gè)主題實(shí)體,但是含有多個(gè)關(guān)系,這類問(wèn)題的解決需要沿著圖譜中的某些線路遍歷才能找到問(wèn)題的答案(借助一些關(guān)系和中間實(shí)體);聯(lián)合問(wèn)題則是包含多個(gè)主題實(shí)體,這類問(wèn)題的答案可能是多個(gè)路徑問(wèn)題結(jié)果的交集。語(yǔ)義解析方法、深度學(xué)習(xí)答案排序以及知識(shí)圖譜嵌入的方法不能有效地解決多條復(fù)雜問(wèn)題,如圖6。
圖6 多跳問(wèn)題
Zhang 等人[94]的方法是將多跳問(wèn)答分為兩個(gè)步驟:一是通過(guò)概率模型來(lái)識(shí)別問(wèn)句中的實(shí)體(得到圖譜中每個(gè)實(shí)體是問(wèn)句中實(shí)體的概率);二是設(shè)計(jì)了一種邏輯推理模型,提出了一種嵌入推理圖的體系結(jié)構(gòu),其中包含了所有推理規(guī)則及其復(fù)雜性,在知識(shí)圖譜上做邏輯推理。Zhou 等人[95]針對(duì)多跳提出了一種新的可解釋推理網(wǎng)絡(luò)模型,該模型采用可解釋的逐跳推理過(guò)程來(lái)回答問(wèn)題。該模型動(dòng)態(tài)地決定輸入問(wèn)題的某部分應(yīng)該對(duì)應(yīng)圖譜中的某一跳進(jìn)行分析;預(yù)測(cè)與當(dāng)前解析結(jié)果相對(duì)應(yīng)的關(guān)系;利用預(yù)測(cè)的關(guān)系更新問(wèn)題表示和推理過(guò)程的狀態(tài);然后驅(qū)動(dòng)下一跳推理。Vakulenko 等人[96]提出了一種新的方法使用無(wú)監(jiān)督消息傳遞(Message passing)來(lái)解決復(fù)雜問(wèn)題,首先識(shí)別實(shí)體、關(guān)系和類名,并將其映射到圖中的對(duì)應(yīng)項(xiàng),從而定位答案實(shí)體。最后,根據(jù)確定的問(wèn)題類型對(duì)這些問(wèn)題進(jìn)行聚合。這種方法可以借助一系列稀疏矩陣乘法來(lái)模擬小型局部子圖上的連接實(shí)現(xiàn)。
多跳推理的問(wèn)答是當(dāng)前的研究難點(diǎn)與熱點(diǎn)問(wèn)題,還有許多的工作需要去做。
問(wèn)答系統(tǒng)早就存在,從2011年Siri,到Google Now、語(yǔ)音助手、智能音箱等本質(zhì)上都是問(wèn)答系統(tǒng)。問(wèn)答系統(tǒng)在日常生活中幫人們導(dǎo)航、搜索問(wèn)題,偶爾與用戶交互聊天,讓生活越來(lái)越方便。智能時(shí)代職業(yè)場(chǎng)所及公共場(chǎng)所中人們每天面對(duì)大量數(shù)據(jù)、海量信息及知識(shí)更新,“懂行”的“專家助手”成為剛需。知識(shí)圖譜用于描述真實(shí)世界中存在的實(shí)體和概念,以及實(shí)體和概念之間的關(guān)系,可通過(guò)人工方式構(gòu)建或定義行業(yè)領(lǐng)域的知識(shí)體系,基于此開(kāi)發(fā)各種高級(jí)應(yīng)用,智能問(wèn)答便是應(yīng)用之一。
基于知識(shí)圖譜的問(wèn)答系統(tǒng),研究方法很多,其中基于深度學(xué)習(xí)的答案排序法略顯優(yōu)勢(shì)。但是依然存在不足:缺乏泛化性、可解釋性,對(duì)時(shí)序性問(wèn)題不能很好回答,例如:“現(xiàn)在誰(shuí)統(tǒng)治丹麥?”。本章結(jié)合智能問(wèn)答系統(tǒng)研究中遇到的問(wèn)題,總結(jié)尚需解決的關(guān)鍵問(wèn)題。
現(xiàn)有的基于知識(shí)圖譜的問(wèn)答技術(shù),在單一問(wèn)題上已取得非常好的效果,如:BERT模型實(shí)驗(yàn)。然而,在實(shí)際問(wèn)答場(chǎng)景下,用戶的問(wèn)題往往復(fù)雜,現(xiàn)有的基于深度學(xué)習(xí)的知識(shí)圖譜問(wèn)答方法受到挑戰(zhàn),復(fù)雜問(wèn)題研究仍有很大提升空間。一旦問(wèn)題中存在多種關(guān)系與實(shí)體,或者存在潛在關(guān)系,甚至在開(kāi)放性領(lǐng)域,如CCKS 評(píng)測(cè)中的一個(gè)問(wèn)題“我現(xiàn)在餓了,數(shù)據(jù)庫(kù)里有什么吃的?”,現(xiàn)有的方法的效果不盡人意。
現(xiàn)有的知識(shí)圖譜規(guī)模日趨龐大,能覆蓋多個(gè)領(lǐng)域,但是仍面臨信息缺失問(wèn)題,知識(shí)圖譜構(gòu)建是項(xiàng)大工程。面向問(wèn)答的深度推理顯示出作用,傳統(tǒng)的基于符號(hào)的推理需要嚴(yán)格符號(hào)匹配,推理規(guī)則有限,以致領(lǐng)域適應(yīng)性差,無(wú)法實(shí)現(xiàn)大規(guī)模推理。但是,深度學(xué)習(xí)作用于分布式語(yǔ)義表示,可以利用語(yǔ)義空間中的相似度計(jì)算,彌補(bǔ)符號(hào)推理需要嚴(yán)格規(guī)則的缺陷。所以,如何利用深度學(xué)習(xí)的大規(guī)模、可學(xué)習(xí)優(yōu)點(diǎn)、融入傳統(tǒng)邏輯推理規(guī)則,構(gòu)建精準(zhǔn)的大規(guī)模知識(shí)推理引擎是自動(dòng)問(wèn)答系統(tǒng)迫切需要解決的又一個(gè)熱點(diǎn)問(wèn)題。
傳統(tǒng)的問(wèn)答系統(tǒng)大多采用一問(wèn)一答的形式,但是現(xiàn)實(shí)應(yīng)用場(chǎng)景中,用戶與機(jī)器之間需要多輪交互,由此反饋給用戶的答案不只是單一的實(shí)體、概念、關(guān)系等形式,需要考慮到先前的對(duì)話對(duì)即將發(fā)生的對(duì)話的影響或者當(dāng)前的對(duì)話可能對(duì)后續(xù)對(duì)話造成的影響。除此之外,還需要采用用戶理解的自然語(yǔ)言形式回復(fù)問(wèn)題。在這一過(guò)程中,如何結(jié)合知識(shí)庫(kù),將知識(shí)庫(kù)問(wèn)答的答案加入自然語(yǔ)言回復(fù)中,是亟待解決的問(wèn)題。
問(wèn)句的長(zhǎng)尾(long tail)的問(wèn)題也是近年來(lái)研究的熱點(diǎn)問(wèn)題,長(zhǎng)尾問(wèn)句是指在問(wèn)答數(shù)據(jù)上,少量表示相同意思,出現(xiàn)頻率高的問(wèn)句在整個(gè)數(shù)據(jù)集中占有大部分的比例。將問(wèn)句以柱狀圖的形式展示就會(huì)有很長(zhǎng)的“尾巴”,尾巴上都是一些出現(xiàn)頻率不高的問(wèn)句。例如在數(shù)據(jù)集中與“ehr系統(tǒng)包含什么功能”意思相近的問(wèn)句有“ehr系統(tǒng)有哪些功能”“ehr 系統(tǒng)有什么功能”“ehr 系統(tǒng)能實(shí)現(xiàn)什么功能”。如果數(shù)據(jù)集大部分都是相似的問(wèn)句,這就會(huì)導(dǎo)致數(shù)據(jù)集的特征比較單一,學(xué)習(xí)的模型泛化能力不強(qiáng)。這就可能需要使用一些其他的算法來(lái)增強(qiáng)模型的泛化能力。
智能時(shí)代來(lái)臨,海量信息充斥在社會(huì)每個(gè)角落,用戶對(duì)自動(dòng)問(wèn)答需求越來(lái)越強(qiáng)烈,現(xiàn)有的問(wèn)答系統(tǒng)還處在起步階段,僅具備最基本的智能與推理能力。人工智能專家在智能問(wèn)答領(lǐng)域的研究從未中斷過(guò),基于知識(shí)圖譜的問(wèn)答系統(tǒng)作為自動(dòng)問(wèn)答研究的重要方向,其技術(shù)發(fā)展趨勢(shì)從限定領(lǐng)域向開(kāi)放領(lǐng)域發(fā)展,從單一數(shù)據(jù)源向多元數(shù)據(jù)源發(fā)展,從淺層語(yǔ)義分析向深度推理發(fā)展。本文關(guān)于知識(shí)圖譜智能問(wèn)答研究綜述期望相關(guān)技術(shù)早突破,開(kāi)拓不同行業(yè)智能問(wèn)答應(yīng)用需求。
計(jì)算機(jī)工程與應(yīng)用2020年23期