譚 剛,陳 聿,彭云竹
國(guó)網(wǎng)重慶市電力公司 信息通信分公司,重慶401120
伴隨云計(jì)算基礎(chǔ)設(shè)施和人工智能技術(shù)的不斷成熟完善,以知識(shí)圖譜(KG)[1]為基礎(chǔ)的智能問答系統(tǒng)逐漸應(yīng)用在電力服務(wù)等生產(chǎn)環(huán)境。問答系統(tǒng)(QA)通過從生產(chǎn)系統(tǒng)各類數(shù)據(jù)中抽取實(shí)體、斷言等語(yǔ)義知識(shí),構(gòu)建領(lǐng)域知識(shí)庫(kù),將用戶提問的自然語(yǔ)言轉(zhuǎn)化為知識(shí)庫(kù)中描述的實(shí)體和斷言,進(jìn)而優(yōu)化頭實(shí)體的查詢算法,提供智能問答服務(wù)。智能問答系統(tǒng)面向企業(yè)和個(gè)人客戶,在設(shè)備日常運(yùn)維、電力知識(shí)科普、突發(fā)事件應(yīng)急指南等方面挖掘現(xiàn)有知識(shí),為客戶提供自助服務(wù)[2]。該系統(tǒng)作為人工服務(wù)系統(tǒng)的有效補(bǔ)充,可以降低電網(wǎng)客服的人力投入和出錯(cuò)概率,對(duì)簡(jiǎn)單問題和經(jīng)常性事件提供標(biāo)準(zhǔn)解決方案,保障服務(wù)質(zhì)量,因此一個(gè)經(jīng)過良好設(shè)計(jì)的智能問答系統(tǒng)能夠以較低開銷維持客戶群體,對(duì)實(shí)現(xiàn)電網(wǎng)服務(wù)的信息化、自動(dòng)化及智能化具有重要意義。
然而,在智能電網(wǎng)客服應(yīng)用場(chǎng)景中,由于封閉性強(qiáng)、軟硬件及對(duì)應(yīng)業(yè)務(wù)更新頻繁、技術(shù)棧差異大等因素導(dǎo)致知識(shí)圖譜的構(gòu)建、維護(hù)、更新存在較大的局限性。一方面,當(dāng)前的知識(shí)圖譜研究針對(duì)固定的訓(xùn)練樣本,通過詞法與語(yǔ)法切分、關(guān)聯(lián)序列挖掘、問題模板分類等技術(shù)手段,能夠滿足有限樣本空間下的自動(dòng)問答需求,但不能應(yīng)對(duì)電力知識(shí)圖譜不斷更新的場(chǎng)景;另一方面,現(xiàn)有問答系統(tǒng)會(huì)引入知識(shí)圖譜之外的網(wǎng)頁(yè)搜索和文檔、問題檢索等其他文本信息以形成開放知識(shí)庫(kù),從而擴(kuò)大了所屬實(shí)體和斷言集合的檢索空間,存在檢索錯(cuò)誤高、結(jié)果不準(zhǔn)確等問題。
因此,根據(jù)智能電網(wǎng)客服實(shí)際業(yè)務(wù)特點(diǎn),整合KG的構(gòu)建方法和各類優(yōu)化技術(shù),以構(gòu)建企業(yè)級(jí)智能電網(wǎng)客服問答系統(tǒng),是當(dāng)前國(guó)家電網(wǎng)信息化建設(shè)的重要任務(wù)之一。現(xiàn)有基于知識(shí)圖譜的問答系統(tǒng)距離電力行業(yè)的落地應(yīng)用仍然有較大距離?;谧匀徽Z(yǔ)言處理的方法(神經(jīng)網(wǎng)絡(luò)、主題模型等)雖然能夠較好應(yīng)對(duì)上下文語(yǔ)義、語(yǔ)言模糊性等問題,但沒有考慮到電網(wǎng)生產(chǎn)環(huán)境的如下實(shí)際問題:
(1)領(lǐng)域知識(shí)圖譜構(gòu)建的可行性與擴(kuò)展性:通過神經(jīng)網(wǎng)絡(luò)[3]、對(duì)話模型[4]等方法可以提取問題中的有效信息提升KG構(gòu)建、檢索效率,其均是在開源固定數(shù)據(jù)集上優(yōu)化評(píng)價(jià)指標(biāo),但未考慮對(duì)電網(wǎng)領(lǐng)域封閉、動(dòng)態(tài)的支撐,沒有有效的方法去利用現(xiàn)有電網(wǎng)各個(gè)孤立系統(tǒng)中的知識(shí)。
(2)智能問答系統(tǒng)服務(wù)的可用性:智能問答系統(tǒng)通過上下文語(yǔ)義關(guān)聯(lián)[5]、網(wǎng)頁(yè)搜索[6]和外部文本[7]等方法能夠彌補(bǔ)KG知識(shí)量不足的問題,但缺乏外部知識(shí)和KG的自動(dòng)整合方法,導(dǎo)致線上服務(wù)運(yùn)行運(yùn)維成本較高、客戶滿意度不穩(wěn)定等問題。
據(jù)此,本文提出一種基于融合領(lǐng)域特征知識(shí)圖譜的智能電網(wǎng)問答系統(tǒng)(HDKG-QA),本系統(tǒng)首先提出基于注意力和雙相連接的LSTM模型的實(shí)體/斷言識(shí)別方法,達(dá)到自然語(yǔ)言簡(jiǎn)單問題表達(dá)模糊性精確識(shí)別的效果;然后設(shè)計(jì)基于主題比較的語(yǔ)義增強(qiáng)方法,考慮二乘損失和主題模型損失,將領(lǐng)域知識(shí)映射為本地KG,支撐服務(wù)知識(shí)庫(kù)的線上更新,同時(shí)使用啟發(fā)式規(guī)則查詢,結(jié)合問題特征和KG狀態(tài)進(jìn)行候選集排序,更容易選到最佳答案;最后定期執(zhí)行ILP優(yōu)化策略,考慮用戶滿意度和服務(wù)成本,定期更新部分本地KG,達(dá)到以較低的響應(yīng)延遲支持高質(zhì)量服務(wù)。其中,LSTM模型和增強(qiáng)語(yǔ)義方法能夠?qū)崿F(xiàn)KG的構(gòu)建及擴(kuò)展,具備靈活線上服務(wù)能力;啟發(fā)式規(guī)則和ILP優(yōu)化策略能夠支撐智能問答系統(tǒng)中KG的檢索和更新,保障系統(tǒng)的可用性。本系統(tǒng)的這些關(guān)鍵方法能夠有效解決電網(wǎng)生產(chǎn)環(huán)境中上述的兩個(gè)實(shí)際問題,提供企業(yè)級(jí)的解決方案。
本文面向智能電網(wǎng)領(lǐng)域,以自然語(yǔ)言表達(dá)的中文簡(jiǎn)單問題為輸入,以匹配問題的答案為輸出,總體設(shè)計(jì)如圖1所示,該設(shè)計(jì)自上而下依次分為六個(gè)層次,上層的輸出作為下層的輸入,形成模型訓(xùn)練、線上服務(wù)和KG更新等為一體的整體解決方案,各層的關(guān)鍵設(shè)計(jì)和層次關(guān)系如下六個(gè)方面所示:
(1)問題輸入層:該層用于接收不同途徑、不同系統(tǒng)界面的用戶提問,并通過統(tǒng)一的負(fù)載轉(zhuǎn)發(fā)和身份認(rèn)證把問題文本傳輸?shù)较乱粚?。該層特點(diǎn)是不同用戶對(duì)同一類問題可能有不同表述。例如圖1中如“電表嗡嗡響是怎么回事?”這一問題也可以表示成“電表異常聲響的原因是?電表嗡嗡響該怎么辦?”等,各個(gè)用戶有不同的問題意圖或期望答案,本層轉(zhuǎn)發(fā)的問題具有一定的模糊性。
(2)LSTM識(shí)別層:該層接收問題輸入層轉(zhuǎn)發(fā)后的問題文本,通過分詞、雙向連接、注意力權(quán)重等層次將問題文本中的實(shí)體/斷言識(shí)別出來(lái),作為系統(tǒng)傾向分析層的查詢條件。該識(shí)別層核心通過雙向LSTM連接和注意力權(quán)重設(shè)置克服上層文本的模糊性,能夠根據(jù)目標(biāo)向量輸出較為精確的識(shí)別結(jié)果,識(shí)別結(jié)果能夠反映提問用戶的核心關(guān)注點(diǎn)。
(3)系統(tǒng)傾向分析層:該層將LSTM中識(shí)別出的實(shí)體/斷言向量作為輸入,分別在電網(wǎng)各個(gè)子系統(tǒng)中進(jìn)行關(guān)鍵字查詢,尋找本領(lǐng)域環(huán)境下和問題關(guān)聯(lián)的所有相關(guān)文本,并將匹配度最高的文本作為下一層輸入。該層可以充分利用現(xiàn)有電網(wǎng)各類系統(tǒng)(呼叫、工單、自主服務(wù)、應(yīng)急班組等)的歷史數(shù)據(jù),構(gòu)建基于主題建模的系統(tǒng)傾向分析模型,通過最大似然估計(jì)和最小二乘損失結(jié)合的方法輸出最佳匹配的系統(tǒng)及外部文本。
圖1 HDKG-QA整體設(shè)計(jì)
(4)KG構(gòu)建層:該層同樣使用LSTM提取上層匹配的外部文本中的實(shí)體/斷言向量,在圖數(shù)據(jù)庫(kù)中增強(qiáng)原有KG,新增KG的邊和點(diǎn)如圖1中KG構(gòu)建層中的紅色部分,構(gòu)建的整體KG作為下層的查詢數(shù)據(jù)庫(kù)。該層提供了一種KG與外部文本的整合方法,能夠在系統(tǒng)服務(wù)時(shí)實(shí)現(xiàn)KG的自動(dòng)更新,從而可以不斷提高KG的知識(shí)量及對(duì)應(yīng)表達(dá)能力。
(5)啟發(fā)查詢層:該層根據(jù)實(shí)體/斷言向量查詢KG構(gòu)建層更新后的全局KG,得到一個(gè)答案候選集,通過計(jì)數(shù)方法和余弦相似度2個(gè)啟發(fā)式規(guī)則進(jìn)行答案排序,以給客戶提供排序最高的答案,同時(shí)記錄本次回答的相關(guān)狀態(tài)信息。該層的啟發(fā)式規(guī)則分別考慮問題本身和KG整體情況,有更高概率提供知識(shí)能力內(nèi)的最優(yōu)答案。
(6)定期更新層:該層可以定期拉取并歸一化啟發(fā)查詢層中所有問題的狀態(tài)信息,將響應(yīng)時(shí)間和用戶滿意度在證書線性規(guī)劃(ILP)模型中進(jìn)行量化表示,達(dá)到以最小的KG更新成本來(lái)保障問題回答的較高滿意度。
根據(jù)上述六個(gè)核心層次的設(shè)計(jì),設(shè)計(jì)實(shí)驗(yàn)重點(diǎn)驗(yàn)證LSTM+增強(qiáng)語(yǔ)義的方法能夠有效提升問題答案的準(zhǔn)確度、召回率等指標(biāo);驗(yàn)證主題模型最大似然估計(jì)方法和最小二乘損失方法的集成使用能否準(zhǔn)確定位最佳匹配的外部文本;驗(yàn)證啟發(fā)式答案候選集排序規(guī)則能夠有效提升最佳答案的發(fā)現(xiàn)概率;驗(yàn)證定期更新策略能否減少KG的更新成本,同時(shí)保持一定的答案質(zhì)量。
為了克服電網(wǎng)客服問答系統(tǒng)中問題描述模糊性的問題,LSTM識(shí)別層(如圖1所示)充分利用簡(jiǎn)單問題中的語(yǔ)序和關(guān)鍵詞匯等文本信息,能夠避免傳統(tǒng)頭實(shí)體或斷言查找方法(語(yǔ)義分析,手工標(biāo)注等)在本場(chǎng)景下的低準(zhǔn)確度。通過如下所示的形式化語(yǔ)義來(lái)描述本文使用的LSTM模型。
input:a lstm model M and a question sqi
輸入數(shù)據(jù):一個(gè)中文表示的簡(jiǎn)單問題sqi(不需要復(fù)雜推理規(guī)則);
為了應(yīng)對(duì)電網(wǎng)領(lǐng)域的各類問題,LSTM主要使用雙向連接的循環(huán)網(wǎng)絡(luò)層(RNN-Layer)和一個(gè)注意力層(A-Layer)。這兩個(gè)層次的方法原理如下所示:
在LSTM識(shí)別層中首先進(jìn)行分詞操作,將一個(gè)長(zhǎng)度是L的問題作為輸入,本模型根據(jù)預(yù)定義好的分詞方法[8]及工具[9],將L個(gè)元素映射為輸入詞向量{xj},j=1,2,…,L,然后使用雙向LSTM學(xué)習(xí)前項(xiàng)隱狀態(tài)序列(h1,h2,…,hL)和后向隱狀態(tài)序列(h1,h2,…,hL),后向序的計(jì)算過程如式(1)~(5)所示:
其中,fj、ij、oj分別代表遺忘門、輸入門和輸出門激活向量;cj是單元狀態(tài)向量;σ是sigmoid函數(shù);tanh是雙切余弦函數(shù);ο代表Hadamard乘積;本模型連接前向和后向向量并最終得到:hj=[h0:j;hj:0]。
接著,本模型設(shè)置權(quán)重連接層層參數(shù),在詞向量{xj},j=1,2,…,L中,第jth個(gè)詞的注意力權(quán)重表示為αj,其計(jì)算過程如式(6)和(7)所示:
最后,本模型通過注意力權(quán)重αj,狀態(tài)序列hj和特定詞xj形成一個(gè)隱藏狀態(tài)sj=[xj;αjhj],權(quán)重連接層計(jì)算這個(gè)隱藏狀態(tài)sj得到針對(duì)第jth個(gè)次的輸出rj∈Rd×1,實(shí)體/斷言根據(jù)這個(gè)數(shù)據(jù)通過均值計(jì)算得到,如公式(8)所示:
權(quán)重向量ω,偏向值設(shè)置都是基于電網(wǎng)客服智能問答系統(tǒng)在實(shí)施階段人工標(biāo)注的訓(xùn)練問題和對(duì)應(yīng)答案,最后輸出兩個(gè)目標(biāo)向量,構(gòu)成LSTM的輸出。
為了克服電網(wǎng)客服問答系統(tǒng)用戶(企業(yè)、個(gè)體戶、家庭等)不同主題傾向的差異性需求,系統(tǒng)傾向分析層(如圖1所示)通過主題相似度的比較,可以選擇具有最大傾向性的系統(tǒng)并得到與斷言/實(shí)體相關(guān)的增強(qiáng)文本,通過LSTM模型識(shí)別實(shí)體斷言,可實(shí)現(xiàn)對(duì)全局KG的構(gòu)建,構(gòu)建后的結(jié)果如圖1中KG構(gòu)建層所示。預(yù)期增強(qiáng)手段能夠充分利用電網(wǎng)各個(gè)系統(tǒng)的外部知識(shí),提供在線方法動(dòng)態(tài)更新KG的知識(shí)庫(kù),為KG的長(zhǎng)期穩(wěn)定運(yùn)維提供支撐。系統(tǒng)傾向分析主要基于主題模型上的最大似然估計(jì)和最小二乘損失估計(jì),具體方法原理如下所示:
首先,主題模型(TM)作為一種典型的分析文本的概率方法,在HDKG-QA中使用針對(duì)兩類文本:一類是圖數(shù)據(jù)V,對(duì)應(yīng)構(gòu)建KG訓(xùn)練集的問題及答案;另外一類是以LSTM處理后的用戶提問作為查詢條件(系統(tǒng)已有的基礎(chǔ)查詢接口)的各系統(tǒng)查詢結(jié)果集合D,是無(wú)格式文本。選擇針對(duì)特定問題(斷言/實(shí)體對(duì))的最大匹配查詢結(jié)果即是增強(qiáng)文本。
然后,通過概率隱語(yǔ)義分析來(lái)刻畫主題分布,即PLSA[10]。在N篇文本構(gòu)成的查詢結(jié)果結(jié)合D中,每一個(gè)的文本di∈{d1,d2,…,dN}由多個(gè)未被觀測(cè)到的主題變量zk∈{z1,z2,…,zK}構(gòu)成,每個(gè)主題變量有多個(gè)不同的詞匯wj∈{w1,w2,…,wM}。文檔-詞匯聯(lián)合概率分布(d,w)如式(9)表示:
式中,P(wj|zk)表示一個(gè)單詞wj在一個(gè)主題zk中出現(xiàn)的概率,P(zk|di)表示一個(gè)主題zk在一個(gè)文檔di中出現(xiàn)的概率。隱主題模型的分布參數(shù)可以通過對(duì)文檔集合的最大似然估計(jì)計(jì)算,如式(10)所示:
L(D)的估計(jì)可以通過經(jīng)典EM算法[11]實(shí)現(xiàn)。但單一PLSA算法并沒有文檔集合屬于相似主題的約束,P(zk|di)也會(huì)隨著知識(shí)量的不斷膨脹而線性增長(zhǎng)。其他TM方法如LDA也沒有提供文檔之間語(yǔ)義關(guān)系的描述。接著,為了有效比較兩類文本的相似性,本文基于PLSA提出基于KG的主題相似度計(jì)算方法,一般來(lái)講,KG中的一個(gè)實(shí)體e∈V如果屬于一個(gè)特定問題及對(duì)應(yīng)答案的主題(4.2節(jié)的計(jì)算結(jié)果),它所連接的其他尾實(shí)體也有很大概率屬于同一主題,通過公式(11)來(lái)表達(dá)實(shí)體和主題之間的相似關(guān)系:
式(12)定義了KG和查詢結(jié)果集合的最小二乘損失,其中Dp?D,表達(dá)結(jié)果集中的一部分和KG的匹配程度;P(zk|eh)的計(jì)算過程與P(zk|di)類似,都可以使用EM算法;w(eh|et)代表在KG中一對(duì)頭尾實(shí)體相連的權(quán)重,其計(jì)算公式如式(12)所示:
式中,P(Wpredicate(eh,et))代表兩個(gè)實(shí)體通過特定語(yǔ)義關(guān)系相連的概率,兩個(gè)實(shí)體相連具有不同的路徑,例如電表可以通過嗡嗡響的狀態(tài)判斷是否合格,也可以根據(jù)質(zhì)量表現(xiàn)判斷是否合格。
最后,基于L(D)和Rv(G),可以寫成基于對(duì)數(shù)的最大似然估計(jì)形式,選擇最大傾向結(jié)果集構(gòu)建本地KG,如式(13)所示:
式中通過λ作為偏向參數(shù)平衡主題模型和最小二乘損失,如果λ=0,最小化就等同于最大可能性主題對(duì)應(yīng)的結(jié)果集,反之如果λ=1,最小化最小化等于選擇和現(xiàn)有KG中實(shí)體/斷言對(duì)應(yīng)主題分布最相近的結(jié)果集,通過設(shè)置恰當(dāng)?shù)摩酥担ɡ纾?.5),可以充分利用外部文本和KG的兩類語(yǔ)義知識(shí)。最終形成如圖1所示KG構(gòu)建層中的、面向特定主題的整體KG知識(shí)庫(kù),作為答案的檢索范圍。主題比較需要通過接口適配的方式實(shí)現(xiàn)問答系統(tǒng)和現(xiàn)有系統(tǒng)的兼容,達(dá)到“高內(nèi)聚低耦合”的設(shè)計(jì)目標(biāo)。
為了有效查詢?nèi)諯G,避免低效圖搜索算法帶來(lái)的非最優(yōu)答案,啟發(fā)查詢層(如圖1所示)的啟發(fā)式規(guī)則在候選集排序過程中引入相應(yīng)規(guī)則,根據(jù)問題和全局KG狀態(tài)從候選集中選最優(yōu)結(jié)果作為答案,本節(jié)設(shè)計(jì)的規(guī)則不改變檢索算法,只作為排序的依據(jù)。
首先,通過經(jīng)典例子證明啟發(fā)式規(guī)則對(duì)結(jié)果的影響。以圖1中的問題為例,和“嗡嗡響”關(guān)聯(lián)的候選集主要有以下幾個(gè):{1.松動(dòng),替換線圈;2.孔大,調(diào)整軸承;3.如果距離大于1 m,且屬于供電局,通知電力公司;……}。通過候選集的各個(gè)語(yǔ)義信息和本地KG與全局KG的關(guān)系,發(fā)現(xiàn)答案3更符合問題意圖,且其文本內(nèi)容較為豐富,因此放在候選集的首位。
然后,給出兩條規(guī)則的具體定義。啟發(fā)規(guī)則的設(shè)置需要符合問題本身和全局KG的狀態(tài),據(jù)此設(shè)置啟發(fā)規(guī)則,如下所示:
(1)候選答案歷史計(jì)數(shù):通過統(tǒng)計(jì)歷史系統(tǒng)的問題及答案,電網(wǎng)客服的問題呈現(xiàn)出相對(duì)聚集的特征,針對(duì)“設(shè)備異?!?、“緊急服務(wù)”、“簡(jiǎn)單自查”等常規(guī)問題較多,答案也相近。通過記錄每個(gè)KG查詢結(jié)果被做成最優(yōu)答案的次數(shù)和文本的豐富程度,就可以作為一個(gè)重要的候選排序指標(biāo)。
(2)文本相似度:在一個(gè)問題的提出與回答上下文,涉及到問題本身Qi、增強(qiáng)語(yǔ)義的查詢結(jié)果Aj和每個(gè)候選答案Ck三個(gè)文本,最優(yōu)答案往往和問題及增強(qiáng)語(yǔ)義具有一定的相似性,通過將三類文本中的每個(gè)詞匯同樣映射為4.2節(jié)中的詞向量{xj},j=1,2,…,L,分別計(jì)算候選答案Ck和其他兩類文本的向量余弦相似度,因此,選擇和兩類文本相似度之和作為另外一個(gè)排序指標(biāo)。
上述兩個(gè)啟發(fā)查詢規(guī)則作為初始階段的默認(rèn)規(guī)則,其實(shí)現(xiàn)采用熱插拔的方式,能夠調(diào)整規(guī)則閾值、新增刪除規(guī)則等操作。
為了以較低的KG更新成本保障答案的準(zhǔn)確性,定期更新層(如圖1所示)使用ILP求解結(jié)果定期合并外部知識(shí),以支撐全局KG的不斷擴(kuò)展和其質(zhì)量的不斷提升。ILP模型將用戶滿意度和相應(yīng)時(shí)間依次進(jìn)行量化和歸一化,求解出每一個(gè)問題對(duì)應(yīng)的KG是否更新,即可平衡KG成本和服務(wù)質(zhì)量。ILP模型的描述如下所示。
首先,設(shè)置一組更新選擇操作,如集合(14)所示:
需要maximize如式(15)所示的目標(biāo)函數(shù):
其中,KGL代表一段時(shí)間內(nèi)每個(gè)問題本地KG的集合。
uDi代表更新結(jié)果,是一個(gè)簡(jiǎn)單的符號(hào)函數(shù),如果更新對(duì)應(yīng)的KGi就設(shè)置為1,否則置為0。
uSi?[0,100]?uSi?Z+表示用戶打分,在系統(tǒng)內(nèi)測(cè)階段鼓勵(lì)用戶實(shí)際打分。
tlstm、taugment、tquery分別代表在LSTM、增強(qiáng)語(yǔ)義和啟發(fā)查詢階段的處理時(shí)間,通過時(shí)間來(lái)衡量存儲(chǔ)維護(hù)成本。
M代表時(shí)間縮小系數(shù),N代表放大系數(shù),在不同系統(tǒng)配置下需要調(diào)整。
然后通過設(shè)置上述優(yōu)化目標(biāo)和約束條件,尋找符合最大化用戶滿意度和最小化維護(hù)成本的更新選擇。實(shí)際優(yōu)化效果取決于兩個(gè)縮放系數(shù)和不同時(shí)間QA系統(tǒng)累積的KGL數(shù)量。定期更新策略采用單獨(dú)運(yùn)行的實(shí)現(xiàn)方式,不與用戶的線上問答發(fā)生干擾。
根據(jù)上述的LSTM模型,語(yǔ)義增強(qiáng)方法、啟發(fā)式規(guī)則以及ILP模型,形成本系統(tǒng)的核心問題回答算法,具體如算法1所示。
在算法1中,首先進(jìn)行LSTM訓(xùn)練過程,針對(duì)每個(gè)問題的實(shí)體進(jìn)行識(shí)別訓(xùn)練以最小化實(shí)體識(shí)別損失(第1~6行);針對(duì)每個(gè)問題的斷言進(jìn)行識(shí)別訓(xùn)練以最小化斷言識(shí)別損失(第7~12行);然后根據(jù)訓(xùn)練后的LSTM模型和輸入問題輸出實(shí)體和斷言(第14行);根據(jù)LSTM輸出進(jìn)行遺留系統(tǒng)進(jìn)行查詢,得到各個(gè)系統(tǒng)的增強(qiáng)型文本(第15行);根據(jù)主題模型和二乘損失計(jì)算最大相似文本,并構(gòu)建本地KG(第16~19行);使用啟發(fā)式規(guī)則排序答案候選集,并將答案反饋給客戶(第20~25行);定期執(zhí)行全局KG的更新(第26~37行);在此過程中,遍歷周期內(nèi)的所有問題并初始化ILP輸入(第28~32行);最后執(zhí)行ILP求解并根據(jù)結(jié)果合并部分本地KG(第33、34行)。
算法1 HDKG-QA核心算法
輸入:Gj,實(shí)體和斷言的集合:P,E,標(biāo)注用戶提問的新的簡(jiǎn)單問題集合Q。
輸出:簡(jiǎn)單問題Q目標(biāo)實(shí)體h*和斷言?*
/*LSTM訓(xùn)練過程*/
1.for Qiin Q do
2. L=splitWords(Qi)
3. setInputs(L tokens in Qi,? of Qi)
5. update({W},w,,bq)
6.end for
7.for Qiin Q do
8.L=splitWords(Qi)
9. setInputs(L tokens in Qi,h of Qi)
11. update(matrics,bias)
12.end for
/*問題回答過程*/
13.In predicate learning model,input(Qt)→
14.In head entity learning model,input(Qt)→
16.for textiin {texti}
18.end for
20.for Ciin {candidiatei}
21.setCounts(candidatei)
22.setCosSimilarity(Qi,Aj,Ci)
23.end for
24.quickSort({candidiatei},{similarityi},{countsi})
25.return compact(C0)
/*基于ILP的全局更新過程*/
26.for pointiin periods do
27.if pointi%interval==0 do
28. for QAiin QAgdo
29. setTime(QAi.timeSet)
30. setUs(QAi.uS)
31. ILPInput(QAi)
32. end for
33. ILPResolver({QAi))
34. Update({QAi},uDi==1)
35.end if
36.increment(pointi)
37.end for
本章給出HDKG-QA框架關(guān)鍵的實(shí)驗(yàn)驗(yàn)證環(huán)境及結(jié)果,包括企業(yè)數(shù)據(jù)集、度量指標(biāo)和基準(zhǔn)測(cè)試方法,最后給出性能表現(xiàn)的原因分析。本章實(shí)驗(yàn)設(shè)計(jì)重點(diǎn)回答以下三個(gè)問題:
(1)相較于單一使用LSTM模型來(lái)獲取頭實(shí)體/斷言的方法,使用語(yǔ)義增強(qiáng)方法能否有效提升問題回答的準(zhǔn)確率,召回率和F1指標(biāo)。
(2)以及相較于單個(gè)規(guī)則,使用多個(gè)啟發(fā)式組合能夠帶來(lái)多少問題回答指標(biāo)的提升。
(3)ILP方法相較于全量更新策略,能否更好地平衡用戶滿意度和響應(yīng)時(shí)間。
首先,本文通過對(duì)遺留系統(tǒng)的信息提取,綜合使用SQL查詢、適配API等方法,集中收集國(guó)網(wǎng)重慶市電力公司信息通信分公司的2018年1月~12月的真實(shí)業(yè)務(wù)數(shù)據(jù),人工標(biāo)注、篩選、過濾文本并構(gòu)建KG,訓(xùn)練LSTM。數(shù)據(jù)集信息如表1所示。
表1 智能電網(wǎng)KG數(shù)據(jù)集
然后需要定義具體的評(píng)價(jià)指標(biāo),傳統(tǒng)準(zhǔn)確率、召回率和F1只針對(duì)二分問題統(tǒng)計(jì)數(shù)量,或者通過定義實(shí)體數(shù)量匹配度情況定義,本文進(jìn)行擴(kuò)展,同時(shí)考慮實(shí)體和斷言的匹配度,三個(gè)指標(biāo)如公式(16)所示:
參數(shù)設(shè)置:LSTM激活函數(shù)如4.1節(jié)所示選用ReLU函數(shù),利用正則化對(duì)關(guān)系共享權(quán)重參數(shù)進(jìn)行約束,懲罰值設(shè)為0.2×10-5,設(shè)置注意力層的dropout rate為0.3,權(quán)重連接層的為0.4,在訓(xùn)練集上對(duì)超參數(shù)就行優(yōu)化;4.3節(jié)中的偏向參數(shù)分別設(shè)置為(0,0.25,0.5,0.75,1.0)五種情況(通過LSTM+偏向參數(shù)表示)。實(shí)驗(yàn)對(duì)比了五種情況下各種指標(biāo)的平均值。
實(shí)驗(yàn)結(jié)果:按照上述設(shè)置對(duì)比LSTM模型(在測(cè)試集訓(xùn)練完畢后),通過定義相關(guān)系統(tǒng)根據(jù)實(shí)體和斷言的查詢接口,選擇最近的五條查詢結(jié)果中的文本作為增強(qiáng)語(yǔ)義,在不同偏向參數(shù)設(shè)置對(duì)實(shí)體斷言精確度、召回率和準(zhǔn)確度的影響,在驗(yàn)證集上進(jìn)行實(shí)驗(yàn),其對(duì)比結(jié)果如表2所示。
表2 語(yǔ)義增強(qiáng)效果
結(jié)果分析:由表2的結(jié)果可得,對(duì)同一個(gè)數(shù)據(jù)集和LSTM模型,基于主題建模和最小二乘損失的外部語(yǔ)義增強(qiáng)方法能夠提升LSTM的性能,最好能提升17%的精確度,15%的召回率和6.6%的F1,同時(shí)不同偏向參數(shù)的設(shè)置對(duì)結(jié)果也有3%左右的影響,說(shuō)明遺留系統(tǒng)的主題模型并不能完全刻畫相關(guān)問題及答案,外部語(yǔ)義選擇兩個(gè)相似度維度也能夠客服單一主題模型的不足。
參數(shù)設(shè)置:第一種計(jì)數(shù)方法記為count,第二種相似度方法記為cos,隨機(jī)排序的結(jié)果(將檢索到符合規(guī)則的第一個(gè)結(jié)果返回)記為random,對(duì)測(cè)試集上相關(guān)實(shí)體斷言、本地KG的查詢結(jié)果按照上述三種規(guī)則進(jìn)行排序,分別測(cè)試實(shí)際效果。
實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)比較了單個(gè)啟發(fā)式策略和多個(gè)策略對(duì)排序結(jié)果的影響,通過輸出答案和標(biāo)準(zhǔn)答案中的實(shí)體斷言分布情況考察提升效果,實(shí)驗(yàn)結(jié)果如表3所示。
表3 啟發(fā)式規(guī)則增強(qiáng)效果
結(jié)果分析:兩個(gè)啟發(fā)式規(guī)則的聯(lián)合使用能得到比單一規(guī)則更好的效果,基于規(guī)則的排序相較于隨機(jī)選擇方法其準(zhǔn)確度,召回率和F1分別有8%、3%和2%的提升,實(shí)驗(yàn)結(jié)果表明通過啟發(fā)式規(guī)則,能在LSTM和增強(qiáng)型語(yǔ)義準(zhǔn)確識(shí)別實(shí)體、斷言的基礎(chǔ)上進(jìn)一步提升表現(xiàn)。
參數(shù)設(shè)置:根據(jù)本系統(tǒng)配置將式(15)中的參數(shù)設(shè)置為:M=100,N=10,將準(zhǔn)確度放大10倍作為模擬的用戶打分,隨機(jī)選取訓(xùn)練集50%的數(shù)據(jù)模擬一周內(nèi)的用戶提問,再隨機(jī)選取50%模擬第二周的用戶提問。
實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)比較了全量更新策略和ILP策略在上述兩周的平均問題準(zhǔn)確度和平均回答時(shí)間(ms)兩個(gè)維度的變化,結(jié)果如表4所示。
表4 語(yǔ)義增強(qiáng)效果
結(jié)果分析:由表4的結(jié)果可得,在第一周兩種方法的模型一致,因此平均準(zhǔn)確度和回答時(shí)間保持一致;但在采用不同的更新策略之后,雖然ILP方法帶來(lái)準(zhǔn)確度的微量下降(0.1%),但平均問題回答時(shí)間相交全量提升了9%,說(shuō)明答案檢索的空間相對(duì)集中,能夠以更低的成本保障服務(wù)質(zhì)量。
當(dāng)前基于知識(shí)圖譜的問答系統(tǒng)相關(guān)技術(shù)研究,在智能電網(wǎng)信息通信領(lǐng)域落地并進(jìn)行企業(yè)級(jí)實(shí)現(xiàn)時(shí),仍存在諸多問題。本章從KG的理論、策略和算法研究,以及國(guó)內(nèi)電力行業(yè)關(guān)于知識(shí)圖譜和問答系統(tǒng)的應(yīng)用、改造與實(shí)踐等兩個(gè)方面展開討論,分析領(lǐng)域特征約束下智能電網(wǎng)問答系統(tǒng)面臨的主要問題。
基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義信息挖掘:針對(duì)在QA-KG中斷言的自然語(yǔ)言表達(dá)方式具有多樣性的挑戰(zhàn)[3],KEQA[12]提出了一種基于LSTM語(yǔ)義感知的頭實(shí)體和斷言的發(fā)現(xiàn)方法和基于聯(lián)合距離度量的答案候選集度量方法,以解決表達(dá)語(yǔ)義含糊的問題。針對(duì)交互式問答系統(tǒng)的語(yǔ)義上下文信息不完整的挑戰(zhàn),CAN[13]基于GRU模型為問題、輸入和答案三個(gè)關(guān)鍵組件構(gòu)造深層升級(jí)網(wǎng)絡(luò),以感知上下文交互信息。這些方法雖然能夠提升問答系統(tǒng)的準(zhǔn)確度指標(biāo),但由于模型訓(xùn)練依賴于有限數(shù)據(jù)集,缺少模型和KG在線更新方法,單一模型難以在業(yè)務(wù)需求頻繁變化的智能電網(wǎng)客服問答場(chǎng)景下直接使用。
基于KG外知識(shí)庫(kù)的語(yǔ)義增強(qiáng):為了應(yīng)對(duì)有限KG知識(shí)不足的挑戰(zhàn),相關(guān)研究通過引入外部文本知識(shí)來(lái)增強(qiáng)上下文語(yǔ)義,從而提高查詢結(jié)果的準(zhǔn)確性,特別是通過實(shí)體和斷言的增強(qiáng)來(lái)回答KG中未包含知識(shí)的問題。FreeBase[4]通過網(wǎng)頁(yè)檢索結(jié)果與KG互聯(lián)實(shí)現(xiàn)預(yù)期增強(qiáng);Text2KB[7]將網(wǎng)頁(yè)搜索、社區(qū)問答和普通文本作為外知識(shí)庫(kù);DB-pedia[14]使用背景知識(shí)庫(kù),基于主題建模實(shí)現(xiàn)跨知識(shí)庫(kù)檢索。以上方法能夠在一定程度上緩解KG知識(shí)量匱乏的問題,但外部知識(shí)庫(kù)由于可靠性差、答案正確性波動(dòng)大,且引入額外開銷較多,導(dǎo)致只能在開放環(huán)境下使用,不能滿足智能電網(wǎng)客服問答對(duì)準(zhǔn)確性和可靠性的需求。
面向復(fù)雜問題回答的定制化KG模型:有效回答復(fù)雜問題往往涉及到多個(gè)實(shí)體和斷言的分析以及較長(zhǎng)的檢索鏈,使用簡(jiǎn)單問題檢索的方法回答不能得到較高滿意度。QUINT[15]自動(dòng)生成問題模板,用于刻畫KG中問題和答案的映射關(guān)系;CKB[4]通過定義關(guān)鍵要素形成對(duì)話模型,引導(dǎo)用戶補(bǔ)全語(yǔ)義信息以得到精確回答;TAQA[5]提出N元組斷言模型來(lái)應(yīng)對(duì)復(fù)雜問題中形容詞、動(dòng)詞、介詞等引入的復(fù)雜語(yǔ)義約束。復(fù)雜問題回答系統(tǒng)成本較高,且需要對(duì)應(yīng)用場(chǎng)景進(jìn)行深度定制,在智能電網(wǎng)客服問答系統(tǒng)應(yīng)用初期難以達(dá)到人工服務(wù)的效費(fèi)比。
面向特定場(chǎng)景的KG-QA:不同于神經(jīng)網(wǎng)絡(luò)、外部知識(shí)庫(kù)等通用問答系統(tǒng)中的通用關(guān)鍵技術(shù),seq2seq[16]架構(gòu)面向簡(jiǎn)單問題大數(shù)據(jù)集,基于KG和問題的交疊方法進(jìn)行二者的連接,復(fù)制和切分;TEQUILA[17]面向時(shí)間敏感的復(fù)雜問題,提出KG模型檢測(cè)和轉(zhuǎn)換方法以消除時(shí)間隱含約束。智能電網(wǎng)客服問答系統(tǒng)根據(jù)電網(wǎng)客服特征抽取啟發(fā)式規(guī)則,以輔助優(yōu)化KG-QA。
基于知識(shí)圖譜的電力行業(yè)應(yīng)用:國(guó)內(nèi)知識(shí)圖譜、問答系統(tǒng)及行業(yè)應(yīng)用的代表性工作如文獻(xiàn)[18-22],主要研究基于WSDL語(yǔ)言的KG構(gòu)建方法、大數(shù)據(jù)計(jì)算與存儲(chǔ)框架的關(guān)鍵實(shí)施技術(shù)和領(lǐng)域特征不明顯的優(yōu)化技術(shù)。這些應(yīng)用沒有充分利用電網(wǎng)領(lǐng)域的深層特征,不能有效集成遺留系統(tǒng),其運(yùn)行成本較高,工作價(jià)值和運(yùn)行效益不突出。
本文提出了HDKG-QA,一種融合領(lǐng)域知識(shí)的知識(shí)圖譜智能電網(wǎng)問答系統(tǒng),使用基于LSTM的注意力模型克服電力問題表達(dá)的模糊性,使用基于主題比較的增強(qiáng)語(yǔ)義方法構(gòu)建本地KG,擴(kuò)展全局KG的知識(shí)量,利用電網(wǎng)各類遺留系統(tǒng)的知識(shí),使用啟發(fā)方法進(jìn)一步提升答案質(zhì)量;同時(shí)針對(duì)KG在智能電網(wǎng)生產(chǎn)環(huán)境下的動(dòng)態(tài)更新問題,提出ILP更新策略兼顧更新成本和服務(wù)質(zhì)量。