• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于道路法規(guī)知識圖譜的多輪自動問答研究

      2020-08-19 12:59:27陳金菊王義真歐石燕
      現(xiàn)代情報 2020年8期
      關鍵詞:自然語言處理知識圖譜本體

      陳金菊 王義真 歐石燕

      摘 要:[目的/意義]傳統(tǒng)的基于知識圖譜的自動問答研究主要是針對用戶提問直接檢索答案,但由于系統(tǒng)對用戶問題的理解存在歧義,導致得到的答案不夠精確。采用基于知識圖譜的多輪自動問答可以有效地改善這一問題。[方法/過程]本文首先構建了以事件為中心的道路法規(guī)本體模型,依據(jù)該模型從道路法規(guī)中抽取實例圖譜,并設計出基于道路法規(guī)知識圖譜的問答框架。然后,對該框架所使用到的模型進行測評。最后,進行系統(tǒng)的總體測評。[結果/結論]從模塊測評結果來看,本文所提出BCNN_BiLSM模型在事件識別和意圖識別的F1值分別是0.798和0.930,BBiLSTM_CRF模型在本體屬性識別F1值為0.807,總體性能優(yōu)于其他模型。系統(tǒng)的總體測評結果表明,完整句的準確率為0.74,缺省句的任務完成率為0.83。本文提出的基于道路法規(guī)知識圖譜的多輪自動問答可為相關領域自動問答研究提供參考。

      關鍵詞:知識圖譜;本體;多輪自動問答;自然語言處理;道路法規(guī)

      Abstract:[Purpose/Significance]The traditional researches on knowledge-based automatic question answering aim to retrieve answers for user questions directly.However,due to the ambiguity of the systems understanding of the questions proposed by users,the answers obtained are not accurate enough.The use of multiple-round of automatic question answering based on knowledge graph can effectively improve this situation.[Method/Process]This paper firstly constructed an event-centered road regulation ontology model,based on which the sample graphs are extracted from the road regulations.And a question answering framework based on the knowledge graph of road regulations is designed.Then the model used in the framework was evaluated.Finally,an overall evaluation of the system was carried out.[Result/Conclusion]From the results of the module evaluation,the F1 values of the event identification and intent recognition of the BCNN_BiLSM model in this paper were 0.798 and 0.930 respectively,and the F1 value of the ontology attribute identification of the BBiLSTM_CRF model in this paper was 0.807,and the overall performance was better than other models.The overall evaluation results of the system showed that the accuracy of the complete sentence was 0.74,and the task completion rate of the default sentence was 0.83.The multi-round automatic question answering based on the knowledge graph of road regulations proposed in this paper can provide reference for the automatic question answering studies in related fields.

      Key words:knowledge graph;ontology;multi-round automatic question answering;natural language processing;road regulations

      近年來,道路交通事故頻發(fā)。面對交通事故,人們需要及時了解和獲取相關的法律處理方式及可能承擔的法律后果,這往往需要參考大量的道路法律法規(guī)及其相關文獻等。這些道路法規(guī)信息大多以非結構化的形式存儲在不同的數(shù)據(jù)庫和網(wǎng)絡平臺上。目前,人們獲取道路法規(guī)信息的主要途徑有搜索引擎(如百度、谷歌等)、專門的法律法規(guī)數(shù)據(jù)庫(如中華人民共和國司法部的法律法規(guī)數(shù)據(jù)庫[1]和中國法律法規(guī)信息庫[2]和專業(yè)的社會化網(wǎng)絡問答社區(qū)(如110法律咨詢中心[3]和華律網(wǎng)[4]等。但由于這些方式是基于字符串進行檢索,不能精確地理解用戶的查詢意圖,導致查準率比較低。因此,如何從海量的道路法規(guī)信息中快速有效地獲取符合用戶需求的高質(zhì)量信息已成為一個亟待解決的問題。自動問答系統(tǒng)允許用戶以自然語言進行提問,精確地表達自己的信息需求,為用戶精確地獲取道路法規(guī)信息提供了一種有效的解決途徑。自動問答系統(tǒng)主要分為兩類:基于文本(Text-based)的自動問答和基于知識(Knowledge-based)的自動問答。前者是將用戶的自然語言提問轉(zhuǎn)換成查詢詞,然后利用文本檢索技術從文本庫中檢索到相關文檔,再從文檔中提取出精確的答案,由于這種自動問答方法需要較高的自然語言處理技術作為支撐,因此無法支持復雜的查詢。而后者則是將自然語言提問轉(zhuǎn)換為結構化查詢語言,再從結構化的知識庫中直接獲取答案,因此能夠支持復雜的查詢。隨著人工智能和知識圖譜技術的發(fā)展,基于知識圖譜的自動問答逐漸成為基于知識庫的自動問答的研究主流。傳統(tǒng)的基于知識圖譜的自動問答研究主要是針對用戶提問直接檢索答案,但由于缺乏問答系統(tǒng)與用戶之間的交互,使得系統(tǒng)對用戶問題的理解存在歧義,導致得到的答案不夠精確。因此,基于知識圖譜的多輪自動問答逐漸成為一種趨勢,通過系統(tǒng)與用戶的進一步交互來精確地理解用戶的查詢意圖,有效地提高了查準率。目前,基于知識圖譜的自動問答在道路法規(guī)領域仍處于起步階段。因此,本文首先構建了以事件為中心的道路法規(guī)本體模型,依據(jù)該模型從道路法規(guī)中抽取實例圖譜。在此基礎上,設計出基于道路法規(guī)知識圖譜的問答框架,并對該框架所使用到的模型進行測評。最后,對所構建的基于道路法規(guī)知識圖譜的多輪自動問答系統(tǒng)進行總體測評。

      目前,已出現(xiàn)一些道路交通事件本體的相關研究和項目,譬如W3C的交通事件本體社區(qū)小組(Traffic Event Ontology Community Group)開發(fā)了一個用于表示道路或交通事件(事故)的本體項目,但目前該項目仍在建設中,無法獲取相關本體[18];劉吉雙構建了一個以行為、條件、交通事件、位置、對象、人員、處罰、交通設施和車輛為核心要素的道路交通事件本體[19],Marupudi S B構建了一個以事件、地點、時間等要素為核心的交通事件本體[20],于云構建了以車輛、道路、人、道路景觀為核心的交通領域本體[21]。這些本體都對道路交通事件的某些方面進行了描述,部分要素(如事件、時間、地點、人、車輛和處罰等)的設計可為本文的本體設計提供一定的參考,但是并不能完全滿足本文的需求,一方面它們的內(nèi)容不全面;另一方面也未能反映道路交通事件及其相關事件要素之間的語義關系。因此,本文在參考相關研究的基礎上,根據(jù)道路法規(guī)的特點,以簡單事件模型(Simple Event Model,SEM)為基本框架,通過對SEM內(nèi)容的豐富或擴展來構建道路法規(guī)本體。SEM本體由荷蘭阿姆斯特丹自由大學語義網(wǎng)小組的Hage W V等設計開發(fā),用于對不同學科領域的事件進行建模[22]。SEM本體較全面地描述了一個事件的基本要素,以事件(Event)為核心,事件涉及的相關要素有事件的類型(Type)、參與者(Actor)、發(fā)生地點(Place)、發(fā)生時間(Time),其中參與者在事件中可能扮演不同的角色(Role)。該本體還對其定義的主要類的具體類型進行區(qū)分,例如事件的具體類型(sem:EventType)有會議、音樂會、突發(fā)事件等。在我們的研究中,我們復用了SEM本體的基本要素,對于SEM本體無法描述的實體和關系,一方面復用了Event、FOAF、TIME和GEONAMES等通用本體的類和屬性;另一方面構建了一些新的類和屬性。最終得到的道路法規(guī)本體如圖1所示(命名空間為“rore”)。

      道路法規(guī)本體以道路交通事件(sem:Event)為核心,本文根據(jù)道路交通事件所導致的后果的嚴重程度,將交通事件分為兩類:一般交通事件(rore:GeneralTrafficIncident)和交通事故(rore:TrafficAccident),前者是指車輛在道路上因過錯或者意外導致的、未造成人身傷亡的事件,后者則是指車輛在道路上因過錯或者意外造成人身傷亡或者財產(chǎn)損失的事件。這些事件之間可能存在的關系有從屬關系(sem:subEventOf)、因果關系(rore:result)和時序關系(rore:next)。從屬關系是指交通事件之間的整體與部分關系,因果關系是指某一交通事件的發(fā)生導致了另一交通事件的發(fā)生,時序關系是指交通事件在時間上的先后發(fā)生關系。交通事件具有(sem:hasActor)參與者(sem:Actor)、發(fā)生時間(sem:Time)和發(fā)生地點(sem:Place)3個基本要素。參與者是指事件涉及的主體,主要包含人(foaf:Person)、機構(foaf:Organization)和物體(sem:Object)3個子類。其中,人主要指交通事件的當事人(rore:Party),主要包括肇事者(rore:Perpetrator)和受害者(rore:Victim)兩類。交通事件涉及的物體主要指當事車輛(rore:Vehicle)。本文參考《中華人民共和國道路交通安全法》,將車輛類型分為機動車(rore:MotorVehicle)和非機動車(rore:NonMotorVehicle)[23]。事件的參與者有主動參與和被動參與兩種情況,因此本文在“hasActor”屬性下設置兩個區(qū)分主動和被動參與者的屬性:“hasActiveActor”和“hasPassiveActor”。人或機構可能通過某一動作作用于(rore:hasAction)物體,同時人可能是某個機構的成員(org:memberOf)。事件具有(sem:hasTime)的發(fā)生時間可以復用時間本體TIME[24]的時間實體類(time:TemporalEntity),以及“time:Instant”和“time:Interval”兩個子類對時間點和時間段進行區(qū)分。事件具有(sem:hasPlace)的發(fā)生地點(sem:Place)可以復用地理信息本體GEONAMES的地理特征點類(gn:Feature)進行識別[25]。

      道路交通事件發(fā)生后,可能會造成人和物的損失,前者涉及(rore:involve)當事人狀態(tài)(rore:PersonStatus)和通過鑒定(rore:identify)得到的傷情(rore:hasInjuryState),后者包括損壞(rore:hasDamage)的財產(chǎn)損失情況(rore:DamageState)。當事人狀態(tài)主要包含醫(yī)學鑒定結果(rore:MedicalIdentificationResult),而傷情除了包含醫(yī)學鑒定結果外,還包含傷殘鑒定結果(rore:DisabledAppraisalResult)和傷情鑒定結果(rore:InjuryIdentificationResult)。財產(chǎn)損失情況通常有不同的損壞對象(rore:hasObject),根據(jù)損壞對象不同,可以將損失情況分為車輛損失(rore:VehicleDamage)和貨物損失(rore:CargoDamage)兩類。根據(jù)人的傷害情況和物的損失情況,交警或法院會對涉事當事人進行判責(rore:judge),判責結果(rore:JudgementResult)主要包括主要責任、次要責任、全部責任和無責任。根據(jù)判責結果,交警或法院會對涉事當事人進行處罰(rore:punish),處罰結果(rore:PunishmentResult)主要分為行政處罰(rore:AdministrativePunishment)、刑事處罰(rore:CriminalPunishment)和民事處罰(rore:CivilPunishment)。當事人狀態(tài)、傷情、財產(chǎn)損失情況、判責結果和處罰結果都有接受對象(sem:isActorOf),通過該屬性的3個子屬性“rore:isPersonOf”“rore:isOrganizationOf”和“rore:isObjectOf”分別與人、機構和物體3類不同的接受對象進行關聯(lián)。

      上述類包含的主要術語如表1所示。

      根據(jù)上述構建的道路法規(guī)本體,本文以《中華人民共和國道路交通安全法》為例,選取第九十一條規(guī)定的部分內(nèi)容進行語義描述,該內(nèi)容片段為“飲酒后駕駛機動車的,處暫扣六個月機動車駕駛證,并處一千元以上二千元以下罰款。因飲酒后駕駛機動車被處罰,再次飲酒后駕駛機動車的,處十日以下拘留,并處一千元以上二千元以下罰款,吊銷機動車駕駛證?!盵23]。該規(guī)定主要涉及2個“酒駕”事件,事件涉及的物體主要有“駕駛證”,酒駕事件導致的行政處罰結果有“暫扣機動車駕駛證”“吊銷機動車駕駛證”“拘留”和“罰款”,其中暫扣機動車駕駛證時間為6個月,拘留天數(shù)為10天以下,罰款數(shù)額均為1 000元以上2 000元以下。該法規(guī)的語義描述結果如圖2所示。

      基于上述設計的本體,以HTML格式的道路交通法規(guī)相關文本作為數(shù)據(jù)源,構建道路法規(guī)知識圖譜。本研究將知識提取的任務劃分為實體提取、關系提取、屬性和屬性值提取,并將抽取到的知識用三元組的形式表示:1)實體—關系—實體(Ehead,R,Etail),R是實體Ehead和實體Etail之間的關系,如:駕駛人—駕駛—機動車;2)實體—屬性—屬性值(Entity-Attribute-Value),屬性是描述實體的數(shù)據(jù),如“機動車—定義—以動力裝置驅(qū)動或者牽引,上道路行駛的供人員乘用或者用于運送物品以及進行工程專項作業(yè)的輪式車輛”,屬性值有數(shù)據(jù)類型的約束,常用的數(shù)據(jù)類型有:文本型、數(shù)字型、邏輯型、枚舉型等。

      3 問答框架

      道路法規(guī)知識圖譜實現(xiàn)了道路法規(guī)各類知識的關聯(lián)和整合,以專業(yè)化、結構化的方式對知識進行語義表示,是一種高效管理和利用知識的方式。在此基礎上,基于構建的知識圖譜提出了一種面向知識庫的多輪自動問答方法。與常見的聊天機器人(如圖靈、微軟小冰)不同,聊天機器人主要是無特定目的的對話,本文所構建的問答系統(tǒng)更偏向于目標驅(qū)動的特定信息獲取,它是一種具有極強的針對性和準確性的問答系統(tǒng)。問答系統(tǒng)的準確性一方面取決于知識庫中所蘊含的知識的深度和廣度;另一方面取決于系統(tǒng)對用戶自然語言理解提問的理解程度。因此,多輪問答通過系統(tǒng)向用戶進行多次追問的方式填充用戶初始提問中缺失的語義信息,從而幫助系統(tǒng)更好地理解用戶的查詢意圖,提高問答系統(tǒng)的準確率。本研究構建的基于知識圖譜的多輪自動問答系統(tǒng)框架如圖3所示,該系統(tǒng)框架主要包含3個部分:問題理解(Question Understanding,QU)、知識圖譜查詢(Knowledge Graph Matcher,KGM)和問答生成(Asking & Answering Generator,AAG)。問題理解模塊的功能是對用戶輸入的自然語言提問進行分詞、詞性標注等預處理,對其中涉及的交通事件、意圖、屬性和屬性值進行識別,將用戶輸入的自然語言提問轉(zhuǎn)化成結構化的語義表示。知識圖譜查詢模塊的功能是將問題的語義轉(zhuǎn)換成結構化的查詢,從道路法規(guī)知識圖譜中查詢匹配的相關信息。查詢到的結果可能是直接的答案或缺失的信息,如果是答案則可以直接返回,如果是缺失的信息,問答系統(tǒng)會生成一個追問。

      3.1 問題理解

      問題理解是采用自然語言理解技術將用戶輸入的非結構化的提問轉(zhuǎn)換成結構化的語義表示,包含預處理、本體類識別(包括事件識別和意圖識別)、本體屬性識別,本質(zhì)是采用道路法規(guī)本體中的類和屬性對用戶的自然語言提問進行語義標注。

      1)預處理是消除原始的文本噪聲的重要手段。利用分詞工具對輸入文本進行一系列預處理,包括中文分詞、詞性標注、日期類處理、數(shù)值類處理等。其中,日期類處理是將帶有日期指示詞的詞語轉(zhuǎn)換成相應的時間格式,例如“今天”是當時的系統(tǒng)時間,如“2019-05-05”。在數(shù)值處理時,需要對數(shù)值單位進行自動補全和數(shù)值格式的轉(zhuǎn)換。數(shù)值單位補全是指自動補全用戶提問中缺省的單位,如“當事人的血液酒精含量是80”,經(jīng)過數(shù)值處理之后,標準的輸出為“80mg/100ml”;數(shù)值格式轉(zhuǎn)換是指結合一些轉(zhuǎn)換規(guī)則,將不同類型的數(shù)值表達轉(zhuǎn)換成統(tǒng)一的數(shù)值格式,如將“20%”“百分之二十”和“百分之20”統(tǒng)一轉(zhuǎn)換成“20%”。

      2)事件識別是指識別出用戶提問中的道路交通事件的實例,實例分屬于兩類:一般交通事件(rore:GeneralTrafficIncident)和交通事故(rore:TrafficAccident)。

      3)意圖識別是指識別出用戶提問中所蘊含的查詢意圖,這些意圖包括傷殘鑒定結果(rore:DisabledAppraisalResult)、傷情鑒定結果(rore:InjuryIdentficationResult)、判責結果(rore:JudgementResult)、處罰結果(rore:PunishmentResult)和財產(chǎn)損失情況(rore:DamageState)等。

      4)本體屬性識別是指識別出用戶提問中包含的屬性和屬性值,如當事人的血液酒精含量是80,其中蘊含的屬性是“血液酒精含量”,屬性值是“80”。

      下面以“酒駕撞死一人,我報警后,交警檢測出的酒精含量是120,初步判定我是全責,這種情況下怎么處罰?”為例,對其進行語義標注的結果如圖4所示。

      3.2 知識圖譜查詢

      知識圖譜查詢主要負責對話系統(tǒng)的道路法規(guī)知識圖譜匹配,預測系統(tǒng)的行為,即返回查詢到的子圖或者返回需要追問的屬性。該模塊的輸入是用戶的會話狀態(tài),輸出是預測的行為。經(jīng)由問題理解模塊對用戶輸入的自然語言語句進行事件識別、意圖識別以及屬性識別,最終可以按照表2中提供的6種Cypher查詢模板進行查詢。

      用戶的自然語言問題中蘊含的事件數(shù)量分為單事件或多事件兩種情形。以經(jīng)由問題理解模塊識別后只含有單事件為例,首先判斷意圖的情況,然后按照表2中的Cypher查詢模版對知識圖譜進行查詢。其次通過結果計算查詢來判斷查詢到的子圖能否滿足答案閾值,如果滿足則將匹配到的子圖傳遞到問答生成模塊,否則進行屬性選擇計算出需要追問的屬性并傳遞到問答生成模塊。其中,結果計算是將從用戶的自然語言提問中抽取的本體屬性集合依次與查詢到的候選子圖做差集計算,然后判斷差集是否滿足閾值條件。屬性選擇有兩種策略:一種是通過法務專家制定的屬性權重,先追問權重相對大的屬性;另一種是最小候選子圖原則,將候選子圖與從用戶提問中抽取的本體屬性做比較,先追問滿足閾值的候選子圖的屬性。

      在多事件的情況下,首先按照事件進行分組,每組有且僅有一個事件。同時,意圖會被劃分到與其相對應的事件組內(nèi)。這樣就可以將多事件情形轉(zhuǎn)換成單事件單意圖、單事件無意圖或多意圖兩種情形。依次對每個事件按照圖5中系統(tǒng)行為預測部分來進行查詢匹配到的子圖或選擇出需要追問屬性。

      3.3 問答生成

      問答生成包含追問生成和答案生成,前者是用于向用戶繼續(xù)追問待補充的語義信息,后者用于返回將用戶當前提問的語義化表示與知識圖譜進行匹配得到的答案。根據(jù)知識圖譜的查詢情況需要做出以下選擇:1)追問用戶:在語義缺失的情況下,通過預定義的語義模版追問用戶;2)返回答案:在語義完整的情況下查詢子圖對應的答案,并將答案返回給用戶。

      在獲取知識圖譜查詢的結果時,為了保證追問內(nèi)容的可讀性和可理解性,本研究根據(jù)不同的本體類或本體屬性定義了不同的追問模板,根據(jù)要填充的缺失語義的不同,加上一定修飾性描述再返回給用戶,顯得更人性化。本研究所用到的3種追問模板包含確認事件型、確認意圖型和本體屬性追問型。表3是一些追問模板的樣例。根據(jù)表3的內(nèi)容,4.1中例子需要對“酒駕次數(shù)”進行追問,那么系統(tǒng)返回給用戶的回復是“請問您這是第幾次酒駕被查?”。

      4 模塊測評

      模塊測評主要針對問題理解模塊的事件識別、意圖識別、本體屬性識別進行測評。問題理解的結果直接影響到查詢知識圖譜匹配的效果。本文實驗采用的實驗測評語料有兩種:一種是用于問題理解的語料;另一種是根據(jù)本體從道路交通法規(guī)中抽取得到的知識圖譜。其中,用于問題理解的語料共8 000條,道路法規(guī)知識圖譜子圖約4萬個。本研究就系統(tǒng)的問題理解展開實驗,以驗證所用到模型的效果。本研究的實驗環(huán)境為:操作系統(tǒng)為Ubuntu16.04,CPU是Intel(R) Core(TM) i7-5930K CPU @ 3.50GHz,內(nèi)存為64G,GPU為3塊Nvidia GTX 1080組成的小型工作站。采用的編程語言為Python,深度學習框架為Tensorflow、sklearn_crfsuite。實驗選用的評價指標包括精確率(Precision)、召回率(Recall)和F1值(F1 score)。

      4.1 事件識別與意圖識別

      本研究將事件識別和意圖識別看作是文本分類的問題。文本分類采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、雙向長短時記憶神經(jīng)網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)、BERT(Bidirectional Encoder Representations from Transformers)作為基線模型,并基于3種基線模型進行改進,改進后的模型分別是CNN_BiLSTM、BCNN_BiLSTM。

      CNN模型最大的優(yōu)勢是對輸入的句子應用濾波器提取局部特征,經(jīng)過不同大小的卷積核運算產(chǎn)生不同的特征。從而可以提取局部最優(yōu)特征。模型參數(shù)為:Embedding層的大小設置為256,最大輸入文本的長度為128個字符,卷積核的大小設置分別為3、4、5,卷積核的數(shù)量為100,隱藏層大小為128,訓練輪次為500,學習率為1e-3,正則項系數(shù)為1e-3,batch_size為64。

      長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)模型是循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的一種改良模型,增加了門控機制有效避免了RNN的梯度消失問題。能夠很好地學習句子遠距離上下文依賴關系。BiLSTM則看作由兩個不同方向的LSTM組成,兩個LSTM分別從文本的正向和反向?qū)W習上下文信息,將拼接的信息作為當前時刻的輸出,這樣既能夠解決長距離依賴,又能確保特征提取的全局性和完整性。模型參數(shù)為:Embedding層的大小設置為256,最大輸入文本的長度為128個字符,隱藏層的大小為128,訓練輪次為500,學習率為1e-3,正則項系數(shù)為1e-3,batch_size為64。

      BERT(Bidirectional Encoder Representations from Transformers)模型是谷歌提出的基于雙向Transformer構建的語言模型。它是一種基于fine-tuning遷移學習方法模型,通過改變輸入和增加隱藏層來應對各種特定自然語言處理任務,不需對原來的模型作大量修改就能夠很好地應用在多個NLP的任務。模型參數(shù)為:最大輸入文本長度為128個字符,學習率為5e-5,batch_size為64,訓練輪次為3,預訓練的模型為Chinese BERT-Base(共有12編碼層,768個隱藏單元,12個頭部)。

      本研究首先結合CNN和BiLSTM的優(yōu)點,將CNN卷積的結果作為BiLSTM的輸入,并將改進模型記為CNN_BiLSTM模型。模型參數(shù)設置為:Embedding層的大小設置為256,最大輸入文本的長度為128個字符,卷積核大小為3、4、5,卷積核數(shù)量為128,隱藏層的大小為128,訓練輪次為500,學習率為1e-3,正則項系數(shù)為1e-3,batch_size為64。

      BCNN_BiLSTM在CNN_BiLSTM模型的基礎上使用BERT模型的最后一層隱藏層的向量替換CNN_BiLSTM模型隨機初始化向量編碼。與CNN_BiLSTM相比,Embedding層變成768,最大輸入文本的長度為128個字符,卷積核大小為3、4、5,卷積核數(shù)量為128,隱藏層的大小為128,訓練輪次為3,學習率為5e-5,batch_size為64。

      實驗結果如表4所示,通過表4可以發(fā)現(xiàn):相同參數(shù)模型在不同的數(shù)據(jù)集上的效果與數(shù)據(jù)集本身特點有關,如類別數(shù)量;改進模型較原生模型效果有提升;就CNN、BiLSTM、BERT相比,BERT的fine-tuning模型效果最好,這得益于BERT的大規(guī)模語料的預訓練效果。

      4.2 本體屬性識別

      本研究將本體屬性的識別轉(zhuǎn)化為序列化標注任務,在序列化標注的任務同樣可以使用BiLSTM模型。BiLSTM輸出的為屬性item的分數(shù),選擇最高分數(shù)對應的屬性。但BiLSTM在做實體預測的時候的缺點是無法學習到狀態(tài)序列(輸出的標注)之間的關系。而在實際的預測序列中是存在一定關系的,例如:在B-item輸出后面不能是B-item。所以為避免這種情況發(fā)生,利用條件隨機場模型(Conditional Random Field,CRF)能對隱含狀態(tài)建模且學習狀態(tài)序列的特點。將CRF層加在BiLSTM組成Bi-LSTM+CRF模型來做序列化標注。這樣結合兩種模型的優(yōu)勢不僅避免CRF特征工程,也避免BiLSTM錯誤序列狀態(tài)的輸出。以“高速上超速一次扣幾分?”為例,經(jīng)由BiLSTM+CRF模型輸出可以得到“高速”對應的本體屬性名為“Roadtype”,其BIO的標記為“B-roadtype,I-roadtype”。

      將CRF作為基準模型,在特征選擇方面使用單字、數(shù)字、字母、標點符號、Unigram、Bigram等特征。模型參數(shù)如下:l1、l2正則化系數(shù)設置為0.1,最大迭代次數(shù)為200次,梯度下降使用L-BFGS優(yōu)化方法。

      BiLSTM_CRF模型的參數(shù)設置如下:Embedding層的大小設置為100,最大輸入文本的長度為128個字符,隱藏層的大小為128,訓練輪次為500,學習率為5e-3,衰減速度為1e-4,正則項系數(shù)為1e-3,batch_size為32。

      BBiLSTM_CRF則是在BiLSTM_CRF模型的基礎上,使用BERT替換Eembdding,模型參數(shù)如下:Embedding層變成768,最大輸入文本的長度為128個字符,隱藏層的大小為128,訓練輪次為3,學習率為5e-5,batch_size為64。

      實驗結果如表5所示,可以發(fā)現(xiàn)BBiLSTM_CRF的混合模型效果最優(yōu),主要原因是結合BERT、CRF和LSTM的優(yōu)勢。

      5 系統(tǒng)評測

      5.1 系統(tǒng)實現(xiàn)

      本研究構建的基于道路法規(guī)知識圖譜的多輪自動問答系統(tǒng),在具體實施的過程中,知識圖譜的存儲采用的是Neo4j圖數(shù)據(jù),問題理解模塊的預處理階段使用的是Jieba分詞工具。此外,在問答系統(tǒng)中有擔任“存儲器”角色的模塊稱為對話狀態(tài)跟蹤,該模塊為每一位用戶分配一個追蹤器Tracker,用以記錄和維護用戶所有的對話狀態(tài),包含創(chuàng)建、更新、刪除和查找用戶對話狀態(tài)。實際上,對話系統(tǒng)中除了上述對話狀態(tài)跟蹤的基礎作用外,往往還需要考慮在多輪交互過程中,存在的輪次打斷、恢復、切換等復雜情況。因此,對話狀態(tài)跟蹤模塊也具備對用戶對話輪次的管理。本文以某一“酒駕致死”事件為例展示多輪自動問答系統(tǒng),界面如圖6所示,6(a)和6(b)共同組成一個完整的對話。首先,用戶通過對話框輸入一段與道路交通相關的法律問題,采用Web技術將用戶輸入的自然語言問題提交給問答后臺。問答后臺按照上述問答框架將用戶輸入的問題轉(zhuǎn)化成結構化的語義表示。然后,根據(jù)知識圖譜查詢的結果對用戶進行多輪次的追問以補充缺失的語義信息。最終,將匹配到的知識圖譜子圖對應的答案(包含相關法條和參考意見)返回給用戶。為方便觀察用戶與機器之間交互的細節(jié),表6展示了多輪次識別出來的結構化語義結果、當前輪次結束后系統(tǒng)的狀態(tài)標示以及需要追問的屬性。

      5.2 系統(tǒng)總體評測

      本研究采用200個測試問句對構建的自動問答系統(tǒng)進行總體的實驗測評,其中包含100個完整句和100個缺省句,前者只需要系統(tǒng)完整識別出其語義表示,再通過知識圖譜的查詢就能得到答案,而后者則是需要用戶和系統(tǒng)進行多次交互補充缺失的語義才能得到答案。

      目前,還沒有一套權威的多輪自動問答評價方法能完全客觀的評價多輪自動問答系統(tǒng)的效果。本研究中完整句的測試評價指標采用的是準確率(Accuracy),問題中所有的本體類和本體屬性都正確識別才算當前問題被正確識別。缺省句的評價指標采用的是任務完成率(任務完成率=成功結束的多輪會話數(shù)/多輪會話總數(shù)),成功結束的對話數(shù)量越多,則認為任務完成率相對較高,從而多輪對話的可用性也可能更好。但需注意的是,對話成功結束,并不一定意味著用戶提出的問題得到正確解決,也有可能是用戶從問答系統(tǒng)中得到了錯誤的答案。此外,在缺省句的評價指標中對前3輪對話滿意度進行打分,后一輪的結果是基于上一輪的結果基礎上進行評價的,即對前一輪結果不滿意,則對后一輪結果也不滿意。在系統(tǒng)的總體評測中,事件識別和意圖識別選用的是BCNN_BiLSM模型,本體屬性選用BBiLSTM_CRF模型,其參數(shù)與上述參數(shù)保持一致。最終得到完整句的準確率為0.74,缺省句的任務完成率為0.83。

      6 結論與展望

      針對當前自動問答系統(tǒng)以單輪問答為主,交互性差,難以準確地獲取用戶真實檢索意圖的問題,本文提出了一個基于道路法規(guī)知識圖譜的多輪自動問答系統(tǒng)。首先,利用道路法規(guī)數(shù)據(jù)構建了道路法規(guī)本體和知識圖譜,在此基礎上構建了多輪自動問答系統(tǒng)框架,并進行了模塊測評。其中,事件識別和意圖識別的測評結果表明,相同參數(shù)模型在不同的數(shù)據(jù)集上的效果與數(shù)據(jù)集本身特點有關;改進模型(BCNN_BiLSTM和CNN_BiLSTM)較原生模型效果有所提升;就CNN、BiLSTM、BERT相比,BERT的fine-tuning模型效果最好。本體屬性識別的測評結果表明,BBiLSTM_CRF的混合模型效果最優(yōu)。最后,對所構建的基于知識圖譜的多輪自動問答系統(tǒng)進行系統(tǒng)測評,最終得到完整句的準確率為0.74,缺省句的任務完成率為0.83。本研究在一定程度上彌補了基于知識圖譜的自動問答在多輪問答方面的空缺,以及基于知識圖譜的多輪自動問答在法律領域的應用空白,對于垂直領域的自動問答系統(tǒng)構建具有一定的借鑒意義。

      雖然本文實現(xiàn)了多種有效的自然語言理解模型和事件匹配策略,但是本文提出的方法仍存在一定的不足,特別是面對復雜語義、圖譜缺失等問題,仍然有很多可以改進的工作。一方面是通過替換和調(diào)整模型的超參數(shù)來提高識別的準確率;另一方面通過不斷擴充事件圖譜的規(guī)模來提高系統(tǒng)回答的廣度和深度。

      參考文獻

      [1]中華人民共和國司法部的法律法規(guī)數(shù)據(jù)庫[EB/OL].http://search.chinalaw.gov.cn/search2.html,2019-04-15.

      [2]中國法律法規(guī)信息庫[EB/OL].http://law.npc.gov.cn/FLFG/index.jsp,2019-04-15.

      [3]110法律咨詢案例[EB/OL].http://www.110.com/ask/question-14503043.html,2019-08-04.

      [4]華律網(wǎng)[EB/OL].https://www.66law.cn/,2019-04-15.

      [5]溫思琦.基于本體的中醫(yī)冠心病自動問答系統(tǒng)的設計與實現(xiàn)[D].沈陽:沈陽工業(yè)大學,2017.

      [6]Lopez V,Pasin M,Motta E.Aqualog:An Ontology-portable Question Answering System for the Semantic Web[C]//European Semantic Web Conference.Springer,Berlin,Heidelberg,2005:546-562.

      [7]劉曉強.基于領域本體的客服問答系統(tǒng)的設計與實現(xiàn)[D].青島:青島大學,2016.

      [8]Lexinfo本體[EB/OL].https://lexinfo.net/,2019-04-17.

      [9]Unger C,Cimiano P.Pythia:Compositional Meaning Construction for Ontology-based Question Answering on the Semantic Web[C]//International Conference on Application of Natural Language to Information Systems.Springer,Berlin,Heidelberg,2011:153-160.

      [10]Ferrández O,Izquierdo R,F(xiàn)errández S,et al.Addressing Ontology-based Question Answering with Collections of User Queries[J].Information Processing & Management,2009,45(2):175-188.

      [11]Abdi A,Idris N,Ahmad Z.QAPD:An Ontology-based Question Answering System in the Physics Domain[J].Soft Computing,2018,22(1):213-230.

      [12]陳文聰.面向自動問答的游客問題語義模型研究[D].成都:電子科技大學,2018.

      [13]陶杰.住房公積金領域自動問答系統(tǒng)關鍵技術研究[D].哈爾濱:哈爾濱工程大學,2018.

      [14]溫思琦.基于本體的中醫(yī)冠心病自動問答系統(tǒng)的設計與實現(xiàn)[D].沈陽:沈陽工業(yè)大學,2017.

      [15]錢宏澤.基于中草藥語義網(wǎng)的自動問答系統(tǒng)的研究與實現(xiàn)[D].杭州:浙江大學,2016.

      [16]郭磊.基于領域本體中文自動問答系統(tǒng)相關技術的研究與實現(xiàn)[D].廣州:華東理工大學,2013.

      [17]曹存根.國家知識基礎設施的意義[J].中國科學院院刊,2001,(4):255-259.

      [18]Traffic Event Ontology Community Group[EB/OL].https://www.w3.org/community/traffic/,2019-04-15.

      [19]劉吉雙.基于語義內(nèi)容的交通監(jiān)控視頻檢索研究[D].重慶:重慶大學,2018.

      [20]Marupudi S B.Framework for Semantic Integration and Scalable Processing of City Traffic Events[EB/OL].https://corescholar.libraries.wright.edu/cgi/viewcontent.cgi?article=2718&context=etd_all,2019-04-15.

      [21]于云.基于本體和描述邏輯的交通事件語義表現(xiàn)方法研究[D].淄博:山東理工大學,2015.

      [22]Hage W V,Malaisé V,Segers R,et al.The Simple Event Model Ontology[EB/OL].http://semanticweb.cs.vu.nl/2009/11/sem/,2019-04-15.

      [23]中華人民共和國道路交通安全法[EB/OL].http://www.npc.gov.cn/npc/c12488/201104/e8b92a43e3914a959a7cee369e486a 62.shtml,2019-04-15.

      [24]Time Ontology in OWL[EB/OL].https://www.w3.org/TR/owl-time/,2019-04-15.

      [25]WICK M.The GeoNames Geographical Database[EB/OL].http://www.geonames.org/,2018-04-15.

      (責任編輯:陳 媛)

      猜你喜歡
      自然語言處理知識圖譜本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      近十五年我國小學英語教學研究的熱點、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術發(fā)展
      面向機器人導航的漢語路徑自然語言組塊分析方法研究
      漢哈機器翻譯中的文字轉(zhuǎn)換技術研究
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      阿图什市| 平顺县| 丹东市| 新和县| 文成县| 都匀市| 田阳县| 临颍县| 福泉市| 青海省| 高邑县| 肃南| 北川| 若尔盖县| 望谟县| 沅江市| 石棉县| 石渠县| 武胜县| 思茅市| 南涧| 长治市| 屏东市| 当雄县| 沧州市| 夏河县| 建瓯市| 和林格尔县| 高邑县| 静安区| 灵武市| 株洲市| 如皋市| 香格里拉县| 崇义县| 柏乡县| 应城市| 龙游县| 兴义市| 洱源县| 根河市|