薛 蕊,馬小寧,李 平,楊連報(bào)
(中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所, 北京 100081)
自然語言處理涉及到人機(jī)交互的計(jì)算語言學(xué)和人工智能領(lǐng)域,它使得計(jì)算機(jī)和人類之間可以進(jìn)行無縫交互,并且在機(jī)器學(xué)習(xí)的幫助下,使得計(jì)算機(jī)獲得理解人類語言的能力。自然語言處理是一門融合語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)[1]。已在多領(lǐng)域得到廣泛應(yīng)用,并通過智能信息服務(wù)產(chǎn)生應(yīng)用價(jià)值[2-4]。在鐵路行業(yè)內(nèi),雖然非結(jié)構(gòu)化數(shù)據(jù)量十分龐大,但是自然語言處理的應(yīng)用才剛剛起步,如Rosadini等人提出利用自然語言處理技術(shù)分析鐵路信號(hào)制造商需求文檔,從中探測鐵路需求的缺陷[5]。未來通過自然語言處理相關(guān)技術(shù)可以對(duì)海量的文檔進(jìn)行有效管理,如存儲(chǔ)和檢索;對(duì)文檔深入挖掘和分析,發(fā)現(xiàn)事件之間的內(nèi)在聯(lián)系和規(guī)律;與既有的技術(shù)手段相結(jié)合,促進(jìn)和推動(dòng)智能鐵路的發(fā)展。以往的綜述性研究多為總結(jié)某項(xiàng)技術(shù)在自然語言處理領(lǐng)域的發(fā)展和應(yīng)用[6-8]。本文在概述自然語言處理發(fā)展歷程和關(guān)鍵技術(shù)的基礎(chǔ)上,將自然語言處理技術(shù)引入智能鐵路,探索和分析自然語言處理在智能運(yùn)營、智能裝備和智能制造等方面的典型應(yīng)用,展望自然語言處理在鐵路行業(yè)的應(yīng)用前景。
作為計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,自然語言處理最早于上世紀(jì)50年代正式提出。最早的自然語言理解方面的研究工作是機(jī)器翻譯,20世紀(jì)60年代西方研究者對(duì)機(jī)器翻譯做出了大量探索性的研究工作。然而,由于低估了自然語言的復(fù)雜性,和當(dāng)時(shí)自然語言處理理論和技術(shù)的缺乏,自然語言處理領(lǐng)域的研究進(jìn)展緩慢。直到20世紀(jì)70~80年代,機(jī)器學(xué)習(xí)相關(guān)算法的引入,為自然語言處理帶來了革新。從此自然語言處理從基于規(guī)則的時(shí)代進(jìn)入了廣泛應(yīng)用統(tǒng)計(jì)模型的時(shí)代,在這一階段,很多自然語言處理任務(wù)得到了長足的發(fā)展。近年來,深度學(xué)習(xí)技術(shù)在各個(gè)方面取得矚目的成果,通過應(yīng)用深度學(xué)習(xí)相關(guān)技術(shù)方法,自然語言處理的多項(xiàng)任務(wù)取得了突破,比如語言建模,語義解析等。
文本分類是將文本劃分至預(yù)設(shè)好類別中的過程。如果 Di是文檔集合 D 中的一個(gè)文檔,{C1,C2,C3,…,Cn}是類別集合,那么文檔分類就是將其中一個(gè)類別Cj分配給文檔Di的過程。根據(jù)其特征,文檔可以被標(biāo)記為一個(gè)類別或者多個(gè)類別。如果文檔僅屬于一個(gè)類別,被稱為“單個(gè)標(biāo)簽”,反之如果文檔屬于多個(gè)類別,則被稱為“多個(gè)標(biāo)簽”。如果文檔僅屬于兩個(gè)類別中僅有的一個(gè),“單個(gè)標(biāo)簽”的文本分類問題可以進(jìn)一步被理解為“二分類”問題[9]。如圖1所示,文檔分類流程通常包括文檔表征、特征選擇或者特征變換、構(gòu)建算法模型、訓(xùn)練算法模型、以及最終對(duì)算法模型的評(píng)價(jià)。
圖1 文檔分類過程圖
命名實(shí)體識(shí)別是對(duì)文本中的重要名詞和指代詞定位和分類的過程。例如,定位和識(shí)別新聞中的人名、地名和組織機(jī)構(gòu)名稱等重要的信息,用于進(jìn)一步的語言處理和應(yīng)用。命名實(shí)體識(shí)別作為自然語言處理中的重要任務(wù),可被用于信息抽取、問答系統(tǒng)和機(jī)器翻譯等領(lǐng)域中。例如,命名實(shí)體信息可以將專有名詞定位為一個(gè)整體,從而輔助機(jī)器翻譯系統(tǒng)進(jìn)行整詞翻譯,以避免逐詞翻譯可能導(dǎo)致的翻譯錯(cuò)誤。
大部分命名實(shí)體識(shí)別系統(tǒng)包括人名、地名、組織機(jī)構(gòu)名和定義更為寬泛的混合實(shí)體。這些類別主要用于與新聞相關(guān)的語料,在其他相關(guān)領(lǐng)域,命名實(shí)體模型需要用其相關(guān)語料和標(biāo)注類別重新進(jìn)行訓(xùn)練和測試[10]。
自動(dòng)文摘是對(duì)輸入文本進(jìn)行壓縮和精煉,最終輸出源文本中重要概念的過程[11]。根據(jù)輸入文檔類型的差異(單個(gè)文檔/多個(gè)文檔)、目的的差異(泛化的/特定領(lǐng)域的/基于查詢的)、輸出文檔類型的差異(抽取性的/概括性的),自動(dòng)文摘系統(tǒng)可以被劃分不同的類別[12]。單個(gè)文檔摘要是指對(duì)單個(gè)文檔進(jìn)行總結(jié)概括,同理多個(gè)文檔摘要的數(shù)據(jù)源是多個(gè)文檔,但是多個(gè)文檔涉及的基本是同一個(gè)主題。泛化的自動(dòng)文摘系統(tǒng)是指對(duì)所有的文本進(jìn)行概括總結(jié)而不考慮其主題或者類別。特定領(lǐng)域的文摘系統(tǒng)則有著很強(qiáng)的專業(yè)或者領(lǐng)域的指向性,比如金融文章的摘要,生物制藥文檔的摘要等等。通常,該類型的摘要需要特定的專業(yè)知識(shí)以輔助句子的篩選過程?;诓樵兊恼獌H僅包含用戶需要提取的信息,這些查詢通常是自然語言問題或者是特定主題的關(guān)鍵詞。抽取性文摘和概括性文摘的生成方式有所差異,抽取性文摘從文檔中定位和抽取重要句子從而生成文摘,而概括性文摘是通過合并選定的文檔,再將不重要的部分進(jìn)行壓縮生成最終的文摘。
知識(shí)圖譜以實(shí)體和實(shí)體關(guān)系的形式對(duì)信息進(jìn)行建模從而得到知識(shí)表征和它們的關(guān)聯(lián)關(guān)系[13]。知識(shí)圖譜并非是一個(gè)全新的概念,而是基于在2006年提出的語義網(wǎng)概念,語義網(wǎng)強(qiáng)調(diào)使用本體模型來形式化表達(dá)數(shù)據(jù)中的隱含語義,由此產(chǎn)生了RDF(resource description framework)模式(RDF schema)和萬維網(wǎng)本體語言(OWL,Web ontology language)的形式化模型?;谝陨涎芯浚珿oogle于2012年5月17日正式提出了知識(shí)圖譜[14]。
三元組是知識(shí)圖譜一種通用的表示方式,之前流傳較廣的是RDF的一種(主語、指向、賓語)三元組(SPO),其中,主語(subject)和賓語(object)均為實(shí)體,指向(predict)闡明了實(shí)體之間的關(guān)系。該三元組可以用有向的圖結(jié)構(gòu)表示,如圖2所示。知識(shí)圖譜的三元組可表示為G=(E,R,S),其中,E={e1, e2, …, e|E|}是知識(shí)庫中的實(shí)體集合,共包含|E|種不同實(shí)體;R={r1, r2, …, r|E|}是知識(shí)庫中的關(guān)系集合,共包含|R|種不同關(guān)系;S?E?R?E代表知識(shí)庫中的三元組集合。
圖2 (主語、指向、賓語)三元組示例
智能問答旨在針對(duì)用戶問題傳遞包含相應(yīng)答案的精確信息。問答范式產(chǎn)生于60年代末,并在70年代初納入自然語言理解的框架。根據(jù)問題的類型問答系統(tǒng)被分為兩類,開放域問答系統(tǒng)與固定域問答系統(tǒng)。開放域系統(tǒng)主要基于網(wǎng)絡(luò),對(duì)專業(yè)領(lǐng)域沒有限制,固定域系統(tǒng)對(duì)專業(yè)進(jìn)行了限制,比如醫(yī)藥或天氣預(yù)報(bào)等[15]。
問答系統(tǒng)構(gòu)建有諸多方案,如基于語言學(xué)的方法,基于統(tǒng)計(jì)模型的方法和基于模式匹配的方法。為了問答系統(tǒng)性能更優(yōu),往往采用混合的方法進(jìn)行構(gòu)建[16]。近年來很多公司研發(fā)了語音助手,如蘋果手機(jī)的Siri,這類應(yīng)用本質(zhì)上是任務(wù)導(dǎo)向的智能問答系統(tǒng),在之前的智能問答上集成了語音識(shí)別等技術(shù),其流程如圖3所示。
圖3 任務(wù)導(dǎo)向的智能問答樣例
根據(jù)《中長期鐵路網(wǎng)規(guī)劃》,到2020年,全國鐵路網(wǎng)規(guī)模達(dá)到15萬km,其中高速鐵路3萬km,覆蓋80%以上的大城市。隨著全國鐵路網(wǎng)規(guī)模不斷擴(kuò)大,鐵路運(yùn)營中的節(jié)能高效、安全管控等問題越發(fā)得到了人們的關(guān)注。自然語言處理的命名實(shí)體識(shí)別、知識(shí)圖譜、智能問答等關(guān)鍵技術(shù)應(yīng)用在鐵路運(yùn)營中,可以有效節(jié)約運(yùn)營成本、改善乘客服務(wù)以及提高運(yùn)營中的安全管控。
3.1.1 智能客服
智能客服是自然語言處理的一個(gè)重要的應(yīng)用場景,其主要功能是與用戶進(jìn)行基本溝通,并自動(dòng)回復(fù)用戶有關(guān)產(chǎn)品或服務(wù)的問題,以達(dá)到降低企業(yè)客服運(yùn)營成本、提升用戶體驗(yàn)的目的。智能客服在電子商務(wù)、金融領(lǐng)域等已經(jīng)得到了廣泛的應(yīng)用。在鐵路運(yùn)營中,智能客服可以在票務(wù)、車站等場景中給乘客提供優(yōu)質(zhì)高效的服務(wù)和良好的乘車體驗(yàn)。
3.1.2 安全管控
鐵路運(yùn)營中的安全涉及風(fēng)險(xiǎn)、隱患、事故故障等多個(gè)方面,對(duì)風(fēng)險(xiǎn)、隱患和事故故障的描述多以文本的方式存在,如風(fēng)險(xiǎn)庫、隱患庫、和事故故障報(bào)告等。通過文本分類和命名實(shí)體識(shí)別等技術(shù)手段,可以將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化字段,便于存儲(chǔ)、檢索和統(tǒng)計(jì)分析。通過對(duì)事故故障進(jìn)行關(guān)聯(lián)分析和原因分析,可以挖掘事故故障之間的內(nèi)在聯(lián)系和事故故障的發(fā)生規(guī)律。結(jié)合風(fēng)險(xiǎn)和隱患方面的數(shù)據(jù),解析風(fēng)險(xiǎn)、隱患和事故故障之間的相關(guān)關(guān)系和轉(zhuǎn)化路徑,有助于將事故故障扼殺在萌芽狀態(tài),提高鐵路的行車安全。此外,結(jié)合相關(guān)結(jié)構(gòu)化數(shù)據(jù)如設(shè)備數(shù)據(jù)、傳感器數(shù)據(jù)等,可以對(duì)一些安全問題進(jìn)行預(yù)測,促進(jìn)設(shè)備檢查維修從基于條件的維修向基于預(yù)測的維修轉(zhuǎn)變,真正做到對(duì)安全問題的超前防范。
鐵路行業(yè)擁有龐大且多元化的資產(chǎn),如機(jī)車車輛、基礎(chǔ)設(shè)施等,因此如何對(duì)這些資產(chǎn)進(jìn)行有效的管理和優(yōu)化的配置,一直是鐵路行業(yè)關(guān)注的重點(diǎn)問題。資產(chǎn)管理指的是通過一系列措施和方法降低資產(chǎn)的全生命周期的成本,同時(shí)獲取資產(chǎn)使用的效益最大化。資產(chǎn)管理不僅僅局限于維修方面,而是從設(shè)計(jì)、制造、運(yùn)維到淘汰更新的一個(gè)全生命周期管理。通過運(yùn)用自然語言處理相關(guān)技術(shù),可以有效提高資產(chǎn)管理的效率,推動(dòng)資產(chǎn)管理向資產(chǎn)智能的轉(zhuǎn)變。
3.2.1 資產(chǎn)檔案
在資產(chǎn)管理中運(yùn)用自然語言處理相關(guān)技術(shù)可以自動(dòng)化地建立和管理資產(chǎn)檔案,及時(shí)跟蹤資產(chǎn)的狀態(tài)變更,有助于簡化資產(chǎn)管理的流程。同時(shí)通過對(duì)資產(chǎn)檔案進(jìn)行關(guān)聯(lián)分析,可以將相關(guān)資源進(jìn)行整合,合理高效地配置現(xiàn)有資源避免浪費(fèi)。
3.2.2 智能維修
將自然語言處理應(yīng)用于鐵路的資產(chǎn)管理能夠整合行業(yè)內(nèi)有價(jià)值的信息、專家知識(shí)、安全條例、維修規(guī)定等相關(guān)規(guī)章制度,自動(dòng)優(yōu)化維修作業(yè)所需的車輛調(diào)度、工具設(shè)施、人力資源等。例如,香港鐵路公司(MTR)利用人工智能進(jìn)行工程師每周的工作派遣和調(diào)度。這一方式使得他們在維修制度內(nèi)得以最大化使用資源,MTR也因此在維修效率上提高了至少50%,同時(shí)節(jié)省了時(shí)間和成本[17]。
除此之外,結(jié)合基礎(chǔ)設(shè)施等設(shè)備檔案和設(shè)備監(jiān)控?cái)?shù)據(jù),可以對(duì)設(shè)備維修、維修時(shí)間進(jìn)行建模預(yù)測,有助于從按時(shí)維修和狀態(tài)維修向預(yù)測維修進(jìn)行轉(zhuǎn)變,減少成本的同時(shí)提高效率[18]。
隨著建筑制造領(lǐng)域信息化的不斷完善,建筑制造行業(yè)已經(jīng)過渡到了數(shù)字化階段,具有代表性的就是BIM系統(tǒng)的應(yīng)用。作為強(qiáng)大的集成化系統(tǒng),基于BIM的系統(tǒng)能夠在工程設(shè)計(jì)、工程施工以及工程監(jiān)察過程中高效地傳遞信息、進(jìn)行資源的優(yōu)化配置、以及通過一些監(jiān)察手段提前發(fā)現(xiàn)施工問題以避免返工。在信息化和數(shù)字化之后,下一步則是智能化,智能化能夠減少人力成本、進(jìn)行資源配置和決策的最優(yōu)化。建筑制造領(lǐng)域智能化的最大特點(diǎn)是,人工智能技術(shù)方法在行業(yè)中的廣泛應(yīng)用。人工智能技術(shù)的應(yīng)用離不開數(shù)據(jù)的支持,而集成了大量數(shù)據(jù)和信息的BIM系統(tǒng)可以發(fā)揮重要的作用。將BIM系統(tǒng)與自然語言處理相結(jié)合,可以切實(shí)有效地處理建筑施工中的實(shí)際問題,促進(jìn)建筑制造由數(shù)字化向智能化的轉(zhuǎn)變。
3.3.1 決策輔助
建筑施工過程中需要進(jìn)行大量的決策,例如,選擇施工方法、承包方、施工材料等。自然語言處理中的知識(shí)圖譜、智能問答以及推理等技術(shù)可以為相關(guān)業(yè)務(wù)人員提供決策依據(jù),輔助業(yè)務(wù)人員在復(fù)雜場景下進(jìn)行相關(guān)決策[19]。
3.3.2 督查校驗(yàn)
建筑施工相關(guān)的標(biāo)準(zhǔn)和規(guī)程往往以非結(jié)構(gòu)化文本的形式存在,例如施工質(zhì)量驗(yàn)收規(guī)范。通過集成應(yīng)用 BIM 技術(shù)和自然語言處理相關(guān)技術(shù),可以按規(guī)范要求對(duì) BIM 模型構(gòu)件的尺寸及位置等進(jìn)行自動(dòng)檢查,從而減輕有關(guān)人員的工作量。
本文在介紹自然語言處理發(fā)展歷程、關(guān)鍵技術(shù)的基礎(chǔ)上,結(jié)合智能鐵路的發(fā)展,創(chuàng)新性地將自然語言處理技術(shù)全面引入鐵路行業(yè),闡述了自然語言處理在智能鐵路中諸多可能的應(yīng)用場景。在智能運(yùn)營、智能裝備和智能建造3大領(lǐng)域中,自然語言處理相關(guān)技術(shù)方法均可結(jié)合業(yè)務(wù)需要,在實(shí)際的場景中推動(dòng)和促進(jìn)鐵路行業(yè)向智能化轉(zhuǎn)變。