桑煒
摘要:現(xiàn)如今,我國的鐵路建設(shè)越來越多,同時鐵路的安全被十分重視,保障鐵路行車安全是鐵路工作的重點,通過鐵路事故調(diào)查報告等文本數(shù)據(jù)對事故原因進行分析,是提高鐵路行車安全的重要手段之一。但由于鐵路系統(tǒng)存在海量的非結(jié)構(gòu)化事故故障文本數(shù)據(jù),難以進行有效檢索和分析,因此提出鐵路行車安全領(lǐng)域文本大數(shù)據(jù)分析總體框架,包括文本數(shù)據(jù)從集成、存儲到處理、計算,再到檢索、分析及應用的全部流程,并對基于鐵路領(lǐng)域文本數(shù)據(jù)的全文檢索、特征提取等文本大數(shù)據(jù)分析關(guān)鍵技術(shù)進行研究。最后以某鐵路局集團公司的事故故障追蹤報告為樣本,進行事故故障報告的全文檢索、故障詞云展示及關(guān)聯(lián)性分析,取得了良好效果。
關(guān)鍵詞:大數(shù)據(jù);非結(jié)構(gòu)化;行車安全;事故故障;全文檢索;文本挖掘
引言
隨著鐵路信息化的不斷發(fā)展,已相繼建成車、機、工、電、輛等各專業(yè)安全監(jiān)測/監(jiān)控系統(tǒng)近60余個,產(chǎn)生和存儲了PB級的文本、圖紙、視頻、圖像、聲音等多種類型的監(jiān)控/監(jiān)測數(shù)據(jù)。鐵路安全領(lǐng)域迎來了大數(shù)據(jù)時代,由于傳統(tǒng)數(shù)據(jù)庫無法對這些海量的數(shù)據(jù)資源進行有效的利用,從而使這些數(shù)據(jù)占據(jù)了大量的存儲空間而不能被挖掘使用,造成了數(shù)據(jù)資源的浪費。伴隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,針對海量數(shù)據(jù)的存儲、分析和可視化展示等問題,出現(xiàn)了新的技術(shù)來支撐,例如:分布式文件存儲、并行處理等。鐵路運輸安全是一個復雜的安全系統(tǒng)工程,其故障(事故)之間存在著相關(guān)關(guān)聯(lián)、相互影響的耦合關(guān)系。通過運用大數(shù)據(jù)分析技術(shù)不僅可以對海量的歷史數(shù)據(jù)進行學習和挖掘,從而預測安全風險發(fā)現(xiàn)事故規(guī)律和事故間的相關(guān)關(guān)系,對高實時性要求的監(jiān)控數(shù)據(jù)進行實時在線分析,提高預警水平。
1文本大數(shù)據(jù)分析總體框架
1.1鐵路事故故障知識圖譜技術(shù)
鐵路事故故障知識圖譜主要是構(gòu)建有關(guān)事故故障實體、概念和關(guān)系的鐵路行業(yè)知識庫,以便于進行事故故障的查詢、分析和推理等。知識圖譜旨在描述真實世界中存在的各種實體或概念及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,節(jié)點表示實體或概念,邊則由屬性或關(guān)系構(gòu)成。KG是人工智能技術(shù)的組成部分,其強大的語義處理和互聯(lián)組織能力,為智能化信息應用提供了基礎(chǔ)。為了提高搜索引擎的能力和搜索體驗,Google于2012年5月正式提出。隨著人工智能的長足發(fā)展和普及,作為人工智能關(guān)鍵技術(shù)的知識圖譜的應用越來越廣泛,例如在基于知識圖譜的智能搜索、基于知識圖譜的智能語音問答、基于知識圖譜的語義分析和基于知識譜圖的個性化推薦等。
1.2文本數(shù)據(jù)處理
文本數(shù)據(jù)處理包括本體庫構(gòu)建、命名實體識別、文本向量表示和中文分詞等技術(shù),是文本分析挖掘的重要步驟。本體庫構(gòu)建是指對所研究的領(lǐng)域建立統(tǒng)一的對象模型框架,之后所有的分析都基于這個框架進行;命名實體識別是指對文本中具有特定意義的實體進行識別,包括人名、地名、機構(gòu)名等;文本向量表示是指通過某些方法把文本數(shù)據(jù)向量化,轉(zhuǎn)化為向量形式的標識,從而便于之后各類分析方法的計算;中文分詞是指根據(jù)相應領(lǐng)域的字典并利用分詞工具將連續(xù)的文本內(nèi)容切分為單獨的中文詞匯的過程。
2文本大數(shù)據(jù)分析關(guān)鍵技術(shù)
2.1基于ElasticSearch的事故故障文本全文檢索技術(shù)
為實現(xiàn)鐵路非結(jié)構(gòu)化文本大數(shù)據(jù)的分析挖掘,首先要實現(xiàn)非結(jié)構(gòu)化文本的分布式存儲和全文檢索。分布式存儲是應用分布式文件系統(tǒng),實現(xiàn)非結(jié)構(gòu)化文本動態(tài)可擴展的存儲。EelasticSearch(ES)通過集群提供分布式全文檢索,1個ES集群可以由多個節(jié)點組成,可動態(tài)增加。ES各節(jié)點之間通過唯一的集群名字進行識別,默認的集群名字為“EelasticSearch”,集群名字可通過elasticsearch.yml文件進行配置。ES采用去中心化節(jié)點架構(gòu),即各節(jié)點平等,可任意選1個節(jié)點為主節(jié)點。ES各節(jié)點之間通過TCP協(xié)議進行集群交互,并通過RestfulAPI接口為其他應用提供服務(wù)。ES需建立索引(Indices),實現(xiàn)文檔(Document)集合的統(tǒng)一存儲和查詢。1個索引內(nèi)可以定義1種或多種類型(Type),1種類型下可以設(shè)置多個字段(Field)以便于檢索。同時ES為了提高性能和吞吐量,對索引進行分片(Shard),默認1個索引分為5個分片(R0—R4),分布在不同的節(jié)點上,同時通過復制(Replica)分片實現(xiàn)高可用性,以防止節(jié)點/分片出現(xiàn)故障?;贓S的中文文本全文檢索主要包括文本提取、中文分詞、索引建立與檢索等過程。其中中文分詞技術(shù)是實現(xiàn)中文文本全文檢索的基礎(chǔ);索引建立是實現(xiàn)中文分詞后數(shù)據(jù)轉(zhuǎn)化為索引文件的過程,主要利用的技術(shù)為倒排索引;檢索過程是對要檢索內(nèi)容進行中文分詞后,根據(jù)索引文件找到所檢索文檔的過程。
2.2融合鐵路領(lǐng)域詞典的中文分詞
鐵路事故故障文本分布式全文檢索的首要和基礎(chǔ)工作是實現(xiàn)事故故障文本的分詞。中文分詞不同于英文分詞,中文詞語之間沒有空格標記進行分割。不同的上下文環(huán)境、不同的詞語組合和不完備的語料庫造成了中文分詞的歧義。尤其針對鐵路領(lǐng)域的中文分詞,由于缺乏行業(yè)領(lǐng)域的語料庫,鐵路專業(yè)術(shù)語無法實現(xiàn)有效的識別。同時鐵路行業(yè)的事故故障描述不一,為鐵路事故故障文本分詞帶來更大的挑戰(zhàn)。例如“軌道電路紅光帶”、“軌道區(qū)段紅光帶”、“紅光帶”等描述的是一種故障,但是在文本文檔中不同人員的描述不一致,造成了同一種故障但是由多種詞語進行描述,如果嚴格按照中文分詞就出現(xiàn)了3種不同的故障,為文本檢索和分析造成了困難。同時鐵路行業(yè)缺乏語料庫,對于事故故障命名實體沒有統(tǒng)一的規(guī)范,造成事故故障文本中事故故障名稱無法識別。
2.3融合文本結(jié)構(gòu)及正則表達式的特征提取
鐵路事故故障報告全文檢索實現(xiàn)了對文本信息的有效存儲和搜索。結(jié)合文本挖掘的分類、預測和相關(guān)性分析等,可以挖掘鐵路事故故障發(fā)生規(guī)律,指導現(xiàn)場人員對重點事故故障進行防范,保障鐵路安全運行。鐵路事故故障報告的基本格式有標題、概述、調(diào)查過程、原因分析、定性定責和措施及要求等六大部分。本文采用基于段落格式及正則表達式的文本特征提取。即通過正則表達式找到相應的段落,然后對重點段落的內(nèi)容進行中文分詞和特征提取,提取時需要和事故故障詞庫、事故地點詞庫等專業(yè)詞庫進行匹配,若專業(yè)詞庫中存在則直接提取,若專業(yè)詞庫中不存在,需要根據(jù)正則表達式依據(jù)語法結(jié)構(gòu)進行截取。
2.4鐵路設(shè)備安全風險評估
基于大數(shù)據(jù)技術(shù)進行鐵路設(shè)備安全風險評估應構(gòu)建2個層面:(1)基于設(shè)備故障特征和故障模式的設(shè)備安全風險評估方法,根據(jù)設(shè)備故障診斷結(jié)果,對故障特征和故障模式進行數(shù)字化表達,建立設(shè)備的特征、模式與故障特征、故障模式的距離函數(shù)來度量設(shè)備狀態(tài)與標準故障狀態(tài)的相似程度,距離函數(shù)的值越小,則設(shè)備安全風險越高。(2)基于設(shè)備健康狀態(tài)的設(shè)備安全風險評估,根據(jù)設(shè)備當前的狀態(tài)數(shù)據(jù),劃分不同的安全風險等級,設(shè)備狀態(tài)越差,其安全風險等級則越高。
結(jié)語
基于鐵路大數(shù)據(jù)技術(shù),研究提出鐵路行車安全領(lǐng)域文本大數(shù)據(jù)分析總體框架,介紹全文檢索技術(shù)、中文分詞技術(shù)、文本檢索模型、文本特征提取與挖掘技術(shù)等文本大數(shù)據(jù)分析關(guān)鍵技術(shù)。通過在某鐵路局集團公司進行試點應用,實現(xiàn)了分布式存儲、近實時全文檢索、多發(fā)事故故障詞云展示和事故故障關(guān)聯(lián)關(guān)系分析,取得良好效果,研究成果可為鐵路相關(guān)業(yè)務(wù)領(lǐng)域的文本大數(shù)據(jù)分析提供參考。
參考文獻:
[1] 王同軍.中國鐵路大數(shù)據(jù)應用頂層設(shè)計研究與實踐[J].中國鐵路,2017(1):8-16.
[2] 中華人民共和國鐵道部.鐵路交通事故調(diào)查處理規(guī)則:鐵道部令第30號[S],2007.
[3] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.
(作者單位:湖南高速鐵路職業(yè)技術(shù)學院)