• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法

      2021-03-11 07:39:14吳桂龍楊志敏黃昱
      電信科學(xué) 2021年2期
      關(guān)鍵詞:工單電力通信分詞

      吳桂龍,楊志敏,黃昱

      工程與應(yīng)用

      電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法

      吳桂龍,楊志敏,黃昱

      (中國南方電網(wǎng)電力調(diào)度控制中心,廣東 廣州 510525)

      電力通信運行管理過程中,會產(chǎn)生和存儲各類相對獨立的業(yè)務(wù)數(shù)據(jù)(如故障工單、值班日志、檢修工單、巡檢記錄等),這些業(yè)務(wù)數(shù)據(jù)為電力通信網(wǎng)運行管理提供了重要支撐。目前大多數(shù)業(yè)務(wù)數(shù)據(jù)的統(tǒng)計過程相對獨立,后期較少人工加以關(guān)聯(lián)。選取了電力通信運行管理中值班日志與故障工單兩種典型的業(yè)務(wù)數(shù)據(jù),采用文本挖掘技術(shù),構(gòu)建無監(jiān)督召回和監(jiān)督分類相結(jié)合的機(jī)器學(xué)習(xí)模型,提出值班日志與故障工單的智能關(guān)聯(lián)方法,并利用電力通信運行管理系統(tǒng)中相關(guān)歷史業(yè)務(wù)數(shù)據(jù),對智能關(guān)聯(lián)方法進(jìn)行實驗驗證,達(dá)到較好的關(guān)聯(lián)效果。

      電力通信運行管理;典型業(yè)務(wù)數(shù)據(jù);值班日志;故障工單;智能關(guān)聯(lián)方法

      1 引言

      電力通信運行管理作為電力通信運行支撐系統(tǒng)中重要的組成部分,主要完成通信運維流程表單的信息化管控等功能。在電力通信運行管理過程中,會產(chǎn)生和存儲各類相對獨立的業(yè)務(wù)數(shù)據(jù),比如故障工單、值班日志、檢修工單、巡檢記錄等,這些業(yè)務(wù)數(shù)據(jù)為電力通信網(wǎng)運行管理提供了重要的支撐。目前大多數(shù)業(yè)務(wù)數(shù)據(jù)在統(tǒng)計過程中相對獨立,后期也較少人工加以關(guān)聯(lián),比如大部分值班日志數(shù)據(jù)未關(guān)聯(lián)至故障工單,若能將值班日志自動關(guān)聯(lián)到相關(guān)故障工單,即可獲取某項故障豐富的跟進(jìn)日志信息,以更好地掌握故障的來龍去脈,有利于統(tǒng)計與分析故障。因此,開展電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法研究對提升電力通信運行和管理效率,進(jìn)一步保障電力通信網(wǎng)的安全穩(wěn)定運行具有重要而實際的意義。

      當(dāng)前,電力通信運行管理在關(guān)聯(lián)各類相對獨立的業(yè)務(wù)數(shù)據(jù)時,一般采用人工關(guān)聯(lián)方法,以值班日志與故障工單兩種典型的業(yè)務(wù)數(shù)據(jù)為例,當(dāng)需要關(guān)聯(lián)與故障工單有關(guān)的值班日志,以獲取與該故障工單有關(guān)的故障跟進(jìn)信息時,只能通過人工檢索關(guān)鍵詞并加以判斷進(jìn)行關(guān)聯(lián),關(guān)聯(lián)過程煩瑣且耗費人力。電力通信運行管理中的業(yè)務(wù)數(shù)據(jù)主要是文本數(shù)據(jù),當(dāng)需要實現(xiàn)文本數(shù)據(jù)之間的智能自動關(guān)聯(lián)時,可采用自然語言處理(natural language processing,NLP)技術(shù),構(gòu)建機(jī)器學(xué)習(xí)模型的方法[1-2]。目前,國內(nèi)在電力文本數(shù)據(jù)挖掘方面已經(jīng)取得了一定的進(jìn)展[3-4],實現(xiàn)了文本挖掘在電力領(lǐng)域的實際應(yīng)用,如參考文獻(xiàn)[5]提出的基于告警信號文本挖掘的電力調(diào)度故障診斷,參考文獻(xiàn)[6]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型研究。文本數(shù)據(jù)挖掘在電力領(lǐng)域的應(yīng)用經(jīng)驗為研究電力通信運行管理中業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法提供了有益借鑒,比如在數(shù)據(jù)預(yù)處理時應(yīng)采用電力通信專用詞匯。另外,信息檢索、搜索引擎等領(lǐng)域所采用的文本相似度計算方法[7-8]也是本文所提出電力通信運行管理中業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法中的關(guān)鍵技術(shù)。

      本文選取了電力通信運行管理中值班日志與故障工單兩種典型的業(yè)務(wù)數(shù)據(jù),采用文本挖掘技術(shù),構(gòu)建無監(jiān)督召回和監(jiān)督分類相結(jié)合的機(jī)器學(xué)習(xí)模型,提出值班日志與故障工單的智能關(guān)聯(lián)方法,通過利用電力通信運行管理系統(tǒng)中相關(guān)的歷史業(yè)務(wù)數(shù)據(jù),對關(guān)聯(lián)方法進(jìn)行實驗驗證,證明了智能關(guān)聯(lián)方法的有效性。

      2 電力通信運行管理典型業(yè)務(wù)數(shù)據(jù)樣本

      2.1 值班日志數(shù)據(jù)樣本

      電力通信運行管理系統(tǒng)中的值班日志主要用以記錄值班事務(wù)以及各類故障、檢修信息,是保證電力通信高效運行的重要手段,值班日志數(shù)據(jù)主要包含日志記錄時間、日志內(nèi)容、關(guān)聯(lián)故障工單號等信息,表1展示了3條值班日志實例,其中關(guān)聯(lián)故障工單號一列是值班調(diào)度員將值班日志人工關(guān)聯(lián)至相關(guān)的故障工單,表1中數(shù)據(jù)已做脫敏處理,其中變電站、電廠、換流站、供電局等名稱均用大寫字母代替。

      表1 值班日志數(shù)據(jù)樣本實例

      2.2 故障工單數(shù)據(jù)樣本

      電力通信運行管理系統(tǒng)中的故障工單是處理光纜、設(shè)備等故障的信息化運維流程表單,故障工單數(shù)據(jù)主要包含故障工單號、故障名稱、故障現(xiàn)象描述、故障發(fā)生時間等信息,表2展示了3條故障工單實例,表2中的數(shù)據(jù)已做脫敏處理,其中變電站、電廠、換流站、供電局等名稱均用大寫字母代替。

      3 智能關(guān)聯(lián)方法設(shè)計方案

      3.1 整體方案

      本文采用NLP技術(shù)對文本進(jìn)行分析與處理,利用故障工單中故障名稱或故障現(xiàn)象描述與值班日志內(nèi)容的文本匹配程度,同時參考故障發(fā)生時間與日志記錄時間的匹配程度,可得到與某項故障工單關(guān)聯(lián)的所有跟進(jìn)值班日志。本文對故障工單和值班日志中相關(guān)文本進(jìn)行分析與處理時,采用了中文文本分詞、去停用詞以及詞頻?逆文檔頻率(term frequency-inverse document frequency,TF-IDF)[9-10]、詞向量Word2vec[11]、BM25(best match 25,BM25)算法[12]等NLP技術(shù),建模時采用了性能優(yōu)異的機(jī)器學(xué)習(xí)模型,如梯度提升決策樹(gradient boosting decision tree,GBDT)模型[13]以及LightGBM(light gradient boosting machine,LightGBM)[14]等。本節(jié)將以值班日志與故障工單兩種典型的業(yè)務(wù)數(shù)據(jù)為例,具體闡述電力通信運行管理中業(yè)務(wù)數(shù)據(jù)智能關(guān)聯(lián)方法的設(shè)計方案。

      另一種方案是把關(guān)聯(lián)問題轉(zhuǎn)化為監(jiān)督二分類問題,通常與無監(jiān)督方法相比,監(jiān)督方法可達(dá)到更高的精確率。監(jiān)督二分類方法中,將故障工單與值班日志進(jìn)行配對并打上標(biāo)簽,構(gòu)造二分類訓(xùn)練集,具體來說,對于某條故障工單,分別跟與其有關(guān)聯(lián)的每條值班日志合并為特征記錄,并打上標(biāo)簽1,與其無關(guān)聯(lián)的每條日志也合并為特征記錄,并打上標(biāo)簽0。但此方案存在的問題是在生成訓(xùn)練集時,每條故障工單需分別與所有的日志配對打標(biāo)簽,這將導(dǎo)致大量的特征記錄標(biāo)簽為0,造成正負(fù)樣本比例不平衡,不利于二分類模型的訓(xùn)練。

      本文提出的電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法綜合了上述兩種方案的優(yōu)點,本文所提智能關(guān)聯(lián)方法的整體方案如圖1所示,分無監(jiān)督召回和監(jiān)督分類兩個部分。

      首先對故障工單以及值班日志的中文文本做分詞、去停用詞處理,接著進(jìn)行第一步的無監(jiān)督召回,每條故障工單通過3種相似度衡量因子(TF-IDF、Word2vec和BM25)分別獲取相似度最高的30條候選值班日志,接著對3種方法召回的各30條值班日志進(jìn)行合并去重,得到故障工單的候選日志,并根據(jù)實際是否關(guān)聯(lián)人工打上標(biāo)簽,得到可用于后續(xù)監(jiān)督分類的標(biāo)簽數(shù)據(jù)集。

      表2 故障工單數(shù)據(jù)樣本實例

      圖1 智能關(guān)聯(lián)方法整體方案示意圖

      第二步的監(jiān)督分類中,首先進(jìn)行特征工程,根據(jù)任務(wù)需求構(gòu)造出23個特征,接著將含有特征列和標(biāo)簽Label列的數(shù)據(jù)記錄送進(jìn)二分類模型中,在本地訓(xùn)練8折交叉的LightGBM模型,在南方電網(wǎng)調(diào)度云平臺上訓(xùn)練GBDT模型,分別得到最終的二分類關(guān)聯(lián)模型。

      進(jìn)行數(shù)據(jù)測試,即對某故障工單關(guān)聯(lián)值班日志時,先為該故障工單召回候選的關(guān)聯(lián)日志,接著生成相應(yīng)的特征列,經(jīng)過二分類模型生成結(jié)果標(biāo)簽,其中標(biāo)簽為1的記錄所對應(yīng)日志即最終得到的關(guān)聯(lián)值班日志。

      3.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理部分主要是對故障工單以及值班日志中的中文文本做分詞、去停用詞處理,其中中文分詞采用了“結(jié)巴”分詞,“結(jié)巴”分詞是一個Python中文分詞組件,可以對中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等,并且支持自定義詞典[15]?!敖Y(jié)巴”分詞主要通過詞典進(jìn)行分詞,正因如此,分詞結(jié)果的優(yōu)劣很大程度上取決于詞典。針對電力通信運行管理中典型業(yè)務(wù)文本數(shù)據(jù)具有領(lǐng)域所獨有詞匯,本方案采用自定義詞典的“結(jié)巴”分詞。自定義的電力通信運行詞匯詞典主要包含了南方電網(wǎng)主干通信傳輸網(wǎng)各網(wǎng)元的名稱、設(shè)備槽位、設(shè)備單盤、設(shè)備端口、各類專有名稱以及英文代號,如E1、W1、VC4、VC12等。

      文本分詞后進(jìn)行停用詞的過濾,停用詞主要包括英文字符、數(shù)字、數(shù)學(xué)字符、標(biāo)點符號及使用頻率特高的單漢字等,比如中文的語氣助詞、副詞、介詞、連接詞等。但對于本文特定任務(wù),某些數(shù)字和英文字符因具有特殊含義,具有較強(qiáng)的特征屬性,需保留,因此本文在停用詞過濾中并未整體過濾所有的數(shù)字和英文字符,而是采用自定義字典的形式保留部分?jǐn)?shù)字和英文字符。此外,本文的停用詞詞典還包含了一些會影響關(guān)聯(lián)性能的詞語,比如調(diào)度員姓名等詞語。以實際文本為例,對文本“2014-09-09 17:50:38 傳輸網(wǎng)/A水電站,05盤3端口發(fā)生連接信號丟失(LINK_LOS)”進(jìn)行分詞、去停用詞后,得到分詞文本“傳輸網(wǎng) A水電站 5盤 3端口 發(fā)生 連接 信號 丟失 LINKLOS”。

      3.3 無監(jiān)督召回方案

      完成文本數(shù)據(jù)預(yù)處理后,初步分析故障工單及值班日志數(shù)據(jù)相關(guān)列信息,發(fā)現(xiàn)故障名稱列較故障現(xiàn)象描述列更能準(zhǔn)確地描述故障內(nèi)容,因此,本文采用故障名稱文本列代表故障工單,對值班日志進(jìn)行候選召回,日志則用日志內(nèi)容文本列代表。

      無監(jiān)督召回中,第1種召回方法采用TF-IDF,將故障名稱及值班日志內(nèi)容文本轉(zhuǎn)化為TF-IDF。具體地,一條故障名稱或日志內(nèi)容記錄均可認(rèn)為是一篇文檔,用文檔中每個詞的TF-IDF組成的詞袋向量表示該文檔,再根據(jù)余弦相似度計算某條故障工單與所有日志的相關(guān)性,按照余弦相似度的大小對日志進(jìn)行排序,取相似度最大的前30條日志作為該故障工單的召回候選日志。選取一條故障工單為例,該故障工單名稱為“主干網(wǎng)A變-B中調(diào)光路異?!保?展示了采用TF-IDF召回的相似度排序靠前的3條候選日志,從結(jié)果可以看出召回的候選日志在內(nèi)容上基本與故障工單有關(guān),說明采用TF-IDF可有效召回。

      第2種召回方法采用Word2vec,將故障名稱以及日志內(nèi)容文本作為語料庫,利用Word2vec模型訓(xùn)練出每個詞的詞向量,一條故障名稱或日志內(nèi)容記錄均可認(rèn)為是一篇文檔,接著把文檔中每個詞的詞向量加以平均得到該文檔的向量表示,根據(jù)余弦相似度計算某條故障工單與所有值班日志的相關(guān)性,接著按照余弦相似度的大小對日志進(jìn)行排序,同樣取相似度最大的前30條日志作為該故障工單的召回候選日志。

      同樣選取一條故障工單作為例子,該故障工單名稱為“主干傳輸網(wǎng)D中調(diào)至E變光路異?!?,采用Word2vec召回的相似度排序靠前的3條候選日志見表4,從結(jié)果可以看出召回的日志在內(nèi)容上基本與故障工單有關(guān),說明采用Word2vec召回的有效性。另外,發(fā)現(xiàn)部分召回的值班日志在內(nèi)容上雖與故障工單相似,但時間上卻有差別,這個問題可通過后續(xù)構(gòu)造的時間特征加以校正。

      表3 TF-IDF召回候選日志實際效果示例

      第3種召回方法采用BM25,利用BM25算法計算故障名稱和每條日志內(nèi)容文本之間的相關(guān)性,并按照BM25相關(guān)性大小對日志進(jìn)行排序,取相關(guān)性最大的前30條日志作為該故障工單的召回候選日志,采用BM25方法同樣可有效召回日志。本文采用3種不同的相似度衡量因子,目的是利用文本表示方法的不同方向?qū)ふ蚁嗨莆谋?,以保證較高的召回率,取相似度靠前的30條日志,可同時保證較為平衡的正負(fù)樣本比例和較高的召回率。

      最后將上述3種方法召回的所有候選值班日志進(jìn)行合并去重,并根據(jù)實際是否關(guān)聯(lián)匹配打上標(biāo)簽,若故障工單與召回日志存在關(guān)聯(lián)關(guān)系,則打標(biāo)簽1,若無關(guān)聯(lián)則打標(biāo)簽0,得到用于后續(xù)監(jiān)督分類的標(biāo)簽數(shù)據(jù)集。經(jīng)實驗計算,通過本召回方法,關(guān)聯(lián)日志的召回率可達(dá)90%以上,即整體上90%以上實際存在關(guān)聯(lián)的日志已存在候選日志中,且標(biāo)簽數(shù)據(jù)集正負(fù)樣本比例約為1:10,比例較為平衡,適合進(jìn)行下一步的二分類。

      3.4 監(jiān)督分類方案

      監(jiān)督分類方案包括特征工程和模型訓(xùn)練兩個過程,首先進(jìn)行特征工程,對無監(jiān)督召回得到的記錄數(shù)據(jù),根據(jù)任務(wù)需求構(gòu)造出有利于區(qū)分標(biāo)簽的23個特征,包括故障名稱與候選日志內(nèi)容之間的TF-IDF余弦相似度、Word2vec詞向量余弦相似度、Word2vec詞向量曼哈頓距離、Word2vec詞向量歐氏距離、BM25相關(guān)性;故障現(xiàn)象描述與候選日志內(nèi)容之間的TF-IDF余弦相似度、Word2vec詞向量余弦相似度、Word2vec詞向量曼哈頓距離、Word2vec詞向量歐氏距離、BM25相關(guān)性;故障工單發(fā)生時間與日志記錄時間的年份差、月份差、日差;未作分詞的故障名稱與候選日志內(nèi)容之間的文本編輯距離[16](包括Levenshtein距離和Jaro-Winkler距離);未作分詞的故障現(xiàn)象描述與候選日志內(nèi)容之間的文本編輯距離;分詞后的故障名稱與候選日志內(nèi)容之間的文本編輯距離;分詞后的故障現(xiàn)象描述與候選日志內(nèi)容之間的文本編輯距離;分詞后的故障名稱與候選日志內(nèi)容之間的2-gram距離[17];分詞后的故障現(xiàn)象描述與候選日志內(nèi)容之間的2-gram距離等特征。圖1中的第二步即展示了無監(jiān)督召回、打標(biāo)簽和特征工程后的訓(xùn)練數(shù)據(jù)示例。

      接著,將含有特征列和標(biāo)簽列的數(shù)據(jù)送進(jìn)二分類模型中,在本地訓(xùn)練8折交叉的LightGBM模型,在南方電網(wǎng)調(diào)度云平臺上訓(xùn)練GBDT模型,分別得到最終的二分類關(guān)聯(lián)模型。由于無監(jiān)督召回方案可達(dá)到90%以上的召回率,因此理論上如果二分類模型擬合效果足夠好,最終的關(guān)聯(lián)日志召回率可達(dá)到無監(jiān)督方案的召回率,但不會超過這個值。

      表4 Word2vec召回候選日志實際效果示例

      4 實驗結(jié)果與分析

      4.1 實驗數(shù)據(jù)集

      本文進(jìn)行智能關(guān)聯(lián)方法的相關(guān)實驗時,采用了電力通信運行管理系統(tǒng)中2010—2019年共10年的故障工單數(shù)據(jù)和值班日志數(shù)據(jù),其中,故障工單數(shù)據(jù)共1 291條,值班日志數(shù)據(jù)共6 632條,數(shù)據(jù)所含具體信息見表1和表2,10年的數(shù)據(jù)中,故障工單與值班日志有關(guān)聯(lián)的不同記錄共有5 384條,均由人工進(jìn)行關(guān)聯(lián)。本文實驗將劃分2010—2018年的數(shù)據(jù)作為訓(xùn)練集,2019年的數(shù)據(jù)作為測試集。

      4.2 實驗結(jié)果分析

      為方便對實驗結(jié)果進(jìn)行對比與分析,本文引入召回率和精確率兩個常見的指標(biāo),其中,召回率反映了正樣本被預(yù)測正確數(shù)占原正樣本的比例,針對本文具體場景,即:

      其中,TP表示正樣本被預(yù)測正確,也即關(guān)聯(lián)正確的數(shù)量;表示原正樣本,即原存在關(guān)聯(lián)的樣本數(shù)量。

      精確率反映了正樣本被預(yù)測正確的數(shù)量占被預(yù)測為正樣本數(shù)的比例,針對本文具體場景,即:

      其中,TP表示正樣本被預(yù)測正確,也即關(guān)聯(lián)正確的數(shù)量;表示被預(yù)測為正樣本的數(shù)量。

      本地實驗分?jǐn)?shù)據(jù)預(yù)處理、無監(jiān)督召回和監(jiān)督分類3個步驟進(jìn)行,首先對10年內(nèi)的1 291條故障工單數(shù)據(jù)進(jìn)行無監(jiān)督召回,通過TF-IDF、Word2vec和BM25 3種相似度衡量因子分別召回38 730條值班日志,經(jīng)過合并去重后得到68 077條值班日志數(shù)據(jù),其中故障工單與日志有關(guān)聯(lián)的記錄(Label為1)的數(shù)量為4 923條,即無監(jiān)督方案召回率為91.44%。

      實際訓(xùn)練需要將2010—2018年無監(jiān)督召回的62 874條記錄與2010—2018年原本存在關(guān)聯(lián)的4 965條記錄(Label為1)進(jìn)行合并去重,得到63 309條訓(xùn)練集,正負(fù)樣本比為 4 965:58 344= 1:11.75。

      本地實驗首先采用LightGBM單模型進(jìn)行訓(xùn)練,對2019年的數(shù)據(jù)進(jìn)行測試,本地實驗不同迭代次數(shù)下LightGBM單模型的測試性能如圖2所示,橫軸表示迭代次數(shù),縱軸表示精確率或召回率??梢钥吹疆?dāng)?shù)螖?shù)為2 500時,模型可以達(dá)到較好的測試性能。

      圖2 本地實驗不同迭代次數(shù)下模型測試性能

      接著采用折交叉驗證的訓(xùn)練方法,即將訓(xùn)練集平均分為份數(shù)據(jù),訓(xùn)練次模型,并對測試集進(jìn)行次測試,將次測試結(jié)果進(jìn)行平均得到最終的測試結(jié)果。折交叉驗證每次訓(xùn)練時,依次將均分的?1份數(shù)據(jù)作為訓(xùn)練集,剩下1份數(shù)據(jù)作為驗證集。迭代次數(shù)為2 500時,不同交叉折數(shù)下的模型測試性能如圖3所示,橫軸表示模型交叉折數(shù),縱軸表示精確率或召回率。從實驗結(jié)果可以看到,從2折交叉到8折交叉,模型的測試性能,包括精確率和召回率都是逐步上升的,而10折交叉與8折交叉的測試性能基本一致,因此,最終選擇性能最佳的LightGBM的8折交叉驗證模型。

      圖3 本地實驗不同交叉折數(shù)下模型測試性能

      為了推進(jìn)智能關(guān)聯(lián)方法的實際應(yīng)用,在南方電網(wǎng)調(diào)度云平臺開展了GBDT模型實驗,將本地處理完成的二分類特征數(shù)據(jù)同步至南方電網(wǎng)調(diào)度云平臺的對象存儲OSS(object storage service)中,映射到ODPS(open data processing service)后在機(jī)器學(xué)習(xí)PAI(platform of artificial intelligence)平臺進(jìn)行模型訓(xùn)練與預(yù)測,采用GBDT二分類單模型訓(xùn)練,樹的數(shù)目設(shè)置為400,關(guān)聯(lián)的精確率可達(dá)到88.1%,召回率達(dá)到90.2%,從預(yù)測結(jié)果可以看出,GBDT二分類基本上可以達(dá)到與本地實驗LightGBM 同樣的效果。

      4.3 實驗拓展

      為了更加充分證明所提出智能關(guān)聯(lián)方法的普適性,本文拓展了電力通信運行管理中檢修單與值班日志的關(guān)聯(lián)實驗,實驗選取了2011—2013年的檢修單與值班日志數(shù)據(jù),其中檢修單數(shù)據(jù)共1 661條,值班日志數(shù)據(jù)共3 863條,值班日志具體信息見表1,檢修單具體信息見表5,主要包括檢修單號、檢修內(nèi)容、檢修結(jié)束時間等信息,表中數(shù)據(jù)已作脫敏處理,其中變電站、電廠、換流站、供電局等名稱均用大寫字母代替。

      檢修單和值班日志已由人工進(jìn)行關(guān)聯(lián),本文實驗將劃分2011—2012年的數(shù)據(jù)作為訓(xùn)練集,2013年的數(shù)據(jù)作為測試集。

      采用上述故障工單和值班日志智能關(guān)聯(lián)實驗中性能最佳的迭代次數(shù)為2 500,LightGBM的8折交叉驗證模型,對檢修單與值班日志的智能關(guān)聯(lián)進(jìn)行實驗,同樣分無監(jiān)督召回和監(jiān)督分類兩個部分,實驗預(yù)測結(jié)果中,關(guān)聯(lián)的精確率可達(dá)到94.3%,召回率達(dá)到83.4%,此處召回率未達(dá)到90%是由檢修日志的數(shù)據(jù)特性所決定的,部分值班日志數(shù)據(jù)實際上有關(guān)聯(lián)至檢修單,但日志內(nèi)容格式相對統(tǒng)一,可辨性低,例如對于多數(shù)檢修單,都會有記錄工作結(jié)束的日志,“值班員于2013-12-04 08:21:04跟進(jìn)批復(fù)編號為2013.5529的檢修票,執(zhí)行事件記錄如下:11月27日10:30工作結(jié)束,業(yè)務(wù)恢復(fù)正常?!眴螐臄?shù)據(jù)文本內(nèi)容來看,無法精確關(guān)聯(lián)至具體的檢修單,因此這部分日志利用文本處理方法較難精確召回,后續(xù)可通過規(guī)則匹配檢修單號的方法進(jìn)行關(guān)聯(lián)。整體上,本文所提出的電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法在應(yīng)用至檢修單與值班日志數(shù)據(jù)時,同樣具有較好的關(guān)聯(lián)效果。

      5 結(jié)束語

      本文針對電力通信運行管理過程中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)在統(tǒng)計上相對獨立、關(guān)聯(lián)性不強(qiáng)、人工關(guān)聯(lián)低效的問題,以文本挖掘技術(shù)為基礎(chǔ),提出了典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法。本文選取了故障工單和值班日志兩種典型的業(yè)務(wù)數(shù)據(jù),設(shè)計了無監(jiān)督召回和監(jiān)督分類相結(jié)合的機(jī)器學(xué)習(xí)模型,最終達(dá)到了較高的精確率與召回率,實現(xiàn)了故障工單與值班日志數(shù)據(jù)的準(zhǔn)確關(guān)聯(lián)。

      表5 檢修單具體信息

      下一步,將根據(jù)需要繼續(xù)完善南方電網(wǎng)調(diào)度云平臺上的智能關(guān)聯(lián)模型,同時與系統(tǒng)數(shù)據(jù)庫互聯(lián),逐步實現(xiàn)數(shù)據(jù)的統(tǒng)一調(diào)管與模型的統(tǒng)一運維。另外,將電力通信運行管理中典型業(yè)務(wù)數(shù)據(jù)的智能關(guān)聯(lián)方法通用化,以解決如在運行監(jiān)控、資源管理以及資產(chǎn)管理中的信息關(guān)聯(lián)問題。

      [1]DAN J, JAMES H M. Speech and language processing (3rded. draft)[EB].

      [2]李生. 自然語言處理的研究與發(fā)展[J]. 燕山大學(xué)學(xué)報, 2013, 37(5): 377-384.

      LI S. Research and development of natural language processing[J]. Journal of Yanshan University, 2013, 37(5): 377-384.

      [3]王慧芳, 曹靖, 羅麟. 電力文本數(shù)據(jù)挖掘現(xiàn)狀及挑戰(zhàn)[J]. 浙江電力, 2019, 38(3): 1-7.

      WANG H F, CAO J, LUO L. Current status and challenges of power text data mining[J]. Zhejiang Electric Power, 2019, 38(3): 1-7.

      [4]邱劍. 電力中文文本數(shù)據(jù)挖掘技術(shù)及其在可靠性中的應(yīng)用研究[D]. 杭州: 浙江大學(xué), 2016.

      QIU J. Research on power Chinese text data mining techndogy and reliability application[D]. Hangzhou: Zhejiang University, 2016.

      [5]汪崔洋, 江全元, 唐雅潔, 等. 基于告警信號文本挖掘的電力調(diào)度故障診斷[J]. 電力自動化設(shè)備, 2019, 39(4): 126-132.

      WANG C Y, JIANG Q Y, TANG Y J, et al. Fault diagnosis of power dispatching based on alarm signal text mining[J]. Electric Power Automation Equipment, 2019, 39(4): 126-132.

      [6]劉梓權(quán), 王慧芳, 曹靖, 等. 基于卷徑神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型研究[J]. 電網(wǎng)技術(shù), 2018, 42(2): 644-650.

      LIU Z Q, WANG H F, CAO J, et al. A classification model of power equipment defect texts based on convolutional neural network[J]. Power System Technology, 2018, 42(2): 644-650.

      [7]王春柳, 楊永輝, 鄧霏, 等. 文本相似度計算方法研究綜述[J].情報科學(xué), 2019, 37(3): 158-168.

      WANG C L, YANG Y H, DENG F, et al. A review of text similarity approaches[J]. Information Science, 2019, 37(3): 158-168.

      [8]沈斌. 基于分詞的中文文本相似度計算研究[D]. 天津: 天津財經(jīng)大學(xué), 2006. SHEN B. Study on chinese text similarity computing based on word segmentation[D]. Tianjin: Tianjin University of Finance and Economics,2006.

      [9]JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972, 28(1): 11-21.

      [10]SALTON G, YU C T. On the construction of effective vocabularies for information retrieval[C]//Proceedings of ACM SIGIR Forum. New York: ACM Press, 1973: 48-60.

      [11]MIKOLOV T, CORRADO G, CHEN K, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations (ICLR 2013). [S.l.:s.n.], 2013.

      [12]ROBERTSON S E, ZARAGOZA H. The probabilistic relevance framework: BM25 and beyond[J]. Foundations and Trends in Information Retrieval, 2009, 3(4): 333-389.

      [13]FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

      [14]KE G, MENG Q, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Advances in Neural Information Processing Systems (NIPS). [S.l.:s.n.], 2017.

      [15]曹小芹. 基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J]. 信息與電腦, 2019(18): 38-39, 42.

      CAO X Q. Technology implementation of Chinese jieba segmentation based on Python[J]. China Computer & Communication, 2019(18): 38-39, 42.

      [16]陳正銘, 霍英. 編輯距離算法在中文文本相似度計算中的優(yōu)化與實現(xiàn)[J]. 韶關(guān)學(xué)院學(xué)報, 2019, 36(12): 8-12.

      CHEN Z M, HUO Y. Optimization and implementation of the edit distance algorithm in chinese similarity calculation[J]. Journal of Shaoguan University, 2019, 36(12): 8-12.

      [17]余小軍, 劉峰, 張春. 基于N-Gram文本特征提取的改進(jìn)算法[J]. 現(xiàn)代計算機(jī), 2012(23): 3-7.

      YU X J, LIU F, ZHANG C. Improved text feature extraction algorithm based on N-Gram[J]. Modern Computer, 2012(23): 3-7.

      Intelligent correlation method of typical business data in power communication operation management

      WU Guilong, YANG Zhimin, HUANG Yu

      Power Dispatching and Control Center of China Southern Grid Co., Ltd., Guangzhou 510525, China

      In the process of power communication operation management, various independent business data, such as trouble tickets, duty logs, maintenance tickets, and inspection records, are generated and stored. These business data provide important support for the operation management of the power communication network. At present, the statistical process of most business data is relatively independent, and there is less manual correlation in the later stage. Two typical business data of duty log and trouble ticket in power communication operation management were selected, text mining technology was used to build a machine learning model combining unsupervised recall and supervised classification, and the intelligent association method between duty log and trouble ticket was proposed. Besides, the relevant historical business data in the electric power communication operation management system was used to do the experimental verification of the intelligent association method. The results show that it can achieve positive effect.

      power communication operation management, typical business data, duty log, trouble ticket, intelligent association method

      TP319

      A

      10.11959/j.issn.1000?0801.2021014

      2020?05?11;

      2020?12?21

      吳桂龍(1993? ),男,中國南方電網(wǎng)電力調(diào)度控制中心工程師,主要從事電力通信運行等工作。

      楊志敏(1982? ),男,博士,中國南方電網(wǎng)電力調(diào)度控制中心高級工程師,主要從事電力通信運行及技術(shù)支持系統(tǒng)研究等工作。

      黃昱(1980? ),男,中國南方電網(wǎng)電力調(diào)度控制中心高級工程師,主要從事電力通信運行管理等工作。

      猜你喜歡
      工單電力通信分詞
      基于量化考核的基層班組管理系統(tǒng)的設(shè)計與應(yīng)用
      電子測試(2022年7期)2022-04-22 00:13:16
      基于transformer的工單智能判責(zé)方法研究
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      無線通信技術(shù)在電力通信專網(wǎng)中的應(yīng)用
      基于HANA的工單備件采購聯(lián)合報表的研究與實現(xiàn)
      中國核電(2017年1期)2017-05-17 06:09:55
      值得重視的分詞的特殊用法
      冷接技術(shù)在電力通信的應(yīng)用
      電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
      電力通信工程建設(shè)存在的問題與對策
      OTN技術(shù)在電力通信中的應(yīng)用
      阳江市| 建德市| 边坝县| 临泉县| 东源县| 新野县| 昆明市| 绵阳市| 平塘县| 江口县| 都匀市| 麻栗坡县| 天柱县| 永清县| 香格里拉县| 丘北县| 昭平县| 安陆市| 郎溪县| 定南县| 蒙城县| 宝清县| 宜川县| 泸溪县| 太和县| 普定县| 新民市| 海晏县| 永新县| 平乡县| 华坪县| 江都市| 丁青县| 化隆| 县级市| 延吉市| 丽江市| 阿巴嘎旗| 淳化县| 正镶白旗| 枣庄市|