王文娟 李鴻健
1(國網重慶電力公司 重慶 400060)
2(重慶郵電大學計算機科學與技術學院 重慶 400065)
在電力系統(tǒng)中,運維服務項目計劃將成為運維服務日常管理工作中的一個重要環(huán)節(jié),實行嚴格的運維服務項目計劃是電力企業(yè)發(fā)展的迫切需要,也是建立規(guī)范有效的內控制度的必要環(huán)節(jié)。然而,當前的運維服務項目計劃管理是管理工作中比較薄弱的環(huán)節(jié),對運維服務項目計劃進行有效的管控,保證項目計劃合理、完整、準確具有重要意義。當前電力系統(tǒng)運維服務項目計劃管理存在以下問題:(1) 項目計劃類別錯誤,項目內容不規(guī)范、運維服務內容超范圍等,給后續(xù)的管理工作帶來諸多不便;(2) 項目存在重復申報和立項的問題,資金使用效率低,審批過程中無法進行實時分析,管理過程不能實時跟蹤和追溯;(3) 申報過程繁瑣,周期較長,項目的管理過程復雜耗費了大量的人力資源。因此,電力系統(tǒng)對運維服務項目計劃申報和管理提出了更高的要求。目前文獻[1-2]針對科研項目的重復立項和管理提出了一些輔助查詢分析和預警,然而科研項目管理與電力運維服務項目計劃管理具有不同特點,難以有效地解決電力運維服務項目計劃管理的問題。
基于中文文本挖掘實現(xiàn)智能文本處理是一項重要且具有挑戰(zhàn)的技術[3-5]。目前,基于文本挖掘的中文分詞技術已經廣泛應用于中文自動分類、自動摘要、自動校對等領域[6-8]。中文文本挖掘的應用有時是很困難的,經常需要與專業(yè)知識進行密切結合[9]。隨著大數據和互聯(lián)網的發(fā)展,中文文本挖掘在網頁中的應用越來越廣泛,然而在專業(yè)領域的應用如在電力領域文本挖掘還正處于初級階段[10]。在國內電力系統(tǒng)研究中,文獻[11]采用文本挖掘技術對電力設備典型故障案例進行研究,采用智能文本技術提高對故障原因信息提取的準確率;文獻[12]深入研究了電力系統(tǒng)設備缺陷的文本分類模型,將深度學習方法應用于該領域的分類模型。在國際上,文獻[13]通過歷史事件和天氣等信息對變電站負荷進行預測;文獻[14]通過文本挖掘技術對電力系統(tǒng)的故障風險進行研究等。由此可見,文本挖掘技術可應用于電力系統(tǒng)并提高運行維護的效率。
本文將文本挖掘技術應用于電力系統(tǒng)運維服務項目計劃的輔助管理,設計并實現(xiàn)了基于智能分詞處理技術的項目計劃輔助管理系統(tǒng)。首先采用智能分詞技術對電力運維服務計劃材料進行分詞,然后設計多層級多分類器融合分類方法進行項目分類,并進行項目相似度計算,實現(xiàn)項目申報的分類檢查和高重復度的智能提示,避免項目類別填報錯誤、項目重復申報和立項、項目內容不規(guī)范、運維服務內容超范圍等問題。本文構建了一種適用于電力系統(tǒng)運維項目智能輔助管理的框架,基于該框架通過智能分類和計算項目相似度,在檢測項目重復度和分類匹配的同時,為項目過濾評審和管理提供必要提示信息。通過該模型和系統(tǒng)對電力系統(tǒng)運維服務管理項目進行規(guī)范化管理,數據結果表明,分類匹配精確度對比傳統(tǒng)分類方法提高3個百分點以上,能夠檢查高重復度項目,過濾不規(guī)范項目,有效提高了運維服務項目管理效率。
本節(jié)構建電力運維服務項目智能輔助計劃管理框架,基于該框架實現(xiàn)電力系統(tǒng)運維服務項目智能管理輔助系統(tǒng)。
基于文本挖掘技術的電力運維服務項目智能輔助管理框架如圖1所示。首先對申報材料進行智能分詞處理;然后提取和表示項目特征,基于特征向量進行多層級多分類器融合分類和相似度計算,過濾分類錯誤項目和重復申報項目,并在專家評審階段分類評審;最后實現(xiàn)項目一鍵式材料歸檔,降低人工成本,將已立項項目納入項目庫進行后期管理。
圖1 電力運維服務項目智能輔助管理框架
申報項目立項進入管理庫后,可對本模型進一步優(yōu)化訓練,采用歷史樣本對初始運維服務項目智能申報分類模型進行訓練,得到的運維服務項目智能申報模型再經過測試項目驗證和優(yōu)化。在該框架下,還可以采用數據挖掘和分析技術對目標項目數據資源進行定期分析和跟蹤,以達到對運維服務項目智能申報模型的訓練和學習,使運維服務項目智能申報模型能夠不斷優(yōu)化。運維服務項目智能申報模型通過定期的分析和跟蹤,能夠及時進行調整和評價,使模型能夠不斷地進行優(yōu)化,從而使得運維服務項目智能申報各種功能模塊的效果越來越好。
電力系統(tǒng)運維服務因納入項目化管控時間較短,對于項目需求評審、運維服務過程規(guī)范等內容檢查仍在摸索階段,公司根據運維服務管理的經驗,提取運維服務管理過程中的痛點和難點,重點加強項目計劃端管控力度,實現(xiàn)項目立項有據可依,項目計劃管控全程可追溯。圖2為電力運維服務項目智能輔助管理功能模塊圖,主要功能如下:1) 實現(xiàn)在線計劃填報、項目計劃修改、審核全程可追溯。2) 通過智能分詞技術實現(xiàn)過濾、分類和重復度檢測,分析檢測項目內容,為項目計劃審核主動提供審核提示,提高工作效率。智能分詞技術實現(xiàn)的具體功能包括:(1) 過濾,自動過濾不符合要求項目;(2) 分類匹配,對申報項目進行自動分類檢查;(3) 項目重復度檢測,對項目進行相似度計算,包括與已立項項目進行對比和同時申報項目之間的比對,給項目管理者和項目評審專家提供參考。3) 在項目計劃確認后一鍵生成后期資料,減少因資料文檔工作量大而造成的人工重復工作量,提升運維服務管理規(guī)范性、精益化水平。
圖2 電力運維服務項目計劃智能管理系統(tǒng)功能設計
本系統(tǒng)主要目的是減少人力處理數據環(huán)節(jié),節(jié)省大量人工操作,實現(xiàn)自動化輔助管理,減少項目重復申報和立項,提高項目管理和資金利用效率。同時還能實現(xiàn)智能提示,避免項目內容不規(guī)范、運維服務內容超范圍等情況。
本文采用文本分類方法對申報材料進行分類,電力運維服務項目共分三級科目,例如一級科目分為五大類:軟件系統(tǒng)信息統(tǒng)推(IC)、硬件設備(IB)、基礎設施(ID)、一級客服(IA)、其他系統(tǒng)(IE)。本文對一級科目和二級科目的分類精確度進行優(yōu)化提升。項目在申報時由于各種原因可能存在申報分類不正確的問題,會給后續(xù)項目評審、績效評估、項目管理、歸檔等帶來各種問題,因此在項目初審時必須嚴格篩查。本系統(tǒng)采用文本分類方法對項目申報材料進行自動分類,對可能存在類別錯誤的項目進行提示,減少人工篩查的巨大工作量,提高了初審效率。
2.1.1一級科目分類方法設計
針對一級科目分類,采用單分類器不能充分挖掘項目文本信息的特征,其分類效果不能得到進一步提升。因此,本文設計了一種多分類器融合分類方法來進行處理,該分類方法組合了組合樸素貝葉斯、邏輯回歸、隨機森林三種分類器。通過三種分類器重復提取項目材料的特征,并提高分類的效果。
由于五類一級科目申報材料中的內容差異較大,描述的對象各不相同,例如軟件系統(tǒng)信息統(tǒng)推(IC)類材料往往會出現(xiàn)軟件、數據庫、中間件等,而這些詞語基本不會出現(xiàn)在其他類材料中,所以考慮用申報材料的詞語作為文本的特征。同時為了避免構建的詞語特征空間出現(xiàn)特征稀疏、維度災難等問題,使用卡方檢驗抽取與類別相關度最大的1 000個詞語作為特征來構建文本詞語特征空間。接著使用詞袋模型將每份申報材料轉換為特征向量。
對申報材料構建文本特征表示后,需要訓練分類器來對材料進行分類,由于不同的分類器具有不同的分類性能,而Stacking集成學習方法能有效地組合分類器并提升性能,所以本文使用Stacking方法組合樸素貝葉斯、邏輯回歸、隨機森林三種分類器來對申報材料進行分類,具體過程如圖3所示。首先將申報材料的文本詞語特征分別輸入到每個分類器中。在每個基分類器下,評論文本都獲得屬于五個類別的五個后驗概率。將五個基分類器對評論文本輸出的十五個后驗分類概率進行拼接,形成新的十五維文本特征向量。最后使用十五維文本特征向量訓練XGBoost分類器[15],并進行一級科目分類,獲取申報材料的一級科目類別。
圖3 多分類器融合分類框架圖
2.1.2二級科目分類方法設計
經過一級科目分類后,還需要將每份申報材料劃分到一級科目下的二級子科目中。由于相同一級科目的申報材料屬于同一領域,因此其內容相通且材料中的用詞十分相近,此時若以詞語來作為申報材料的特征將不再具備區(qū)分度。所以本文考慮綜合使用卷積神經網絡[16]和自編碼神經網絡[17]來分別構建申報材料的局部特征和全局特征。
首先使用Word2Vec方法訓練得到申報材料的詞向量并作為卷積神經網絡的輸入,接著使用不同高度的卷積核進行卷積計算,當卷積核的高度不同時對應地提取不同長度的局部特征。然后經過池化層、Dropout層和全連接層進行分類。模型訓練完成后,提取池化層的輸出向量作為申報材料的局部特征。
自編碼網絡能通過具有隱藏層的神經網絡的逐層特征變換獲得原始數據的低維表示,從而達到在顯著降低文本特征維度的同時盡量保留原本輸入內容的目的。本文自編碼網絡的結構如圖4所示。
圖4 自編碼網絡結構圖
Lθ表示自編碼網絡的目標函數,計算式如下:
(1)
(2)
訓練過程中通過反向傳播梯度下降的方法更新參數,使得目標函數減小。當輸出誤差L足夠小時,表明輸入樣本數據可以通過隱藏層重構表達,此時隱藏層輸出即為提取的申報材料全局特征。
最后將獲取的申報材料的局部特征和全局特征拼接作為輸入來訓練新的XGBoost分類器并進行二級科目的分類。
2.2.1基于TF-IDF算法的特征項選取
采用TF-IDF算法進行文本特征項提取,根據本文的具體應用,對項目范圍和項目內容等文本內容進行特征項提取。構建項目的文本特征向量,其具體步驟包含:(1) 對文本向量進行降維;(2) 采用TF-IDF的算法對特征項進行評估并排序;(3) 根據閾值選取評估分值高的作為特征項。
2.2.2計算文本相似度
采用余弦相似性算法對電力運維服務項目材料包括維護范圍、維護內容、維護要求等綜合分析項目之間相似性。余弦相似性算法[18]已經廣泛應用于文本相似度計算,如式(3)所示,通過計算兩個項目特征的向量余弦相似度,檢測項目文本重復度。
(3)
通過計算余弦相似度能夠快速查重,一方面檢測申報項目與歷史立項項目間的重復度,避免重復立項;另一方面檢測同時申報的項目間的重復度,避免重復申報,通過檢查高重復度項目為項目評審和管理人員提供輔助決策信息,節(jié)約了大量的人工比對和操作時間,進一步提高項目管理效率。
軟硬件配置:本實驗采用的計算機系統(tǒng)為64位Windows 10系統(tǒng),處理器為Core-i7,內存為16 GB,硬盤為128 GB的固態(tài)硬盤、2 TB機械硬盤。本文對文本進行一系列預處理工作,包括去掉申報材料中的相同內容部分、無用部分,進行中文分詞。分詞工具采用的是NLPIR漢語分詞系統(tǒng),其主要功能包括中文分詞、詞性標注等,該系統(tǒng)在中文分詞任務中有很好的表現(xiàn)。
以該系統(tǒng)在某省電力運維服務計劃項目管理中的應用為例,通過對2016年及以前的共1 600個歷史申報項目進行訓練和測試,將其劃分為訓練集為1 200個項目,測試集400個項目,然后對2016年—2018年新申報的350個運維服務申報項目進行文本分析。本實驗采用的評價指標包括準確率(Precision)、召回率(Recall)和F1值,計算分別如下:
(3)
(4)
(5)
式中:TP和FP分別表示為識別的正類總數和負類總數;未識別的正類總數由FN表示。Precision為查準率,表示檢索出來的條目有多少是正類的;Recall為召回率,表示正類中有多少被檢索出來;F1值作為反映模型好壞的評價指標,可以保證客觀公正。
3.2.1分類結果
為了測試本文采用的多分類器融合方法的效果,將本文方法與SVM、LG、CNN、文獻[19]方法的測試效果進行對比,一級分類結果如表1所示。
表1 一級分類結果 %
可以看出,本文采用的多分類器融合方法在一級分類中效果顯著,本文方法準確率達到90%以上,相比其他傳統(tǒng)方法,準確率提高了2.4~5.4個百分點,F(xiàn)1值提高了2.2~6.0個百分點。由此可見,本文方法相比其他傳統(tǒng)方法具有更好的分類效果。
在幾種傳統(tǒng)的單一分類器的對比中,CNN方法由于具有自我學習能力,表現(xiàn)出較好的分類效果。而LG、SVM方法的特征是人為確定的,CNN方法相比于LG、SVM方法有較高的適應性。另一方面,LG、SVM、CNN三種方法與本文方法相比的分類結果相差較大,主要原因是LG、SVM提取的特征較少,所以很容易受到噪聲影響,從而造成了分類結果較差,而CNN方法雖然可以自動從樣本中提取特征,但由于數據量較小,容易過擬合,從而分類效果降低。
而文獻[19]方法盡管也采用了兩種分類器進行融合分類,然而其在一級分類中準確率仍然無法達到90%及以上,本文結合三種分類器進行融合分類的方法,獲取更多文本特征滿足分類要求。
二級分類結果如表2所示。SVM方法的準確率最低,原因可能是數據量過多和樣本中有缺損數據,導致SVM在二級分類中表現(xiàn)相對較差的原因還在于SVM分類器自身的泛化能力過于強大,無法區(qū)分出類間的不同。而且SVM方法效率較低,因為SVM無法直接給出多分類的最終結果,要通過多個SVM分類器才能給出最終結果,花費的訓練時間和測試時間都有所上升。LG方法與SVM方法相比準確率提高了1.8個百分點,F(xiàn)1值提高了2.0個百分點,但LG方法同樣無法直接給出最終結果,需要多個分類器才能給出多分類的最終結果。
表2 二級分類結果 %
CNN與SVM相比,其準確率分別提高了2.3個百分點,召回率器高了4.3個百分點。CNN在二級分類中更能區(qū)分出類間的不同,因為CNN強大的擬合能力是其他方法不具備的。
本文方法與CNN方法相比,在準確率、召回率、F1值均方面分別提高了4.4、4.4和5.6個百分點。這是因為本文把自編碼網絡與CNN相結合,通過自編碼網絡能獲得原始數據的低維表示,從而達到在顯著降低文本特征維度的同時盡量保留原本輸入內容的目的,提升了在二級分類中的分類效果。
3.2.2相似度分析結果
通過上述相似度計算,可得歷史已立項項目庫的文本重復度情況如表3所示。高度重復項目主要是項目申報者對已立項的項目做了簡單改動并重復申報,例如:電力維護服務項目中,有些項目盡管名稱不同,但維護內容和維護范圍卻高度相同。盡管電力維護服務項目在服務內容上存在一些重復,然而為了杜絕項目申報只進行簡單修改就重復申報的情況,對高重復度項目仍有必要進行自動提醒。
表3 歷史已立項項目庫的文本重復度情況表 %
近三年未立項項目的文本最大重復度情況如表4所示,未立項項目的最大重復度遠大于已經立項項目的重復度。由此可見,對于通過項目重復度計算找出高重復度項目,為項目評審和管理提供重復度信息很有必要。
表4 近三年未立項項目的文本最大重復度情況表 %
基于文本挖掘的分類、相似度計算等技術,本文開發(fā)了電力運維服務智能管理系統(tǒng),該系統(tǒng)實現(xiàn)了電力運維項目自動分類檢查、高文本重復度提示、格式規(guī)范檢查等功能,系統(tǒng)部分界面如圖5所示。
(a) 項目提交界面
通過全面分析電力運維服務項目計劃管理現(xiàn)狀,和對現(xiàn)有問題剖析,結合目前工作實施中的痛點和難點,研發(fā)運維服務項目計劃管理系統(tǒng)。規(guī)范電力運維服務項目計劃,利用研發(fā)的管理系統(tǒng)實現(xiàn)項目申報智能提醒、項目填報智能提示,對項目管理各個環(huán)節(jié)的行為數據進行全過程、全流程、全留痕記錄,實現(xiàn)數據的實時分析、實時跟蹤、實時追溯,引入人工智能技術,切實提升運維服務項目的水平、質量、效率。目前該系統(tǒng)在重慶電力運維服務項目申報中得到了很好的運用,隨著該項目的進一步改進和完善,將在電力系統(tǒng)中得到更廣泛的應用。